当前位置: 首页 > news >正文

LLM安全新威胁:为什么几百个毒样本就能破坏整个模型

数据投毒,也叫模型投毒或训练数据后门攻击,本质上是在LLM的训练、微调或检索阶段偷偷塞入精心构造的恶意数据。一旦模型遇到特定的触发词,就会表现出各种异常行为——输出乱码、泄露训练数据、甚至直接绕过安全限制。

这跟提示注入完全是两码事。提示注入发生在推理阶段,属于临时性攻击;而投毒直接改写了模型的权重,把恶意行为永久刻进了模型里。

几种主流的攻击方式

预训练投毒最隐蔽,攻击者把恶意文档混进海量的预训练语料,在模型最底层埋下后门。微调投毒则是在RLHF或监督学习阶段动手脚,贡献一些看起来正常实则带毒的样本。

RAG系统也不安全。攻击者可以污染向量数据库里的文档或embedding,让检索系统在生成回答时调用错误甚至恶意的上下文。还有标签翻转这种简单粗暴的方法,直接改掉训练样本的标签来扭曲模型的决策边界。

最巧妙的是后门触发器攻击——把一个看似无害的短语或token序列跟特定的恶意输出绑定。模型一旦在推理时碰到这个触发器,就会立刻执行预设的恶意行为。

 

https://avoid.overfit.cn/post/b5f759d6ec8b4174afbf1f4ce46c2fa7

http://www.zskr.cn/news/30406.html

相关文章:

  • 软件技术基础第二次作业
  • vue3 不同构建版本
  • 使用 Android NDK 获取 YUV420p摄像头原始数据
  • 高阳台一首
  • 文档扩展名.js .jsx .ts .tsx区别(JavaScript扩展名、React扩展名、TypeScript扩展名)
  • Elasticsearch 搭建(亲测) - 实践
  • React Native启动性能优化实战:Hermes + RAM Bundles + 懒加载 - 指南
  • 20251025 NW
  • 权威调研榜单:气动旋塞阀厂家TOP3榜单好评深度解析
  • session、cookie、token的区别
  • 85-python电网可视化项目-5 - 详解
  • P2135 方块消除 题解
  • 2025 年液态硅胶设备厂家最新推荐榜,技术实力与市场口碑深度解析
  • 2025 年阳台光伏品牌最新推荐榜,技术实力与市场口碑深度解析产品/阳台太阳能光伏/储能/发电/阳台光伏板优质厂家推荐
  • 2025 年最新推荐炼铅炉实力厂家排行榜:含废电瓶 / 反射 / 大型等类型设备,权威测评下优质品牌盘点
  • 2025 年冲压油供应厂家最新推荐榜,聚焦技术实力与市场口碑深度解析锈钢/翅片/高速/挥发性/免清洗冲压油厂家推荐
  • Microsoft AI Genius | 用智能 Microsoft Copilot 副驾驶 构建高韧性 DevOps 流程
  • 当虹云
  • 2025年市面上双曲铝单板品牌、行业内双曲铝单板厂家、市场双曲铝单板产品、目前双曲铝单板供应商、口碑好的双曲铝单板公司排行榜
  • 2025年10月杭州茅台酒回收服务商全景解析报告,基于专业测评的技术、性能及市场优势深度分析
  • 2025年市面上美国留学品牌、口碑好的美国留学产品、2025年美国留学渠道商、评价高的美国留学服务商、美国留学品牌推荐榜综合评测
  • 2025年市面上美国留学品牌、2025年美国留学品牌、口碑好的美国留学品牌、热门的美国留学品牌、美国留学品牌推荐榜深度评测
  • gu
  • C语言基础补全
  • 2025 建筑陶粒厂家最新推荐榜:回填 / 粘土 / 滤料 / 混凝土等多品类优选,实力企业权威测评推荐!
  • 「学习笔记」PHP 基础
  • 关于 NoiLinux 系统和 CodeBlocks 的考场使用
  • 死锁 (Deadlock) 深度解析 - 详解
  • 解压小猫
  • 2025年家具厂家推荐排行榜:实木家具、定制家具、办公家具、软体家具、智能家具源头厂家精选