一个被忽视的事实:你的 Agent 没有免疫系统
想象你刚部署了一个很能干的 AI Agent。它能读写文件、调用 API、管理日程、协调其他 Agent。你给它配了最好的基座模型(Claude Opus 4.6),精心写了 system prompt,做了 RLHF 对齐,加了沙箱和防火墙。
上线三天,有人往它的记忆库里注入了三条精心构造的"回忆"。
这三天里,你的 Agent 在不知不觉中开始优先推荐某个供应商,在工具调用时偏向某个 API,在多 Agent 协作时传递被污染的上下文。它没有"中毒"的迹象——基座权重完好无损,prompt 没被篡改,沙箱日志一切正常。但它的行为已经被悄悄改变了。
这不是假设。这是 MemMorph 攻击的精确描述[24]。也是 MCPInspect[10] 展示的工具层攻击、以及多 Agent 系统中"思想病毒"[19] 传播的共同结构。
问题出在哪?
你给 Agent 修了一座城堡,但城堡里没有免疫细胞。
城堡模型的根本缺陷
传统安全防御遵循"城堡模型":高墙深沟,防火墙、入侵检测、输入过滤。这套范式对静态系统很有效——Web 服务器有明确的边界,数据库有清晰的入口。
但 Agent 不是静态系统。它是一个持续推理、目标驱动、不断修改自身状态的实体。它要读外部数据、执行代码、更新记忆、和其他 Agent 通信。城堡模型在 Agent 时代有三个致命盲区:
- 无法区分恶意工具调用和良性工具调用——它们走同一个 A