当 AI Agent 学会长出免疫系统：从城堡防御到细胞防御的范式转换-尧图网络科技

想象你刚部署了一个很能干的 AI Agent。它能读写文件、调用 API、管理日程、协调其他 Agent。你给它配了最好的基座模型（Claude Opus 4.6），精心写了 system prompt，做了 RLHF 对齐，加了沙箱和防火墙。

上线三天，有人往它的记忆库里注入了三条精心构造的"回忆"。

这三天里，你的 Agent 在不知不觉中开始优先推荐某个供应商，在工具调用时偏向某个 API，在多 Agent 协作时传递被污染的上下文。它没有"中毒"的迹象——基座权重完好无损，prompt 没被篡改，沙箱日志一切正常。但它的行为已经被悄悄改变了。

这不是假设。这是 MemMorph 攻击的精确描述[24]。也是 MCPInspect[10] 展示的工具层攻击、以及多 Agent 系统中"思想病毒"[19] 传播的共同结构。

问题出在哪？

你给 Agent 修了一座城堡，但城堡里没有免疫细胞。

传统安全防御遵循"城堡模型"：高墙深沟，防火墙、入侵检测、输入过滤。这套范式对静态系统很有效——Web 服务器有明确的边界，数据库有清晰的入口。

但 Agent 不是静态系统。它是一个持续推理、目标驱动、不断修改自身状态的实体。它要读外部数据、执行代码、更新记忆、和其他 Agent 通信。城堡模型在 Agent 时代有三个致命盲区：

资讯详情