这一讲解决什么问题
上一讲我们学习了 Agent 评估、观测与 Debug。
它解决的是:
Agent 做得对不对? 为什么这么做? 失败后如何复现? 如何持续评估和改进?这一讲继续往生产环境推进。
当一个 Agent 从 Demo 走向真实用户,问题会发生明显变化。
Demo 阶段,我们关注:
它能不能跑起来? 它能不能回答? 它能不能调用工具? 它能不能完成一个简单任务?生产阶段,我们必须关注:
它会不会越权? 它会不会泄露数据? 它会不会被 Prompt Injection 攻击? 它会不会误调用高风险工具? 它会不会成本失控? 它会不会在用户量上来后变慢? 它能不能灰度发布? 它出了问题能不能回滚? 上线前有没有检查清单?这些问题不是锦上添花。
它们决定了 Agent 能不能真正交付。
一个没有安全边界的 Agent,就像一个拿着生产权限的实习生。
他可能很聪明,也可能很有用。
但如果没有权限控制、审批流程、审计日志和成本限制,就不能直接放到生产环境。
本讲要解决的问题是:
- Prompt Injection 是什么,为什么 Agent