导读想象一下:你上线了一个客服Agent,第一个月运行平稳。第二个月开始,你陆续收到用户投诉说"答案不对"。但你的监控系统显示:请求量正常、延迟正常、错误率正常。你打开日志,发现Agent确实"成功"处理了每个请求——只是它给错了答案。这不是监控能发现的问题,因为传统监控指标(请求量、延迟、错误率)全都达标。真正的问题是:Agent在"静默失败"——它产生的内容质量在退化,但没有任何传统指标会报警。这一章解决什么问题:作为PM,你不需要知道如何写监控代码,但你需要知道:Agent产品需要监控什么指标、如何设置告警阈值、如何发现"慢性退化"而不是只看"急性故障"、以及如何设计一个让团队真正能用的监控系统。读完你能学到什么:5类核心监控指标及采集方法如何设计不会"狼来了"的告警系统日志和链路追踪的正确姿势如何发现和应对Agent漂移主流技术栈的选型建议一、为什么Agent产品需要专门的可观测性1.1 传统监控失灵了传统软件的监控逻辑很直接:请求是否成功?延迟是否可接受?有无错误?如果这些都正常,系统就是健康的。但Agent产品打破了这些假设。一个客服Agent可能:请求量正常、延迟200ms、返回200成功——但它把所有订单问题都回答错了。技术上"成功",业务上"失败"。