从指标到体验衡量 Agent 的“好用”前言你有没有过这样的经历对着刚上线的「AI 写作助手」输入「帮我写一篇关于量子计算在金融风控中应用的 3000 字企业级报告」它 20 秒就吐出来一篇 5000 字的文章——用词华丽得像科幻小说但完全看不懂风控的逻辑或者更糟把量子纠缠直接写成了「金融产品销量的神奇联动」再换一个场景你用了一款号称「语音转文字会议纪要任务拆解」的办公 Agent它的实时语音识别准确率写在官网是「99.5%」听起来无敌。但真的开会时你部门同事带点四川话、粤语口音的讨论它漏了关键词「Q4 季度西南区经销商返点」自动生成的任务把「市场部在 11 月 20 日前提交竞品调研」写成了「竞品部在 1 月 20 日前提交调研」开完 2 小时会它的纪要居然是一团散碎的关键词没有任何逻辑层级这时候你会发现官网晒的那些冷冰冰的「技术指标」——准确率、召回率、响应时间、并发量——根本不能完全代表这款 Agent 到底「好用不好用」。那问题来了到底什么才是 Agent 的「好用」有没有一套体系既能像技术指标那样可量化、可对比、可迭代又能像真实用户体验那样有温度、有场景、能落地到产品设计这就是我们今天要聊的核心话题——从「单一技术指标」到「多维度、全链路的体验量化体系」完整拆解衡量 Agent「好用」的底层逻辑、工具方法和实战案例。全文 12700 字适合Agent 产品经理、研发负责人、AI 架构师、体验设计师以及所有想落地 Agent 应用的创业者或企业决策人阅读。读完你会彻底搞懂「技术指标」和「体验指标」的区别与联系掌握一套由「核心能力技术指标」→「全链路体验量化指标」→「场景化综合评价体系」组成的完整框架拿到 5 个可直接复用的量化工具含代码示例、Mermaid 图、评估模板避开 8 个新手在 Agent 评估中常踩的「指标陷阱」了解未来 3-5 年 Agent 评估体系的发展趋势。一、 引言为什么单一技术指标“骗”了你1.1 钩子从“99.5%准确率”到“2小时会议白开”的痛点我最近在帮一家 SaaS 公司做「AI 客服 Agent 3.0」的升级复盘。在升级前他们用的是 2.0 版本官网的核心技术指标拉满NLU 意图识别准确率98.2%实体提取 F1 值95.7%平均响应时间RT0.12 秒并发吞吐量QPS10000这些数据在业内绝对是第一梯队的——他们甚至拿这个去申请了行业协会的「优秀 AI 客服」奖项。但升级 3.0 时他们调研了 1000 付费企业客户和 20000 C 端用户拿到的真实反馈却让人大跌眼镜C 端用户占付费 SaaS 流量的 90%“机器人永远听不懂我在说什么我说‘退款’它先让我查物流我说‘我已经查过物流了货没收到要退款’它又让我重新拍单号我拍了单号它居然说‘亲物流正在配送中请耐心等待’——我明明在物流详情里看到‘快递员已滞留站点 7 天’”付费企业客户客单价最高的 10%贡献 60% 的收入“我们去年买了 2.0花了 200 万/年但人工客服的转接率从升级前的 30% 升到了65%不仅没省钱反而增加了人工成本而且机器人经常说假话——上周有个大客户问‘你们的企业版支不支持对接 Salesforce’机器人说‘完全支持一键对接’结果我们技术团队对接了两周才搞定接口兼容还赔了客户一个季度的免费使用权”为什么技术指标这么好用户体验却这么差我们先来拆解一下这家公司的「意图识别准确率 98.2%」是怎么算出来的——哦原来他们用的是**「静态测试集准确率」**测试集是他们内部标注的 10000 条“标准话术”比如「我要退款」「查询物流」「修改收货地址」「取消订单」。这些话术没有歧义、没有口音、没有上下文关联是机器人训练数据的「镜像样本」——准确率能不高吗但真实的 C 端用户会怎么说四川方言版“妹儿哦我那个衣服好久到哦没到老子要退钱哈”带情绪版“什么垃圾物流滞留 7 天没人管赶紧给我退款立刻马上”上下文关联版前一句“你们的物流太慢了”后一句“算了算了我不要了”混合需求版“我要退款顺便帮我看看我之前买的那个耳机的保修期还剩多久”这些真实场景下的“非标准话术”根本不在他们的测试集里静态测试集准确率本质上是「机器人对训练数据的记忆能力」而不是「机器人解决真实用户问题的能力」——这就是第一个也是最常见的「指标陷阱」。1.2 定义问题/阐述背景Agent 和传统软件的“衡量标准完全不同”在深入探讨 Agent 的评估体系之前我们必须先搞清楚一个核心问题Agent 到底和传统的软件、传统的 AI 模型比如单任务的图像识别、语音识别模型有什么本质区别1.2.1 传统软件的衡量标准“确定性交付”传统软件比如 Excel、微信、美团外卖的核心特点是**「确定性逻辑」**你输入「SUM(A1:A10)」Excel 一定会输出 A1 到 A10 的和除非你输入错误你在微信里发一条消息给张三只要网络正常张三 1 秒内一定能收到你在美团外卖下单一份汉堡只要商家接单、骑手取餐一定会在预计时间内送到除非遇到极端天气。所以传统软件的衡量标准非常简单只要满足「确定性交付」的要求就是“好用的”——对应的指标也都是**“纯客观、纯技术、无歧义”**的功能指标功能覆盖率、Bug 率性能指标响应时间、并发量、可用性SLA运维指标平均故障修复时间MTTR、平均无故障时间MTBF。1.2.2 传统单任务 AI 模型的衡量标准“单一任务上的准确率/召回率/F1值”传统单任务 AI 模型比如 AlexNet、ResNet 这类图像分类模型或者 BERT-base 这类文本分类模型的核心特点是**「单一输入→单一输出的映射关系」**你给 AlexNet 输入一张猫的照片它输出「猫」的概率是 99.9%你给 BERT-base 输入一条微博评论它输出「正面」「负面」「中性」的标签。所以传统单任务 AI 模型的衡量标准也相对简单只要在「预定义的单一任务」上表现好就是“好用的”——对应的指标是**“混淆矩阵衍生的指标”**分类任务准确率Accuracy、精确率Precision、召回率Recall、F1 值、ROC 曲线、AUC 值回归任务平均绝对误差MAE、均方误差MSE、均方根误差RMSE、R² 值生成任务早期的比如早期的机器翻译BLEU score、METEOR score。1.2.3 Agent 的本质「自主感知→自主决策→自主行动→自主反馈」的闭环系统那 Agent 呢根据斯坦福大学人工智能实验室SAIL2023 年发布的《Agent 白皮书》Agent 的定义是Agent 是一个能够自主感知环境、基于感知到的信息进行自主决策、通过调用工具Tools或自身能力执行决策、并根据执行结果进行自主优化的闭环系统。我们可以把这个定义拆解成 5 个核心环节也就是「Agent 闭环」感知层Perception接收并理解用户的输入文本、语音、图像、视频、多模态混合同时感知外部环境的变化比如用户的历史行为、实时的天气/股票/物流数据、当前的对话上下文决策层Reasoning/Planning基于感知到的信息理解用户的「真实意图」而不是「字面意思」制定「解决问题的步骤」也就是「规划Plan」如果步骤有问题还要「反思Reflection」并调整行动层Action执行决策层制定的规划——可以是调用自身的能力比如写作、翻译、总结也可以是调用外部工具比如 Google Search、API 接口、数据库、浏览器、代码解释器反馈层Feedback接收行动层的执行结果比如 Google Search 的搜索结果、API 接口的返回值、代码解释器的运行结果同时可以接收用户的即时反馈比如「不对」「继续」「重新来」优化层Optimization/Learning基于反馈层的信息优化感知层的模型、决策层的规划算法、行动层的工具调用策略——这可以是「在线学习」实时优化也可以是「离线微调」定期优化。哦原来 Agent 是一个**「多环节、多模态、多工具、多步骤、自主闭环」**的系统——它的输入是「不确定的、有上下文的、有情绪的、多模态的」它的输出是「一系列的行动和结果的组合」而不是「单一的文本/标签/数字」。这就意味着传统软件的「确定性交付指标」和传统单任务 AI 模型的「单一任务混淆矩阵指标」根本无法覆盖 Agent 的「全链路、多维度、自主闭环」的特点——这就是为什么单一技术指标“骗”了你的根本原因。1.3 亮明观点/文章目标我们需要一套「技术指标体验指标场景化指标」的「三位一体」评估体系那到底应该怎么衡量 Agent 的「好用」我结合自己过去 5 年做 AI 产品从单任务的语音合成、到多任务的对话系统、再到现在的通用/垂直领域 Agent的经验以及 SAIL、OpenAI、Google DeepMind、微软研究院、阿里巴巴达摩院、腾讯 AI Lab 等国内外顶尖机构的最新研究成果总结出了一套「三位一体的 Agent 全链路体验量化体系」1.3.1 体系的三个维度核心能力技术指标维度一基础衡量 Agent 每个「独立环节」的技术能力——比如感知层的意图识别准确率、实体提取 F1 值决策层的规划准确率、反思准确率行动层的工具调用成功率、工具调用效率反馈层的反馈理解准确率优化层的学习效率全链路体验量化指标维度二核心衡量 Agent 「完成整个任务闭环」的能力——比如任务完成率、任务完成时间、用户交互次数、用户满意度NPS/CSAT/CES、人工转接率如果是客服/助理类 Agent、错误回答率、幻觉率场景化综合评价体系维度三落地将前两个维度的指标结合「具体的应用场景」和「具体的用户角色」形成一套「可直接用于产品迭代、可对比不同 Agent 方案、可评估商业价值」的综合体系——比如电商客服 Agent、企业会议纪要 Agent、代码辅助开发 Agent、法律合同审查 Agent都有各自不同的场景化指标。1.3.2 体系的三个特点可量化所有指标都要有「明确的计算方法」和「明确的评估标准」不能是「主观感觉」可对比可以用这套体系对比「不同的 Agent 方案」比如 OpenAI 的 GPT-4o vs Anthropic 的 Claude 3.5 Sonnet vs 开源的 Llama 3.1 70B也可以对比「同一 Agent 的不同版本」比如 2.0 vs 3.0可迭代可以用这套体系找到 Agent 的「短板环节」比如是意图识别准确率低还是工具调用成功率低还是幻觉率高然后针对性地优化。1.3.3 文章目标接下来的内容我会先在「第二章基础知识/背景铺垫」里讲清楚 Agent 评估体系的核心概念、相关工具/技术概览以及「混淆矩阵」「BLEU score」「ROUGE score」「LLM-as-a-Judge」这些基础评估方法的原理和计算方法然后在「第三章核心内容/实战演练」里逐一拆解「核心能力技术指标」「全链路体验量化指标」「场景化综合评价体系」的具体内容、计算方法、评估工具以及一个完整的「企业会议纪要 Agent 3.0 评估实战案例」接着在「第四章进阶探讨/最佳实践」里讲清楚 8 个新手在 Agent 评估中常踩的「指标陷阱」以及「性能优化」「成本考量」「最佳实践总结」最后在「第五章结论」里回顾核心要点展望未来趋势给出行动号召。准备好了吗让我们开始吧二、 基础知识/背景铺垫搞懂这些才能理解 Agent 的评估体系在深入拆解「三位一体的 Agent 全链路体验量化体系」之前我们必须先掌握一些核心概念和基础评估方法——这些是构建整个评估体系的“基石”。2.1 核心概念定义2.1.1 静态测试集 vs 动态测试集 vs 真实场景测试在 Agent 评估中我们会用到三种不同的「测试数据源」——这三种数据源的特点、适用场景、优缺点都完全不同新手很容易混淆我们先讲清楚2.1.1.1 静态测试集Static Test Set定义由人工或半人工标注的「固定不变的、无上下文的、无歧义的、单一需求的」测试样本集合。来源可以是从训练数据中「留出」的一部分Holdout Set也可以是公开的「基准测试集」Benchmark比如 GLUE、SuperGLUE、MMLU、GSM8K、HumanEval 这些单任务或多任务的 LLM 基准测试集还可以是内部标注的「垂直领域标准测试集」比如电商客服的 10000 条标准退款/查询话术。适用场景主要用于「快速验证模型/Agent 的基础能力」以及「对比不同模型/Agent 的单一环节技术能力」——比如你微调了一个意图识别模型可以用静态测试集快速验证准确率有没有提升比如你要对比 GPT-4o 和 Claude 3.5 Sonnet 的代码生成能力可以用 HumanEval 这个公开的基准测试集。优点成本低一旦标注完成可以反复使用不需要额外的成本速度快可以用脚本批量测试几分钟就能出结果可复现不同的人、不同的时间、不同的环境测试结果都是一样的可对比可以用公开的基准测试集和其他模型/Agent 对比。缺点脱离真实场景样本无上下文、无歧义、单一需求和真实用户的输入差得很远容易过拟合如果测试集是从训练数据中留出的或者和训练数据的分布非常相似模型/Agent 很容易「记住」测试集的答案导致测试结果虚高无法评估全链路能力只能评估单一环节的技术能力无法评估「自主感知→自主决策→自主行动→自主反馈」的整个闭环。2.1.1.2 动态测试集Dynamic Test Set定义由人工或半人工生成的「有上下文的、有一定歧义的、多需求的」测试样本集合——这些样本的「上下文」可以是随机生成的也可以是从真实场景中「提取」的。来源可以用「LLM 辅助标注」的方法生成比如你给 GPT-4o 一个 prompt“请生成 1000 条电商客服的真实对话上下文每个上下文包含 3-5 轮对话最后一轮是用户的输入输入要包含 1-2 个歧义或多需求”也可以是从真实场景中「匿名化处理」后提取的比如你从客服系统里导出 10000 条真实对话去掉用户的姓名、电话、地址等隐私信息然后把其中的「有效对话」也就是完成了任务的对话提取出来作为动态测试集。适用场景主要用于「验证模型/Agent 的全链路基础能力」以及「对比不同模型/Agent 的全链路能力」——比如你要测试你的电商客服 Agent 能不能处理「有上下文的多需求输入」可以用动态测试集。优点比静态测试集更接近真实场景样本有上下文、有一定歧义、多需求成本可控可以用 LLM 辅助标注成本比真实场景测试低很多可复现一旦生成完成可以反复使用可评估全链路能力可以评估「自主感知→自主决策→自主行动→自主反馈」的整个闭环。缺点还是不完全等于真实场景LLM 辅助生成的样本可能还是会有「人工痕迹」或者和真实用户的输入分布有差异标注/生成成本比静态测试集高需要人工审核 LLM 辅助生成的样本或者从真实场景中提取并匿名化处理样本。2.1.1.3 真实场景测试Real-World Testing定义将 Agent 「灰度发布」到真实场景中让真实用户使用然后收集真实用户的输入、Agent 的输出、真实用户的反馈、以及业务数据比如人工转接率、任务完成率、客单价提升率。来源真实场景的流量——可以是「灰度发布 1% 的流量」也可以是「邀请一批种子用户内测」。适用场景主要用于「最终验证 Agent 的落地效果」以及「评估 Agent 的商业价值」——这是 Agent 上线前的「最后一道关卡」。优点100% 接近真实场景样本是真实用户的输入有真实的上下文、真实的情绪、真实的多需求可以评估商业价值可以收集业务数据比如人工转接率、任务完成率、客单价提升率、用户留存率直接评估 Agent 带来的商业价值可以发现隐藏的问题可以发现静态测试集和动态测试集都发现不了的问题比如极端天气下的物流查询问题、用户带有强烈情绪的问题、非常小众的需求。缺点成本最高需要灰度发布、需要种子用户、需要人工审核真实用户的反馈速度最慢可能需要几天、几周甚至几个月才能收集到足够的数据不可复现不同的时间、不同的用户、不同的环境测试结果可能不一样有风险如果 Agent 的表现不好可能会影响真实用户的体验甚至导致用户流失。2.1.1.4 三种测试数据源的对比Markdown 表格为了让大家更清晰地理解三种测试数据源的区别我做了一个对比表格对比维度静态测试集动态测试集真实场景测试样本特点固定不变、无上下文、无歧义、单一需求相对固定、有上下文、有一定歧义、多需求动态变化、有真实上下文、有真实情绪、真实多需求来源Holdout Set、公开基准测试集、内部标准测试集LLM 辅助生成、真实场景匿名化提取真实场景灰度流量、种子用户内测适用场景快速验证基础能力、对比单一环节技术能力验证全链路基础能力、对比全链路能力最终验证落地效果、评估商业价值成本低中高速度快几分钟中几小时到几天慢几天到几个月可复现性高100%中90%低几乎不可复现真实性低脱离真实场景中接近真实场景高100%真实能否评估全链路能力不能只能评估单一环节能能能否评估商业价值不能不能只能模拟能风险无低高2.1.1.5 三种测试数据源的使用建议在实际的 Agent 评估流程中我们应该**「组合使用三种测试数据源」**形成一个「从实验室到真实场景」的「渐进式评估流程」第一步实验室阶段静态测试集用静态测试集快速验证 Agent 每个「独立环节」的技术能力——如果某个环节的技术指标不达标就不要进入下一步第二步模拟阶段动态测试集用动态测试集验证 Agent 的「全链路基础能力」——如果全链路能力不达标就调整 Agent 的架构或模型然后回到第一步第三步内测阶段种子用户真实场景测试邀请一批种子用户比如 100-1000 人进行内测收集真实用户的反馈和业务数据——如果内测效果不好就调整 Agent然后回到第二步第四步灰度阶段小范围真实场景测试灰度发布 1%-10% 的真实流量收集更多的真实用户反馈和业务数据——如果灰度效果好就全量发布如果不好就调整 Agent然后回到第三步第五步全量阶段全范围真实场景监控全量发布后持续监控 Agent 的技术指标、体验指标和业务数据——如果发现问题就及时调整 Agent。2.1.2 幻觉Hallucination幻觉是 Agent 评估中最重要的概念之一——也是新手最容易忽略的概念。定义SAIL 2023Agent 生成的「看似合理、但实际上是虚假的、没有依据的、或者与事实不符的」内容或行动。幻觉的分类OpenAI 2024内容幻觉Content HallucinationAgent 生成的文本内容是虚假的——比如「爱因斯坦发明了电灯」「中国的首都是上海」「这款产品的保修期是 5 年」实际上是 2 年引用幻觉Citation HallucinationAgent 生成的「引用来源」是虚假的——比如「根据《Nature》2024 年第 5 期的一篇文章量子计算可以在 1 秒内破解 RSA-2048 加密」实际上《Nature》2024 年第 5 期没有这篇文章工具幻觉Tool HallucinationAgent 调用的「工具」是虚假的——比如 Agent 调用了一个「不存在的 Google Search API 接口」或者调用了一个「不存在的数据库查询语句」行动幻觉Action HallucinationAgent 声称「已经执行了某个行动」但实际上并没有执行——比如 Agent 说「已经帮你提交了退款申请」但实际上并没有调用退款 API 接口。幻觉的危害幻觉是 Agent 落地的「最大杀手」——尤其是在「高 stakes高风险」的场景比如医疗诊断、法律合同审查、金融投资建议中幻觉可能会导致「严重的后果」医疗诊断场景Agent 幻觉说「你得了癌症」可能会导致用户「焦虑过度」甚至「做出错误的治疗决策」法律合同审查场景Agent 幻觉说「这份合同没有问题」可能会导致企业「签订了一份有漏洞的合同」损失几百万甚至几千万金融投资建议场景Agent 幻觉说「这支股票明天会涨 10%」可能会导致用户「损失大量的金钱」。幻觉的评估幻觉的评估是 Agent 评估中的「难点」——因为幻觉的判断需要「专业的知识」和「事实核查」。目前常用的幻觉评估方法有人工事实核查Human Fact-Checking让专业的人工标注员「核查 Agent 生成的内容是否有依据」——这是「最准确」的方法但也是「成本最高、速度最慢」的方法LLM-as-a-JudgeAI 法官用一个「更强大的 LLM」比如 GPT-4o、Claude 3.5 Opus作为「法官」让它「核查 Agent 生成的内容是否有依据」——这是「目前最常用」的方法成本比人工低很多速度也快很多准确率也能达到「人工的 80%-90%」检索增强生成RAG评估法如果你的 Agent 用了 RAG检索增强生成技术那么你可以「核查 Agent 生成的内容是否来自于检索到的文档」——如果内容来自于检索到的文档那么就认为「没有幻觉」如果内容不是来自于检索到的文档那么就认为「有幻觉」——这是「成本最低、速度最快」的方法但准确率「相对较低」因为检索到的文档可能本身就有错误或者 Agent 可能从多个检索到的文档中「合理地组合」出了内容但组合的过程中可能会产生幻觉。2.1.3 规划Planning与反思Reflection规划和反思是 Agent 决策层的两个核心能力——也是区分「简单的对话系统」和「真正的 Agent」的关键。2.1.3.1 规划Planning定义Google DeepMind 2023Agent 基于感知到的信息「将复杂的任务拆解成一系列简单的、可执行的子任务」并「确定子任务的执行顺序」的过程。规划的分类单步规划Single-Step PlanningAgent 只规划「下一步的行动」——这是「最简单」的规划方式适合「简单的任务」比如「查询物流」多步规划Multi-Step PlanningAgent 规划「整个任务的所有子任务和执行顺序」——这是「比较复杂」的规划方式适合「复杂的任务」比如「帮我订一张明天从北京到上海的机票价格在 1000 元以内然后帮我订一家离上海虹桥机场 5 公里以内的酒店价格在 500 元以内最后帮我查一下明天上海的天气」动态规划Dynamic PlanningAgent 在执行子任务的过程中「根据反馈层的信息动态调整子任务和执行顺序」——这是「最复杂、也最强大」的规划方式适合「非常复杂的、不确定的任务」比如「帮我写一篇关于量子计算在金融风控中应用的 3000 字企业级报告需要引用 5 篇以上的顶级期刊文章」。2.1.3.2 反思Reflection定义OpenAI 2024Agent 在执行完子任务或整个任务后「检查执行结果是否符合预期」如果不符合预期就「分析原因并调整感知层的模型、决策层的规划算法、行动层的工具调用策略」的过程。反思的分类子任务反思Sub-Task ReflectionAgent 在执行完「每个子任务」后进行反思——适合「非常复杂的任务」任务反思Task ReflectionAgent 在执行完「整个任务」后进行反思——适合「比较复杂的任务」在线反思Online ReflectionAgent 在「执行任务的过程中」实时进行反思——适合「不确定的、动态变化的任务」离线反思Offline ReflectionAgent 在「执行完任务后」定期进行反思——适合「优化 Agent 的长期能力」。2.1.4 LLM-as-a-JudgeAI 法官LLM-as-a-Judge是目前 Agent 评估中「最常用、也最强大」的评估方法之一——尤其是在「评估生成任务的质量」「评估全链路体验」「评估幻觉」这些「传统方法难以处理」的场景中。定义Microsoft Research 2023用一个「更强大的、更可靠的 LLM」比如 GPT-4o、Claude 3.5 Opus、Gemini 1.5 Pro作为「法官」给「被评估的 LLM 或 Agent」的输出「打分」或「分类」的过程。LLM-as-a-Judge 的常用场景评估生成任务的质量比如评估写作的「通顺度」「逻辑性」「相关性」「创造性」评估全链路体验比如评估对话的「自然度」「有用性」「友好度」评估幻觉比如核查内容是否有依据评估规划比如评估规划的「合理性」「完整性」「效率」对比不同 Agent 的方案比如让 AI 法官「对比 GPT-4o 和 Claude 3.5 Sonnet 生成的同一份报告哪一份更好」。LLM-as-a-Judge 的优点成本低比人工标注低很多速度快可以用脚本批量测试几分钟就能出结果可复现只要用同一个 AI 法官、同一个 prompt、同一个测试集结果就是一样的覆盖范围广可以评估「传统方法难以处理」的场景比如创造性、自然度、友好度。LLM-as-a-Judge 的缺点有偏见BiasAI 法官的「打分」或「分类」可能会受到「prompt 的设计」「AI 法官自身的训练数据」的影响有幻觉HallucinationAI 法官自己也可能会产生幻觉——比如它可能会「编造」一个打分的理由依赖更强大的 LLM如果 AI 法官的能力不如被评估的 Agent那么评估结果就会不准确缺乏可解释性ExplainabilityAI 法官的「打分」或「分类」可能没有明确的理由或者理由很难理解。LLM-as-a-Judge 的最佳实践OpenAI 2024为了提高 LLM-as-a-Judge 的「准确性」「可靠性」「可解释性」我们可以采用以下最佳实践使用更强大的 LLM比如 GPT-4o、Claude 3.5 Opus、Gemini 1.5 Pro——这些 LLM 的能力更强幻觉率更低偏见也更少设计清晰、明确、无歧义的 promptPrompt 中要包含「评估的维度」「每个维度的定义」「每个维度的打分标准比如 1-5 分」「参考示例」使用「Few-Shot Learning」少样本学习在 prompt 中加入「3-5 个参考示例」——每个示例包含「输入」「被评估的输出」「AI 法官的打分」「AI 法官的理由」使用「Chain-of-ThoughtCoT」思维链让 AI 法官「先给出理由再给出打分」——这可以提高 AI 法官的准确性和可解释性使用「Multi-Agent Debate」多智能体辩论让「多个不同的 AI 法官」比如 GPT-4o、Claude 3.5 Opus、Gemini 1.5 Pro「先各自打分并给出理由然后互相辩论最后达成一致」——这可以进一步提高 AI 法官的准确性和可靠性定期人工审核定期从 AI 法官的评估结果中「抽样 10%-20%」进行人工审核——如果发现 AI 法官的评估结果和人工审核的结果差异很大就调整 prompt 或 AI 法官。2.2 相关工具/技术概览在 Agent 评估中我们会用到很多工具和技术——这些工具和技术可以帮助我们「快速、高效、准确」地完成评估。我把这些工具和技术分成了「三类」基础评估工具用于评估「传统单任务 AI 模型」的工具——比如 Scikit-learn、NLTK、Hugging Face Transformers、Hugging Face EvaluateAgent 专用评估工具用于评估「Agent 全链路能力」的工具——比如 LangSmith、AutoEval、OpenAI Evals、Microsoft Azure AI Studio EvaluationRAG 专用评估工具用于评估「RAG 增强的 Agent」的工具——比如 Ragas、LangChain RAG Evaluator、Weaviate RAG Evaluator。接下来我会逐一介绍这些工具和技术的「特点」「适用场景」「优缺点」。2.2.1 基础评估工具2.2.1.1 Scikit-learn简介Scikit-learn 是 Python 中「最常用、也最强大」的机器学习工具库之一——它包含了「分类」「回归」「聚类」「降维」「模型选择」「预处理」等几乎所有的机器学习功能也包含了「混淆矩阵」「准确率」「精确率」「召回率」「F1 值」「ROC 曲线」「AUC 值」「MAE」「MSE」「RMSE」「R² 值」等几乎所有的基础评估指标的计算方法。适用场景主要用于评估「传统单任务的机器学习模型」——比如意图识别模型、实体提取模型、文本分类模型、图像分类模型。优点简单易用API 设计非常简洁文档非常详细功能强大包含了几乎所有的基础评估指标的计算方法开源免费完全开源免费使用社区活跃有非常大的社区支持遇到问题很容易找到解决方案。缺点不支持深度学习模型Scikit-learn 主要用于「传统的机器学习模型」不支持「深度学习模型」比如 CNN、RNN、Transformer不支持生成任务Scikit-learn 主要用于「分类」「回归」「聚类」等「判别式任务」不支持「写作」「翻译」「总结」等「生成式任务」不支持 Agent 全链路评估Scikit-learn 主要用于「单一环节的技术评估」不支持「Agent 全链路评估」。2.2.1.2 Hugging Face Evaluate简介Hugging Face Evaluate 是 Hugging Face 推出的「专门用于评估 NLP 模型」的工具库——它包含了「BLEU score」「METEOR score」「ROUGE score」「CHRF score」「Perplexity困惑度」等「生成式任务的评估指标」也包含了「混淆矩阵」「准确率」「精确率」「召回率」「F1 值」「ROC 曲线」「AUC 值」等「判别式任务的评估指标」还支持「LLM-as-a-Judge」评估方法。适用场景主要用于评估「NLP 模型」——包括「传统的 NLP 模型」和「基于 Transformer 的深度学习 NLP 模型」也包括「单任务模型」和「多任务模型」。优点简单易用API 设计非常简洁文档非常详细功能强大包含了几乎所有的 NLP 评估指标的计算方法也支持 LLM-as-a-Judge 评估方法开源免费完全开源免费使用和 Hugging Face Transformers 无缝集成可以直接加载 Hugging Face Hub 上的模型和数据集进行评估社区活跃有非常大的社区支持遇到问题很容易找到解决方案。缺点主要支持 NLP 模型虽然也支持其他模态的模型但主要还是支持 NLP 模型不支持 Agent 全链路评估的所有环节虽然支持 LLM-as-a-Judge 评估方法但还是主要用于「单一环节的技术评估」不支持「Agent 全链路评估的所有环节」比如规划、反思、工具调用。2.2.2 Agent 专用评估工具2.2.2.1 LangSmith简介LangSmith 是 LangChain 推出的「专门用于调试、测试、评估、监控 LLM 应用和 Agent」的平台——它可以帮助你「跟踪 Agent 的整个执行过程」包括感知、决策、行动、反馈、优化的每个环节「快速找到 Agent 的短板」「用静态测试集、动态测试集、真实场景测试集进行评估」「用 LLM-as-a-Judge 评估方法进行评估」「对比不同 Agent 的方案」「持续监控 Agent 的性能和体验」。适用场景主要用于「调试、测试、评估、监控 LangChain 构建的 LLM 应用和 Agent」——当然也可以用于「非 LangChain 构建的 LLM 应用和 Agent」只要你接入 LangSmith 的 API。优点功能最强大是目前「功能最强大」的 Agent 专用评估平台——包含了「调试」「测试」「评估」「监控」「对比」等几乎所有的功能跟踪 Agent 的整个执行过程可以看到 Agent 的「每个输入」「每个输出」「每个工具调用」「每个规划」「每个反思」——这可以帮助你「快速找到 Agent 的短板」支持多种评估方法支持「静态测试集」「动态测试集」「真实场景测试集」支持「人工评估」「LLM-as-a-Judge 评估」「自动评估」和 LangChain 无缝集成如果你的 Agent 是用 LangChain 构建的那么接入 LangSmith 非常简单——只需要几行代码有免费额度提供了「每月 5000 次跟踪」的免费额度——适合个人开发者和小团队使用。缺点付费价格较高免费额度用完后付费价格较高——适合大公司和有预算的团队使用主要支持 LangChain 构建的应用虽然也支持非 LangChain 构建的应用但接入相对复杂数据安全如果你使用的是 LangSmith 的云服务那么你的 Agent 的执行数据会存储在 LangSmith 的服务器上——如果你有「数据隐私」或「数据合规」的要求可能需要使用 LangSmith 的「私有化部署」版本但私有化部署的价格非常高。2.2.2.2 OpenAI Evals简介OpenAI Evals 是 OpenAI 推出的「开源的 LLM 应用和 Agent 评估框架」——它包含了「大量的公开基准测试集」比如 MMLU、GSM8K、HumanEval、MathBench、TruthfulQA也支持「自定义测试集」支持「人工评估」「LLM-as-a-Judge 评估」「自动评估」支持「对比不同 LLM 或 Agent 的方案」。适用场景主要用于「评估 OpenAI 的 LLM 或基于 OpenAI 的 LLM 构建的 Agent」——当然也可以用于「评估其他 LLM 或 Agent」。优点开源免费完全开源免费使用包含大量的公开基准测试集包含了几乎所有的主流 LLM 基准测试集支持多种评估方法支持「人工评估」「LLM-as-a-Judge 评估」「自动评估」和 OpenAI 的 API 无缝集成如果你的 Agent 是基于 OpenAI 的 LLM 构建的那么使用 OpenAI Evals 非常简单社区活跃有非常大的社区支持遇到问题很容易找到解决方案也可以贡献自己的测试集和评估方法。缺点主要是一个「评估框架」而不是一个「平台」没有「调试」「跟踪」「监控」的功能——需要和其他工具比如 LangSmith配合使用API 设计相对复杂对于新手来说API 设计相对复杂学习曲线较陡不支持可视化评估结果的可视化功能较弱——需要自己用 Python 的 Matplotlib 或 Seaborn 进行可视化。2.2.3 RAG 专用评估工具2.2.3.1 Ragas简介Ragas 是「专门用于评估 RAG 增强的 LLM 应用和 Agent」的开源工具库——它包含了「RAG 专用的评估指标」比如 Context Relevance上下文相关性、Answer Relevance答案相关性、Faithfulness忠实度也就是「反幻觉率」、Context Recall上下文召回率、Context Precision上下文精确率也支持「LLM-as-a-Judge 评估方法」支持「自定义测试集」支持「可视化评估结果」。适用场景主要用于「