DeepEval 框架实战(二):如何量化评估 LLM 答案与问题的相关性?
一文讲透如何用DeepEval 4.0的Answer Relevancy和GEval指标,将LLM输出质量从“感觉还行”变成可量化的自动化测试体系。
引言:LLM评分不能只靠“感觉”
2024年底,我接手了一个企业内部知识库问答系统的优化任务。上线初期,团队采用人工抽样的方式评估回答质量——每天随机挑20个问题,由业务专家逐一打分。结果发现:同一个回答,换一个专家打分可能差30分;改了一行Prompt,没人知道效果是变好了还是变差了。
这其实反映了当前LLM应用开发中一个普遍的核心痛点:我们缺乏一套客观、可重复、可自动化的答案相关性评估标准。
正如一篇2026年4月的CSDN技术文章中所述:“RAG系统不是普通接口。普通接口只要看返回码对不对、字段有没有、耗时高不高。RAG系统还要看:答案有没有答到点上?答案是不是基于资料回答的?召回内容是不是相关?有没有漏掉关键知识?有没有胡编乱造?”
那么,如何将LLM输出的“相关性”这一主观概念转化为可量化的指标?这正是DeepEval框架的核心价值所在。DeepEval由Confident AI开发,是一个专为LLM输出评测设计的开源框架,核心功能是通过标准化指标量化LLM响应的准确性、相关性和安全性,像质检员检查产品一样系统评估AI生成内容的质量。
根据Atlan公司2026年4月发布的LLM评估框架对比指南,DeepEval覆盖了50+个指标,横跨RAG、Agentic、多轮对话、MCP、安全性、图像等多模态维度,是目前指标库最全面的开源LLM评
