代码实现 基于 DeepEval 框架实现工单摘要质量的批量自动评估

代码实现 基于 DeepEval 框架实现工单摘要质量的批量自动评估

代码实现 基于 DeepEval 框架实现工单摘要质量的批量自动评估

一、代码核心目标与整体流程

基于DeepEval框架实现工单摘要质量的批量自动评估:对接自定义 OpenAI 兼容接口(34ku),读取 Excel 中的「原始工单对话+人工/模型生成的工单摘要」,通过 DeepEval 的SummarizationMetric指标完成摘要质量打分,最终输出逐行评分、通过率、平均分等统计结果。

整体执行流程:

读取Excel(原始对话+摘要)→ 构建DeepEval测试用例 → 调用自定义LLM执行摘要评估 → 解析评分结果 → 统计/保存结果

二、核心原理:摘要评估的底层逻辑(SummarizationMetric)

DeepEval 的SummarizationMetric基于LLM的自动评估指标,核心是让大模型充当“评委”,从「准确性、完整性、简洁性、流畅性」四个维度评判摘要质量,具体逻辑:

  1. 构造评估Prompt:DeepEval 会