代码实现基于 DeepEval 框架实现工单摘要质量的批量自动评估-尧图网络科技

代码实现基于 DeepEval 框架实现工单摘要质量的批量自动评估

一、代码核心目标与整体流程

基于DeepEval框架实现工单摘要质量的批量自动评估：对接自定义 OpenAI 兼容接口（34ku），读取 Excel 中的「原始工单对话+人工/模型生成的工单摘要」，通过 DeepEval 的SummarizationMetric指标完成摘要质量打分，最终输出逐行评分、通过率、平均分等统计结果。

整体执行流程：

读取Excel（原始对话+摘要）→ 构建DeepEval测试用例 → 调用自定义LLM执行摘要评估 → 解析评分结果 → 统计/保存结果

二、核心原理：摘要评估的底层逻辑（SummarizationMetric）

DeepEval 的SummarizationMetric是基于LLM的自动评估指标，核心是让大模型充当“评委”，从「准确性、完整性、简洁性、流畅性」四个维度评判摘要质量，具体逻辑：

构造评估Prompt：DeepEval 会

资讯详情

代码实现 基于 DeepEval 框架实现工单摘要质量的批量自动评估

一、代码核心目标与整体流程

二、核心原理：摘要评估的底层逻辑（SummarizationMetric）

相关新闻

代码实现基于 DeepEval 框架实现工单摘要质量的批量自动评估