当前位置: 首页 > news >正文

问答模型自动评估新方法:AVA降低人工评估误差

问答模型自动评估新方法:AVA降低人工评估误差

随着自然语言处理(NLP)在日常生活中的作用日益重要,准确评估NLP模型的能力也变得越来越关键。已部署的商业NLP模型需要定期测试,以确保其持续表现良好,并且对NLP模型的更新也需要监控,以验证其是否优于之前的配置。

理想情况下,模型评估应该是自动化的,以节省时间和人力。但在问答领域,自动模型评估非常困难,因为问题和答案都可能有多种不同的表述方式,并且答案的判断标准在于其能否满足用户的信息需求,这是一个难以量化的概念。

在今年的北美计算语言学协会(NAACL)会议上,我们展示了第一批能够检查任何类型问题的长答案正确性的机器学习模型。我们将该方法称为AVA(自动评估方法)。

在一组实验中,我们使用AVA来评估几种不同问答模型所提供答案的正确性,并将结果与人工评估进行比较。相对于人类判断,性能最佳的AVA版本(在论文中提出了一种新颖的同伴注意力方案)的误差率仅为7%,具有95%的统计置信度。

复杂问题

其他NLP应用已经受益于自动评估方法。例如,机器翻译研究通常使用BLEU分数来衡量翻译准确性,该分数衡量机器翻译模型的输出与参考翻译之间的相似性。

但这种方法不适用于问答。在翻译中,输入文本与输出文本相对应;而在问答中,则不是这样。此外,在问答中,即使答案传达相同的信息,输出文本(即答案)也可能差异很大。

更重要的是,在问答中,核心关注点是答案是否正确。从结构上看,一个候选答案可能看起来与参考答案完全相同,仅在决定其正确性的关键信息点上有所不同。这两点考虑使得问答模型的评估比其他一些NLP模型的评估更加困难。

模型

在NAACL论文中,我们考虑了四种不同的机器学习模型来评估问答准确性。第一个是简单的线性模型,其他三个是基于Transformer语言模型的神经网络模型。

我们考虑具有答案选择组件的问答方法,其中基于问题文本进行的网络搜索会返回大量文档,答案选择模型根据从这些文档中提取的句子回答问题的可能性对其进行排序。

所有四个模型都将一个问题、一个参考(正确)答案和一个候选答案作为输入。

其中一个是线性模型,我们使用它是因为它比神经模型更容易解释。它接受一个其他模型没有的额外输入:参考答案的简短版本(例如,“3900万”而不是“截至2018年,加州的常住人口已增加到3900万人”)。

使用杰卡德相似度的一种变体,线性模型计算简短答案与候选答案、参考答案与候选答案、参考答案与问题以及候选答案与问题之间的成对相似度。它还会根据候选答案包含简短答案的单词数量进行评分。每个度量都被分配一个从训练数据中学习到的权重,如果这些度量的加权和超过某个阈值(也从数据中学习),模型就会判断候选答案正确。

其他三个模型使用预训练的基于Transformer的网络,这些网络将文本及其组成部分之间的关系表示为多维空间中的嵌入向量。作为输入,这些网络可以处理句子对,将它们转换成反映从训练数据中学习到的语言和语义关系的嵌入向量。

在第一个基于Transformer的模型中,我们考虑了三种不同类型的输入对:问题-参考、问题-候选和参考-候选。我们还考虑了一个模型,它将这三种对的表示连接起来,生成所有三个输入的表示。在四个不同的实验中,我们训练分类器基于这四种表示中的每一种来预测答案句子的准确性。

在第二个基于Transformer的模型中,我们将每个文本与其他两个的串联进行配对。同样,我们连接其他三个嵌入向量以产生输入数据的总体表示。

最后,第三个模型采用了新颖的同伴注意力机制。该模型接收两对输入句子,而不是一对。与第二个模型一样,每对包括一个句子和其他两个句子的串联。

如上图所示,在传递给分类器之前,每一对的嵌入向量都以另一对的嵌入向量为条件。这使得模型能够更好地利用不同类型句子对之间关系的共性——例如,利用问题和参考答案之间的相似性来识别参考和答案候选之间的相似性。

评估

我们在几个不同的预训练答案选择模型上测试了方法。每个评估模型的输入包括源问题、参考答案以及由某个答案选择模型预测的答案。

使用同伴注意力机制的评估模型提供了最佳性能,在预测人工标注者关于答案正确或错误的判断方面,F1分数接近75%(F1分数是一个综合考虑假阳性和假阴性率的度量)。

此外,我们在整个测试集(数千个问题)上汇总了AVA对不同问答模型输出的判断。这提供了不同模型准确性(正确答案的百分比)的估计值。然后,我们将这些估计值与基于整个人类判断的准确性度量进行比较。这使我们能够计算相对于人工评估的总体AVA误差率,该误差率在95%的统计置信度下低于7%。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

http://www.zskr.cn/news/124232.html

相关文章:

  • 2025年年终麻将机品牌推荐排行榜对比评测:五大品牌客观分析与选购指南 - 十大品牌推荐
  • 2025年靠谱的PPR给水管设备厂家最新实力排行 - 行业平台推荐
  • typedef void(*func)(int) VS void(*func)(int) 的区别
  • 创意实力铸就商业价值:包装设计公司推荐清单 - 黑马榜单
  • RAG与MCP:AI应用的两大基石,一文讲透如何选择 - 详解
  • 广州喜相缘家政:靠谱之选,解析服务保障与市场口碑 - 工业推荐榜
  • 守嘉陪诊师培训报名热潮引关注 独家实习机会成核心吸引力 - 品牌排行榜单
  • 安卓10-13动态申请sd卡权限(java)
  • 2025年比较好的热风循环回火炉厂家最新实力排行 - 行业平台推荐
  • 顺序表实现线性结构
  • Windows Server 2025 OVF (2025 年 12 月更新) - VMware 虚拟机模板
  • 2025年评价高的碳钢焊接加工用户好评厂家排行 - 行业平台推荐
  • Windows 11 25H2 | 24H2 中文版、英文版 (x64、ARM64) 下载 (2025 年 12 月更新)
  • 2025年热门的猫粮/低脂猫粮2025热门推荐榜 - 行业平台推荐
  • 2025宁波绿植租赁年度TOP5推荐:实力强且口碑好的医院绿植租赁公司权威测评 - myqiye
  • LeetCode 3.无重复字符的最长子串
  • 2025年口碑好的远红外节能加热圈/节能加热圈厂家最新权威实力榜 - 行业平台推荐
  • 2025年武汉BIP管理系统口碑排行榜TOP10,人力云/好会计/好生意/协同云/财务云/税务云/供应链云/好业财/制造云BIP产品找哪家 - 品牌推荐师
  • 2025年年终全自动洗车机厂家推荐:基于千条加盟商评价与多品牌对比的5款高口碑优质之选 - 品牌推荐
  • 2025年质量好的绒布衣帽间收纳/挂衣杆衣帽间收纳经典款式推荐榜 - 行业平台推荐
  • 2025年化学阿拉丁试剂品牌排行榜,新测评精选试剂供应商推荐 - 工业品牌热点
  • 学校与工厂绿植租赁服务推荐:助力绿色空间打造 - myqiye
  • 2025年靠谱的体系认证/建筑业体系认证体系认证权威机构榜 - 行业平台推荐
  • 回调函数
  • 2025保温耐火材料企业TOP5口碑测评:河北安泰恒信口碑好吗? - mypinpai
  • 2025年度权威浮动球阀制造商综合实力排行,行业内最好的浮动球阀推荐排行精选优质品牌解析 - 品牌推荐师
  • 无人机蜂群防御新维度:2025用设施智能追踪识别赋能 - 品牌2025
  • 2025年佛山一站式PVC塑料瓦服务商家推荐:耐用型PVC塑料瓦制造商有哪些? - mypinpai
  • 告别下载焦虑!2025年最全视频下载神器清单
  • 2025专注力培训专业公司TOP5权威推荐:甄选靠谱机构助力孩子注意力提升 - 工业推荐榜