当前位置: 首页 > news >正文

2025_NIPS_Large Language Models are Fixated by Red Herrings: Exploring Creative Problem Solving a...

文章核心总结与翻译

一、主要内容

  1. 研究背景:当前大型语言模型(LLMs)虽在多个领域展现出卓越能力,但现有NLP基准测试极少关注创造性问题解决能力——这一人类智能的核心特征。在认知神经科学中,人类的创造性问题解决会受“红鲱鱼”(误导性刺激)影响,产生固着效应(Fixation Effect)和思维定势(Einstellung Effect),而英国益智节目《Only Connect》的“连接墙”环节天然包含此类误导性设计,与经典的远距离联想测试(RAT)高度契合。
  2. 数据集构建:提出全新的Only Connect Wall(OCW)数据集,包含15季节目中的618个连接墙谜题,每个谜题含16个线索词,需分组为4组(每组4词)并识别组内关联;同时生成OCW-Randomized(随机交换组以稀释红鲱鱼)和OCW-WordNet(基于WordNet层级关系移除红鲱鱼)两个衍生数据集,用于验证红鲱鱼对模型的影响。
  3. 实验设计
    • 任务1(分组):采用静态/上下文词嵌入聚类(如GloVe、BERT、E5)和LLMs的少样本上下文学习(GPT-3.5-turbo、GPT-4),使用WD、FMS、ARI等6种指标评估。
    • 任务2(关联识别):通过LLMs的少样本上下文学习,采用精确匹配、ROUGE-1 F1、BERTScore F1三种指标评估。
  4. 核心发现
    • 所有模型(包括
http://www.zskr.cn/news/1492820.html

相关文章:

  • 别再只会用默认Sheet了!用openpyxl批量创建和重命名工作表的5个实用技巧
  • ECharts 与地图联动的沉浸式数据大屏开发
  • 去浮肿眼油选哪个!实测5款,消水肿神器用完告别泡泡眼 - 全网最美
  • MelonLoader终极指南:如何简单快速地为Unity游戏安装模组
  • 突破性3分钟方案:为Windows 11 24H2 LTSC完美添加微软应用商店
  • 30分钟快速1:1 复刻企业级 DevOps 架构实战(五)实现Jenkins流水线(下)
  • 九方财税咨询(武汉)有限公司介绍及团队实力 - 招小财
  • 系统架构设计师备考攻略:在职技术人一次通关的科学备考经验3.1 - 博客万
  • 3分钟搞定TranslucentTB中文界面:让你的Windows任务栏透明化工具更好用
  • 终极Windows热键侦探:3步快速定位快捷键冲突根源
  • 【鸿蒙原生开发会议随记 Pro】用 NavPathStack 收拢会议页面跳转和返回刷新
  • 2026 年南充厨卫屋面地下室漏水测评,吉修匠 99.8 分五星榜首 - 吉修匠
  • VRoid Studio中文汉化终极指南:5分钟实现界面全面本地化
  • 从SRAM缓存到DDR5内存条:你的数据在电脑里到底是怎么‘跑’的?
  • 2026全国主流矿砂权威实测排行|7款产品天然属性与除臭能力深度对比 - 互联网科技品牌测评
  • HCS12微控制器MMC模块:内存扩展与总线管理核心技术解析
  • MC68HC908MR24 I/O端口与COP看门狗实战配置与避坑指南
  • Awoo Installer终极指南:如何让Switch游戏安装效率提升40%的完整教程
  • 别再花钱买服务器了!用家里旧电脑+花生壳,5分钟搞定一个能外网访问的局域网网站
  • 从SRAM缓存到DDR5内存条:你的电脑数据‘临时工’进化简史
  • 2026年净化工程设计主流厂家发展现状分析 - 多才菠萝
  • 2026年6月最新版枣庄第三方CMACNAS甲醛检测治理口碑名单:万清CMA检测中心等5家深度测评 - 一休咨询
  • Keyboard Chatter Blocker:终极键盘防抖解决方案,彻底解决机械键盘连击问题
  • 青岛防水补漏哪家靠谱?2026 正规修缮公司排名实测 - 苏易修缮
  • 西安交大电子系统实验套件:51单片机控制可调直流稳压电源设计与实操资料
  • 大一新生如何参与开源?从修改文档、修复 typo 到提交第一个 PR
  • KH Coder终极指南:零编程文本挖掘与内容分析神器
  • 东莞知名的提供生成式引擎优化服务公司有哪些
  • 思源宋体:彻底解决中文设计中的三大字体痛点
  • 3分钟快速汉化:FigmaCN中文插件完整指南