当前位置: 首页 > news >正文

2025_NIPS_PlanBench: An Extensible Benchmark for Evaluating Large Language Models on Planning and...

一、文章主要内容总结该研究聚焦大型语言模型(LLMs)的规划与行动变更推理能力评估,核心贡献是提出了PlanBench——一个可扩展的基准测试套件。背景与动机:现有LLM规划能力评估多依赖常识任务,难以区分模型是真正规划还是调用训练数据中的知识;而自动化规划领域(如国际规划竞赛IPC)有成熟的领域和任务,可弥补这一缺陷,因此需构建系统化、可扩展的规划基准。PlanBench核心设计:基础架构:包含领域无关组件(规划器、计划验证器、测试用例生成与验证工具)和领域相关组件(领域模型、问题生成器、符号-自然语言翻译器)。初始领域与数据:基于IPC的Blocksworld(积木世界)和Logistics(物流)两大领域,提供原始版本及含误导性词汇、随机字符的混淆版本,共约26250个提示词,支持8类核心测试任务。测试任务:涵盖计划生成、成本最优规划、计划验证、计划执行推理、目标重构鲁棒性、计划复用、重新规划、计划泛化,全面覆盖规划相关核心能力。实验结果:对GPT-4和Instruct-GPT3的评估显示,即使是SOTA模型,在多数关键任务(如计划生成仅6.8%正确率)上表现欠佳,仅在目标重构鲁棒性等辅助任务中表现较好,证实LLM的规划与行动变更推理能力仍有巨大提升空间。可用性:基准套件已开源(含工具、数据集、脚本),支持新增IPC领域和LLM模型测试,
http://www.zskr.cn/news/1375426.html

相关文章:

  • Rust版Selenium客户端Thirtyfour:异步、类型安全的WebDriver实践
  • 2025_NIPS_Toolformer: Language Models Can Teach Themselves to Use Tools
  • 鲁棒优化中的下降-镜像上升算法:非凸Min-Max问题的收敛性分析与实践
  • DeepSeek V3多模态扩展能力首曝(仅限首批合作机构验证数据)
  • S32K144配置WdT函数解析
  • 【AI玩游戏】一、搭建Claude+vscode环境,看看ok-nte项目
  • TCP和UDP有什么区别?
  • 一个能同时使用 SSH+ SFTP + DBeaver +AI的开源神器,yyds
  • 定了 10 个闹钟不如用它:智慧调度到底能帮你干啥?
  • 开关电源设计难点
  • Scalify:基于e-graph与符号推理的分布式机器学习静默错误检测工具
  • 2025-2026年时余家具电话查询:选购中古风实木家具前请核实资质 - 品牌推荐
  • 印刷电子MLP混合一元-二元架构:无乘法器设计实现46%面积优化
  • 芯片选型依赖问题剖析:企业供应链受制原因与损耗代价
  • 现场故障排查思路,降低同步带失效停机概率
  • 深度学习MRI加速:DeepFoqus-Accelerate如何实现4倍扫描速度与无损诊断质量
  • HashMap的解析(1)
  • Unity Android跨语言调用实战:NDK/JNI/C#内存与线程安全指南
  • 私有化部署Agent Harness:数据安全与可控性
  • 病房钢制门十大品牌有哪些?
  • 2026年智己LS8优势续航深度分析:家用SUV场景续航焦虑与操控痛点解析 - 品牌推荐
  • 状态机+划分型 DP :深度解析K-划分问题下 DP 状态的转移逻辑(洛谷P2679 P2331 附C++代码)
  • 基于CGCNN的晶体材料弹性模量预测:从图神经网络到高通量筛选实践
  • 基于贝叶斯优化与计算机视觉的量子点电荷态自动化搜索算法
  • 数据结构与算法之顺序表
  • ARM-FM:用大语言模型自动生成奖励机,破解强化学习稀疏奖励难题
  • 可解释机器学习解析心电信号:从特征工程到身份识别的核心特征挖掘
  • ARM SME指令集与MOVA指令详解:矩阵运算优化
  • 放射组学与机器学习在冠状动脉钙化自动评分中的实践与对比
  • C++正在向C语言发起“进攻”!TIOBE7月榜单发布