当前位置：首页 > news >正文

2025_NIPS_PlanBench: An Extensible Benchmark for Evaluating Large Language Models on Planning and...

news 2026/6/10 15:45:56

一、文章主要内容总结该研究聚焦大型语言模型（LLMs）的规划与行动变更推理能力评估，核心贡献是提出了PlanBench——一个可扩展的基准测试套件。背景与动机：现有LLM规划能力评估多依赖常识任务，难以区分模型是真正规划还是调用训练数据中的知识；而自动化规划领域（如国际规划竞赛IPC）有成熟的领域和任务，可弥补这一缺陷，因此需构建系统化、可扩展的规划基准。PlanBench核心设计：基础架构：包含领域无关组件（规划器、计划验证器、测试用例生成与验证工具）和领域相关组件（领域模型、问题生成器、符号-自然语言翻译器）。初始领域与数据：基于IPC的Blocksworld（积木世界）和Logistics（物流）两大领域，提供原始版本及含误导性词汇、随机字符的混淆版本，共约26250个提示词，支持8类核心测试任务。测试任务：涵盖计划生成、成本最优规划、计划验证、计划执行推理、目标重构鲁棒性、计划复用、重新规划、计划泛化，全面覆盖规划相关核心能力。实验结果：对GPT-4和Instruct-GPT3的评估显示，即使是SOTA模型，在多数关键任务（如计划生成仅6.8%正确率）上表现欠佳，仅在目标重构鲁棒性等辅助任务中表现较好，证实LLM的规划与行动变更推理能力仍有巨大提升空间。可用性：基准套件已开源（含工具、数据集、脚本），支持新增IPC领域和LLM模型测试，

查看全文

http://www.zskr.cn/news/1375426.html