当前位置：首页 > news >正文

2025_NIPS_Toolformer: Language Models Can Teach Themselves to Use Tools

news 2026/5/25 6:21:39

一、文章主要内容总结本文提出了Toolformer，一种能通过自监督学习自主使用外部工具的语言模型（LM），旨在解决大语言模型在事实查询、算术计算、多语言翻译、时间感知等基础功能上的固有缺陷，同时保留其核心语言建模能力。核心问题：大语言模型（如GPT-J、GPT-3）虽在少样本/零样本任务中表现出色，但存在无法获取实时信息、易虚构事实、数学能力薄弱、低资源语言支持不足、缺乏时间感知等局限；现有工具使用方法依赖大量人工标注或局限于特定任务，通用性差。技术方案：让模型通过API调用外部工具（计算器、问答系统、维基搜索、机器翻译、日历），自主决策“调用哪种工具、何时调用、传递什么参数、如何整合结果”。训练流程分三步：① 基于上下文学习采样潜在API调用；② 执行调用并过滤掉对预测未来token无帮助的调用（通过损失函数判断）；③ 用过滤后的含API调用数据微调模型。实验结果：基于6.7B参数的GPT-J微调后，Toolformer在LAMA（事实补全）、数学基准（ASDiv/SVAMP/MAWPS）、时间相关任务等零样本场景中大幅超越同规模模型，甚至优于175B参数的GPT-3和66B参数的OPT。未牺牲核心语言建模能力（在WikiText和CCNet数据集上的困惑度与原始模型相当）。模型规模需达到775M参数以上才能有效利用工具，更强的基础模型对

http://www.zskr.cn/news/1375424.html

相关文章：

鲁棒优化中的下降-镜像上升算法：非凸Min-Max问题的收敛性分析与实践

DeepSeek V3多模态扩展能力首曝（仅限首批合作机构验证数据）

S32K144配置WdT函数解析

【AI玩游戏】一、搭建Claude+vscode环境，看看ok-nte项目

TCP和UDP有什么区别？

一个能同时使用 SSH+ SFTP + DBeaver +AI的开源神器，yyds

定了 10 个闹钟不如用它：智慧调度到底能帮你干啥？

开关电源设计难点

Scalify：基于e-graph与符号推理的分布式机器学习静默错误检测工具

2025-2026年时余家具电话查询：选购中古风实木家具前请核实资质 - 品牌推荐

印刷电子MLP混合一元-二元架构：无乘法器设计实现46%面积优化

芯片选型依赖问题剖析：企业供应链受制原因与损耗代价

现场故障排查思路，降低同步带失效停机概率

深度学习MRI加速：DeepFoqus-Accelerate如何实现4倍扫描速度与无损诊断质量

HashMap的解析（1）

Unity Android跨语言调用实战：NDK/JNI/C#内存与线程安全指南

私有化部署Agent Harness：数据安全与可控性

病房钢制门十大品牌有哪些？

2026年智己LS8优势续航深度分析：家用SUV场景续航焦虑与操控痛点解析 - 品牌推荐

状态机+划分型 DP ：深度解析K-划分问题下 DP 状态的转移逻辑（洛谷P2679 P2331 附C++代码）

基于CGCNN的晶体材料弹性模量预测：从图神经网络到高通量筛选实践

基于贝叶斯优化与计算机视觉的量子点电荷态自动化搜索算法

数据结构与算法之顺序表

ARM-FM：用大语言模型自动生成奖励机，破解强化学习稀疏奖励难题

可解释机器学习解析心电信号：从特征工程到身份识别的核心特征挖掘

ARM SME指令集与MOVA指令详解：矩阵运算优化

放射组学与机器学习在冠状动脉钙化自动评分中的实践与对比

C++正在向C语言发起“进攻”！TIOBE7月榜单发布

基于K-d Tree与Keras的测光红移估计：解决训练样本偏差的机器学习实践

26年5月系分论文~写作思路深度拆解