当前位置: 首页 > news >正文

微软:小模型替代大模型执行终端任务

📖标题:Terminus-4B: Can a Smaller Model Replace Frontier LLMs at Agentic Execution Tasks?
🌐来源:arXiv, 2605.03195v1

🛎️文章简介
🔸研究问题:在代码智能体的终端执行子任务中,经过微调的小型语言模型能否取代昂贵的前沿大模型,同时保持性能并降低 Token 消耗?
🔸主要贡献:论文提出了 Terminus-4B 模型及执行子代理架构,证明小模型在终端执行任务上可媲美甚至超越前沿模型,并将主代理 Token 用量降低约 30%。

📝重点思路
🔸设计执行子代理架构,将冗长的终端命令执行与输出解析隔离在独立的子代理上下文中,主代理仅接收结构化摘要,避免上下文窗口被日志填满。
🔸构建两阶段后训练流程:首先利用内部遥测数据中的专家轨迹对 Qwen3-4B 进行监督微调(SFT),使其掌握工具调用与输出格式规范。
🔸引入基于规则的多维 LLM 裁判奖励机制,通过对比候选轨迹与参考轨迹在执行质量、失败模式及最终回答有用性上的表现,指导强化学习(RL)优化。
🔸开发解耦的子代理训练框架,在 RL 阶段使用轻量级模型作为主代理固定输入,确保每次 rollout 起始状态一致,大幅降低训练成本。

🔎分析总结
🔸实验表明 Terminus-4B 在 SWE-Bench Pro 和内部 C# 基准测试中,解决率与使用 Claude Opus/Sonnet 等前沿模型作为子代理时持平,部分场景表现更优。
🔸采用 Terminus-4B 作为子代理可使主代理的 Token 消耗减少高达 30%,且显著降低了主代理因不信任子代理结果而重复执行终端命令的频率。
🔸消融实验证实,仅靠 SFT 不足以达到最佳效果,结合 GRPO 强化学习的 Terminus-4B 在生成准确、可操作的最终摘要方面显著优于基线小模型。
🔸该方案具有良好的泛化性,无论主代理是 GPT-5.3-Codex 还是 Claude 系列,Terminus-4B 均能稳定工作并有效节省整体推理成本。

💡个人观点
论文通过高质量的特定领域后训练(SFT+RL),成功让小模型具备了处理复杂构建与测试流程的能力。

http://www.zskr.cn/news/1316718.html

相关文章:

  • 深度解析 AI Agent Harness Engineering 的上下文缓存策略:Redis 在高并发场景下的应用
  • 告别OpenJDK!手把手教你为国产东方通TongWeb 6.1.5.8配置专属JDK 1.8环境
  • 12. 苹果手机怎么使用蓝牙助手、蓝牙调试、控制项目(仅适用于苹果手机)
  • 【智能算法】长鼻浣熊优化算法(COA)实战:从自然行为到工程优化
  • Java 业务测试全方案:测试方法 + 特殊场景 + 实战案例
  • 免费 + 精准 + 智能 —— 语音转文字 + 智能总结,让效率翻倍
  • 解密Nucleus Co-Op:让单机游戏瞬间变身多人派对的神奇技术
  • 手机也能跑的AI修图:Zero-DCE低光增强算法原理与轻量化部署指南(TensorFlow Lite/ONNX)
  • 告别.NET Framework:WinForm应用迁移到.NET 6后的性能提升与现代化改造实践
  • 静态查找,冒泡,快排
  • YOLOv8水果识别检测系统(项目源码+YOLO数据集+模型权重+UI界面+python+深度学习+环境配置)
  • 警惕!在 C++ 中缓存 vector.data() 指针的致命隐患
  • chartdet检测csv文件encoding编码
  • 宁波车主挑靠谱汽车贴膜机构的3步避坑指南 - 速递信息
  • ARM A64 SIMD向量指令详解与优化实践
  • 5分钟快速上手:MelonLoader双运行时游戏模组加载器完整指南
  • 5步彻底解决XXMI-Launcher游戏模组管理难题
  • Windows Cleaner终极指南:如何快速优化系统性能与清理C盘空间
  • RVC-WebUI语音克隆工具:从零开始的完整实战指南
  • 还在熬夜调格式?Paperxie 论文排版功能:一键搞定全高校规范,让格式问题不再卡你毕业
  • 西林瓶外观缺陷 AI 检测|医药行业标准化落地流程
  • 从 OpenClaw 到 Hermes:新一代 AI Agent 架构解析
  • Hitboxer:免费解决游戏按键冲突的专业SOCD重映射工具
  • 【算法题攻略】位运算总结(含习题解析)
  • 保姆级教程:用Android MediaCodec把YUV数据编码成MP4,从生成到封装一步到位
  • 芯科ZigBee工程建立步骤
  • 安达发|aps生产排程软件助力中央厨房破解多品类排产难题
  • rocky linux 8.10 下的 podman 配置镜像加速
  • 我的世界整合包服务器搭建实战:从Fear Nightfall到公网联机【Forge+SakuraFrp】
  • 深度解析:医院配送机器人SLAM导航方案对比与选型实践