Sonnet 5能自主用浏览器和终端了，Agent AI的临界点到了-尧图网络科技

6月30日，Anthropic发布了Claude Sonnet 5。

官方的说法是："迄今最具Agent能力的Sonnet模型"。具体来说：它能自己制定计划、打开浏览器查信息、调终端跑命令、中途发现不对会停下纠正——不用人在旁边盯着。

我看了系统卡里的数据，用几个关键数字说清楚它到底强在哪。

先把Sonnet 5和旗舰Opus 4.8拉出来对比：

Agent搜索评测 BrowseComp：Sonnet 5 拿了 84.7%，Anthropic官方标注为"与Opus 4.8在同等任务成本下相当"。这个评测测的是模型自主上网搜索、跨页面整合信息的能力——Agent场景的核心能力。

计算机使用评测 OSWorld-Verified：Sonnet 5 81.2%，Opus 4.8 83.4%。差距只有2.2个百分点。这个评测是让模型在真实操作系统里操作软件完成任务——打开应用、填表单、处理文件。

SWE-bench Verified（真实代码修复）：Sonnet 5 85.2%，Opus 4.8 88.6%，差3.4个百分点。

HLE带工具（高难度知识推理+工具辅助）：Sonnet 5 57.4，Opus 4.8 57.9——基本持平，差0.5。

还有一个有意思的：Terminal-Bench 2.1，测的是命令行操作能力。Sonnet 5 80.4，Opus 4.8 74.6——Sonnet反超了5.8个百分点。

定价方面：Sonnet 5 标准价输入3/百万token、输出3/百万token、输出15/百万token。8月31日前推广价是2和2和10。作为对比，Opus 4.8 是5和5和25。Agent能力摸到了旗舰级的边，价格便宜了40%-60%。

安全方面，Anthropic的系统卡写了：整体不良行为频率低于Sonnet 4.6，幻觉和迎合性明显改善，拒绝恶意请求的能力更强了。

过去两年行业聊"Agent"聊了很多，但大部分时候它就是一张PPT上的概念。Sonnet 5 给这个词填上了具体的画面。

你给它一个目标——"帮我调研三家云服务商的GPU实例价格，做成对比表"——它不需要你逐步引导。它会自己决定先搜什么、再搜什么，打开每个页面读关键信息，整理成表。中间某个页面打不开，它会换一个来源。

这跟以前"你问一句我答一句"的模式有本质区别。是"你给目标我跑全程"。

消息一出，开发者社区的反馈很直接。Reddit和X上有人拿它跑SWE-bench工程任务，有人让它自己从零搭了一个网页爬虫。大家关心的不是"生成质量好不好"——这个早就不是瓶颈了——而是"它能不能自己动手干活"。答案正在变。

Sonnet 5 把Agent能力推到新高度，这毫无疑问。但有一点需要理清楚：一个模型能干Agent任务，和一个团队能做出生产级的Agent产品，中间还有距离。

第一，你不会只用Sonnet 5。实际做Agent产品时，信息采集用轻量模型、复杂推理用Sonnet 5级别、某些环节用本地部署的开源模型——这是常规操作。多模型协同不是锦上添花，是工程层面的基本要求。

第二，Agent产品不是"调个API就完事"。你需要工具集成层（浏览器、终端、数据库、外部API）、对话状态管理、任务编排、错误兜底、输出格式化。Sonnet 5解决了"脑子"的问题，但一个完整的Agent产品还需要"手"和"骨骼"。

这也是为什么多模型平台和Agent开发平台越来越有价值。底层模型调度上，魔芋AI把国内外主流模型的API统一接好了——Sonnet 5可以做主力推理，其他环节按需切换不同模型，不用挨个对接。还有魔芋企业AI网关帮你管控token用量，防止月底账单大爆炸。

魔芋AI大模型网关I全球大模型一站式调用及服务平台魔芋AI大模型聚合平台（大模型网关平台）专注于提供高效能、低成本的多品类 AI 模型服务，助力开发者和企业聚焦产品创新。https://www.moyu.info/register?aff=zFsq

往上，RaaS100 AI社区把Agent产品的通用框架——工具集成、对话管理、任务编排、输出渲染——封装成了开箱即用的能力，平台上已经有头脑风暴智能体、万智测评、KyDI智能体等在跑的产品，社区宗旨是：让企业用好AI，让开发者卖好产品。如果你也感兴趣，欢迎进群我们一起探讨一下！

说白了：Sonnet 5证明了Agent AI从技术上已经ready。魔芋AI让你不被单一模型绑死。RaaS100让你省掉从零搭Agent框架的重复劳动。

一句总结

Sonnet 5 的意义不是说"又发了一个更强的模型"。是Agent AI从"模型能力够不够"的阶段，跨进了"产品能做到多快、多稳、多便宜"的阶段。

接下来的竞争，不在于你有没有最强的单模型。在于你能不能把模型、工具、工作流、交互体验快速串成一条线，在一个具体的场景里跑起来。

资讯详情