Sonnet 5能自主用浏览器和终端了,Agent AI的临界点到了

Sonnet 5能自主用浏览器和终端了,Agent AI的临界点到了

6月30日,Anthropic发布了Claude Sonnet 5。

官方的说法是:"迄今最具Agent能力的Sonnet模型"。具体来说:它能自己制定计划、打开浏览器查信息、调终端跑命令、中途发现不对会停下纠正——不用人在旁边盯着。

我看了系统卡里的数据,用几个关键数字说清楚它到底强在哪。


数据怎么说

先把Sonnet 5和旗舰Opus 4.8拉出来对比:

Agent搜索评测 BrowseComp:Sonnet 5 拿了 84.7%,Anthropic官方标注为"与Opus 4.8在同等任务成本下相当"。这个评测测的是模型自主上网搜索、跨页面整合信息的能力——Agent场景的核心能力。

计算机使用评测 OSWorld-Verified:Sonnet 5 81.2%,Opus 4.8 83.4%。差距只有2.2个百分点。这个评测是让模型在真实操作系统里操作软件完成任务——打开应用、填表单、处理文件。

SWE-bench Verified(真实代码修复):Sonnet 5 85.2%,Opus 4.8 88.6%,差3.4个百分点。

HLE带工具(高难度知识推理+工具辅助):Sonnet 5 57.4,Opus 4.8 57.9——基本持平,差0.5。

还有一个有意思的:Terminal-Bench 2.1,测的是命令行操作能力。Sonnet 5 80.4,Opus 4.8 74.6——Sonnet反超了5.8个百分点。

定价方面:Sonnet 5 标准价输入3/百万token、输出3/百万token、输出15/百万token。8月31日前推广价是2和2和10。作为对比,Opus 4.8 是5和5和25。Agent能力摸到了旗舰级的边,价格便宜了40%-60%。

安全方面,Anthropic的系统卡写了:整体不良行为频率低于Sonnet 4.6,幻觉和迎合性明显改善,拒绝恶意请求的能力更强了。


"Agent"这个词终于不是PPT词汇了

过去两年行业聊"Agent"聊了很多,但大部分时候它就是一张PPT上的概念。Sonnet 5 给这个词填上了具体的画面。

你给它一个目标——"帮我调研三家云服务商的GPU实例价格,做成对比表"——它不需要你逐步引导。它会自己决定先搜什么、再搜什么,打开每个页面读关键信息,整理成表。中间某个页面打不开,它会换一个来源。

这跟以前"你问一句我答一句"的模式有本质区别。是"你给目标我跑全程"。

消息一出,开发者社区的反馈很直接。Reddit和X上有人拿它跑SWE-bench工程任务,有人让它自己从零搭了一个网页爬虫。大家关心的不是"生成质量好不好"——这个早就不是瓶颈了——而是"它能不能自己动手干活"。答案正在变。


但产品化还有一个gap

Sonnet 5 把Agent能力推到新高度,这毫无疑问。但有一点需要理清楚:一个模型能干Agent任务,和一个团队能做出生产级的Agent产品,中间还有距离。

第一,你不会只用Sonnet 5。实际做Agent产品时,信息采集用轻量模型、复杂推理用Sonnet 5级别、某些环节用本地部署的开源模型——这是常规操作。多模型协同不是锦上添花,是工程层面的基本要求。

第二,Agent产品不是"调个API就完事"。你需要工具集成层(浏览器、终端、数据库、外部API)、对话状态管理、任务编排、错误兜底、输出格式化。Sonnet 5解决了"脑子"的问题,但一个完整的Agent产品还需要"手"和"骨骼"。

这也是为什么多模型平台和Agent开发平台越来越有价值。底层模型调度上,魔芋AI把国内外主流模型的API统一接好了——Sonnet 5可以做主力推理,其他环节按需切换不同模型,不用挨个对接。还有魔芋企业AI网关帮你管控token用量,防止月底账单大爆炸。

魔芋AI大模型网关I全球大模型一站式调用及服务平台魔芋AI大模型聚合平台(大模型网关平台)专注于提供高效能、低成本的多品类 AI 模型服务,助力开发者和企业聚焦产品创新。https://www.moyu.info/register?aff=zFsq

往上,RaaS100 AI社区把Agent产品的通用框架——工具集成、对话管理、任务编排、输出渲染——封装成了开箱即用的能力,平台上已经有头脑风暴智能体、万智测评、KyDI智能体等在跑的产品,社区宗旨是:让企业用好AI,让开发者卖好产品。如果你也感兴趣,欢迎进群我们一起探讨一下!

说白了:Sonnet 5证明了Agent AI从技术上已经ready。魔芋AI让你不被单一模型绑死。RaaS100让你省掉从零搭Agent框架的重复劳动。


一句总结

Sonnet 5 的意义不是说"又发了一个更强的模型"。是Agent AI从"模型能力够不够"的阶段,跨进了"产品能做到多快、多稳、多便宜"的阶段。

接下来的竞争,不在于你有没有最强的单模型。在于你能不能把模型、工具、工作流、交互体验快速串成一条线,在一个具体的场景里跑起来。