当前位置: 首页 > news >正文

Opus 4.8发布,Anthropic估值正式超越 OpenAI

最近,我在X(推特)上关注了一个博主。这哥们儿有点东西。好几次模型发布,他都提前精准爆料过。

昨天,他又发布了一条动态:

难道Anthropic和OpenAI要同时放大招?我直接蹲了一晚上。结果呢,GPT-5.6没等来,但Anthropic是真给力,同时放了两个炸弹。

  1. 发布了新模型Opus 4.8

  2. 宣布融资650亿美元,估值达到9650亿

咱们先说融资。

◈9650亿,全球最贵AI公司,换人了

Anthropic这轮是H轮,是它进行的第8轮融资,650亿美元砸进来,估值达到9650亿。差一脚,就是一万亿。

在此之前,估值8520亿的OpenAI,一直顶着“全球最有价值AI创业公司”的头衔。现在,这个头衔,换人了

Altimeter、Dragoneer、Greenoaks、Sequoia四家领投,后面跟着Capital Group、Coatue、D1、GIC、ICONIQ、XN。

最值得看的是“战略伙伴”那一栏——美光、三星、SK海力士这些搞芯片和存储的,也进场了。

所以这650亿,不是拿去做市场的,而是用来锁算力的。看看Anthropic这次签的几笔算力合作就清楚了:

  • Amazo提供最多5GW的新增算力;

  • Google和Broadcom提供5GW的下一代TPU算力;

  • SpaceX提供Colossus 1和Colossus 2的GPU访问权限。

Anthropic光跟Amazon和Google签的算力合同加起来,就接近半个三峡了。

更有意思的是用途,Anthropic的CFO Krishna Rao在声明里说,这笔钱要干三件事:推进安全和可解释性研究、扩算力、扩产品(包括Claude Code和Cowork)。

注意这个排序——安全研究,排在最前。

配合另一个数据来看:Anthropic今年5月初刚披露年化收入已经突破了470亿美元。上一轮G轮融资是今年2月,这才过了三个月又融了一轮。

钱说完了,再看模型。

◈41天,又是一代

Opus 4.8,今天凌晨正式上线。距离上一代Opus 4.7,仅仅只隔了41天。

一个半月不到,又一代,这个节奏快的我已经在暗暗担心工程师的发量安全了。

首先看价格:这次挺厚道,没涨。

还是每百万Token输入5美元,输出25美元。fast mode(快速模式)能跑到2.5倍速,价格反而比之前便宜了3倍。

价格之外,再看跑分。

先看最硬的那项——SWE-Bench Pro,目前衡量AI编程能力比较狠的一个benchmark,Opus 4.8拿了69.2%。

横向对比一下:Opus 4.7是64.3%;GPT-5.5是58.6%;Gemini 3.1 Pro是54.2%,高出GPT-5.5十个百分点还多,拉出一个身位的差距。

其他几项也能打:

  • OSWorld(让AI像人一样操作电脑):83.4%,GPT-5.5是78.7%,Gemini 3.1 Pro是76.2%。

  • Online-Mind2Web(浏览器代理):84%。

  • Knowledge work评分:从1753涨到1890。

  • Legal Agent:首次突破10%全通标准——做法律对Harvey团队直接说,这是他们见过的最高分。

在Super-Agent benchmark上,Opus 4.8是唯一一个端到端跑通所有case的模型。CursorBench上在所有effort等级下都超过了Opus 4.7。

Cursor的联合创始人直接说:Opus 4.8在所有effort等级上都超过了之前的Opus模型,而且工具调用效率明显提高。

Databricks的CTO给的结论是:

用Opus 4.8比用4.7的token成本降低了61%。

对于那些重度使用API的人来说,这是实打实的省钱。

跑分数据看完了,说说下一个我觉得这次值得关注的地方。

Opus4.8最大卖点是:不欺骗

我一直觉得,AI有个难以忽略的小毛病——爱吹。有时候活儿没干完,信息都不全,它还要拍着胸口告诉你“一切都搞定了”。

用AI写过代码的都懂,那种它信誓旦旦说“已修复”,结果一跑全是bug的崩溃感。

这次发布,我发现一件挺意外的事——Anthropic花了相当大的篇幅在讲一个以前模型发布几乎不会重点提的东西。

诚实。

他们说,Opus 4.8在这方面改了不少。继续拿写代码举例子,在写完代码之后,Opus 4.8主动指出自己代码可能存在问题的概率,比4.7高了整整4倍。

以前4.7写完一段有问题的代码可能自己也“察觉到了”但不会主动说,4.8则会直接告诉你“这块我不太确定,你最好检查一下”。

Shopify的Staff Engineer给了一段评价,我觉得说得很准:Opus 4.8判断力明显更好了,会问对的问题、会抓住错误,方案不靠谱的时候会push back。

“诚实”这个卖点听起来有点朴实无华,但往深了想,这恰恰是Anthropic的算盘。

政府、投行、企业、律所……这些客户用AI,要的是准确、可信任,和打肿脸充胖子的AI相比,一个敢说“我不太确定”的AI,显然更对他们的需求。

能力可以慢慢涨,但如果我不知道什么时候该信你什么时候不该信你,能力再强我也没法放心用。这才是真正的瓶颈。

Anthropic的alignment评估数据也印证了这个方向。他们说Opus 4.8在用户自主性支持、利他行为等指标上创了新高,欺骗行为和滥用合作的概率大幅低于4.7,接近Claude Mythos Preview的水平。

Mythos是Anthropic一直在内部酝酿的下一代模型,比Opus更高一级。目前只在Project Glasswing项目里给少数组织做网络安全场景,还没正式对外开放。

Anthropic这次说预计几周内向所有客户发布Mythos级别的模型。4.8能做到接近Mythos的对齐水平,某种程度上可以看作正式发布前的铺垫。

◈Claude code新增「动态工作流」功能

如果说诚信是软实力,那么这次最硬的更新,是Dynamic Workflows。(动态工作流)

Claude Code现在可以在一个会话里同时启动几百个并行子代理,一起干活。你给它一个大任务,比如把一个几十万行的代码库做迁移,它自己规划任务,自己拆分,同时派出几百个子代理并行执行,最后自己汇总验证。

听起来不错,但目前这个功能还是研究预览阶段,只有Enterprise、Team和Max计划能用。真实效果如何还得打一个大大的问号,大规模使用之后才有定论。

另外还有一个实用的小功能叫Effort Controls,让用户控制Claude在一个任务上投入多少算力。

默认是High,跟4.7差不多的token消耗但效果更好;

你也可以开到Extra(Claude Code里叫xhigh)或Max,让它花更多时间和token来追求最高质量。

简单问题省着用,复杂问题全力投入,这套分层,真是设计到我的心坎里去了。

◈最后的彩蛋

发布稿末尾,Anthropic还不忘拉一波期待:

比Opus更聪明的下一代——Mythos级别的模型,预计未来几周就要开放。

Opus4.8只是开胃菜,真的大招,还在后面。

http://www.zskr.cn/news/1429382.html

相关文章:

  • Markn:重新定义Markdown编辑体验的轻量级实时预览工具
  • 郑州门联柜工厂,郑州致远门业工厂直发
  • 2026四川九寨沟+黄龙+四姑娘山7天6晚导游TOP榜|纯玩实测与避坑解析 - 随峰国旅
  • HS2-HF Patch:高效解锁Honey Select 2完整汉化与功能增强的实用指南
  • 2026 年长沙门窗怎么选? - 涂伟
  • 2026四川稻城亚丁情侣游导游排名|纯玩口碑分析+避坑攻略 - 随峰国旅
  • 租赁中介用什么中介房源管理系统合适
  • 窗户干净脏污分类窗户清洁状态分类数据集3299张2类别已划分训练验证测试集
  • 2026年天津除甲醛哪家好?本地人实测推荐 - 资讯纵览
  • 如何快速配置英雄联盟Akari助手:新手的完整智能游戏助手指南
  • Minecraft MASA模组全家桶汉化包终极指南:如何快速解决中文界面难题
  • ARM服务器启动探秘:从ATF BL2到UEFI,那些硬件初始化代码都藏在哪里?
  • 【独家披露】头部电商AI-A/B系统压测报告:单日亿级流量下,模型变异率<0.008%的5项硬核保障
  • 嵌入式开发实战:基于Raspberry Pi Pico的边沿检测与按键消抖技术详解
  • OpenCore配置终极解决方案:OCAuxiliaryTools完整指南
  • 2026推荐榜:大连奢侈品黄金名表回收靠谱排名TOP5 - 资讯纵览
  • 2026年5月最新|无锡GEO优化公司排名榜单,实地测评帮企业优选靠谱服务商 - 商业新知
  • 基于华为ENSP系统实现DHCP基础实验的操作步骤
  • 从CAPWAP隧道到VSL链路:一张图看懂锐捷无线AC冗余的底层通信逻辑与配置核心
  • 微信转账到零钱又改了,是好消息,也是坏消息
  • 3分钟终极优化:用Win11Debloat让你的Windows 11重获新生
  • Unity游戏里也能玩转海康威视摄像头?用C# SDK实现云台控制的保姆级教程
  • OSS Browser终极指南:从零开始掌握阿里云对象存储桌面管理神器
  • 2026年大连奢侈品回收靠谱榜:黄金名表推荐排名 - 资讯纵览
  • OBS-Multi-RTMP:5分钟搞定多平台直播,让你的内容触达所有观众
  • CefFlashBrowser:专业Flash浏览器全面解析,让你重温经典Flash游戏
  • 告别网格不匹配:用原子范数去噪搞定毫米波MIMO信道估计(附Python代码示例)
  • MoviePilot完整指南:快速实现NAS媒体库自动化管理
  • Agentic Search 爆发:AI 主动逛网站,独立站要做 “可交互内容”
  • APKMirror:安卓应用下载的终极解决方案,如何安全获取官方商店没有的应用?