当前位置：首页 > news >正文

阿里 Qwen3.7-Max 编程能力飙升至全球第二！Code Arena 盲测 1541 分，超越 Claude Opus 4.6

news 2026/5/27 1:29:35

摘要2026 年 5 月 26 日凌晨全球权威三方编程盲测榜单Code Arena 更新排名。阿里通义千问最新旗舰模型Qwen3.7-Max版本qwen3.7-max-20260517以1541 分的成绩强势登榜——全球总排名第4在大模型厂商中排名全球第二仅次于 Anthropic 的 Claude 系列超越claude-opus-4-6、GPT-5.5、Gemini-3.5-Flash、GLM-5.1、Kimi-K2.6等一众顶尖模型。它是榜单中唯一突破 1540 分大关的国产大模型。 Code Arena 是什么为什么它含金量高Code Arena 是知名大模型盲测平台LMArena原 Chatbot Arena旗下专门面向 AI 编程能力的评测榜单。它的评测方式和传统 benchmark 有一个本质区别传统 BenchmarkCode Arena做选择题 / 填空补全从零生成完整可交互 Web 应用静态数据集容易被刷榜真实开发者出题匿名两两盲测 PK模型无法提前知道考题Anti-Gaming测单点能力测端到端工程能力初始化 → 编码 → 调试 → 运行全流程简单说它不是考模型背了多少题而是看它在真实开发场景下能不能真正干活。用户开发者直接用自然语言描述需求两个匿名模型同时生成代码再由用户凭效果投票——这和我们在日常工作中用 Copilot / Cursor / Claude Code 的方式几乎一模一样。所以 Code Arena 的分数是开发者用脚投票的结果不是刷出来的 paper 指标。最新榜单Qwen3.7-Max 成绩解读根据 5 月 25–26 日 Code Arena 更新的最新榜单数据排名总榜模型所属厂商分数 1claude-opus-4-7-thinkingAnthropic— 2claude-opus-4-7Anthropic— 3claude-opus-4-6-thinkingAnthropic—4qwen3.7-max-20260517Alibaba15415claude-opus-4-6非 thinking等Anthropic 1541…GPT-5.5、Gemini-3.5-Flash、GLM-5.1、Kimi-K2.6—更低几个关键结论Qwen3.7-Max 1541 分打破了此前由 Claude Opus 4.x 系列垄断的前四格局挤进了全球 Top 4。在大模型厂商维度Anthropic 占了前三席阿里紧随其后排名第二——这意味着在所有非 Anthropic 模型中Qwen3.7-Max 是最强的编程模型。它是榜单里唯一破 1540 分的国产模型把GLM-5.1、Kimi-K2.6等国产竞品甩在身后。 Qwen3.7-Max 到底强在哪1. 它是为 Agent 时代重新设计的Qwen3.7-Max 不是简单的参数更大而是架构思路变了。阿里在 5 月 20 日的阿里云峰会上明确说千问 3.7 面向 Agent 全新设计。核心亮点数据能力维度具体表现长程任务可持续自主运行35 小时累计1000 次工具调用不降性能芯片内核自举在新芯片平台上通过自主编程实现关键内核自我进化推理速度提升10×代码工程从前端原型快速搭建 → 复杂多文件软件工程的端到端编码框架兼容深度优化对 OpenClaw、Hermes Agent、Claude Code、Qwen Paw、Qoder 等 Agent 框架的支持2. 不只是 Code Arena——多项评测齐刷刷冒头根据中国日报/上海证券报引用的官方评测汇总SWE-Pro / SWE-Multilingual真实 GitHub issue 修复领先表现Terminal Bench 2.0 - Terminus得分 69.7超DeepSeek-v4-pro-Max、Claude-Opus4.6Kernel Bench L3GPU 内核优化展示了编译器/底层优化能力GPQA Diamond / HLE / HMMT 2026 / IMOAnswerBench推理超越Claude-Opus4.6及所有国产模型IFBench指令遵循79.1 分创新高3. 可用、能用、在用Qwen3.7-Max 已于5 月 22 日正式上线阿里云百炼平台支持 API 调用定价输入 ¥12 / 百万 tokens输出 ¥36 / 百万 tokens 调用方式Model Studio API / Token Plan 订阅对开发者的意义这不只是榜单赢麻了说句实在话——国内 AI 榜单新闻里水分不少。但 Code Arena 的盲测机制决定了它很难被 hack你不知道题目是什么随机用户 prompt你不知道你在跟谁比模型匿名评分人是真实开发者不是自动判分脚本所以当 Qwen3.7-Max 在这里拿到 1541 分它传达的信号是中国开发者第一次拥有一个在真实编程干活这个维度上能和 Claude Opus 正面掰手腕的国产选项。具体落到日常开发写业务代码 → 可以直接用百炼 API 接入你自己的 CI/CD / 内部 Copilot跑 Agent 流水线 → 35 小时长程千次级工具调用意味着它能独立完成多步骤 ticket不只补全一行成本控制 → ¥12/¥36 的定价相比直接买 Claude API 有一定空间当然效果对标才是关键快速上手指北如果你想自己测一把步骤操作① 访问阿里云百炼→ 模型服务 → Qwen3.7-Max② 鉴权申请 API KeyToken Plan 订阅可免按量计费③ SDK兼容 OpenAI 格式的 endpoint换 base_url 就能接④ 场景建议用 SWE-Bench 风格的真实 repo issue 做对照别只测 FizzBuzz 总结维度结论Code Arena 名次全球第 4 / 厂商第 21541 分唯一破 1540 的国产模型核心信号阿里第一次在真实编程盲测中摸到 Claude Opus 的鞋底技术底色Agent-first 架构、35h 长程自治、千次级工具调用链可用性✅ 已在百炼上线API 可直接调一句话点评过去大家选编程模型基本是Claude 优先其他凑合。Qwen3.7-Max 至少让这个选项不再只有进口二字。至于它能不能在你自己的 codebase 里稳定干活——建议你别信榜单拉个私有仓库的 issue 让它跑一轮答案比任何新闻都诚实。参考来源Code Arena / LMArena 榜单页、IT之家/凤凰网/网易/站长之家 5 月 26 日报道、阿里云峰会官方通稿中国日报/上海证券报、阿里云百炼定价公告⭐觉得这篇总结有用的话欢迎点赞收藏评论区可以聊聊你目前在用的编程模型是 Claude / Cursor / 本地 Qwen / GitHub Copilot 哪一个Qwen3.7-Max 有没有让你动过切回来试试的念头

查看全文

http://www.zskr.cn/news/1397580.html