当前位置: 首页 > news >正文

阿里 Qwen3.7-Max 编程能力飙升至全球第二!Code Arena 盲测 1541 分,超越 Claude Opus 4.6

摘要2026 年 5 月 26 日凌晨全球权威三方编程盲测榜单Code Arena​ 更新排名。阿里通义千问最新旗舰模型Qwen3.7-Max版本qwen3.7-max-20260517以1541 分​ 的成绩强势登榜——全球总排名第4在大模型厂商中排名全球第二仅次于 Anthropic 的 Claude 系列超越claude-opus-4-6、GPT-5.5、Gemini-3.5-Flash、GLM-5.1、Kimi-K2.6等一众顶尖模型。它是榜单中唯一突破 1540 分大关的国产大模型。 Code Arena 是什么为什么它含金量高Code Arena 是知名大模型盲测平台LMArena原 Chatbot Arena旗下专门面向 AI 编程能力的评测榜单。它的评测方式和传统 benchmark 有一个本质区别传统 BenchmarkCode Arena做选择题 / 填空补全从零生成完整可交互 Web 应用​静态数据集容易被刷榜真实开发者出题 匿名两两盲测 PK模型无法提前知道考题Anti-Gaming测单点能力测端到端工程能力初始化 → 编码 → 调试 → 运行全流程简单说它不是考模型背了多少题而是看它在真实开发场景下能不能真正干活。​ 用户开发者直接用自然语言描述需求两个匿名模型同时生成代码再由用户凭效果投票——这和我们在日常工作中用 Copilot / Cursor / Claude Code 的方式几乎一模一样。所以 Code Arena 的分数是开发者用脚投票的结果不是刷出来的 paper 指标。 最新榜单Qwen3.7-Max 成绩解读根据 5 月 25–26 日 Code Arena 更新的最新榜单数据排名总榜模型所属厂商分数 1claude-opus-4-7-thinkingAnthropic— 2claude-opus-4-7Anthropic— 3claude-opus-4-6-thinkingAnthropic—4​qwen3.7-max-20260517​Alibaba​1541​5claude-opus-4-6非 thinking等Anthropic 1541…GPT-5.5、Gemini-3.5-Flash、GLM-5.1、Kimi-K2.6—更低几个关键结论Qwen3.7-Max 1541 分打破了此前由 Claude Opus 4.x 系列垄断的前四格局挤进了全球 Top 4。在大模型厂商维度Anthropic 占了前三席阿里紧随其后排名第二——这意味着在所有非 Anthropic 模型中Qwen3.7-Max 是最强的编程模型。它是榜单里唯一破 1540 分的国产模型把GLM-5.1、Kimi-K2.6等国产竞品甩在身后。 Qwen3.7-Max 到底强在哪1. 它是为 Agent 时代重新设计的Qwen3.7-Max 不是简单的参数更大而是架构思路变了。阿里在 5 月 20 日的阿里云峰会上明确说千问 3.7 面向 Agent 全新设计。核心亮点数据能力维度具体表现长程任务​可持续自主运行35 小时累计1000 次工具调用​ 不降性能芯片内核自举​在新芯片平台上通过自主编程实现关键内核自我进化推理速度提升10×​代码工程​从前端原型快速搭建 → 复杂多文件软件工程的端到端编码框架兼容​深度优化对 OpenClaw、Hermes Agent、Claude Code、Qwen Paw、Qoder 等 Agent 框架的支持2. 不只是 Code Arena——多项评测齐刷刷冒头根据中国日报/上海证券报引用的官方评测汇总SWE-Pro / SWE-Multilingual真实 GitHub issue 修复领先表现Terminal Bench 2.0 - Terminus得分 69.7超DeepSeek-v4-pro-Max、Claude-Opus4.6Kernel Bench L3GPU 内核优化展示了编译器/底层优化能力GPQA Diamond / HLE / HMMT 2026 / IMOAnswerBench推理超越Claude-Opus4.6及所有国产模型IFBench指令遵循79.1 分创新高3. 可用、能用、在用Qwen3.7-Max 已于5 月 22 日正式上线阿里云百炼平台支持 API 调用定价输入 ¥12 / 百万 tokens输出 ¥36 / 百万 tokens 调用方式Model Studio API / Token Plan 订阅 对开发者的意义这不只是榜单赢麻了说句实在话——国内 AI 榜单新闻里水分不少。但 Code Arena 的盲测机制决定了它很难被 hack你不知道题目是什么随机用户 prompt你不知道你在跟谁比模型匿名评分人是真实开发者不是自动判分脚本所以当 Qwen3.7-Max 在这里拿到 1541 分它传达的信号是中国开发者第一次拥有一个在真实编程干活这个维度上能和 Claude Opus 正面掰手腕的国产选项。具体落到日常开发写业务代码​ → 可以直接用百炼 API 接入你自己的 CI/CD / 内部 Copilot跑 Agent 流水线​ → 35 小时长程 千次级工具调用意味着它能独立完成多步骤 ticket不只补全一行成本控制​ → ¥12/¥36 的定价相比直接买 Claude API 有一定空间当然效果对标才是关键 快速上手指北如果你想自己测一把步骤操作① 访问阿里云百炼→ 模型服务 → Qwen3.7-Max② 鉴权申请 API KeyToken Plan 订阅可免按量计费③ SDK兼容 OpenAI 格式的 endpoint换 base_url 就能接④ 场景建议用 SWE-Bench 风格的真实 repo issue 做对照别只测 FizzBuzz 总结维度结论Code Arena 名次​全球第 4 / 厂商第 21541 分唯一破 1540 的国产模型​核心信号​阿里第一次在真实编程盲测中摸到 Claude Opus 的鞋底技术底色​Agent-first 架构、35h 长程自治、千次级工具调用链可用性​✅ 已在百炼上线API 可直接调一句话点评过去大家选编程模型基本是Claude 优先其他凑合。Qwen3.7-Max 至少让这个选项不再只有进口二字。至于它能不能在你自己的 codebase 里稳定干活——建议你别信榜单拉个私有仓库的 issue 让它跑一轮答案比任何新闻都诚实。 参考来源Code Arena / LMArena 榜单页、IT之家/凤凰网/网易/站长之家 5 月 26 日报道、阿里云峰会官方通稿中国日报/上海证券报、阿里云百炼定价公告⭐觉得这篇总结有用的话欢迎点赞收藏​ 评论区可以聊聊你目前在用的编程模型是 Claude / Cursor / 本地 Qwen / GitHub Copilot 哪一个Qwen3.7-Max 有没有让你动过切回来试试的念头
http://www.zskr.cn/news/1397580.html

相关文章:

  • ESP32-CAM + YOLOv5实战:手把手教你搭建低成本智能监控(附Python服务端完整代码)
  • 影刀RPA店群自动化声明式配置管理:从命令式脚本到期望状态调和
  • Day36
  • 构建可扩展后端系统:事件驱动架构与消息队列应用
  • 2026夏季纯棉文化衫新趋势:定制你的个性清凉,穿出专属团队风采
  • IT68353:DP 1.4 + HDMI 2.0 + USB-C 三合一转 HDMI 2.0 单芯片KVM切换方案
  • 从 HTTP 到 HTTPS 再到 HTTP/3:全网最通俗详解,协议演进 + 加密原理 + 握手流程一网打尽
  • Jupyter Notebook图片显示全攻略:从HTML到OpenCV,四种方法优缺点实测
  • 微机原理-实验4 8254 定时/计数器实验
  • 2026年Q2河北玻璃钢通风管道定制厂家网址选择指南 - 2026年企业资讯
  • Python缺失值检测四大方法原理与陷阱详解
  • 复数流态矩阵计算器 · 使用说明
  • 前端开发者的职业发展规划
  • 天赐范式第54天:我本来都躺下了,但是我又爬起来了——因为我有种曹操被写讨伐檄文的陈琳给惊才绝艳到了~
  • 2026年广东工业酒精/无水乙醇/异丙醇/甲醇/深圳丙酮/丁酮/环己酮厂家推荐:高纯品质与稳定供应实力品牌精选 - 品牌企业推荐师(官方)
  • 2026年Q2高评价数控控制箱实测评测:聚酯防爆箱/铸铝防爆机箱/铸铝防爆箱/防爆接线机箱/防爆接线箱/防爆控制机箱/选择指南 - 优质品牌商家
  • 8个Shell命令提升数据科学效率的实战指南
  • 技术人的沟通技巧:提升职场沟通能力
  • 别再拍脑袋分预算了!用Python实战马尔科夫链,科学量化你的广告渠道贡献度
  • B91C2 高强镁合金 vs 高强钢:结构件减重对比测评
  • 从零到一:PSDK负载开发实战入门指南
  • [智能体-97]:大模型应用(Hybrid AI):基于大模型的推理、分析、生成能力,结合传统编程精确计算控制能力,开发出的各种应用。
  • 别再只用标准差SD了!用Python的NumPy和Pandas计算RSD,一眼看穿数据波动真相
  • SPSS 25 安装 PSM 插件完整流程(含R环境配置与避坑指南)
  • (毕业必看)实测好用的AI写作辅助网站,毕业生收藏备用
  • 基于GraphCodeBERT语义嵌入的软件协同变更预测实战指南
  • VSCode Live Server插件避坑指南:为什么你的HTML文件打开变成了‘listing directory‘?
  • 【K8s】Pod
  • 毫米波Class-C VCO设计:利用反馈路径嵌入变容管突破调谐范围限制
  • 2026成都诚信音响设备旧货回收服务商推荐榜:二手空调回收、二手空调旧货回收市场、办公家具旧货回收市场、变压器旧货回收市场选择指南 - 优质品牌商家