当前位置：首页 > news >正文

国产新模王Qwen3.7-Max，海外开发者已经沸腾了

news 2026/5/25 14:57:36

Qwen3.7-Max自主跑 35 小时连续 1158 次工具调用完成内核优化不掉线。正如 X 用户 FakeMaidenMaker 所说“Qwen3.7-Max 这一波真正的看点不是它在 benchmark 上又超了谁是它把长任务自主执行这件事推到了产品级——35 小时不间断、1158 次工具调用、从没见过的硬件上做内核优化这个 case 比任何一项分数都更接近agent 真的能干活的体验。”有开发者将它与 Gemini 3.5-Flash 做了对比对谷歌失望了。还有开发者直接上手做实验用 Qwen3.7-Max 击败了 Claude Opus 4.7 和 GPT-5.5。而且比 Claude 便宜 9 倍比 GPT 便宜 2 倍。还有开发者表示前沿闭源模型危险了他不知道 Qwen3.7-Max 也没开源。阿里通义千问团队发布的 Qwen3.7-Max可能是阿里真正面向 Agent 时代的旗舰模型。它写代码、调内核、做报表、跑长线任务而且跨框架通用从编程到办公到自动驾驶全栈覆盖。全科成绩单Qwen3.7-Max 在六大类评测中跟 Opus-4.6 Max、K2.6 Thinking、GLM-5.1 Thinking、DS-V4-Pro Max 同台竞技部分还跟上一代 Qwen3.6-Plus 做了对比。几个亮点值得单独拎出来说。编程 Agent 方面Terminal Bench 2.0 上拿到 69.7超过 DS-V4-Pro Max 的 67.9。SWE-Pro 得分 60.6全场最高。SWE-Multilingual 拿到 78.3SciCode 53.5QwenSVG 1608多项领先或持平。通用 Agent 方面MCP-Mark 得分 60.8超过 GLM-5.1 的 57.5。MCP-Atlas 拿到 76.4比 Opus-4.6 的 75.8 还高。Skillsbench 59.2领先 K2.6 的 56.2。Kernel Bench L3 上实现了 1.98 倍中位加速96% 的场景通过仅次于 Opus-4.6。办公场景的 SpreadSheetBench-v1 拿到 87一线水准。推理能力上GPQA Diamond 92.4 超过 Opus-4.6 的 91.3。HLE 41.4 领先。HMMT 2026 Feb 97.1、IMOAnswerBench 90.0、Apex 44.5多项拿到全场最高。通用能力和多语言也扎实。IFBench 79.1 领先WMT24 拿到 85.8MAXIFE 89.2PolyMATH 86.5。长上下文检索 MRCR-v2 128k 得分 90.4远超第二名 Qwen3.6-Plus 的 85.9。而且这些成绩来自不同的 Agent 框架Claude Code、OpenClaw、Qwen Code 等都有覆盖。Qwen3.7-Max 没有针对某个特定框架做专项优化它对各种 Agent 脚手架保持了通用性。在Artificial Analysis Intelligence Index上排到了全球第五。环境扩展驱动能力泛化Qwen3.5 引入了环境扩展environment scaling的思路Qwen3.7 在这条路上走得更远。核心想法跟预训练的扩展律类似语言模型从多样化的文本中泛化能力Agent 模型从多样化的训练环境中泛化能力。从上图可以清楚看到随着训练环境的质量和多样性不断提升Qwen3.7-Max 的平均排名稳步上升逼近 Claude-4.6-Opus-Max。这种扩展有可预测性。在任意子集上的性能提升都能可靠地预测其余基准上的相对增益。说明环境扩展带来的是真正的能力泛化。团队还做了一个有意思的设计Rollout 环境基础设施把每个训练实例拆成三个正交组件Task任务、Harness脚手架、Verifier验证器自由重组。同一任务搭配不同的 Harness 和 Verifier模型被迫学习通用的解题策略。在 QwenClawBench 和 CoWorkBench 上Qwen3.7-Max 无论用什么 Harness 评估表现都稳定一致。换框架不用换模型Qwen3.7-Max 在不同脚手架下都能稳定发挥。35 小时自主狂奔官方最有故事性的一段实验是让 Qwen3.7-Max 去优化一个叫 Extend Attention 的内核。这个内核来自 SGLang负责计算新生成 token 与前缀 KV-cache 之间的注意力分数是 LLM 推理中一个访存密集、延迟敏感的关键算子。有意思的地方在于测试跑在一台搭载 T-Head ZW-M890 PPU 的 ECS 实例上这个硬件平台 Qwen3.7-Max 从未见过。没有历史性能数据没有硬件文档没有参考内核。起始条件只有一个空工作区里面放着任务描述、SGLang 的原始 Triton 实现和一个评估脚本。接下来发生的事持续了约 35 小时。模型执行了 1158 次工具调用评估了 432 个内核版本。它自己写代码、编译、运行、分析性能瓶颈、改架构、修 bug全程没人干预。30 小时之后它还在找到有意义的改进持续进步没有陷入原地踏步。最终成绩几何平均加速比 10.0 倍对比原始 Triton 实现。同一个任务其他模型的表现GLM 5.1 达到 7.3 倍Kimi K2.6 达到 5.0 倍DeepSeek V4 Pro 达到 3.3 倍Qwen3.6-Plus 只有 1.1 倍。在 NVIDIA GPU 上Qwen3.7-Max 同样能生成高质量的内核。KernelBench L3 上96% 的场景产出加速内核Opus-4.6 是 98%GLM 5.1 是 78%K2.6 是 80%DS-V4-Pro 是 54%。这段实验展示了 Qwen3.7-Max 两个核心特质长程推理的持续性跨越上千次工具调用依然保持连贯的优化策略以及强大的上下文泛化能力面对从未见过的硬件架构靠运行时反馈而非记忆中的硬件知识就产出了有竞争力的内核。长程规划与自我进化长程能力不止体现在内核优化。团队还做了两件事来验证 Qwen3.7-Max 在更长链条上的表现。一件是奖励作弊监控。团队把 Qwen3.7-Max 接入 SWE 任务的 RL 监控流程让它自己监控自己。在超过 80 小时的 RL 实验中模型自主检索、回放训练轨迹执行超过 10000 次调用系统性地识别潜在的作弊模式比如试图绕过约束去 GitHub 拿标准答案。同时它还做规则验证、反例挖掘和迭代优化。结果Qwen3.7-Max 完成了多轮规则自演化新增 13 条启发式规则精准标记了 1618 个作弊案例。这件事保证了 RL 奖励的稳定性也让模型作为 SWE Agent 持续自我改进。另一件是创业模拟 YC-Bench。在这个模拟完整一年创业周期的基准里Agent 要面对数百轮决策涉及人员管理、合同筛选、识别恶意客户还得在人力成本上涨的压力下维持利润率。Qwen3.7-Max 拿到 208 万美元总营收是 Qwen3.6-Plus105 万美元的两倍Qwen3.5-Plus35.2 万美元的 5.9 倍完成了 237 个任务。更有意思的是过程。模型主动探索潜在客户识别并拉黑恶意陷阱优先稳定收入来源在中期危机中自主恢复最终收敛到一个稳定高效的执行循环。跨越上千步的决策轨迹中它始终保持了策略一致性没有出现上下文腐化或指令漂移。除了硬核基准Qwen3.7-Max 在实际场景里也展现了丰富的能力。办公场景它通过 MCPModel Context Protocol模型上下文协议集成能自主完成论文格式修复这类繁琐工作。读取格式规范文件自动修正页面布局、标题样式、字体、页边距、目录和参考文献格式全程自主调用工具完成。前端开发一条提示词就能生成 Three.js 3D 场景、Canvas 动画、完整页面布局和动态 SVG。比如用手势控制 3D 粒子系统的网页摄像头检测手掌张合控制粒子扩散和收缩不同手势让粒子组成不同文字实时响应。游戏开发一句话就能生成 3D 赛车游戏。更远一点Qwen3.7-Max 还能操控机器狗。通过 Qwen-RobotClaw 脚手架和导航基础模型 Qwen-RobotNav加上视觉工具它在物理环境中进行理解、规划、记忆和决策。Qwen3.7-Max 已通过阿里云 Model Studio 上线兼容 OpenAI 和 Anthropic 的 API 协议可以直接接入 Claude Code、OpenClaw、Qwen Code 等主流编程助手和 Agent 框架。它支持 preserve_thinking 特性在多轮 Agent 任务中保留前序轮次的思考内容这对长链推理任务有实际帮助。Qwen3.7-Max 是不是可以代替 Claude 和 GPT 了赶紧接入你的工作流试试。参考资料https://qwen.ai/blog?idqwen3.7

查看全文

http://www.zskr.cn/news/1380131.html