当前位置: 首页 > news >正文

国产新模王Qwen3.7-Max,海外开发者已经沸腾了

Qwen3.7-Max自主跑 35 小时连续 1158 次工具调用完成内核优化不掉线。正如 X 用户 FakeMaidenMaker 所说“Qwen3.7-Max 这一波真正的看点不是它在 benchmark 上又超了谁是它把长任务自主执行这件事推到了产品级——35 小时不间断、1158 次工具调用、从没见过的硬件上做内核优化这个 case 比任何一项分数都更接近agent 真的能干活的体验。”有开发者将它与 Gemini 3.5-Flash 做了对比对谷歌失望了。还有开发者直接上手做实验用 Qwen3.7-Max 击败了 Claude Opus 4.7 和 GPT-5.5。而且比 Claude 便宜 9 倍比 GPT 便宜 2 倍。还有开发者表示前沿闭源模型危险了他不知道 Qwen3.7-Max 也没开源。阿里通义千问团队发布的 Qwen3.7-Max可能是阿里真正面向 Agent 时代的旗舰模型。它写代码、调内核、做报表、跑长线任务而且跨框架通用从编程到办公到自动驾驶全栈覆盖。全科成绩单Qwen3.7-Max 在六大类评测中跟 Opus-4.6 Max、K2.6 Thinking、GLM-5.1 Thinking、DS-V4-Pro Max 同台竞技部分还跟上一代 Qwen3.6-Plus 做了对比。几个亮点值得单独拎出来说。编程 Agent 方面Terminal Bench 2.0 上拿到 69.7超过 DS-V4-Pro Max 的 67.9。SWE-Pro 得分 60.6全场最高。SWE-Multilingual 拿到 78.3SciCode 53.5QwenSVG 1608多项领先或持平。通用 Agent 方面MCP-Mark 得分 60.8超过 GLM-5.1 的 57.5。MCP-Atlas 拿到 76.4比 Opus-4.6 的 75.8 还高。Skillsbench 59.2领先 K2.6 的 56.2。Kernel Bench L3 上实现了 1.98 倍中位加速96% 的场景通过仅次于 Opus-4.6。办公场景的 SpreadSheetBench-v1 拿到 87一线水准。推理能力上GPQA Diamond 92.4 超过 Opus-4.6 的 91.3。HLE 41.4 领先。HMMT 2026 Feb 97.1、IMOAnswerBench 90.0、Apex 44.5多项拿到全场最高。通用能力和多语言也扎实。IFBench 79.1 领先WMT24 拿到 85.8MAXIFE 89.2PolyMATH 86.5。长上下文检索 MRCR-v2 128k 得分 90.4远超第二名 Qwen3.6-Plus 的 85.9。而且这些成绩来自不同的 Agent 框架Claude Code、OpenClaw、Qwen Code 等都有覆盖。Qwen3.7-Max 没有针对某个特定框架做专项优化它对各种 Agent 脚手架保持了通用性。在Artificial Analysis Intelligence Index上排到了全球第五。环境扩展驱动能力泛化Qwen3.5 引入了环境扩展environment scaling的思路Qwen3.7 在这条路上走得更远。核心想法跟预训练的扩展律类似语言模型从多样化的文本中泛化能力Agent 模型从多样化的训练环境中泛化能力。从上图可以清楚看到随着训练环境的质量和多样性不断提升Qwen3.7-Max 的平均排名稳步上升逼近 Claude-4.6-Opus-Max。这种扩展有可预测性。在任意子集上的性能提升都能可靠地预测其余基准上的相对增益。说明环境扩展带来的是真正的能力泛化。团队还做了一个有意思的设计Rollout 环境基础设施把每个训练实例拆成三个正交组件Task任务、Harness脚手架、Verifier验证器自由重组。同一任务搭配不同的 Harness 和 Verifier模型被迫学习通用的解题策略。在 QwenClawBench 和 CoWorkBench 上Qwen3.7-Max 无论用什么 Harness 评估表现都稳定一致。换框架不用换模型Qwen3.7-Max 在不同脚手架下都能稳定发挥。35 小时自主狂奔官方最有故事性的一段实验是让 Qwen3.7-Max 去优化一个叫 Extend Attention 的内核。这个内核来自 SGLang负责计算新生成 token 与前缀 KV-cache 之间的注意力分数是 LLM 推理中一个访存密集、延迟敏感的关键算子。有意思的地方在于测试跑在一台搭载 T-Head ZW-M890 PPU 的 ECS 实例上这个硬件平台 Qwen3.7-Max 从未见过。没有历史性能数据没有硬件文档没有参考内核。起始条件只有一个空工作区里面放着任务描述、SGLang 的原始 Triton 实现和一个评估脚本。接下来发生的事持续了约 35 小时。模型执行了 1158 次工具调用评估了 432 个内核版本。它自己写代码、编译、运行、分析性能瓶颈、改架构、修 bug全程没人干预。30 小时之后它还在找到有意义的改进持续进步没有陷入原地踏步。最终成绩几何平均加速比 10.0 倍对比原始 Triton 实现。同一个任务其他模型的表现GLM 5.1 达到 7.3 倍Kimi K2.6 达到 5.0 倍DeepSeek V4 Pro 达到 3.3 倍Qwen3.6-Plus 只有 1.1 倍。在 NVIDIA GPU 上Qwen3.7-Max 同样能生成高质量的内核。KernelBench L3 上96% 的场景产出加速内核Opus-4.6 是 98%GLM 5.1 是 78%K2.6 是 80%DS-V4-Pro 是 54%。这段实验展示了 Qwen3.7-Max 两个核心特质长程推理的持续性跨越上千次工具调用依然保持连贯的优化策略以及强大的上下文泛化能力面对从未见过的硬件架构靠运行时反馈而非记忆中的硬件知识就产出了有竞争力的内核。长程规划与自我进化长程能力不止体现在内核优化。团队还做了两件事来验证 Qwen3.7-Max 在更长链条上的表现。一件是奖励作弊监控。团队把 Qwen3.7-Max 接入 SWE 任务的 RL 监控流程让它自己监控自己。在超过 80 小时的 RL 实验中模型自主检索、回放训练轨迹执行超过 10000 次调用系统性地识别潜在的作弊模式比如试图绕过约束去 GitHub 拿标准答案。同时它还做规则验证、反例挖掘和迭代优化。结果Qwen3.7-Max 完成了多轮规则自演化新增 13 条启发式规则精准标记了 1618 个作弊案例。这件事保证了 RL 奖励的稳定性也让模型作为 SWE Agent 持续自我改进。另一件是创业模拟 YC-Bench。在这个模拟完整一年创业周期的基准里Agent 要面对数百轮决策涉及人员管理、合同筛选、识别恶意客户还得在人力成本上涨的压力下维持利润率。Qwen3.7-Max 拿到 208 万美元总营收是 Qwen3.6-Plus105 万美元的两倍Qwen3.5-Plus35.2 万美元的 5.9 倍完成了 237 个任务。更有意思的是过程。模型主动探索潜在客户识别并拉黑恶意陷阱优先稳定收入来源在中期危机中自主恢复最终收敛到一个稳定高效的执行循环。跨越上千步的决策轨迹中它始终保持了策略一致性没有出现上下文腐化或指令漂移。除了硬核基准Qwen3.7-Max 在实际场景里也展现了丰富的能力。办公场景它通过 MCPModel Context Protocol模型上下文协议集成能自主完成论文格式修复这类繁琐工作。读取格式规范文件自动修正页面布局、标题样式、字体、页边距、目录和参考文献格式全程自主调用工具完成。前端开发一条提示词就能生成 Three.js 3D 场景、Canvas 动画、完整页面布局和动态 SVG。比如用手势控制 3D 粒子系统的网页摄像头检测手掌张合控制粒子扩散和收缩不同手势让粒子组成不同文字实时响应。游戏开发一句话就能生成 3D 赛车游戏。更远一点Qwen3.7-Max 还能操控机器狗。通过 Qwen-RobotClaw 脚手架和导航基础模型 Qwen-RobotNav加上视觉工具它在物理环境中进行理解、规划、记忆和决策。Qwen3.7-Max 已通过阿里云 Model Studio 上线兼容 OpenAI 和 Anthropic 的 API 协议可以直接接入 Claude Code、OpenClaw、Qwen Code 等主流编程助手和 Agent 框架。它支持 preserve_thinking 特性在多轮 Agent 任务中保留前序轮次的思考内容这对长链推理任务有实际帮助。Qwen3.7-Max 是不是可以代替 Claude 和 GPT 了赶紧接入你的工作流试试。参考资料https://qwen.ai/blog?idqwen3.7
http://www.zskr.cn/news/1380131.html

相关文章:

  • 【分享】DreamFace Ai数字人 内置文本生成视频等
  • 合成器振荡器物理耦合:从数字调音到声学建模实践
  • 第十五章:Agent产品的监控与可观测性:如何构建“看得见、管得住“的AI系统
  • Midjourney辉光效果失效诊断手册(含12个隐性触发条件与4类GPU显存陷阱)
  • 独立开发者如何利用Taotoken的TokenPlan在项目初期有效控制AI实验成本
  • C++的单例模式及其作用
  • 嘉兴黄金回收怎么选?福运来免费上门透明报价 - 黄金回收
  • 5个简单步骤:在Windows电脑上直接安装安卓应用的终极指南
  • 5分钟掌握思源宋体:设计师必备的免费商用字体终极指南
  • 通过Taotoken用量看板分析不同业务模块的AI调用成本与优化方向
  • 从‘找不到dll’到流畅运行:一份给VS2022新手的Zbar+OpenCV3.6.0环境配置避坑指南
  • 关于我第九次博客作业
  • 基于Matter与Thread协议实现本地化智能电表数据采集与家居集成
  • 2026 年度国内 GEO 服务商推荐五强榜单及头部品牌竞争格局与选型策略 - 资讯纵览
  • 郑州本地黄金回收哪家好,正规商家推荐 - 合扬奢侈品交易中心
  • 终极指南:XXPermissions如何解决Android权限适配难题
  • Stylized手绘纹理包:统一视觉语法的自然表面解决方案
  • 高效B站视频下载实战指南:BiliDownloader从入门到精通
  • 【Sora 2 HDR视频生成技术白皮书】:20年AIGC架构师首曝4K/60fps动态色调映射实战参数与避坑清单
  • Unity新手避坑:用VideoPlayer在UI上播视频,从拖拽到WebGL发布的完整流程
  • Python移动开发终极指南:从Python代码到Android APK的完整实战教程
  • SuperCom串口调试工具:终极免费解决方案与5分钟快速部署指南
  • 2026年成都电缆桥架与抗震支架一站式采购指南:从规范合规到高效安装的专业选型方案 - 优质企业观察收录
  • 2026年Word文档导出为高清图片的详细教程:5种方法一看就会
  • 忆阻储层计算:预处理优化与硬件实现
  • 对比直接调用厂商API使用Taotoken聚合调用的延迟体感差异
  • 基于Shapley值与随机森林的印度CPI通胀预测与特征重要性分析
  • 告别硬编码!在UE5 RPG里用DataAsset+Tag优雅绑定技能与按键(以Lyra为例)
  • 告别硬编码!在UE5 GAS中实现动态技能键位绑定:从DataAsset配置到运行时热更新的完整流程
  • 2026 干花、干花原材料、押花、押花原材料、永生花、永生花原材料行业靠谱厂家整理,花艺货源甄选参考,全网优质供货商口碑盘点与长期合作选购实用指南 - 海棠依旧大