当前位置: 首页 > news >正文

Smoke日报:GPT-5.5 92.58分登顶 材料约束19分差距决定胜负

#GPT-5.5 #材料约束 #代码执行满分 #Smoke评测 #模型排名

Smoke今日凌晨数据一出,最直接的结论已经摆在眼前:代码执行不再是分水岭,材料约束成了真正的战场。

满分执行掩盖下的真实差距

前九名模型代码执行全部拿到100分,这意味着在10道快测题里,模型基本都能完成可运行的代码。真正决定排名的,是材料约束这一项。GPT-5.5拿到83.5分,文心一言4.5只有64.3分,中间差了19.2分。0.45的权重放大后,直接造成主榜36分以上的总分差距。

这种格局不是偶然。过去半年,主流模型在代码能力上快速收敛,执行题已变成“及格题”。现在比拼的是模型是否会在引用外部材料时胡编、是否会忽略约束条件、是否会把不该暴露的信息写进代码注释。

前五名几乎打成一团

GPT-5.5、豆包Pro、Claude Opus 4.7、Gemini 3.1 Pro、Claude Sonnet 4.6五家主榜分差不到2.5分。豆包Pro能排第二,靠的是82.3分的约束成绩,证明其在中文材料处理上仍有优势。Claude Opus 4.7虽然约束81分略低,但整体仍稳居第三,显示其在工程判断(侧榜,AI辅助评估)上的积累仍在发挥作用。

反观GPT-o3和文心一言4.5,执行分直接掉到50分,说明它们在快测的代码题里已经出现无法通过的错误。这两家目前只能靠材料约束勉强维持及格线。

行业信号:约束能力正在定价

从今天的数据看,约束分数每提升1分,对主榜的贡献是0.45分。而执行已经接近天花板,继续堆执行能力带来的边际收益远低于堆约束。未来三个月,预计各实验室会把更多RLHF资源转向“材料使用合规”而非“代码写得更快”。

没有异常波动也说明一件事:当前模型能力分布已经相对固化,短期内不会出现黑马把前五名直接掀翻。

材料约束每差一分,模型在真实落地场景里就多一分“不能用”的风险。

数据来源:赢政指数 (YZ Index) | Run #155 | 查看原始数据

© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接

http://www.zskr.cn/news/1500580.html

相关文章:

  • 百奥几何完成数亿融资,GeoFlow模型迭代加速AI制药商业化进程
  • Java Web员工信息管理系统毕设资源包(含JSP源码、MySQL脚本、论文文档及运行截图)
  • 温州专业GEO服务商推荐|2026年口碑效果双保障 TOP5-10企业权威榜单 + 完整服务指南 - 玖叁鹿
  • 数据的加密与解密(23:46)
  • 意图共鸣科技《AI记忆链商业化白皮书3.0》精读:第二大脑,你的AI参谋
  • 2026广州中高端财税服务商权威测评:合规评级与服务能力双维度排行 - 互联网科技品牌测评
  • 终于不用再“盲猜”了:一位硬件工程师的 SC2010 使用手记
  • Authlib:Python OAuth 与 OpenID Connect 服务端库
  • IBM MQ特性-- 面向零停机世界的弹性
  • 微信网页版插件:5分钟解决无法访问问题,享受便捷网页聊天体验
  • Balatro后端进阶(3):为什么机制设计比写代码更难
  • 创新驱动中国制造业的智能化转型**
  • ChatGPT / Codex 账号被封的 6 大原因与排查清单(2026)
  • 对于工业相机的认识(对机械臂的,工业方面的也可以参考)
  • 2026年 西安充电桩箱式变电站厂家推荐榜:新能源汽车充电桩变电站/交流充电桩配电房/高低压成套设备实力厂商深度解析 - 品牌发掘
  • STM32L051K6U6 IAP要点记录-LL库
  • python3.7-数据存储与运算-赋值运算符
  • 科华UPS全系列产品汇总:主流型号与应用场景解析
  • 全国地下水位深度数据集
  • 微信网页版终极解决方案:wechat-need-web浏览器扩展完整指南
  • LinkSwift网盘直链下载助手:告别限速,5分钟开启高速下载新时代
  • Teamcenter许可回收,两种触发方式到底哪个更及时?
  • 2026年辽宁党建文化墙公司推荐榜单:红色阵地设计、党建展厅与氛围营造实力品牌解析 - 品牌发掘
  • 四路LED灯控芯片 ECJ240024掉电循环切换LOGO霓虹灯专用闪灯芯片
  • Claude Code 的 Skills:AI Agent 真正需要的不是提示词,而是组织记忆
  • 2026年 耐高温丁晴密封圈品牌推荐榜:高温耐油、高压耐用与长寿命品质之选 - 品牌发掘
  • AI中医ChatiSS查体大模型全流程解析,辨证准确率凭什么可以做到95.8%
  • 2026年惠州中央空调回收品牌推荐与选择攻略 - 广东再生资源回收
  • 本地运行的年会抽奖工具,改JS名单就能抽,中奖实时可见
  • 深入解析MC68HC805P18:经典8位MCU架构、中断与EEPROM编程实战