当AI学会“看球”,它真的比人类更懂吗?
一场揭幕战,让所有人都信了
2026年6月11日,美加墨世界杯揭幕战,墨西哥对阵南非。
赛前,12个中国大模型被拉到同一个擂台上——由联想天禧AI牵头、咪咕直播全程记录的「人机大战世界杯预言家」。它们要在104场比赛里,和近20万人类用户正面PK。
结果呢?墨西哥2:0南非,绝大多数AI命中了赛果。通义千问甚至精准到“上半场1:0、下半场再进一个、某球员破门”——细节全中。
那一刻,弹幕沸腾了。“AI真的懂球!”“以后不用看球了,直接问AI。”
三天后,小组赛前15场打完,一份成绩单被悄悄晒了出来:
最高命中率:46.7%。
连抛硬币的50%都没跑赢。
这届世界杯,成了中国AI最诚实的一场压力测试。而这场测试的结果,比任何发布会PPT都更接近真相。

在这里我也给大家分享两个skill,一个是世界杯数据查询的skill,一个是世界杯日报生成的skill,如果大家有在使用openclaw,或是基于openclaw的国产龙虾工具,比如阶跃AI桌面版(stepclaw),Qclaw,可以把skill直接接入你的龙虾,如果你的龙虾连接飞书了,还可以让他每天定时发送比赛的数据,还是挺好玩的。
① 世界杯数据查询 —— 一句话说就是:把它当你的 2026 美加墨世界杯「活体资料库」。"今天有哪些比赛?""西班牙对巴西怎么看?""阿根廷目前积分榜什么情况?"——直接用自然语言问,它去拉赛程/实时比分/阵容/球员数据和积分榜,结果还是结构化 JSON,写稿、做图、做 brief 都很方便。
安装:openclawmp install skill/9028f8fc66b349fa839b7beda96c3030

② 世界杯日报(World Cup Daily Report) —— 专为倒不过时差的人设计:每天早上自动把前一天凌晨场汇总成一份日报(比分、进球、红黄牌、关键统计、简短战术点评),支持 飞书 / 微信 等推送。说一句「昨天的世界杯结果」就能按需唤出来。
安装:openclawmp install skill/afe121bcb8314f0ba6dff857e542560c

使用起来也是很简单,一句话就能查世界杯的数据了:

Part 1:12张牌桌,三种打法
先搞清楚谁上了桌。联想×咪咕「人机大战」接入了整整12家大模型:
| 模型 | 所属 | 参战方式 |
|---|---|---|
| 天禧AI | 联想(FIFA官方技术伙伴·搭台方) | 主办方自研 |
| DeepSeek | 深度求索 | 擂台参赛 + 独立PR(押法国夺冠) |
| 通义千问 | 阿里 | 擂台参赛 + 独立营销页(环境变量建模/万元竞猜) |
| 百度文心一言 | 百度 | 擂台参赛 + 绑搜索实时赛况 |
| 腾讯混元 | 腾讯(元宝底座) | 擂台参赛 + 微信生态观赛场景 |
| Kimi | 月之暗面 | 擂台参赛 + 独立营销页(300子Agent/1万亿Token奖池) |
| 智谱清言 | 智谱AI | 擂台参赛(偏学术推理路径) |
| 阶跃星辰 | 阶跃星辰 | 擂台参赛——全场最“不合群”的那个 |
| MiniMax | MiniMax | 擂台参赛 |
| 讯飞星火 | 科大讯飞 | 擂台参赛 |
| 商汤小浣熊 | 商汤(视觉/多模态背景) | 擂台参赛 |
| 中移九天 | 中国移动 | 擂台参赛 |
12家,各有各的打法。大致可以分为三类:
第一类:独立营销派——Kimi、千问、DeepSeek。它们不仅参赛,还自己搭了独立的营销页面,搞Token奖池、现金竞猜、Agent推演直播。Kimi的“300个子Agent并行推演+1万亿Token瓜分”是这里面叙事最猛的。
第二类:生态绑定派——文心、混元、豆包(字节独立作战,未入擂台)。它们把预测能力嵌入已有的搜索、社交、内容生态里,试图让世界杯变成自己产品的“流量发动机”。
第三类:沉默应考派——阶跃星辰、MiniMax、智谱清言、商汤、讯飞、中移。它们没有独立营销页,没有巨额奖池,就是安安静静地在同一个擂台上交卷。
而正是这些“沉默应考派”里,藏了这篇文章最想讲的故事。
Part 2:成绩单——15场之后,谁在裸泳?
前15场小组赛,12个模型的战绩如下:
| 排名 | 模型 | 命中/15 | 命中率 | 一句话画像 |
|---|---|---|---|---|
| 🥇 | 百度文心一言 | 7 | 46.7% | 目前唯一跑赢“半数”的,靠的是几场冷门里独中 |
| 🥈 | 联想天禧AI | 6 | 40.0% | 搭台者自身模型,中规中矩 |
| 🥈 | 中移九天 | 6 | 40.0% | 稳健保守派 |
| 🥈 | 腾讯混元 | 6 | 40.0% | 曾精准命中加拿大1-1波黑平局 |
| 🥈 | MiniMax | 6 | 40.0% | 唯一押中韩国vs捷克胜负且始终不改预测 |
| — | DeepSeek | 5 | 33.3% | 逻辑派,德国7:1方向对了但8:0过分了 |
| — | 通义千问 | 5 | 33.3% | 揭幕战2:0细节最亮眼,但整体没拉开 |
| — | 智谱清言 | 5 | 33.3% | 跟共识最紧的一档 |
| — | 阶跃星辰 | 5 | 33.3% | 命中数中段,但信息量最反常 |
| — | 商汤小浣熊 | 5 | 33.3% | 不拉胯也不突出 |
| — | Kimi | 4 | 26.7% | 营销声量最大,战绩暂垫底 |
| — | 讯飞星火 | 4 | 26.7% | 同为暂列尾部 |
注意看这个表最扎眼的地方:第一名46.7%,第二名到第五名都是40%,然后是一大片33.3%。
这意味着什么?
意味着12个模型里,有8个的预测水平几乎一模一样——没有统计学意义上的差异。它们的预测结果,本质上是对同一组数据的同一种解读。
AI不是在预测,AI是在复读人类的共识。

Part 3:阶跃星辰——全场最“不合群”的AI,和它的高方差悖论
在所有模型里,有一个名字反复跳出“共识圈”——阶跃星辰。
它做了什么?
名场面一:比利时 1-1 埃及——“全场11比1”
赛前,12大AI中11家押比利时赢(比分集中在2-0/2-1),只有阶跃星辰押1-1平局。终场哨响,1-1。它是全场唯一命中赛果+命中比分的AI。
名场面二:瑞典 5-1 突尼斯——“唯一嗅到血腥味的”
12家全押瑞典胜✅,但11家陷入了“小比分陷阱”(预测2-0/3-0)。阶跃星辰独给瑞典5:2——全场唯一捕捉到“总进球>4”趋势的模型。实际5-1。
名场面三:佛得角 5-1 西班牙——“同一个自由度产的废品”
它也给出过佛得角5-1胜西班牙、日本3-0胜荷兰这种“离谱到伤害品牌”的输出。
对,你没看错。它的“对”和“错”来自同一个原因。
阶跃星辰的预测方法是:跑了50000次模拟,基于纯Elo等级分体系。第一次翻车时,它自己造了一套假xG数据,导致墨西哥/南非/韩国变成前三名——于是它砍掉重练,退回纯Elo。
它自己也坦白:“纯Elo不知道Yamal伤没伤、不评估高温旅途、点球大战当加权硬币。You can't fully trust me.”
这句话,恰恰是所有AI里最诚实的一句。
为什么阶跃星辰值得单独写一节?
因为它的存在,暴露了一个行业级困境:
当前所有主流大模型做预测时,输入层≈历史战绩+身价差+赔率共识+新闻情绪,输出层被RLHF/安全对齐压向“看起来合理、不被骂、不惊悚”的区间。
共识就是护城河,也是牢笼。
阶跃的Elo模拟体系因为没有注入那么多“看起来合理”的人类先验做软约束,所以它的采样分布尾部更肥——偶尔会给你一个真异见(比利时1-1对了),但也经常给你一个假异见(佛得角5-1西班牙翻车)。
换句话说:当所有人都押同一个答案的时候,那个押不同答案的人不一定更聪明,但它一定更有可能让你看到你看不到的东西。
而这,恰恰是AI在预测这件事上最稀缺的价值。
Part 4:淘汰赛才是真正的考场
小组赛还能靠“共识”蒙混过关——强弱分明、数据充足、赔率清晰。但淘汰赛不一样:
- 点球大战无法用历史数据预测
- 伤病、红牌、裁判尺度、高温旅途……每一个变量都能颠覆Elo模型
- 当西班牙被逼到加时赛,当法国面对铁桶阵,当阿根廷的梅西在第117分钟站出来——这些时刻,没有一个AI的训练数据里有标准答案
届时,12个模型里,谁的框架能撑住,谁会在共识崩溃时第一个露馅,才是真正的考验。
目前来看,有三个值得关注的观察点:
- 阶跃星辰的高方差策略:在淘汰赛这种低确定性场景里,它的“肥尾采样”反而可能捕获更多真异见——但也可能死得更惨。
- MiniMax的稳定性:它是少数敢押非共识方向且全程不改口的模型。这种“固执”在淘汰赛里要么封神,要么翻车。
- Kimi的Agent推演框架:300个子Agent并行推演的叙事很美,但小组赛战绩垫底。淘汰赛是它证明“Agent不是噱头”的最后机会。
世界杯证明了一件事——在预测这件事上,人类和AI还在同一起跑线
回到文章开头的问题:当AI学会“看球”,它真的比人类更懂吗?
15场比赛之后,答案很清晰:没有。
最高46.7%的命中率,意味着AI连抛硬币的水平都没稳定达到。所谓的“预测”,本质上是对人类已有共识的一次加权平均复述。
但这不代表AI没用。
阶跃星辰用比利时1-1告诉我们:当所有人都押同一个方向时,那个押不同方向的声音——哪怕它经常错——才是真正有价值的增量信息。
世界杯还有80多场比赛要踢。淘汰赛的混乱、点球的随机性、黑马的诞生……这些才是AI预测的真正试金石。
而在那之前,有一句话送给所有盯着屏幕的球迷和AI从业者:
不要问AI明天谁会赢。先问问它,昨天为什么会错。
(本文数据截至2026年6月16日小组赛前15场,后续赛程将持续更新。欢迎收藏追更。)
