GLM-5.2 与 Claude Opus 4.8 正面较量:成本、速度、质量谁更胜一筹?

GLM-5.2 与 Claude Opus 4.8 正面较量:成本、速度、质量谁更胜一筹?

GLM-5.2 与 Claude Opus 对比详情

2026 年 6 月 18 日,GLM-5.2 刚刚发布,这是开源模型能力的又一次重大进步,网络上顿时热议纷纷。于是,让 GLM-5.2 与 Claude Opus 4.8 进行了一场正面较量,使用相同的一次性提示,从零开始用原生 WebGL 构建一个 3D 平台游戏。以下是测试后结合基准测试和各方讨论得出的结论。

测试结论:Opus 为主力,GLM-5.2 有价值

不会放弃以 Opus 作为主力。在测试中,Opus 构建速度更快,生成的游戏更完善、更正确,并且它能够检查自己的视觉输出,而仅支持文本的 GLM-5.2 则无法做到这一点。不过,GLM-5.2 也有其独特的价值,值得长期保留:它是一款真正有能力的模型,成本却只是 Opus 的一小部分,而且由于它采用开源权重,所以始终可以使用。而闭源模型可能会在毫无预警的情况下被停用或限制使用(最近 Fable 模型就是一个例子),但可以下载的权重不会被拿走。

试玩与代码获取

现在就可以试玩这两款游戏,或者获取源代码:GLM-5.2 生成的游戏、Opus 生成的游戏、两款游戏的源代码。两款游戏都是从零开始编写的浏览器游戏,没有使用任何游戏引擎或 3D 渲染库,如 Three.js。3D 模型是来自 Kenney 的免费 CC0 资产。

两者对比情况

以下是两者的对比情况:实际构建时间,GLM-5.2 为 1 小时 10 分 40 秒,Opus 为 33 分 30 秒;输出令牌数,GLM-5.2 为 131,000,Opus 为 216,809;最大上下文窗口,GLM-5.2 是 100 万令牌的 16%,Opus 是 100 万令牌的 19%;工具调用次数,GLM-5.2 为 128,Opus 为 153;成本,GLM-5.2 为 5.39 美元(实际计费),Opus 约为 21.92 美元(估计,标价)。GLM-5.2 的成本只是 Opus 的一小部分,但 Opus 只用了一半的时间就完成了构建,并且生成的游戏更加完善。

从纸面和网络看 GLM-5.2

从纸面上看,基准测试显示 GLM-5.2 的性能略逊于顶级闭源模型,而网络上的讨论则真假参半。在介绍完游戏测试后,将详细分析这些情况。

什么是 GLM-5.2

GLM-5.2 是 Z.ai 最新的旗舰模型。它采用 MIT 许可证下的开源权重,可以下载自行运行,也可以通过 Z.ai 的 API 调用。该模型专为长期任务而设计,适用于那种需要长时间运行、多步骤的编码智能体工作。它拥有 100 万令牌的上下文窗口,并提供两种思考努力级别:高(High)和最大(Max),这两种级别可以在速度和能力之间进行权衡。注意:GLM-5.2 仅支持文本,不具备多模态能力。它无法读取图像,因此围绕截图或图表构建的工作流程仍然需要像 Claude Opus 这样的模型。Z.ai 认为,在相似的令牌使用情况下,GLM-5.2 的性能大致介于 Claude Opus 4.7 和 4.8 之间。

GLM-5.2 定价和访问方式

由于采用开源权重,GLM-5.2 的成本很低。通过 API 调用时,它的费用只是 Opus 的一小部分,如果有相应的硬件,还可以免费自行运行。每 100 万令牌的定价(供应商文档)如下:Claude Opus 4.8 输入为 5 美元、缓存读取为 0.50 美元、输出为 25 美元;GLM-5.2 输入为 1.4 美元、缓存读取为 0.26 美元、输出为 4.4 美元。在输出令牌方面,GLM-5.2 的价格不到 Opus 的五分之一。该模型的权重可以在 Hugging Face 和 ModelScope 上获取,采用 MIT 许可证,没有区域限制。可以使用 vLLM、SGLang 或 Transformers 等框架在本地部署。

实际测试:从零开始构建 3D 游戏

为了消除各种炒作的影响,给 Opus 4.8 和 GLM-5.2 提供了相同的一次性提示:从零开始,用原生 WebGL 构建一个 3D 平台游戏,不使用任何游戏引擎或 3D 库。

为何选择此任务

模型可以通过零样本学习生成一个美观的着陆页,但社区已经普遍认为这并不能很好地测试模型的能力。而用原生 WebGL 构建一个 3D 平台游戏则无法通过一个漂亮的文件来伪造。它具有真正的结构,包括 GLB 模型解析器、矩阵和向量数学、GLSL 着色器、骨骼动画、固定时间步长循环、碰撞检测和跟随相机等。这个任务可以同时测试人们争论的两个方面。在多步骤、多层级的构建过程中保持连贯性,这是智能体能力的体现,而 GLM-5.2 在这方面应该表现出色。确保引擎内部的正确性,即那些看起来正常但实际上可能存在问题的部分,这需要模型具备推理和判断能力,而 Opus 在这方面应该更有优势。将 3D 资产本地打包,因此测试的重点是引擎和渲染,而不是能否获取模型文件。游戏中的美术资源是人类制作的资产包,即 Kenney 的 CC0 平台游戏套件,两个模型都得到了相同的文件。

每个模型需构建的内容

为了完成任务,每个模型需要构建以下内容:一个原生 WebGL 的 3D 引擎和渲染器,不使用 Three.js 或任何其他库;一个用于加载提供的 3D 角色和世界模型的加载器;一个可以在竞技场中奔跑和跳跃的角色,具备重力和碰撞检测;一个跟随相机和键盘控制;整个游戏可以通过一个命令在浏览器中运行。两个模型大部分都是手动完成构建(或者说是通过工具完成):包括 GLB 二进制解析器、矩阵和四元数数学、带有 GLSL 蒙皮着色器的 WebGL2 渲染器,以及用于防止角色穿过平台的子步长 AABB 碰撞检测。两个模型得到了相同的提示、相同的资产,并且只有一次尝试机会,没有任何提示。将 Opus 4.8 的思考级别设置为高,将 GLM-5.2 的思考级别也设置为高(GLM-5.2 还有一个更高的最大级别,没有使用)。可以自行查看两个模型的构建过程。

构建所需时间和成本

Opus 4.8 在 Claude Code 中进行构建,GLM-5.2 在 Pi 上通过 OpenRouter 进行构建。时间推移图展示了整个构建过程的压缩情况:Opus 完成构建的实际时间大约是 GLM-5.2 的一半,而 GLM-5.2 虽然花费的时间更长,但成本却低得多。具体数据可以查看文章开头的结果表格。

试玩两款游戏

从头到尾试玩了两款游戏,两款游戏都是第三人称 3D 平台游戏,控制方式相同。可以使用 WASD 键或方向键移动,空格键跳跃,Shift 键冲刺,通过拖动鼠标旋转相机,使用鼠标滚轮缩放。游戏目标也相同:收集平台上的硬币,到达旗帜处,避开尖刺陷阱,从世界边缘掉落会让你回到起点。

GLM-5.2 生成的游戏表现

GLM-5.2 生成的游戏看起来有些粗糙。从试玩过程中可以看出:整体效果不佳;角色缺少一些材质;尖刺陷阱无法杀死角色;到达旗帜处没有任何反应,没有获胜条件。不过,它也有一个亮点:弹簧机制。可以跳到弹簧上,然后被发射到下一个平台。

Opus 生成的游戏表现

Opus 生成的游戏更加完善,玩起来也很流畅。从试玩过程中可以看出:相机和控制器工作正常;尖刺陷阱可以杀死玩家,逻辑正确。不过尖刺陷阱位于关卡的一侧,不在主要路径上,所以需要特意去触碰它;整体效果良好,可以到达旗帜处并获胜,有真正的获胜条件。游戏中的动画效果看起来很好,运行流畅,纹理也应用得当。

每个模型如何检查自己的工作

两个模型都被要求在完成任务之前验证自己的工作。智能体常用的一种验证方法是对最终产品进行截图,然后查看截图,以确保没有任何问题或缺失。Opus 在构建过程中正是这样做的。GLM-5.2 在这里遇到了问题,因为它无法读取图像,不具备多模态能力。因此,它只能采用一种不太可靠的方法:编写脚本来读取原始像素数据,并检查颜色是否大致符合预期。

为何 GLM-5.2 的自我检查没发现问题

由于无法查看保存的截图,GLM-5.2 试图通过读取像素来验证帧。它最终报告中的一段摘录,通过采样颜色来“分析”保存的图像:`final_start/overview/flag.png` 颜色分析:草绿色、土褐色、金币金色、旗帜红色、角色蓝灰色、半兰伯特光照,无黑色。它预期的颜色都存在,因此确认游戏已完成并停止构建。但从它自己的最终截图中可以看到,角色是纯灰色的,缺少纹理,而且调试覆盖层仍然显示在画面上。一个能够真正查看截图的智能体很可能会发现这些问题,并返回去进行修复。在有视觉结果的任务中,能够理解图像的模型相比不能理解图像的模型具有明显的优势。

Opus 如何检查自己的工作

Opus 具备多模态能力,因此可以直接读取截图。它的框架渲染了游戏并捕获了一帧,Opus 在验证过程中检查了这张图像。它的会话记录中的一段摘录,描述了它看到的内容:最终场景渲染正确:顶部为草地的方块,侧面为土褐色,楼梯向上延伸,金/银币和宝石,右侧岛屿上的蓝色尖刺方块陷阱,顶部目标处的红色旗帜,角色 [...] 站在起始广场上,还有得分 HUD。光照和阴影效果正确,几何形状清晰。由于能够看到画面,Opus 注意到了屏幕上残留的调试读数,并在完成之前将其清除。

两款游戏的问题

两款游戏都存在一些问题。

GLM-5.2 生成的游戏问题

GLM-5.2 生成的游戏问题频繁且明显,其中一些是根本性的问题。角色朝向错误:角色行走方向正确,但模型始终向后;缺少纹理和头部消失:角色渲染为纯灰色,没有纹理,并且相机移动时头部会消失。Kenney 模型指向一个单独文件中的共享调色板,而不是将其嵌入,GLM-5.2 的渲染器从未加载该文件,因此只能使用纯色。Opus 加载了调色板,因此其角色有纹理;尖刺陷阱无法杀死角色:角色直接落在尖刺陷阱上,但没有任何反应,既不会死亡也不会重置。

Opus 生成的游戏问题

Opus 生成的游戏问题较少且不那么明显,多为边缘情况,而非基本功能的问题。可以站在空气中:角色可以站在平台旁边的半空中而不会掉落。这是它的“土狼时间”缓冲期,即在离开边缘后仍可跳跃的短暂时间,但设置得过于宽松。这是一个稍微过度实现的优化功能,并非基本功能的问题;过早触发获胜条件:角色还离旗帜很远时就触发了获胜条件。

测试结果总结

两个模型都在一次尝试中从零开始构建了一个完整的、可运行的 3D 平台游戏,没有使用任何引擎和 3D 库。这是一个很高的标准,就在不久前,它们都还无法达到这个水平。以下是它们的表现对比:GLM-5.2 速度慢、质量粗糙、成本低,花费的时间是 Opus 的两倍多,生成的游戏质量粗糙,大部分问题都是根本性的,但成本只有 Opus 的五分之一;Opus 速度快、质量好、成本高,只用了一半的时间就完成了构建,生成的游戏更加完善、正确,问题多为边缘情况,而非基本功能的问题,但成本大约是 GLM-5.2 的四倍;多模态能力的优势,Opus 能够读取图像,因此它的自我检查可以查看渲染后的游戏画面,并发现视觉问题。而 GLM-5.2 仅支持文本,它通过数字进行验证,从未发现角色是灰色的,也没有发现调试覆盖层仍然显示。在视觉任务中,这就是发现问题和忽略问题的区别。一次游戏测试只是一个数据点,下面的基准测试将从更广泛的角度测试相同类型的能力。

基准测试

Z.ai 在发布 GLM-5.2 时,在其模型卡片上公布了这些基准测试数据。每行中的最佳结果用粗体表示。ArtificialAnalysis 进行的独立测试结果与上述数据大致相符:智能指数 v4.1 为 51(领先的开源权重模型;MiniMax-M3 为 44,DeepSeek V4 Pro 为 44,Kimi K2.6 为 43);终端基准测试 v2.1 为 78%(模型卡片上的数据为 81 / 82.7,使用的框架不同);每个任务的输出令牌数约为 43k(GLM-5.1 为 26k)。这些数据与测试结果一致:GLM-5.2 在开源权重模型中处于领先地位,在推理能力方面与其他模型不相上下,但 Opus 在大多数编码和智能体能力测试中表现更优。

每个基准测试的衡量内容

这些基准测试涵盖了三个领域。推理能力,通过高难度的数学和科学考试进行测试,包括 HLE(人类最后考试,包含数千个跨多个学科的专家级问题,难度极高。“使用工具”行表示在考试中允许使用网络搜索和代码)、AIME 2026(美国高中数学竞赛,难度较大)、GPQA-Diamond(研究生级别的科学问题,设计目的是无法通过快速搜索回答)、IMOAnswerBench(数学奥林匹克风格的问题,根据最终答案评分);编码能力,通过修复代码中的问题和构建完整项目进行测试,包括 SWE-bench Pro(修复实际代码库中的真实问题,通常需要对多个文件进行更改)、NL2Repo(根据单一书面规范构建一个完整的、可运行的代码库)、DeepSWE(在无网络的沙盒容器中进行智能体软件工程任务)、ProgramBench(仅根据编译后的二进制文件和文档重建一个完整的程序,不提供源代码或规范)、Terminal Bench 2.1(通过真实终端完成任务,两行分别使用固定框架(Terminus-2)和每个模型的最佳框架)、SWE-Marathon(二十个超长期的工程任务,每个任务需要运行数小时);智能体能力,通过调用和链接真实工具进行测试,包括 MCP-Atlas(针对真实 MCP 服务器运行工具使用任务,每个任务需要多次工具调用)、Tool-Decathlon(跨多个真实应用的长期任务,每个任务需要一系列工具调用)。

各方评价

基准测试和自己的测试是一回事,网络上的反应则是另一回事。很多评价都是来自没有可靠记录的账号的炒作,因此只参考了那些长期以来判断准确的个人和团体的意见。

Simon Willison:“可能是最强大的仅支持文本的开源权重大语言模型”

多年来,Simon Willison 几乎对每一个重要的模型发布都进行了详细报道。他称 GLM-5.2 为“可能是最强大的仅支持文本的开源权重大语言模型”。他的标准测试是要求模型生成一个鹈鹕骑自行车的 SVG 图像。GLM-5.2 返回了一个完全动画化且没有任何问题的图像,他称这“非常令人印象深刻”。在另一个测试中,生成负鼠骑滑板车的图像时,GLM-5.2 的表现不如上一个版本的 GLM-5.1。因此,它虽然强大,但表现并不稳定。

Artificial Analysis:顶级开源模型,但令牌消耗大

独立基准测试机构 Artificial Analysis 将 GLM-5.2 评为其智能指数中领先的开源权重模型。它的得分是 51,超过了 MiniMax-M3、DeepSeek V4 Pro 和 Kimi K2.6,并且在成本与智能的权衡中,是该水平下最便宜的模型。他们也指出了测试中遇到的问题:GLM-5.2 令牌消耗大。每个任务大约使用 43k 输出令牌,其中大部分用于推理,比他们测试的其他领先开源模型都要多。

Nathan Lambert:开源和闭源模型的差距正在缩小

Nathan Lambert 在艾伦人工智能研究所专门研究开源权重模型。他观察了 GLM-5.2 在 LMArena 排行榜上的表现后认为,“可以说它的智能体能力比 Gemini 更强”,并称这对于一个采用 MIT 许可证的开源模型来说是“一项了不起的成就”。他更广泛的观点是,中国的实验室在计算资源远少于美国的情况下取得了这些成绩,不应被忽视,尽管美国的顶级模型总体上仍然领先。这与测试结果相符,在测试中 Opus 表现更优,但 GLM-5.2 的表现比其价格和开源性质所暗示的要更接近 Opus。

总结

那么,关于 GLM-5.2 的炒作是真的吗?大部分是真的。GLM-5.2 是一款真正强大的开源模型,成本只是 Opus 的一小部分。对于很多工作来说,这种性价比很难被超越。但它毕竟不是 Opus。在测试中,Opus 速度更快,生成的游戏更完善、更正确,并且能够通过查看画面来检查自己的工作。而 GLM-5.2 成本低得多,但质量粗糙,并且仅支持文本。如果成本和开源性很重要,并且工作主要涉及文本和逻辑,那么可以使用 GLM-5.2。如果正确性、完善度和视觉判断很重要,并且愿意为此付费,那么应该选择 Opus。无论如何,都应该将 GLM-5.2 纳入考虑范围:它是少数不会被供应商拿走的前沿模型之一。