GLM-5.2 与 Claude Opus 4.8 正面较量：成本、速度、质量谁更胜一筹？-尧图网络科技

GLM-5.2 与 Claude Opus 对比详情

2026 年 6 月 18 日，GLM-5.2 刚刚发布，这是开源模型能力的又一次重大进步，网络上顿时热议纷纷。于是，让 GLM-5.2 与 Claude Opus 4.8 进行了一场正面较量，使用相同的一次性提示，从零开始用原生 WebGL 构建一个 3D 平台游戏。以下是测试后结合基准测试和各方讨论得出的结论。

测试结论：Opus 为主力，GLM-5.2 有价值

不会放弃以 Opus 作为主力。在测试中，Opus 构建速度更快，生成的游戏更完善、更正确，并且它能够检查自己的视觉输出，而仅支持文本的 GLM-5.2 则无法做到这一点。不过，GLM-5.2 也有其独特的价值，值得长期保留：它是一款真正有能力的模型，成本却只是 Opus 的一小部分，而且由于它采用开源权重，所以始终可以使用。而闭源模型可能会在毫无预警的情况下被停用或限制使用（最近 Fable 模型就是一个例子），但可以下载的权重不会被拿走。

试玩与代码获取

现在就可以试玩这两款游戏，或者获取源代码：GLM-5.2 生成的游戏、Opus 生成的游戏、两款游戏的源代码。两款游戏都是从零开始编写的浏览器游戏，没有使用任何游戏引擎或 3D 渲染库，如 Three.js。3D 模型是来自 Kenney 的免费 CC0 资产。

两者对比情况

以下是两者的对比情况：实际构建时间，GLM-5.2 为 1 小时 10 分 40 秒，Opus 为 33 分 30 秒；输出令牌数，GLM-5.2 为 131,000，Opus 为 216,809；最大上下文窗口，GLM-5.2 是 100 万令牌的 16%，Opus 是 100 万令牌的 19%；工具调用次数，GLM-5.2 为 128，Opus 为 153；成本，GLM-5.2 为 5.39 美元（实际计费），Opus 约为 21.92 美元（估计，标价）。GLM-5.2 的成本只是 Opus 的一小部分，但 Opus 只用了一半的时间就完成了构建，并且生成的游戏更加完善。

从纸面和网络看 GLM-5.2

从纸面上看，基准测试显示 GLM-5.2 的性能略逊于顶级闭源模型，而网络上的讨论则真假参半。在介绍完游戏测试后，将详细分析这些情况。

什么是 GLM-5.2

GLM-5.2 是 Z.ai 最新的旗舰模型。它采用 MIT 许可证下的开源权重，可以下载自行运行，也可以通过 Z.ai 的 API 调用。该模型专为长期任务而设计，适用于那种需要长时间运行、多步骤的编码智能体工作。它拥有 100 万令牌的上下文窗口，并提供两种思考努力级别：高（High）和最大（Max），这两种级别可以在速度和能力之间进行权衡。注意：GLM-5.2 仅支持文本，不具备多模态能力。它无法读取图像，因此围绕截图或图表构建的工作流程仍然需要像 Claude Opus 这样的模型。Z.ai 认为，在相似的令牌使用情况下，GLM-5.2 的性能大致介于 Claude Opus 4.7 和 4.8 之间。

GLM-5.2 定价和访问方式

由于采用开源权重，GLM-5.2 的成本很低。通过 API 调用时，它的费用只是 Opus 的一小部分，如果有相应的硬件，还可以免费自行运行。每 100 万令牌的定价（供应商文档）如下：Claude Opus 4.8 输入为 5 美元、缓存读取为 0.50 美元、输出为 25 美元；GLM-5.2 输入为 1.4 美元、缓存读取为 0.26 美元、输出为 4.4 美元。在输出令牌方面，GLM-5.2 的价格不到 Opus 的五分之一。该模型的权重可以在 Hugging Face 和 ModelScope 上获取，采用 MIT 许可证，没有区域限制。可以使用 vLLM、SGLang 或 Transformers 等框架在本地部署。

实际测试：从零开始构建 3D 游戏

为了消除各种炒作的影响，给 Opus 4.8 和 GLM-5.2 提供了相同的一次性提示：从零开始，用原生 WebGL 构建一个 3D 平台游戏，不使用任何游戏引擎或 3D 库。

为何选择此任务

模型可以通过零样本学习生成一个美观的着陆页，但社区已经普遍认为这并不能很好地测试模型的能力。而用原生 WebGL 构建一个 3D 平台游戏则无法通过一个漂亮的文件来伪造。它具有真正的结构，包括 GLB 模型解析器、矩阵和向量数学、GLSL 着色器、骨骼动画、固定时间步长循环、碰撞检测和跟随相机等。这个任务可以同时测试人们争论的两个方面。在多步骤、多层级的构建过程中保持连贯性，这是智能体能力的体现，而 GLM-5.2 在这方面应该表现出色。确保引擎内部的正确性，即那些看起来正常但实际上可能存在问题的部分，这需要模型具备推理和判断能力，而 Opus 在这方面应该更有优势。将 3D 资产本地打包，因此测试的重点是引擎和渲染，而不是能否获取模型文件。游戏中的美术资源是人类制作的资产包，即 Kenney 的 CC0 平台游戏套件，两个模型都得到了相同的文件。

每个模型需构建的内容

为了完成任务，每个模型需要构建以下内容：一个原生 WebGL 的 3D 引擎和渲染器，不使用 Three.js 或任何其他库；一个用于加载提供的 3D 角色和世界模型的加载器；一个可以在竞技场中奔跑和跳跃的角色，具备重力和碰撞检测；一个跟随相机和键盘控制；整个游戏可以通过一个命令在浏览器中运行。两个模型大部分都是手动完成构建（或者说是通过工具完成）：包括 GLB 二进制解析器、矩阵和四元数数学、带有 GLSL 蒙皮着色器的 WebGL2 渲染器，以及用于防止角色穿过平台的子步长 AABB 碰撞检测。两个模型得到了相同的提示、相同的资产，并且只有一次尝试机会，没有任何提示。将 Opus 4.8 的思考级别设置为高，将 GLM-5.2 的思考级别也设置为高（GLM-5.2 还有一个更高的最大级别，没有使用）。可以自行查看两个模型的构建过程。

构建所需时间和成本

Opus 4.8 在 Claude Code 中进行构建，GLM-5.2 在 Pi 上通过 OpenRouter 进行构建。时间推移图展示了整个构建过程的压缩情况：Opus 完成构建的实际时间大约是 GLM-5.2 的一半，而 GLM-5.2 虽然花费的时间更长，但成本却低得多。具体数据可以查看文章开头的结果表格。

试玩两款游戏

从头到尾试玩了两款游戏，两款游戏都是第三人称 3D 平台游戏，控制方式相同。可以使用 WASD 键或方向键移动，空格键跳跃，Shift 键冲刺，通过拖动鼠标旋转相机，使用鼠标滚轮缩放。游戏目标也相同：收集平台上的硬币，到达旗帜处，避开尖刺陷阱，从世界边缘掉落会让你回到起点。

GLM-5.2 生成的游戏表现

GLM-5.2 生成的游戏看起来有些粗糙。从试玩过程中可以看出：整体效果不佳；角色缺少一些材质；尖刺陷阱无法杀死角色；到达旗帜处没有任何反应，没有获胜条件。不过，它也有一个亮点：弹簧机制。可以跳到弹簧上，然后被发射到下一个平台。

Opus 生成的游戏表现

Opus 生成的游戏更加完善，玩起来也很流畅。从试玩过程中可以看出：相机和控制器工作正常；尖刺陷阱可以杀死玩家，逻辑正确。不过尖刺陷阱位于关卡的一侧，不在主要路径上，所以需要特意去触碰它；整体效果良好，可以到达旗帜处并获胜，有真正的获胜条件。游戏中的动画效果看起来很好，运行流畅，纹理也应用得当。

每个模型如何检查自己的工作

两个模型都被要求在完成任务之前验证自己的工作。智能体常用的一种验证方法是对最终产品进行截图，然后查看截图，以确保没有任何问题或缺失。Opus 在构建过程中正是这样做的。GLM-5.2 在这里遇到了问题，因为它无法读取图像，不具备多模态能力。因此，它只能采用一种不太可靠的方法：编写脚本来读取原始像素数据，并检查颜色是否大致符合预期。

为何 GLM-5.2 的自我检查没发现问题

由于无法查看保存的截图，GLM-5.2 试图通过读取像素来验证帧。它最终报告中的一段摘录，通过采样颜色来“分析”保存的图像：`final_start/overview/flag.png` 颜色分析：草绿色、土褐色、金币金色、旗帜红色、角色蓝灰色、半兰伯特光照，无黑色。它预期的颜色都存在，因此确认游戏已完成并停止构建。但从它自己的最终截图中可以看到，角色是纯灰色的，缺少纹理，而且调试覆盖层仍然显示在画面上。一个能够真正查看截图的智能体很可能会发现这些问题，并返回去进行修复。在有视觉结果的任务中，能够理解图像的模型相比不能理解图像的模型具有明显的优势。

Opus 如何检查自己的工作

Opus 具备多模态能力，因此可以直接读取截图。它的框架渲染了游戏并捕获了一帧，Opus 在验证过程中检查了这张图像。它的会话记录中的一段摘录，描述了它看到的内容：最终场景渲染正确：顶部为草地的方块，侧面为土褐色，楼梯向上延伸，金/银币和宝石，右侧岛屿上的蓝色尖刺方块陷阱，顶部目标处的红色旗帜，角色 [...] 站在起始广场上，还有得分 HUD。光照和阴影效果正确，几何形状清晰。由于能够看到画面，Opus 注意到了屏幕上残留的调试读数，并在完成之前将其清除。

两款游戏的问题

两款游戏都存在一些问题。

GLM-5.2 生成的游戏问题

GLM-5.2 生成的游戏问题频繁且明显，其中一些是根本性的问题。角色朝向错误：角色行走方向正确，但模型始终向后；缺少纹理和头部消失：角色渲染为纯灰色，没有纹理，并且相机移动时头部会消失。Kenney 模型指向一个单独文件中的共享调色板，而不是将其嵌入，GLM-5.2 的渲染器从未加载该文件，因此只能使用纯色。Opus 加载了调色板，因此其角色有纹理；尖刺陷阱无法杀死角色：角色直接落在尖刺陷阱上，但没有任何反应，既不会死亡也不会重置。

Opus 生成的游戏问题

Opus 生成的游戏问题较少且不那么明显，多为边缘情况，而非基本功能的问题。可以站在空气中：角色可以站在平台旁边的半空中而不会掉落。这是它的“土狼时间”缓冲期，即在离开边缘后仍可跳跃的短暂时间，但设置得过于宽松。这是一个稍微过度实现的优化功能，并非基本功能的问题；过早触发获胜条件：角色还离旗帜很远时就触发了获胜条件。

测试结果总结

两个模型都在一次尝试中从零开始构建了一个完整的、可运行的 3D 平台游戏，没有使用任何引擎和 3D 库。这是一个很高的标准，就在不久前，它们都还无法达到这个水平。以下是它们的表现对比：GLM-5.2 速度慢、质量粗糙、成本低，花费的时间是 Opus 的两倍多，生成的游戏质量粗糙，大部分问题都是根本性的，但成本只有 Opus 的五分之一；Opus 速度快、质量好、成本高，只用了一半的时间就完成了构建，生成的游戏更加完善、正确，问题多为边缘情况，而非基本功能的问题，但成本大约是 GLM-5.2 的四倍；多模态能力的优势，Opus 能够读取图像，因此它的自我检查可以查看渲染后的游戏画面，并发现视觉问题。而 GLM-5.2 仅支持文本，它通过数字进行验证，从未发现角色是灰色的，也没有发现调试覆盖层仍然显示。在视觉任务中，这就是发现问题和忽略问题的区别。一次游戏测试只是一个数据点，下面的基准测试将从更广泛的角度测试相同类型的能力。

基准测试

Z.ai 在发布 GLM-5.2 时，在其模型卡片上公布了这些基准测试数据。每行中的最佳结果用粗体表示。ArtificialAnalysis 进行的独立测试结果与上述数据大致相符：智能指数 v4.1 为 51（领先的开源权重模型；MiniMax-M3 为 44，DeepSeek V4 Pro 为 44，Kimi K2.6 为 43）；终端基准测试 v2.1 为 78%（模型卡片上的数据为 81 / 82.7，使用的框架不同）；每个任务的输出令牌数约为 43k（GLM-5.1 为 26k）。这些数据与测试结果一致：GLM-5.2 在开源权重模型中处于领先地位，在推理能力方面与其他模型不相上下，但 Opus 在大多数编码和智能体能力测试中表现更优。

每个基准测试的衡量内容

这些基准测试涵盖了三个领域。推理能力，通过高难度的数学和科学考试进行测试，包括 HLE（人类最后考试，包含数千个跨多个学科的专家级问题，难度极高。“使用工具”行表示在考试中允许使用网络搜索和代码）、AIME 2026（美国高中数学竞赛，难度较大）、GPQA-Diamond（研究生级别的科学问题，设计目的是无法通过快速搜索回答）、IMOAnswerBench（数学奥林匹克风格的问题，根据最终答案评分）；编码能力，通过修复代码中的问题和构建完整项目进行测试，包括 SWE-bench Pro（修复实际代码库中的真实问题，通常需要对多个文件进行更改）、NL2Repo（根据单一书面规范构建一个完整的、可运行的代码库）、DeepSWE（在无网络的沙盒容器中进行智能体软件工程任务）、ProgramBench（仅根据编译后的二进制文件和文档重建一个完整的程序，不提供源代码或规范）、Terminal Bench 2.1（通过真实终端完成任务，两行分别使用固定框架（Terminus-2）和每个模型的最佳框架）、SWE-Marathon（二十个超长期的工程任务，每个任务需要运行数小时）；智能体能力，通过调用和链接真实工具进行测试，包括 MCP-Atlas（针对真实 MCP 服务器运行工具使用任务，每个任务需要多次工具调用）、Tool-Decathlon（跨多个真实应用的长期任务，每个任务需要一系列工具调用）。

各方评价

基准测试和自己的测试是一回事，网络上的反应则是另一回事。很多评价都是来自没有可靠记录的账号的炒作，因此只参考了那些长期以来判断准确的个人和团体的意见。

Simon Willison：“可能是最强大的仅支持文本的开源权重大语言模型”

多年来，Simon Willison 几乎对每一个重要的模型发布都进行了详细报道。他称 GLM-5.2 为“可能是最强大的仅支持文本的开源权重大语言模型”。他的标准测试是要求模型生成一个鹈鹕骑自行车的 SVG 图像。GLM-5.2 返回了一个完全动画化且没有任何问题的图像，他称这“非常令人印象深刻”。在另一个测试中，生成负鼠骑滑板车的图像时，GLM-5.2 的表现不如上一个版本的 GLM-5.1。因此，它虽然强大，但表现并不稳定。

Artificial Analysis：顶级开源模型，但令牌消耗大

独立基准测试机构 Artificial Analysis 将 GLM-5.2 评为其智能指数中领先的开源权重模型。它的得分是 51，超过了 MiniMax-M3、DeepSeek V4 Pro 和 Kimi K2.6，并且在成本与智能的权衡中，是该水平下最便宜的模型。他们也指出了测试中遇到的问题：GLM-5.2 令牌消耗大。每个任务大约使用 43k 输出令牌，其中大部分用于推理，比他们测试的其他领先开源模型都要多。

Nathan Lambert：开源和闭源模型的差距正在缩小

Nathan Lambert 在艾伦人工智能研究所专门研究开源权重模型。他观察了 GLM-5.2 在 LMArena 排行榜上的表现后认为，“可以说它的智能体能力比 Gemini 更强”，并称这对于一个采用 MIT 许可证的开源模型来说是“一项了不起的成就”。他更广泛的观点是，中国的实验室在计算资源远少于美国的情况下取得了这些成绩，不应被忽视，尽管美国的顶级模型总体上仍然领先。这与测试结果相符，在测试中 Opus 表现更优，但 GLM-5.2 的表现比其价格和开源性质所暗示的要更接近 Opus。

总结

那么，关于 GLM-5.2 的炒作是真的吗？大部分是真的。GLM-5.2 是一款真正强大的开源模型，成本只是 Opus 的一小部分。对于很多工作来说，这种性价比很难被超越。但它毕竟不是 Opus。在测试中，Opus 速度更快，生成的游戏更完善、更正确，并且能够通过查看画面来检查自己的工作。而 GLM-5.2 成本低得多，但质量粗糙，并且仅支持文本。如果成本和开源性很重要，并且工作主要涉及文本和逻辑，那么可以使用 GLM-5.2。如果正确性、完善度和视觉判断很重要，并且愿意为此付费，那么应该选择 Opus。无论如何，都应该将 GLM-5.2 纳入考虑范围：它是少数不会被供应商拿走的前沿模型之一。