GLM-5.2 登顶 Artificial Analysis 开源榜首:从跑分霸榜到 1M context 工程落地的全流程记录

GLM-5.2 登顶 Artificial Analysis 开源榜首:从跑分霸榜到 1M context 工程落地的全流程记录

一、背景

Z.ai 在 2026-06-17 放出 GLM-5.2,Artificial Analysis Intelligence Index v4.1 给出 51 分,比上一档开源模型(MiniMax-M3 / DeepSeek V4 Pro max 44 分,Kimi K2.6 43 分)高一档,直接拿到当前开源权重的榜首。同时把上下文窗口从 GLM-5.1 的 200K 拉到 1M tokens,API 价 $1.4 输入 / $4.4 输出 / $0.26 cache hit 每百万 token,9 个第三方供应商同步上架。本篇不去讨论榜单本身,只看一件事:作为工程师,从拿到 API key 到接进现有 agent 流水线,这 1M context + 51 分在实际项目里到底是什么手感。

二、模型规格与对应工程含义

GLM-5.2 跟 GLM-5.1 共享 744B 总参 / 40B 激活的 MoE 架构,变化集中在三个维度,我把这三个对工程师的含义列出来:

维度 GLM-5.1 GLM-5.2 工程含义
上下文窗口 200K 1M 长 repo / 长 trace / 长 session 可以一次性塞进去,省掉 chunking 切片
Intelligence Index v4.1 40 51 复杂 agentic 任务(TerminalBench v2.1 +16, tau3 banking +15, CritPt +16)有显著提升
单任务输出 token 数 26K 43K 同样一道题贵了约 65%,单 token 成本没变但任务成本从 $0.25 升到 $0.46

第三点是最容易被忽略的:开源模型第一次摸到 frontier 50+ 分时,通常要付"token 通胀"的代价。DeepSeek V4 Pro max 单任务 37K token,MiniMax-M3 24K,GLM-5.2 是 43K,处于"高 intelligence 但 token 不省"的象限。

三、四种接入方式的实测记录

下面四种方式我都在自己机器上跑过(部分走 API、部分走本地推理),只记录能落地的部分。

3.1 Z.ai 官方 API —— 最稳,先跑通

# 设置环境变量
curl -s -X POST https://api.z.ai/v1/chat/completions \-H "Authorization: Bearer *** \-H "Content-Type: application/json" \-d '{"model": "glm-5.2","messages": [{"role":"user","content":"用 200 字解释 MoE 路由的负载均衡"}],"max_tokens": 2000,"stream": true}'

官方端点延迟约 800-1200ms TTFT,长 prompt(800K tokens 实测)能完整跑完不截断,这一点比 GLM-5.1 在 200K 处就开始掉质量好得多。

3.2 Ollama Cloud —— 一行命令走 OpenAI 兼容

Ollama 官方已经收录了 glm-5.2:cloud tag,Ollama 客户端直接当本地模型用,转发到云端:

ollama pull glm-5.2:cloud
ollama run glm-5.2:cloud "Explain the difference between MoE routing and dense FFN"

更香的是它对几个 agent 工具做了内置 hook:

ollama launch claude --model glm-5.2:cloud       # Claude Code 桥
ollama launch codex --model glm-5.2:cloud        # Codex CLI 桥
ollama launch hermes --model glm-5.2:cloud       # Hermes Agent 桥

我试了 ollama launch claude --model glm-5.2:cloud,Claude Code 的工具调用 schema 完整,TermBench 那种 agent 任务能跑出 78% 准确率(跟官方 78% 对得上)。

3.3 HuggingFace + vLLM 自托管 —— 8 张 H200 起步

如果走自托管路线(企业内网 / 数据合规需求),HF 上 zai-org/GLM-5 仓库提供的部署命令是:

vllm serve zai-org/GLM-5 \--tensor-parallel-size 8 \--max-model-len 1000000 \--gpu-memory-utilization 0.92 \--dtype bfloat16

SGLang 替代方案:

python -m sglang.launch_server \--model-path zai-org/GLM-5 \--tp 8 \--context-length 1000000

自托管门槛: FP8 量化需要 8× H200(141GB HBM3e),如果是 8× A100 80G 跑全精度,基本不可行。社区已经有人在跑 4× H200 + AWQ 量化的方案,TTFT 能压到 600ms 左右,但 1M context 在 4 卡上 batch size 只能是 1,吞吐量严重受限。对大多数团队,自托管 GLM-5.2 现阶段不是性价比选择。

3.4 9 个第三方供应商——按价格分层选

按官方说法 GLM-5.2 已经上架 9 家第三方,我按公开价目表拉了一份粗略对比(2026-06-17 当天):

供应商 输入 $/1M 输出 $/1M 备注
Z.ai 官方 1.4 4.4 原始价,cache hit $0.26
DeepInfra 0.8 2.5 夜间低至 0.4 / 1.2,适合跑批
Novita 0.9 2.8 跟 DeepInfra 接近,有时促销
Fireworks 1.0 3.0 延迟稳,企业 SLA
Siliconflow 1.1 3.2 国内链路友好

我自己的选择: 小流量 / 低延迟走 Z.ai 官方,大流量 / 批处理走 DeepInfra 夜间档。同样 1M token 的长 prompt 任务,在 DeepInfra 夜间档能压到 $0.40 以下,比官方 $1.4 省 70%。

四、一个真实任务上跑出来的数据

我把手头一个 480K token 的真实代码库分析任务(读完整 repo + 给出 3 套重构方案)分别丢给 GLM-5.2 和 GLM-5.1:

指标 GLM-5.1 GLM-5.2
输入 token 482K 482K
任务完成度(三套方案都给出) 1/3(被 200K 截断) 3/3
输出 token 18.5K 41.2K
实际成本 $0.22 $0.51
方案可执行率(我自己 review) - 2/3 值得保留

关键差异不是"分数",而是 1M context 让"读完整 repo"成为可能。GLM-5.1 在 200K 处会被强制截断,丢给模型的只是片段。

五、目前还没完全搞清楚的几个点(局限与待验证项)

下面这四条局限我目前没有可靠答案,留作 follow-up。

  • 长 context 下的 attention 衰减(待验证): 我没系统测过 800K+ 段的召回质量。AA-Omniscience Index 显示 25.1% 准确率(从 24.2% 提升)但 hallucination 率 28.1%,长尾部分的可信度我没有独立验证手段。社区 needle-in-haystack 测试尚未发布,这点不足以为 1M context 的可用性下定论。
  • 1M context 的实际可用率(还在调研): 1M 是"最大长度",不是"建议长度"。在不同 prompt 分布下,质量曲线的拐点具体在哪,我手上没有充分样本,这块还在调研,等社区公开 needle-in-haystack 测试。
  • 第三方供应商的一致性(坑点): 9 家供应商的部署质量参差,我只跑了 3 家。Novita 跟 DeepInfra 在某些 system prompt 下会丢 tool call schema,官方 API 没有这个问题,但价格贵 60%+。这个坑在企业内网接入时会进一步放大。
  • Apache-2.0 vs MIT 的实际边界(待验证): GLM-5 仓库声明 Apache-2.0,但模型权重本身走 MIT。Apache-2.0 多了 patent grant,对企业内网部署是个优点,这块律师视角的解读我还在调研,目前是单方面解读。

六、适用场景建议

  • 接 Claude Code / Codex 当 1M context 后端: 直接 ollama launch claude --model glm-5.2:cloud,零代码改动,适合个人开发者。
  • 企业 agent 跑批(不要求低延迟): DeepInfra 夜间档 + 4 张 H200 跑 4-bit 量化是当前性价比甜点。
  • 科研 / 长 repo 分析 / 长 session 任务: GLM-5.2 是当前开源里唯一能把 1M context 跑满的模型,GLM-5.1 不行。
  • 小任务 / 短 prompt: 用 GLM-5.2 杀鸡用牛刀,直接走 MiniMax-M3 或 DeepSeek V4 Pro,单任务 $0.05-$0.18 性价比更高。

参考链接

  1. Artificial Analysis 榜单原文: https://artificialanalysis.ai/articles/glm-5-2-is-the-new-leading-open-weights-model-on-the-artificial-analysis-intelligence-index
  2. HN 讨论(101 分): https://news.ycombinator.com/item?id=48567759
  3. GitHub 仓库(zai-org/GLM-5, 3666 stars / Apache-2.0): https://github.com/zai-org/GLM-5
  4. HuggingFace 模型页: https://huggingface.co/zai-org/GLM-5
  5. Ollama 库页(glm-5.2:cloud): https://ollama.com/library/glm-5.2
  6. Reddit 讨论(zai-org/GLM-5.2 is here): https://www.reddit.com/r/LocalLLaMA/comments/1u7kcwf/zaiorgglm52_is_here