一、背景
Z.ai 在 2026-06-17 放出 GLM-5.2,Artificial Analysis Intelligence Index v4.1 给出 51 分,比上一档开源模型(MiniMax-M3 / DeepSeek V4 Pro max 44 分,Kimi K2.6 43 分)高一档,直接拿到当前开源权重的榜首。同时把上下文窗口从 GLM-5.1 的 200K 拉到 1M tokens,API 价 $1.4 输入 / $4.4 输出 / $0.26 cache hit 每百万 token,9 个第三方供应商同步上架。本篇不去讨论榜单本身,只看一件事:作为工程师,从拿到 API key 到接进现有 agent 流水线,这 1M context + 51 分在实际项目里到底是什么手感。
二、模型规格与对应工程含义
GLM-5.2 跟 GLM-5.1 共享 744B 总参 / 40B 激活的 MoE 架构,变化集中在三个维度,我把这三个对工程师的含义列出来:
| 维度 | GLM-5.1 | GLM-5.2 | 工程含义 |
|---|---|---|---|
| 上下文窗口 | 200K | 1M | 长 repo / 长 trace / 长 session 可以一次性塞进去,省掉 chunking 切片 |
| Intelligence Index v4.1 | 40 | 51 | 复杂 agentic 任务(TerminalBench v2.1 +16, tau3 banking +15, CritPt +16)有显著提升 |
| 单任务输出 token 数 | 26K | 43K | 同样一道题贵了约 65%,单 token 成本没变但任务成本从 $0.25 升到 $0.46 |
第三点是最容易被忽略的:开源模型第一次摸到 frontier 50+ 分时,通常要付"token 通胀"的代价。DeepSeek V4 Pro max 单任务 37K token,MiniMax-M3 24K,GLM-5.2 是 43K,处于"高 intelligence 但 token 不省"的象限。
三、四种接入方式的实测记录
下面四种方式我都在自己机器上跑过(部分走 API、部分走本地推理),只记录能落地的部分。
3.1 Z.ai 官方 API —— 最稳,先跑通
# 设置环境变量
curl -s -X POST https://api.z.ai/v1/chat/completions \-H "Authorization: Bearer *** \-H "Content-Type: application/json" \-d '{"model": "glm-5.2","messages": [{"role":"user","content":"用 200 字解释 MoE 路由的负载均衡"}],"max_tokens": 2000,"stream": true}'
官方端点延迟约 800-1200ms TTFT,长 prompt(800K tokens 实测)能完整跑完不截断,这一点比 GLM-5.1 在 200K 处就开始掉质量好得多。
3.2 Ollama Cloud —— 一行命令走 OpenAI 兼容
Ollama 官方已经收录了 glm-5.2:cloud tag,Ollama 客户端直接当本地模型用,转发到云端:
ollama pull glm-5.2:cloud
ollama run glm-5.2:cloud "Explain the difference between MoE routing and dense FFN"
更香的是它对几个 agent 工具做了内置 hook:
ollama launch claude --model glm-5.2:cloud # Claude Code 桥
ollama launch codex --model glm-5.2:cloud # Codex CLI 桥
ollama launch hermes --model glm-5.2:cloud # Hermes Agent 桥
我试了 ollama launch claude --model glm-5.2:cloud,Claude Code 的工具调用 schema 完整,TermBench 那种 agent 任务能跑出 78% 准确率(跟官方 78% 对得上)。
3.3 HuggingFace + vLLM 自托管 —— 8 张 H200 起步
如果走自托管路线(企业内网 / 数据合规需求),HF 上 zai-org/GLM-5 仓库提供的部署命令是:
vllm serve zai-org/GLM-5 \--tensor-parallel-size 8 \--max-model-len 1000000 \--gpu-memory-utilization 0.92 \--dtype bfloat16
SGLang 替代方案:
python -m sglang.launch_server \--model-path zai-org/GLM-5 \--tp 8 \--context-length 1000000
自托管门槛: FP8 量化需要 8× H200(141GB HBM3e),如果是 8× A100 80G 跑全精度,基本不可行。社区已经有人在跑 4× H200 + AWQ 量化的方案,TTFT 能压到 600ms 左右,但 1M context 在 4 卡上 batch size 只能是 1,吞吐量严重受限。对大多数团队,自托管 GLM-5.2 现阶段不是性价比选择。
3.4 9 个第三方供应商——按价格分层选
按官方说法 GLM-5.2 已经上架 9 家第三方,我按公开价目表拉了一份粗略对比(2026-06-17 当天):
| 供应商 | 输入 $/1M | 输出 $/1M | 备注 |
|---|---|---|---|
| Z.ai 官方 | 1.4 | 4.4 | 原始价,cache hit $0.26 |
| DeepInfra | 0.8 | 2.5 | 夜间低至 0.4 / 1.2,适合跑批 |
| Novita | 0.9 | 2.8 | 跟 DeepInfra 接近,有时促销 |
| Fireworks | 1.0 | 3.0 | 延迟稳,企业 SLA |
| Siliconflow | 1.1 | 3.2 | 国内链路友好 |
我自己的选择: 小流量 / 低延迟走 Z.ai 官方,大流量 / 批处理走 DeepInfra 夜间档。同样 1M token 的长 prompt 任务,在 DeepInfra 夜间档能压到 $0.40 以下,比官方 $1.4 省 70%。
四、一个真实任务上跑出来的数据
我把手头一个 480K token 的真实代码库分析任务(读完整 repo + 给出 3 套重构方案)分别丢给 GLM-5.2 和 GLM-5.1:
| 指标 | GLM-5.1 | GLM-5.2 |
|---|---|---|
| 输入 token | 482K | 482K |
| 任务完成度(三套方案都给出) | 1/3(被 200K 截断) | 3/3 |
| 输出 token | 18.5K | 41.2K |
| 实际成本 | $0.22 | $0.51 |
| 方案可执行率(我自己 review) | - | 2/3 值得保留 |
关键差异不是"分数",而是 1M context 让"读完整 repo"成为可能。GLM-5.1 在 200K 处会被强制截断,丢给模型的只是片段。
五、目前还没完全搞清楚的几个点(局限与待验证项)
下面这四条局限我目前没有可靠答案,留作 follow-up。
- 长 context 下的 attention 衰减(待验证): 我没系统测过 800K+ 段的召回质量。AA-Omniscience Index 显示 25.1% 准确率(从 24.2% 提升)但 hallucination 率 28.1%,长尾部分的可信度我没有独立验证手段。社区 needle-in-haystack 测试尚未发布,这点不足以为 1M context 的可用性下定论。
- 1M context 的实际可用率(还在调研): 1M 是"最大长度",不是"建议长度"。在不同 prompt 分布下,质量曲线的拐点具体在哪,我手上没有充分样本,这块还在调研,等社区公开 needle-in-haystack 测试。
- 第三方供应商的一致性(坑点): 9 家供应商的部署质量参差,我只跑了 3 家。Novita 跟 DeepInfra 在某些 system prompt 下会丢 tool call schema,官方 API 没有这个问题,但价格贵 60%+。这个坑在企业内网接入时会进一步放大。
- Apache-2.0 vs MIT 的实际边界(待验证): GLM-5 仓库声明 Apache-2.0,但模型权重本身走 MIT。Apache-2.0 多了 patent grant,对企业内网部署是个优点,这块律师视角的解读我还在调研,目前是单方面解读。
六、适用场景建议
- 接 Claude Code / Codex 当 1M context 后端: 直接
ollama launch claude --model glm-5.2:cloud,零代码改动,适合个人开发者。 - 企业 agent 跑批(不要求低延迟): DeepInfra 夜间档 + 4 张 H200 跑 4-bit 量化是当前性价比甜点。
- 科研 / 长 repo 分析 / 长 session 任务: GLM-5.2 是当前开源里唯一能把 1M context 跑满的模型,GLM-5.1 不行。
- 小任务 / 短 prompt: 用 GLM-5.2 杀鸡用牛刀,直接走 MiniMax-M3 或 DeepSeek V4 Pro,单任务 $0.05-$0.18 性价比更高。
参考链接
- Artificial Analysis 榜单原文: https://artificialanalysis.ai/articles/glm-5-2-is-the-new-leading-open-weights-model-on-the-artificial-analysis-intelligence-index
- HN 讨论(101 分): https://news.ycombinator.com/item?id=48567759
- GitHub 仓库(zai-org/GLM-5, 3666 stars / Apache-2.0): https://github.com/zai-org/GLM-5
- HuggingFace 模型页: https://huggingface.co/zai-org/GLM-5
- Ollama 库页(glm-5.2:cloud): https://ollama.com/library/glm-5.2
- Reddit 讨论(zai-org/GLM-5.2 is here): https://www.reddit.com/r/LocalLLaMA/comments/1u7kcwf/zaiorgglm52_is_here