NVIDIA Blackwell架构深度解读-尧图网络科技

踩坑千卡GPU集群之前，先搞懂Blackwell架构到底改了啥

搞大模型推理和训练的同行应该都有体会——卡多了之后，瓶颈往往不在单卡算力，而在卡间通信和显存墙。2024年NVIDIA扔出的Blackwell架构，本质上是冲着这两个痛点来的。这篇文章把Blackwell的芯片设计、NVLink互联和机架级产品矩阵梳理一遍，只说干货。

一、从Hopper到Blackwell：为什么不再卷单Die

先看最核心的变化：Blackwell GPU不再是一颗完整的单Die芯片，而是两颗Die通过高速接口拼在一起。

Hopper的单Die GPU（H100）已经把TSMC 4N工艺的红利吃得差不多了——继续在单个Die上堆晶体管，性能提升幅度远跟不上功耗增长。于是Blackwell换了一条路：用先进封装把两颗Die合封到一起，两Die之间通过NVIDIA自研的NV-HBI（High Bandwidth Interface）互联，带宽做到约10TB/s级别。

一颗B200总计约208B晶体管，大约是H100的两倍。但从OS视角看，两颗Die仍然呈现为一颗完整的GPU，共享8个HBM Stack。

这个变化意味着什么？单颗GPU的算力增长，不再靠制程微缩，而是靠Chiplet拼装。AMD的MI300系列走了类似路线（八Die合封），可以说这是后摩尔时代行业共识。

二、Blackwell芯片架构：几个关键升级点

2.1 低精度算力：FP4/FP6来了

训练侧FP16/BF16还是主力，但推理侧已经全面拥抱更低精度。Blackwell在FP8之外新增了FP6和FP4支持，以及MXFP8、UE8M0等微缩格式：

精度	定位	典型场景
FP16/BF16	训练主力	大模型预训练、微调
FP8	推理+部分训练	Hopper已支持，Blackwell继续
FP6	过渡精度	MoE模型推理
FP4	极致推理	超大规模模型推理部署

FP4算力大约是FP8的两倍。NVL72机架满载FP4时，总算力非常夸张——单机架就能跑到几百P FLOPS级别。不过注意，FP4目前主要服务于推理，训练侧量化到FP4精度损失还比较大。

2.2 SerDes升级到224G PAM4

SerDes速率从Hopper的112G PAM4翻倍到224G PAM4。这影响的不仅是NVLink，还包括网卡侧——ConnectX-8支持800Gb/s，背后就是224G SerDes的功劳。

2.3 HBM3E显存

Blackwell全系采用HBM3E，B200配置192GB（部分SKU），带宽约8TB/s。HBM容量和带宽的增长对推理场景尤其关键——KV Cache的显存占用直接决定了最大上下文长度。

三、NVLink 5.0 & NVSwitch：L1域互联的质变

3.1 NVLink五代演进

NVLink从Pascal时代的NVLink 1.0一路迭代到Blackwell的NVLink 5.0，变化非常直观：

每个NVLink Link从2 Lane升级到2 Lane（Blackwell保持不变），但每Lane速率从112G PAM4翻到224G PAM4，双向总带宽直接翻倍到1800GB/s。

3.2 NVSwitch：Port数量决定L1规模上限

NVSwitch的Port数量直接决定了L1互联域能塞多少GPU。这是一个很关键但容易被忽略的约束：

NVSwitch代际	每芯片Port数	每Port Lane数	单GPU NVLink数	L1域最大GPU数
NVSwitch 2.0 (Ampere)	64	2	12	8 (NVL8)
NVSwitch 3.0 (Hopper)	64	2	18	8 (NVL8)
NVSwitch 5.0 (Blackwell)	72	2	18	72 (NVL72)

Blackwell的NVSwitch单芯片提供72个Port，加上NVLink带宽翻倍，使得L1全互联域从Hopper时代的8卡直接跃升到72卡。这是NVL72能成立的前提。

一句话总结：GPU的NVLink Link数 × 单Link带宽 = GPU对外出口带宽；Switch Port数 × GPU数 = 全网状互联的数学约束。两者缺一不可。

四、产品矩阵：B200/B300/GB200/GB300到底怎么选

Blackwell家族的产品线确实有点眼花缭乱，按层级梳理一下：

4.1 芯片级

芯片	Die配置	OS视角GPU数	定位
B100	单芯双Die	1	早期版本
B200	单芯双Die	1	主力SXM版本
B300A	单芯单Die	1	成本优化版，对应NVL16
B300 Ultra	单芯双Die	1	旗舰版，对应GB300 NVL72

B300A采用单Die设计，显存144GB，功耗更低；B300 Ultra则是双Die的满血版。

4.2 SuperChip：GB200/GB300

GB200把1颗Grace CPU和2颗B200 GPU通过NVLink-C2C捆在一起，形成一颗SuperChip。CPU和GPU之间900GB/s的带宽意味着它们共享同一个内存地址空间，不再是传统PCIe的DMA拷贝模式。

GB300升级到2颗B300 Ultra，总体思路一致。

4.3 机架级产品

产品	GPU数	NVSwitch配置	定位
HGX B300A NVL16	16 × B300A	SXM形态	传统8/16卡服务器升级
DGX B300 Ultra	8 × B300 Ultra	SXM形态	单机高性能节点
GB200 NVL36	36 × B200	9×NVSwitch Tray	L1域半互联
GB200 NVL72	72 × B200	9×NVSwitch Tray	L1域全互联
GB300 NVL72	72 × B300 Ultra	9×NVSwitch Tray	L1域全互联升级版

五、NVL72：为什么要做72卡全互联机架

5.1 物理构成

一个NVL72机架包括：

18个Compute Tray × 每个4颗B200 = 72颗GPU在L1域内全互联，任意两颗GPU之间NVLink带宽可达1800GB/s。

5.2 NVL72的核心收益

搞大模型推理的同行应该很熟这个场景：MoE模型的Decode阶段是EP（Expert Parallelism）的重灾区。All-to-All通信的带宽和延迟直接决定了TPS上限。

NVL72相对于多台NVL8拼装，最本质的优势在于：

L1域内All-to-All通信无阻塞：72卡全互联，不需要跨机架走IB/RoCE
延迟大幅降低：铜缆背板替代光模块+交换机，延迟低一个数量级
单位功耗下的总吞吐提升：同样跑EP64，NVL72的TPS上限远超多机拼装方案

不过也要清醒认识到：NVL72解决的问题是Scale-Up通信，如果你的模型并行策略以DP（Data Parallelism）为主，那NVL72的收益就有限了。选什么产品形态，取决于你的并行策略。

六、未来路线图：Rubin在路上了

NVIDIA已经公开了后续两代产品的规划：

代际	时间窗口	GPU代表	NVLink	关键变化
Hopper	2022-2023	H100/H200	NVLink 4.0	首次引入FP8
Blackwell	2024-2026	B200/B300	NVLink 5.0	双Die合封、FP4、NVL72
Rubin	~2026-2027	VR200/VR300	NVLink 6.0/7.0	四Die合封(Rubin Ultra)、HBM4

Rubin Ultra将采用4颗Reticle Die + 2颗I/O Chiplet的Chiplet方案，FP4算力目标在百P级别，HBM升级到HBM4（Rubin）甚至HBM4E（Rubin Ultra）。

互连侧：NVLink 6.0的每Link从2 Lane升级到4 Lane（每Lane保持200G），单向带宽从900GB/s翻到1800GB/s；NVSwitch单芯片Port数从72增至144——这意味着L1域的上限还会继续扩大。

七、总结：几个值得关注的趋势

把整条线串起来，能从Blackwell看到几个很明确的行业趋势：

维度	趋势	Blackwell体现
芯片设计	单Die→Chiplet多Die合封	B200双Die通过NV-HBI互联
精度路线	推理精度向FP4下探	首次支持FP6/FP4
显存	HBM容量、带宽持续增长	HBM3E 192GB→288GB
互联	L1域规模从8卡跃升到72卡	NVSwitch 5.0 + NVLink 5.0
机架	从单机到整机柜一体化交付	NVL72是完整产品
网络	Scale-Out网卡进入800G时代	CX-8 800Gb/s