NVIDIA Blackwell架构深度解读

NVIDIA Blackwell架构深度解读

踩坑千卡GPU集群之前,先搞懂Blackwell架构到底改了啥

搞大模型推理和训练的同行应该都有体会——卡多了之后,瓶颈往往不在单卡算力,而在卡间通信和显存墙。2024年NVIDIA扔出的Blackwell架构,本质上是冲着这两个痛点来的。这篇文章把Blackwell的芯片设计、NVLink互联和机架级产品矩阵梳理一遍,只说干货。


一、从Hopper到Blackwell:为什么不再卷单Die

先看最核心的变化:Blackwell GPU不再是一颗完整的单Die芯片,而是两颗Die通过高速接口拼在一起。

单Die性能提升仅约15%
功耗增加约35%

B200 双Die合封

NV-HBI
~10TB/s

Die 0

Die 1

H100 单Die封装

单Reticle Die
80B晶体管
TSMC 4N

Hopper的单Die GPU(H100)已经把TSMC 4N工艺的红利吃得差不多了——继续在单个Die上堆晶体管,性能提升幅度远跟不上功耗增长。于是Blackwell换了一条路:用先进封装把两颗Die合封到一起,两Die之间通过NVIDIA自研的NV-HBI(High Bandwidth Interface)互联,带宽做到约10TB/s级别。

一颗B200总计约208B晶体管,大约是H100的两倍。但从OS视角看,两颗Die仍然呈现为一颗完整的GPU,共享8个HBM Stack。

这个变化意味着什么?单颗GPU的算力增长,不再靠制程微缩,而是靠Chiplet拼装。AMD的MI300系列走了类似路线(八Die合封),可以说这是后摩尔时代行业共识。


二、Blackwell芯片架构:几个关键升级点

2.1 低精度算力:FP4/FP6来了

训练侧FP16/BF16还是主力,但推理侧已经全面拥抱更低精度。Blackwell在FP8之外新增了FP6和FP4支持,以及MXFP8、UE8M0等微缩格式:

精度定位典型场景
FP16/BF16训练主力大模型预训练、微调
FP8推理+部分训练Hopper已支持,Blackwell继续
FP6过渡精度MoE模型推理
FP4极致推理超大规模模型推理部署

FP4算力大约是FP8的两倍。NVL72机架满载FP4时,总算力非常夸张——单机架就能跑到几百P FLOPS级别。不过注意,FP4目前主要服务于推理,训练侧量化到FP4精度损失还比较大。

2.2 SerDes升级到224G PAM4

SerDes速率从Hopper的112G PAM4翻倍到224G PAM4。这影响的不仅是NVLink,还包括网卡侧——ConnectX-8支持800Gb/s,背后就是224G SerDes的功劳。

2.3 HBM3E显存

Blackwell全系采用HBM3E,B200配置192GB(部分SKU),带宽约8TB/s。HBM容量和带宽的增长对推理场景尤其关键——KV Cache的显存占用直接决定了最大上下文长度。

GPU HBM容量演进 (单卡)A100(2020)H100(2022)H200(2023)B200(2024)GB300 Ultra(~2025)350300250200150100500HBM容量(GB)

三、NVLink 5.0 & NVSwitch:L1域互联的质变

3.1 NVLink五代演进

NVLink从Pascal时代的NVLink 1.0一路迭代到Blackwell的NVLink 5.0,变化非常直观:

Pascal (2016)

NVLink 1.0
4 Links × 40GB/s
单向总带宽 160GB/s

Ampere (2020)

NVLink 3.0
12 Links × 50GB/s
单向总带宽 600GB/s

Hopper (2022)

NVLink 4.0
18 Links × 50GB/s
单向总带宽 900GB/s

Blackwell (2024)

NVLink 5.0
18 Links × 100GB/s
单向总带宽 1800GB/s

每个NVLink Link从2 Lane升级到2 Lane(Blackwell保持不变),但每Lane速率从112G PAM4翻到224G PAM4,双向总带宽直接翻倍到1800GB/s。

3.2 NVSwitch:Port数量决定L1规模上限

NVSwitch的Port数量直接决定了L1互联域能塞多少GPU。这是一个很关键但容易被忽略的约束:

NVSwitch代际每芯片Port数每Port Lane数单GPU NVLink数L1域最大GPU数
NVSwitch 2.0 (Ampere)642128 (NVL8)
NVSwitch 3.0 (Hopper)642188 (NVL8)
NVSwitch 5.0 (Blackwell)7221872 (NVL72)

Blackwell的NVSwitch单芯片提供72个Port,加上NVLink带宽翻倍,使得L1全互联域从Hopper时代的8卡直接跃升到72卡。这是NVL72能成立的前提。

一句话总结:GPU的NVLink Link数 × 单Link带宽 = GPU对外出口带宽;Switch Port数 × GPU数 = 全网状互联的数学约束。两者缺一不可。


四、产品矩阵:B200/B300/GB200/GB300到底怎么选

Blackwell家族的产品线确实有点眼花缭乱,按层级梳理一下:

4.1 芯片级

芯片Die配置OS视角GPU数定位
B100单芯双Die1早期版本
B200单芯双Die1主力SXM版本
B300A单芯单Die1成本优化版,对应NVL16
B300 Ultra单芯双Die1旗舰版,对应GB300 NVL72

B300A采用单Die设计,显存144GB,功耗更低;B300 Ultra则是双Die的满血版。

4.2 SuperChip:GB200/GB300

统一内存视图

LPDDR5X 480GB
来自Grace CPU

HBM3E 384GB
来自2×B200

GB200 SuperChip

NVLink-C2C
~900GB/s

Grace CPU
72核 ARM

B200 GPU × 2

GB200把1颗Grace CPU和2颗B200 GPU通过NVLink-C2C捆在一起,形成一颗SuperChip。CPU和GPU之间900GB/s的带宽意味着它们共享同一个内存地址空间,不再是传统PCIe的DMA拷贝模式。

GB300升级到2颗B300 Ultra,总体思路一致。

4.3 机架级产品

产品GPU数NVSwitch配置定位
HGX B300A NVL1616 × B300ASXM形态传统8/16卡服务器升级
DGX B300 Ultra8 × B300 UltraSXM形态单机高性能节点
GB200 NVL3636 × B2009×NVSwitch TrayL1域半互联
GB200 NVL7272 × B2009×NVSwitch TrayL1域全互联
GB300 NVL7272 × B300 Ultra9×NVSwitch TrayL1域全互联升级版

五、NVL72:为什么要做72卡全互联机架

5.1 物理构成

一个NVL72机架包括:

GB200 NVL72 机架

铜缆背板

CX-8 SuperNIC 800Gb/s

18 × Compute Tray (1RU)

Tray 1: 2×GB200 = 4×B200 GPU

Tray 2-17: ...

Tray 18: 2×GB200 = 4×B200 GPU

9 × NVSwitch Tray (1RU)

每Tray 2×NVSwitch Chip
每Chip 72 Port

18个Compute Tray × 每个4颗B200 = 72颗GPU在L1域内全互联,任意两颗GPU之间NVLink带宽可达1800GB/s。

5.2 NVL72的核心收益

搞大模型推理的同行应该很熟这个场景:MoE模型的Decode阶段是EP(Expert Parallelism)的重灾区。All-to-All通信的带宽和延迟直接决定了TPS上限。

NVL72相对于多台NVL8拼装,最本质的优势在于:

  • L1域内All-to-All通信无阻塞:72卡全互联,不需要跨机架走IB/RoCE
  • 延迟大幅降低:铜缆背板替代光模块+交换机,延迟低一个数量级
  • 单位功耗下的总吞吐提升:同样跑EP64,NVL72的TPS上限远超多机拼装方案

不过也要清醒认识到:NVL72解决的问题是Scale-Up通信,如果你的模型并行策略以DP(Data Parallelism)为主,那NVL72的收益就有限了。选什么产品形态,取决于你的并行策略。


六、未来路线图:Rubin在路上了

NVIDIA已经公开了后续两代产品的规划:

代际时间窗口GPU代表NVLink关键变化
Hopper2022-2023H100/H200NVLink 4.0首次引入FP8
Blackwell2024-2026B200/B300NVLink 5.0双Die合封、FP4、NVL72
Rubin~2026-2027VR200/VR300NVLink 6.0/7.0四Die合封(Rubin Ultra)、HBM4

Rubin Ultra将采用4颗Reticle Die + 2颗I/O Chiplet的Chiplet方案,FP4算力目标在百P级别,HBM升级到HBM4(Rubin)甚至HBM4E(Rubin Ultra)。

互连侧:NVLink 6.0的每Link从2 Lane升级到4 Lane(每Lane保持200G),单向带宽从900GB/s翻到1800GB/s;NVSwitch单芯片Port数从72增至144——这意味着L1域的上限还会继续扩大。

制程+精度

Chiplet规模化

Rubin 2026

四Die(Rubin Ultra)
HBM4/HBM4E
NVL144/NVL576

Blackwell 2024

双Die
FP4/FP6
NVL72

Hopper 2022

单Die
FP8


七、总结:几个值得关注的趋势

把整条线串起来,能从Blackwell看到几个很明确的行业趋势:

维度趋势Blackwell体现
芯片设计单Die→Chiplet多Die合封B200双Die通过NV-HBI互联
精度路线推理精度向FP4下探首次支持FP6/FP4
显存HBM容量、带宽持续增长HBM3E 192GB→288GB
互联L1域规模从8卡跃升到72卡NVSwitch 5.0 + NVLink 5.0
机架从单机到整机柜一体化交付NVL72是完整产品
网络Scale-Out网卡进入800G时代CX-8 800Gb/s

搞大模型基础设施的同行需要关注的本质问题是:当模型参数规模持续膨胀(十万亿级)、上下文长度进入百万Token级,单卡算力增长已经跟不上需求了。未来的竞争焦点,会从"单卡有多强"转变为"一个机架能提供多少有效算力和显存带宽"。

Blackwell给出的答案是双Die Chiplet + NVL72全互联机架,这个思路大概率会延续到后面几代产品。


本文基于NVIDIA官方公开发布的产品信息和架构白皮书整理,架构分析部分均为公开信息。所有性能数据来自NVIDIA官方公布的产品规格表。