当前位置：首页 > news >正文

AMD MI300X部署大模型：虽遇软件困境，仍有8.6%性能提升，AI硬件格局渐趋多元

news 2026/6/3 17:46:37

【导语：在AI推理芯片市场，NVIDIA H100占据主导，但AMD的Instinct MI300X是被低估的替代方案。近日技术博客作者记录了将DeepSeek-V4-Flash模型部署到MI300X的过程，反映出AMD软件生态短板及AI硬件格局的变化。】

被低估的AMD MI300X与热门模型的碰撞

在AI推理芯片市场，NVIDIA H100几乎是默认选择，而AMD的Instinct MI300X一直被低估。此时，DeepSeek模型系列在开源社区热度持续上升，其DeepSeek-V4-Flash因优异推理效率受关注。AMD MI300X作为AMD面向数据中心的旗舰加速器，采用CDNA 3架构、拥有192GB HBM3内存，理论上可支撑大模型本地部署，但软件生态差距让部署之路充满挑战。

FP8精度：标准分歧成部署拦路虎

部署中首个难题是FP8量化精度问题。FP8作为低精度格式能降低显存占用、提升推理速度，但不同硬件厂商对FP8实现有分歧。NVIDIA用OCP定义的FP8格式，AMD MI300X用fnuz格式，两种格式在数值表示范围和精度上有差异，导致模型权重解读出现系统性偏差，作者花大量时间校准精度才使数值误差可接受。

内核库缺失：影响大模型推理吞吐

AITER内核库在AMD CDNA 3架构上的适配问题是第二个挑战。AITER是为Transformer模型优化的计算库，包含高效注意力机制快速路径实现。但在MI300X上，因底层架构细节差异，快速路径触发条件未满足，注意力计算回退到更慢的通用实现，直接影响大模型推理的吞吐能力。

Triton并发：多难题待逐个攻克

除上述问题，HIP图优化中的张量形状问题、MoE路由层的bug以及Triton内核在并发场景下的边界条件处理，都是部署需攻克的难题。Triton是AMD为GPU计算设计的编程语言，与NVIDIA的CUDA生态类似，但工具链成熟度仍有差距。

性能提升与生态变化：AI硬件格局渐多元

经过修复和优化，DeepSeek-V4-Flash在单块MI300X上推理速度从2485 tok/s提升至2699 tok/s，提升约8.6%。虽不算惊艳，但考虑到AMD MI300X在采购成本和TCO上相对NVIDIA H100的优势，这一差距可接受。同时，AMD在ROCm上投入加大，开源社区对其硬件支持也在增长，软件生态差距正缩小，AI硬件格局正从NVIDIA一家独大向多元化演进。

编辑观点：AMD MI300X虽在软件生态上有短板，但此次部署展示了其潜力。随着软件生态改善，有望在AI硬件市场占据更重要地位，推动行业多元化发展。

查看全文

http://www.zskr.cn/news/1455059.html