当前位置: 首页 > news >正文

Atlas 800I A2 vs Atlas 300I Duo:盘古Pro MoE硬件选型终极指南

Atlas 800I A2 vs Atlas 300I Duo:盘古Pro MoE硬件选型终极指南

【免费下载链接】Pangu-Pro-MoE项目地址: https://ai.gitcode.com/hf_mirrors/MindSpore-Lab/Pangu-Pro-MoE

盘古Pro MoE是一款高性能的AI模型,为了充分发挥其性能,选择合适的硬件平台至关重要。本文将对比两款主流昇腾硬件——Atlas 800I A2和Atlas 300I Duo,帮助您为盘古Pro MoE模型做出最佳硬件选型决策。

硬件平台基本要求

盘古Pro MoE推理建议使用1台(8卡)Atlas 800I A2(64G)服务器(基于BF16权重)或使用1台(8卡)Atlas 300I Duo服务器(基于BF16权重)。昇思MindSpore提供了盘古Pro MoE推理可用的Docker容器镜像,供开发者快速体验。

软件配置差异

Atlas 300I Duo特殊配置

使用Atlas 300I Duo推理需要将config.json文件中的torch_dtype配置项由bfloat16改为float16。对应的BF16权重将在模型加载时,自动转换为FP16权重。

推理参数调整

在推理参数设置上,两款硬件也有明显区别:

  • gpu_memory_utilization=0.9,Atlas 300I Duo平台需要修改为0.8
  • max_num_seqs=512,Atlas 300I Duo平台需要修改为128
  • max_model_len=32768,Atlas 300I Duo平台需要修改为16384

镜像拉取与容器启动

Atlas 800I A2镜像拉取

若使用Atlas 800I A2进行推理,则需执行以下 Shell 命令,拉取昇思 MindSpore 盘古Pro MoE Atlas 800I A2推理镜像:

Atlas 300I Duo镜像拉取

若使用Atlas 300I Duo进行推理,则需执行以下 Shell 命令,拉取昇思 MindSpore 盘古Pro MoE Atlas 300I Duo推理镜像:

容器启动命令

以Atlas 800I A2推理为例,执行以下命令,创建并启动容器:

若使用Atlas 300I Duo进行推理,则将上述启动命令中的镜像地址swr.cn-central-221.ovaijisuan.com/mindsporelab/pangu_pro_moe_mindspore-infer:800-A2-20250623替换为swr.cn-central-221.ovaijisuan.com/mindsporelab/pangu_pro_moe_mindspore-infer:300I-Duo-20250623

推理服务启动

Atlas 800I A2服务启动

执行以下shell命令启动Atlas 800I A2推理服务:

Atlas 300I Duo服务启动

若使用Atlas 300I Duo进行推理,则需执行以下shell命令启动推理服务:

性能表现对比

在昇腾Atlas 800I A2平台上部署盘古Pro MoE模型(基于W8A8量化权重),可在时延100ms的约束条件下,实现平均每卡1020token/s的增量吞吐性能。配套代码和镜像计划于7月上旬发布,敬请期待。

Atlas 300I Duo虽然在部分参数上有所限制,但凭借其独特的架构设计,在特定场景下也能展现出优异的性能表现,是预算有限情况下的理想选择。

选型建议

  • 追求极致性能和更大模型支持:选择Atlas 800I A2,支持更高的max_num_seqsmax_model_len,适合处理复杂、长文本任务。
  • 预算有限且任务相对简单:选择Atlas 300I Duo,通过适当调整参数,也能满足大部分推理需求。

无论选择哪款硬件,都需要确保按照官方文档正确配置软件环境和参数,以获得最佳性能。建议在正式部署前,根据实际任务特点进行充分测试和评估。

要开始使用盘古Pro MoE模型,请先克隆仓库:git clone https://gitcode.com/hf_mirrors/MindSpore-Lab/Pangu-Pro-MoE,然后根据所选硬件平台,参考README.md中的详细部署指南进行操作。

【免费下载链接】Pangu-Pro-MoE项目地址: https://ai.gitcode.com/hf_mirrors/MindSpore-Lab/Pangu-Pro-MoE

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.zskr.cn/news/1406243.html

相关文章:

  • 从Voxblox到Fast Planner:聊聊几种ESDF地图构建方案的性能与选择
  • 树莓派SD卡空间总告急?试试这个‘瘦身’备份法:只备份有用数据,镜像体积缩小一半
  • 掌握 Agent 开发,抢占 2026 AI 首席岗位!必备技术路线图(附就业指南)
  • 基于Rust与AI的命令行纠错工具:从原理到工程实践
  • 3步解锁音乐自由:这款开源工具让你告别格式束缚
  • HBM4如何移动内存墙:从带宽瓶颈到系统集成挑战
  • 紧急更新!OpenAI API v4.5对诗歌生成逻辑的重大调整:3类经典prompt突然失效,立即启用这4个兼容性修复方案
  • ChatGPT目标设定实战指南:5类高频失效场景+对应Prompt模板(附2024最新测试数据)
  • ZE41镁合金薄壁铸件集成计算与制备工艺【附代码】
  • ARMv8 AArch32特权层级与安全状态详解
  • 告别第三方录屏软件!深度评测Unity官方Recorder插件:在编辑器内直接产出高质量视频素材的完整流程
  • 告别Unity AudioSource:用OpenAL在C++游戏项目中实现3D音效(附完整代码)
  • 终极指南:如何用zenodo_get快速下载科研数据
  • Overleaf分栏进阶:用multicols环境制作简历、会议手册等非标准文档
  • 别再用Excel做风险登记表了!——2024最新ChatGPT风险评估矩阵(支持自动打分、溯源归因、审计留痕,仅剩87个授权席位)
  • 3分钟为Windows换上macOS风格鼠标指针:免费美化你的桌面体验
  • 基于字节嵌入与分层注意力机制的网络入侵检测模型详解
  • 用Python和DoWhy库实战反事实推理:一个外卖骑手派单优化的完整案例
  • 阿里大牛亲码的2026最新Spring Cloud Alibaba速成笔记公开!
  • 2026保姆级教程!港澳通行证照片怎么手机拍?规格要求+手机拍摄方法一看就会
  • ncmdumpGUI:三步解锁网易云NCM音乐,实现跨平台自由播放的终极指南
  • OpCore Simplify:黑苹果EFI配置终极自动化工具,让黑苹果安装从未如此简单!
  • 保姆级教程:用OrCAD Capture搞定层次化电路‘展开’,再也不怕改一个坏一片
  • PL2303老芯片Windows驱动终极解决方案:让Windows 10/11完美识别串口设备
  • agent-skills 一键落地实操指南-运行指南-周红伟
  • 2026 届必藏!从选题到定稿,9 款 AI 毕业论文工具实测,高效避坑指南
  • 从MANO参数化模型到3D手势生成:前向动力学树的实践解析
  • ESSD:基于微分积分增强的奇异谱分解在轴承微弱故障诊断中的应用
  • 从‘挂起’到‘掌控’:深入理解Trace32的system.up与system.attach在调试启动流程中的关键选择
  • Keil编译器工具链版本归档与多版本管理实践