当前位置: 首页 > news >正文

Deepseek MLA CP通信AlltoAll

长文本CP 切分共2次All2All第一次AlltoAll输入按Seq维度汇总按Head维度切。切输入非TP维度的切参数[s/c, b, n/t, h] -AlltoAll- [s, b, n/(t*c), h]第二次AlltoAll恢复按Seq维度切按Head维度汇总。[s, b, n/(t*c), h] -AlltoAll- [s/c, b, n/t, h]其中t 为TP, c 为CP, n nHead数举例 CP 2, TP 4 , H 8192, nHead 16阶段形状说明输入[s/2, b, 8192]CP 切分后每 rank 持有半个序列MLA 解压后 Q/K/V[s/2, b, 16, 192]16 heads/rank64 heads ÷ TP4经过了TP的降维A2A 后scatter headgather seq[s, b, 8, 192]全序列head 减半Flash Attention 输出[s, b, 8, 128]全序列本地计算A2A 后scatter seqgather head[s/2, b, 16, 128]还原序列分片o_proj 后[s/2, b, 8192]还原 hidden_states, 经过TP升维compressed_kv [s, b, 576] ← kv_a_proj 压缩后的 latent是 _preprocess 的输入 │ ├── split → ct_kv [s, b, 512] ← kv_lora_rank 部分 │ k_pe [s, b, 64] ← rope 部分 │ ├── kv_a_layernorm(ct_kv) │ └── kv_b_proj (Up-projection, 解压) [s, b, 512] → [s, b, 16heads, 128128] k_nope [s, b, 16, 128] v [s, b, 16, 128] q_b_input (经过 q_b_proj 解压) q_nope [s, b, 16, 128] q_pe [s, b, 16, 64] 最终拼接: query_states [s, b, 16, 192] q_nope q_pe key_states [s, b, 16, 192] k_nope k_pe value_states [s, b, 16, 128]MLA attention:DeepseekV2Attention └── self.core_attention_flash FlashAttention(...) # 基础 flash attn ↓ (当 CP alltoall 时自动包装) └── self.core_attention_flash DistributedAttention(FlashAttention, cp_group)
http://www.zskr.cn/news/1389349.html

相关文章:

  • 深度解锁NVIDIA显卡隐藏性能:NVIDIA Profile Inspector完全配置指南
  • Unity 2022+ 安卓打包进阶:深度定制你的Gradle配置(从模板文件到实战避坑)
  • 如何快速掌握LX Music桌面版:免费开源跨平台音乐播放器终极指南
  • 在Linux下以www-data用户运行Crontab的方法步骤
  • ARM架构系统寄存器与TLB维护指令详解
  • C++枚举法(二)
  • Claude Code源码剖析 - Message 与上下文结构
  • 事件丢失率超0.03%?DeepSeek官方未公开的3层补偿机制与自动重放引擎配置秘钥
  • 代码质量正在 silently decay?DeepSeek模型输出的隐蔽缺陷,你检测到了吗?
  • Kali Linux下蚁剑实战部署与红队持久化控制全指南
  • 为什么92%的Unity团队卡在Sora 2集成第一关?揭秘Unity 2023.2+中被移除的3个关键VideoCapture API
  • AMD Ryzen内存时序深度解析:ZenTimings技术揭秘与实战指南
  • 嵌入式Linux驱动开发——GPIO 子系统架构深度解析
  • 2026 AI学习机推荐来了:智能小初高机型深度解析 - 博客万
  • C++OJ题经验总结(竞赛)2
  • 使用Taotoken后API调用延迟与稳定性体验分享
  • 新药观潮①|解码中国创新药的黄金十年与未来之路
  • BepInEx终极指南:3步打造你的专属Unity游戏模组体验
  • 为RV1126构建带SRT和H.265的FFmpeg推流库:一份详细的依赖库配置清单
  • 实验报告(一)
  • AI工具热度周期观察:从狂欢到沉默,内容创作者的红利在哪里?
  • 金龙电机冲刺港股:年营收7.3亿 利润3861万 叶锦武家族色彩浓厚
  • 终极指南:如何用UABEAvalonia高效编辑Unity游戏资源包
  • 从NOIP经典题“铺地毯”出发:结构体如何让算法思维更清晰
  • 如何构建一个完全离线的Windows实时语音识别系统
  • 2026最新五家龙井市黄金回收白银回收铂金回收彩金回收店铺靠谱回收门店推荐TOP5排行榜及联系方式推荐 - 前途无量YY
  • Next.js集成Replicate AI:轮询与Webhooks实战及性能优化指南
  • 2026性价比高的GEO优化服务商推荐:性价比排名与选型指南 - 速递信息
  • 毕业设计 YOLOv8工地安全监控预警系统(源码+论文)
  • ARM PMU与LFB缓存性能监控实战指南