当前位置: 首页 > news >正文

CANN Catlass后处理组件

Catlass 后处理Epilogue组件清单【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills导航新架构文档已建立 → 设计时优先阅读 architecture/02-block-layer.md §2.3 BlockEpilogue 部分和 kernels/epilogue-patterns.md。本文档作为 catlass 内置组件索引补充。若下表无所需运算先走 custom-epilogue.md设计确认 catlass 是否已有 Tile → 无则先设计自定义 Tile再在 codegen 中落盘op_kernel/custom_epilogue/。Epilogue 组件分为Tile 级单 tile 内操作和Block 级协调多个 tile两层按功能分为以下类别。Tile 级组件类别可选组件说明激活函数TileElemWiseGelu,TileElemWiseSiluGELU、SILU 激活无现成TileElemWiseTanh时在自定义 Tile 中用Exp/Muls/Adds/Div实现 (\tanh)与 Silu 同双缓冲范式或评估AscendC::Tanh与固定COMPUTE_LENGTH、小 (M\times N) 的运行期 UB 风险逐元素运算TileElemWiseAdd,TileElemWiseMul,TileElemWiseMuls加法、乘法、标量乘广播运算TileBroadcastAdd,TileBroadcastMul,TileBroadcastInplaceByColumn,TileBroadcastInplaceByRow广播加/乘、按列/行原地广播数据搬运TileCopy含CopyGMToUB、CopyUBToGM变体GM ↔ UB 搬运类型转换TileCast精度转换数据重排TileSwizzle内存布局重排量化反量化TileRowBroadcastMul,TileBroadcastOneBlk,TileOneBlkColumnBroadcastMul,TilePerTokenDequant行广播乘、单块广播、列广播乘、per-token 反量化Block 级组件类别可选组件说明通用后处理BlockEpilogue组合 Tile 组件的标准流水单源逐元素BlockEpilogueElemwiseOneSource带一个额外输入如加偏置无源逐元素BlockEpilogueElemwiseNoSource无额外输入的后处理SoftmaxBlockEpilogueOnlineSoftmaxNoMask在线 Softmax量化反量化BlockEpiloguePerTokenDequant,BlockEpilogueW4A4PerTokenPerChannelDequant,BlockEpilogueDequant反量化量化反量化激活BlockEpilogue组合 dequant tiles TileElemWiseGelu量化乘 反量化 激活融合GEMM/GEMVBlockEpilogueGEMM,BlockEpilogueGEMVGEMM/GEMV 专用Flash AttentionBlockEpilogueFARescaleO,BlockEpilogueFASoftmaxFA 后处理MLABlockEpilogueMLARescaleO,BlockEpilogueMLASoftmax等MLA 后处理组装模式BlockEpilogue将多个 Tile 组件组合为后处理流水线典型模式模式流水线典型用例纯矩阵乘无 EpilogueBlockEpilogue void基础 Matmul激活函数Copy入 → GELU/SILU → Copy出Matmul GELU加偏置Copy入 → Add(额外源) → Copy出Matmul Bias加偏置激活Copy入 → Add → GELU → Copy出Matmul Bias GELU广播运算Copy入 → BroadcastAdd → Mul → Copy出融合后处理量化反量化TileRowBroadcastMul → TileBroadcastOneBlk → TileOneBlkColumnBroadcastMul → TileCopyW8A8 量化乘 per-token 反量化量化反量化激活TileRowBroadcastMul → TileBroadcastOneBlk → TileOneBlkColumnBroadcastMul → TileElemWiseGelu → TileCopyW8A8 量化乘 反量化 GELU选型原则按需组合只选需要的环节不要全部引入Tile 组件按序排列Copy入 → 计算 → Copy出Block 组件接收 Tile 列表BlockEpilogueDispatchPolicy, InType, OutType, Tile...无后处理时设BlockEpilogue void【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考
http://www.zskr.cn/news/1401575.html

相关文章:

  • 5个关键问题:Playnite插件如何彻底改变你的游戏库管理体验?
  • FanControl:Windows风扇控制终极指南,3步实现零噪音电脑
  • 基于Nuxt 3与VueFlow构建Claude Code智能体可视化控制平面
  • 从HDF到可视化:手把手解析CALIPSO VFM星载激光雷达数据处理全流程
  • 鸣潮自动化助手终极指南:从新手到高手的完整解决方案
  • 3步实现HoneySelect2完整汉化与MOD整合:HS2-HF Patch终极指南
  • 阵列信号处理笔记-波达方向DOA-子空间方法:从MUSIC到现代高分辨算法
  • 抖音无水印视频下载终极方案:douyin-downloader专业指南
  • LinkSwift网盘直链下载助手:九大网盘一站式下载解决方案终极指南
  • 如何用OBS-captions-plugin为直播添加实时字幕:完整免费教程
  • 高效AI专著生成:实测优质工具,快速产出20万字专业专著
  • 毕业论文的加速引擎!常用的AI写作辅助网站,成稿速度超迅速
  • 英雄联盟终极智能助手:League Akari 完全使用指南
  • 5步掌握ESP32-Arduino核心:从硬件配置到物联网应用
  • 永磁节能潜水搅拌机http://www.llhjkj.com/的故障性能特点 - 品牌推荐大师
  • 如何快速掌握MoveIt2:面向初学者的完整ROS 2运动规划框架指南
  • 从政策文件到MCP服务器:91项行动计划的数字化实践
  • AVEVA PDMS 二次开发之PML实战:从宏命令到自定义窗体的自动化建模
  • 从数据到洞见:用Scanpy搞定单细胞测序分析的完整实战流程(附代码)
  • SQL代码质量守护者:sql-lint 终极指南 - 告别低级错误,提升数据库开发效率
  • Adobe-GenP 3.0:彻底解锁Adobe全家桶的终极解决方案
  • [实战] 扫描图纸怎么添加气泡?制造业质量检验图纸数字化处理全指南
  • j | 惊 蛰无声
  • 2026年香港名义雇主EOR服务商实测对比:哪家更适合中国企业出海? - 品牌2025
  • 2026武汉装修公司口碑榜靠谱高性价比十强推荐 - GEO排行榜
  • 思源宋体CN完整指南:7种字重免费商用字体解决方案
  • 终极跨平台资源下载工具:快速获取微信视频号、抖音、小红书等平台资源
  • Unity游戏安全分析:手把手教你用IL2CppDumper和IDA Pro还原il2cpp加密后的C#逻辑
  • 信也科技季报图解:营收32.1亿,净利4.2亿 海外收入占比30%
  • NVIDIA显卡优化神器:免费解锁200+隐藏设置的完整指南