当前位置: 首页 > news >正文

CANN/catlass Tile行广播乘法API

TileRowBroadcastMul

【免费下载链接】catlass本项目是CANN的算子模板库,提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass

代码位置

[TOC]

功能说明

TileRowBroadcastMul实现 epilogue 阶段的广播乘法操作。将 UB 上行向量(1, n)广播到 (m, n) 矩阵后与输入逐元素相乘。通过AscendC::Mul+BinaryRepeatParamssrc1RepStride = 0)实现行广播。

  • 适用范围:所有架构(无架构特化)
  • 风格:非 TLA

模板原型

template < class ArchTag_, // 架构标签 class ComputeType_, // 计算数据类型 class TileShape_ // Tile 形状(含 ROW 和 COLUMN) > struct TileRowBroadcastMul;
模板参数说明
ArchTag_架构标签
ComputeType_Gemm::GemmType<ElementCompute, RowMajor>
TileShape_Tile 形状,Shape<ROW, COLUMN>

调用接口

void operator()( AscendC::LocalTensor<ElementCompute> const &ubOut, // 目的 UB AscendC::LocalTensor<ElementCompute> const &ubIn0, // 源 UB 0(m, n) AscendC::LocalTensor<ElementCompute> const &ubIn1 // 源 UB 1(1, n)行向量 )

通过AscendC::Mul+BinaryRepeatParamssrc1RepStride = 0)实现行广播。

调用示例

#include "catlass/epilogue/tile/tile_broadcast_mul.hpp" using namespace Catlass::Epilogue::Tile; using ComputeType = Gemm::GemmType<half, layout::RowMajor>; using TileShape = Shape<128, 256>; using BroadcastMul = TileRowBroadcastMul<Arch::AtlasA2, ComputeType, TileShape>; AscendC::LocalTensor<half> ubOut, ubIn0, ubIn1; BroadcastMul broadcastMul; broadcastMul(ubOut, ubIn0, ubIn1);

【免费下载链接】catlass本项目是CANN的算子模板库,提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.zskr.cn/news/1426746.html

相关文章:

  • Python yield 最通俗、最实用的讲解
  • 快手去水印视频解析在线提取:官方方法、工具风险与侵权界定全解 - 科技热点发布
  • DistilRoBERTa-Base-Paraphrase-v1-OpenMind:推荐系统中用户兴趣向量化的终极实践指南
  • 告别/dev/ttyUSB0:为思岚A2激光雷达创建永久别名,解决ROS2项目中的串口烦恼
  • GEAK框架:LLM驱动的Triton GPU内核生成技术解析
  • 避坑指南:在Vivado 2021.2中为MPSOC配置HPC接口缓存一致性(含FSBL与App代码)
  • 盘点靠谱复读名校|2026浙江高复学校名录完整版发布:覆盖杭甬温金多地 - 品牌榜中榜
  • 从GCM到流域模拟:手把手教你将CMIP6数据驱动SWAT水文模型(WRF降尺度实战)
  • 导师推荐 2026 最新降AI率软件测评与对比分析 - 降AI小能手
  • 小红书去水印下载用什么工具官方方法与安全工具及风险规避全指南 - 科技热点发布
  • 手把手教你做Claude用户手册,深度适配企业级场景的6类角色定制模板与交付清单
  • CANN/catlass FP8转FP16反量化Tile操作
  • Kimi LeetCode 2836. 在传球游戏中最大化函数值 Java实现
  • 宁波酒店厨房设备回收:江北专业的空调回收公司选哪家 - LYL仔仔
  • 【独家首发】全球首份Claude竞品压力测试报告:在金融合同解析、医疗术语推理、多跳法律检索三大高危场景中,仅2家通过95%准确率阈值
  • 2026宁夏搬家公司推荐,甄选靠谱搬家服务商打造安心搬迁体验 - 品牌鉴赏师
  • 2026年GEO源头厂家公司怎么选?杭州本土技术派深度拆解 - 品牌报告
  • 系统性搜寻未知:构建可观测性驱动的技术问题排查框架
  • VideoGameBunny-V1-4B架构深度解析:BunnyPhi3与SigLIP视觉塔的技术融合
  • CANN/catlass A8W4量化TileCopy组件
  • 30天打造反臃肿AI演示工具:从减法设计到文件优先的工程实践
  • gte-base与其他嵌入模型对比:为什么选择阿里达摩院的文本嵌入方案
  • 【赵渝强老师】崖山数据库的数据字典
  • 照着用就行:2026年闭眼可入的专业降AI率平台 - 降AI小能手
  • AI建站避坑指南:10个高频问题帮你躲开90%的坑
  • HuggingFace镜像项目glaive_toolcall_zh:中文工具调用数据集贡献者完全指南
  • 天津本地商家GEO推广服务商推荐 - 舒雯文化
  • 别再只用RAID 0了!Ubuntu 22.04下用mdadm搭建RAID 0+1,兼顾速度与数据安全
  • Unity 2022 保姆级教程:从项目到APK,手把手教你打包第一个手机游戏
  • Fan Control终极指南:3步打造Windows风扇智能温控系统