当前位置: 首页 > news >正文

CANN/asc-devkit MrgSort合并排序函数

MrgSort【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言原生支持C和C标准规范主要由类库和语言扩展层构成提供多层级API满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit产品支持情况产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品 / Atlas A3 推理系列产品√Atlas A2 训练系列产品 / Atlas A2 推理系列产品√Atlas 200I/500 A2 推理产品√Atlas 推理系列产品 AI CorexAtlas 推理系列产品 Vector CorexAtlas 训练系列产品x功能说明将已经排好序的最多4条队列合并排列成1条队列结果按照score域由大到小排序。MrgSort指令处理的数据一般是经过Sort32指令处理后的数据也就是Sort32指令的输出队列的结构如下所示数据类型为float每个结构占据8Bytes。数据类型为half每个结构也占据8Bytes中间有2Bytes保留。函数原型template typename T __aicore__ inline void MrgSort(const LocalTensorT dst, const MrgSortSrcListT src, const MrgSort4Info params)参数说明表 1模板参数说明参数名描述TAscend 950PR/Ascend 950DT支持的数据类型为half/floatAtlas A3 训练系列产品 / Atlas A3 推理系列产品支持的数据类型为half/floatAtlas A2 训练系列产品 / Atlas A2 推理系列产品支持的数据类型为half/floatAtlas 200I/500 A2 推理产品支持的数据类型为half/float表 2接口参数说明参数名称输入/输出含义dst输出目的操作数存储经过排序后的数据。类型为LocalTensor支持的TPosition为VECIN/VECCALC/VECOUT。LocalTensor的起始地址需要32字节对齐。src输入源操作数4个队列并且每个队列都已经排好序类型为MrgSortSrcList结构体定义如下template typename T struct MrgSortSrcList { __aicore__ MrgSortSrcList() {} __aicore__ MrgSortSrcList(const LocalTensorT src1In, const LocalTensorT src2In, const LocalTensorT src3In, const LocalTensorT src4In) { src1 src1In[0]; src2 src2In[0]; src3 src3In[0]; src4 src4In[0]; } LocalTensorT src1; // 第一个已经排好序的队列 LocalTensorT src2; // 第二个已经排好序的队列 LocalTensorT src3; // 第三个已经排好序的队列 LocalTensorT src4; // 第四个已经排好序的队列 };源操作数的数据类型与目的操作数保持一致。src1、src2、src3、src4类型为LocalTensor支持的TPosition为VECIN/VECCALC/VECOUT。LocalTensor的起始地址需要8字节对齐。params输入排序所需参数类型为MrgSort4Info结构体。具体定义请参考${INSTALL_DIR}/include/ascendc/basic_api/interface/kernel_struct_proposal.h${INSTALL_DIR}请替换为CANN软件安装后文件存储路径。参数说明请参考表3。表 3MrgSort4Info参数说明参数名称含义elementLengths四个源队列的长度8Bytes结构的数目类型为长度为4的uint16_t数据类型的数组理论上每个元素取值范围[0, 4095]但不能超出UB的存储空间。ifExhaustedSuspension某条队列耗尽后指令是否需要停止类型为bool默认false。validBit有效队列个数取值如下3前两条队列有效7前三条队列有效15四条队列全部有效repeatTimes迭代次数每一次源操作数和目的操作数跳过四个队列总长度。取值范围repeatTimes∈[1,255]。repeatTimes参数生效是有条件的需要同时满足以下四个条件src包含四条队列并且validBit15四个源队列的长度一致四个源队列连续存储ifExhaustedSuspension False返回值说明无约束说明当存在score[i]与score[j]相同时如果ij则score[j]将首先被选出来排在前面。每次迭代内的数据会进行排序不同迭代间的数据不会进行排序。需要注意此函数排序的队列非region proposal结构。操作数地址对齐要求请参见通用地址对齐约束。调用示例完整使用样例请参见MrgSort样例。// 对8个已排好序的队列进行合并排序repeatTimes 2数据连续存放 // 每个队列包含32个(score,index)的8Bytes结构 // 最后输出对score域的256个数完成排序后的结果 AscendC::MrgSort4Info params; params.elementLengths[0] 32; params.elementLengths[1] 32; params.elementLengths[2] 32; params.elementLengths[3] 32; params.ifExhaustedSuspension false; params.validBit 0b1111; params.repeatTimes 2; AscendC::MrgSortSrcListfloat srcList; srcList.src1 workLocal[0]; srcList.src2 workLocal[64]; // workLocal为float类型每个队列占据256Bytes空间 srcList.src3 workLocal[128]; srcList.src4 workLocal[192]; AscendC::MrgSortfloat(dstLocal, srcList, params); outQueueDst.EnQuefloat(dstLocal); outQueueDst.FreeTensor(dstLocal);【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言原生支持C和C标准规范主要由类库和语言扩展层构成提供多层级API满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考
http://www.zskr.cn/news/1325791.html

相关文章:

  • VS Code 轻量自动化实战:Trae 集成 3 步配置与 5 个高频任务模板
  • Configor 自动重载功能深度解析:实现配置热更新的终极指南
  • CANN Bench UnsortedSegmentSum 算子评测
  • CANN/cann-bench稀疏注意力算子
  • cann/asc-devkit: EXTERN_IMPL_BUFPOOL宏详解
  • CANN/asc-devkit TSCM队列入队函数
  • CANN/asc-devkit InitStartBufHandle函数说明
  • CANN/asc-devkit TSCM分配张量
  • HTC6232:内置 QC 快充 + 电池均衡,2A 双节 / 三节锂电升压充电器
  • libvncserver实战:给你的嵌入式Linux设备(如树莓派)添加远程桌面控制功能
  • 选排放后处理公司看这里,2026 年 5 月推荐更新,发电机尾气氮氧化物治理/定制异形消声器,排放后处理厂家哪个好 - 品牌推荐师
  • 告别机械音!用‘小蜗语音工具1.9’制作有声小说和视频字幕的保姆级教程
  • CANN/AscendC卷积反向SetWeight接口
  • CANN/asc-devkit Tan接口临时空间大小获取
  • CANN/asc-devkit Round接口文档
  • 通过 Python 快速开始你的第一个 Taotoken 多模型调用示例
  • 2026最新亲测!3款文本转语音工具真香神器,免费无套路好用到哭!
  • 避坑指南:用YOLOv5处理VisDrone数据集时,你可能会遇到的5个问题及解决方法
  • OpCore Simplify终极指南:5分钟掌握黑苹果EFI自动化配置
  • Linux存储核心:块设备与分区表的本质区别及实践指南
  • 终极指南:3步完成黑苹果OpenCore EFI配置,告别繁琐手动设置
  • Pixelle-Video终极指南:如何用AI全自动制作专业短视频
  • STL文件预览工具:重构3D模型管理流程的轻量级自动化解决方案
  • 2026年4月储罐企业推荐,不锈钢储罐/双层油罐/装油罐/水泥罐/钢油罐/SF双层油罐/化工原料罐,储罐源头厂家哪家好 - 品牌推荐师
  • 配置 UFW 防火墙时怎么放行三网直连所需的关键端口
  • 干粉制粒机靠谱厂家怎么挑?资深行业人教你精准选型不踩坑,膨润土猫砂专用制粒机/对辊造粒机,制粒机企业口碑推荐 - 品牌推荐师
  • 探索高效逆向分析:5个专业技巧助你深入理解Unity游戏机制
  • Go语言多租户架构:隔离与资源共享
  • 从提示词到成片:2026年AI视频工作流效率革命——Top 5工具的Prompt工程兼容度、重绘响应延迟与跨平台资产复用率实测
  • [开源] 护理语音医嘱转换系统:面向移动护理终端的结构化记录工具,自动解析床号、操作、参数与通知状态