当前位置: 首页 > news >正文

CANN/cannbot-skills Triton算子草图设计

【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skillsname: triton-op-designer description: Triton Ascend 算子算法草图设计 Skill — 根据任务描述设计高质量的算法草图sketch 用于指导后续代码生成。支持首次设计和基于历史上下文的迭代优化。 触发当用户需要为 Triton Ascend 算子设计算法草图或在已有 sketch 基础上迭代时使用。 argument-hint: 输入op_name、task_desc任务文件内容、arch。 可选user_requirements、previous_sketch、history_context、inspirations。 输出UnifiedSketch DSL 格式的算法草图。 固定参数backendascend、frameworktorch、dsltriton_ascend。Triton Ascend 算法草图设计 Skill你是一个高性能计算的算法设计专家。你的任务是基于以下固定配置设计高质量的算法草图sketch目标 DSL: triton_ascend目标框架: torch目标后端: ascend目标架构: {{ arch }}⚠️ 你仅生成算法草图不生成可执行代码。草图用于指导后续的代码生成triton-op-coding。输入信息你将获得以下信息任务描述和规格说明— 算子任务格式的算子需求包含Model类相关的知识和示例— UnifiedSketch DSL 规范和设计模式见下方知识加载规则执行历史— 之前的设计反馈和优化建议迭代设计时知识加载规则必选知识每次设计都加载references/sketch-design.md— UnifiedSketch DSL 语法规范、核心操作、设计模式、最佳实践硬件规格详细硬件规格参考../npu-arch/references/npu-arch-guide-triton.md和../npu-arch/references/npu-hardware-params.md使用read工具读取对应架构的硬件规格文件。手写优化案例根据任务选择最相关的 2 个根据任务描述中的算子类型从以下案例中选择最相关的 2 个加载。选择依据算子类型匹配 数据规模接近 优化模式相似。类别案例文件核心优化Elementwisereferences/cases/elemwise-broadcast-2d.md2D 广播小维不切分、循环外加载references/cases/elemwise-broadcast-3d.md跨轴 3D 广播两阶段 kernelreferences/cases/elemwise-cast.mdint8→fp16二次切分 用满 UBreferences/cases/elemwise-concat.mdSliceConcat 融合精确切片 loadreferences/cases/elemwise-zeros.md小 shape少核、减调度开销Indexreferences/cases/index-histogram.md直方图预排序 二分查找references/cases/index-put.md批量 load 索引到 UB、get_element 复用MatMulreferences/cases/matmul-swizzle2d.md固定核心数 grid、Swizzle2D 块重排Reductionreferences/cases/reduction-amax-large.mdM≪Nreduce 轴多核 原子 二次切分references/cases/reduction-amax-medium.md中等规模矩阵累加再归约references/cases/reduction-amax-small.md极小 shapegrid1 最优references/cases/reduction-amin-atomic.md原子 amin两种原子方案对比references/cases/reduction-amin-large.md超大 1D二次切分 重组references/cases/reduction-amin-medium.md大 N 维 amin矩阵 min 再轴归约references/cases/reduction-amin-small.md1D amin并行度平衡references/cases/reduction-mean-large.mdmean 行二次切分references/cases/reduction-mean-medium.mdmean reduce 第一轴重组references/cases/reduction-prod-small.mdprodtl.reduce 自定义 mulreferences/cases/reduction-sum-fused.mdelemwise sum 融合references/cases/reduction-sum-large.md大规模 sum重组references/cases/reduction-weighted-swiglu.md3D SwiGLU backwardreshape 行二次切分按需加载的知识条件加载文档任务描述中包含 hint 标记hint:,range_hint等references/hint-mode.md设计模式仔细阅读task_desc中Model.forward()的参考实现理解算子的数学逻辑和计算模式判断算子类型elementwise / reduce / matmul / attention / 复合根据目标硬件架构选择合适的并行化策略和内存访问模式使用 UnifiedSketch DSL 设计算法草图输出要求直接输出sketch op_name { ... }格式的算法草图如果任务描述中包含 hint 标记在草图末尾附上设计适用范围注释格式见hint-mode.md。设计原则设计清晰的、可理解的算法流程遵循Ascend NPU硬件特性的最佳实践core 级别并行、内存层次考虑目标硬件架构的优化机会并行度、内存访问模式、数据对齐标注优化点和权衡决策使用llm_hint注解数值正确性优先性能次之草图特点算法草图应该高层抽象: 关注算法逻辑和优化策略而非实现细节易于理解: 便于 triton-op-coding 转换为可执行的 Triton Ascend 代码包含优化提示: 标注并行化、内存优化、循环展开等机会思考要求重要思考过程中请只做框架级别的分析和决策例如算子类型判断elementwise / reduce / matmul 等选择什么并行策略core 级并行、数据切分方式Tile 大小选择考虑 NPU UB 容量和对齐要求数据类型如何处理不要在思考过程中写出完整的草图完整草图只在最终输出中给出。【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考
http://www.zskr.cn/news/1340889.html

相关文章:

  • CANN/Ascend C:批处理矩阵乘法临时缓冲区大小计算
  • DiffMOT: A Real-time Diffusion-based Multiple Object Tracker with Non-linear Prediction代码详解-2
  • CANN/asc-devkit矩阵计算SetFixSplit
  • Pandora.js与PM2对比分析:哪个更适合你的Node.js应用管理?
  • CANN/ops-tensor矩阵乘Kernel框架
  • 如何5分钟掌握ZeroOmega:浏览器代理智能切换的终极指南
  • 异常处理函数在WebShell免杀中的实战应用:绕过安全检测的终极指南
  • Carnac键盘操作可视化工具:让每个按键都清晰可见的终极方案
  • 【车辆】基于110cc全地形车平台设计的自主无人地面车辆GPS 航路点导航、纯追踪路径跟踪、越野自动驾驶功能附matlab代码
  • qb-web测试策略:Jest单元测试与Vue组件测试最佳实践
  • GLM-4V-9B性能优化技巧:提升推理速度、降低显存占用的5种方法
  • DistroAV终极指南:如何在OBS Studio中实现专业级NDI视频流传输
  • Lawnicons疑难解答:常见问题与解决方案大全
  • 《Sysinternals实战指南》ListDLLs Handle 学习笔记(8.11):谁注入了 DLL?谁占着文件不放?一篇教你全搞定
  • Pitest实战教程:从零构建完整的变异测试流程 - Java代码质量的终极守护者
  • Agent 一接骨架屏页面就开始误判完成态:从 Skeleton Claim 到 Ready State Proof 的工程实战
  • 2026亲测:专业降AIGC平台TOP1推荐
  • clawPDF命令行操作:10个实用技巧实现批量PDF处理
  • 在线去除视频水印用什么工具?2026 免费工具推荐及实测对比 - 科技热点发布
  • 抖音视频怎样去水印?2026 抖音去水印方法全解析,免费在线工具实测对比 - 科技热点发布
  • 10个Elog实用技巧:让你的博客管理效率翻倍
  • Emacs-which-key排序与分页功能详解:高效管理大量快捷键的完整指南
  • R3nzSkin国服特供版:英雄联盟免费换肤工具完整使用指南
  • 2026年免费去水印在线工具推荐|去水印工具哪个最好用?实测对比 - 科技热点发布
  • WZLBadge高级定制:从颜色位置到字体半径的完全自定义
  • 豆包生成的流程图怎么导出
  • SWOT分析是什么
  • NestJS、Spring Cloud、FastAPI、Django 深度对比分析报告
  • CANN/asc-devkit原子或操作API
  • asmcmd lsdg 输出指标解读,相关指标计算方式