当前位置: 首页 > news >正文

CODA:将Transformer块重写为GEMM附加程序,为训练效率提升提供可行途径

【arXiv相关信息】

我们衷心感谢西蒙斯基金会、会员机构以及所有贡献者的支持。可了解arXiv成为独立非营利组织的相关情况。

【搜索与快速链接】

搜索可在所有字段,包括标题、作者等进行。还有快速链接,如登录、帮助页面、关于等内容。

【论文信息】

在计算机科学的机器学习领域,arXiv:2605.19269论文《CODA:将Transformer块重写为GEMM附加程序》,于2026年5月19日提交,最后于2026年5月20日修订。作者包括郭涵、杰克·张、阿君·梅农、德里斯·盖苏斯、维杰·萨卡尔、尹·金、特里·道。可查看该论文的PDF版本、HTML(实验版)。

【论文摘要】

Transformer训练系统围绕密集线性代数构建,但端到端训练时间中有相当一部分花在了周边的内存受限算子上。归一化等相关计算使数据移动成为训练栈的重要瓶颈。我们引入了CODA,一种GPU内核抽象,将这些计算表示为GEMM加附加程序。它基于可对Transformer算子代数重新参数化的观察,固定了GEMM主循环,并提供可组合附加原语。这种抽象保留了专家编写的GEMM的性能结构,又能表达标准Transformer块前向和反向传播中几乎所有非注意力计算。在代表性Transformer工作负载中,人类和大语言模型编写的CODA内核都实现了高性能,表明GEMM加附加程序编程为结合框架级生产力和硬件级效率提供了可行途径。

【主题与引用格式】

主题为机器学习 (cs.LG) 。引用格式有[arXiv:2605.19269] [cs.LG] ,或此版本使用 [arXiv:2605.19269v2] [cs.LG] ,以及 。

【提交历史】

来自郭涵,[v1]于2026年5月19日 星期二 02:30:43 UTC(1121 KB)提交,[v2]于2026年5月20日 星期三 17:38:24 UTC(493 KB)提交。

【全文链接】

可查看该论文的PDF版本、HTML(实验版)、TeX源代码 ,还可查看许可。

【当前浏览上下文】

当前浏览上下文为cs.LG,可进行上一篇、下一篇浏览,还有最新论文、近期论文、2026年5月论文等浏览选项,也可切换浏览方式。

【参考文献与引用】

参考文献与引用包括NASA ADS、谷歌学术、语义学者等。

【文献工具】

文献工具包括文献与引用工具,如文献浏览器、关联论文、文献地图、scite.ai等;代码、数据和媒体相关工具,如alphaXiv、代码链接、DagsHub等;演示项目工具,如Replicate、Spaces等;推荐器和搜索工具,如影响力花图链接、CORE推荐器、IArxiv推荐器等。

【关于arXivLabs】

arXivLabs是一个框架,允许合作者直接在网站上开发和共享新的arXiv功能。与arXivLabs合作的个人和组织认可并接受开放、社区、卓越和用户数据隐私价值观。若有能为arXiv社区增值的项目想法,可了解更多关于arXivLabs的信息。还可了解本文作者认可情况,禁用MathJax等。同时提供关于、帮助、联系arXiv、订阅arXiv邮件等相关信息,以及版权、隐私政策、网络无障碍协助、arXiv运行状态等内容。

http://www.zskr.cn/news/1347931.html

相关文章:

  • 从零开始跟随文档在十分钟内获得第一个Taotoken API响应
  • H5P交互式视频:构建沉浸式学习体验的技术架构解密
  • 2026年新疆出游旅行社推荐:新疆康辉大自然国际旅行社有限责任公司,包团旅行社/纯玩小团旅行社精选指南 - 品牌推荐官
  • TMSpeech:Windows本地实时语音转文字的隐私安全解决方案
  • Obsidian Full Calendar插件完整指南:如何在笔记中轻松管理个人日程
  • Windows 11终极区域语言模拟解决方案:Locale Remulator完全指南
  • 2026降AI工具怎么选?高通过率实用选购指南
  • 泉盛UV-K5/K6开源固件:5大功能解锁百元对讲机专业级体验
  • The Swift Summary Book:为什么这个Playgrounds教程比官方文档更有效
  • Windows内存救星:用Mem Reduct让老旧电脑重获新生
  • 创业团队如何借助Taotoken按需调用AI模型以控制研发成本
  • 2026雅思小班课选课标准:全科线上小班课程推荐 - 品牌2025
  • 终极GPU显存测试指南:如何用memtest_vulkan快速检测显卡稳定性问题
  • 深度伪造致宾夕法尼亚高中混乱,学校应对不力引关注
  • Betaflight 2026:开源飞控固件的完整入门指南
  • CANN/asc-devkit SIMT协作组函数
  • CANN/asc-devkit资源管理API示例
  • Win10 64 位专用 OpenClaw 小龙虾 AI 小白一键部署教程
  • 麦嘉昕商城软件开发(模式介绍)
  • 2026年资深的高速唇彩灌装机生产企业/靠谱的高速唇彩灌装机工厂/知名的高速唇彩灌装机生产厂家 - 品牌推广大师
  • 观察性研究混杂偏倚控制【9天实用统计学公益训练营Day3-1】
  • 【2024实时内容生产终极范式】:Sora 2+Unreal双引擎协同架构首曝,含USDZ双向资产管道与时间码锁定协议
  • 在达州卖了三次黄金,我最终只留了福运来的电话 - 黄金回收
  • 盘点2026年胖东来购物卡回收综合实力强的平台 - 京回收小程序
  • Qt5超级模块性能优化完全指南:10个实用技巧提升应用性能
  • 2026年巴西圣保罗国际混凝土技术及设备展 Concrete Show - 中国组团单位- 新天国际会展 - 新天国际会展
  • Real-ESRGAN x4plus_anime_6B:三步轻松实现动漫图像4K超分辨率
  • 如何用嘎嘎降AI处理机械工程论文:机械工程研究生毕业论文降AI4.8元完整操作教程
  • 2026软考|十大管理超全通俗笔记,备考闭眼记!
  • 如何用嘎嘎降AI处理化学工程论文:化学工程毕业论文降AI4.8元完整操作教程