当前位置: 首页 > news >正文

在高通 Hexagon 上运行 BitNet:自定义 1.58 位内核实践

本文最初发表于 ENERZAi 官方网站,已获授权转载。

今天,我们很高兴分享一项团队长期以来所致力于的重要里程碑。ENERZAi 已成功通过 QNN,在高通 QCS6490 Hexagon NPU 上完成了 BitNet(b1.58)2B 模型的部署!

如果上面这句话让你感觉缩写词太多,不用担心。读完这篇文章,你将清楚地理解这件事的意义所在、为何如此之难,以及我们为何认为它预示着边缘设备 AI 能力的一次重要转变。

什么是 BitNet?

在深入探讨硬件部分之前,先来统一一下对 BitNet 的理解。

BitNet 是由微软研究院推出的大语言模型架构,它从根本上重新思考了模型权重的表达方式。BitNet b1.58 将模型中的权重限定为三个可能的值:–1、0 或 +1,即所谓的三值权重(Ternary Weights)。"1.58"这一命名来源于信息论:log?(3) ≈ 1.58,这是从理论上表示三种不同状态所需的最少比特数。

这一架构具有极小的内存占用,非常适合边缘端部署。我们在此前的文章中也对自研的 1.58 位量化工作进行了深入探讨,感兴趣的读者可参考相关内容。

核心挑战:NPU 不原生支持三值运算

BitNet b1.58 是一种以三元值(–1、0、+1)表示的架构,使其异常紧凑,非常适合边缘部署。

然而,包括高通 QNN 在内的大多数 NPU SDK 仅支持标准量化格式,BitNet 的三值运算并不在其支持之列,这意味着开箱即用的情况下,NPU 上根本不存在可执行的路径。

我们的突破:自定义 1.58 位内核

ENERZAi 通过为高通 Hexagon 架构开发自定义 1.58 位内核,成功在高通 QCS6490 Hexagon NPU 上以合理的内存占用和吞吐量运行了 BitNet(b1.58)2B 模型。

这是迈向在 NPU 上运行超过 80 亿参数级别模型这一目标的早期但意义重大的概念验证,而我们认为,这一规模正是实现真正边缘智能所必须达到的。

展望未来

这一成果不仅验证了 BitNet 在 NPU 上运行的可行性,更为未来边缘设备承载更大规模大语言模型奠定了基础。随着 AI 推理逐步向终端设备迁移,对低比特、高效率架构的探索将变得愈发关键。ENERZAi 将持续深耕这一方向,推动边缘 AI 的边界不断向前延伸。

Q&A

Q1:BitNet b1.58 架构的"1.58"是什么意思?

A:BitNet b1.58 中的"1.58"来源于信息论,具体指 log?(3) ≈ 1.58,即从理论上表示三种不同状态(–1、0、+1)所需的最少比特数。BitNet b1.58 将模型权重限定为这三个三元值,极大地压缩了模型体积,使其非常适合在内存资源有限的边缘设备上部署。

Q2:高通 QNN 为什么不能直接支持 BitNet 的三值运算?

A:高通 QNN 等主流 NPU SDK 通常只支持标准量化格式(如 INT8、INT4 等),而 BitNet b1.58 使用的三值权重(–1、0、+1)并不在其原生支持范围之内。因此,开箱即用的情况下,NPU 上根本没有可直接执行 BitNet 三值运算的路径,必须通过开发自定义内核来解决这一问题。

Q3:ENERZAi 是如何解决 BitNet 在高通 Hexagon NPU 上无法运行的问题的?

A:ENERZAi 专门为高通 Hexagon 架构开发了自定义 1.58 位内核,从而绕过了 QNN 不支持三值运算的限制。通过这一方式,团队成功在高通 QCS6490 Hexagon NPU 上以合理的内存占用和吞吐量运行了 BitNet(b1.58)2B 模型,完成了一次具有重要意义的概念验证。

http://www.zskr.cn/news/1454527.html

相关文章:

  • PUBG-Logitech:5步实现基于图像识别的罗技鼠标宏自动压枪系统
  • 2026/6/1
  • SVD图生视频API踩坑记:Fooocus生成的图片如何用OpenCV无损调整到1024x576分辨率?
  • 2026聊城市黄金回收白银回收铂金回收店铺哪家好 靠谱门店全区域top推荐及联系方式 - 余生黄金回收
  • 【Hadoop 10周年】我与Hadoop不得不说的故事
  • 罐体倒罐监测 磁翻板液位计十大品牌 设备液位定点监控 - 仪表人叶工
  • LabVIEW上位机+51单片机串口联动控制四相五线步进电机(含ULN2003驱动电路与完整工程文件)
  • 成都西装定制时尚指南:2024年5家潮流店铺深度测评 - 西装爱好者
  • KDiff3终极指南:如何快速掌握免费文件比较与合并工具
  • OpenIPC固件:为海思、君正等主流IP摄像头芯片提供完整开源解决方案
  • 粮食检测报告审核进入智能时代:AI报告审核助力IACheck实现效率翻倍与质量双提升
  • 告别环境冲突!在Win11的Anaconda里为Sionna和TensorFlow/PyTorch创建独立工作区
  • 树莓派DIY复古街机:从硬件选型到RetroPie系统配置全攻略
  • [开源] 电子健康档案访问透明时间线:面向患者知情权与信息科合规管理的审计可视化系统
  • R语言可视化进阶:如何用bayesplot和ggplot2定制出版级贝叶斯分析报告?
  • PostgreSQL 中 now() 函数事务内行为异常,clock_timestamp() 成解决方案
  • 通达信缠论插件终极指南:5分钟让复杂技术分析变简单
  • 绕过小米社区5级限制:一个Python脚本+替换系统App的BL解锁思路拆解
  • Arduino DS1307 RTC与OLED时钟项目:从I2C通信到时间显示全解析
  • 基于ESP8266与GPS模块的宠物追踪器:物联网全栈开发实践
  • ZYNQ-7020软硬协同电磁超声测厚方案:含伪随机编码激励、匹配滤波压缩与微伏级回波时延提取
  • 保姆级教程:在Proxmox VE 8上用OSX-PROXMOX脚本装macOS Monterey(附VNC远程避坑指南)
  • PHP文件上传处理完整指南
  • 【官方渠道变更公示】2026年6月南京建发璞云售楼处官方热线发布. - 速递信息
  • 磁轴键盘推荐!IQUNIX EV63实测 这键盘不入后悔
  • Python-sc2实战:教你写一个会运营的神族AI(自动造农民、水晶、兵营)
  • 2026咸阳各区金银铂金回收去哪靠谱?本地正规回收门店精选榜单+联系号码 - 余生黄金回收
  • RapidOCR:从毫秒级到微秒级的实时OCR推理优化技术架构
  • 从数据到地图:手把手教你用Arcgis完成人口统计与分级设色出图(附完整配置流程)
  • 2026年贵阳代理记账公司怎么选?资深财税服务商深度横评与官方直达指南 - 精选优质企业推荐官