当前位置: 首页 > news >正文

读了 GPT-4 分词器源码才明白:为什么 tiktoken 宁可丢掉合并树,也要采用“只读字典”的扁平设计?

tiktoken 的源码里藏着一个让人困惑的事实:当你调用tiktoken.get_encoding("cl100k_base")拿到 GPT-4 的分词器时,你拿到的不是一张合并规则表,而是一个{bytes: int}的字典——每个 key 是一段字节序列,每个 value 是一个整数 rank。没有任何地方告诉你"字节序列 A 和字节序列 B 合并成了字节序列 C"。

打开 minbpe 的gpt4.py,第 29 行有一个函数叫recover_merges()——函数名本身就透着一股不寻常的味道:为什么需要"恢复"合并规则?按理说,一个训练好的 BPE 分词器应该直接存储它的合并规则表才对,就像 minbpe 自己的BasicTokenizer.save()存的那样。但 tiktoken 偏偏不这么做。它只存了合并的结果(parent token 的字节和 rank),却丢掉了合并的过程(哪两个 children 合并成了这个 parent)。

这就像一个编译器只给你.o目标文件,不给你.cpp源文件——你能从目标文件里反推出源文件吗?在一般情况下不能,但在 BPE 合并树这个特定问题上,可以。而gpt4.py的前 46 行代码,就是这个逆向工程的完整实现。

更有意思的是,这段逆向工程代码还揭露了 GPT-4 分词器的一个怪癖——它对最基础的 256 个字节 token 做了一次排列

http://www.zskr.cn/news/1408683.html

相关文章:

  • taotoken的tokenplan套餐如何帮助创业团队控制ai开发成本
  • 威纶通Weinview HMI定时器实战:从踩坑到自定义的进阶指南
  • DeepSeek总结的使用实体-组件-系统和基于存在性处理进行Python编程7-8
  • 别再手动写Swagger注释了!用ChatGPT自动生成OpenAPI 3.1文档的6步精准工程法(含安全脱敏模块)
  • 如何用NBTExplorer轻松编辑Minecraft游戏数据?3分钟上手终极指南
  • 主动RIS如何突破无蜂窝MIMO性能瓶颈:对抗信道老化与导频污染
  • 从理论到实践:深入解析AUC的评估艺术与陷阱
  • 通过 curl 命令快速测试 Taotoken 提供的各种大模型响应效果
  • 别再乱存了!手把手教你用STM32F103内部Flash当EEPROM用(附完整代码)
  • 暗黑破坏神2存档编辑器d2s-editor深度探索:从游戏数据到Web界面的魔法转换
  • 从单体AI代理到协调者模式:架构演进提升任务完成率与可维护性
  • Arduino ESP32开发终极指南:三步完成物联网项目快速上手
  • PipeWire 1.6.6 发布:修复多项错误,放宽 LADSPA 路径加载限制
  • 2026年移动岗亭、移动警务岗亭、移动保安岗亭及户外集成房屋、野奢太空舱、充电桩厂家推荐榜单:最新精品与智慧工地系统优选 - 品牌企业推荐师(官方)
  • 项目介绍 MATLAB实现基于LSTM-DRL-CNN 长短期记忆网络(LSTM)结合深度强化学习(DRL)与卷积神经网络(CNN)进行无人机三维路径规划(含模型描述及部分示例代码)专栏近期有大量优惠
  • Qt ItemDataRole深度解析:从核心角色到界面定制
  • 2026年 宝钢冷轧双相钢推荐榜:HC600/980QP-EL高强钢,汽车轻量化与冲压性能深度解析 - 品牌企业推荐师(官方)
  • 2025-2026年久韵红家具电话查询:选购实木家具前请核实产品材质与合同细节 - 品牌推荐
  • 深入Unity动画底层:拆解Playable Graph与ScriptPlayable,实现自定义动画逻辑
  • 我把向量引擎API中转站用了几轮后,终于明白普通人该怎么选AI工具了
  • 从普刊到 SCI 全覆盖:okbiye 期刊论文 AI 写作功能实测与全流程解析
  • 跨平台异构计算的实战之路
  • 随机过程(1.3)—— 特征函数:从傅里叶变换到概率分布的桥梁
  • 终极键盘映射优化指南:Hitboxer SOCD Cleaner让你的游戏操作更精准
  • 体验旗舰模型Qwen三点七通过聚合平台首发更新的便捷性
  • 哪家发动机缸盖工厂专业?2026年5月推荐TOP5对比铸造工艺案例与价格 - 品牌推荐
  • 小米MiMo-V2.5全系暴跌99%!AI大模型价格战进入白热化,开发者狂欢时代来了
  • 【兼容性测试】借助大模型快速生成不同浏览器/操作系统组合的测试矩阵表
  • 代码评审辅助:在 Code Review 阶段用大模型自动拦截空指针与越界异常
  • Windows窗口尺寸困境的终极解决方案:3个技巧让你完全掌控任意应用窗口