当前位置: 首页 > news >正文

【系统学AI】02 token机制全解:LLM如何‘读懂‘人类语言

一句话总结Token LLM处理文本的最小单位。一段文字先被切分成Token序列再映射成整数ID最后转为向量送入模型。分词算法决定了怎么切上下文窗口决定了能吃多少。1. 为什么需要TokenLLM的输入是数值张量不能直接吃字符串。中间需要两步转换你好世界 → [你, 好, 世, 界] → [1234, 5678, 9012, 3456] 文本 Token序列 Token ID序列Token是文本和数值之间的桥梁。分词算法决定怎么切词表决定每个Token对应什么数字。2. 三大分词算法2.1 BPE (Byte Pair Encoding)核心思想从字符级别开始不断合并最高频的字符对直到达到目标词表大小。步骤初始化每个字符是一个Token统计所有相邻字符对的频率合并频率最高的字符对为新Token重复2-3直到词表大小达到预设值示例初始词表: l, o, w, e, r, n, s, t, i, d 语料: low lower lowest new newest 第1轮: 合并 lo → lo (出现2次) 第2轮: 合并 low → low (出现2次) 第3轮: 合并 er → er (出现2次) ...谁在用GPT-2、GPT-3、GPT-4用tiktoken库、Claude2.2 WordPiece核心思想类似BPE但选择合并对的标准不是频率而是似然增益合并后对语言模型概率的提升。语言模型概率增加最多到底是什么意思假设当前词表把play和##ing##表示非词首片段分成两个Token合并后变成playing一个Token。合并前后语言模型对同一份语料的预测概率会变化合并前P(语料) P(play) × P(##ing) × ... 两个Token各自独立出现 合并后P(语料) P(playing) × ... 一个Token整体出现 似然增益 log P(playing) - [log P(play) log P(##ing)]如果playing作为一个整体出现频率很高合并后语言模型就能用更少的Token表示同样的文本概率值更高。WordPiece选的就是让这个增益最大的那个pair。直观对比BPE看统计频次 → “哪对出现最多就合并谁”只看数量WordPiece看概率提升 → “合并哪对能让模型更好地预测文本”看对模型有没有用 举个例子假设语料中th出现100次in也出现100次但qu只出现50次。BPE会优先合并th或in。但如果合并qu后模型对文本的预测概率提升更大因为q后面几乎总是u合并消除了不确定性WordPiece反而会选qu。谁在用BERTBidirectional Encoder Representations from TransformersGoogle 2018年发布的预训练语言模型双向编码器架构是NLP领域的里程碑。它通过完形填空式预训练随机遮盖15%的Token让模型预测学会了深度理解上下文语义。BERT开创了预训练微调范式之后几乎所有NLP模型都走这条路。DistilBERTBERT的蒸馏版Distillation 知识蒸馏。把大模型的知识压缩进小模型——保留97%的BERT性能参数量减半、速度快60%。简单说就是BERT的轻量平替适合资源有限或对延迟敏感的场景。2.3 Unigram核心思想从大词表开始逐步删除对整体损失影响最小的Token直到达到目标词表大小。与BPE相反的方向BPE从小到大不断合并Unigram从大到小不断裁剪最小损失影响到底是什么意思Unigram给每个Token算一个重要性分数——如果删掉这个Token语言模型对语料的预测概率会下降多少。下降越多说明这个Token越重要应该保留。假设当前词表有 V 个Token语料的对数似然为 L 删除 Token X 后重新计算语料的对数似然 L 损失增量 Δ L - L Δ 越小 → Token X 越不重要 → 优先删除 Δ 越大 → Token X 越不可替代 → 保留直观举例假设词表里有the和zxq。删掉the后大量英文句子无法正确编码损失暴增删掉zxq后几乎没影响。Unigram就会删zxq。Unigram的独特优势一个文本多种切法BPE和WordPiece对同一段文本只有一种切法Unigram不同——它保留每个Token的概率分布一段文本可以有多种分词方式按概率加权选择undoing 可能的切法 un do ing (概率 0.6) un do i ng (概率 0.3) u n doing (概率 0.1)这种多候选特性让Unigram在处理歧义文本时更灵活。谁在用T5Text-to-Text Transfer TransformerGoogle 2019年提出的统一框架把所有NLP任务都转成文本→文本格式翻译是en→de分类是text→label摘要是长文→短文。这种统一让一个模型一个训练流程搞定所有任务。ALBERTBERT的轻量版通过参数共享所有层共用同一套参数和词表分解把大词表拆成小矩阵映射大幅缩减参数量ALBERT-xxlarge参数只有BERT-large的1/18但性能更优。SentencePieceGoogle开源的分词工具库Unigram是它的默认模式也支持BPE。不依赖预分词直接从原始文本训练词表对中文/日文等无空格语言特别友好。2.4 三种算法对比特性BPEWordPieceUnigram方向自底向上合并自底向上合并自顶向下裁剪选择标准最高频率最大似然增益最小损失影响多候选否否是保留概率分布典型模型GPT系列BERT系列T5系列实现库tiktokentokenizerSentencePiece3. Token ID与词表每个Token对应词表中的一个整数索引Token IDimporttiktoken enctiktoken.encoding_for_model(gpt-4)tokensenc.encode(Hello, world!)print(tokens)# [9906, 11, 1917, 0]# 解码回来textenc.decode(tokens)print(text)# Hello, world!词表大小模型词表大小分词算法GPT-250,257BPEGPT-4100,256BPE (cl100k_base)BERT30,000WordPieceLLaMA 232,000SentencePiece (BPE)LLaMA 3128,256BPE词表越大每个Token承载的信息越多同样文本需要的Token数越少。这也是LLaMA 3把词表从32K扩到128K的原因——提升多语言编码效率。4. 特殊Token模型除了正常文本Token还定义了一些特殊TokenToken作用使用模型[CLS]分类任务的特殊标记BERT[SEP]分隔句子BERT[MASK]掩码语言模型预训练BERT[PAD]填充短序列通用|endoftext|文本结束标记GPT系列|im_start|消息开始GPT-4|im_end|消息结束GPT-4s//s序列起止LLaMA这些Token在词表中有固定ID不对应任何真实文本。5. 上下文窗口上下文窗口 模型一次能处理的最大Token数。2026年的趋势是1M上下文成为旗舰标配模型上下文窗口发布时间GPT-48K / 32K2023Claude 3200K2024GPT-5.51M2026Claude Opus 4.71M2026DeepSeek V4 Pro1M2026GLM-5.1202K2026Kimi K2.6256K2026MiniMax M2.7196K2026为什么不能无限长Self-Attention的计算复杂度是O(n²)序列长度翻倍计算量翻四倍。但2026年的新模型通过稀疏注意力、KV Cache压缩等技术已经把1M上下文做到了生产可用——DeepSeek V4的KV Cache仅为V3.2的10%。实际影响1K Token ≈ 750个英文单词 ≈ 500个中文字一篇CSDN文章约2K-5K Token一本小说约100K-300K Token1M上下文 可以一次性塞入整本《三体》 提问6. 中英文Token效率差异中文的Token效率比英文低因为中文词表覆盖不足importtiktoken enctiktoken.encoding_for_model(gpt-4)# 英文en_tokensenc.encode(Hello, how are you today?)print(f英文:{len(en_tokens)}tokens)# 6 tokens# 中文zh_tokensenc.encode(你好你今天怎么样)print(f中文:{len(zh_tokens)}tokens)# 10-15 tokens原因GPT的BPE词表以英文语料训练中文常被切成单字甚至UTF-8字节导致同样信息量下中文消耗更多Token。直接影响中文API调用比英文贵1.5-2倍按Token计费。7. Token计费2026年主流模型全部按Token计费输入输出分开定价价格差异可达107倍。以下是2026年5月最新定价模型输入价格输出价格缓存价格上下文GPT-5.5$5.00$30.00$0.501MClaude Opus 4.7$5.00$25.00$0.501MGLM-5.1$1.40$4.40$0.26202KKimi K2.6$0.95$4.00$0.16256KDeepSeek V4-Pro$1.74 ($0.435折扣)$3.48 ($0.87折扣)—1MDeepSeek V4-Flash$0.14$0.28—1MMiniMax M2.7$0.30$1.20$0.06196K价格分层很明显旗舰推理模型GPT-5.5 / Claude Opus 4.7贵一个数量级但长上下文和复杂推理能一次做对轻量模型DeepSeek V4-Flash / MiniMax M2.7便宜到离谱适合高并发和简单任务。DeepSeek V4-Pro折扣期截至2026-05-31性价比碾压全场。省钱技巧用tiktoken预估Token消耗再调API别盲调简单任务用DeepSeek V4-Flash或MiniMax M2.7复杂推理才上GPT-5.5长上下文重复前缀的场景启用Prompt Caching可省80-90%国内业务优先用DeepSeek或GLM成本仅为OpenAI的1/10# 预估Token消耗2026年5月定价importtiktoken PRICING{gpt-5.5:{input:5.00,output:30.00,cache:0.50},claude-opus-4.7:{input:5.00,output:25.00,cache:0.50},glm-5.1:{input:1.40,output:4.40,cache:0.26},kimi-k2.6:{input:0.95,output:4.00,cache:0.16},ds-v4-pro:{input:1.74,output:3.48,cache:None},ds-v4-flash:{input:0.14,output:0.28,cache:None},minimax-m2.7:{input:0.30,output:1.20,cache:0.06},}defestimate_cost(text,modelds-v4-pro,output_ratio2.0,use_cacheFalse):估算API调用成本 text: 输入文本 model: 模型名 output_ratio: 输出长度相对输入的倍数 use_cache: 是否启用prompt caching enctiktoken.encoding_for_model(gpt-4)# 大部分模型沿用cl100k_basen_inputlen(enc.encode(text))n_outputint(n_input*output_ratio)pPRICING[model]input_pricep[cache]ifuse_cacheandp[cache]elsep[input]cost(n_input*input_pricen_output*p[output])/1_000_000returncost,n_input,n_output# 示例估算一篇5000字中文博客的摘要成本text一篇约5000字的中文技术博客内容...formodelin[ds-v4-flash,kimi-k2.6,gpt-5.5]:cost,n_in,n_outestimate_cost(text,model,output_ratio0.3)print(f{model:15s}: ${cost:.4f}(输入{n_in}/ 输出{n_out}tokens))# 输出示例# ds-v4-flash : $0.0005 (输入3750 / 输出1125 tokens)# kimi-k2.6 : $0.0081 (输入3750 / 输出1125 tokens)# gpt-5.5 : $0.0525 (输入3750 / 输出1125 tokens)8. 面试高频问题Q1BPE和WordPiece的核心区别BPE选最高频pair合并WordPiece选最大似然增益的pair合并。WordPiece更聪明——它不只看频率还看合并后对模型概率的贡献。Q2为什么中文比英文费TokenGPT的BPE词表以英文语料训练中文高频字/词在词表中的覆盖率低经常被切成单字甚至字节。LLaMA 3把词表扩到128K后中文效率大幅提升。Q3上下文窗口能训练后扩展吗可以但有上限。RoPE位置编码支持通过插值扩展如CodeLlama从16K→100K。但训练数据中长文本比例低时长上下文效果会退化。Q4Token和Character的区别Character是字符“hello”5个字符Token是分词后的单位“hello”1个Token。英文约4个字符1个Token中文约1-2个字符1个Token。总结概念关键点分词算法BPE(合并) / WordPiece(似然) / Unigram(裁剪)Token ID词表中的整数索引模型实际输入特殊Token[CLS]/[SEP]/[MASK]等任务标记上下文窗口模型一次能处理的最大Token数中英差异中文费1.5-2x Token直接影响成本计费按Token计费先预估再调用搞懂Token你就理解了LLM的输入边界——什么能进、进多少、花多少钱。路易乔布斯 © 2026 | AI Agent RAG学习计划 · 模块03-LLM基础 · 第二篇
http://www.zskr.cn/news/1369540.html

相关文章:

  • 上门回收行业获客越来越难?放弃盲目扫楼,GEO优化靠AI搜索大模型流量营销推广精准接单 - 一点学习库
  • 数据丢失时的数字救援队:TestDisk与PhotoRec的救赎之路
  • 3分钟快速上手:Unlock Music音乐解锁工具终极指南
  • qmc-decoder终极指南:3分钟解锁QQ音乐加密音频的完整解决方案
  • 京东自动化脚本终极指南:3步搭建免费京豆自动获取系统
  • 通过TaotokenCLI工具一键配置多开发环境下的API访问密钥
  • Taotoken平台API Key申请与用量看板查看教程
  • 成都成华区装修公司哪家靠谱?按模式选对才省心 - 成都人评鉴
  • Windows生态融合新路径:APK-Installer让安卓应用无缝接入桌面环境
  • 【仅限首批内测团队公开】DeepSeek v3.2.1对话引擎隐藏参数调优指南:3个未文档化flag让多轮F1值飙升23.6%
  • 5分钟免费解锁英雄联盟全皮肤:R3nzSkin国服特供版终极指南
  • 限时可用!Gemini免费额度“灰度扩容通道”实测成功(仅开放给GCP新认证开发者):3个注册即享+2个邀请加赠技巧,手慢无
  • 免费开源数据恢复终极指南:TestDisk与PhotoRec拯救你的宝贵数据
  • Claude Code用户如何通过Taotoken稳定使用并获得更多Token
  • 海南省儋州CPPMSCMP官网报考入口,官方授权双证报考中心 - 众智商学院课程中心
  • 免费AI视频放大神器:Video2X让你的老旧视频重获新生
  • 别再用关键词过滤了!用Python和朴素贝叶斯,手把手教你打造一个98%准确率的垃圾邮件拦截器
  • PbootCMS模板引擎RCE漏洞深度验证与边界穿透实战
  • 仅限前500名开发者获取:ChatGPT+Tableau自动化连接器私有部署包(含OAuth2.0审计日志模块)
  • 2026 济南高端手表回收专业测评:添价收鉴定水准尽显专业功底 - 薛定谔的梨花猫
  • 火爆分享如何用Taotoken一分钟接入OpenAI兼容API并开始调用
  • 2026 中国 GEO 服务商榜单发布!智推时代等头部企业实力解析 - 资讯纵览
  • 中兴光猫工厂模式终极解锁指南:zteOnu工具5分钟快速上手
  • 机器学习与重要性采样融合:高效估计黑盒模型尾部风险
  • Windows Defender移除工具:从核心引擎到用户界面的完整解决方案
  • 对比直接使用官方接口体验Taotoken在模型调用失败时的自动容灾效果
  • 高效过滤器不同场景选型方案 - 资讯纵览
  • 深度学习在睡眠分期技术中的应用与优化
  • 梯度投影法与微分编程在物理系统优化中的应用
  • nodejs服务端如何异步调用taotoken提供的多模型接口