当前位置：首页 > news >正文

【系统学AI】02 token机制全解：LLM如何‘读懂‘人类语言

news 2026/5/24 15:40:41

一句话总结Token LLM处理文本的最小单位。一段文字先被切分成Token序列再映射成整数ID最后转为向量送入模型。分词算法决定了怎么切上下文窗口决定了能吃多少。1. 为什么需要TokenLLM的输入是数值张量不能直接吃字符串。中间需要两步转换你好世界 → [你, 好, 世, 界] → [1234, 5678, 9012, 3456] 文本 Token序列 Token ID序列Token是文本和数值之间的桥梁。分词算法决定怎么切词表决定每个Token对应什么数字。2. 三大分词算法2.1 BPE (Byte Pair Encoding)核心思想从字符级别开始不断合并最高频的字符对直到达到目标词表大小。步骤初始化每个字符是一个Token统计所有相邻字符对的频率合并频率最高的字符对为新Token重复2-3直到词表大小达到预设值示例初始词表: l, o, w, e, r, n, s, t, i, d 语料: low lower lowest new newest 第1轮: 合并 lo → lo (出现2次) 第2轮: 合并 low → low (出现2次) 第3轮: 合并 er → er (出现2次) ...谁在用GPT-2、GPT-3、GPT-4用tiktoken库、Claude2.2 WordPiece核心思想类似BPE但选择合并对的标准不是频率而是似然增益合并后对语言模型概率的提升。语言模型概率增加最多到底是什么意思假设当前词表把play和##ing##表示非词首片段分成两个Token合并后变成playing一个Token。合并前后语言模型对同一份语料的预测概率会变化合并前P(语料) P(play) × P(##ing) × ... 两个Token各自独立出现合并后P(语料) P(playing) × ... 一个Token整体出现似然增益 log P(playing) - [log P(play) log P(##ing)]如果playing作为一个整体出现频率很高合并后语言模型就能用更少的Token表示同样的文本概率值更高。WordPiece选的就是让这个增益最大的那个pair。直观对比BPE看统计频次 → “哪对出现最多就合并谁”只看数量WordPiece看概率提升 → “合并哪对能让模型更好地预测文本”看对模型有没有用举个例子假设语料中th出现100次in也出现100次但qu只出现50次。BPE会优先合并th或in。但如果合并qu后模型对文本的预测概率提升更大因为q后面几乎总是u合并消除了不确定性WordPiece反而会选qu。谁在用BERTBidirectional Encoder Representations from TransformersGoogle 2018年发布的预训练语言模型双向编码器架构是NLP领域的里程碑。它通过完形填空式预训练随机遮盖15%的Token让模型预测学会了深度理解上下文语义。BERT开创了预训练微调范式之后几乎所有NLP模型都走这条路。DistilBERTBERT的蒸馏版Distillation 知识蒸馏。把大模型的知识压缩进小模型——保留97%的BERT性能参数量减半、速度快60%。简单说就是BERT的轻量平替适合资源有限或对延迟敏感的场景。2.3 Unigram核心思想从大词表开始逐步删除对整体损失影响最小的Token直到达到目标词表大小。与BPE相反的方向BPE从小到大不断合并Unigram从大到小不断裁剪最小损失影响到底是什么意思Unigram给每个Token算一个重要性分数——如果删掉这个Token语言模型对语料的预测概率会下降多少。下降越多说明这个Token越重要应该保留。假设当前词表有 V 个Token语料的对数似然为 L 删除 Token X 后重新计算语料的对数似然 L 损失增量 Δ L - L Δ 越小 → Token X 越不重要 → 优先删除 Δ 越大 → Token X 越不可替代 → 保留直观举例假设词表里有the和zxq。删掉the后大量英文句子无法正确编码损失暴增删掉zxq后几乎没影响。Unigram就会删zxq。Unigram的独特优势一个文本多种切法BPE和WordPiece对同一段文本只有一种切法Unigram不同——它保留每个Token的概率分布一段文本可以有多种分词方式按概率加权选择undoing 可能的切法 un do ing (概率 0.6) un do i ng (概率 0.3) u n doing (概率 0.1)这种多候选特性让Unigram在处理歧义文本时更灵活。谁在用T5Text-to-Text Transfer TransformerGoogle 2019年提出的统一框架把所有NLP任务都转成文本→文本格式翻译是en→de分类是text→label摘要是长文→短文。这种统一让一个模型一个训练流程搞定所有任务。ALBERTBERT的轻量版通过参数共享所有层共用同一套参数和词表分解把大词表拆成小矩阵映射大幅缩减参数量ALBERT-xxlarge参数只有BERT-large的1/18但性能更优。SentencePieceGoogle开源的分词工具库Unigram是它的默认模式也支持BPE。不依赖预分词直接从原始文本训练词表对中文/日文等无空格语言特别友好。2.4 三种算法对比特性BPEWordPieceUnigram方向自底向上合并自底向上合并自顶向下裁剪选择标准最高频率最大似然增益最小损失影响多候选否否是保留概率分布典型模型GPT系列BERT系列T5系列实现库tiktokentokenizerSentencePiece3. Token ID与词表每个Token对应词表中的一个整数索引Token IDimporttiktoken enctiktoken.encoding_for_model(gpt-4)tokensenc.encode(Hello, world!)print(tokens)# [9906, 11, 1917, 0]# 解码回来textenc.decode(tokens)print(text)# Hello, world!词表大小模型词表大小分词算法GPT-250,257BPEGPT-4100,256BPE (cl100k_base)BERT30,000WordPieceLLaMA 232,000SentencePiece (BPE)LLaMA 3128,256BPE词表越大每个Token承载的信息越多同样文本需要的Token数越少。这也是LLaMA 3把词表从32K扩到128K的原因——提升多语言编码效率。4. 特殊Token模型除了正常文本Token还定义了一些特殊TokenToken作用使用模型[CLS]分类任务的特殊标记BERT[SEP]分隔句子BERT[MASK]掩码语言模型预训练BERT[PAD]填充短序列通用|endoftext|文本结束标记GPT系列|im_start|消息开始GPT-4|im_end|消息结束GPT-4s//s序列起止LLaMA这些Token在词表中有固定ID不对应任何真实文本。5. 上下文窗口上下文窗口模型一次能处理的最大Token数。2026年的趋势是1M上下文成为旗舰标配模型上下文窗口发布时间GPT-48K / 32K2023Claude 3200K2024GPT-5.51M2026Claude Opus 4.71M2026DeepSeek V4 Pro1M2026GLM-5.1202K2026Kimi K2.6256K2026MiniMax M2.7196K2026为什么不能无限长Self-Attention的计算复杂度是O(n²)序列长度翻倍计算量翻四倍。但2026年的新模型通过稀疏注意力、KV Cache压缩等技术已经把1M上下文做到了生产可用——DeepSeek V4的KV Cache仅为V3.2的10%。实际影响1K Token ≈ 750个英文单词 ≈ 500个中文字一篇CSDN文章约2K-5K Token一本小说约100K-300K Token1M上下文可以一次性塞入整本《三体》提问6. 中英文Token效率差异中文的Token效率比英文低因为中文词表覆盖不足importtiktoken enctiktoken.encoding_for_model(gpt-4)# 英文en_tokensenc.encode(Hello, how are you today?)print(f英文:{len(en_tokens)}tokens)# 6 tokens# 中文zh_tokensenc.encode(你好你今天怎么样)print(f中文:{len(zh_tokens)}tokens)# 10-15 tokens原因GPT的BPE词表以英文语料训练中文常被切成单字甚至UTF-8字节导致同样信息量下中文消耗更多Token。直接影响中文API调用比英文贵1.5-2倍按Token计费。7. Token计费2026年主流模型全部按Token计费输入输出分开定价价格差异可达107倍。以下是2026年5月最新定价模型输入价格输出价格缓存价格上下文GPT-5.5$5.00$30.00$0.501MClaude Opus 4.7$5.00$25.00$0.501MGLM-5.1$1.40$4.40$0.26202KKimi K2.6$0.95$4.00$0.16256KDeepSeek V4-Pro$1.74 ($0.435折扣)$3.48 ($0.87折扣)—1MDeepSeek V4-Flash$0.14$0.28—1MMiniMax M2.7$0.30$1.20$0.06196K价格分层很明显旗舰推理模型GPT-5.5 / Claude Opus 4.7贵一个数量级但长上下文和复杂推理能一次做对轻量模型DeepSeek V4-Flash / MiniMax M2.7便宜到离谱适合高并发和简单任务。DeepSeek V4-Pro折扣期截至2026-05-31性价比碾压全场。省钱技巧用tiktoken预估Token消耗再调API别盲调简单任务用DeepSeek V4-Flash或MiniMax M2.7复杂推理才上GPT-5.5长上下文重复前缀的场景启用Prompt Caching可省80-90%国内业务优先用DeepSeek或GLM成本仅为OpenAI的1/10# 预估Token消耗2026年5月定价importtiktoken PRICING{gpt-5.5:{input:5.00,output:30.00,cache:0.50},claude-opus-4.7:{input:5.00,output:25.00,cache:0.50},glm-5.1:{input:1.40,output:4.40,cache:0.26},kimi-k2.6:{input:0.95,output:4.00,cache:0.16},ds-v4-pro:{input:1.74,output:3.48,cache:None},ds-v4-flash:{input:0.14,output:0.28,cache:None},minimax-m2.7:{input:0.30,output:1.20,cache:0.06},}defestimate_cost(text,modelds-v4-pro,output_ratio2.0,use_cacheFalse):估算API调用成本 text: 输入文本 model: 模型名 output_ratio: 输出长度相对输入的倍数 use_cache: 是否启用prompt caching enctiktoken.encoding_for_model(gpt-4)# 大部分模型沿用cl100k_basen_inputlen(enc.encode(text))n_outputint(n_input*output_ratio)pPRICING[model]input_pricep[cache]ifuse_cacheandp[cache]elsep[input]cost(n_input*input_pricen_output*p[output])/1_000_000returncost,n_input,n_output# 示例估算一篇5000字中文博客的摘要成本text一篇约5000字的中文技术博客内容...formodelin[ds-v4-flash,kimi-k2.6,gpt-5.5]:cost,n_in,n_outestimate_cost(text,model,output_ratio0.3)print(f{model:15s}: ${cost:.4f}(输入{n_in}/ 输出{n_out}tokens))# 输出示例# ds-v4-flash : $0.0005 (输入3750 / 输出1125 tokens)# kimi-k2.6 : $0.0081 (输入3750 / 输出1125 tokens)# gpt-5.5 : $0.0525 (输入3750 / 输出1125 tokens)8. 面试高频问题Q1BPE和WordPiece的核心区别BPE选最高频pair合并WordPiece选最大似然增益的pair合并。WordPiece更聪明——它不只看频率还看合并后对模型概率的贡献。Q2为什么中文比英文费TokenGPT的BPE词表以英文语料训练中文高频字/词在词表中的覆盖率低经常被切成单字甚至字节。LLaMA 3把词表扩到128K后中文效率大幅提升。Q3上下文窗口能训练后扩展吗可以但有上限。RoPE位置编码支持通过插值扩展如CodeLlama从16K→100K。但训练数据中长文本比例低时长上下文效果会退化。Q4Token和Character的区别Character是字符“hello”5个字符Token是分词后的单位“hello”1个Token。英文约4个字符1个Token中文约1-2个字符1个Token。总结概念关键点分词算法BPE(合并) / WordPiece(似然) / Unigram(裁剪)Token ID词表中的整数索引模型实际输入特殊Token[CLS]/[SEP]/[MASK]等任务标记上下文窗口模型一次能处理的最大Token数中英差异中文费1.5-2x Token直接影响成本计费按Token计费先预估再调用搞懂Token你就理解了LLM的输入边界——什么能进、进多少、花多少钱。路易乔布斯 © 2026 | AI Agent RAG学习计划 · 模块03-LLM基础 · 第二篇

查看全文

http://www.zskr.cn/news/1369540.html