Token 是大语言模型(LLM)处理文本的基本单位,也是连接自然语言与数学计算的桥梁。理解 Token 的本质,是理解大模型工作原理、成本结构和性能优化的起点。
一、Token 的定义与核心原理
1.1 什么是 Token
Token 是 LLM 处理文本时的最小语义单元。它不一定是完整的单词,可以是单词的一部分(子词)、标点符号或特殊符号。例如,“intelligently”可能被分词器拆分为“intelligent”和“ly”两个 Token。一个中文句子如“今天天气真好”会被拆分为多个 Token。
Token 的粒度介于字符级和单词级之间。单词级分词会导致词表过大且无法处理未知词(OOV,Out-of-Vocabulary)问题;字符级分词则序列过长,计算效率低下。子词分词(Subword Tokenization)在二者之间取得了最优平衡,成为现代 LLM 的标准方案。
1.2 Tokenization:从文本到数字序列的转换
大模型处理文本时,Token 经历了三层转换:
第一层:Tokenization(文本→Token ID)
输入文本被分词器(Tokenizer)切分为 Token 序列,每个 Token 对应词表中的唯一整数 ID。这是模型的“入口”。Tokenization 是 NLP 处理流程中“将输入文本转换为子词 Token 序列”的第一步。
第二层:嵌入(Token ID→向量)
Token ID 只是索引,两个数字之间没有任何语义信息。模型通过嵌入层(Embedding Lay