当前位置：首页 > news >正文

建立记忆（KV Cache）

news 2026/6/13 3:05:51

大家有没有想过，当你和 ChatGPT、豆包、通义千问聊天时，输入问题后，模型不会一次性弹出完整回答，而是逐字逐句输出。这背后是大语言模型（LLM）推理生成内容的核心逻辑——推理全流程，核心分为两个截然不同的阶段：Prefill（预填充） 和 Decode（解码）。简单说，就是模型先“一口气读完、吃透你的问题”，再“逐字逐句写回答”。下面用通俗的语言，结合技术细节，把整个流程讲清楚。

一、生活化类比：把推理比作一场开卷考试

理解这两个阶段，先看一个好懂的比喻：

Prefill（预填充）= 通读材料+做笔记：拿到试卷（你的问题）和参考资料，快速通读全文，在草稿纸上记下要点、逻辑关联，全程费脑力，但不写任何答案。
Decode（解码）= 逐题逐字写答案：看着草稿纸上的笔记，逐字书写答案，每写一个字都核对上下文，过程轻松，但只能一个字一个字写，没法跳步。

这里的“草稿纸”，就是工程里关键的 KV Cache（键值缓存）——模型理解问题后的核心记忆，后续生成回答全靠它。

二、Prefill（预填充）：一次性吃透你的问题

Prefill 是推理的第一步，也是决定“你多久能看到第一个字”的关键阶段，核心是一次性、并行处理你输入的整段问题，完成“理解+记笔记”。

2.1 它具体在做4件事

分词（Tokenization）：把你的文字拆成模型能懂的最小语义单元（Token），比如中文里一个词、半个词都是1个Token，再转换成数字ID，相当于把人类语言翻译成模型的“数学语言”。
全序列并行计算：把整段输入一次性送入模型，通过自注意力机制，同时计算所有Token之间的上下文关联（比如理清“它”指代橘子还是桌子）。
建立记忆（KV Cache）：把计算好的关键信息（Key和Value矩阵）存入显存，生成KV Cache——相当于把理解好的问题逻辑，记在“草稿纸”上。
产出第一个字：基于最后一个Token的隐状态，生成回答的第一个Token，完成Prefill闭环。

2.2 Prefill的4个核心特点

特征	通俗说明
计算密集型	要做大规模矩阵乘法，输入越长计算量越大，GPU算力是瓶颈（长文本会陡增）
高度并行	整段问题的所有Token同时计算，速度快
显存峰值高	一次性给整段输入分配KV Cache，长文本会瞬间占用大量显存
决定首字延迟（TTFT）	你发完问题到看到第一个字的等待时间，完全由Prefill决定

一句话总结：Prefill 是模型“埋头苦读、吃透问题”的过程，读得越快，你看到首字就越早。

三、Decode（解码）：自回归逐字写回答

Prefill生成第一个字后，模型立刻进入Decode阶段，核心是串行、逐字生成后续回答，全程依赖Prefill留下的KV Cache。

3.1 它具体在做循环操作

把刚生成的1个Token（及位置编码偏移） 作为新输入；
读取Prefill缓存的KV Cache，以及之前Decode新增的缓存；
计算当前字与历史上下文的关联，不用重新算旧内容；
采样生成下一个Token；
把新字的信息追加到KV Cache，更新“草稿纸”；
重复以上步骤，直到遇到结束符（EOS）、达到长度上限，或触发异常终止（显存不足、用户中断）。

https://weibo.com/ttarticle/p/show?comment=1&id=2309405300420502749398
https://weibo.com/ttarticle/p/show?id=2309405300420569858161
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300420569858161
https://weibo.com/ttarticle/p/show?id=2309405300420628316990
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300420628316990
https://weibo.com/ttarticle/p/show?id=2309405300420691492877
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300420691492877
https://weibo.com/ttarticle/p/show?id=2309405300420746019135
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300420746019135
https://weibo.com/ttarticle/p/show?id=2309405300420808933608
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300420808933608
https://weibo.com/ttarticle/p/show?id=2309405300420888363272
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300420888363272
https://weibo.com/ttarticle/p/show?id=2309405300420955734096
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300420955734096
https://weibo.com/ttarticle/p/show?id=2309405300421018648665
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300421018648665
https://weibo.com/ttarticle/p/show?id=2309405300421106467406
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300421106467406
https://weibo.com/ttarticle/p/show?id=2309405300421165187783
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300421165187783
https://weibo.com/ttarticle/p/show?id=2309405300421236752624
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300421236752624
https://weibo.com/ttarticle/p/show?id=2309405300421391679548
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300421391679548
https://weibo.com/ttarticle/p/show?id=2309405300421463244831
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300421463244831
https://weibo.com/ttarticle/p/show?id=2309405300421521703060
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300421521703060
https://weibo.com/ttarticle/p/show?id=2309405300421584879936
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300421584879936
https://weibo.com/ttarticle/p/show?id=2309405300421643338611
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300421643338611
https://weibo.com/ttarticle/p/show?id=2309405300421706253029
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300421706253029