当前位置: 首页 > news >正文

建立记忆(KV Cache)

大家有没有想过,当你和 ChatGPT、豆包、通义千问聊天时,输入问题后,模型不会一次性弹出完整回答,而是逐字逐句输出。这背后是大语言模型(LLM)推理生成内容的核心逻辑——推理全流程,核心分为两个截然不同的阶段:Prefill(预填充) 和 Decode(解码)。简单说,就是模型先“一口气读完、吃透你的问题”,再“逐字逐句写回答”。下面用通俗的语言,结合技术细节,把整个流程讲清楚。

一、生活化类比:把推理比作一场开卷考试

理解这两个阶段,先看一个好懂的比喻:

  • Prefill(预填充)= 通读材料+做笔记:拿到试卷(你的问题)和参考资料,快速通读全文,在草稿纸上记下要点、逻辑关联,全程费脑力,但不写任何答案
  • Decode(解码)= 逐题逐字写答案:看着草稿纸上的笔记,逐字书写答案,每写一个字都核对上下文,过程轻松,但只能一个字一个字写,没法跳步

这里的“草稿纸”,就是工程里关键的 KV Cache(键值缓存)——模型理解问题后的核心记忆,后续生成回答全靠它。

二、Prefill(预填充):一次性吃透你的问题

Prefill 是推理的第一步,也是决定“你多久能看到第一个字”的关键阶段,核心是一次性、并行处理你输入的整段问题,完成“理解+记笔记”。

2.1 它具体在做4件事

  1. 分词(Tokenization):把你的文字拆成模型能懂的最小语义单元(Token),比如中文里一个词、半个词都是1个Token,再转换成数字ID,相当于把人类语言翻译成模型的“数学语言”。
  2. 全序列并行计算:把整段输入一次性送入模型,通过自注意力机制,同时计算所有Token之间的上下文关联(比如理清“它”指代橘子还是桌子)。
  3. 建立记忆(KV Cache):把计算好的关键信息(Key和Value矩阵)存入显存,生成KV Cache——相当于把理解好的问题逻辑,记在“草稿纸”上。
  4. 产出第一个字:基于最后一个Token的隐状态,生成回答的第一个Token,完成Prefill闭环。

2.2 Prefill的4个核心特点

特征通俗说明
计算密集型 要做大规模矩阵乘法,输入越长计算量越大,GPU算力是瓶颈(长文本会陡增)
高度并行 整段问题的所有Token同时计算,速度快
显存峰值高 一次性给整段输入分配KV Cache,长文本会瞬间占用大量显存
决定首字延迟(TTFT) 你发完问题到看到第一个字的等待时间,完全由Prefill决定

一句话总结:Prefill 是模型“埋头苦读、吃透问题”的过程,读得越快,你看到首字就越早。

三、Decode(解码):自回归逐字写回答

Prefill生成第一个字后,模型立刻进入Decode阶段,核心是串行、逐字生成后续回答,全程依赖Prefill留下的KV Cache。

3.1 它具体在做循环操作

  1. 刚生成的1个Token(及位置编码偏移) 作为新输入;
  2. 读取Prefill缓存的KV Cache,以及之前Decode新增的缓存;
  3. 计算当前字与历史上下文的关联,不用重新算旧内容
  4. 采样生成下一个Token;
  5. 把新字的信息追加到KV Cache,更新“草稿纸”;
  6. 重复以上步骤,直到遇到结束符(EOS)、达到长度上限,或触发异常终止(显存不足、用户中断)。


https://weibo.com/ttarticle/p/show?comment=1&id=2309405300420502749398
https://weibo.com/ttarticle/p/show?id=2309405300420569858161
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300420569858161
https://weibo.com/ttarticle/p/show?id=2309405300420628316990
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300420628316990
https://weibo.com/ttarticle/p/show?id=2309405300420691492877
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300420691492877
https://weibo.com/ttarticle/p/show?id=2309405300420746019135
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300420746019135
https://weibo.com/ttarticle/p/show?id=2309405300420808933608
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300420808933608
https://weibo.com/ttarticle/p/show?id=2309405300420888363272
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300420888363272
https://weibo.com/ttarticle/p/show?id=2309405300420955734096
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300420955734096
https://weibo.com/ttarticle/p/show?id=2309405300421018648665
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300421018648665
https://weibo.com/ttarticle/p/show?id=2309405300421106467406
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300421106467406
https://weibo.com/ttarticle/p/show?id=2309405300421165187783
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300421165187783
https://weibo.com/ttarticle/p/show?id=2309405300421236752624
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300421236752624
https://weibo.com/ttarticle/p/show?id=2309405300421391679548
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300421391679548
https://weibo.com/ttarticle/p/show?id=2309405300421463244831
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300421463244831
https://weibo.com/ttarticle/p/show?id=2309405300421521703060
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300421521703060
https://weibo.com/ttarticle/p/show?id=2309405300421584879936
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300421584879936
https://weibo.com/ttarticle/p/show?id=2309405300421643338611
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300421643338611
https://weibo.com/ttarticle/p/show?id=2309405300421706253029
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300421706253029

http://www.zskr.cn/news/1323583.html

相关文章:

  • Linux进程信息获取全攻略:从ps、top到/proc与psutil
  • 企业AI基建选型指南:托管/半托管/自建架构下的FinOps成本管控策略
  • 从FM收音机到5G基站:拆解DDS技术如何悄悄改变我们的通信设备
  • 创业团队如何利用Taotoken多模型聚合能力优化产品AIB功能
  • 【JavaSE全面教学】Java IO流与文件操作Day14(2026年)
  • 前端开发从入门到精通:Vue3+TypeScript实战教程
  • Perplexity实时新闻查询失效真相:Webhook劫持、缓存穿透与CDN时钟漂移三重陷阱
  • STD算法实战:用Python从零复现激光SLAM中的“稳定三角形”回环检测(附代码)
  • 从Silver Fox新变种看2026年网络钓鱼的攻防进化
  • 别再死记硬背了!用‘按权展开’法5分钟搞定二进制转十进制(C语言实战)
  • 【Perplexity编程搜索权威白皮书】:基于1786次真实编码场景测试,验证TOP3提示词组合准确率提升317%
  • 物理生物学研究报告【20260007】
  • 【无人机协同】联合优化无人机轨迹、发射功率与地面用户-MEC关联的多无人机多地面用户系统 附matlab代码✅
  • TI平台PMSM控制:带传感器与无传感器方案选型与实现详解
  • STM32单片机串口通信避坑指南:从CubeMX配置到中断回调函数编写
  • 发文首选!机器学习锂离子电池!
  • 【FDA级健康信息验证法】:Perplexity健康科普查询中识别虚假/过时内容的4层交叉验证模型
  • Perplexity酒店搜索精准度跃升92%的底层逻辑(LLM+实时库存融合架构首次解密)
  • Perplexity商标确权成功率提升至86.7%的关键:基于12,843件AI类商标数据训练的语义相似度校准模型(内测版开放)
  • Gemini Nano移动端模型裁剪内幕:Google内部benchmark未披露的3种Pruning策略对比(精度仅损0.7%)
  • 银河麒麟V10SP3-arm版本安装oracle19C数据库
  • 5分钟掌握抖音无水印批量下载:免费工具完整使用指南
  • 实时AI推理优化:如何提升模型响应速度
  • 【Perplexity开发者必藏资源】:17个被官方文档隐藏的调试技巧+3个内部状态检测命令
  • NPM全局安装OpenAI Codex CLI的3步权限配置与环境适配指南
  • vert-harmonium
  • 庆阳足金回收银手镯回收PT990铂金回收钻石戒指回收旧首饰回收高价多少钱一克同城价格查询上门上门估价闲置变现转让靠谱权威排行榜 - 检测回收中心
  • 南宁投资金条回收上门回收白银上门铂金回收旧钻石回收周边金银回收本地排名正规门店专业推荐哪家靠谱二手哪家强 - 检测回收中心
  • 广州小程序定制开发公司排行 性价比维度实测对比 - 奔跑123
  • Adams新手避坑指南:从几何点、Marker坐标系到立方体,这些基础元素你真的用对了吗?