当前位置: 首页 > news >正文

十分钟读懂 Deepseek MTP(Multi-Token Prediction)

传统的大语言模型采用的训练目标是 Next-Token Prediction (NTP),即在位置 t 上预测下一个 token (t+1)。
而 Multi-Token Prediction (MTP) 的核心思想在于:

  • 不仅预测下一个 token,而是能够同时预测多个未来的 token。
  • 这种方式可以显著提升推理效率。例如,当 n=4(一次预测 4 个 token)时,推理速度可实现约 3 倍的加速。

DeepSeek-V3 借鉴了 Meta FAIR 团队论文 Better & Faster Large Language Models via Multi-token Prediction 中的思路,但在实现上有明显不同:它并不是直接并行预测多个 token,而是保持完整的因果链,以逐层递进的方式预测未来 token。

本文将重点介绍 DeepSeek-V3 中 MTP 的实现。在此之前,我们先回顾一下 Meta FAIR 团队提出的 MTP 思路。

1. MTP 方法

1.1 NTP (Next-token Prediction)

  • 传统语言模型的训练目标:给定历史上下文 $x_{1:t}$,预测下一个 token $x_{t+1}$。
  • 损失函数是标准的交叉熵:$$ L_1 = -\sum_t \log P_\theta(x_{t+1} | x_{1:t}) $$
  • 这种方式虽然简单有效,但只考虑一步预测,容易陷入局部模式学习。

下图是 NTP 示意图,我们以 Qwen2.5-32B 为例,词表大小为 152064,hidden size 为 $d_{model}$=5120 ,num heads 为 40,Transformer block 的层数为 64,假设输入序列长度为 2048。

http://www.zskr.cn/news/38560.html

相关文章:

  • 适合高中数学辅导的培训机构怎么选?从基础到拔高这样挑不踩坑
  • pcb入门
  • 6.AUserDefaults 使用指南
  • S-PSC 5202 游记
  • 2025年11月全屋定制品牌推荐评价:消费者满意度调查结果
  • 2025年11月全屋定制品牌推荐榜单:十大品牌综合对比与权威评测
  • 2025年10月深圳律师推荐榜:五家刑事辩护团队对比与中立评测
  • 2025年11月法律咨询律所推荐排名:用户需求匹配度全解析
  • 2025年11月市场地位认证机构排行解析:专业认证服务深度评测
  • 2025年项目管理软件排行榜前五!从需求到交付你怎么选? - RAIN
  • 学习一下压测和监控
  • 2025年11月办公家具公司推荐榜单:权威评测与综合对比分析
  • 2025年11月领先品牌认证机构排行榜:权威评测与选择指南
  • WinMTR Json版:支持 JSON 配置的内网路径追踪工具
  • 2025年11月遗嘱继承律所评价:多维数据与行业标准解析
  • Python 文件操作
  • 谭剑波day10
  • tp8-商城项目 命令合集
  • 软件技术工程第二次作业
  • git 命令别名设置
  • ch2题解
  • 互测赛(4)总结
  • 2025年11月黄褐斑改善产品推荐榜:五款热门单品深度对比与评价
  • 2025年11月珠海酒店评价榜:商务休闲双需求住宿对比指南
  • 2025年规模大型纸箱厂家权威推荐榜单:化妆品纸箱/包装纸箱/瓦楞纸箱源头厂家精选
  • 基于开源操作系统搭建K8S高可用集群
  • 2025年11月全屋定制环保材料公司推荐榜单:五家优质企业综合对比分析
  • using关键字笔记
  • 2025年度中国靠谱房地产模型公司排行:房地产模型服务商推荐
  • 2025年11月数控加工中心厂家推荐榜:权威排名与综合评测分析