当前位置：首页 > news >正文

十分钟读懂 Deepseek MTP（Multi-Token Prediction）

news 2026/6/15 1:49:13

传统的大语言模型采用的训练目标是 Next-Token Prediction (NTP)，即在位置 t 上预测下一个 token (t+1)。
而 Multi-Token Prediction (MTP) 的核心思想在于：

不仅预测下一个 token，而是能够同时预测多个未来的 token。
这种方式可以显著提升推理效率。例如，当 n=4（一次预测 4 个 token）时，推理速度可实现约 3 倍的加速。

DeepSeek-V3 借鉴了 Meta FAIR 团队论文 Better & Faster Large Language Models via Multi-token Prediction 中的思路，但在实现上有明显不同：它并不是直接并行预测多个 token，而是保持完整的因果链，以逐层递进的方式预测未来 token。

本文将重点介绍 DeepSeek-V3 中 MTP 的实现。在此之前，我们先回顾一下 Meta FAIR 团队提出的 MTP 思路。

1. MTP 方法

1.1 NTP (Next-token Prediction)

传统语言模型的训练目标：给定历史上下文 $x_{1:t}$,预测下一个 token $x_{t+1}$。
损失函数是标准的交叉熵：$$ L_1 = -\sum_t \log P_\theta(x_{t+1} | x_{1:t}) $$
这种方式虽然简单有效，但只考虑一步预测，容易陷入局部模式学习。

下图是 NTP 示意图，我们以 Qwen2.5-32B 为例，词表大小为 152064，hidden size 为 $d_{

http://www.zskr.cn/news/38560.html

相关文章：

适合高中数学辅导的培训机构怎么选？从基础到拔高这样挑不踩坑

6.AUserDefaults 使用指南

S-PSC 5202 游记

2025年11月全屋定制品牌推荐评价：消费者满意度调查结果

2025年11月全屋定制品牌推荐榜单：十大品牌综合对比与权威评测

2025年10月深圳律师推荐榜：五家刑事辩护团队对比与中立评测

2025年11月法律咨询律所推荐排名：用户需求匹配度全解析

2025年11月市场地位认证机构排行解析：专业认证服务深度评测

2025年项目管理软件排行榜前五！从需求到交付你怎么选？ - RAIN

学习一下压测和监控

2025年11月办公家具公司推荐榜单：权威评测与综合对比分析

2025年11月领先品牌认证机构排行榜：权威评测与选择指南

WinMTR Json版：支持 JSON 配置的内网路径追踪工具

2025年11月遗嘱继承律所评价：多维数据与行业标准解析

Python 文件操作

tp8-商城项目命令合集

软件技术工程第二次作业

git 命令别名设置

互测赛（4）总结

2025年11月黄褐斑改善产品推荐榜：五款热门单品深度对比与评价

2025年11月珠海酒店评价榜：商务休闲双需求住宿对比指南

2025年规模大型纸箱厂家权威推荐榜单：化妆品纸箱/包装纸箱/瓦楞纸箱源头厂家精选

基于开源操作系统搭建K8S高可用集群

2025年11月全屋定制环保材料公司推荐榜单：五家优质企业综合对比分析

using关键字笔记

2025年度中国靠谱房地产模型公司排行：房地产模型服务商推荐

2025年11月数控加工中心厂家推荐榜：权威排名与综合评测分析