【信息科学与工程学】计算机科学与自动化——第三百零五篇 数据中心 Scale-Up、Scale-Out、Scale-Across 16

【信息科学与工程学】计算机科学与自动化——第三百零五篇 数据中心 Scale-Up、Scale-Out、Scale-Across 16

编号

Scale

领域链路

问题

问题的数学分析(逐步推理)

参数列表/边界条件/方程式

关联知识

6271

数据中心

大模型推理

大模型推理中推测解码的多候选验证策略?

1. 草稿模型生成K个候选序列,目标模型并行验证。2. 验证时,目标模型计算每个候选的logits,拒绝概率 preject​。3. 期望接受长度 E[L]=∑i=1K​i⋅(1−preject​)i⋅preject​。4. 加速比 S(K)=K⋅Td​+Tt​E[L]⋅Tt​​。5. 最优K使S最大,对K求导得数值解。6. 物理约束:目标模型显存需容纳K个候选的KV cache。

preject​=0.2, Tt​=10ms, Td​=2ms。方程: E[L]≈4.5, 最优K≈6, 加速比≈2.8。

推测解码,多候选,并行验证

6272