当前位置：首页 > news >正文

视频生成MOE Mamoda2.5：基于DiT-MoE的统一多模态理解与生成框架技术解析

news 2026/5/23 12:50:46

稀疏激活专家混合架构驱动的高效视频理解与生成新范式多模态大模型视频生成DiT-MoE稀疏激活强化学习统一多模态模型正经历从单任务专家向一体化系统的范式转变。字节跳动研究团队提出的Mamoda2.5通过将细粒度混合专家MoE架构引入扩散TransformerDiT在单一模型中实现了文本到图像、文本到视频、图像编辑、视频编辑以及多模态理解五大任务的统一建模为视觉生成领域提供了全新的技术路线。一、统一多模态模型的技术演进与挑战近年来视觉生成领域取得了显著进展。以HunyuanVideo、WanVideo为代表的扩散TransformerDiT模型证明了扩大参数量对视频质量和物理规律建模能力的提升作用工业级系统如Aquarius进一步验证了大规模视频生成在真实生产环境中的可行性。与此同时多模态理解模型也在视觉问答、图文推理等任务上不断突破。然而现有工作大多将理解与生成视为两个独立的模态。统一框架往往局限于图像域视频生成与编辑的统一建模仍处于早期阶段面临三重核心挑战其一视频任务的计算复杂度随空间分辨率和时序长度呈二次增长全注意力机制下的视觉令牌数量急剧膨胀导致训练与推理成本高昂其二高质量视频编辑数据的获取难度远大于图像编辑构建满足指令精确遵循、编辑区域视觉自然、非编辑区域保持一致三大标准的成对数据极为困难其三如何在扩展模型容量的同时控制计算开销成为制约长视频生成的关键瓶颈。混合专家Mixture-of-Experts, MoE架构为大语言模型的稀疏扩展提供了可行路径通过路由机制实现条件计算在不按比例增加计算成本的前提下放大模型容量。DeepSeekMoE的细粒度专家分割策略进一步增强了专业化程度与可扩展性。在图像生成领域DiT-MoE、Race-DiT、DiffMoE等工作已成功将MoE引入扩散Transformer。但在视频领域细粒度MoE设计——即包含大量专业化专家和学习型令牌级路由的架构——尚未得到系统性研究。二、Mamoda2.5整体架构AR-Diffusion统一管线Mamoda2.5继承了Mamoda系列的自回归-扩散AR-Diffusion范式将指令理解、规划与视觉生成、编辑整合为端到端的单一管线。如图3所示整体架构包含三个核心阶段自回归理解模块负责多模态输入的语义建模基于MoE的扩散骨干网络DiT-MoE在AR输出和文本/视觉特征的条件下迭代去噪VAE编解码器则在像素空间与潜在空间之间映射。图3 Mamoda2.5整体架构示意图。统一的AR-Diffusion管线将指令理解与视觉生成/编辑组织为端到端框架AR模块通过MetaQueries机制生成条件表征注入DiT-MoE骨干进行迭代去噪。为缓解视频计算开销Mamoda2.5采用了Wan2.2的3D因果VAE实现4×16×16的时空压缩比。相比主流的4×8×8 VAE该设计将空间令牌数量减少至四分之一显著降低了DiT的计算与显存负担。这一高压缩率与后续的MoE稀疏激活形成协同为长视频生成奠定了效率基础。三、细粒度DiT-MoE128专家的稀疏激活设计Mamoda2.5的核心创新在于将细粒度MoE架构引入视频生成与编辑场景。模型配置128个路由专家routed experts采用Top-8令牌选择路由策略总参数量达到250亿但单次前向传播仅激活约30亿参数。这种极端稀疏性带来了训练与推理效率的显著提升直接解决了视频生成模型中时间复杂度爆炸的难题。3.1 架构设计细节如图4所示每个DiT-MoE层将标准的前馈网络FFN子层替换为混合专家层。具体而言每个令牌的隐藏状态经过注意力子层后输入MoE层进行计算。输出由三部分组成一个始终激活的共享专家shared expert捕获跨任务的通用知识以及最多8个被选中的路由专家负责处理令牌特定的专业化特征。图4 DiT-MoE模块示意图。每个模块以细粒度路由专家替换标准FFN子层采用基于Sigmoid的Top-K门控机制与无损失专家偏置实现专家选择与负载均衡。在路由策略上Mamoda2.5采用Sigmoid门控替代传统的Softmax门控。Softmax将分数归一化为概率单纯形引入专家间的竞争关系而Sigmoid独立评估每个专家的相关性更契合细粒度专家设计的初衷——仅激活最相关的专家。此外模型引入无损失专家偏置Expert Bias进行负载均衡每个专家维护一个动态更新的偏置项在Top-K选择阶段调整门控分数抑制被过度选择的热点专家提升设备利用率且不对训练目标引入干扰梯度。3.2 从Dense到MoE的Upcycling初始化从头训练大规模MoE模型的成本极高。Upcycling策略——即从预训练稠密模型初始化MoE模型——能够利用已有知识加速收敛。然而标准Upcycling方法假设专家维度等于原始FFN维度可直接复制权重而Mamoda2.5的细粒度专家设计中专家维度1024远小于原始FFN维度14336无法直接复制。为此研究团队提出了三阶段Upcycling流程首先所有自注意力与层归一化参数直接从稠密模型拷贝其次对每个路由专家以该专家索引为种子生成唯一的随机排列从原始FFN的中间神经元中采样1024个神经元构成专家权重确保128个专家覆盖接近100%的原始FFN空间最后路由器权重随机初始化专家偏置项设为零。消融实验表明该随机神经元采样策略相比从头训练在GenEval基准上提升12.47分在DPGBench上提升4.10分收敛速度提升约5倍。图14 Upcycling初始化策略消融。左图为训练损失曲线Expert Attn随机神经元采样收敛最快且最终损失最低相比从头训练实现约5倍加速右图为指令遵循基准评测结果。四、统一条件生成多任务一体化建模Mamoda2.5将文本到图像生成、文本到视频生成、图像编辑和视频编辑统一建模为条件视觉生成任务。所有条件特征经由精炼模块处理后与VAE编码的条件潜在变量及带噪潜在变量在序列维度上拼接形成统一输入序列。DiT模块对整个拼接序列执行全局自注意力实现所有条件信号的深度特征级融合。这种上下文内in-context条件注入相比交叉注意力机制具备双重优势其一图像与文本令牌在每一层、每一个注意力头中双向交互实现更深入的融合对复杂语义一致性更为鲁棒其二网络结构保持任务无关不同任务仅需拼接不同的条件令牌无需修改网络结构即可适配。针对视频编辑中常见的字幕、标牌等文本渲染需求Mamoda2.5引入了辅助ByT5编码器。该字节级Transformer直接操作原始UTF-8序列无需分词其字符感知嵌入被投影至与其他条件信号相同的特征空间并拼入统一输入序列显著提升了拼写准确性与文本布局质量。五、数据工程高质量视频编辑数据合成管线视频编辑数据需同时满足编辑指令精确执行、编辑区域视觉自然、非编辑区域时空一致三大标准真实世界数据采集难度极高。现有合成管线多采用可控视频生成模型遵循预处理-生成-过滤的多阶段流程但阶段间的误差传播限制了最终数据质量。Mamoda2.5提出了一种利用强视频生成模型固有编辑能力的数据合成新管线核心洞察在于前后编辑视频的结构一致性主要由扩散噪声轨迹决定。固定初始噪声可增加生成一致性但多步去噪过程中微小的提示相关偏差仍会逐步累积。因此研究团队在预编辑与后编辑生成之间共享部分早期去噪步骤抑制噪声漂移。图5 视频编辑数据合成管线概览。阶段一基于LLM的提示对生成阶段二共享去噪步骤的成对视频合成阶段三VLM重描述、质量过滤与双向反转扩充训练数据。完整管线包含三个阶段首先利用大语言模型生成适合文本到视频生成的成对提示其次基于强视频生成模型合成预编辑与后编辑视频对通过共享早期去噪步骤保障结构一致性最后利用视觉语言模型进行重描述与质量过滤并对每个样本执行双向反转获得反向编辑样本实现训练数据翻倍。该管线覆盖了添加、删除、替换三大核心编辑任务为模型提供了大规模、高质量的监督信号。六、训练策略多阶段渐进与联合蒸馏强化学习6.1 多阶段渐进训练视频生成需要联合建模语义、空间与时序信息。Mamoda2.5采用多阶段渐进策略逐步提升分辨率与时长。经验表明时序运动模式的学习收敛速度显著慢于空间视觉保真度因此低分辨率视频的多次训练不仅成本效益更高也有利于运动动态的学习。具体而言训练分为五个阶段文本到图像预训练在480px分辨率上建立文本-视觉对齐文本到视频预训练先在480px短时长视频上强化时序建模再逐步提升至720px、24fps的目标规格监督微调阶段引入高质量数据并将多模态理解数据混入训练使模型在提升生成美学质量的同时保持视觉语言理解能力视觉编辑训练则先进行图像编辑预训练再执行图像-视频混合编辑训练以平衡收敛稳定性与时序一致性学习。图6 Mamoda2.5多阶段训练管线。依次经历低分辨率生成预训练、高分辨率生成预训练、生成与理解联合SFT、视觉编辑训练以及4步联合蒸馏与强化学习。6.2 联合少步蒸馏与强化学习尽管前述训练阶段已构建出能力较强的视频生成与编辑模型但迭代去噪过程结合分类器自由引导CFG仍带来较高的推理延迟且模型输出分布受限于训练数据质量。分布匹配蒸馏DMD可将多步教师模型压缩为少步学生模型强化学习RL则通过奖励信号引导输出向人类偏好靠拢。若顺序执行蒸馏与RL前者会压缩学生模型的采样多样性导致RL探索不足后者会在有损压缩中损失已获得的奖励增益。Mamoda2.5将两者整合为联合优化框架在单一训练循环中同时优化DMD损失与DiffusionNFT对比损失。DMD项将学生锚定至教师分布作为比标准KL散度更强的正则化RL项则通过隐式正负策略推动学生生成高奖励输出。冷启动策略在前若干步仅激活DMD损失使学生具备基本生成能力后再引入RL信号。奖励系统采用多维度混合设计整合编辑质量评分VLM评估三元组、视觉质量评分帧级畸变与交互异常检测、背景一致性评分非编辑区域SSIM相似度以及文本渲染准确率OCR编辑距离结合VLM字符级评估。多维度奖励通过加权平均与全局归一化融合有效缓解了单一奖励维度可能导致的优化偏差。图15 联合蒸馏与RL训练中的混合奖励曲线。蓝色曲线为4步学生模型无CFG的奖励变化红色虚线为30步教师模型含CFG的奖励基线。学生在约100步后超越教师并持续提升。实验结果表明该联合框架实现了三重优势少步推理——DMD将多步教师压缩为仅需4步去噪且无需CFG的学生模型超越教师——RL增强的学生在编辑质量上可超过30步教师极致训练效率——DiffusionNFT的无似然估计优化结合学生模型上的少步 rollout相比顺序替代方案降低了一个数量级的训练成本使基于RL的后训练对大规模视频模型变得实用。七、系统级优化从训练到推理的全链路加速MoE稀疏激活虽降低了单令牌计算量但完整训练管线仍面临显存压力。Mamoda2.5在训练侧采用FSDP2实现Transformer子层粒度的全分片数据并行配合多流调度重叠参数预取与计算针对长视频训练中自注意力显存随序列长度平方增长的问题引入统一序列并行USP整合DeepSpeed-Ulysses与Ring Attention并实施细粒度选择性重计算结合异步激活卸载。针对MoE系统部署分组GEMM算子与融合的MoE令牌排列/反排列操作以最大化吞吐。图7 高效在线训练管线编码器DP与编码器交错策略结合双缓存机制消除编码与DiT训练阶段的最优并行策略错配。在推理侧主要瓶颈在于长视频的注意力层。Mamoda2.5采用三项互补技术跨8个计算单元的混合并行利用CFG并行与USP实现近线性扩展选择性滑动瓦片注意力SSTA动态剪枝冗余时空令牌自适应缓存策略分离注意力与FFN缓存通过关键步骤梯度校正漂移并采用滑动窗口块卸载降低显存占用。如表2所示即便不应用上述优化Mamoda2.5已展现出显著的推理速度优势。在720px、93帧视频生成任务上单设备推理仅需110秒相比Wan2.2 A14B提升12倍相比HunyuanVideo 1.5提升5倍相比LongCat Video提升18倍。在480px、81帧视频编辑任务上30步模型仅需69秒而蒸馏后的4步模型更是将延迟降至9.2秒相比VInO实现95.9倍加速相比OmniVideo2实现41.7倍加速。八、实验评测多维度性能验证8.1 视频生成与编辑在VBench 2.0文本到视频生成基准上Mamoda2.5在开源模型中达到顶尖水平总分61.64与HunyuanVideo、Wan2.1、LongCat-Video等模型处于同一竞争梯队。在OpenVE-Bench指令引导视频编辑基准的七类空间对齐任务中Mamoda2.5以3.86的总分位列所有参评模型首位超越了包括Kling O13.69在内的闭源模型。在Replace、Remove、Text、Creative Edit等关键任务上均取得领先。图1 Mamoda2.5在多项基准上的性能概览涵盖视频编辑、视频生成、多模态理解与推理延迟四个维度。FiVE-Bench专注于细粒度视频编辑评估测试视频通常包含大幅运动对编辑一致性构成更大挑战。Mamoda2.5在该基准上以87.41的FiVE-Acc得分超越所有开源模型Omni-Video2与Omni分别取得73.53与72.41分。Reco-Bench评估涵盖添加、删除、替换与风格迁移四类任务Mamoda2.5在全部类别中均取得最佳整体表现。定性对比进一步验证了上述结论。如图8至图12所示在风格迁移任务中Mamoda2.5能够准确保留人物动作在替换任务中能够精确替换目标对象并保持字幕等非编辑元素完整在添加任务中能够正确理解空间关系如将背包添加至右肩而非左肩在删除任务中能够在移除指定对象的同时保持机器等复杂结构的细节完整在创意编辑中能够准确执行特殊效果变换。图8-11 视频编辑任务定性对比风格迁移、替换、添加、删除。对比模型包括输入视频、Mamoda2.5、Kling O1的输出结果。图12 创意编辑任务定性对比。Mamoda2.5准确将人物外观变换为树叶组合特效而对比模型未能正确应用该特效。图16-18 视频编辑任务补充定性对比涵盖替换、创意编辑等多种复杂场景。8.2 图像生成与理解在GenEval文本到图像生成基准上Mamoda2.5以0.83的总分在所有参评视频生成模型中位列第一与 dedicated 图像生成模型相比也具备强竞争力。在ImgEdit图像编辑基准上Mamoda2.5在Replace类别中取得开源模型第一GEdit-EN整体得分7.05。在多模态理解方面Mamoda2.5在MMMU、MathVista等推理密集型基准上超越了其理解侧骨干网络Qwen3-VL-8B-Instruct在OCRBench、AI2D等感知导向任务上保持相当水平证明统一生成训练并未损害核心视觉语言理解能力。九、实际应用场景广告创意与内容审核超越基准评测Mamoda2.5已在真实广告与营销场景中落地服务于广告主与平台运营。其统一理解与生成能力从两个互补维度提升广告投放效率与体验。在AI驱动的内容审核方面大规模广告平台对内容合规与质量的保障是关键瓶颈。Mamoda2.5的统一理解与生成能力支持自动化内容审核管线模型可评估生成或上传的创意素材是否符合平台规范涵盖视觉质量、文本渲染准确性、语义适当性等维度。借助AR模块的多模态理解能力系统能够在创意进入投放管线前识别潜在问题——如扭曲文本、不一致的品牌元素或低质量帧——显著降低人工审核成本。与传统返回粗略二元决策的审核系统不同Mamoda2.5支持细粒度的拒绝推理精确定位不合规区域、描述违规性质、提出具体修复建议从而加速创意修改周期、减少重复提交。在自动化创意修复方面广告创意常因视觉伪影、分辨率损失或不一致元素导致投放性能下降。Mamoda2.5的指令式编辑能力支持对问题视频资产的自动化修复包括缺陷校正、帧质量增强与元素修复全部由自然语言指令驱动。MoE架构的推理效率相比同类稠密模型提升12倍以上使大规模自动化创意修复成为现实广告主可在可控计算成本下快速挽救表现不佳的资产。在内部广告视频编辑基准上Mamoda2.5实现了98%的成功率。理解侧审核与生成侧修复形成闭环非合规创意被精准识别并附带可操作建议问题资产被自动修复整体创意生产周期显著缩短。十、结语与未来展望Mamoda2.5通过细粒度DiT-MoE架构、高效的Upcycling初始化、可扩展的视频编辑数据合成管线以及联合少步蒸馏与强化学习框架在统一多模态理解与生成领域迈出了坚实一步。250亿总参数、30亿激活参数的稀疏设计配合高压缩率VAE与系统级优化使高质量长视频生成与编辑在消费级硬件上的高效推理成为可能。实验结果充分验证了该路线的有效性在OpenVE-Bench、Reco-Bench、FiVE-Bench等视频编辑基准上达到开源模型领先水平在VBench 2.0视频生成基准上跻身第一梯队在图像生成与编辑任务上保持强劲竞争力同时多模态理解能力与专用理解模型相当。工业落地方面内容审核与创意修复的闭环应用展示了统一模型在真实商业场景中的实用价值。面向未来研究团队指出了两个有前景的探索方向一是将音频处理能力整合进统一框架实现音视频同步生成与编辑进一步拓展至配音、音效与对话场景二是深化理解与生成的内在统一借鉴近期系统在利用生成作为通用视觉接口、借助推理提升生成质量方面的探索使两种能力在统一架构中相互增强释放更多涌现能力。技术亮点速览**模型规模**总参数量25B单次激活3B稀疏度达88%**核心架构**128路由专家 Top-8 Sigmoid路由无损失专家偏置负载均衡**推理效率**720px视频生成单设备110秒480px视频编辑4步模型仅需9.2秒相比基线最高提升95.9倍**统一能力**文本到图像/视频生成、图像/视频编辑、多模态理解五大任务一体化建模**数据管线**共享早期去噪步骤的成对视频合成策略覆盖添加、删除、替换三大编辑类型参考资料Mamoda Team, ByteDance. Mamoda2.5: Enhancing Unified Multimodal Model with DiT-MoE. arXiv:2605.02641, 2026.世界模型blog世界模型bolg https://jinxindeep.github.io/blog/blog2026.html

查看全文

http://www.zskr.cn/news/1355992.html