当前位置: 首页 > news >正文

Xiaomi MiMo-V2-Flash 开源:高效推理、代码与 Agent 基座模型

Xiaomi MiMo-V2-Flash 是小米专为极致推理效率自研的总参数 309B(激活15B)的 MoE 模型,通过引入 Hybrid 注意力架构创新 及 多层 MTP 推理加速,在多个 Agent 测评基准上进入全球开源模型 Top 2;代码能力超过所有开源模型,比肩标杆闭源模型 Claude 4.5 Sonnet,但推理价格仅为其2.5%且生成速度提升至2 倍,成功将大模型效果和推理效率推向极致。

<center>全球顶尖模型测评基准效果对比</center>

秉持开放精神,模型权重和推理代码均全面开源。API限时免费,体验 WebDemo已上线

推理成本与速度的极致优化

MiMo-V2-Flash 的 API 定价为:输入 0.7 元 / 百万 tokens,输出 2.1 元 / 百万 tokens。

下图为全球顶尖模型速度和成本的对比,MiMo-V2-Flash 实现了低成本、高速度。

<center>全球顶尖模型速度 vs 成本</center>

面向高效推理的结构创新

模型结构要点如下:

  • 混合注意力

采用 5:1 的 Sliding Window Attention (SWA) 与 Global Attention(GA)混合结构,128 窗口大小,原生 32K 外扩 256K 训练。经前期大量实验发现,SWA 简单、高效、易用,展现了比主流 Linear Attention 综合更佳的通用、长文和推理能力,并提供了固定大小的 KV Cache 从而极易适配现有训练和推理 Infra 框架。

<center>MiMo-V2-Flash 模型架构</center>

  • MTP推理加速

引入 MTP (Multi-Token Prediction) 训练提升基座能力的同时,在推理阶段通过并行验证 MTP Token,打破了传统 Decoding 在大 Batch 下的显存带宽瓶颈,实测在 3 层 MTP 情况下可实现2.8~3.6 的接收长度和 2.0~2.6实际加速比

整体而言,得益于模型结构与训推 Infra 的深度融合与创新,MiMo-V2-Flash 可以在不同的硬件上通过调优 Batch Size 和 MTP 层数来最大化释放 GPU 算力,从而展现出更高的吞吐,并维持优秀的低时延以及极致推理性能。

此外,我们发现,MiMo-V2-Flash 非常适合高效的强化学习训练。它既支持小 Batch 的 On-Policy RL 训练,又能缓解长尾样本导致的 GPU 闲置。虽然主流方法采用大 Batch 的 Off-Policy RL 以最大化吞吐量,但 MTP 通过扩展 token 级并行,使小 Batch On-Policy RL 既稳定又高效。在推理采样后期,个别生成序列极长的样本会导致有效 Batch Size 减小,造成 GPU 算力闲置。而 MTP 能显著提升注意力和前馈网络的计算效率,从而降低整体延迟。

全新的后训练范式:MOPD

<center>全新的后训练范式(MOPD)</center>

在后训练阶段,为高效扩展后训练阶段的强化学习(RL)计算规模,提升模型推理与 Agent 能力,我们提出 Multi-Teacher On-Policy Distillation(MOPD)范式。其核心在于一种高效的 On-Policy 学习机制:在通过 SFT/RL 获取各领域专家教师后,学生模型基于自身策略分布进行采样(Rollout),并利用多教师提供的 Dense & Token-level Reward 进行优化。

MOPD 训练稳定且极具效率,仅需传统 SFT+RL 流程不到 1/50 的计算资源,即可追上教师模型的峰值能力。此外,MOPD 采用解耦设计,支持灵活引入新教师与 ORM(Outcome Reward Model)集成,并天然支持“教学相长”的闭环迭代:蒸馏后的学生模型可进化为更强教师,实现能力的持续自我强化。

模型技术、推理代码开源

MiMo-V2-Flash 模型现已在 HuggingFace 开源(MIT 协议),技术报告同步发布:

模型:

https://huggingface.co/xiaomimimo/MiMo-V2-Flash

论文:

https://github.com/XiaomiMiMo/MiMo-V2-Flash/blob/main/paper.pdf

同时,我们在 Day0 共享所有推理代码至 SGLang 并开源,社区实测单机结果如下:

  • 在 Prefill 单机吞吐约 50000 toks/s 的条件下,不同 Context Length 都取得了优越的 TTFT 性能

  • 得益于 3 层 MTP,在 16K 的 Context Length 情况下,Decode 可以做到单机吞吐 5000 ~ 15000 toks/s 的同时达到 151 ~ 115 toks/s 的 单请求吞吐

详情查看 LMSYS 官方博客:lmsys.org/blog/2025-12-16-mimo-v2-flash

API 限时免费,体验 Web 上线

访问 platform.xiaomimimo.com,可以一键兼容 Claude Code、Cursor、Cline、Kilo Code 等框架。

即刻登录 MiMo Studio Web:aistudio.xiaomimimo.com,免费体验模型。

真实体验

Web 开发:初具“描述世界”的能力

写一个操作系统

模拟太阳系

画一颗圣诞树

对话与写作能力:极具对世界的热忱

MiMo-V2-Flash 在对话和创作过程中,有独特的性格特征:简洁平实、有自信,同时极具同理心,满怀对世界的热忱。

http://www.zskr.cn/news/117842.html

相关文章:

  • 【基于模型的强化学习】#1 引论:Dyna架构
  • CTF 比赛值得参加吗?计算机专业参赛必要性分析,附门槛要求与获奖好处!
  • Xhorse XDMPR8GL Adapter: Program MQB-RH850/V850 ECUs with Xhorse Multi Prog
  • 超适合CSDN站和B站的英语环境生成器。颠覆传统:忘掉“学”英语,开始“接触”英语!
  • React Native中实现鸿蒙跨平台开发使用状态管理库如`Redux`或`MobX`来管理应用状态,尤其是在处理多个组件共享状态时,使用`AsyncStorage`来存储用户数据和配置
  • 【毕业设计】基于 SpringBoot+Vue 的校园论坛微信小程序的设计与实现基于springboot+微信小程序的校园活动管理系统设计与实现(源码+文档+远程调试,全bao定制等)
  • Cordova与OpenHarmony目标进度可视化
  • 【毕业设计】基于springboot+微信小程序的应急救援小能手软件系统的设计与实现(源码+文档+远程调试,全bao定制等)
  • 树莓派运行 DeepSeek 大模型实战:轻量化模型选型与内存占用控制精要
  • Python 爬虫实战:详解 requests 库发送 GET/POST 请求
  • 列表虚拟化的实现-百万数据轻松展示
  • Cordova与OpenHarmony训练计划制定
  • Day32:SPI 配置与使用
  • 计算机小程序毕设实战-基于springboot+微信小程序的DIY电脑朱庄配件方案推荐与交流平台【完整源码+LW+部署说明+演示视频,全bao一条龙等】
  • Python 爬虫实战:将爬取数据存入 CSV 表格
  • 测试环境如何生成自签名证书用于 HTTPS
  • day38打卡
  • 大岩资本黄铂:A股量化的未来是细节致胜
  • 计算机小程序毕设实战-基于springboot+微信小程序的餐厅预约系统设计与实现基于SpringBoot的在线点餐系统微信小程序【完整源码+LW+部署说明+演示视频,全bao一条龙等】
  • Python 爬虫实战:urllib 库的核心用法与实战案例
  • DPJ-137 基于单片机的公交车自动报站系统设计(源代码+proteus仿真)
  • 【毕业设计】基于WEB的景点门票销售系统基于JAVA白云山景点门票销售管理系统(源码+文档+远程调试,全bao定制等)
  • 计算机小程序毕设实战-基于springboot+微信小程序的在线复习小程序基于SpringBoot+微信小程序考试刷题系统【完整源码+LW+部署说明+演示视频,全bao一条龙等】
  • 电动汽车负荷随机性下的蓄电池容量优化配置:MATLAB实现与探索
  • 【毕业设计】基于Java的校内外卖订餐点餐配送系统基于JAVA的学院校内订餐系统的实现(源码+文档+远程调试,全bao定制等)
  • 硬盘突然坏掉,我花了半个月才把数据救回来…(附数据恢复工具)
  • 【毕业设计】基于Javaweb的租车管理系统的设计与实现(源码+文档+远程调试,全bao定制等)
  • II CZOI Round 7P14081 「CZOI-R7」炸弹游戏
  • 基于LangBot的插件编写
  • 计算机小程序毕设实战-基于springboot+微信小程序的跑腿小程序的设计与实现基于微信程序的跑腿平台的设计与实现【完整源码+LW+部署说明+演示视频,全bao一条龙等】