当前位置: 首页 > news >正文

2B以下全球最佳!AI训练AI,面壁小钢炮训练成本比英伟达低10%

面壁智能的新一代小钢炮来了。5月25日面壁智能联合清华大学、OpenBMB开源社区正式发布MiniCPM5-1B1B10亿参数规模在权威榜单Artificial AnalysisAA上拿下17.9分超越所有2B以下模型包括参数翻倍的Qwen3.5-2B。更小更强又一次验证了面壁持续追踪、曾登上Nature的密度定律大模型智能密度约每3.5个月翻一番。面壁小钢炮家族模型参数小能量大个顶个都非常能打。而且MiniCPM5-1B基础模型竟然是AI亲手锻造的训练框架训出来的全球同尺寸最优的基座模型。小钢炮的家底面壁智能做端侧模型不愧为“小钢炮”。从2024年2月至今每一代小钢炮都在干同一件事用更小的参数打出超越体量的成绩。2024年2月初代面壁MiniCPM登场2B参数在多项主流评测榜单上超越了法国当红模型Mistral-7B越级比肩Llama2-13B。Int4量化后只占2GB内存已经能跑在手机上。那会儿行业还在卷大参数面壁反其道而行把模型往小了做往强了做。同年9月MiniCPM 3.0发布4B参数性能超越GPT-3.5-Turbo-0125媲美多款7B至9B参数模型。量化后同样只需2GB内存工具调用、代码解释、长文本处理都能跑。面壁把这一代叫做端侧ChatGPT时刻4B参数的模型在手机上跑出GPT-3.5级别的表现。2025年6月MiniCPM4.0上线提供8B和0.5B两种参数规格。8B版本通过自研CPM.cu推理框架在极限场景下实现最高220倍提速常规5倍提速。0.5B版本继续以小博大。同年8月多模态版本MiniCPM-V 4.5开源8B参数性能超越72B模型行业首个具备高帧率视频理解能力的多模态模型。2026年2月MiniCPM-o 4.5发布9B参数全双工多模态实时流机制同时看听说。5月11日MiniCPM-V 4.6发布1.3B参数登顶同尺寸多模态榜单。两年多时间面壁小钢参数越来越小能力越来越强每一代都在刷新端侧模型的性能天花板。个顶个都是小参数、大能量。这一代的主角MiniCPM5-1B。1B参数大约是GPT-3的百分之一大约是很多主流开源模型的十分之一甚至更少。面壁用这么小的模型在AA榜单上拿了17.9分超过Qwen3.5-2B的16.3分。参数少一半分数还更高。具体来看MiniCPM5-1B在知识、数学推理、代码推理、工具调用等维度全面超越同尺寸基座模型包括Qwen3.5-0.8B、LFM2.5-1.2B-Thinking等。在AA的小尺寸模型榜单中MiniCPM5-1B以17.9分位居第一Qwen3.5-2B为16.3分。一个1B参数的模型站在了2B参数规模的最顶端。大模型的智能密度正在以约每3.5个月翻一番的速度持续提升。3个月前Qwen3.5-2B还是2B参数规模的最优3个月后MiniCPM5-1B用一半参数超越了它。更小的模型承载了更高的智能密度。面壁曾联合清华大学在Nature上发表的研究基于对51个主流大模型的严谨回测揭示了这个规律从2023年到2025年大模型智能密度以每3.5个月翻倍的速度增长。数据定上限1B模型强大靠的是训练数据的质量。面壁在MiniCPM5-1B的训练过程中构建了一套分级数据治理体系将预训练数据按照质量从低到高划分为L0至L4五个等级每一级对应不同的清洗、筛选和质量控制标准。与其用海量低质数据灌出一个模型不如用精选高密度数据养出一个模型。在1B参数规模下每一条训练数据的质量都直接影响最终性能。在这个体系之上研究团队针对三个关键方向开展大规模高质量预训练数据合成高知识密度中文网页语料、高知识密度英文网页语料、高质量数学合成语料。三个方向精准发力。高质量合成数据集Ultra-FineWeb-L3也将随模型一起开源供社区使用和研究。https://huggingface.co/collections/openbmb/ultradata这一点值得多说一句面壁每次发模型都把训练数据一并开源这在行业里不多见。模型开源不稀奇数据也开源才是真开源。AI造AIMiniCPM5-1B的Base Model版本由面壁即将发布的AI训练框架ForgeTrain在国产芯片上预训练完成。ForgeTrain是全球首个完全由AI编写的生产级大模型训练框架全部代码由AI生成人类工程师零代码介入。在英伟达H100上ForgeTrain的训练速度超越英伟达自家的Megatron框架快了约10%相当于训练成本下降10%。一个由AI编写的训练框架训出了全球2B以下参数规模综合性能最优的基座模型。AI制造AI已经在持续产出可验证的、性能领先的成果。Anthropic CEO Dario Amodei预言2028年AI能编写AI面壁用ForgeTrain加MiniCPM5-1B的组合给出了一个提前量。这个方向叫递回归智能RSIRecursive Self-ImprovementAI自我改进、自我进化的能力。ForgeTrain证明了这条路走得通而且产出的结果经得起公开榜单的检验。几乎啥设备都能跑MiniCPM5-1B几乎啥设备都能跑。INT4量化后权重仅0.5GB占用空间比一部短视频还小。运行环境的兼容性也很广。有GPU直接跑FP16性能拉满。只有CPU面壁联合清华大学、OpenBMB开源了自研CPU推理框架ArcLight专门为纯CPU环境做了深度优化没有显卡也能流畅对话。https://github.com/OpenBMB/ArcLight面壁对MiniCPM5-1B的定位是零门槛端侧模型不挑硬件不挑平台不挑用户。只要你想跑就一定能跑起来。微调方面支持Llama_factory、ms_swift等主流微调框架。推理方面适配SGLang、vLLM、llama.cpp、ollama、Hugging Face、ArcLight等推理框架。还提供了配套的安装skills如果你在用Claude Code或类似的AI编程工具可以直接让AI帮你完成环境配置和部署用AI装AI一行命令都不用自己敲。https://github.com/OpenBMB/MiniCPM/tree/main/skills1B参数的模型能干什么面壁给了一个很生动应用示例AI桌宠。https://www.youtube.com/watch?vEe0slMW8SEk跑在你的手机上、电脑上无论何时何地、有网没网都能贴心陪伴。不需要GPU集群不需要云端API一台普通笔记本、一部手机已足够。端侧AI真正激动人心的地方不是把云端大模型的能力打折后塞进小设备而是让小尺寸模型本身就足够强强到能独立驱动真实应用。MiniCPM5-1B现已全面开源包括模型权重、训练数据集与部署方案。更小的参数更高的智能更低的门槛面壁小钢炮又往前走了一步。参考资料https://modelscope.cn/models/OpenBMB/MiniCPM5-1Bhttps://huggingface.co/openbmb/MiniCPM5-1Bhttps://github.com/OpenBMB/MiniCPMhttps://github.com/OpenBMB/MiniCPM-Desk-Pet
http://www.zskr.cn/news/1405149.html

相关文章:

  • 东莞黄金回收市场深度解析:为何东城鑫盛寄卖行稳居本地前茅 - 资讯纵览
  • 2026成都西装定制高品质权威评测:5家顶级店铺深度解析 - 西装爱好者
  • WeChatExporter:三步实现iOS微信聊天记录永久备份,告别数据丢失烦恼
  • 云原生微服务架构的隐性成本:认知扩散、网络复杂性与运维挑战
  • 终极鸣潮自动化工具:简单快速解放双手的完整指南
  • 如何在Windows 10/11上实现3秒快速OCR文字识别?Text-Grab全功能指南
  • 基于同轴偶极天线的无源射频传感:原理、设计与骨科力学监测应用
  • 【ChatGPT心理健康支持实战指南】:20年临床心理+AI工程双背景专家亲授5大安全干预框架(附FDA级伦理校验清单)
  • 金价狂飙990元/克!连云港黄金回收实测:金福楼黄金回收靠谱到让我想吹爆 - 润富黄金珠宝行
  • 告别网盘下载烦恼:八大平台直链下载神器完全指南
  • Homebrew 包管理器新手极速上手指南
  • 突破性开源方案:如何在Mac上实现完全免费的NTFS读写自由?
  • 金裕恒黄金回收:2026年5月石家庄卖金子的人都在找这家,实测报价只差1块钱! - 润富黄金珠宝行
  • ChatGPT投资回报率实证研究:回测2022–2024年237只AI概念股,仅这4只跑赢纳斯达克指数3倍以上
  • ChatGPT客户旅程地图:如何用实时对话日志自动识别流失预警节点(附Python自动化脚本)
  • 多智能体系统与IEC 61850融合:构建智能电网分布式大脑与神经
  • 网站SEO服务有哪些?网站被降权后的3步抢救细节
  • 数据空间——解读2026 金融业基于数据空间的数据要素流通网络关键技术研究【附全文阅读】
  • 网站SEO服务有哪些?真正能带来询盘的其实就这6项
  • OpenHarmony SystemUI 系统应用分析
  • 2026 北京品牌手表回收老店对比:收的顶精准评估占据优势 - 奢侈品回收测评
  • MPC算法
  • Taotoken API Key的精细化管理与访问审计实践指南
  • 【Java并发编程实战】CountDownLatch、CyclicBarrier、Semaphore 的区别详解
  • 超越基础控制:用Joystick Pack插件实现角色平滑转向、摄像机跟随与技能瞄准
  • 2026年哪些防脱洗发水产品好用,这几款最值得推荐 - 资讯纵览
  • 内容分发矩阵系统:从“人肉搬砖“到“智能调度“的效率革命
  • XMind 2025 Pro版本安装和使用
  • 多平台运营矩阵系统:跨平台协同的底层逻辑与2026年落地指南
  • 开源超声波相控阵平台Ultraino:低成本实现声悬浮与触觉反馈