当前位置: 首页 > news >正文

20岁写出Transformer的人,真开源了2180亿大模型

点击下方卡片关注“CVer”公众号AI/CV重磅干货第一时间送达点击进入—【顶会/顶刊】投稿交流群添加微信号CVer2233小助手拉你进群扫描下方二维码加入CVer学术星球可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用发论文/搞科研/涨薪强烈推荐转载自新智元【导读】刚刚Cohere放出2180亿参数的MoE大模型Command A单张B200可跑支持48种语言还带原生引用能力。但这次发布最炸的不在参数表上而在那一个许可证Apache 2.0。「Attention Is All You Need」正是这篇著名的论文催生了今天所有的大模型。5月20日该论文的一位共同作者Aidan Gomez在X上宣布推出首个完全开源的Apache 2.0许可的模型Cohere Command A。Gomez是前谷歌研究员如今是Cohere的联合创始人兼CEO。Command A是Command A家族的最后一个模型也是Cohere的第一个MoE混合专家模型。218B总参数25B激活参数一次性把视觉输入、推理、翻译和AI智能体能力全部塞进了同一个模型。最低部署配置1张NVIDIA B200或者2张H100。许可证Apache 2.0。https://cohere.com/blog/command-a-plus据VentureBeat报道这是Cohere历史上第一个真正可商用的开源旗舰。联合创始人Nick Frosst称它是「我们发过最好的模型」。2180亿参数每次干活的只有250亿2180亿参数听起来就是个吞算力的巨兽。但Command A每次生成真正被激活的只有250亿参数。这正是MoE架构的精髓。一个MoE模型会将进来的问题只路由给最擅长处理它的那几个「专家」神经网络其余部分保持休眠。这样的设计既让模型保留了「巨头级」的知识储备和推理能力但运行时的算力和能耗却接近一个小得多的模型。VentureBeat报道据第三方观察估计OpenAI的GPT-5.5、Anthropic的Claude Opus 4.7参数量都在万亿级别而Command A每次激活的参数只有250亿。靠MoE省算力如今是大多数头部模型的惯常做法。但Cohere在这个基础上又叠了第二层压缩量化。Command A提供BF16、FP8和高度压缩的W4A4三种版本其中W4A4是这次发布的技术核心。通常推理模型一旦被压缩复杂问题上的表现会肉眼可见地退步业内称之为「量化税」。Cohere的做法是只将MoE专家压到4-bit关键的注意力通路保留全精度再叠加一项叫量化感知蒸馏Quantization-Aware Distillation的技术。Cohere称其W4A4量化方案接近无损。据Cohere发布的性能数据显示W4A4版本在低并发下达到每秒375个token首token延迟仅113毫秒。正是靠这套方案让一个2180亿参数的模型能跑在单张NVIDIA B200上或者两张H100上。不同并发与量化下Command A与前代Command A Reasoning的速度和延迟对比。TOPS为每秒生成token数TTFT为首token延迟。数据由Cohere发布。这里所谓「单卡运行」指的是一张数据中心级的Blackwell B200并非消费级显卡。过去一个千亿级模型要一整个GPU集群伺候现在一台机器搞定。这正是Cohere这次想讲的故事大参数不再等于烧钱。Apache 2.0一张通往真开源的许可证如果只看参数和速度Command A是一次强大的工程升级。但更值得开发者们注意的是一张Apache 2.0许可证。在今天的AI圈「开源」是一个早被「玩坏」的词。很多领先的AI公司放出权重却套着限制性的商用条款大企业不许拿去做商业用途也不许用它训练竞品模型。下载可以研究可以真要赚钱回来买授权。Cohere过去在这个方向上也摇摆了很久。据VentureBeat报道它此前的Command R、Command R采用的是CC-BY-NC 4.0也就是「知识共享-非商业」许可。研究者和开发者能下载、能折腾、能评测但严禁商用。也就是说开放一半留一半。但到了Command A另一半也松开了。它采用了Apache 2.0一个OSI认可的真正开源许可证。从独立开发者到世界500强企业任何人都可以使用、修改、分发并商业化这个模型不付授权费也没有竞业条款。这是Cohere首次这么做它在一位写出Transformer的人的带领下全面倒向了真正的开源。据VentureBeat报道这个决定由联合创始人Nick Frosst力主推动。Frosst是Cohere三位联合创始人之一曾在谷歌大脑多伦多实验室做研究员是AI教父Geoffrey Hinton在那里最早的雇员之一。Cohere将旗舰模型从CC-BY-NC 4.0转到Apache 2.0意味着企业彻底不必再被供应商捆住。一家公司可以下载Command A的权重用自己高度机密的内部数据做微调部署在私有服务器甚至气隙网络里从此不再被Cohere的基础设施、定价变动或API稳定性绑住。Command A把「可追溯」做成模型的原生能力能跑和敢用完全是两回事。一个模型要真正进入金融、医疗、法律的生产环境真正的瓶颈不是模型能力而是可信。Command A在这件事上做了一个原生层面的设计原生引用native citation生成。当Command A从外部工具检索信息时它不只是把答案合成出来还会生成所谓的「grounding spans溯源标记」。通过在输出里嵌入特殊标签模型把它给出的每一条事实声明直接链接到它所引用的那份具体文档或那一行数据库记录。举个场景。你让它出一份当日销售报告它给出总销售额的同时会明确标出提供这个数字的那一次数据库查询结果。出处一目了然幻觉风险被压到最低。这种可追溯性对于受到严格监管的行业尤为重要。智能体能力也是这次发布的一个重点。Command A支持标准chat template下的对话式工具调用可以无缝对接内部API、搜索引擎或SQL数据库。它还是全多模态的在128K输入上下文里原生处理文本和图像适合分析扫描发票、图表和技术手册。Command A与Command A Vision的多模态能力对比Command A是Cohere首个多模态推理模型。数据由Cohere发布。据Cohere发布的性能数据显示在测试复杂推理的²-Bench Telecom上Command A从前代的37%跳到85%在衡量智能体编码能力的Terminal-Bench Hard上从3%爬到25%在AIME 25数学测试上从57%升到90%。Command A与前代Command A Reasoning在五项开源基准上的表现对比。数据由Cohere发布。这些都是VentureBeat援引Cohere自己发布的数据并非第三方独立评测。VentureBeat认为Command A以250亿激活参数的体量在纯推理和数学上可以媲美体量大出许多的模型但在深度智能体编码和综合智能的广度上它目前仍落后于DeepSeek等中国头部开源模型。比跑分更重要的是Command A把「可追溯」做成了模型的原生能力。Transformer作者联手辛顿门徒让Cohere真开源了最后再说一说Command A背后的两个人。https://arxiv.org/pdf/1706.037622017年Transformer论文《Attention Is All You Need》在谷歌诞生。八位作者中最年轻的Aidan Gomez当时只有 20 岁还是Google Brain实习生还在多伦多大学读计算机和数学本科。Aidan Gomez据TIME报道为了赶上一个重要AI会议的截稿他和同事们甚至睡在办公室里。后来他对TIME坦言那时没人能预料到这篇论文会把整个AI行业带到今天。Gomez擅长把底层架构变成能落地的东西。2017年他还发起了FOR.ai一个让研究者共享机器学习知识的协作项目后来演化成Cohere For AI。2019年他从谷歌大脑离开和Ivan Zhang、Nick Frosst一起在多伦多创办了Cohere。三个人选了一条和OpenAI不一样的路不做面向大众的聊天机器人只为企业做模型。Nick FrosstFrosst是Cohere联合创始人曾在AI教父Geoffrey Hinton的谷歌大脑多伦多实验室做研究员是那里最早的雇员之一业内常视他为Hinton的得意门生。研究方向是胶囊网络和模型可解释性。一个写出Transformer一个师承Hinton。Cohere从第一天起就具备了「把前沿研究做成企业能用的产品」的基因。到了Command A在Frosst的力主推动下Gomez拍板Cohere彻底松手把旗舰模型的许可证翻到Apache 2.0。据Cohere官方表示Command A是Command A家族的最后一个模型这往往也意味着下一个家族已经在路上了。长期以来数据隐私和成本控制把企业死死卡在这样一个瓶颈上想用前沿AI就必须依赖中心化的大型算力集群。这一次Command A把前沿级的推理、稳健的智能体工具调用、多模态能力和一套专为硬件效率设计的架构绑在了一起这一转变正在重写企业采纳AI的成本账。首先部署的门槛降了。过去一个千亿级模型要一整个GPU集群现在最低1张B200或2张H100就够。其次推理的开销也降了。W4A4版本的输出速度较前代Command A Reasoning最高提升63%延迟降低17%。算力时间就是金钱速度上去单位成本就下来。第三多语言的账也降了。新的分词器让非欧洲语言更省token阿拉伯语少20%日语少18%韩语少16%。推理按token计费token少了跨国和多语言部署的账单就跟着薄了。近期Cohere还宣布与德国AI公司Aleph Alpha合并。两家公司方向一致不押注聊天机器人而是为政府和大企业做能装进自家机房的AI。开源大模型的竞争已经进入下半场。上半场比的是参数规模下半场比的是另一件事谁能让企业把模型真正搬进自己的机房。参考资料https://cohere.com/blog/command-a-plushttps://venturebeat.com/technology/cohere-cracks-lossless-quantization-and-native-citations-with-first-full-apache-2-0-licensed-open-model-command-a编辑元宇本文系学术转载如有侵权请联系CVer小助手删文何恺明在MIT授课的课件PPT下载在CVer公众号后台回复何恺明即可下载566页课件PPT大家赶紧学起来CVPR 2026 所有论文和代码下载在CVer公众号后台回复CVPR2026即可下载CVPR 2026 所有论文和代码CV垂直方向和论文投稿交流群成立扫描下方二维码或者添加微信号CVer2233即可添加CVer小助手微信便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖目标检测、图像分割、目标跟踪、人脸检测识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注研究方向地点学校/公司昵称如Mamba、多模态学习或者论文投稿上海上交卡卡根据格式备注可更快被通过且邀请进群▲扫码或加微信号: CVer2233进交流群 CVer计算机视觉知识星球人数破万如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料一定要扫描下方二维码加入CVer知识星球最强助力你的科研和工作 ▲扫码加入星球学习▲点击上方卡片关注CVer公众号 整理不易请点赞和在看
http://www.zskr.cn/news/1369091.html

相关文章:

  • 矩阵补全在贸易政策评估中的应用:从原理到实践
  • 机器学习与社会网络分析预测AI领域明星科学家:特征工程与模型构建实战
  • Gemini识别截图/手写公式/模糊截图总出错?一线算法团队逆向拆解其视觉编码器瓶颈,5步调优方案已验证提升准确率38.2%
  • 3分钟搞定100篇文献:PubMed批量下载神器完全指南
  • 瑞丽市2026最新黄金回收本地口碑商家榜:黄金首饰+白银+铂金+彩金回收门店及联系方式推荐 - 前途无量YY
  • 终极视频字幕神器:VideoSrt让字幕制作从3小时变3分钟![特殊字符]
  • 79万中文医疗对话数据集:构建智能医疗问答系统的核心技术资源
  • DeepSeek缓存命中率从62%跃升至98.7%:4步渐进式策略重构全链路缓存体系
  • JMeter接口测试与压力测试的正确打开方式
  • MASA全家桶汉化包:彻底解决Minecraft模组语言障碍的完整方案
  • 终极AI换脸指南:用roop-unleashed轻松制作专业级深度伪造视频
  • Unity多版本开发环境科学管理指南
  • 3D打印多色技巧大揭秘
  • CD-GraB:协调分布式梯度平衡算法,提升训练稳定性与收敛速度
  • 解锁遗传数据分析新高度:5步掌握gwasglue的完整工作流
  • 什么才是真正重要的?什么能让我感到真正的快乐:从“向外证明“转向“向内确认“的转变
  • 财富从来都不是社会的目标,它只是实现目标的手段:如果我拥有了花不完的钱,我会做什么
  • 沙河市2026最新黄金回收本地口碑商家榜:黄金首饰+白银+铂金+彩金回收门店及联系方式推荐 - 前途无量YY
  • BilibiliDown:3分钟快速掌握B站视频下载的完整解决方案
  • ODM完全指南:5个步骤从无人机照片生成专业三维模型与正射影像
  • XTDrone深度解析:如何实现10架无人机集群仿真与编队控制
  • 穆棱市2026最新黄金回收本地口碑商家榜:黄金首饰+白银+铂金+彩金回收门店及联系方式推荐 - 前途无量YY
  • unrpa深度解析:解锁Ren‘Py游戏资源的全能密钥
  • PVZ Toolkit终极指南:如何用专业工具解锁植物大战僵尸无限可能
  • FanControl终极指南:5分钟实现Windows风扇智能控制,告别散热噪音烦恼
  • Backtrader止损策略深度解析:从风险控制到实战精要
  • 如何3步完成Windows硬件指纹伪装:EASY-HWID-SPOOFER终极指南
  • Python之streammap包语法、参数和实际应用案例
  • Python之ansictrls包语法、参数和实际应用案例
  • 游戏性能革命:DLSS智能管理完全攻略