当前位置：首页 > news >正文

20岁写出Transformer的人，真开源了2180亿大模型

news 2026/5/24 15:00:13

点击下方卡片关注“CVer”公众号AI/CV重磅干货第一时间送达点击进入—【顶会/顶刊】投稿交流群添加微信号CVer2233小助手拉你进群扫描下方二维码加入CVer学术星球可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用发论文/搞科研/涨薪强烈推荐转载自新智元【导读】刚刚Cohere放出2180亿参数的MoE大模型Command A单张B200可跑支持48种语言还带原生引用能力。但这次发布最炸的不在参数表上而在那一个许可证Apache 2.0。「Attention Is All You Need」正是这篇著名的论文催生了今天所有的大模型。5月20日该论文的一位共同作者Aidan Gomez在X上宣布推出首个完全开源的Apache 2.0许可的模型Cohere Command A。Gomez是前谷歌研究员如今是Cohere的联合创始人兼CEO。Command A是Command A家族的最后一个模型也是Cohere的第一个MoE混合专家模型。218B总参数25B激活参数一次性把视觉输入、推理、翻译和AI智能体能力全部塞进了同一个模型。最低部署配置1张NVIDIA B200或者2张H100。许可证Apache 2.0。https://cohere.com/blog/command-a-plus据VentureBeat报道这是Cohere历史上第一个真正可商用的开源旗舰。联合创始人Nick Frosst称它是「我们发过最好的模型」。2180亿参数每次干活的只有250亿2180亿参数听起来就是个吞算力的巨兽。但Command A每次生成真正被激活的只有250亿参数。这正是MoE架构的精髓。一个MoE模型会将进来的问题只路由给最擅长处理它的那几个「专家」神经网络其余部分保持休眠。这样的设计既让模型保留了「巨头级」的知识储备和推理能力但运行时的算力和能耗却接近一个小得多的模型。VentureBeat报道据第三方观察估计OpenAI的GPT-5.5、Anthropic的Claude Opus 4.7参数量都在万亿级别而Command A每次激活的参数只有250亿。靠MoE省算力如今是大多数头部模型的惯常做法。但Cohere在这个基础上又叠了第二层压缩量化。Command A提供BF16、FP8和高度压缩的W4A4三种版本其中W4A4是这次发布的技术核心。通常推理模型一旦被压缩复杂问题上的表现会肉眼可见地退步业内称之为「量化税」。Cohere的做法是只将MoE专家压到4-bit关键的注意力通路保留全精度再叠加一项叫量化感知蒸馏Quantization-Aware Distillation的技术。Cohere称其W4A4量化方案接近无损。据Cohere发布的性能数据显示W4A4版本在低并发下达到每秒375个token首token延迟仅113毫秒。正是靠这套方案让一个2180亿参数的模型能跑在单张NVIDIA B200上或者两张H100上。不同并发与量化下Command A与前代Command A Reasoning的速度和延迟对比。TOPS为每秒生成token数TTFT为首token延迟。数据由Cohere发布。这里所谓「单卡运行」指的是一张数据中心级的Blackwell B200并非消费级显卡。过去一个千亿级模型要一整个GPU集群伺候现在一台机器搞定。这正是Cohere这次想讲的故事大参数不再等于烧钱。Apache 2.0一张通往真开源的许可证如果只看参数和速度Command A是一次强大的工程升级。但更值得开发者们注意的是一张Apache 2.0许可证。在今天的AI圈「开源」是一个早被「玩坏」的词。很多领先的AI公司放出权重却套着限制性的商用条款大企业不许拿去做商业用途也不许用它训练竞品模型。下载可以研究可以真要赚钱回来买授权。Cohere过去在这个方向上也摇摆了很久。据VentureBeat报道它此前的Command R、Command R采用的是CC-BY-NC 4.0也就是「知识共享-非商业」许可。研究者和开发者能下载、能折腾、能评测但严禁商用。也就是说开放一半留一半。但到了Command A另一半也松开了。它采用了Apache 2.0一个OSI认可的真正开源许可证。从独立开发者到世界500强企业任何人都可以使用、修改、分发并商业化这个模型不付授权费也没有竞业条款。这是Cohere首次这么做它在一位写出Transformer的人的带领下全面倒向了真正的开源。据VentureBeat报道这个决定由联合创始人Nick Frosst力主推动。Frosst是Cohere三位联合创始人之一曾在谷歌大脑多伦多实验室做研究员是AI教父Geoffrey Hinton在那里最早的雇员之一。Cohere将旗舰模型从CC-BY-NC 4.0转到Apache 2.0意味着企业彻底不必再被供应商捆住。一家公司可以下载Command A的权重用自己高度机密的内部数据做微调部署在私有服务器甚至气隙网络里从此不再被Cohere的基础设施、定价变动或API稳定性绑住。Command A把「可追溯」做成模型的原生能力能跑和敢用完全是两回事。一个模型要真正进入金融、医疗、法律的生产环境真正的瓶颈不是模型能力而是可信。Command A在这件事上做了一个原生层面的设计原生引用native citation生成。当Command A从外部工具检索信息时它不只是把答案合成出来还会生成所谓的「grounding spans溯源标记」。通过在输出里嵌入特殊标签模型把它给出的每一条事实声明直接链接到它所引用的那份具体文档或那一行数据库记录。举个场景。你让它出一份当日销售报告它给出总销售额的同时会明确标出提供这个数字的那一次数据库查询结果。出处一目了然幻觉风险被压到最低。这种可追溯性对于受到严格监管的行业尤为重要。智能体能力也是这次发布的一个重点。Command A支持标准chat template下的对话式工具调用可以无缝对接内部API、搜索引擎或SQL数据库。它还是全多模态的在128K输入上下文里原生处理文本和图像适合分析扫描发票、图表和技术手册。Command A与Command A Vision的多模态能力对比Command A是Cohere首个多模态推理模型。数据由Cohere发布。据Cohere发布的性能数据显示在测试复杂推理的²-Bench Telecom上Command A从前代的37%跳到85%在衡量智能体编码能力的Terminal-Bench Hard上从3%爬到25%在AIME 25数学测试上从57%升到90%。Command A与前代Command A Reasoning在五项开源基准上的表现对比。数据由Cohere发布。这些都是VentureBeat援引Cohere自己发布的数据并非第三方独立评测。VentureBeat认为Command A以250亿激活参数的体量在纯推理和数学上可以媲美体量大出许多的模型但在深度智能体编码和综合智能的广度上它目前仍落后于DeepSeek等中国头部开源模型。比跑分更重要的是Command A把「可追溯」做成了模型的原生能力。Transformer作者联手辛顿门徒让Cohere真开源了最后再说一说Command A背后的两个人。https://arxiv.org/pdf/1706.037622017年Transformer论文《Attention Is All You Need》在谷歌诞生。八位作者中最年轻的Aidan Gomez当时只有 20 岁还是Google Brain实习生还在多伦多大学读计算机和数学本科。Aidan Gomez据TIME报道为了赶上一个重要AI会议的截稿他和同事们甚至睡在办公室里。后来他对TIME坦言那时没人能预料到这篇论文会把整个AI行业带到今天。Gomez擅长把底层架构变成能落地的东西。2017年他还发起了FOR.ai一个让研究者共享机器学习知识的协作项目后来演化成Cohere For AI。2019年他从谷歌大脑离开和Ivan Zhang、Nick Frosst一起在多伦多创办了Cohere。三个人选了一条和OpenAI不一样的路不做面向大众的聊天机器人只为企业做模型。Nick FrosstFrosst是Cohere联合创始人曾在AI教父Geoffrey Hinton的谷歌大脑多伦多实验室做研究员是那里最早的雇员之一业内常视他为Hinton的得意门生。研究方向是胶囊网络和模型可解释性。一个写出Transformer一个师承Hinton。Cohere从第一天起就具备了「把前沿研究做成企业能用的产品」的基因。到了Command A在Frosst的力主推动下Gomez拍板Cohere彻底松手把旗舰模型的许可证翻到Apache 2.0。据Cohere官方表示Command A是Command A家族的最后一个模型这往往也意味着下一个家族已经在路上了。长期以来数据隐私和成本控制把企业死死卡在这样一个瓶颈上想用前沿AI就必须依赖中心化的大型算力集群。这一次Command A把前沿级的推理、稳健的智能体工具调用、多模态能力和一套专为硬件效率设计的架构绑在了一起这一转变正在重写企业采纳AI的成本账。首先部署的门槛降了。过去一个千亿级模型要一整个GPU集群现在最低1张B200或2张H100就够。其次推理的开销也降了。W4A4版本的输出速度较前代Command A Reasoning最高提升63%延迟降低17%。算力时间就是金钱速度上去单位成本就下来。第三多语言的账也降了。新的分词器让非欧洲语言更省token阿拉伯语少20%日语少18%韩语少16%。推理按token计费token少了跨国和多语言部署的账单就跟着薄了。近期Cohere还宣布与德国AI公司Aleph Alpha合并。两家公司方向一致不押注聊天机器人而是为政府和大企业做能装进自家机房的AI。开源大模型的竞争已经进入下半场。上半场比的是参数规模下半场比的是另一件事谁能让企业把模型真正搬进自己的机房。参考资料https://cohere.com/blog/command-a-plushttps://venturebeat.com/technology/cohere-cracks-lossless-quantization-and-native-citations-with-first-full-apache-2-0-licensed-open-model-command-a编辑元宇本文系学术转载如有侵权请联系CVer小助手删文何恺明在MIT授课的课件PPT下载在CVer公众号后台回复何恺明即可下载566页课件PPT大家赶紧学起来CVPR 2026 所有论文和代码下载在CVer公众号后台回复CVPR2026即可下载CVPR 2026 所有论文和代码CV垂直方向和论文投稿交流群成立扫描下方二维码或者添加微信号CVer2233即可添加CVer小助手微信便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖目标检测、图像分割、目标跟踪、人脸检测识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。一定要备注研究方向地点学校/公司昵称如Mamba、多模态学习或者论文投稿上海上交卡卡根据格式备注可更快被通过且邀请进群▲扫码或加微信号: CVer2233进交流群 CVer计算机视觉知识星球人数破万如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料一定要扫描下方二维码加入CVer知识星球最强助力你的科研和工作 ▲扫码加入星球学习▲点击上方卡片关注CVer公众号整理不易请点赞和在看

查看全文

http://www.zskr.cn/news/1369091.html