当前位置: 首页 > news >正文

MoE混合专家模型是什么?

MoE混合专家模型能在保住模型整体容量的前提下明显减少计算开销。我们项目里用的是阿里的MoE模型结尾带A3B。之前给甲方做汇报有个同事不清楚A3B是什么还一本正经解释成智能体参数说就只是3B参数当时听着特别离谱。我虽然没仔细研究过千问系列的命名但A3B是智能体参数这个说法明显不对。好在当时甲方没人听出来之后我就特意去查了A3B到底是什么意思。查完才知道千问系列里A*B这种命名是有规律的主要和MoE混合专家模型有关。MoE混合专家模型是什么可能有些人了解过混合专家模型但更多人其实还不清楚 MoE 到底是什么MoE 其实早在几十年前就已经出现而在国内真正被大家熟知还是在 DeepSeek 模型火起来之后因为它就是基于 MoE 架构做出来的。MoE 的全称是 Mixture of Experts也就是混合专家模型。它大概在 1991 年由 Michael I. Jordan 和 Robert A. Jacobs 等人提出核心思路就是把多个专家模型组合在一起去处理复杂任务每个专家只专注做好自己擅长的那一部分。MoE 模型会通过一个“门控”机制根据输入内容的特点自动选出最合适的专家来工作。简单说基于 MoE 架构的模型是由很多个子模块组成的每个子模块就是一个“专家 Expert”各自擅长不同的任务。真正跑任务的时候只让和当前任务相关的专家参与其他专家可以不工作。任务分配时会有一个前置的“门控”来判断需要哪些专家需要谁就激活谁。比如一个 300 亿参数的模型某个任务只需要 3 个专家参与对应参数量是 30 亿那它的激活参数就是 3B。举个好懂的例子你们班要参加一个综合学术竞赛不限制科目所以要找擅长不同学科的同学组成队伍。比赛时根据具体题目只让一个或几个对应的同学去解题就行。这支参赛队伍就相当于一个 MoE 模型每个同学就是一个专家。碰到物理、化学题就激活擅长物理、化学、数学的同学碰到历史、文学题就激活擅长历史、文学的同学其他同学可以暂时休息。这么做的好处很明显能用更少的资源解决更多的问题。所以激活参数 Activated Parameters 是 MoE 混合专家模型里的核心概念指的是每次推理时真正被激活、参与计算的那一部分参数。这种设计会动态调用部分专家来处理输入在保证模型能力的同时大幅降低计算成本。毕竟从道理上讲培养一批各有所长的人远比培养一个什么都会的全能人才要容易得多。激活参数的定义与作用动态专家选择Qwen 的 MoE 模型比如 Qwen3-235B-A22B是由多个专家网络组成的每一次输入只会激活其中一部分专家比如 8 个专家里只激活 2 个激活参数指的就是这些被选中专家的参数。降低计算成本举个例子Qwen3-30B-A3B 总参数有 300 亿但每次推理只激活 30 亿参数只占总参数的 10%却能达到和更大的普通稠密模型差不多的效果。提升效率通过控制激活参数的大小模型在训练和推理时显存占用、计算量都会明显减少很适合在资源有限的场景下使用。激活参数的技术优势混合思维模式Qwen3 支持思考模式和非思考模式用户可以用 /think 或 /no_think 这样的指令灵活调整激活参数的使用方式在推理深度和速度之间做平衡。优化资源配置通过控制激活参数的比例模型可以根据任务难度自动分配算力。简单问题只用少量激活参数快速回答复杂问题就激活更多参数做深度推理。开发者如何利用激活参数参数调整接口用户可以通过 API 参数比如 top_k、top_p来影响模型对专家的选择间接控制激活参数的大小。部署工具支持推荐用 SGLang、vLLM 这类框架进行部署本地工具像 Ollama、llama.cpp 也都支持激活参数的动态管理。
http://www.zskr.cn/news/1392826.html

相关文章:

  • 现在不部署AI Agent区块链接口,半年后将丧失智能合约升级主动权?——监管沙盒窗口期倒计时47天
  • 虚假评论检测技术:从机器学习到深度学习的实战解析
  • 如何用G-Helper替代Armoury Crate:华硕笔记本的终极轻量控制方案
  • 五大路径助力卡号2326沃尔玛卡回收,商超卡流转新方式 - 京回收小程序
  • 6款论文降AI率软件实测:AI率秒归安全区,学生党狂喜款
  • 2026 降AI率网站深度实测:实测靠谱,毕业季必备宝典
  • 3分钟搞定Windows Defender:用WSC API优雅关闭安全防护
  • 如何在电脑上免费玩Switch游戏:Ryujinx模拟器完整指南
  • DC-DC变换器变开关频率控制:ESSA建模与双环PID/LQG设计实践
  • Kaggle Notebooks工作流内核:环境复现、数据版本化与协作调试
  • 别再叫它 GPT 了!Codex 才是 AI 编程的“真工程师”——深度拆解优势、风险与落地全指南
  • 2026 年 LSFMM+BPF 峰会聚焦内核交换子系统:性能提升、闪存友好与模块化后端探索
  • 终极指南:XXMI启动器 - 一站式多游戏模组管理平台
  • 5分钟免费激活IDM:终极永久试用冻结方案详解
  • 数字供应链顶层设计规划方案:构建“智能采购”、“数字物流”、“全景质控”三大业务链,打造“智慧运营”中心
  • 告别ST-LINK!用DAPLink+OpenOCD在STM32CubeIDE里实现高速调试(保姆级避坑指南)
  • 为什么83%的施工项目上线Lovable后首月进度偏差率下降47%?——平台智能预警引擎深度拆解
  • A/B测试与Split平台:从功能标志到数据驱动决策的完整实践
  • 制造业IT投资决策:行为经济学与组织能量分析
  • 基于层次参数直方图的序列文档可视化:从文本到视觉故事线
  • 昆山尊众建筑装饰工程:靠谱的昆山全屋翻新公司 - LYL仔仔
  • 不是只有聊天:魔珐星云+DeepSeek让3D数字人做你的全天候心理绿洲
  • 开源协作机械臂OpenArm:从零到一的完整指南,轻松构建你的第一台智能机器人
  • 不懂产品管理的人,正在被淘汰
  • 终极指南:如何用Excel零代码掌握15种AI核心算法
  • 深度学习LSTM模型结合SGD优化器实现乳腺癌生存预测
  • B站字幕下载终极指南:3步解锁CC字幕提取完整方案
  • 2026年贵州高端生肖酱酒品鉴指南:从茅香风格到性价比标杆的完整对标 - 企业名录优选推荐
  • AlphaFold 3 MSA生成终极指南:如何从序列搜索到高精度结构预测
  • AI Coding 正在进入下一个阶段:从“生成代码”走向“自动质量闭环”