MoE混合专家模型能在保住模型整体容量的前提下明显减少计算开销。我们项目里用的是阿里的MoE模型结尾带A3B。之前给甲方做汇报有个同事不清楚A3B是什么还一本正经解释成智能体参数说就只是3B参数当时听着特别离谱。我虽然没仔细研究过千问系列的命名但A3B是智能体参数这个说法明显不对。好在当时甲方没人听出来之后我就特意去查了A3B到底是什么意思。查完才知道千问系列里A*B这种命名是有规律的主要和MoE混合专家模型有关。MoE混合专家模型是什么可能有些人了解过混合专家模型但更多人其实还不清楚 MoE 到底是什么MoE 其实早在几十年前就已经出现而在国内真正被大家熟知还是在 DeepSeek 模型火起来之后因为它就是基于 MoE 架构做出来的。MoE 的全称是 Mixture of Experts也就是混合专家模型。它大概在 1991 年由 Michael I. Jordan 和 Robert A. Jacobs 等人提出核心思路就是把多个专家模型组合在一起去处理复杂任务每个专家只专注做好自己擅长的那一部分。MoE 模型会通过一个“门控”机制根据输入内容的特点自动选出最合适的专家来工作。简单说基于 MoE 架构的模型是由很多个子模块组成的每个子模块就是一个“专家 Expert”各自擅长不同的任务。真正跑任务的时候只让和当前任务相关的专家参与其他专家可以不工作。任务分配时会有一个前置的“门控”来判断需要哪些专家需要谁就激活谁。比如一个 300 亿参数的模型某个任务只需要 3 个专家参与对应参数量是 30 亿那它的激活参数就是 3B。举个好懂的例子你们班要参加一个综合学术竞赛不限制科目所以要找擅长不同学科的同学组成队伍。比赛时根据具体题目只让一个或几个对应的同学去解题就行。这支参赛队伍就相当于一个 MoE 模型每个同学就是一个专家。碰到物理、化学题就激活擅长物理、化学、数学的同学碰到历史、文学题就激活擅长历史、文学的同学其他同学可以暂时休息。这么做的好处很明显能用更少的资源解决更多的问题。所以激活参数 Activated Parameters 是 MoE 混合专家模型里的核心概念指的是每次推理时真正被激活、参与计算的那一部分参数。这种设计会动态调用部分专家来处理输入在保证模型能力的同时大幅降低计算成本。毕竟从道理上讲培养一批各有所长的人远比培养一个什么都会的全能人才要容易得多。激活参数的定义与作用动态专家选择Qwen 的 MoE 模型比如 Qwen3-235B-A22B是由多个专家网络组成的每一次输入只会激活其中一部分专家比如 8 个专家里只激活 2 个激活参数指的就是这些被选中专家的参数。降低计算成本举个例子Qwen3-30B-A3B 总参数有 300 亿但每次推理只激活 30 亿参数只占总参数的 10%却能达到和更大的普通稠密模型差不多的效果。提升效率通过控制激活参数的大小模型在训练和推理时显存占用、计算量都会明显减少很适合在资源有限的场景下使用。激活参数的技术优势混合思维模式Qwen3 支持思考模式和非思考模式用户可以用 /think 或 /no_think 这样的指令灵活调整激活参数的使用方式在推理深度和速度之间做平衡。优化资源配置通过控制激活参数的比例模型可以根据任务难度自动分配算力。简单问题只用少量激活参数快速回答复杂问题就激活更多参数做深度推理。开发者如何利用激活参数参数调整接口用户可以通过 API 参数比如 top_k、top_p来影响模型对专家的选择间接控制激活参数的大小。部署工具支持推荐用 SGLang、vLLM 这类框架进行部署本地工具像 Ollama、llama.cpp 也都支持激活参数的动态管理。