当前位置: 首页 > news >正文

【Qwen2.5】采用 RoPE、SwiGLU、RMSNorm、Attention QKV bias 和 tied word embeddings 的 transformers 结构

原文This repo contains the instruction-tuned 0.5B Qwen2.5 model, which has the following features:Type: Causal Language ModelsTraining Stage: Pretraining Post-trainingArchitecture: transformers with RoPE, SwiGLU, RMSNorm, Attention QKV bias and tied word embeddingsNumber of Parameters: 0.49BNumber of Paramaters (Non-Embedding): 0.36BNumber of Layers: 24Number of Attention Heads (GQA): 14 for Q and 2 for KVContext Length: Full 32,768 tokens and generation 8192 tokensFor more details, please refer to our blog, GitHub, and Documentation.5 个组件文章目录原文5 个组件1. RoPE (Rotary Positional Embedding)2. SwiGLU (Swish-Gated Linear Unit)3. RMSNorm (Root Mean Square Layer Normalization)4. Attention QKV Bias5. Tied Word Embeddings (权重共享)总结对比表结论与所熟知的“原始” Transformer即 2017 年《Attention Is All You Need》中的标准架构相比Qwen2.5 使用的这 5 个组件都有显著不同或增强。但这并不意味着“标准 Transformer”不能用这些而是说这些组件代表了现代高性能 LLM 的工业标准配置它们解决了标准 Transformer 在深度训练稳定性、计算效率和大模型扩展性上的痛点。下面逐一解析这五个模块与原始 Transformer的区别1. RoPE (Rotary Positional Embedding)原始 Transformer: 使用绝对位置编码Absolute Positional Encoding。直接给每个位置的向量加上一个固定的正弦/余弦向量。这种编码方式难以处理训练长度和推理长度不一致的情况也不具备良好的外推性。Qwen2.5 (RoPE): 使用旋转位置编码。它将位置信息编码为旋转矩阵使得向量之间的相对位置关系能够被模型更好地捕捉。优势: 支持更好的长上下文外推Extrapolation即训练时看 32k推理时看 128k 效果衰减较小符合物理直觉相对距离不变。2. SwiGLU (Swish-Gated Linear Unit)原始 Transformer: 使用标准的前馈神经网络FFN结构通常是Linear - ReLU/GELU - Linear。也就是两层全连接层中间夹一个激活函数。Qwen2.5 (SwiGLU): 使用了门控线性单元结构。标准 FFN:W 2 ⋅ GELU ( W 1 ⋅ x ) W_2 \cdot \text{GELU}(W_1 \cdot x)W2​⋅GELU(W1​⋅x)SwiGLU FFN:W 2 ⋅ Swish ( W 1 ⋅ x ) ⊙ ( W 3 ⋅ x ) W_2 \cdot \text{Swish}(W_1 \cdot x) \odot (W_3 \cdot x)W2​⋅Swish(W1​⋅x)⊙(W3​⋅x)注意它多了一个投影矩阵W 3 W_3W3​并且激活函数变成了 Swish或 SiLU。优势: 研究表明SwiGLU 在大规模预训练中的表现显著优于标准的 GELU/ReLU FFN能带来更高的参数量利用率。3. RMSNorm (Root Mean Square Layer Normalization)原始 Transformer:没有明确的 LayerNorm 标准化步骤原始论文中在 Encoder/Decoder 内部使用了残差连接后的标准化但在后续演进中 LayerNorm 成为标配。即使后来引入了 LayerNorm它也是减去均值并除以标准差。Qwen2.5 (RMSNorm): 使用 RMSNorm。它去掉了 LayerNorm 中的“减去均值”这一步只除以均方根Root Mean Square。公式差异: LayerNorm 计算μ \muμ和σ \sigmaσRMSNorm 只计算1 n ∑ x i 2 \sqrt{\frac{1}{n}\sum x_i^2}n1​∑xi2​​。优势: 计算更简单、更快少了一次减法运算且在现代大模型中证明效果与 LayerNorm 相当甚至更好尤其在深层网络中更稳定。4. Attention QKV Bias原始 Transformer: 在 Multi-Head Attention 的 Query, Key, Value 线性变换中通常不使用 Bias。原始论文为了保持注意力机制的平移不变性和计算简洁性去掉了 Bias。Qwen2.5 (QKV Bias): 在生成 Q、K、V 的线性层中加入了 Bias。优势: 对于某些模型架构和训练策略加入 Bias 有助于模型更快地收敛或者在微调阶段提供额外的表达能力。虽然理论上注意力机制对 Bias 不敏感但在实际大模型训练中这是一个常见的工程优化选择。5. Tied Word Embeddings (权重共享)原始 Transformer:输出层的权重矩阵与输入的词嵌入Embedding矩阵是共享的。即如果你有一个V × d V \times dV×d的词嵌入矩阵输出层也是用这个矩阵的转置来映射回词汇表。Qwen2.5:也使用了 Tied Embeddings。优势: 可以大幅减少参数量。对于较小的模型如 0.5B, 1.5B嵌入层的参数量占比很高共享权重可以节省约 10%-20% 的总参数量同时保持性能。这也是为什么你的文档中提到“Number of Paramaters: 0.49B”但“Non-Embedding: 0.36B”说明嵌入层占了约 0.13B 的参数。总结对比表模块原始 Transformer (2017)Qwen2.5 / 现代 LLM 标准主要改进目的位置编码绝对位置编码 (Sin/Cos)RoPE更好的长文本外推性、相对位置感知FFN 激活GELU / ReLU (全连接)SwiGLU(门控)更强的非线性表达能力、训练更稳定层归一化(原始无后期加 LayerNorm)RMSNorm计算更快、内存占用更少、深层训练更稳Attention Bias无 Bias有 QKV Bias微调灵活性、潜在的性能微调增益Embedding 权重共享(Tied)共享(Tied)节省参数对小模型尤其重要结论看到的这些配置实际上是当前最先进的开源大语言模型如 Llama 3, Qwen, Mistral 等的标准技术栈。它们不是“错误”而是经过多年实践验证的最优解组合。如果你是在复现或对比实验直接使用这些现代组件通常会比“原始 Transformer”获得更好的效果尤其是对于小参数模型如 0.5B而言SwiGLU 和 RMSNorm 的贡献尤为关键。
http://www.zskr.cn/news/1381107.html

相关文章:

  • 10分钟掌握暗黑破坏神2存档编辑器:新手完整使用教程
  • 江浙沪名酒回收优质商家推荐:实体门店护航,诚信透明交易 - 资讯纵览
  • OpenCV 4.9.0 尝鲜指南:新DNN模块、Transformer支持与ARM优化,一次讲透
  • 基于WebSocket与ESP32的网页虚拟摇杆实现:低延迟物联网控制方案
  • SingleFile完整指南:如何一键保存完整网页到单个HTML文件
  • 【C++】C++类和对象1:从struct到class,揭开面向对象编程的第一层面纱
  • Taotoken Token Plan 套餐详解与适用场景选择建议
  • 如何选择靠谱的德州英语背单词工具:从用户评价到实际效果全解析
  • 具身智能 | 浅谈具身智能与低空经济融合
  • 高校科研团队如何通过Taotoken管理多个课题组的AI模型使用
  • 宽带隙的半导体
  • 我们为什么做 AR1106:把“声音方向”真正变成设备能力
  • 大模型集体“下海”赚钱:2026年AI生死战已打响,免费时代正式终结?
  • Iwara视频下载神器:2025终极指南,一键批量下载全攻略
  • 3步解决Windows热键冲突的终极技术方案
  • 【Midjourney辉光效果终极指南】:20年AI视觉工程师亲授7种工业级发光参数组合,92%新手3天内复现Dribbble爆款效果
  • 5分钟完成HS2-HF_Patch汉化补丁安装:免费中文翻译终极指南
  • 打卡信奥刷题(3314)用C++实现信奥题 P9183 [USACO23OPEN] FEB B
  • 打卡信奥刷题(3316)用C++实现信奥题 P9185 [USACO23OPEN] Rotate and Shift B
  • 员工手册与制度问答机器人深度评测:让 HR 从重复答疑中解放
  • BiliDownloader:解决B站视频本地化收藏的技术方案
  • Cursor Pro 免费升级终极指南:突破使用限制的完整解决方案
  • 2026年6年林芝采暖设备市场调研:TOP5地暖品牌综合实力与性价比对比报告 - 博客万
  • 别再傻傻分不清!电源纹波和噪声的实测对比与降噪实战(附示波器实测图)
  • 3大突破性功能:用HiveWE革新你的魔兽争霸III地图创作体验
  • 使用Taotoken CLI工具一键配置多开发环境下的统一模型接入点
  • 如何解决Umi-OCR启动崩溃:OCR引擎插件缺失的快速修复指南
  • Claude 4.0容器化部署实战:从零构建高可用、低延迟、合规审计就绪的私有AI服务(附完整Helm Chart与安全加固Checklist)
  • PlayAI语音评测全链路方法论(含开源评估Pipeline与自动化脚本)
  • 3步掌握ChartGPT:AI驱动的自然语言图表生成架构深度解析