当前位置: 首页 > news >正文

DeepSeek V1

论文标题:DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

https://arxiv.org/pdf/2401.02954


1.数据

2万亿文本用于预训练,1000万条用于SFT。

对数据进行处理,包含去重、过滤和重混。

去重和重混阶段通过对唯一实 例进行采样,确保了数据的多样化表示。过滤阶段提高了信息密度,从而实现了更高效、更有 效的模型训练。

采用字节级别字节对编码BBPE;拆数字,词元数量控制在10w,合并不同语言的符号字符。


2.架构

沿用llama2架构,具体:采用rmsNorm函数的pre-Norm结构;使用swiGLU作为前馈网络的激活函数;旋转嵌入;分组查询注意力 GQA代替多头注意力MHA。

DeepSeek LLM 使用标准差 0.006 进行初始化,并使用 AdamW 优化器 (Loshchilov and Hutter, 2017) 进行训练,超参数如下: β1 = 0.9, β2 = 0.95,以及权重_衰减 = 0.1。

在预训练阶段,采用了多步学习率调度器,而非典型的余弦调度器。

具体而言,模型的学习率在 2000 个预热步数后达到最大值, 随后在处理完 80% 的训练词元后降至最大值的 31.6%。 在处理完 90% 的词元后,进一步降至最大值的 10%。训练阶段的梯度裁剪设置为 1.0


3.基础设施

使用了一个名为HAI-LLM的高效轻量级训练框架

混合并行策略:采用了数据并行(Data Parallelism)、张量并行(Tensor Parallelism)、序列并行(Sequence Parallelism)以及1F1B 流水线并行(1F1B Pipeline Parallelism)

显存优化:利用ZeRO-1技术在数据并行秩之间对优化器状态进行切分

算子融合:为了提速,框架融合了 LayerNorm、GEMM(通用矩阵乘法)以及 Adam 优化器更新等操作


4.缩放定律(Scaling Laws)的演变

传统:计算预算 C (预训练大语言模型时投入的总计算资源量)通常根据模型参数量(N)和训练数据量(D,即 token 数量)来估算,公式为:C≈6ND 这里将每个 token 的前向和后向传播开销近似为模型参数量的 6 倍。

传统的参数表示法(6ND)没有考虑到注意力操作(attention operation)的计算开销,在小规模模型中可能导致高达50% 的近似误差。

DeepSeek 引入了新的指标:C=MD。 D 代表数据集中的token 数量

批次大小逐渐增大:这意味着模型规模越大、训练数据越多时,需要更大的批次来保持训练效率和稳定性。

学习率逐渐减小:大模型训练通常需要更小且更谨慎的学习率,以防止训练崩溃并确保收敛


5.各类验证--安全验证


6.参考内容

1. llama2架构图 https://blog.csdn.net/CV_Autobot/article/details/137534667

​​​​​​https://zhuanlan.zhihu.com/p/677423544

2. 流水线:https://zhuanlan.zhihu.com/p/1922398748941723463

https://www.bilibili.com/video/BV1QToSY6EMm/?spm_id_from=333.337.search-card.all.click&vd_source=d822e911a2ea10d2b0720afa70f0c357

3. 各类并行:https://zhuanlan.zhihu.com/p/659792351

https://zhuanlan.zhihu.com/p/504957661

4.All-reduce: https://zhuanlan.zhihu.com/p/504957661

5.zero1,2,3:https://www.microsoft.com/en-us/research/blog/zero-deepspeed-new-system-optimizations-enable-training-models-with-over-100-billion-parameters/

https://www.cnblogs.com/gongzb/p/19087423

6. deepseek讲解:https://zhuanlan.zhihu.com/p/1901560244187960315

7. pre-Norm和post-Norm: pre-Norm和post-Norm: https://zhuanlan.zhihu.com/p/686188942

https://www.bilibili.com/video/BV1QbYhzzEZr/?spm_id_from=333.337.search-card.all.click&vd_source=d822e911a2ea10d2b0720afa70f0c357

8. GQA, MHA: gqa+ mha: https://zhuanlan.zhihu.com/p/686149289

http://www.zskr.cn/news/1429841.html

相关文章:

  • 用Java+SpringBoot给服务器告警邮件找个‘飞书管家’:保姆级配置教程(附避坑点)
  • Debian 11 Bullseye 新装后必做的 10 件事:从内核 5.10 到 LibreOffice 7.0 的实用调优
  • BioAge终极指南:5步掌握生物年龄计算与衰老评估的R语言工具包
  • 河北君宏泵业:排污泵/循环泵/隔膜泵/消防泵/混流泵专业制造与多场景应用 - 品牌推荐官
  • 端渲染与流渲染的融合之道:数字孪生应用开发套件的工程选型思路
  • YOLOv11地铁站台与候车室行李目标检测数据集-153张-suitcase-1_6
  • Windows Defender彻底移除终极指南:2025免费工具完整教程
  • 2026年郑州企业AI获客难?盘点5家GEO优化服务商特点 - 资讯快报
  • 多塔柱混凝土矮塔斜拉桥结构解析方案【附数据】
  • Transformer架构深度解析:从原理到实践的全面指南
  • 188、运动控制中的行业应用:电子装配与贴片机
  • NoFences:免费开源的Windows桌面分区神器终极指南
  • Rusted PackFile Manager:全面战争MOD开发的终极效率工具完整教程
  • IF=10.0!浙大博士一作再登柳叶刀子刊!
  • 2026年徐州甲级写字楼集中区揭秘,锁定这三大板块
  • Gemini产品需求文档标准模板(2024最新版V2.3·仅限头部AI团队内部流通)
  • Gemini财务分析报告深度拆解(2024版审计底稿首次公开)
  • 安徽工业无人机维修痛点难解?专业无人机维修培训方案认准乘云低空,无人机实操培训,无人机维修培训机构哪家强 - 品牌推荐师
  • YOLOv11古生物化石研究沙虎鲨牙齿目标检测数据集-280张-shark-teeth-1
  • GTWR与GWR模型怎么选?结合房价案例聊聊时空权重的实际影响
  • 如何快速搭建免费的个人天气API:Open-Meteo终极指南
  • 如何让老款Mac重获新生:OpenCore Legacy Patcher终极升级指南
  • 告别信号‘自消’:深入浅出聊聊波束形成中协方差矩阵重建与对角加载的‘组合拳’
  • 抖音无水印视频下载:3种专业方案解决你的视频保存难题
  • 3步掌握AMD Ryzen终极调校:SMU Debug Tool完整指南
  • 深入理解ARP中间人攻击:原理、实战与防御
  • PiliPlus终极指南:免费开源的全平台B站客户端,打造个性化观影体验
  • 保姆级教程:用ESP32和GC9A01圆形屏播放视频,从接线到代码修改全流程(附避坑点)
  • CH32V203C8T6工程文件结构深度解析:从Startup.s到User文件夹都干了啥?
  • KMS智能激活脚本终极指南:一键解决Windows和Office激活难题