当前位置：首页 > news >正文

DeepSeek V1

news 2026/5/30 20:55:48

论文标题：DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

https://arxiv.org/pdf/2401.02954

1.数据

2万亿文本用于预训练，1000万条用于SFT。

对数据进行处理，包含去重、过滤和重混。

去重和重混阶段通过对唯一实例进行采样,确保了数据的多样化表示。过滤阶段提高了信息密度,从而实现了更高效、更有效的模型训练。

采用字节级别字节对编码BBPE；拆数字，词元数量控制在10w，合并不同语言的符号字符。

2.架构

沿用llama2架构，具体：采用rmsNorm函数的pre-Norm结构；使用swiGLU作为前馈网络的激活函数；旋转嵌入；分组查询注意力 GQA代替多头注意力MHA。

DeepSeek LLM 使用标准差 0.006 进行初始化,并使用 AdamW 优化器 (Loshchilov and Hutter, 2017) 进行训练,超参数如下: β1 = 0.9, β2 = 0.95,以及权重_衰减 = 0.1。

在预训练阶段,采用了多步学习率调度器,而非典型的余弦调度器。

具体而言,模型的学习率在 2000 个预热步数后达到最大值, 随后在处理完 80% 的训练词元后降至最大值的 31.6%。在处理完 90% 的词元后,进一步降至最大值的 10%。训练阶段的梯度裁剪设置为 1.0

3.基础设施

使用了一个名为HAI-LLM的高效轻量级训练框架

混合并行策略：采用了数据并行（Data Parallelism）、张量并行（Tensor Parallelism）、序列并行（Sequence Parallelism）以及1F1B 流水线并行（1F1B Pipeline Parallelism）

显存优化：利用ZeRO-1技术在数据并行秩之间对优化器状态进行切分

算子融合：为了提速，框架融合了 LayerNorm、GEMM（通用矩阵乘法）以及 Adam 优化器更新等操作

4.缩放定律（Scaling Laws）的演变

传统：计算预算 C （预训练大语言模型时投入的总计算资源量）通常根据模型参数量（N）和训练数据量（D，即 token 数量）来估算，公式为：C≈6ND 这里将每个 token 的前向和后向传播开销近似为模型参数量的 6 倍。

传统的参数表示法（6ND）没有考虑到注意力操作（attention operation）的计算开销，在小规模模型中可能导致高达50% 的近似误差。

DeepSeek 引入了新的指标：C=MD。 D 代表数据集中的token 数量

批次大小逐渐增大：这意味着模型规模越大、训练数据越多时，需要更大的批次来保持训练效率和稳定性。

学习率逐渐减小：大模型训练通常需要更小且更谨慎的学习率，以防止训练崩溃并确保收敛

5.各类验证--安全验证

6.参考内容

1. llama2架构图 https://blog.csdn.net/CV_Autobot/article/details/137534667

https://zhuanlan.zhihu.com/p/677423544

2. 流水线：https://zhuanlan.zhihu.com/p/1922398748941723463

https://www.bilibili.com/video/BV1QToSY6EMm/?spm_id_from=333.337.search-card.all.click&vd_source=d822e911a2ea10d2b0720afa70f0c357

3. 各类并行：https://zhuanlan.zhihu.com/p/659792351

https://zhuanlan.zhihu.com/p/504957661

4.All-reduce: https://zhuanlan.zhihu.com/p/504957661

5.zero1,2,3:https://www.microsoft.com/en-us/research/blog/zero-deepspeed-new-system-optimizations-enable-training-models-with-over-100-billion-parameters/

https://www.cnblogs.com/gongzb/p/19087423

6. deepseek讲解：https://zhuanlan.zhihu.com/p/1901560244187960315

7. pre-Norm和post-Norm： pre-Norm和post-Norm： https://zhuanlan.zhihu.com/p/686188942

https://www.bilibili.com/video/BV1QbYhzzEZr/?spm_id_from=333.337.search-card.all.click&vd_source=d822e911a2ea10d2b0720afa70f0c357

8. GQA, MHA: gqa+ mha: https://zhuanlan.zhihu.com/p/686149289

查看全文

http://www.zskr.cn/news/1429841.html

用Java+SpringBoot给服务器告警邮件找个‘飞书管家’：保姆级配置教程（附避坑点）

Debian 11 Bullseye 新装后必做的 10 件事：从内核 5.10 到 LibreOffice 7.0 的实用调优

BioAge终极指南：5步掌握生物年龄计算与衰老评估的R语言工具包

河北君宏泵业：排污泵/循环泵/隔膜泵/消防泵/混流泵专业制造与多场景应用 - 品牌推荐官

端渲染与流渲染的融合之道：数字孪生应用开发套件的工程选型思路

YOLOv11地铁站台与候车室行李目标检测数据集-153张-suitcase-1_6

Windows Defender彻底移除终极指南：2025免费工具完整教程

2026年郑州企业AI获客难？盘点5家GEO优化服务商特点 - 资讯快报

多塔柱混凝土矮塔斜拉桥结构解析方案【附数据】

Transformer架构深度解析：从原理到实践的全面指南

188、运动控制中的行业应用：电子装配与贴片机

NoFences：免费开源的Windows桌面分区神器终极指南

Rusted PackFile Manager：全面战争MOD开发的终极效率工具完整教程

IF=10.0！浙大博士一作再登柳叶刀子刊！

2026年徐州甲级写字楼集中区揭秘，锁定这三大板块

Gemini产品需求文档标准模板（2024最新版V2.3·仅限头部AI团队内部流通）

Gemini财务分析报告深度拆解（2024版审计底稿首次公开）

安徽工业无人机维修痛点难解？专业无人机维修培训方案认准乘云低空，无人机实操培训，无人机维修培训机构哪家强 - 品牌推荐师

YOLOv11古生物化石研究沙虎鲨牙齿目标检测数据集-280张-shark-teeth-1

GTWR与GWR模型怎么选？结合房价案例聊聊时空权重的实际影响

如何快速搭建免费的个人天气API：Open-Meteo终极指南

如何让老款Mac重获新生：OpenCore Legacy Patcher终极升级指南

告别信号‘自消’：深入浅出聊聊波束形成中协方差矩阵重建与对角加载的‘组合拳’

抖音无水印视频下载：3种专业方案解决你的视频保存难题

3步掌握AMD Ryzen终极调校：SMU Debug Tool完整指南

深入理解ARP中间人攻击：原理、实战与防御

PiliPlus终极指南：免费开源的全平台B站客户端，打造个性化观影体验

保姆级教程：用ESP32和GC9A01圆形屏播放视频，从接线到代码修改全流程（附避坑点）

CH32V203C8T6工程文件结构深度解析：从Startup.s到User文件夹都干了啥？

KMS智能激活脚本终极指南：一键解决Windows和Office激活难题