当前位置: 首页 > news >正文

LLM专项

pretraining 预训练

为什么要pretraining

为何千亿参数必须做预训练?随机初始化为何不可行

预训练≠微调,预训练是模型初始权重分布塑造
自回归预训练、掩码语言预训练、多模态预训练

Pretraining的定义

利用海量无标注通用原始数据,通过自监督学习任务,让模型学习语言规律、世界常识、语法逻辑、语义关联、文本分布,完成权重全局初始化的前置训练阶段。

数据:无标注、全网通用文本、体量极大
监督信号:自监督,无人工标签
目标:拟合自然语言分布,习得通用先验知识
阶段:模型从零开始,第一轮大规模训练

两大主流预训练技术范式

AR 自回归预训练(GPT 系列核心)

训练任务:下一词预测 NTP
训练逻辑:已知前 n 个 token,预测第 n+1 个 token
损失函数:交叉熵逐词预测损失
适用场景:生成式大模型、对话、续写、长文本创作
学术痛点:单向语义依赖,无法双向理解

MLM 掩码语言预训练(BERT 系列核心)

训练任务:掩码 token 预测
训练逻辑:随机遮盖句子中部分 token,模型还原被遮盖词
优势:双向上下文语义建模,强理解弱生成
延伸:Whole Word Masking 进阶策略

延伸
T5 统一文本范式预训练
大语种 / 小语种预训练数据配比策略

预训练工程与学术难点

数据层:通用预训练数据清洗、去重、降噪、领域过滤
训练层:分布式预训练、ZeRO、混合精度、梯度累积
理论层:预训练知识遗忘、灾难性预训练偏移
收敛判定:预训练停止阈值、困惑度 PPL 评估指标

思考

纯领域数据能否替代通用预训练?
小模型预训练与超大模型预训练逻辑差异
长文本预训练:滑动窗口、稀疏注意力预训练优化

posttraining 后训练

posttraining定义

在完整预训练权重基础之上,使用领域数据、指令数据、偏好数据、专业标注数据,进行二次及以上定向增量训练,对预训练通用能力进行定向强化、能力对齐、领域适配的所有训练阶段统称后训练。

数据:少量高质量、定向标注 / 筛选数据
目的:不改变通用底座,强化专项能力
不从零训练,冻结 / 微调预训练主干均可

类型

领域后训练(Domain Post-training)

数据:论文、代码、医疗、金融、法律等垂直领域无标注文本
训练方式:沿用预训练任务继续增量训练
作用:让通用模型适配领域话术、专业术语、行业逻辑
科研场景:行业大模型底座适配

指令后训练(Instruction Post-training)

指令后训练 SFT(监督微调,核心后训练)
数据:用户指令 + 标准回答配对数据
训练目标:对齐人类指令遵循逻辑
区别预训练:有明确人机交互监督信号

偏好对齐后训练(RLHF/DPO 均属于后训练范畴)

对齐类后训练(RLHF、DPO、IPO)
属于高阶后训练,完成价值观、安全性、人类偏好对齐
逻辑:在 SFT 后继续做偏好优化,彻底脱离通用预训练目标

http://www.zskr.cn/news/1334490.html

相关文章:

  • 程设第三节课作业
  • SQLmap的使用
  • 2026年专业单槽超声波清洗机哪家强:双槽超声波清洗机/台式超声波焊接机/吻合器超声波焊接机/塑料超声波焊接机/选择指南 - 优质品牌商家
  • 2026年20kHz超声波焊接机技术全解:三槽超声波清洗机/全自动超声波清洗机/全自动超声波焊接机/医用超声波清洗机/选择指南 - 优质品牌商家
  • Linux内核死锁检测利器lockdep:原理、实战与深度调优
  • 【26年社工】初级社会工作者历年真题及答案PDF电子版(2010-2025年)
  • 为什么92%的科技从业者仍在用Google搜AI新闻?Perplexity专属新闻索引架构(含2023-2024爬取覆盖率对比数据)首次披露
  • HP ProLiant MicroServer Gen8 CPU支持列表
  • NY378固态MT29F32T08GSLBHL8-24QA:B
  • 大模型如何推理:从分词到答案一秒之内的旅程
  • 化工自吸泵实测评测:耐酸碱自吸泵/自吸污水泵/自吸离心泵/蒸发强制循环泵/蒸发混流泵/蒸发结晶循环泵/蒸发轴流泵/选择指南 - 优质品牌商家
  • 两个IO口,四根线!51单片机IIC控制LCD1602的究极偷懒方案!!!
  • CAD专业看图师手机版安装使用教程
  • AI Agent 艺术创作能力探索
  • 对你而言, Vibe Coding 的乐趣是什么?
  • 嵌入式Linux设备树:从源码结构到二进制格式的完整解析
  • 肌音信号导向的人体膝关节运动加速度估计方法【附代码】
  • Linux内核同步机制:从原子操作到RCU的实战指南
  • 写给前端的 CANN-ops-transformer:昇腾Transformer进阶算子库到底是啥?
  • 今日份学习51ing
  • 好用的AI论文工具推荐(2026最新版)
  • i.MX 8M Plus核心板多媒体实战测评:硬编解码、多屏显示与ISP调优
  • 如何彻底禁用iOS过热降频:thermalmonitordDisabler终极指南
  • FanControl终极指南:5分钟让你的Windows风扇控制既智能又安静
  • Inter字体终极指南:从零开始掌握现代界面设计的免费开源字体方案
  • 抖音内容采集系统架构设计与工程实践
  • 【限时解密】Perplexity图书评论搜索底层索引逻辑:基于12TB真实评论数据的语义权重分析报告
  • 【Perplexity文学研究黄金配置】:1个提示词模板+2个权威元数据过滤器+4类文学体裁专属指令集
  • 别再死记硬背了!用PADS Layout给0603电阻电容画封装的保姆级避坑指南
  • Midjourney Relax Mode vs. Turbo Mode:性能、出图质量、队列优先级与成本的硬核对比(附实测数据表)