大模型面试题:LLM预训练阶段有哪几个关键步骤?
LLM的预训练是其能力的基石,这个过程旨在让模型从海量无标注文本中学习通用的语言规律、世界知识和推理能力。预训练是一个庞大且复杂的系统工程,但其核心关键步骤可以清晰地归纳为以下几个环节:
1. 数据收集与准备
这是整个过程的基石,“垃圾进,垃圾出”的原则在这里体现得淋漓尽致。
- 大规模数据采集:从互联网、书籍、学术论文、代码库等各类来源收集数TB甚至PB级的文本数据。
- 数据清洗与去重:
- 清洗:去除无关的HTML标签、广告、重复符号、低质内容、有毒内容等。
- 去重:移除文档级、段落级和句子级的重复内容,防止模型对重复数据过拟合,并提升数据质量。
- 数据预处理与格式化:将文本统一为模型可处理的格式,并进行必要的语言识别和分类。
2. 分词与词表构建
将原始文本转化为模型能够理解的数字ID序列。
- 选择分词算法:采用子词分词算法,如BPE、
