先说说啥情况吧。
下午两点面的,视频接通的一瞬间,对面三个面试官并排坐,中间那位一看就是技术负责人,眼神特别犀利。我下意识坐直了身子,心想这场怕是不好混过去。
果然,第一个问题就让我有点措手不及。
“聊聊你的训练数据吧,从哪来的?怎么洗的?”
说实话,平时做项目的时候对数据这趴确实没那么上心。面试官听我支支吾吾,直接追问细节:去重用什么策略?质量评估的标准是什么?有没有做数据配比实验?
我赶紧把脑子里的东西整理了一下。
数据来源其实就那几个口子:公开数据集像Common Crawl、The Pile、C4这些是基本盘,再加上一些垂直领域的开源数据。如果要做中文模型,肯定还得补充中文维基、新闻语料库这些。
清洗流程大概是这个样子的:
语言识别这步看着简单,但坑不少。比如一个英文网页嵌了大量代码块,光看head可能判断成英文,实际内容全是代码。规范化就是统一编码、处理特殊字符、把全角转半角这些。
质量评分我通常会组合几个信号:句子长度分布是否合理、标点符号比例、困惑度分数、还有跟领域关键词的匹配度。去重用MinHash加LSH,能处理近似重复的文档。
数据配比这块,面试官明显想听更深的东西。不同来源的数据按什么比例混合?要不要做重复采样?这些都是有讲究的。我当时举了个例子:如果代码数据占比太高,模型在自然语言任务上可能会退化,需要做动态调整。
“Transformer结构,你来讲讲?”
这题看着基础,但面试官想要的肯定不只是"输入嵌入、多头注意力、前馈网络、层归一化"这种一句话概括。
我拆开说了下:
多头注意力是整个架构的核心。Q、K、V三个矩阵,通过多组投影捕捉不同子空间的特征。注意力分数就是Q和K的点积除以根号dk,再套个softmax。
位置编码当时我提了一嘴,面试官立刻打住我:“等一下,位置编码我们后面专门问,你先继续。”
FFN就是两层线性变换加ReLU,中间维度通常会扩到4倍左右。残差连接和层归一化是保证训练稳定的关键。
面试官追问了Pre-Norm和Post-Norm的区别。现在主流用Pre-Norm多一点,梯度流更顺畅,训练更稳。
不同架构的差异主要在这几个点:归一化的位置、是否用GQA、MoE怎么设计的、上下文长度怎么扩展的。比如LLaMA系列用的是Pre-Norm加RMSNorm,DeepSeek在MoE上做了很多优化,这些都是架构层面的取舍。
“GQA和RMSNorm,说说看?”
GQA全称是Grouped Query Attention,是MHA和MQA的一个折中方案。
画个图理解一下:
MHA是每个Q头配一个KV头,参数量大但效果最好。MQA是所有Q头共享一组KV,省内存但质量有损失。GQA把Q头分组,每组共享KV,是个效果和效率的平衡点。
RMSNorm是LayerNorm的简化版,去掉了均值中心化那步,只做方差归一化:
RMSNorm(x) = x / RMS(x) * g
RMS是均方根,g是可学习的缩放参数。算起来比LayerNorm省事,效果还差不多,所以现在很多模型都在用。
“RoPE位置编码,讲讲原理?”
这问题我准备过,但真要讲清楚还是得理一下思路。
最早的位置编码是绝对位置编码,就是给每个位置分配一个固定的向量,直接加到词嵌入上。Transformer原始论文用的就是这种。
但绝对位置编码的问题是:模型只能感知绝对位置,对相对位置的建模能力弱。而很多任务(比如阅读理解)其实更依赖相对位置关系。
RoPE的思路很巧妙,它不是把位置信息加到词向量上,而是通过旋转矩阵对Q和K做变换:
对于位置m的第i维,旋转角度是 m * theta_i,其中theta_i是跟维度相关的一个基值。
这样设计的好处是:两个位置的Q和K做点积时,结果天然包含了它们位置的差值,也就是相对位置信息。而且随着距离增大,内积会衰减,符合"距离越远相关性越低"的直觉。
现在主流大模型基本都用RoPE,主要是因为:
- 能处理超长上下文,因为相对位置没有绝对限制
- 外推能力强,训练时没见过长度,推理时也能应付
- 相比ALiBi的偏置方案,RoPE能更好地捕捉高频信息
- 计算效率高,实现简单
其他位置编码比如ALiBi是直接往注意力分数上加偏置,T5用的是相对位置偏置,还有可学习的位置编码等。RoPE胜在综合表现稳定。
“MHA、MQA、GQA的区别和选型?”
这个问题跟前面的GQA有重叠,但面试官想听的是对比和适用场景。
我整理了一下思路:
MHA:每个注意力头独立的KV,参数量最大,计算最重,但表达能力最强。适合对质量要求极高、资源充裕的场景。
MQA:所有Q头共享一组KV,参数量骤降,推理速度提升明显,但质量有损失。适合资源受限的部署场景。
GQA:Q头分组,组内共享KV,参数量和计算量介于两者之间,质量损失有限。是目前大模型的常见选择,比如LLaMA 2就用了GQA。
选型的时候主要看:推理资源有多少、对响应速度的要求、质量损失的容忍度、以及部署规模有多大。
“MoE负载均衡、LoRA、视觉编码器,这些碰过吗?”
问到这的时候我其实有点虚,但还是硬着头皮答了。
MoE的负载均衡主要靠两个机制:一个是可微分的负载均衡损失,鼓励专家被使用的概率均匀;另一个是容量因子限制,防止某个专家被过度使用。训练时还会用到随机路由加噪声,增加探索性。
LoRA的原理是在原始权重矩阵旁加一个低秩分解的增量矩阵,训练时只更新这个增量部分,原始权重冻结。参数少、显存占用低,而且可以快速切换不同任务。在LLM微调上性价比很高。
视觉编码器在多模态模型里负责把图像转成特征向量,常见的有CLIP ViT、EVA-CLIP这些。关键是视觉特征和文本特征要对齐到同一个语义空间,通常用对比学习做表征对齐。
面试官后来追问了有没有实际用过,我老实说主要停留在理论层面,但把原理讲清楚了,对方也没太为难。
面完出来我整个人是懵的。倒不是问题有多偏,而是每一题都往深了挖,问到你说不出来为止。数据、架构、位置编码、注意力变体、进阶技术,大模型面试的覆盖面就是这么广。
如果你也在准备大模型岗位的面试,建议把每个知识点都往深吃透,特别是那些"为什么这样设计"的问题,面试官真的会盯着问。
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋
📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~