智谱大模型LLM一面，人麻了！！！-尧图网络科技

先说说啥情况吧。

下午两点面的，视频接通的一瞬间，对面三个面试官并排坐，中间那位一看就是技术负责人，眼神特别犀利。我下意识坐直了身子，心想这场怕是不好混过去。

果然，第一个问题就让我有点措手不及。

“聊聊你的训练数据吧，从哪来的？怎么洗的？”

说实话，平时做项目的时候对数据这趴确实没那么上心。面试官听我支支吾吾，直接追问细节：去重用什么策略？质量评估的标准是什么？有没有做数据配比实验？

我赶紧把脑子里的东西整理了一下。

数据来源其实就那几个口子：公开数据集像Common Crawl、The Pile、C4这些是基本盘，再加上一些垂直领域的开源数据。如果要做中文模型，肯定还得补充中文维基、新闻语料库这些。

清洗流程大概是这个样子的：

语言识别这步看着简单，但坑不少。比如一个英文网页嵌了大量代码块，光看head可能判断成英文，实际内容全是代码。规范化就是统一编码、处理特殊字符、把全角转半角这些。

质量评分我通常会组合几个信号：句子长度分布是否合理、标点符号比例、困惑度分数、还有跟领域关键词的匹配度。去重用MinHash加LSH，能处理近似重复的文档。

数据配比这块，面试官明显想听更深的东西。不同来源的数据按什么比例混合？要不要做重复采样？这些都是有讲究的。我当时举了个例子：如果代码数据占比太高，模型在自然语言任务上可能会退化，需要做动态调整。

“Transformer结构，你来讲讲？”

这题看着基础，但面试官想要的肯定不只是"输入嵌入、多头注意力、前馈网络、层归一化"这种一句话概括。

我拆开说了下：

多头注意力是整个架构的核心。Q、K、V三个矩阵，通过多组投影捕捉不同子空间的特征。注意力分数就是Q和K的点积除以根号dk，再套个softmax。

位置编码当时我提了一嘴，面试官立刻打住我：“等一下，位置编码我们后面专门问，你先继续。”

FFN就是两层线性变换加ReLU，中间维度通常会扩到4倍左右。残差连接和层归一化是保证训练稳定的关键。

面试官追问了Pre-Norm和Post-Norm的区别。现在主流用Pre-Norm多一点，梯度流更顺畅，训练更稳。

不同架构的差异主要在这几个点：归一化的位置、是否用GQA、MoE怎么设计的、上下文长度怎么扩展的。比如LLaMA系列用的是Pre-Norm加RMSNorm，DeepSeek在MoE上做了很多优化，这些都是架构层面的取舍。

“GQA和RMSNorm，说说看？”

GQA全称是Grouped Query Attention，是MHA和MQA的一个折中方案。

画个图理解一下：

MHA是每个Q头配一个KV头，参数量大但效果最好。MQA是所有Q头共享一组KV，省内存但质量有损失。GQA把Q头分组，每组共享KV，是个效果和效率的平衡点。

RMSNorm是LayerNorm的简化版，去掉了均值中心化那步，只做方差归一化：

RMSNorm(x) = x / RMS(x) * g

RMS是均方根，g是可学习的缩放参数。算起来比LayerNorm省事，效果还差不多，所以现在很多模型都在用。

“RoPE位置编码，讲讲原理？”

这问题我准备过，但真要讲清楚还是得理一下思路。

最早的位置编码是绝对位置编码，就是给每个位置分配一个固定的向量，直接加到词嵌入上。Transformer原始论文用的就是这种。

但绝对位置编码的问题是：模型只能感知绝对位置，对相对位置的建模能力弱。而很多任务（比如阅读理解）其实更依赖相对位置关系。

RoPE的思路很巧妙，它不是把位置信息加到词向量上，而是通过旋转矩阵对Q和K做变换：

对于位置m的第i维，旋转角度是 m * theta_i，其中theta_i是跟维度相关的一个基值。

这样设计的好处是：两个位置的Q和K做点积时，结果天然包含了它们位置的差值，也就是相对位置信息。而且随着距离增大，内积会衰减，符合"距离越远相关性越低"的直觉。

现在主流大模型基本都用RoPE，主要是因为：

能处理超长上下文，因为相对位置没有绝对限制
外推能力强，训练时没见过长度，推理时也能应付
相比ALiBi的偏置方案，RoPE能更好地捕捉高频信息
计算效率高，实现简单

其他位置编码比如ALiBi是直接往注意力分数上加偏置，T5用的是相对位置偏置，还有可学习的位置编码等。RoPE胜在综合表现稳定。

“MHA、MQA、GQA的区别和选型？”

这个问题跟前面的GQA有重叠，但面试官想听的是对比和适用场景。

我整理了一下思路：

MHA：每个注意力头独立的KV，参数量最大，计算最重，但表达能力最强。适合对质量要求极高、资源充裕的场景。

MQA：所有Q头共享一组KV，参数量骤降，推理速度提升明显，但质量有损失。适合资源受限的部署场景。

GQA：Q头分组，组内共享KV，参数量和计算量介于两者之间，质量损失有限。是目前大模型的常见选择，比如LLaMA 2就用了GQA。

选型的时候主要看：推理资源有多少、对响应速度的要求、质量损失的容忍度、以及部署规模有多大。

“MoE负载均衡、LoRA、视觉编码器，这些碰过吗？”

问到这的时候我其实有点虚，但还是硬着头皮答了。

MoE的负载均衡主要靠两个机制：一个是可微分的负载均衡损失，鼓励专家被使用的概率均匀；另一个是容量因子限制，防止某个专家被过度使用。训练时还会用到随机路由加噪声，增加探索性。

LoRA的原理是在原始权重矩阵旁加一个低秩分解的增量矩阵，训练时只更新这个增量部分，原始权重冻结。参数少、显存占用低，而且可以快速切换不同任务。在LLM微调上性价比很高。

视觉编码器在多模态模型里负责把图像转成特征向量，常见的有CLIP ViT、EVA-CLIP这些。关键是视觉特征和文本特征要对齐到同一个语义空间，通常用对比学习做表征对齐。

面试官后来追问了有没有实际用过，我老实说主要停留在理论层面，但把原理讲清楚了，对方也没太为难。

面完出来我整个人是懵的。倒不是问题有多偏，而是每一题都往深了挖，问到你说不出来为止。数据、架构、位置编码、注意力变体、进阶技术，大模型面试的覆盖面就是这么广。

如果你也在准备大模型岗位的面试，建议把每个知识点都往深吃透，特别是那些"为什么这样设计"的问题，面试官真的会盯着问。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～

资讯详情

智谱大模型LLM一面，人麻了！！！

“聊聊你的训练数据吧，从哪来的？怎么洗的？”

“Transformer结构，你来讲讲？”

“GQA和RMSNorm，说说看？”

“RoPE位置编码，讲讲原理？”

“MHA、MQA、GQA的区别和选型？”

“MoE负载均衡、LoRA、视觉编码器，这些碰过吗？”

学AI大模型的正确顺序，千万不要搞错了

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

资讯详情

“聊聊你的训练数据吧，从哪来的？怎么洗的？”

“Transformer结构，你来讲讲？”

“GQA和RMSNorm，说说看？”

“RoPE位置编码，讲讲原理？”

“MHA、MQA、GQA的区别和选型？”

“MoE负载均衡、LoRA、视觉编码器，这些碰过吗？”

学AI大模型的正确顺序，千万不要搞错了

相关新闻