很多人在做 RAG 时会把精力放在模型选型Prompt 优化Rerank但在真实工程中一个更底层、但经常被忽略的问题是你是怎么“切数据”的也就是Chunk分块策略一、为什么一定要分块因为大模型有一个硬限制上下文窗口Context Window是有限的你不可能把整本知识库直接喂进去。本质问题是如何把“大文档” 拆成 “既能被检索命中又能被模型理解”的最小单位二、Chunk 本质信息的“最小可检索单元”很多人把 Chunk 理解成“按字数切一下”但更准确的定义应该是Chunk 检索系统中的最小语义单元它必须同时满足两件事能被检索命中Recall被模型理解时是完整的Coherence而问题在于这两个目标是天然冲突的三、Chunk 太小 vs Chunk 太大核心矛盾1. Chunk 太小例如50 tokens优点更容易命中关键词Recall 更高缺点语义不完整模型理解困难上下文断裂更容易产生幻觉2. Chunk 太大例如1000 tokens优点语义完整上下文充分缺点不容易命中噪声变多Token 浪费严重本质冲突小 chunk → 检索友好但理解差 大 chunk → 理解好但检索差复制四、最常见的错误按字符硬切很多系统是这样做的chunk_size 500 overlap 50然后直接切文本问题在于破坏语义结构句子被截断标题和内容分离举个真实错误Chunk1: 报销流程包括提交申请... Chunk2: ...审批通过后进入财务打款模型看到的是两段“半截话”无法建立完整逻辑五、正确思路基于“语义结构”分块不要按长度切要按结构切推荐优先级1. 文档结构切分最优标题H1 / H2 / H3段落列表2. 语义边界切分句号换行语义停顿3. 长度兜底超长再切示例【报销流程】 1. 提交申请 2. 部门审批 3. 财务打款应该作为一个 chunk而不是拆开六、Overlap重叠到底有没有用很多教程会写overlap 50 / 100但很少讲清楚为什么需要 Overlap本质作用防止信息被“切断”举个例子Chunk A: 提交申请 → 审批 Chunk B: 审批 → 打款如果没有 overlap“审批”这个关键连接点可能丢失但注意- overlap ≠ 越大越好 - 过大会导致 - 冗余 - 检索污染工程建议chunk_size: 300~500 overlap: 10%~20%七、不同业务的最优 Chunk 策略重点不同数据类型本质上需要不同的 Chunk 结构。1. 企业知识库特点结构化文档多流程类信息多推荐按“段落 / 流程”切保证每个 chunk 是一个完整步骤2. 技术文档特点上下文依赖强逻辑连续推荐较大 chunk400~800保留上下文连续性避免代码 / 配置被拆散3. FAQ / 问答库特点每条独立推荐一个 QA 一个 chunk不需要 overlap4. 结构化数据表格 / JSON不要乱切一行 / 一条记录 一个 chunk八、一个你必须知道的高级优化多粒度 ChunkMulti-Granularity思路同一份数据切两套小 Chunk→ 提高 Recall 大 Chunk→ 提高语义完整性检索时先用小 chunk 找再映射回大 chunk这可以同时解决“找不到”“看不懂”九、Chunk RAG 的“地基”很多人会优先优化模型Prompt但忽略数据是怎么被组织的更本质地理解Embeddin 决定表达能力 Chunk 决定信息结构 检索决定信息范围 Prompt 决定输入质量十、一个重要事实Chunk 不是“切文本”而是在设计知识的最小表达单位。收尾如果你发现RAG 经常“答非所问”或者“明明有数据但就是答不出来”那很可能不是模型问题而是你的数据从一开始就被切错了。下一篇预告下一篇我们继续往下拆Embedding 深入为什么“相似”不等于“相关”包括向量空间是怎么“失真”的为什么中文效果更难如何做模型选型与评估学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】