当前位置：首页 > news >正文

RAG 进化史：从基础检索到智能体驱动

news 2026/5/23 20:30:43

摘要本文梳理 RAG 五阶段技术演进——从 Naive RAG 的基础框架到 Agentic RAG 的自主决策并探讨长上下文窗口时代 RAG 的定位与演进方向。开发者让 AI 查询公司代码仓库中某个接口的调用规范返回的函数签名和参数列表与实际代码完全不符客服系统在回答退换货政策时张冠李戴把 A 品类的规则套用到了 B 品类上。这类问题的根源在于大模型的知识停留在训练数据截止的那一天它无法真正看到用户的私有数据。RAGRetrieval-Augmented Generation检索增强生成正是为解决这一矛盾而生的——先从外部资料库检索相关内容再让模型基于这些真实信息组织回答。自 2020 年 Meta 提出这一概念以来RAG 已从学术论文逐步成为企业级 AI 应用的主流方案之一。本文将梳理 RAG 从基础框架到智能体驱动的五阶段技术演进。Naive RAG从文档到回答的三个步骤Naive RAG 遵循传统的检索-阅读框架主要由三个核心步骤组成。整个过程可以类比成图书馆的运作先把书拆成章节编目上架读者提问时检索书架找到相关内容后用通俗语言总结回答。1. 索引Indexing这是预处理阶段。系统首先将各种格式的原始数据提取为统一纯文本再按合理的粒度分割成文本块Chunks最后用 Embedding 模型编码为向量并存入向量数据库如 Milvus、Qdrant。预处理环节中文档解析和分块策略的质量直接决定后续所有环节的上限。2. 检索Retrieval当用户提出查询时系统使用相同的 Embedding 模型将查询转化为向量。通过计算查询向量与数据库中各文本块向量的语义相似度检索出相关性最高的前 K 个文本块作为增强上下文。检索环节是全流程的核心瓶颈若检索召回的内容存在噪声、缺失或因分块导致上下文断层下游大模型的推理能力将无从发挥。3. 生成Generation将原始查询与检索到的文档块合成一个连贯的提示词Prompt由大语言模型LLM据此生成最终答案。模型不仅要理解检索到的内容还需要判断哪些信息相关、哪些可以忽略最终用自然语言组织出连贯、准确的回答。图片来源《Retrieval-Augmented Generation for Large Language Models: A Survey》Advanced RAG从查询到排序的链路升级Naive RAG 的检索环节存在几个结构性瓶颈用户查询语义模糊、文本块语义不完整、向量检索对精确关键词不敏感、初步检索排序粒度不足。Advanced RAG 正是针对这些痛点从查询、分块、检索和排序四个方向展开优化。1. 查询重写查询重写解决的是提问不清晰的问题。常见的策略有三种HyDEHypothetical Document Embedding让模型先根据问题假写一个答案再用假答案做检索从而利用语义空间相似性提升向量匹配精度Multi-Query 将原始问题改写为多个版本并行检索后合并降低片面召回的风险Step-back Prompting 则将具体问题抽象为更加宽泛的上位概念先检索大背景再缩小范围。2. 语义分块语义分块Semantic Chunking解决的是分块方式不当的问题。固定大小分块最大的风险是把一个完整意思从中间切断。语义分块用 Embedding 模型计算相邻段落的相似度当语义差异超过阈值时才进行分块。智能体分块Agentic Chunking则在此基础上更进一步——直接调用 LLM 的语义理解能力进行自适应边界判定对文本做细粒度的语义解构确保每个分块都是一个逻辑完备的语义单元。3. 混合搜索混合搜索解决的是单一检索存在局限性的问题。向量检索擅长语义层面的匹配但对精确实体名称并不敏感。BM25 这种传统关键词检索正好相反精于匹配特定词汇但无法理解同义表达。混合搜索将两者并行执行并利用 RRFReciprocal Rank Fusion等算法融合结果。4. 重排序重排序Reranking解决的是初步检索排序不够精细的问题。检索阶段通常返回 50-100 个候选文本块但受限于模型上下文窗口实际能使用的仅 3-5 个。Reranker 引入更精细的模型对结果做二次排序先在初步检索阶段计算整体相似度再在重排阶段逐词对比问题和文档的对应关系。主流方案包括 Cohere Rerank、BGE-Reranker 和 ColBERT。Modular RAG将流水线分解为可组装的组件无论是 Naive RAG 还是 Advanced RAG本质上都遵循预设的流水线——Naive RAG 是索引→检索→生成的单向流程Advanced RAG 在检索前后增加了优化环节但数据仍然从前一个节点单向流向后一个节点中间没有分叉也没有回路。当优化手段不断叠加这种固定流水线结构本身就成了扩展瓶颈。Modular RAG 的核心思路是将检索和生成的流水线分解为独立且可重用的组件每个组件都可以被替换、增强或重新配置以适配不同的任务需求。系统不再是文档进来、答案出去的固定流水线而是一个由可插拔模块组成的可组合流水线Composable Pipeline。在这套组件化架构下模块间的交互不再局限于单向顺序执行而是支持条件分支、并行检索和循环迭代。例如FLARE 根据模型置信度动态决定是否触发检索CRAG 在文档检索质量不足时自动降级到网络搜索ITER-RETGEN 将上一轮的生成输出反馈为下一轮的检索输入。通过引入 Search、Routing、Memory、RAG-Fusion 等专业化模块并允许自由编排同一套架构可以适配从简单问答到多步推理的不同任务类型。Modular RAG 的核心价值在于将系统搭建从逐段硬编码转向声明式组装。LlamaIndex、LangChain 和 Haystack 等主流框架均已原生支持模块化编排开发者可以按需组合检索策略、路由规则和生成逻辑大幅降低了复杂 RAG 系统的构建和维护成本。图片来源《Retrieval-Augmented Generation for Large Language Models: A Survey》Graph RAG用知识图谱补齐全局视野传统 RAG 中采用的向量检索基于语义相似度召回文本块但无法捕获信息之间的关联关系。面对需要跨文档综合推理的问题例如归纳多份报告中的趋势因果链向量检索只能返回各自独立的语义片段难以重建完整的逻辑脉络。Graph RAG 的核心思路是通过集成图数据结构来增强 RAG 系统利用实体间的关系和层级进行多跳推理和上下文增强。微软在 2024 年提出的方案中先用大模型从文档中提取实体与关系构建知识图谱再通过社区检测将图谱分层聚类为包含紧密关联实体的社区检索时同时查询向量和图谱结构使系统能够沿实体关系链路进行顺藤摸瓜式的推理。在实体关系密集的垂直领域Graph RAG 已展现出差异化价值医疗诊断中的症状→疾病→用药禁忌推理链路、法律研究中的判例→法条→司法解释跨文档关联均超出传统向量检索的能力边界。微软论文的评测数据显示全面性方面Podcast 数据集中间级摘要胜率达 57%p.001News 数据集低级社区摘要胜率达 64%p.001。Token 效率方面C3 低级社区摘要比原文总结节省 26%-33% TokenC0 根级摘要节省超 97%。但 Graph RAG 的代价也不低构建知识图谱需要消耗大量 LLM Token 做实体与关系抽取索引阶段的耗时远高于纯向量方案。它更适合文档质量高、需要全局推理的场景而非对延迟敏感的即时交互领域。图片来源《From Local to Global: A GraphRAG Approach to Query-Focused Summarization》Agentic RAG让 Agent 自主决策传统 RAG 的核心局限在于缺乏显式的控制层系统无法自主决定何时检索、如何改写查询、何时已获取足够信息可以停止检索。这种模式对简单事实问答够用但面对需要多步推理或动态调整策略的复杂任务就显得力不从心。Agentic RAG 的核心思路是引入这层控制——由智能体根据问题复杂度和检索结果的充分性自主决策每一步的操作。目前支撑这一能力的关键设计模式主要有四种反思Reflection即评估自身输出质量并迭代改进规划Planning即将复杂问题分解为子任务按序执行工具调用Tool Use即在检索之外调用搜索引擎、API 等外部工具多智能体协作Multi-Agent即多个专业化智能体分工处理不同子任务。基于这些模式目前已形成几种典型的 Agentic RAG 实现形态。CRAGCorrective RAG在检索后评估结果相关性不够好就从向量检索切换到网络搜索重新查体现了纠错模式Self-RAG 在生成过程中逐段产生反思标记判断是否需要补充检索再继续将检索决策从一次性变成按需触发体现了反思模式Adaptive RAG 根据问题复杂度动态路由——简单问题跳过检索直接回答复杂问题走多步检索流程本质上是规划与路由的结合。一项对比评测在 FiQA、NQ、FEVER 等数据集上的结果显示Agentic RAG 在用户意图识别和查询重写等方面表现更优展现了自主决策带来的检索质量提升。但是Enhanced RAG即本文中的 Advanced RAG在处理宽领域问题时如事实验证更加高效且稳定。此外Agentic RAG 的运行成本显著更高整体成本最高可达 Enhanced RAG 的 3.6 倍。图片来源《Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG》长上下文窗口真的能取代 RAG 吗2026 年主流前沿模型DeepSeek V4、GPT-5.5、Claude Opus 4.7 等的上下文窗口均已突破 1M Token百万上下文已从前沿实验走向主流模型的标准配置。RAG 已死的论断一度甚嚣尘上但随着企业级场景的大规模落地行业共识正在收敛到一个更审慎的判断。长上下文的核心优势在于全局信息处理能力。模型能够一次性接收完整证据集避免检索过程中的信息损耗在跨文档综合总结、代码仓库全局分析、复杂关系推理等场景下表现显著优于传统 RAG。换言之当任务需要纵观全局而非精准定位时长上下文提供了更完整的推理基础。然而 RAG 在工程实践中仍具备不可替代的特性。知识库规模上企业文档库通常可达数千万甚至数亿 Token 级别远超单次上下文窗口的上限数据时效性上RAG 通过索引更新实现毫秒级知识刷新无需重新训练或全量注入成本与延迟上1M Token 单次调用的费用和响应延迟显著高于 RAG 检索生成在高吞吐生产环境中差异尤为明显可追溯性上RAG 的检索路径透明、失败可监控可归因而长上下文的推理黑箱中产生的错误往往难以定位。当前行业的主流观点是检索负责缩小范围长上下文负责深度推理。先用混合检索从海量文档中召回候选集再由长上下文模型完成综合分析与生成。不同场景下纯长上下文、纯 RAG 和二者协同各有适用区间需按具体需求评估。写在最后回顾 RAG 五年的演进路径本质上是在解决同一个问题如何在有限的计算资源下让模型看到最准确、最完整的外部知识。Naive RAG 建立了基础框架Advanced RAG 修补了检索环节的漏洞Modular RAG 将整条流水线分解为独立且可重用的组件Graph RAG 补上了全局推理的能力Agentic RAG 让系统拥有了自主判断的灵活性。RAG 的效果上限由数据质量决定知识库中的矛盾、噪声和过时信息会沿流水线一直渗透到生成环节。从技术演进趋势看RAG 正在超越检索生成的单一流水线向融合知识图谱、Agent 和长上下文窗口的知识增强平台演进。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

查看全文

http://www.zskr.cn/news/1359738.html