当前位置: 首页 > news >正文

RAG通识

关联知识库:RAG通识

起源:Meta发布RAG论文

2020年,Meta发布 Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

https://arxiv.org/abs/2005.11401

why RAG?

  • 数据滞后
  • 企业知识库向量化,提供特定上下文的大模型增强搜索

定义

将结构化知识的精准性与生成式AI的创造力相结合。

搜索发展历程

  • 精确匹配 与或非 / 全文搜索
  • NLP自然语言处理 CNN,RNN (Transfomer架构之前)
  • Transfomer架构构建的LLM和RAG结合搜索实现:

实现思路 LLM+动态数据源

  • 检索阶段 从外部数据源检索与用户查询相关信息 【语义向量搜索】数据前置处理
    外部数据源:API,数据库,文档库等等

  • 生成阶段
    将检索信息和用户promot一起输入大模型,生成增强的回答。

模块化RAG —— 工程化

  • 搜索模块 在不同的数据源上搜索

技术栈

LangChain

  • 模块化设计,提供构建动态信息检索的组件

LammaIndex

  • 提供高效索引机制

RAG挑战

  • 数据隐私和安全
  • 系统性能
  • 多样化查询需求产生的查询路由功能 (似乎有点往agent上靠了)
  • 数据审计和监控

Embedding 向量化

计算多个向量之间的相似度并排序

  • 余弦相似度,向量夹角越小越相似

1 完全相同
0 没有相似性
-1 完全相反

数据索引和检索

索引

  • 倒排索引,全文检索
  • B树索引
  • 哈希索引

检索

  • 布尔模型

  • 向量检索

    • 余弦相似度
  • 概率模型(BM25 + 语言模型)

  • 神经网络模型agent开发指数

  • 相似度计算(向量模型和神经网络模型的实例化)

    • 余弦相似度 向量夹角越小越相似
    • 欧式距离:向量实际值
    • 点积 点积值越大越相似

技术实现

  • ElasticSearch
  • Annoy 向量化数据快速搜索
  • FAISS 为大规模向量数据设计 支持GPU加速

Transfomer自注意力机制

  • 输入嵌入(输入向量化)
  • 线性变换,得到查询,键,值三个向量
  • 注意力得分计算 计算查询向量和键向量的点积,得到注意力的得分(表示当前词对其他词的相关性)
  • 注意力权重计算

RAG工作范式

  • 朴素RAG 描述了RAG工作流程的基础框架
  1. 文档库向量化
  2. 根据查询条件向量化检索文档库
  3. 将查询和检索结果扔给大模型
  • 进阶RAG 基于朴素RAG的优化
  1. 文档向量化的精细控制 (分割策略,编码方法) 最佳实践?
  2. 检索前的用户查询优化(自动优化用户promot) + 检索后的文档重排序(权重机制 ,评分模型)当前最佳实践?
  3. 结果校验(生成内容语义一致性和事实准确性校验)
  • 模块化RAG
  1. 专用查询向量数据库 我怎么觉得这是基本条件呢?
  2. 回答融合,使用多个模型或多次回答,最终融合结果,适用于多角度解答和多源信息场景
  3. 微调 , 强化学习 (底层大模型的定制化)
  4. RAG模式编排,适用不同场景

RAG优势

  • 动态知识库更新
  • 专业性(eg:医学领域,结合最新的研究论文,临床指南,药品说明书,提供更加科学可信的建议,提升回答质量,增强用户对系统的信任感)

RAG应用场景

  • 基于规则的客户服务 到 RAG增强的客户服务 (动态检索知识库,产品手册,常见问题问答)

检索系统横评

基于知识图谱 wikidata, dbpedia
基于关系型数据库
基于向量数据库

向量数据量横评

es 生态

faiss gpu 多索引

milvus gpu 多索引 多模态友好 ai生态(langchain, llamaindex, hugging face)

嵌入模型选型

MTEB

  • 性能与资源消耗
  • 多语言
  • 本地部署/云托管
http://www.zskr.cn/news/73749.html

相关文章:

  • 加州第13号法案 - 房产税改革的历史镜鉴
  • # MCP生态全景调研:协议、框架与实现全景图(2025-01)
  • # 【Context7 MCP测试】 RAG技术栈深度调研:Context7 MCP实战测试报告
  • 一只菜鸟学深度学习的日记:入门卷积
  • Markdown图标美化Prompt
  • # RAG开创性论文解读:检索增强生成的技术革命(Meta AI 2020)
  • # RAGAS论文解读:RAG评估的标准框架(2023)
  • eshop创建订单执行流程详解
  • ehop环境搭建
  • Blazor入门
  • 警惕!React服务器组件爆出高危远程代码执行漏洞
  • 12.5每日总结
  • 永久关闭Windows自动更新
  • 大道至简,仅需三行代码训练YOLOv11
  • 球星 C 罗投资 AI 初创 Perplexity;微软开源 VibeVoice-Realtime,低延迟流式输出丨日报
  • Windows PyTorch安装
  • faster r cnn 用到所有技术和流程
  • 代码随想录Day28_贪心2
  • MAF快速入门(1)化繁为简的Agent创建范式
  • 20251205 - USPD 攻击事件:初始化缺失露破绽,黑客潜伏多日终得手
  • CSDN博客终于搬家至博客园了!
  • 深入解析:AUTOACT论文翻译
  • Gemini 2.5 Flash / Nano Banana 系统提示词泄露:全文解读+安全隐患分析
  • 第五十六篇
  • Linux中级のSSH远程连接
  • 06 前后端分离的架构
  • C 语言 Day02
  • 解决国内Github.com打不开的方法
  • 不再错过任何销售:为你的Python Flask应用集成Stripe支付和Slack通知
  • 题解:P11811 [PA 2015] 人赢 / Mistrzostwa