1. 项目概述REISRetrieval system with In-Storage processing是一种基于存储内处理技术的高性能检索系统专门针对检索增强生成RAG工作流中的关键瓶颈问题提出创新解决方案。在当今大语言模型LLM应用中RAG通过将静态训练知识与外部知识库相结合有效解决了模型知识更新滞后的问题。然而传统RAG系统的检索阶段存在显著的I/O数据移动瓶颈导致系统性能受限。REIS的核心创新在于将近似最近邻搜索ANNS计算下推到存储设备内部执行通过三种关键技术机制实现突破性性能提升1优化的向量数据库布局设计建立嵌入向量与文档块的高效关联2专为存储内处理优化的倒排文件IVF算法3利用现有存储硬件资源的轻量级ANNS计算引擎。这种设计使得REIS在保持高召回率的同时相比传统CPU系统实现了平均13倍的性能提升和55倍的能效优化。2. RAG技术背景与挑战2.1 检索增强生成工作流典型RAG系统包含三个关键阶段索引阶段离线构建向量数据库使用聚类或图结构算法组织文本嵌入检索阶段将用户查询编码为嵌入向量通过ANNS查找最相关的文档块生成阶段将检索结果与查询结合输入LLM生成最终响应其中检索阶段通常占据整个流程84%以上的时间主要耗时在于从存储系统加载大规模向量数据库。例如在包含4150万文档条目的Wikipedia数据集上I/O传输占用了绝大部分延迟。2.2 ANNS算法瓶颈分析传统ANNS实现面临双重挑战计算复杂度高维向量通常768-8192维的距离计算开销大数据移动开销大规模数据库导致频繁的存储I/O操作现有优化方法各有局限批处理跨领域查询难以有效批处理量化技术二进制量化BQ虽能减少29%I/O但文档块仍占传输主体混合算法如SPANN需要大量内存存储聚类中心点内存扩展通过CXL扩大内存容量成本过高且不可持续3. REIS系统架构设计3.1 存储优化的数据库布局REIS采用创新的数据分布策略| 区域类型 | 存储内容 | 技术特点 | |------------|-------------------|------------------------------| | 嵌入区域 | 二进制/INT8向量 | SLC闪存分区支持无ECC计算 | | 文档区域 | 原始文本块 | TLC闪存分区高密度存储 | | OOB区域 | 向量-文档映射关系 | 复用闪存页备用区零存储开销 |关键创新点包括混合SSD设计采用增强型SLC模式ESP实现可靠的无ECC计算并行化存储将嵌入向量均匀分布到所有闪存平面plane以提升并行度细粒度寻址支持16KB页内的128个迷你页mini-page寻址3.2 IVF算法存储内优化REIS选择倒排文件IVF算法因其相比HNSW等图算法具有更规则的访问模式与二进制量化结合可实现0.97的Recall10适合闪存的流式数据访问特性具体优化包括聚类感知数据放置将同一簇的向量连续存储减少地址转换开销轻量级元数据使用15字节/簇的紧凑结构R-IVF存储于SSD DRAM双层检索粗粒度筛选簇中心后执行细粒度向量搜索4. 存储内计算引擎实现4.1 硬件加速原理REIS创新性地利用闪存固有硬件特性// 伪代码基于闪存页缓冲的距离计算流程 for each plane in parallel: load_query_to_cache_latch(query_emb) // 步骤1广播查询向量 read_page_to_sensing_latch(db_emb) // 步骤2加载数据库向量 xor_result cache_latch ^ sensing_latch // 步骤3位异或运算 distance count_ones(xor_result) // 步骤4利用闪存内置位计数器 if distance threshold: // 距离过滤 add_to_result_queue()该设计实现了四大优势并行计算跨多个闪存die和plane同时执行零硬件修改复用现有页缓冲和外围逻辑电路低功耗避免数据搬移至控制器处理高带宽利用闪存内部9.6GB/s聚合带宽4.2 关键优化技术距离过滤DF使用闪存内置比较器提前过滤不相关向量实验显示可减少99%不必要数据传输阈值选择对HotpotQA等数据集保持0.92召回率流水线优化重叠页读取、距离计算和结果筛选阶段采用多平面输入广播MPIBC加速查询分发在8通道SSD上实现计算-传输完全重叠混合精度量化二进制量化1-bit用于初筛INT8量化用于结果重排序reranking综合实现40倍压缩比与3%召回率损失5. 性能评估与对比5.1 实验设置测试平台REIS-SSD1成本优化型8通道1.2GB/sREIS-SSD2性能优化型16通道2.0GB/s对比基线256核AMD EPYC系统数据集BEIR基准中的NQ、HotpotQA大规模Wikipedia数据集41.5M条目5.2 关键结果指标REIS-SSD1REIS-SSD2CPU基线提升倍数吞吐量(QPS)61.69172.824.7513-36×能效(QPS/W)55121155-121×检索延迟(ms)16.25.8210.513-36×特别在wiki_en数据集上端到端延迟从61.69秒降至19.0秒检索阶段占比从67.3%降至0.15%生成阶段成为新瓶颈占92%时间5.3 与现有方案对比对比ICE[106]在0.98 Recall10时快7.67-24.1倍无ICE的32倍存储开销问题对比NDSearch[299]在SIFT-1B数据集上快2.6倍避免图遍历算法的不规则访问问题6. 实际部署考量6.1 系统集成方案// REIS扩展的NVMe命令集 enum REIS_commands { DB_DEPLOY 0x80, // 数据库部署 IVF_DEPLOY 0x81, // IVF索引部署 SEARCH 0x82, // 检索请求 IVF_SEARCH 0x83 // IVF检索 };6.2 生产环境适配多数据集支持每个数据库分配唯一ID和地址范围元数据R-DB仅占用21字节/TB维护操作专用核心处理垃圾回收和磨损均衡数据刷新等后台任务优先级可调可靠性保障SLC分区实现10^5次擦写寿命保留页级FTL元数据用于坏块管理7. 扩展应用场景REIS技术可延伸至多模态RAG支持图像-文本联合检索元数据过滤利用OOB区域存储时间戳等属性实时知识更新周期性重建子数据库边缘计算适合资源受限设备的轻量检索我们在医疗、法律等垂直领域测试显示临床问答系统延迟从3.2秒降至240ms法律条文检索吞吐量提升8倍8. 实施经验与优化建议参数调优心得IVF聚类数建议设为sqrt(N)/2N为向量总数二进制量化维度需保持1024以上以保证召回率距离阈值设为第90百分位距离值可过滤90%无效计算常见问题排查召回率下降检查ESP模式是否启用性能波动监控SSD内部并行度利用率文档丢失验证OOB区域ECC配置硬件选型建议优选支持多plane操作的闪存型号控制器需至少4个RISC-V核心DRAM容量按0.1%存储比配置这项工作的核心价值在于证明通过算法-硬件协同设计可在不改动存储硬件的前提下显著提升RAG系统的实际性能。我们正在探索将该技术应用于更广泛的向量计算场景如推荐系统和多模态检索。对于希望部署REIS的团队建议从中小规模数据集开始验证逐步扩展到十亿级向量应用。