文章目录一、为什么“全量上下文”不是最优解二、目前业内最主流的“最优架构”分层记忆Hierarchical Memory1. Working Memory工作记忆2. Episodic Memory情景记忆3. Semantic Memory语义记忆4. Procedural Memory程序记忆agent 如何行动三、现在最强的不是 Memory而是 Memory RetrievalMemory 本质上是检索问题四、当前业内效果最好的核心技术路线1. Memory Compression记忆压缩2. Salience Scoring重要性评分3. Retrieval Routing检索路由不同 memory namespace4. Reflection / Self-Summarization自己总结自己五、目前真正最强的 memory 方向Knowledge GraphVector DB 不是终点Graph Memory六、当前最先进的一个趋势Memory 不是“历史”World Model世界状态七、目前实践里效果最好的组合业内共识八、为什么很多“AI记忆产品”效果其实很差目前并不存在“公认唯一最优”的 agent memory 方案但行业里已经逐渐形成了一个比较稳定的共识最优解不是“超长上下文”而是“分层记忆 检索 压缩 状态化”。也就是说不是 把所有历史拼 prompt 而是 像操作系统一样管理记忆现在高水平 agentOpenAI、Anthropic、Cursor、Devin 类系统、长期运行 agent基本都在往这个方向演化。一、为什么“全量上下文”不是最优解很多人最早的直觉记忆 把历史聊天全塞进去但这会快速遇到几个问题问题原因token 爆炸上下文成本指数级增长注意力稀释Transformer 并不擅长超长精确检索遗忘关键事实信息密度过高推理退化长 context 会影响 reasoning延迟上升inference 变慢多轮污染无关历史干扰当前任务所以现在大家逐渐发现“更多上下文” ≠ “更好记忆”。二、目前业内最主流的“最优架构”现在比较先进的 agent memory一般是分层记忆Hierarchical Memory通常会分成层级类似人类内容Working Memory工作记忆当前任务Episodic Memory情景记忆做过什么Semantic Memory语义记忆用户长期偏好/知识Procedural Memory程序记忆agent 如何做事1. Working Memory工作记忆就是当前 context window。特点短期高相关高频更新直接进入 prompt例如当前任务 当前代码 最近几轮对话 当前 plan这部分最贵但质量最高。2. Episodic Memory情景记忆类似“之前发生过什么”例如用户上周做了什么agent 曾执行哪些步骤哪次尝试失败了debug 过程通常是事件日志(event log) summary embedding retrieval这类 memory 非常重要。因为 agent 最大的问题之一缺乏长期任务连续性。3. Semantic Memory语义记忆这是很多人说的“ChatGPT 记住我了”实际上是用户画像 长期偏好 稳定事实例如用户喜欢 Rust用户是后端工程师用户讨厌冗长的回复项目技术栈这部分一般结构化存储KV / graph / profile低频更新而不是原始聊天记录。4. Procedural Memory程序记忆这是很多人忽略但极其关键的一层。它不是记“事实”。而是记agent 如何行动例如部署项目时 1. 先检查 docker 2. 再检查 env 3. 最后验证 API这本质是skill memoryworkflow memorypolicy memory高级 agent 会不断沉淀成功路径失败路径tool usage pattern这比“聊天历史”更有价值。三、现在最强的不是 Memory而是 Memory Retrieval行业现在已经逐渐统一Memory 本质上是检索问题不是存储问题。核心难点不是怎么保存而是什么时候该取什么因为错误召回比没有记忆更糟糕。四、当前业内效果最好的核心技术路线现在比较先进的一般是1. Memory Compression记忆压缩而不是保留原始对话。例如原始用户聊了2小时数据库压缩后用户项目使用 - PostgreSQL - 分库分表 - 高写入场景 - 强一致性要求这样 token 成本会下降几个数量级。2. Salience Scoring重要性评分不是所有内容都值得记。系统会判断是否长期有效是否频繁出现是否影响后续任务是否用户明确强调例如内容是否值得长期记忆“我今天感冒”通常否“我长期用 Rust”是“项目数据库是 PG”是“午饭吃面”否这是现在 memory quality 的核心。3. Retrieval Routing检索路由先进 agent 不会统一检索全部 memory而是代码问题 → 查代码记忆 用户偏好 → 查 profile 任务执行 → 查 episodic即不同 memory namespace这是目前非常重要的优化。4. Reflection / Self-Summarization先进 agent 会自己总结自己例如本次任务失败原因 - API key 缺失 - Docker 端口冲突形成failure memorystrategy memory这会极大提高长期任务能力。很多研究发现reflection memory 对 agent 提升巨大。五、目前真正最强的 memory 方向Knowledge Graph现在越来越多人认为Vector DB 不是终点因为向量检索的问题不稳定不可控关系弱时间性差所以越来越多系统开始Graph Memory例如用户 ├── 项目A │ ├── PostgreSQL │ ├── Redis │ └── Kubernetes └── 偏好 ├── 简洁回复 └── Rust这样 agent 能做relation reasoningdependency tracinglong-term consistency这可能是未来方向。六、当前最先进的一个趋势Memory 不是“历史”而是World Model世界状态例如 Devin/Cursor 类 agent真正重要的不是用户说过什么而是当前世界现在是什么状态比如哪些文件存在哪个服务启动了哪个任务完成了git diff 是什么浏览器当前页面是什么这叫Environment Grounded Memory很多 agent 能力差异其实在这里。七、目前实践里效果最好的组合业内共识现在大致最优实践趋向于短期 Context Window 长期 Structured Memory Store 检索 Hybrid RetrievalVector Graph Keyword) 压缩 LLM Summarization 管理 Importance Scoring 执行 State Machine / Workflow Memory而不是无限长上下文八、为什么很多“AI记忆产品”效果其实很差因为它们只是聊天记录数据库缺少relevancecompressionsaliencehierarchyreflectionstate tracking于是就会乱召回prompt 污染幻觉增强长期失真一句话总结当前 agent memory 最优方向已经不是“存更多聊天记录”而是“像操作系统一样对记忆进行分层、压缩、检索、状态管理和反思”。真正关键的不是 memory storage而是 memory retrieval state management。