MemEvolve: Meta-Evolution of Agent Memory Systems

代理记忆系统从静态架构向动态自适应的范式转变

在大语言模型(LLM)驱动的智能体(Agent)研究领域,自我演化(Self-evolving)记忆系统正在以前所未有的速度重塑人工智能的进化范式。传统的智能体系统在处理复杂、长程任务时,往往依赖于静态的记忆架构。这些架构通常由研究人员根据特定任务手动设计,用于存储交互轨迹、蒸馏经验以及合成可重用的工具 1。然而,这种范式存在一个根本性的局限性:记忆系统的架构本身是静态的。尽管记忆内容可以随时间积累,但底层的记忆机制(包括编码、存储、检索和管理)无法根据多样化的任务上下文进行元自适应(Meta-adaptation) 1。

为了填补这一空白,MemEvolve 框架应运而生。这是一个元进化框架,旨在实现代理经验知识与其记忆架构的联合进化。通过这种方式,智能体系统不仅能积累经验,还能通过与环境的持续交互,逐步优化其“学习如何学习”的机制 1。这种转变标志着智能体从“熟练学习者”(能够提取可重用技能,但遵循固定模式)向“自适应学习者”(能够根据学科动态调整学习策略)的飞跃 1。这种类人化的学习模式是实现通用人工智能(AGI)的关键一步,尤其是在面对需要深层推理、长时记忆和跨领域迁移的复杂任务时 4。

代理记忆系统的形式、功能与动力学分析

在深入探讨 MemEvolve 之前,有必要对当前代理记忆系统的研究现状进行解构。根据最新的研究趋势,代理记忆可以从形式、功能和动力学三个维度进行考察 4。

从形式上看,代理记忆经历了从早期的原始轨迹存储到高度抽象的文本制品(如提示词、快捷方式和推理模板)的演变 1。最新的研究甚至探索了结构化的工具接口(如 MCP)和代码级别的存储库作为记忆载体 1。这些不同形式的记忆旨在平衡信息的密集度与检索的有效性。

从功能上看,记忆系统被细分为事实记忆(记录交互细节)、经验记忆(增强问题解决能力)和工作记忆(维持任务状态) 4。传统的长/短期记忆分类已不足以描述当代复杂系统的多样性。

从动力学角度来看,记忆的形成、演化和检索是一个动态过程。目前的系统通常在任务执行后通过反射(Reflection)或自我批判(Self-critique)来更新记忆库 1。然而,当任务领域发生变化时——例如从网页浏览转向数学推理——固定的记忆流程(如单纯依赖 API 蒸馏或推理模板)往往会表现出显著的局限性 1。这种针对特定任务的记忆效能权衡(Trade-offs)正是 MemEvolve 试图通过元进化解决的核心挑战。

EvolveLab:代理记忆系统的模块化设计空间与统一基座

为了使记忆系统的优化变得可控且可追溯,MemEvolve 引入了 EvolveLab。这是一个统一的、模块化的自进化记忆代码库,它将十二种具有代表性的记忆架构(如 Voyager, ExpeL, Agent-KB 等)提炼为一个标准的四组件设计空间 1。

模块化设计的四要素

在 EvolveLab 的框架下,任何记忆系统 Ω\Omega 都可以被分解为以下四个功能互补的模块:

  1. 编码 (Encode, E\mathcal{E}): 将原始轨迹片段、工具输出或自我批判转化为结构化的表示。编码过程可以简单如轨迹压缩,也可以复杂如提取通用的操作规程 1。
  2. 存储 (Store, U\mathcal{U}): 将编码后的经验整合到持久化记忆库中。存储介质可以是向量数据库、知识图谱或简单的 JSON 文件 1。
  3. 检索 (Retrieve, R\mathcal{R}): 基于当前状态和查询,提取任务相关的记忆内容。检索出的内容可能包括可重用工具、规划经验或蒸馏后的程序知识 1。
  4. 管理 (Manage, G\mathcal{G}): 进行离线的异步操作,如记忆整合、抽象或选择性遗忘,以维持长时记忆的质量和效率 1。

这种模块化抽象不仅为不同的记忆机制提供了公平的实验竞技场,还为 MemEvolve 的进化过程提供了“基因型”表达的基础。

EvolveLab 中实现的代表性记忆系统分类

方法 日期 多代理支持 粒度 在线更新 存储形式 检索方式
Voyager 2023.5 轨迹 向量数据库 语义搜索
ExpeL 2023.8 轨迹 向量数据库 对比比较
Generative 2023.10 轨迹 向量数据库 语义搜索
DILU 2024.2 轨迹 向量数据库 语义搜索
AWM 2024.9 轨迹 向量数据库 语义搜索
Mobile-E 2025.1 步骤 向量数据库 语义搜索
Cheatsheet 2025.4 轨迹 JSON 语义搜索
SkillWeaver 2025.4 轨迹 工具库 函数匹配
G-Memory 2025.6 轨迹 图谱 图/语义搜索
Agent-KB 2025.7 步骤 混合数据库 混合搜索
MemP 2025.8 步骤 JSON 语义搜索
Evolver 2025.10 步骤 JSON 对比比较

1

MemEvolve 的双重演化机制:经验与架构的联合优化

MemEvolve 的核心贡献在于其提出的双重演化过程。传统的自我改进记忆系统仅在预定义的架构内更新记忆状态,而 MemEvolve 将这一过程扩展到了架构层面 1。

智能体系统的形式化定义

我们将基于 LLM 的智能体系统形式化为 M=I,S,A,Ψ,Ω\mathcal{M}=\langle\mathcal{I},\mathcal{S},\mathcal{A},\Psi,\Omega\rangle。其中 I\mathcal{I} 是智能体集合,S\mathcal{S} 是共享状态空间,A\mathcal{A} 是联合动作空间,Ψ\Psi 描述环境动力学。系统耦合了一个记忆模块 Ω\Omega,它维护演化的记忆状态 MtM_t。在每一步,活动智能体通过 Ω\Omega 检索上下文相关的记忆 ctΩ(Mt,st,Ht,Q)c_t \sim \Omega(M_t, s_t, \mathcal{H}_t, \mathcal{Q}),并依据策略 π\pi 执行动作 ata_t 1。

内环:经验演化 (Inner Loop)

在内环中,记忆架构 Ωj(k)\Omega_j^{(k)} 被视为固定。智能体通过与环境交互生成轨迹 τ\tau,并将其转化为经验单元 ϵτ\epsilon_{\tau}。记忆状态的更新公式为 Mt+1,j(k)=Ωj(k)(Mt,j(k),ϵτ)M_{t+1,j}^{(k)}=\Omega_j^{(k)}(M_{t,j}^{(k)},\epsilon_{\tau})。对于每个生成的轨迹,系统会记录一个包含任务成功率、Token 消耗和延迟的反馈向量 fj(τ)Rdf_j(\tau) \in \mathbb{R}^d 1。

外环:架构演化 (Outer Loop)

外环负责元学习更有效的记忆架构。基于候选系统的综合性能摘要 Fj(k)F_j^{(k)},元进化算子 F\mathcal{F} 会选择表现优异的架构作为“父代”,并生成新的变体作为“子代”:{Ωj(k+1)}=F({Ωj(k)},{Fj(k)})\{\Omega_{j^{\prime}}^{(k+1)}\} = \mathcal{F}(\{\Omega_{j}^{(k)}\}, \{F_{j}^{(k)}\})。这种演化不仅关注任务完成的准确性,还通过 Pareto 排名平衡资源消耗和执行延迟 1。

诊断与设计(D&D)进化算子

为了实现可控且高效的架构更新,MemEvolve 采用了“诊断与设计”(Diagnose-and-Design, D&D)的策略。这一算子将进化过程分解为选择、诊断和重新设计三个步骤 1。

架构选择与 Pareto 排名

系统首先对候选架构进行多目标优化评估。反馈向量 Fj(k)F_j^{(k)} 包含性能(Perf)、成本(-Cost)和延迟(-Delay)。通过非支配排序(Non-dominated Sorting),系统识别出位于 Pareto 前沿的架构。在 Pareto 排名相同的情况下,性能指标具有更高的优先级。排名前 KK 的候选者被选为进化父代 P(k)\mathcal{P}^{(k)} 1。

轨迹级别的诊断 (Diagnosis)

元进化算子通过回放接口访问父代架构在内环中生成的轨迹。通过审查成功和失败的案例,系统生成一个结构化的缺陷描述文件 D(Ωp(k))\mathcal{D}(\Omega_p^{(k)})。该文件详细记录了四个内存组件(E, U, R, G)中的瓶颈,例如:

  • 编码失效: 无法从失败的尝试中提取出有效的负面教训。
  • 检索偏差: 检索到的经验虽然相似但在当前语境下不适用。
  • 存储冗余: 过多的重复信息导致上下文窗口溢出 1。

基于缺陷的重新设计 (Design)

在设计阶段,系统根据缺陷描述对模块化接口内的特定实现点进行修改。这种方式确保了生成的变体在结构上保持兼容性,同时能够针对性地克服已识别的局限。设计过程会产生多个变体 Ωp,s(k+1)\Omega_{p,s}^{(k+1)},它们在编码策略、存储规则或检索逻辑上各具特色,从而在下一轮迭代中进行竞争 1。

实验评估:性能、通用性与资源效率

MemEvolve 在四个具有挑战性的智能体基准测试中进行了广泛评估:GAIA、WebWalkerQA、xBench-DeepSearch 和 TaskCraft 1。实验采用 GPT-5-MINI、Kimi K2 和 DeepSeek V3.2 等先进模型作为底层骨干。

核心实验结果分析

实验结果表明,为智能体配备有效的记忆架构对性能至关重要。将 MemEvolve 集成到 Flash-Searcher(一个基于 DAG 的并行执行框架)后,系统在各项指标上均实现了显著提升 1。

框架设置 WebWalkerQA xBench-DS TaskCraft GAIA 平均
Flash-Searcher (无记忆) 71.18 69.0 69.67 69.09
MemEvolve + Flash-Searcher (pass@1) 74.71 74.0 72.00 73.33
MemEvolve + Flash-Searcher (pass@3) 81.18 78.0 79.33 80.61
SmolAgent (无记忆) 58.82 51.0 64.00 55.75
MemEvolve + SmolAgent (pass@3) 71.18 68.0 77.00 72.12

1

在 GAIA 基准测试中,MemEvolve + Flash-Searcher 的 pass@3 表现达到了 80.61%,超过了 OWL-Workforce 和 Cognitive Kernel-Pro 等多个强大的多代理系统 1。这一结果证明了通过元进化获得的记忆架构能够显著增强底层框架的处理能力。

跨任务、跨模型与跨框架的泛化能力

MemEvolve 展现了极强的泛化能力。值得注意的是,在 WebWalkerQA 和 xBench-DS 上使用的记忆系统是直接从 TaskCraft(一个合成数据集)上进化而来的,未进行特定任务的元进化 1。尽管如此,这些转移后的记忆系统仍能带来显著收益,例如在 WebWalkerQA 上使 SmolAgent 的性能从 58.82% 提升至 61.18% 1。

此外,尽管元进化是基于 GPT-5-MINI 进行的,但进化出的架构在 Kimi K2 和 DeepSeek V3.2 上同样表现卓越。在 Kimi K2 环境下,进化后的记忆架构使系统在 WebWalkerQA 上的表现提升了 17.06% 1。这种跨框架的兼容性证明了 MemEvolve 学习到的是通用的记忆抽象原则,而非对特定数据集或模型的过拟合。

自演化记忆系统的比较分析

为了验证 MemEvolve 的优越性,研究人员将其自动进化出的架构与七种主流的人工设计记忆系统进行了对比 1。

人工设计系统的局限性

现有的记忆系统往往无法在所有基准测试中提供稳定的收益。例如,DILU 在 xBench 上有改进,但在 GAIA 上却导致性能下降了 2.42% 1。ExpeL 在所有三个评估基准上均表现不佳。深入分析发现,ExpeL 最初是为简单的具身智能或 QA 环境(如 ALFWorld)设计的,其提示词和机制无法适应长程、长上下文的深度研究任务 1。这种任务失调进一步证明了任务感知(Task-aware)记忆设计的必要性。

资源消耗与执行延迟

MemEvolve 在提升性能的同时,并未显著增加资源开销。在 GAIA 测试中,MemEvolve 的平均 API 成本为 $0.085,与无记忆基线的 $0.086 持平 1。相比之下,AWM 和 Cheatsheet 等系统在某些任务中表现出更高的延迟和成本。

内存设置 GAIA 成功率 GAIA 成本 ($) GAIA 延迟 (s) GAIA 步骤数
无记忆 69.09 0.086 505.46 10.44
Voyager 69.70 0.060 499.89 9.25
DILU 66.67 0.059 444.62 8.91
ExpeL 66.06 0.059 500.11 8.68
AWM 67.27 0.062 584.88 10.23
Cheatsheet 68.48 0.069 559.81 9.72
MemEvolve 73.33 0.085 693.33 10.14

1

虽然 MemEvolve 的执行延迟略高于部分系统,但其在准确率和成本之间的平衡展现了极佳的 Pareto 效率。这表明系统在进化过程中成功捕捉到了既能提升效能又不会过度消耗资源的记忆模式。

元演化动态:从 Agent-KB 到高性能变体

通过观察元进化的路径,可以揭示智能体如何自发地演化出高效的记忆结构。MemEvolve 从 Agent-KB 的固定结构出发,经历多轮迭代,最终产生出如 Riva 和 Cerebra 等高性能系统 1。

进化第一阶段:代理参与的增强

在演化的第一轮中,系统倾向于引入更多的智能体参与。例如,获胜的变体 Ω3(1)\Omega^{(1)}_3 引入了基于 LLM 的元防护栏(Meta-guardrail),在检索阶段过滤无关信息。此时,记忆的编码和解码已不再依赖于预定义的流水线,而是更多地依赖智能体的实时决策 1。

进化后期:层次化与多级抽象

在进化到第三轮时,如 Cerebra 等系统展示了更高级的特性:

  • 工具蒸馏: 不仅学习文本见解,还从过去轨迹中提取可重用的 Python 工具。
  • 多级存储: 采用类似于知识图谱的层次化结构,将经验分为不同的抽象级别。
  • 周期性维护: 包含节点和边的剪枝以及情节合并机制,确保长程任务中记忆库的精简与高效 1。

轻量级(Lightweight)系统的实际效能

在实际任务执行中,进化出的轻量级系统展示了卓越的阶段感知能力。在任务的规划阶段,记忆会提供高层级的指导(如任务分解策略);在执行阶段,它则提供细粒度的工具使用建议。甚至在面对如在线旅游网站等复杂网页时,记忆系统能准确预测目标信息可能隐藏在图像内容中,并指导智能体定位证据 1。

核心设计原则与未来展望

MemEvolve 的成功揭示了构建自演化智能体记忆系统的几项关键原则:

  1. 代理化管理: 记忆的操作本身应作为智能体的一种动作,由 LLM 根据当前语境动态控制,而非硬编码。
  2. 层次化与多样性: 记忆应涵盖不同粒度的内容,从原始轨迹到高级元策略。
  3. 闭环反馈: 架构的演化必须以端到端的任务表现为直接反馈信号 1。

未来的研究方向包括将元进化过程与强化学习(RL)深度整合,探索多模态记忆(如视觉和音频记忆)的联合演化,以及在多代理系统中实现共享记忆的动态优化 4。

结论

MemEvolve 框架通过联合演化代理经验与记忆架构,成功打破了静态记忆系统在跨领域任务中的性能瓶颈。依托于统一的 EvolveLab 代码库,该研究不仅为现有的记忆系统提供了标准化的评估平台,还为自动发现高效、资源感知的记忆机制开辟了新路径。实验数据充分证明,元进化出的记忆架构在多种主流基准测试中均能显著提升智能体的推理和执行能力,且具备优异的模型和任务泛化性。这一进展为构建具备自我提升能力的通用人工智能系统奠定了坚实的理论与工程基础。1