一个7B模型怎么干翻32B？这篇论文把Agent的记忆系统玩明白了

你有没有碰到过这种情况——辛辛苦苦搭了一个Deep Research Agent，刚部署的时候效果还行，但越跑越蠢。明明之前踩过的坑，下次换个类似问题又掉进去。记忆越塞越多，模型反而越来越糊涂。

这个问题困扰了Agent社区很久。现有的记忆系统要么是把所有历史对话往context里塞（上下文爆炸），要么是做个简单的RAG检索（检索回来的东西经常答非所问），要么是存一堆事实性记忆（但Agent需要的是"怎么做"，不是"知道什么"）。

这篇 Memory Intelligence Agent (MIA) 给了一个让我觉得"思路对了"的方案：把记忆管理、任务规划、执行操作三件事彻底拆开，用交替强化学习让Planner和Executor互相磨合，再加上一个测试时在线学习机制让Agent在推理过程中持续进化。

效果有多能打？一个 Qwen2.5-VL-7B 的小模型，加上 MIA 框架后，在多个benchmark上超过了 Qwen2.5-VL-32B，甚至在部分任务上逼近 GPT-5.4 和 Gemini-3-Flash。7B干翻32B，涨幅最高超过18个百分点。

论文信息

标题: Memory Intelligence Agent
作者: Jingyang Qiao, Weicheng Meng, Yu Cheng, Zhihang Lin, Zhizhong Zhang, Xin Tan, Jingyu Gong, Kun Shao, Yuan Xie
时间: 2026年4月6日
论文链接: https://arxiv.org/abs/2604.04503

现有Agent记忆系统到底差在哪？

聊MIA之前，得先搞清楚现有方案的问题。论文里有句话总结得很到位：

"现有工作的本质，可以概括为：一个能力不足的Planner从臃肿的记忆里捞信息，然后用不够全面的prompt去指挥一个毫无准备的Executor。"

说实话，看到这句话我笑了。因为确实是这样——很多Agent系统的记忆模块，其实就是个"高级剪贴板"。

具体来说，现有记忆系统有三个核心痛点：

问题	具体表现	工程后果
长上下文稀释	记忆越多，注意力越分散	模型在海量历史中迷失，关键信息被淹没
存储与检索开销	历史记录无限增长	推理延迟飙升，计算成本不可控
只存事实不存过程	记住了"答案是X"，但忘了"怎么找到X的"	遇到类似问题还是从头来，学不会举一反三

第三点是最致命的。人类记忆的精髓不是记住一堆事实，而是记住"解题套路"。你做过一道复杂的数学题，下次碰到类似的，你记住的是解题思路，不是最终答案。但现有的Agent记忆系统，大部分还停留在存事实、存对话的阶段。

MIA的核心架构：Manager-Planner-Executor

MIA的核心设计思路是把Agent系统拆成三个角色，各司其职：

图2：MIA完整案例展示——从输入到Planner规划、Executor执行、反思重规划的全流程

图2：一个完整的MIA工作案例。左上是输入问题和标准答案，左下展示Planner如何基于记忆生成分步搜索策略，右侧展示Executor如何调用工具逐步执行并汇报结果，触发反思后Planner重新调整计划。

整个推理流程分三个阶段：

图3：MIA三阶段推理流程——记忆检索、协作研究、经验存储

图3：MIA的三阶段推理架构。Stage 1 从记忆库中检索成功和失败的历史轨迹作为参考；Stage 2 Planner生成计划，Executor通过ReAct循环执行搜索，支持反思和重规划；Stage 3 将完成的轨迹压缩成结构化工作流存入记忆库。

Memory Manager：不只是存数据，更是存"套路"

Memory Manager是非参数化的情景记忆模块，但跟普通的RAG记忆有根本区别——它存的不是事实片段，而是压缩后的搜索轨迹工作流。

每条记忆包含：问题描述、图片描述（用于多模态检索）、结构化工作流（分步骤的搜索策略）、质量标签（成功/失败）、使用次数和成功率。

检索打分公式也挺讲究，融合了三个维度：

\[S = \lambda_s \cdot sim + \lambda_v \cdot value + \lambda_f \cdot freq\]

其中 \(\lambda_s=0.7\) 是语义相似度权重，\(\lambda_v=0.15\) 是价值奖励（成功率），\(\lambda_f=0.15\) 是频率奖励——这个频率奖励的设计是鼓励探索，让那些不常被检索到的记忆也有出头的机会。

有个细节我觉得做得不错：检索时同时拉取成功案例和失败案例。成功案例告诉Planner"可以这么做"，失败案例告诉它"别踩这个坑"。人类经验学习也是这个模式——从成功中提炼方法，从失败中规避风险。

Planner：带思维链的策略生成器

Planner基于Qwen3-8B，接收检索到的记忆上下文后，用Chain-of-Thought推理生成分步搜索计划。它的输出不是一个笼统的指令，而是具体到每一步该搜什么、怎么验证、如何交叉核实。

关键的是Planner还负责反思和重规划。当Executor执行完第一轮汇报结果后，Planner会判断是否需要调整策略（最多触发一次反思）。这个设计控制了推理开销，不会无限循环。

Executor：真正干活的多模态Agent

Executor基于Qwen2.5-VL-7B，通过ReAct循环实际执行搜索操作。它能调用文本搜索（基于E5-base-v2嵌入的FAISS检索，返回top-3结果）和图片搜索（Serper API），最多进行10轮交互。

交替强化学习：让Planner和Executor互相"磨合"

这是MIA最有技术含量的部分。

传统做法是先训练一个Agent，然后固定它去收集数据训练另一个。MIA的做法是交替训练——先训Executor，再训Planner，两者交替进行，像齿轮一样咬合。

Stage 1：训练Executor

用GRPO（Group Relative Policy Optimization）优化。说到GRPO，这是DeepSeek在DeepSeekMath中提出的算法，核心思路是扔掉传统PPO的critic model，改成在一组采样中做相对比较来计算策略梯度。好处是省内存、训练更稳。

Executor的奖励函数由三部分组成：

\[R_{exe} = 0.7 \cdot R_{correct} + 0.2 \cdot R_{tool} + 0.1 \cdot R_{format}\]

正确性占大头（0.7），工具使用规范性（0.2）和格式合规（0.1）作为辅助信号。训练时Planner参数冻结，只更新Executor。

Stage 2：训练Planner

把训好的Executor冻结住，当作推理引擎。Planner的奖励更复杂：

\[R_{plan} = 0.7 \cdot R_{final} + 0.2 \cdot R_{inter} + 0.05 \cdot R_{reflect} + 0.05 \cdot R_{format}\]

\(R_{final}\) 是最终答案正确性，\(R_{inter}\) 是中间步骤答案的正确性（如果中间步骤就能给出正确答案，Planner也能拿到奖励），\(R_{reflect}\) 衡量反思触发是否恰当。

这个交替训练的逻辑很自然：Executor变强了，Planner能基于更好的执行能力来优化策略；Planner变强了，Executor能得到更好的指令来提升执行效果。两者相互驱动。

测试时学习（TTL）：推理过程中还在变强

这个设计是MIA的另一个亮点。

图5：TTL框架——前向推理、记忆更新、在线参数优化同步进行

图5：测试时学习的完整流程。左侧（绿色区域）Planner通过GRPO采样生成G个候选计划；中间Executor分别执行每个计划产生轨迹；右侧同时进行两件事——非参数记忆提取（从最短成功轨迹和随机失败轨迹中压缩工作流存入记忆库）和参数化记忆更新（用GRPO在线更新Planner参数）。底部的Router从G个轨迹中选择最优路径输出最终答案。

TTL的核心思路是：在推理时让Planner为每个问题生成G个候选计划，Executor分别执行，然后同时做两件事：

非参数化记忆提取：选最短的成功轨迹和一个失败轨迹，压缩成结构化工作流存入记忆库
参数化在线更新：基于各轨迹的奖励信号，用GRPO实时更新Planner参数

优势计算：\(A_i = \frac{R_i - \mu_R}{\sigma_R + \epsilon}\)，标准的GRPO归一化。

坦率地讲，我对TTL的实际部署可行性有点存疑。推理时要跑G个完整轨迹（论文中G=4），再做一轮梯度更新，这个开销在延迟敏感的场景下能不能接受？但从效果上看，TTL带来的提升确实不小——消融实验显示它在多模态任务上平均贡献了约2-3个点的提升。

无监督自进化：没有标注也能变强

MIA还设计了一套无监督自进化机制，让Agent在没有人工标注的开放环境中也能持续进步。

图6：基于同行评审的无监督评估框架

图6：无监督评估框架。三个专业Reviewer（均基于Qwen3-32B）从不同维度评估候选轨迹：Reviewer 1评估推理逻辑一致性，Reviewer 2审查信息来源可信度和幻觉问题，Reviewer 3验证结果有效性和任务完成度。Area Chair Agent综合三份评审意见做最终Meta决策，将高质量轨迹筛入经验池，用于Agent持续训练。

这个设计借鉴了学术界的peer review机制：三个Reviewer各看一个维度——逻辑、可信度、有效性，Area Chair做最终决策。高质量的推理轨迹被选入经验池，低质量的被过滤掉。

实验数据显示，无监督版MIA在迭代3个epoch后，性能逐步逼近有监督版本。比如2Wiki数据集上，无监督MIA从Epoch 1的71.6涨到Epoch 3的74.7，而有监督MIA是71.8。已经超过了。

实验结果：数据说话

主实验：多模态任务

模型	FVQA-test	InfoSeek	SimpleVQA	LiveVQA	MMSearch	内部1	内部2
GPT-5.4	50.8	43.6	55.5	21.5	44.4	45.1	23.0
Gemini-3-Flash	69.3	69.0	73.7	26.0	69.0	52.5	25.5
Qwen2.5-VL-7B	20.9	23.9	30.4	8.3	7.2	9.5	5.0
Qwen2.5-VL-32B	24.7	25.8	40.1	18.7	15.7	18.6	6.7
Memento	66.3	57.3	61.9	36.7	61.4	22.7	30.7
MIA (Ours)	69.6	65.5	64.9	43.1	62.6	31.8	37.7

几个关键数据值得注意：

对比最强baseline Memento，MIA平均提升5.5个点
LiveVQA上43.1 vs Memento的36.7，涨了6.4个点——这是个实时知识问答benchmark，能涨这么多说明记忆机制在动态知识场景下特别有效
裸Qwen2.5-VL-7B只有8.3（LiveVQA），加上MIA框架直接飙到43.1。说真的，这个涨幅有点夸张

主实验：纯文本任务

模型	SimpleQA	2Wiki	HotpotQA	GAIA
Memento	42.4	64.2	55.2	22.3
Unsupervised MIA	46.6	71.6	61.7	30.1
MIA (Ours)	47.7	71.8	63.5	31.1

GAIA数据集上的表现让我印象深刻——从Memento的22.3涨到31.1，提升了8.8个点。GAIA是个多步推理benchmark，对Agent的规划和执行能力要求很高，这个提升说明MIA的Planner-Executor协作确实在复杂推理任务上发挥了作用。

消融实验：每个组件都在贡献

配置	SimpleQA	2Wiki	HotpotQA	GAIA
Base (无记忆无规划)	40.7	61.2	51.0	11.7
只加Memory	37.7	61.3	50.3	12.6
只加Plan	42.1	62.8	54.9	18.5
Memory for Planner	42.4	64.6	54.8	19.4
+ Reflect	43.9	66.6	57.6	26.2
Trained Planner	44.6	69.1	59.3	28.2
+ TTL (Full MIA)	47.7	71.8	63.5	31.1

这个消融实验做得很清楚，有两个发现值得聊：

只加Memory反而掉了（SimpleQA从40.7降到37.7）。这验证了论文一开始提到的痛点——把历史轨迹直接塞进Executor的上下文，不但没帮忙反而添乱。记忆必须经过Planner的"消化"才能发挥价值。

反思机制的贡献很大。加上Reflect后GAIA从19.4涨到26.2，涨了6.8个点。这说明Agent"知道自己做错了并修正"这个能力非常关键。

RL训练的贡献稳定。从未训练到训练后的Planner，各数据集都有2-3个点的提升。TTL在此基础上再贡献2-3个点。整个pipeline是层层递进的，没有哪个组件是可有可无的。

训练动态分析

图7：训练过程中的Reward曲线和Response长度变化

图7：六张子图展示训练动态。上排是Planner的训练Reward曲线（缓慢上升）、Response长度变化（先升后稳），以及TTL在2Wiki数据集上的Response长度适应过程。下排是Executor的Reward曲线（快速收敛到0.85左右）、Response长度变化（先降后升后稳），以及TTL在LiveVQA数据集上的适应过程。

训练曲线有个有趣的现象：Executor的reward收敛很快（约100步就稳定在0.85左右），但Planner的收敛明显更慢。论文解释说这是因为Planner接收的是间接信号——它自己不直接执行，要通过Executor的表现来反推自己的策略好不好。这跟管理学里的"管理者困境"很像：做事的人能快速看到反馈，管人的要等更久才知道自己的决策对不对。

泛化到闭源模型

图1：MIA在不同规模模型上的性能对比

图1：四张子图。(a)(b)展示MIA框架泛化到闭源Executor（GPT-5.4、Gemini-3-Flash、Claude-Sonnet-4.6）后的性能提升；(c)MIA与闭源前沿模型在多模态任务上的直接对比；(d)MIA与其他记忆方法的全面对比。

MIA的Planner训练好之后，可以直接搭配闭源模型使用（只需要把Executor换成API调用）。实验显示：

GPT-5.4 + MIA: LiveVQA从51%涨到69%，提升18个点
Gemini-3-Flash + MIA: LiveVQA从53%涨到81%
Claude-Sonnet-4.6 + MIA: LiveVQA从60%涨到82%

有个规律很明确：base模型越弱，MIA的提升越大。这符合直觉——能力越强的模型本身就具备一定的隐性规划能力，MIA提供的外部记忆和规划对它们来说是锦上添花；而弱模型原本缺乏这些能力，MIA等于给它们装了一个"外挂大脑"。

我的判断：亮点与隐忧

亮点

架构设计思路清晰。Manager-Planner-Executor的三层解耦很干净。不是简单堆模块，而是每个模块有明确的职责边界和信息流向。记忆管理归Manager，策略生成归Planner，实际执行归Executor。

交替RL训练是真正的贡献。把GRPO用到多Agent协作训练上，让Planner和Executor交替优化，这个思路在Agent RL领域是比较新的。消融实验也证明了RL训练带来的提升是实在的，不是靠调prompt堆出来的。

过程记忆 vs 事实记忆的定位准确。存压缩后的搜索工作流而不是原始对话或事实片段，这个设计决策抓住了Agent记忆的核心需求。

隐忧

推理开销问题。TTL阶段每个问题要跑G=4个完整轨迹，每个轨迹最多10轮工具调用。再加上在线梯度更新。在生产环境中，这个延迟可能不可接受。论文没有给出推理延迟的数据，这个缺失比较明显。

内部数据集的评估。11个benchmark中有2个是"in-house"数据集，外部无法复现。虽然公开benchmark上的表现已经够说明问题，但内部数据集的存在总让人对结果的完整性打个问号。

Memory Manager用了Qwen3-32B。一个32B的模型专门用来做轨迹压缩和图片描述生成，这个成本不低。论文没有讨论能否用更小的模型替代，或者这个压缩环节对最终性能的边际贡献有多大。

无监督自进化的评审质量。三个Reviewer + Area Chair都是用同一个Qwen3-32B，本身没有经过专门的评审能力训练。在复杂推理任务上，LLM评估LLM的可靠性一直是个open question。论文给出的多epoch提升数据是积极的，但我对这个机制的上界持保留态度。

跟同期工作的对比。论文对比的baseline里，Memento和ExpeL是2023-2024年的工作，ReasoningBank也不算很新。Agent记忆这个方向2025年以来有不少新工作，论文对最新竞争者的覆盖可能不够完整。

工程落地建议

如果你在做类似的Agent系统，MIA有几个思路值得借鉴：

存过程不存事实：把成功的搜索轨迹压缩成工作流模板，比存原始对话有用得多
记忆检索要融合质量信号：不能只看语义相似度，成功率和使用频率都是重要的检索信号
Planner和Executor分离训练：如果你的Agent系统同时需要规划和执行能力，分开训练、交替优化比端到端训练更容易调
反思机制控制次数：论文里限制最多一次反思，这个设计避免了无限loop的工程风险

总体评价

MIA这篇论文的核心价值，在于它把Agent的记忆系统从"被动存储"升级为"主动驱动"。记忆不再是一个越来越大的累赘，而是变成了Planner做决策的核心参考资料，而且是经过压缩、筛选、带质量标签的高质量参考资料。

交替RL训练和TTL是技术上的亮点，但工程上的推理开销是个绕不过去的问题。如果团队能在后续工作中解决效率问题（比如减少TTL的rollout次数、用更小的模型做Memory Manager），这套框架的实用价值会更高。

整体来看，这是一篇把Agent记忆系统做到了比较完整的工作——从记忆存储、到规划利用、到训练优化、到持续进化，pipeline是闭环的。不是那种提出一个小trick就发论文的工作，而是一个系统性的解决方案。值得关注后续的开源和复现情况。

觉得有启发的话，欢迎点赞、在看、转发。跟进最新AI前沿，关注我