一个7B模型怎么干翻32B?这篇论文把Agent的记忆系统玩明白了
你有没有碰到过这种情况——辛辛苦苦搭了一个Deep Research Agent,刚部署的时候效果还行,但越跑越蠢。明明之前踩过的坑,下次换个类似问题又掉进去。记忆越塞越多,模型反而越来越糊涂。
这个问题困扰了Agent社区很久。现有的记忆系统要么是把所有历史对话往context里塞(上下文爆炸),要么是做个简单的RAG检索(检索回来的东西经常答非所问),要么是存一堆事实性记忆(但Agent需要的是"怎么做",不是"知道什么")。
这篇 Memory Intelligence Agent (MIA) 给了一个让我觉得"思路对了"的方案:把记忆管理、任务规划、执行操作三件事彻底拆开,用交替强化学习让Planner和Executor互相磨合,再加上一个测试时在线学习机制让Agent在推理过程中持续进化。
效果有多能打?一个 Qwen2.5-VL-7B 的小模型,加上 MIA 框架后,在多个benchmark上超过了 Qwen2.5-VL-32B,甚至在部分任务上逼近 GPT-5.4 和 Gemini-3-Flash。7B干翻32B,涨幅最高超过18个百分点。
论文信息
- 标题: Memory Intelligence Agent
- 作者: Jingyang Qiao, Weicheng Meng, Yu Cheng, Zhihang Lin, Zhizhong Zhang, Xin Tan, Jingyu Gong, Kun Shao, Yuan Xie
- 时间: 2026年4月6日
- 论文链接: https://arxiv.org/abs/2604.04503
现有Agent记忆系统到底差在哪?
聊MIA之前,得先搞清楚现有方案的问题。论文里有句话总结得很到位:
"现有工作的本质,可以概括为:一个能力不足的Planner从臃肿的记忆里捞信息,然后用不够全面的prompt去指挥一个毫无准备的Executor。"
说实话,看到这句话我笑了。因为确实是这样——很多Agent系统的记忆模块,其实就是个"高级剪贴板"。
具体来说,现有记忆系统有三个核心痛点:
| 问题 | 具体表现 | 工程后果 |
|---|---|---|
| 长上下文稀释 | 记忆越多,注意力越分散 | 模型在海量历史中迷失,关键信息被淹没 |
| 存储与检索开销 | 历史记录无限增长 | 推理延迟飙升,计算成本不可控 |
| 只存事实不存过程 | 记住了"答案是X",但忘了"怎么找到X的" | 遇到类似问题还是从头来,学不会举一反三 |
第三点是最致命的。人类记忆的精髓不是记住一堆事实,而是记住"解题套路"。你做过一道复杂的数学题,下次碰到类似的,你记住的是解题思路,不是最终答案。但现有的Agent记忆系统,大部分还停留在存事实、存对话的阶段。
MIA的核心架构:Manager-Planner-Executor
MIA的核心设计思路是把Agent系统拆成三个角色,各司其职:

图2:一个完整的MIA工作案例。左上是输入问题和标准答案,左下展示Planner如何基于记忆生成分步搜索策略,右侧展示Executor如何调用工具逐步执行并汇报结果,触发反思后Planner重新调整计划。
整个推理流程分三个阶段:

图3:MIA的三阶段推理架构。Stage 1 从记忆库中检索成功和失败的历史轨迹作为参考;Stage 2 Planner生成计划,Executor通过ReAct循环执行搜索,支持反思和重规划;Stage 3 将完成的轨迹压缩成结构化工作流存入记忆库。
Memory Manager:不只是存数据,更是存"套路"
Memory Manager是非参数化的情景记忆模块,但跟普通的RAG记忆有根本区别——它存的不是事实片段,而是压缩后的搜索轨迹工作流。
每条记忆包含:问题描述、图片描述(用于多模态检索)、结构化工作流(分步骤的搜索策略)、质量标签(成功/失败)、使用次数和成功率。
检索打分公式也挺讲究,融合了三个维度:
其中 \(\lambda_s=0.7\) 是语义相似度权重,\(\lambda_v=0.15\) 是价值奖励(成功率),\(\lambda_f=0.15\) 是频率奖励——这个频率奖励的设计是鼓励探索,让那些不常被检索到的记忆也有出头的机会。
有个细节我觉得做得不错:检索时同时拉取成功案例和失败案例。成功案例告诉Planner"可以这么做",失败案例告诉它"别踩这个坑"。人类经验学习也是这个模式——从成功中提炼方法,从失败中规避风险。
Planner:带思维链的策略生成器
Planner基于Qwen3-8B,接收检索到的记忆上下文后,用Chain-of-Thought推理生成分步搜索计划。它的输出不是一个笼统的指令,而是具体到每一步该搜什么、怎么验证、如何交叉核实。
关键的是Planner还负责反思和重规划。当Executor执行完第一轮汇报结果后,Planner会判断是否需要调整策略(最多触发一次反思)。这个设计控制了推理开销,不会无限循环。
Executor:真正干活的多模态Agent
Executor基于Qwen2.5-VL-7B,通过ReAct循环实际执行搜索操作。它能调用文本搜索(基于E5-base-v2嵌入的FAISS检索,返回top-3结果)和图片搜索(Serper API),最多进行10轮交互。
交替强化学习:让Planner和Executor互相"磨合"
这是MIA最有技术含量的部分。
传统做法是先训练一个Agent,然后固定它去收集数据训练另一个。MIA的做法是交替训练——先训Executor,再训Planner,两者交替进行,像齿轮一样咬合。
Stage 1:训练Executor
用GRPO(Group Relative Policy Optimization)优化。说到GRPO,这是DeepSeek在DeepSeekMath中提出的算法,核心思路是扔掉传统PPO的critic model,改成在一组采样中做相对比较来计算策略梯度。好处是省内存、训练更稳。
Executor的奖励函数由三部分组成:
正确性占大头(0.7),工具使用规范性(0.2)和格式合规(0.1)作为辅助信号。训练时Planner参数冻结,只更新Executor。
Stage 2:训练Planner
把训好的Executor冻结住,当作推理引擎。Planner的奖励更复杂:
\(R_{final}\) 是最终答案正确性,\(R_{inter}\) 是中间步骤答案的正确性(如果中间步骤就能给出正确答案,Planner也能拿到奖励),\(R_{reflect}\) 衡量反思触发是否恰当。
这个交替训练的逻辑很自然:Executor变强了,Planner能基于更好的执行能力来优化策略;Planner变强了,Executor能得到更好的指令来提升执行效果。两者相互驱动。
测试时学习(TTL):推理过程中还在变强
这个设计是MIA的另一个亮点。

图5:测试时学习的完整流程。左侧(绿色区域)Planner通过GRPO采样生成G个候选计划;中间Executor分别执行每个计划产生轨迹;右侧同时进行两件事——非参数记忆提取(从最短成功轨迹和随机失败轨迹中压缩工作流存入记忆库)和参数化记忆更新(用GRPO在线更新Planner参数)。底部的Router从G个轨迹中选择最优路径输出最终答案。
TTL的核心思路是:在推理时让Planner为每个问题生成G个候选计划,Executor分别执行,然后同时做两件事:
- 非参数化记忆提取:选最短的成功轨迹和一个失败轨迹,压缩成结构化工作流存入记忆库
- 参数化在线更新:基于各轨迹的奖励信号,用GRPO实时更新Planner参数
优势计算:\(A_i = \frac{R_i - \mu_R}{\sigma_R + \epsilon}\),标准的GRPO归一化。
坦率地讲,我对TTL的实际部署可行性有点存疑。推理时要跑G个完整轨迹(论文中G=4),再做一轮梯度更新,这个开销在延迟敏感的场景下能不能接受?但从效果上看,TTL带来的提升确实不小——消融实验显示它在多模态任务上平均贡献了约2-3个点的提升。
无监督自进化:没有标注也能变强
MIA还设计了一套无监督自进化机制,让Agent在没有人工标注的开放环境中也能持续进步。

图6:无监督评估框架。三个专业Reviewer(均基于Qwen3-32B)从不同维度评估候选轨迹:Reviewer 1评估推理逻辑一致性,Reviewer 2审查信息来源可信度和幻觉问题,Reviewer 3验证结果有效性和任务完成度。Area Chair Agent综合三份评审意见做最终Meta决策,将高质量轨迹筛入经验池,用于Agent持续训练。
这个设计借鉴了学术界的peer review机制:三个Reviewer各看一个维度——逻辑、可信度、有效性,Area Chair做最终决策。高质量的推理轨迹被选入经验池,低质量的被过滤掉。
实验数据显示,无监督版MIA在迭代3个epoch后,性能逐步逼近有监督版本。比如2Wiki数据集上,无监督MIA从Epoch 1的71.6涨到Epoch 3的74.7,而有监督MIA是71.8。已经超过了。
实验结果:数据说话
主实验:多模态任务
| 模型 | FVQA-test | InfoSeek | SimpleVQA | LiveVQA | MMSearch | 内部1 | 内部2 |
|---|---|---|---|---|---|---|---|
| GPT-5.4 | 50.8 | 43.6 | 55.5 | 21.5 | 44.4 | 45.1 | 23.0 |
| Gemini-3-Flash | 69.3 | 69.0 | 73.7 | 26.0 | 69.0 | 52.5 | 25.5 |
| Qwen2.5-VL-7B | 20.9 | 23.9 | 30.4 | 8.3 | 7.2 | 9.5 | 5.0 |
| Qwen2.5-VL-32B | 24.7 | 25.8 | 40.1 | 18.7 | 15.7 | 18.6 | 6.7 |
| Memento | 66.3 | 57.3 | 61.9 | 36.7 | 61.4 | 22.7 | 30.7 |
| MIA (Ours) | 69.6 | 65.5 | 64.9 | 43.1 | 62.6 | 31.8 | 37.7 |
几个关键数据值得注意:
- 对比最强baseline Memento,MIA平均提升5.5个点
- LiveVQA上43.1 vs Memento的36.7,涨了6.4个点——这是个实时知识问答benchmark,能涨这么多说明记忆机制在动态知识场景下特别有效
- 裸Qwen2.5-VL-7B只有8.3(LiveVQA),加上MIA框架直接飙到43.1。说真的,这个涨幅有点夸张
主实验:纯文本任务
| 模型 | SimpleQA | 2Wiki | HotpotQA | GAIA |
|---|---|---|---|---|
| Memento | 42.4 | 64.2 | 55.2 | 22.3 |
| Unsupervised MIA | 46.6 | 71.6 | 61.7 | 30.1 |
| MIA (Ours) | 47.7 | 71.8 | 63.5 | 31.1 |
GAIA数据集上的表现让我印象深刻——从Memento的22.3涨到31.1,提升了8.8个点。GAIA是个多步推理benchmark,对Agent的规划和执行能力要求很高,这个提升说明MIA的Planner-Executor协作确实在复杂推理任务上发挥了作用。
消融实验:每个组件都在贡献
| 配置 | SimpleQA | 2Wiki | HotpotQA | GAIA |
|---|---|---|---|---|
| Base (无记忆无规划) | 40.7 | 61.2 | 51.0 | 11.7 |
| 只加Memory | 37.7 | 61.3 | 50.3 | 12.6 |
| 只加Plan | 42.1 | 62.8 | 54.9 | 18.5 |
| Memory for Planner | 42.4 | 64.6 | 54.8 | 19.4 |
| + Reflect | 43.9 | 66.6 | 57.6 | 26.2 |
| Trained Planner | 44.6 | 69.1 | 59.3 | 28.2 |
| + TTL (Full MIA) | 47.7 | 71.8 | 63.5 | 31.1 |
这个消融实验做得很清楚,有两个发现值得聊:
只加Memory反而掉了(SimpleQA从40.7降到37.7)。这验证了论文一开始提到的痛点——把历史轨迹直接塞进Executor的上下文,不但没帮忙反而添乱。记忆必须经过Planner的"消化"才能发挥价值。
反思机制的贡献很大。加上Reflect后GAIA从19.4涨到26.2,涨了6.8个点。这说明Agent"知道自己做错了并修正"这个能力非常关键。
RL训练的贡献稳定。从未训练到训练后的Planner,各数据集都有2-3个点的提升。TTL在此基础上再贡献2-3个点。整个pipeline是层层递进的,没有哪个组件是可有可无的。
训练动态分析

图7:六张子图展示训练动态。上排是Planner的训练Reward曲线(缓慢上升)、Response长度变化(先升后稳),以及TTL在2Wiki数据集上的Response长度适应过程。下排是Executor的Reward曲线(快速收敛到0.85左右)、Response长度变化(先降后升后稳),以及TTL在LiveVQA数据集上的适应过程。
训练曲线有个有趣的现象:Executor的reward收敛很快(约100步就稳定在0.85左右),但Planner的收敛明显更慢。论文解释说这是因为Planner接收的是间接信号——它自己不直接执行,要通过Executor的表现来反推自己的策略好不好。这跟管理学里的"管理者困境"很像:做事的人能快速看到反馈,管人的要等更久才知道自己的决策对不对。
泛化到闭源模型

图1:四张子图。(a)(b)展示MIA框架泛化到闭源Executor(GPT-5.4、Gemini-3-Flash、Claude-Sonnet-4.6)后的性能提升;(c)MIA与闭源前沿模型在多模态任务上的直接对比;(d)MIA与其他记忆方法的全面对比。
MIA的Planner训练好之后,可以直接搭配闭源模型使用(只需要把Executor换成API调用)。实验显示:
- GPT-5.4 + MIA: LiveVQA从51%涨到69%,提升18个点
- Gemini-3-Flash + MIA: LiveVQA从53%涨到81%
- Claude-Sonnet-4.6 + MIA: LiveVQA从60%涨到82%
有个规律很明确:base模型越弱,MIA的提升越大。这符合直觉——能力越强的模型本身就具备一定的隐性规划能力,MIA提供的外部记忆和规划对它们来说是锦上添花;而弱模型原本缺乏这些能力,MIA等于给它们装了一个"外挂大脑"。
我的判断:亮点与隐忧
亮点
架构设计思路清晰。Manager-Planner-Executor的三层解耦很干净。不是简单堆模块,而是每个模块有明确的职责边界和信息流向。记忆管理归Manager,策略生成归Planner,实际执行归Executor。
交替RL训练是真正的贡献。把GRPO用到多Agent协作训练上,让Planner和Executor交替优化,这个思路在Agent RL领域是比较新的。消融实验也证明了RL训练带来的提升是实在的,不是靠调prompt堆出来的。
过程记忆 vs 事实记忆的定位准确。存压缩后的搜索工作流而不是原始对话或事实片段,这个设计决策抓住了Agent记忆的核心需求。
隐忧
推理开销问题。TTL阶段每个问题要跑G=4个完整轨迹,每个轨迹最多10轮工具调用。再加上在线梯度更新。在生产环境中,这个延迟可能不可接受。论文没有给出推理延迟的数据,这个缺失比较明显。
内部数据集的评估。11个benchmark中有2个是"in-house"数据集,外部无法复现。虽然公开benchmark上的表现已经够说明问题,但内部数据集的存在总让人对结果的完整性打个问号。
Memory Manager用了Qwen3-32B。一个32B的模型专门用来做轨迹压缩和图片描述生成,这个成本不低。论文没有讨论能否用更小的模型替代,或者这个压缩环节对最终性能的边际贡献有多大。
无监督自进化的评审质量。三个Reviewer + Area Chair都是用同一个Qwen3-32B,本身没有经过专门的评审能力训练。在复杂推理任务上,LLM评估LLM的可靠性一直是个open question。论文给出的多epoch提升数据是积极的,但我对这个机制的上界持保留态度。
跟同期工作的对比。论文对比的baseline里,Memento和ExpeL是2023-2024年的工作,ReasoningBank也不算很新。Agent记忆这个方向2025年以来有不少新工作,论文对最新竞争者的覆盖可能不够完整。
工程落地建议
如果你在做类似的Agent系统,MIA有几个思路值得借鉴:
- 存过程不存事实:把成功的搜索轨迹压缩成工作流模板,比存原始对话有用得多
- 记忆检索要融合质量信号:不能只看语义相似度,成功率和使用频率都是重要的检索信号
- Planner和Executor分离训练:如果你的Agent系统同时需要规划和执行能力,分开训练、交替优化比端到端训练更容易调
- 反思机制控制次数:论文里限制最多一次反思,这个设计避免了无限loop的工程风险
总体评价
MIA这篇论文的核心价值,在于它把Agent的记忆系统从"被动存储"升级为"主动驱动"。记忆不再是一个越来越大的累赘,而是变成了Planner做决策的核心参考资料,而且是经过压缩、筛选、带质量标签的高质量参考资料。
交替RL训练和TTL是技术上的亮点,但工程上的推理开销是个绕不过去的问题。如果团队能在后续工作中解决效率问题(比如减少TTL的rollout次数、用更小的模型做Memory Manager),这套框架的实用价值会更高。
整体来看,这是一篇把Agent记忆系统做到了比较完整的工作——从记忆存储、到规划利用、到训练优化、到持续进化,pipeline是闭环的。不是那种提出一个小trick就发论文的工作,而是一个系统性的解决方案。值得关注后续的开源和复现情况。
觉得有启发的话,欢迎点赞、在看、转发。跟进最新AI前沿,关注我