让LLM智能体像人脑一样从经验中共同进化:Complementary RL 如何用双系统协同打破样本效率瓶颈

  • 论文:Complementary Reinforcement Learning
  • 作者:Dilxat Muhtar, Jiashun Liu, Wei Gao, Weixun Wang, Shaopan Xiong, Ju Huang, Siran Yang, Wenbo Su, Jiamang Wang, Ling Pan, Bo Zheng
  • 机构:阿里巴巴集团、香港科技大学
  • 链接:https://arxiv.org/abs/2603.17621
  • 日期:2026年3月

一句话摘要

强化学习训练 LLM 智能体面临严重的样本低效问题——智能体无法在多个 episode 之间有效复用历史经验。阿里巴巴和港科大团队从神经科学"互补学习系统"理论中汲取灵感,提出 Complementary RL 框架,让经验提取器和策略执行器在 RL 训练中共同进化:执行器靠结果奖励优化决策,提取器靠"经验是否真正帮到了执行器"来优化自身。单任务场景下性能提升约 10%,多任务场景下在 3 任务和 6 任务混合训练中分别带来 +6.6% 和 +8.1% 的提升,且随任务多样性增加收益愈发显著。


问题出在哪里?

当前用 RL 训练 LLM 智能体的主流范式——无论是 GRPO 还是其他基于结果奖励的方法——都有一个根本缺陷:每个 episode 都是从头开始的独立尝试。智能体在第 100 次尝试中踩过的坑,到了第 101 次依然可能重蹈覆辙。

已有的补救方案是给智能体配备"经验库",但这些方案都面临同一个问题:

  • 静态经验库:经验一旦提取就固定不变。随着智能体能力增强,早期的经验逐渐过时,甚至产生误导。
  • 非自适应提取器:提取器与智能体训练解耦,无法感知智能体当前的能力水平,导致"经验与能力渐进性错位"。

论文用实验清楚地展示了这种错位的代价——在多任务设置中,静态经验方案的平均成功率仅为 0.59,反而低于不使用任何经验的基线 0.75。经验没帮上忙,还拖了后腿。

Complementary RL 整体框架


Complementary RL:核心设计

受神经科学启发的双系统架构

Complementary RL 的命名来自神经科学中的互补学习系统理论——人脑中海马体负责快速编码新经验,新皮层负责缓慢整合长期知识,两者协同进化。对应到框架设计:

  • 策略执行器 \(\pi_\theta\):相当于"新皮层",通过 GRPO 目标函数在稀疏结果奖励下优化长期策略
  • 经验提取器 \(\pi_\phi\):相当于"海马体",负责从历史轨迹中提炼可复用的经验,并根据经验是否真正改善了执行器的表现来更新自身

关键创新在于:两者在同一个 RL 优化循环中共同进化,而非分离训练。

经验提取器的优化:CISPO 目标

经验提取器的奖励机制设计得非常巧妙——采用二元反馈信号:

\[r(m) \in \{-1, +1\}\]

其中 \(m\) 是某条提取的经验。如果使用了经验 \(m\) 的轨迹成功了,\(r(m) = +1\);失败了则 \(r(m) = -1\)。当多条轨迹使用同一条经验时,取平均:

\[\bar{r}(m) = \frac{1}{|T_m|}\sum r(m, \tau)\]

在此基础上,采用 CISPO 目标函数进行优化——使用 token 级别的重要性采样比率,配合非对称裁剪阈值 \(\epsilon_{low}^{IS}\)\(\epsilon_{high}^{IS}\),以及 stop-gradient 操作,确保分布更新的稳定性,防止经验提取策略发生剧烈偏移。

执行器训练:分组优势估计

这是另一个精巧的工程设计。在每轮训练中,K 条 rollout 被分成两组:

  • 经验引导组:检索经验后执行
  • 无经验组:不使用任何经验独立执行

两组各 \(K/2\) 条,优势函数在组内独立计算,各自使用组内的均值和标准差进行归一化。这种设计解决了一个实际问题:经验引导组和无经验组的奖励分布差异显著,如果混在一起计算优势,会导致训练信号失真甚至崩溃。

论文的消融实验证实,去掉分组优势估计后,训练会发生坍塌。

协同进化 vs 消融对比


工程基础设施:异步双循环

Complementary RL 的工程设计是这篇论文的另一大亮点。为了让执行器和提取器的训练不互相阻塞,系统采用了异步双循环架构

训练基础设施

  • 主循环:执行器收集 rollout 并优化
  • 后台轨道:经验提取器异步处理轨迹
  • 中央 ExperienceManager:通过写锁和读锁协调经验的写入与检索,支持查询批处理和并行搜索工作线程

实测表明,这种设计引入的额外 rollout 延迟不超过 1 秒,几乎可以忽略。

Search-and-Ask 机制

一个值得关注的细节——执行器在环境交互过程中遇到困难时,可以主动构造上下文感知的查询,向经验提取器"提问"。提取器会根据执行器当前的具体情境对检索到的经验进行精炼后返回,这既提高了经验库的利用率,也为提取器提供了更丰富的训练信号。

经验合并

经验库会随训练膨胀,因此每隔若干个执行器更新步骤触发一次合并操作:将经验条目按块传给提取器,分析语义关系,决定保留、合并或丢弃。采用滑动窗口方式处理,控制上下文长度的同时确保全面覆盖。


实验结果

单任务性能

在四个不同领域的任务上:

任务 相对基线提升 关键指标
MiniHack Room 1.3× 性能优势 1.5× 更少动作
ALFWorld 1.3× 性能优势 2× 更少动作
SWE-Bench +3.0% 更快的改进轨迹
WebShop 稳定超越 全程一致领先

动作效率的提升尤为引人注目——在 ALFWorld 中完成相同任务只需一半的动作数,说明经验驱动的学习确实让智能体的决策更加高效。

单任务评估曲线

平均动作数对比

多任务性能:真正的试金石

多任务场景是 Complementary RL 与基线拉开差距最明显的地方。3 任务混合评估结果如下:

方法 MiniHack Room WebShop ALFWorld 平均
Baseline 0.68 0.81 0.72 0.75
Static Online Exp. w/ exp. 0.41 0.67 0.69 0.59
Static Online Exp. w/o exp. 0.39 0.59 0.64 0.54
Exp. Only 0.49 0.37 0.13 0.33
Comp. RL w/ exp. 0.78 0.87 0.82 0.82
Comp. RL w/o exp. 0.75 0.84 0.74 0.78

几个关键发现:

  1. 静态经验害大于利:Static Online Exp. 的平均成功率 0.59 远低于不用经验的基线 0.75,说明不共同进化的经验会变成"过期地图"。
  2. 共同进化内化了能力:即使测试时不检索经验,Comp. RL w/o exp. 的 0.78 也超过了基线 0.75,说明协同训练将经验转化成了策略网络本身的能力。
  3. 纯经验方案完全失败:Exp. Only 方法冻结执行器,平均仅 0.33,说明经验不能替代策略学习。

多任务训练曲线

任务规模扩展

任务数 基线平均 Comp. RL 平均 提升幅度
3 +6.6%
6 +8.1%

任务越多,Complementary RL 的优势越大,这与直觉一致:任务多样性越高,跨任务经验迁移的潜力越大。


消融实验与稳定性技巧

论文在附录中披露了几个关键的工程经验:

  • 检索多样化:对频繁被检索的经验施加惩罚,防止"热门经验"垄断训练信号
  • 训练次数感知的重加权:对被反复训练过的经验降低其优势权重,避免过拟合
  • 执行器与提取器必须使用独立参数集:共享参数会导致训练不稳定

此外,论文尝试了自蒸馏——让经验提取器直接在策略网络上做蒸馏。初期效果不错,但后期训练阶段发生坍塌,作者归因于超参数选择不优,留待未来工作。


批判性分析

优势: - 框架设计优雅,将神经科学直觉转化为了具体的算法和工程方案 - 异步双循环设计解决了实际部署中的延迟问题 - 实验覆盖面广,涵盖游戏、网页交互、家居和软件工程四类任务

局限: - 论文未公开 6 任务混合的具体组成,可复现性打了折扣 - SWE-Bench 上 +3.0% 的提升幅度相对较小,且未给出置信区间 - 自蒸馏实验失败后只归因于"超参数",缺乏深入分析 - 经验提取器本质上依赖一个额外的 LLM 做推理,计算成本分析不够充分——文中只报告了 rollout 延迟,但未讨论经验提取器自身的训练开销 - 经验合并采用 LLM 做语义分析,这一步的质量和一致性缺乏量化评估


与相关工作的对比

与近期的 EMPO\(^2\)(探索性记忆增强 LLM 智能体)和 E-SPL(进化系统提示学习)等工作相比,Complementary RL 的独特之处在于:

  • 不是简单地维护一个记忆模块,而是让记忆提取过程本身也参与梯度更新
  • 经验的"有用性"由下游任务成功率直接衡量,避免了代理奖励的偏差
  • 分组优势估计解决了经验引导与无经验轨迹混合训练的技术难题

总结

Complementary RL 提出了一个清晰且实用的框架:让 LLM 智能体在训练过程中不仅学习如何行动,还学习如何从经验中学习。0.82 vs 0.75 的多任务成功率差距、随任务规模扩展而增长的收益、以及即使不检索经验也能保持优势的能力内化特性,都表明这一方向值得深入探索。不过,额外引入的经验提取器带来的计算开销、自蒸馏方案的不稳定性、以及在更具挑战性的基准上的泛化能力,仍是后续工作需要回答的问题。


觉得有启发的话,欢迎点赞、在看、转发。跟进最新AI前沿,关注公众号:机器懂语言