不要再给Agent硬塞PRM了:百度这篇AEM用一个"熵的呼吸节奏"把信用分配做了
核心摘要
多轮 Agent 的 RL 训练有个老大难问题——只有最终一个稀疏的成败信号,回头你不知道该奖励轨迹里的哪一步。主流的做法要么训一个 PRM 给每步打分(贵),要么搞树形 rollout 做反事实信用分配(更贵),要么从轨迹结构里硬挖自监督信号(脆)。百度联合清华、复旦的这篇 AEM 提出了一个完全不一样的路子:不引入任何额外监督,直接拿模型自己的 response-level 熵当作内禀的不确定性信号,去rescale advantage。理论上他们证明了一个干净的结论——熵的漂移方向由"采样响应的优势 × 相对惊讶度"决定;工程上就一个标量乘法,开销 1.1%。在 ALFWorld、WebShop、SWE-bench-Verified 上把 GRPO/DAPO/GSPO 全都拉了一遍,最高 +8.8%,挂在 DeepSWE 上 SWE-bench-Verified 也涨了 1.4%。我的判断:这是少见的"理论漂亮 + 实现极简 + 实验扎实"的工作,对正在做 Agent RL 的团队来说是个能直接抄的设计。
论文信息
- 标题:AEM: Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement Learning
- 作者:Haotian Zhao, Songlin Zhou, Yuxin Zhang, Stephen S.-T. Yau, Wenyu Zhang, Lun Tian, Tianshu Zhu, Yifeng Huang, Yucheng Zeng, Jingnan Gu, Daxiang Dong, Jianmin Wu
- 机构:百度(Baidu)、清华大学、复旦大学
- 链接:https://arxiv.org/abs/2605.00425
一、为什么这篇论文值得读
先聊聊问题本身。
最近一年 Agent RL 已经从"能不能做"变成了"怎么做才不烧钱"。无论是 ALFWorld 这种家务任务、WebShop 这种网购模拟,还是 SWE-bench 这种真实软件工程任务,套路都差不多:模型一连 reasoning + 调工具 + 看反馈,跑十几二十轮,最后给一个 0/1 的成败 reward。
问题来了——这个 reward 该怎么分配回前面每一步?
你想想看,一条成功轨迹里可能有 20 个 response,第 3 步的工具调用可能是关键一击,第 17 步可能只是顺势收尾。但你只有一个最终分数。GRPO 这类 group-based 方法是怎么做的?把整条轨迹的所有 token 都用同一个 advantage 去训。结果就是:好步骤和烂步骤被同等对待,credit assignment 完全是糊的。
业界的解法基本分三派:
| 派别 | 代表方法 | 痛点 |
|---|---|---|
| 加监督 | PRM(过程奖励模型) | 要额外训一个模型,标注成本+训练成本双爆炸 |
| 加 rollout | Tree-GRPO、ATPO(树形展开) | 多轮场景下计算开销直接翻倍 |
| 自监督 | GiGPO、IGPO(从轨迹结构推) | 依赖结构假设、上下文一致性脆弱 |
每条路都不便宜。
AEM 这篇的切入角度让我眼前一亮——模型自己的策略熵,本来就是一个天然的不确定性信号,为什么不直接拿来用? 高熵的 response 说明模型在犹豫(探索性行为),低熵的说明模型很笃定(已经收敛的行为)。把这个信号做成一个 advantage 的乘法系数,整个流程不需要额外模型、不需要额外 rollout、不需要任何监督信号。
听起来像是工程小技巧?我一开始也是这么想的,但读完理论部分发现,他们其实把"为什么这么做有效"在 Fisher-Rao 信息几何下证清楚了。这是这篇论文最值钱的地方。
二、核心理论:熵的漂移到底由什么决定?
这部分我尽量讲得直观一点,公式只保留一条核心的。
2.1 先把熵从 token 级提到 response 级
之前 entropy-aware 的工作(比如各种 entropy regularization)大多是 token 级的。但作者指出一个很关键的事实——Agent RL 里,环境是对一个完整 response 做出反应的,而不是对单个 token。你模型吐出 "Thought: ... Action: search('apple')",环境是看完整个 action 才返回结果,不是一个 token 一个 token 给反馈。
所以正确的不确定性单位应该是 response,不是 token。
作者定义了 response-level surprisal:
以及 response-level entropy \(\mathcal{H}_{\text{resp}}(s_t)\)(就是 surprisal 的期望)。
然后他们证明了 Theorem 3.2.1:policy 总熵 = 各状态 response-level 熵的期望和。这个分解告诉你,response-level 是连接 token 级和 policy 级的"自然中间层",对它做调制就能直接影响 policy 熵。
2.2 熵到底怎么动的——关键定理
这是全文最核心的一个结论(Theorem 3.2.2),我把它摆出来:
在 Fisher-Rao 信息几何下,沿着自然梯度方向 \(\operatorname{grad}^F \ell_a(\pi)\) 更新策略,response-level 熵的方向导数是:
翻译成人话:一次更新会让熵涨还是跌,由两个东西的乘积决定——这个 response 的优势 \(A\),和它的"相对惊讶度"\(S - \mathcal{H}_{\text{resp}}\)。
- 如果 \(A \gt 0\)(这是个好响应)且 \(S \gt \mathcal{H}_{\text{resp}}\)(这个响应本身比平均更"惊讶",更冷门)→ 熵涨
- 如果 \(A \gt 0\) 且 \(S \lt \mathcal{H}_{\text{resp}}\)(好响应而且很笃定)→ 熵跌
- \(A \lt 0\) 的情况符号反过来

图1:三响应策略单纯形上的几何示意。当更新方向与熵梯度方向夹角小于 90 度时,熵增加;否则熵减少。这是 AEM 整个理论的"种子"——告诉你想控制熵动力学,应该往哪个方向 rescale advantage。
这个结论我看到的时候第一反应是:对,就该这么干。
之前各种 entropy regularization 都是在外面贴一个 \(-\beta \log \pi\) 项,改的是优化目标的形状;AEM 不动目标,只动 advantage 的"权重",说到底是在"挑选哪些 response 应该被强化"。这就好比之前都是在调发动机的输出曲线,AEM 是在调离合器——更细粒度,也更优雅。
补充一句:作者还在 Appendix F.3 把这个定理推广到了带 entropy regularization 和 KL penalty 的一般情况,证明那些 state-level 的正则项不会改变 response 级别的调制原理。这意味着 AEM 可以无痛叠加在已有 GRPO/DAPO/PPO 之上,理论保证不打架。
三、AEM 的工程实现:一个标量乘法搞定
理论是漂亮的,但落地往往是另一回事。AEM 的妙处在于实现非常轻——核心就一个公式。
3.1 用什么代理 \(S - \mathcal{H}_{\text{resp}}\)?
实际训练时, \(\mathcal{H}_{\text{resp}}(s_t)\) 没法精确算(要对整个 response 空间求和,不可能)。作者从 Doob 分解的角度论证,可以用一个可预测代理:把 response 内部所有 token 的条件熵求和后做长度归一化:
这玩意儿在训练 forward pass 里本来就要算(GRPO 算 old-policy log-prob 时已经有了 token 级 entropy),所以零额外成本。
3.2 组内 min-max 归一化 + softmax 自校准
接下来在 group 内(一个 prompt 对应的所有轨迹响应)做 min-max 归一化:
然后用一个带温度 \(\lambda\) 的 softmax 风格映射,得到最终系数:
最后 \(A^{\text{AEM}}_{i,t} = \alpha_{i,t} \cdot A^{\text{base}}_{i,t}\) 就完事了。
几个工程细节值得拎出来说说:
- 方向是负温度:\(-\lambda \tilde{\mathcal{H}}\),意味着熵越低(笃定的响应)→ \(\alpha\) 越大;熵越高(探索的响应)→ \(\alpha\) 越小。这正好对应了"低惊讶 = 模型已经会的,应该被强化或抑制得更彻底"。
- 自校准除以组均值:保证 \(\alpha\) 的整体规模不漂移,等价于在 group 内做了一次"相对排序",scale 不会失控。
- min-max 范围太小时跳过:当 group 内 \(\max - \min \lt 0.1\),直接 \(\alpha = 1\),避免在采样噪声上瞎调。
3.3 为什么这个机制能"自适应"地从探索切到利用?
这一段是我觉得整个 idea 最 elegant 的地方。
考察符号:\(A^{\text{AEM}} - A^{\text{base}}\) 引起的额外熵漂移方向是 \(-\operatorname{sgn}(A(a,s))\)。你想想看:
- 训练早期,绝大多数 rollout 都失败 → \(A \lt 0\) 的样本占多数 → AEM 整体上注入熵增压力 → 保持探索
- 训练后期,成功率涨上来 → \(A \gt 0\) 的样本占多数 → AEM 整体上注入熵减压力 → 加速收敛
整个 exploration→exploitation 的转换不需要任何 schedule、不需要任何超参数衰减,它就自动跟着 reward 分布的变化发生了。这种"机制内生的自适应性"在我看来是 AEM 最漂亮的设计。
四、实验:数据怎么样?
4.1 主实验:三个 baseline 都被涨了
主表覆盖 ALFWorld(6 个家务子任务) + WebShop(电商导航),用 Qwen2.5-1.5B 和 7B 两个尺寸,对 GRPO、GSPO、DAPO 三个主流 group-based 方法都挂上 AEM 跑:
| 方法 | ALFWorld All | WebShop Score | WebShop Succ. (%) |
|---|---|---|---|
| Qwen2.5-1.5B | |||
| GRPO | 68.0±0.8 | 83.6±0.2 | 65.0±0.6 |
| GRPO + AEM | 76.8±1.8 (+8.8) | 86.4±2.1 (+2.8) | 70.6±2.4 (+5.6) |
| GSPO | 66.7±5.3 | 75.1±7.1 | 61.5±4.5 |
| GSPO + AEM | 71.9±8.4 (+5.2) | 76.3±3.8 | 66.9±3.2 (+5.4) |
| DAPO | 88.5±1.2 | 86.5±0.9 | 75.9±2.9 |
| DAPO + AEM | 94.5±1.4 (+6.0) | 88.0±1.0 | 78.5±1.0 |
| Qwen2.5-7B | |||
| GRPO | 78.7±1.6 | 84.1±2.5 | 75.9±3.4 |
| GRPO + AEM | 84.4±3.1 (+5.7) | 86.9±1.4 | 80.5±2.1 (+4.6) |
| DAPO | 96.1±2.1 | 93.7±0.5 | 86.7±1.4 |
| DAPO + AEM | 96.6±0.7 | 94.5±1.0 | 88.9±0.9 (+2.2) |
几个判断:
-
GRPO 上的提升最大(+8.8)这个不奇怪——GRPO 是最朴素的 group baseline,credit assignment 最糊,AEM 的修正空间最大。
-
DAPO 这种已经很强的 baseline 还能再涨(+6.0),说明 AEM 跟"优化目标的改进"是正交的——DAPO 改进的是"怎么更新",AEM 改进的是"哪些响应更值得更新"。这一点作者自己讲得很清楚。
-
方差有时候不算小(GSPO + AEM 在 ALFWorld 上 ±8.4),这是 RL 训练的常态,不算硬伤,但意味着实战部署可能需要多 seed 平均。
4.2 SWE-bench-Verified:在最难的任务上也能涨
主实验已经够说明问题,但作者做了一个我特别欣赏的事——把 AEM 挂在 DeepSWE 这个 SOTA 的 SWE agent RL 框架上,跑 Qwen3-32B。
| 方法 | SWE-bench-Verified Resolved (%) |
|---|---|
| DeepSWE | 42.3±0.3 |
| DeepSWE + AEM | 43.7±0.4 (+1.4) |
1.4% 听起来不多,但 SWE-bench-Verified 是真正的开源代码修复任务,环境复杂度跟 ALFWorld 不在一个量级。能在 32B 模型 + 已经做到 42.3% 的强 baseline 上稳定再涨 1.4 个点,说明这个机制不是只在小模型/简单任务上有效。
说实话,看到这个设置我才真正服气——很多论文是"在玩具任务上涨 5%",AEM 是"在 SOTA 框架的真实任务上还能再压榨 1.4%",这两个的难度是天壤之别。
4.3 机制分析:理论真的成立吗?
这是 Section 5.3 的几个 analysis,作者做了三个相当严谨的验证。
Analysis A:他们做 Monte Carlo 探针实验,对 64 个 state 各采 64 个 response,估计真实的 \(\Delta S^{\text{MC}} = -(S - \mathcal{H}_{\text{resp}}^{\text{MC}})\),然后跟 \(\alpha - 1\) 对比。结果:Pearson 相关系数 \(r = 0.63\),符号一致率 55/64 = 85.9%。

图2:α-1 与 MC 相对惊讶度的实证关系。这张图是 AEM "代理量是否对得上理论量"的关键证据——0.63 的相关 + 85.9% 的符号一致率,说明那个看起来挺粗暴的 length-normalized + group min-max 代理,确实抓住了响应级不确定性的本质方向。
Analysis B:他们用 mask 实验直接验证 Eq.15——把 \(\operatorname{sgn}(A(\alpha-1))\) 为正/负的样本分别屏蔽,看熵动力学是否真的按理论方向走。结果两条曲线明显分叉,与理论一致。

图3:屏蔽 A(α-1) 不同符号的样本,熵的走势明显分裂——这是对 Eq.15 那个理论预测最直接的实证检验。如果方向反了,AEM 整套机制就垮了,这个验证不能省。
Analysis C:探索-利用转换的可视化。

图4:基线 GRPO 在训练一开始就出现 entropy collapse(熵从 ~0.5 直接塌到 ~0.1),后续基本平躺;AEM 在前期保持显著更高的熵,后期才平滑降下来。这就是"探索→利用"的自适应过渡,肉眼可见。

图5:把熵和成功率画在同一张图上看——AEM 的成功率上得更高,关键是熵的下降时机正好和成功率的上升对齐,说明这个"切换"是数据驱动的,不是人为 schedule 出来的。基线则因为熵塌缩太早,被困在了局部最优。
这三个 analysis 是这篇论文工程上让我最放心的部分——不是只给主实验数字,而是把"为什么涨"也讲清楚了。
4.4 计算开销:1.1%
这个数据很关键。Agent RL 本来就贵,任何额外开销都得过秤。

图6:每次迭代的延迟分解。Rollout 占了快一半(45.9%),模型更新和 log-prob 计算瓜分剩下大头,AEM 自己只占 1.1%——基本可以视为 free lunch。这得益于它复用了 GRPO 已经在算的 token 级 entropy,没有任何额外的 forward pass。
4.5 消融:方向反了直接负收益
Appendix E 的消融做得很扎实。我列几个关键变体:
| 变体 | WebShop Score | Succ. Rate |
|---|---|---|
| GRPO | 83.6±0.2 | 65.0±0.6 |
| + AEM | 86.4±2.1 | 70.6±2.4 |
| + AEM_reverse(温度反号) | 77.2±3.3 | 64.5±1.7 |
| + AEM_shuffle(组内随机置换 α) | 85.6±1.1 | 64.8±2.4 |
| + AEM_traj-norm(轨迹归一化) | 83.8±3.1 | 68.7±1.5 |
| + AEM_batch-norm(批归一化) | 83.1±4.8 | 66.1±2.4 |
两个观察:
- 方向反了直接掉到 GRPO 之下(77.2 vs 83.6)——这说明熵-到-信用的映射方向是真的有理论根据的,瞎试很容易把训练带沟里。
- shuffle 后 score 几乎不掉但 succ rate 大跌——证明"\(\alpha\) 必须对应到自己的响应"才有效,不是简单的"额外加点 noise 让训练更鲁棒"。
- group 归一化是最佳选择——因为同一个 prompt 的响应才有可比性,混 batch 反而引入任务间的熵 bias。
这种消融让我对 AEM 的设计选择很信服——每个细节都是有道理的,不是凑出来的。
五、批判性思考:AEM 哪里还可以更好?
按规矩聊点不那么吹的。
第一,代理量终究是代理量。\(\bar{\mathcal{H}}_{i,t}\) 是 token 级条件熵的平均,不是真正的 response surprisal \(S(a \mid s)\),更不是 \(\mathcal{H}_{\text{resp}}(s)\)。Pearson 0.63 + 符号一致 85.9% 已经不错,但还有 14.1% 的样本会被打反符号——在边界情况下这可能就是噪声。作者自己在 Limitations 里也承认了这点。
第二,方差稍高。看主表,GSPO + AEM 在 ALFWorld 上 ±8.4 这个方差是真不小。RL 训练本来就方差大,但叠加一个数据驱动的自适应机制,方差进一步放大也是预期之中。这意味着实战部署需要多 seed + early stopping 的工程配套。
第三,跟同期工作的对比。entropy-aware 的 RL 优化最近一年挺热的,比如 Wang et al. 的 entropy-guided advantage scaling、Xu et al. 的 EPO 等等。论文 Related Work 里都提到了,但主表里没有跟这些方法直接横比,只跟 GRPO/DAPO/GSPO 这些"目标层面"的改进比。我个人会更想看到 AEM vs 同期 entropy-aware credit assignment 方法的头对头对比——这才是真正能说"我是 SOTA"的证据。
第四,超参 \(\lambda\) 的鲁棒性。论文用 \(\lambda = 1\) 作为默认值,但 \(\lambda\) 的不同取值对应不同的"调制强度"。理论上 \(\lambda\) 越大调制越激进,越小越接近 GRPO。这个超参的稳定性范围多大,跨任务跨模型是否需要重新搜,论文没给出特别清晰的指引。
不过总的来说,这些都不是硬伤,更多是"future work 可以补"的范畴。
六、对工程实践的启发
如果你在做 Agent RL,这篇论文有几个直接能抄的东西:
- 如果你正在 GRPO/DAPO 上挣扎于 entropy collapse,AEM 这套 advantage rescale 机制可以直接挂上去,代码量大概几十行,开销可忽略。
- 不要再花钱训 PRM 了——至少在多轮 Agent 场景下,response-level 熵这个内禀信号已经足够好用。PRM 那一套主要是数学解题等"步骤定义清晰"的场景才有边际收益。
- Group normalization 优于 batch / trajectory normalization——这是个反直觉的 takeaway。batch 看起来统计更稳,但同一个 batch 里不同 prompt 的熵 scale 完全不同,混在一起反而引入 bias。
- "自适应"比"schedule"靠谱——很多人用 entropy regularization 时会手动调 \(\beta\) 的衰减曲线,AEM 这种"机制内生跟着 reward 分布变"的设计哲学是更优雅的范式。
七、收尾的一点判断
Agent RL 这个方向,过去一年我看了不少论文,真正能记住的不多——大部分要么是工程整合(把已有 trick 排列组合)、要么是 benchmark 刷分(在某个数据集上 +X%,换数据集就崩)。
AEM 之所以能让我认真写一篇解读,是因为它具备三个东西:
- 理论上有干净的命题(Theorem 3.2.2 是真的成立的,不是套个数学外壳吓人)
- 实现上极简(一个标量乘法,1.1% 开销)
- 实验上覆盖了足够的难度梯度(从 1.5B 玩具任务到 32B SWE-bench-Verified 都涨)
这种工作我猜会被很多 Agent RL 框架快速吸收——因为接入成本太低了,几乎没有理由不试。
如果要我猜未来一两年的趋势,我会赌"用模型自身的统计量做 credit assignment"会成为一个小流派,AEM 是其中一个很好的起点。下一步的工作可能会朝两个方向走:一是更精细的 surprisal 估计器(不只是 token entropy 平均);二是把这个思想推广到 multi-agent 或 hierarchical RL 场景。
总之,强烈推荐做 Agent / Agentic RL 的同行花一个晚上把这篇过一遍,然后挂到自己的 baseline 上跑一遍 ablation。
觉得有启发的话,欢迎点赞、在看、转发。跟进最新 AI 前沿,关注我