不要再给Agent硬塞PRM了：百度这篇AEM用一个"熵的呼吸节奏"把信用分配做了

核心摘要

多轮 Agent 的 RL 训练有个老大难问题——只有最终一个稀疏的成败信号，回头你不知道该奖励轨迹里的哪一步。主流的做法要么训一个 PRM 给每步打分（贵），要么搞树形 rollout 做反事实信用分配（更贵），要么从轨迹结构里硬挖自监督信号（脆）。百度联合清华、复旦的这篇 AEM 提出了一个完全不一样的路子：不引入任何额外监督，直接拿模型自己的 response-level 熵当作内禀的不确定性信号，去rescale advantage。理论上他们证明了一个干净的结论——熵的漂移方向由"采样响应的优势 × 相对惊讶度"决定；工程上就一个标量乘法，开销 1.1%。在 ALFWorld、WebShop、SWE-bench-Verified 上把 GRPO/DAPO/GSPO 全都拉了一遍，最高 +8.8%，挂在 DeepSWE 上 SWE-bench-Verified 也涨了 1.4%。我的判断：这是少见的"理论漂亮 + 实现极简 + 实验扎实"的工作，对正在做 Agent RL 的团队来说是个能直接抄的设计。

论文信息

标题：AEM: Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement Learning
作者：Haotian Zhao, Songlin Zhou, Yuxin Zhang, Stephen S.-T. Yau, Wenyu Zhang, Lun Tian, Tianshu Zhu, Yifeng Huang, Yucheng Zeng, Jingnan Gu, Daxiang Dong, Jianmin Wu
机构：百度（Baidu）、清华大学、复旦大学
链接：https://arxiv.org/abs/2605.00425

一、为什么这篇论文值得读

先聊聊问题本身。

最近一年 Agent RL 已经从"能不能做"变成了"怎么做才不烧钱"。无论是 ALFWorld 这种家务任务、WebShop 这种网购模拟，还是 SWE-bench 这种真实软件工程任务，套路都差不多：模型一连 reasoning + 调工具 + 看反馈，跑十几二十轮，最后给一个 0/1 的成败 reward。

问题来了——这个 reward 该怎么分配回前面每一步？

你想想看，一条成功轨迹里可能有 20 个 response，第 3 步的工具调用可能是关键一击，第 17 步可能只是顺势收尾。但你只有一个最终分数。GRPO 这类 group-based 方法是怎么做的？把整条轨迹的所有 token 都用同一个 advantage 去训。结果就是：好步骤和烂步骤被同等对待，credit assignment 完全是糊的。

业界的解法基本分三派：

派别	代表方法	痛点
加监督	PRM（过程奖励模型）	要额外训一个模型，标注成本+训练成本双爆炸
加 rollout	Tree-GRPO、ATPO（树形展开）	多轮场景下计算开销直接翻倍
自监督	GiGPO、IGPO（从轨迹结构推)	依赖结构假设、上下文一致性脆弱

每条路都不便宜。

AEM 这篇的切入角度让我眼前一亮——模型自己的策略熵，本来就是一个天然的不确定性信号，为什么不直接拿来用？ 高熵的 response 说明模型在犹豫（探索性行为），低熵的说明模型很笃定（已经收敛的行为）。把这个信号做成一个 advantage 的乘法系数，整个流程不需要额外模型、不需要额外 rollout、不需要任何监督信号。

听起来像是工程小技巧？我一开始也是这么想的，但读完理论部分发现，他们其实把"为什么这么做有效"在 Fisher-Rao 信息几何下证清楚了。这是这篇论文最值钱的地方。

二、核心理论：熵的漂移到底由什么决定？

这部分我尽量讲得直观一点，公式只保留一条核心的。

2.1 先把熵从 token 级提到 response 级

之前 entropy-aware 的工作（比如各种 entropy regularization）大多是 token 级的。但作者指出一个很关键的事实——Agent RL 里，环境是对一个完整 response 做出反应的，而不是对单个 token。你模型吐出 "Thought: ... Action: search('apple')"，环境是看完整个 action 才返回结果，不是一个 token 一个 token 给反馈。

所以正确的不确定性单位应该是 response，不是 token。

作者定义了 response-level surprisal：

\[S(a_t \mid s_t) := -\log \pi_\theta(a_t \mid s_t) = -\sum_{\ell=1}^{|a_t|} \log p_\theta(y_\ell \mid s_t, y_{\lt \ell})\]

以及 response-level entropy \(\mathcal{H}_{\text{resp}}(s_t)\)（就是 surprisal 的期望）。

然后他们证明了 Theorem 3.2.1：policy 总熵 = 各状态 response-level 熵的期望和。这个分解告诉你，response-level 是连接 token 级和 policy 级的"自然中间层"，对它做调制就能直接影响 policy 熵。

2.2 熵到底怎么动的——关键定理

这是全文最核心的一个结论（Theorem 3.2.2），我把它摆出来：

在 Fisher-Rao 信息几何下，沿着自然梯度方向 \(\operatorname{grad}^F \ell_a(\pi)\) 更新策略，response-level 熵的方向导数是：

\[D_{\text{RL}}^{\text{resp}}(a; s) = A(a, s)\bigl(S(a \mid s) - \mathcal{H}_{\text{resp}}(s)\bigr)\]

翻译成人话：一次更新会让熵涨还是跌，由两个东西的乘积决定——这个 response 的优势 \(A\)，和它的"相对惊讶度"\(S - \mathcal{H}_{\text{resp}}\)。

如果 \(A \gt 0\)（这是个好响应）且 \(S \gt \mathcal{H}_{\text{resp}}\)（这个响应本身比平均更"惊讶"，更冷门）→ 熵涨
如果 \(A \gt 0\) 且 \(S \lt \mathcal{H}_{\text{resp}}\)（好响应而且很笃定）→ 熵跌
\(A \lt 0\) 的情况符号反过来

图1：三响应策略单纯形上的几何示意。当 D_RL > 0 时（即更新方向与熵梯度方向夹角小于90度），熵沿训练方向增加，否则减小。

图1：三响应策略单纯形上的几何示意。当更新方向与熵梯度方向夹角小于 90 度时，熵增加；否则熵减少。这是 AEM 整个理论的"种子"——告诉你想控制熵动力学，应该往哪个方向 rescale advantage。

这个结论我看到的时候第一反应是：对，就该这么干。

之前各种 entropy regularization 都是在外面贴一个 \(-\beta \log \pi\) 项，改的是优化目标的形状；AEM 不动目标，只动 advantage 的"权重"，说到底是在"挑选哪些 response 应该被强化"。这就好比之前都是在调发动机的输出曲线，AEM 是在调离合器——更细粒度，也更优雅。

补充一句：作者还在 Appendix F.3 把这个定理推广到了带 entropy regularization 和 KL penalty 的一般情况，证明那些 state-level 的正则项不会改变 response 级别的调制原理。这意味着 AEM 可以无痛叠加在已有 GRPO/DAPO/PPO 之上，理论保证不打架。

三、AEM 的工程实现：一个标量乘法搞定

理论是漂亮的，但落地往往是另一回事。AEM 的妙处在于实现非常轻——核心就一个公式。

3.1 用什么代理 \(S - \mathcal{H}_{\text{resp}}\)？

实际训练时， \(\mathcal{H}_{\text{resp}}(s_t)\) 没法精确算（要对整个 response 空间求和，不可能）。作者从 Doob 分解的角度论证，可以用一个可预测代理：把 response 内部所有 token 的条件熵求和后做长度归一化：

\[\bar{\mathcal{H}}_{i,t} = \frac{1}{|S_{i,t}|} \sum_{\ell \in S_{i,t}} \mathcal{H}_\ell(a_t, s_t)\]

这玩意儿在训练 forward pass 里本来就要算（GRPO 算 old-policy log-prob 时已经有了 token 级 entropy），所以零额外成本。

3.2 组内 min-max 归一化 + softmax 自校准

接下来在 group 内（一个 prompt 对应的所有轨迹响应）做 min-max 归一化：

\[\tilde{\mathcal{H}}_{i,t} = \frac{\bar{\mathcal{H}}_{i,t} - \min_\mathcal{G} \bar{\mathcal{H}}}{\max_\mathcal{G} \bar{\mathcal{H}} - \min_\mathcal{G} \bar{\mathcal{H}} + \varepsilon}\]

然后用一个带温度 \(\lambda\) 的 softmax 风格映射，得到最终系数：

\[\alpha_{i,t} = \frac{\exp(-\lambda \tilde{\mathcal{H}}_{i,t})}{\frac{1}{|\mathcal{G}|} \sum \exp(-\lambda \tilde{\mathcal{H}}) + \varepsilon}\]

最后 \(A^{\text{AEM}}_{i,t} = \alpha_{i,t} \cdot A^{\text{base}}_{i,t}\) 就完事了。

几个工程细节值得拎出来说说：

方向是负温度：\(-\lambda \tilde{\mathcal{H}}\)，意味着熵越低（笃定的响应）→ \(\alpha\) 越大；熵越高（探索的响应）→ \(\alpha\) 越小。这正好对应了"低惊讶 = 模型已经会的，应该被强化或抑制得更彻底"。
自校准除以组均值：保证 \(\alpha\) 的整体规模不漂移，等价于在 group 内做了一次"相对排序"，scale 不会失控。
min-max 范围太小时跳过：当 group 内 \(\max - \min \lt 0.1\)，直接 \(\alpha = 1\)，避免在采样噪声上瞎调。

3.3 为什么这个机制能"自适应"地从探索切到利用？

这一段是我觉得整个 idea 最 elegant 的地方。

考察符号：\(A^{\text{AEM}} - A^{\text{base}}\) 引起的额外熵漂移方向是 \(-\operatorname{sgn}(A(a,s))\)。你想想看：

训练早期，绝大多数 rollout 都失败 → \(A \lt 0\) 的样本占多数 → AEM 整体上注入熵增压力 → 保持探索
训练后期，成功率涨上来 → \(A \gt 0\) 的样本占多数 → AEM 整体上注入熵减压力 → 加速收敛

整个 exploration→exploitation 的转换不需要任何 schedule、不需要任何超参数衰减，它就自动跟着 reward 分布的变化发生了。这种"机制内生的自适应性"在我看来是 AEM 最漂亮的设计。

四、实验：数据怎么样？

4.1 主实验：三个 baseline 都被涨了

主表覆盖 ALFWorld（6 个家务子任务） + WebShop（电商导航），用 Qwen2.5-1.5B 和 7B 两个尺寸，对 GRPO、GSPO、DAPO 三个主流 group-based 方法都挂上 AEM 跑：

方法	ALFWorld All	WebShop Score	WebShop Succ. (%)
Qwen2.5-1.5B
GRPO	68.0±0.8	83.6±0.2	65.0±0.6
GRPO + AEM	76.8±1.8 (+8.8)	86.4±2.1 (+2.8)	70.6±2.4 (+5.6)
GSPO	66.7±5.3	75.1±7.1	61.5±4.5
GSPO + AEM	71.9±8.4 (+5.2)	76.3±3.8	66.9±3.2 (+5.4)
DAPO	88.5±1.2	86.5±0.9	75.9±2.9
DAPO + AEM	94.5±1.4 (+6.0)	88.0±1.0	78.5±1.0
Qwen2.5-7B
GRPO	78.7±1.6	84.1±2.5	75.9±3.4
GRPO + AEM	84.4±3.1 (+5.7)	86.9±1.4	80.5±2.1 (+4.6)
DAPO	96.1±2.1	93.7±0.5	86.7±1.4
DAPO + AEM	96.6±0.7	94.5±1.0	88.9±0.9 (+2.2)

几个判断：

GRPO 上的提升最大（+8.8）这个不奇怪——GRPO 是最朴素的 group baseline，credit assignment 最糊，AEM 的修正空间最大。
DAPO 这种已经很强的 baseline 还能再涨（+6.0），说明 AEM 跟"优化目标的改进"是正交的——DAPO 改进的是"怎么更新"，AEM 改进的是"哪些响应更值得更新"。这一点作者自己讲得很清楚。
方差有时候不算小（GSPO + AEM 在 ALFWorld 上 ±8.4），这是 RL 训练的常态，不算硬伤，但意味着实战部署可能需要多 seed 平均。

4.2 SWE-bench-Verified：在最难的任务上也能涨

主实验已经够说明问题，但作者做了一个我特别欣赏的事——把 AEM 挂在 DeepSWE 这个 SOTA 的 SWE agent RL 框架上，跑 Qwen3-32B。

方法	SWE-bench-Verified Resolved (%)
DeepSWE	42.3±0.3
DeepSWE + AEM	43.7±0.4 (+1.4)

1.4% 听起来不多，但 SWE-bench-Verified 是真正的开源代码修复任务，环境复杂度跟 ALFWorld 不在一个量级。能在 32B 模型 + 已经做到 42.3% 的强 baseline 上稳定再涨 1.4 个点，说明这个机制不是只在小模型/简单任务上有效。

说实话，看到这个设置我才真正服气——很多论文是"在玩具任务上涨 5%"，AEM 是"在 SOTA 框架的真实任务上还能再压榨 1.4%"，这两个的难度是天壤之别。

4.3 机制分析：理论真的成立吗？

这是 Section 5.3 的几个 analysis，作者做了三个相当严谨的验证。

Analysis A：他们做 Monte Carlo 探针实验，对 64 个 state 各采 64 个 response，估计真实的 \(\Delta S^{\text{MC}} = -(S - \mathcal{H}_{\text{resp}}^{\text{MC}})\)，然后跟 \(\alpha - 1\) 对比。结果：Pearson 相关系数 \(r = 0.63\)，符号一致率 55/64 = 85.9%。

图2：α-1 与 Monte Carlo 估计的相对惊讶度 -(S - H_resp^MC) 的散点关系。Pearson 相关 0.63，符号一致率 85.9%。

图2：α-1 与 MC 相对惊讶度的实证关系。这张图是 AEM "代理量是否对得上理论量"的关键证据——0.63 的相关 + 85.9% 的符号一致率，说明那个看起来挺粗暴的 length-normalized + group min-max 代理，确实抓住了响应级不确定性的本质方向。

Analysis B：他们用 mask 实验直接验证 Eq.15——把 \(\operatorname{sgn}(A(\alpha-1))\) 为正/负的样本分别屏蔽，看熵动力学是否真的按理论方向走。结果两条曲线明显分叉，与理论一致。

图3：两种掩码策略导致的熵走势明显分叉，验证了 sgn(D_RL) ≈ -sgn(A(α-1))。

图3：屏蔽 A(α-1) 不同符号的样本，熵的走势明显分裂——这是对 Eq.15 那个理论预测最直接的实证检验。如果方向反了，AEM 整套机制就垮了，这个验证不能省。

Analysis C：探索-利用转换的可视化。

图4：GRPO 与 GRPO+AEM 在多次训练中的熵轨迹对比。基线在训练开始就熵塌缩，AEM 始终保持较高熵后期再缓慢下降。

图4：基线 GRPO 在训练一开始就出现 entropy collapse（熵从 ~0.5 直接塌到 ~0.1），后续基本平躺；AEM 在前期保持显著更高的熵，后期才平滑降下来。这就是"探索→利用"的自适应过渡，肉眼可见。

图5：单次代表性训练的熵动力学与成功率叠加图。AEM 早期保持高熵促进多样性，随成功率上升后期熵逐渐降低；基线熵塌缩后成功率也卡在低点。

图5：把熵和成功率画在同一张图上看——AEM 的成功率上得更高，关键是熵的下降时机正好和成功率的上升对齐，说明这个"切换"是数据驱动的，不是人为 schedule 出来的。基线则因为熵塌缩太早，被困在了局部最优。

这三个 analysis 是这篇论文工程上让我最放心的部分——不是只给主实验数字，而是把"为什么涨"也讲清楚了。

4.4 计算开销：1.1%

这个数据很关键。Agent RL 本来就贵，任何额外开销都得过秤。

图6：GRPO+AEM 的训练时间分解。Rollout 45.9%、模型更新 36.0%、log-prob 计算 16.8%、AEM 仅 1.1%。

图6：每次迭代的延迟分解。Rollout 占了快一半（45.9%），模型更新和 log-prob 计算瓜分剩下大头，AEM 自己只占 1.1%——基本可以视为 free lunch。这得益于它复用了 GRPO 已经在算的 token 级 entropy，没有任何额外的 forward pass。

4.5 消融：方向反了直接负收益

Appendix E 的消融做得很扎实。我列几个关键变体：

变体	WebShop Score	Succ. Rate
GRPO	83.6±0.2	65.0±0.6
+ AEM	86.4±2.1	70.6±2.4
+ AEM_reverse（温度反号）	77.2±3.3	64.5±1.7
+ AEM_shuffle（组内随机置换 α）	85.6±1.1	64.8±2.4
+ AEM_traj-norm（轨迹归一化）	83.8±3.1	68.7±1.5
+ AEM_batch-norm（批归一化）	83.1±4.8	66.1±2.4

两个观察：

方向反了直接掉到 GRPO 之下（77.2 vs 83.6）——这说明熵-到-信用的映射方向是真的有理论根据的，瞎试很容易把训练带沟里。
shuffle 后 score 几乎不掉但 succ rate 大跌——证明"\(\alpha\) 必须对应到自己的响应"才有效，不是简单的"额外加点 noise 让训练更鲁棒"。
group 归一化是最佳选择——因为同一个 prompt 的响应才有可比性，混 batch 反而引入任务间的熵 bias。

这种消融让我对 AEM 的设计选择很信服——每个细节都是有道理的，不是凑出来的。

五、批判性思考：AEM 哪里还可以更好？

按规矩聊点不那么吹的。

第一，代理量终究是代理量。\(\bar{\mathcal{H}}_{i,t}\) 是 token 级条件熵的平均，不是真正的 response surprisal \(S(a \mid s)\)，更不是 \(\mathcal{H}_{\text{resp}}(s)\)。Pearson 0.63 + 符号一致 85.9% 已经不错，但还有 14.1% 的样本会被打反符号——在边界情况下这可能就是噪声。作者自己在 Limitations 里也承认了这点。

第二，方差稍高。看主表，GSPO + AEM 在 ALFWorld 上 ±8.4 这个方差是真不小。RL 训练本来就方差大，但叠加一个数据驱动的自适应机制，方差进一步放大也是预期之中。这意味着实战部署需要多 seed + early stopping 的工程配套。

第三，跟同期工作的对比。entropy-aware 的 RL 优化最近一年挺热的，比如 Wang et al. 的 entropy-guided advantage scaling、Xu et al. 的 EPO 等等。论文 Related Work 里都提到了，但主表里没有跟这些方法直接横比，只跟 GRPO/DAPO/GSPO 这些"目标层面"的改进比。我个人会更想看到 AEM vs 同期 entropy-aware credit assignment 方法的头对头对比——这才是真正能说"我是 SOTA"的证据。

第四，超参 \(\lambda\) 的鲁棒性。论文用 \(\lambda = 1\) 作为默认值，但 \(\lambda\) 的不同取值对应不同的"调制强度"。理论上 \(\lambda\) 越大调制越激进，越小越接近 GRPO。这个超参的稳定性范围多大，跨任务跨模型是否需要重新搜，论文没给出特别清晰的指引。

不过总的来说，这些都不是硬伤，更多是"future work 可以补"的范畴。

六、对工程实践的启发

如果你在做 Agent RL，这篇论文有几个直接能抄的东西：

如果你正在 GRPO/DAPO 上挣扎于 entropy collapse，AEM 这套 advantage rescale 机制可以直接挂上去，代码量大概几十行，开销可忽略。
不要再花钱训 PRM 了——至少在多轮 Agent 场景下，response-level 熵这个内禀信号已经足够好用。PRM 那一套主要是数学解题等"步骤定义清晰"的场景才有边际收益。
Group normalization 优于 batch / trajectory normalization——这是个反直觉的 takeaway。batch 看起来统计更稳，但同一个 batch 里不同 prompt 的熵 scale 完全不同，混在一起反而引入 bias。
"自适应"比"schedule"靠谱——很多人用 entropy regularization 时会手动调 \(\beta\) 的衰减曲线，AEM 这种"机制内生跟着 reward 分布变"的设计哲学是更优雅的范式。

七、收尾的一点判断

Agent RL 这个方向，过去一年我看了不少论文，真正能记住的不多——大部分要么是工程整合（把已有 trick 排列组合）、要么是 benchmark 刷分（在某个数据集上 +X%，换数据集就崩）。

AEM 之所以能让我认真写一篇解读，是因为它具备三个东西：

理论上有干净的命题（Theorem 3.2.2 是真的成立的，不是套个数学外壳吓人）
实现上极简（一个标量乘法，1.1% 开销）
实验上覆盖了足够的难度梯度（从 1.5B 玩具任务到 32B SWE-bench-Verified 都涨）

这种工作我猜会被很多 Agent RL 框架快速吸收——因为接入成本太低了，几乎没有理由不试。

如果要我猜未来一两年的趋势，我会赌"用模型自身的统计量做 credit assignment"会成为一个小流派，AEM 是其中一个很好的起点。下一步的工作可能会朝两个方向走：一是更精细的 surprisal 估计器（不只是 token entropy 平均）；二是把这个思想推广到 multi-agent 或 hierarchical RL 场景。

总之，强烈推荐做 Agent / Agentic RL 的同行花一个晚上把这篇过一遍，然后挂到自己的 baseline 上跑一遍 ablation。

觉得有启发的话，欢迎点赞、在看、转发。跟进最新 AI 前沿，关注我