从推理到智能体：LLM强化学习中的信用分配，到底难在哪？

你有没有碰到过这种情况：用GRPO训练一个做数学推理的模型，效果还不错，但拿同一套方法去训一个写代码修bug的智能体，reward曲线死活不动？不是你调参的问题，是信用分配这件事，从推理到智能体，发生了质变。

这篇由独立研究员Chenchen Zhang撰写的综述，系统梳理了2024年至2026年初47种信用分配方法（41种核心方法+6种邻近使能方法），按"分配粒度"和"方法论"两个维度建立分类体系，并明确指出：推理RL的信用分配正在走向成熟，而智能体RL正在催生全新的方法范式——事后反事实分析、特权非对称评判器、轮次级MDP重构——这些在推理RL中找不到先例。

核心摘要

GRPO把一个episode的总reward均摊给每个token，短链推理还凑合，长链推理和智能体交互就彻底失灵。这篇综述覆盖47种方法，核心判断是：推理CA围绕PRM和无评判器群组比较已经趋于成熟，智能体CA则正在开辟全新战场——后见之明反事实分析、特权评判器、轮次级MDP是三个最有前景的方向。实验数据也印证了这一点：智能体场景下CA方法的增益均值（+8.5）高于推理场景（+6.0），说明episode-level信用在长轨迹上退化更严重。

论文信息

标题：From Reasoning to Agentic: Credit Assignment in Reinforcement Learning for Large Language Models
作者：Chenchen Zhang（独立研究员）
链接：https://arxiv.org/abs/2604.09459
GitHub：https://github.com/xxzcc/Awesome-Credit-Assignment-in-LLM-RL

图1：LLM RL的三个阶段与信用分配挑战的演变

图1：从RLHF到推理RL再到智能体RL，轨迹越来越长，信用分配难度发生质的飞跃

问题在哪：GRPO的均摊信用为什么不work

先说清楚核心问题。GRPO的优势估计长这样：

\[\hat{A}^{GRPO}_i = R(\tau_i) - \frac{1}{G}\sum_{j=1}^{G} R(\tau_j)\]

一个trajectory \(\tau_i\) 里所有token共享同一个advantage值。推理RL中轨迹短（500-30K tokens，1轮），这种方法虽然粗暴但还能用——关键决策点少，信噪比勉强够。

但到了智能体RL，情况就完全不同了。论文给了一组对比数据：

设置	回合数	Token数	决策点
推理RL (GSM8K)	1	200-800	3-10步
推理RL (MATH)	1	1,000-5,000	5-20步
推理RL (AIME)	1	10,000-30,000+	20-100步
智能体RL (ALFWorld)	5-20	5,000-30,000	5-20轮
智能体RL (WebArena)	10-30	30,000-100,000	10-30轮
智能体RL (SWE-bench)	20-100+	100,000-500,000+	20-100+轮
智能体RL (OSWorld)	50-100	200,000-1,000,000	50-100+轮

从GSM8K的3个决策点到SWE-bench的100+个决策点，REINFORCE估计器的方差和决策点数量T成正比——\(\mathcal{O}(T \cdot \text{Var}[R])\)。T从10涨到100，方差涨10倍，信噪比直接崩溃。

RAGEN的工作把这个现象叫做"Echo Trap"：episode-level信用下，梯度信号太吵，模型分不清有用的探索和无意义的重复，于是收敛到反复调用同一个工具的死循环里。

二维分类法：粒度 × 方法论

论文提出了一个清晰的二维分类框架：

粒度轴：Token → 片段 → 步骤/轮次 → 多智能体
方法论轴：蒙特卡洛 → 时序差分 → LLM评判器 → 博弈论 → 信息论

把47种方法铺到这个网格里，能看到一个明显的趋势：推理RL的方法集中在左上方（细粒度+MC/TD），智能体RL的方法集中在右下方（粗粒度+博弈论/信息论）。

图2：47种信用分配方法的二维分类——粒度×方法论

图2：蓝色为推理RL方法，红色为智能体RL方法，紫色为多智能体。虚线箭头表示从细粒度推理方法到粗粒度环境感知方法的演化趋势

说到底，智能体RL引入了6个推理RL不存在（或不严重）的挑战：

随机环境转移——调API可能超时，网页可能A/B测试，MC展开要重新执行环境交互，太贵了
部分可观察性——POMDP，你看到的不是完整状态，决策错误和信息缺失难以区分
极长视野——100K到1M tokens，方差随T线性增长
异构动作类型——选工具、写代码、格式化输出，重要性天差地别，但episode-level信用一视同仁
中间状态不可验证——数学题每步能检查，但"搜Python爬虫教程"这个动作好不好？搜完才知道
分岔点问题——少数关键决策决定成败，但episode-level信用对其视而不见

这6个挑战不是简单加码，而是让推理RL的方法论基础（确定性转移、可验证步骤、单轮生成）全部失效。

图3：47种方法的层级分类树

图3：按设置（推理/智能体/多智能体）和方法家族组织的层级分类，步骤/轮次级是最密集的区域

推理RL的信用分配：三个层次走向成熟

Token级：MC展开的暴力美学

VinePPO（ICML 2025）的思路很直接：PPO的learned critic不准，那就不要critic了，直接在中间前缀处分叉K次续写，用MC估计token级价值 \(V(s_t) \approx \frac{1}{K}\sum_{k=1}^{K} R(\tau_t^{(k)})\)。无偏，但计算量是 \(\mathcal{O}(K \cdot L)\) 级别的前向传播。

说实话，VinePPO给我最大的启发不是方法本身，而是它证明了一件事：信用分配质量才是瓶颈，策略优化不是。PPO换一个更好的信用信号就能大幅涨点，说明PPO的critic网络在LLM这种高维动作空间里确实拉胯。

RED和T-REG走的是低成本路线：RED探测现成reward model的隐层表征做线性回归，零额外RL训练实现token级重分配；T-REG对比模型生成正确和错误解的token级对数概率差异，自监督生成奖励信号。精度不如VinePPO，但成本极低。

From r to Q*从理论上证明了DPO隐式学习了token级Q函数：

\[Q^*(s_t, a_t) = \beta \log \frac{\pi_\theta(a_t|s_t)}{\pi_{\text{ref}}(a_t|s_t)} + \beta \log Z(s_t)\]

这个结论挺漂亮：信用分配可能是alignment训练的"免费副产品"。

Segment级：语义切分的中间地带

Token级太细，step级又需要外部标注，segment级是一个自然的折中。

SPO在推理链的"切割点"（推理方式转换的位置）分段，每段计算MC优势。你想想看，解一道数学题，"设未知数"和"解方程"就是两个不同的segment——SPO让每个segment获得独立的信用信号，而不是一整条链共享一个reward。

TEMPO把推理结构泛化为树，叶节点用MC估计，内部节点用TD自举，不需要critic。这个树结构的设计挺巧妙：在分叉点（比如尝试不同解法），TEMPO同时探索多条路径，然后自底向上传递信用。叶节点的MC估计无偏，内部节点的TD自举降方差，两种估计各司其职。

SCAR把推理链当合作博弈，用Shapley值分配segment信用——理论上最优雅，计算上最昂贵。Shapley值是唯一同时满足效率性、对称性和零贡献者属性的分配方案，但在n个segment上需要评估 \(2^n\) 个联盟。SCAR用采样近似来降成本，不过计算开销依然是所有方法中最大的。

Step级：PRM的天下

这是推理CA最热闹的战场。PRM（Process Reward Model） 本身就是信用分配——给每个推理步骤打分，就是在做step级的信用分解。论文专门做了一个澄清：PRM文献和CA文献是同一个问题的两种视角。

PURE（ICML 2025）提出了一个重要的改进：标准PRM用"求和"形式 \(V(s_t) = \mathbb{E}[\sum_{t'\ge t} r_{t'}]\)，容易被reward hacking；PURE改用"最小值"形式 \(V(s_t) = \mathbb{E}[\min_{t'\ge t} r_{t'}]\)，让最弱步骤决定信用，堵住了模型用"安全"中间步骤刷分的漏洞。

SPRO的掩码步骤优势更直觉：移除某一步后看正确率下降多少，下降越多说明这步越关键。\(c_i = P(\text{correct}|\text{full}) - P(\text{correct}|\text{without step } i)\)。报告训练效率提升3.4倍。

CAPO让LLM当自己的评判器（Generative PRM），自给自足但存在自评偏差风险。HICRA区分了"规划token"和"执行token"，对规划token集中信用——这个思路在智能体场景下会更有价值。说到这个，推理RL里区分规划和执行的需求还不那么强烈，但到了智能体场景，"选什么策略"和"怎么执行策略"的重要性差异就更明显了。

智能体RL的信用分配：全新战场

推理RL的三个隐含假设——确定性转移、单轮生成、可验证结果——在智能体场景下全部失效。所以你不能简单地把PRM搬过来用。让我把推理和智能体的CA差异对比摆出来：

维度	推理RL	智能体RL
环境转移	确定性	随机性（API超时、网页变化）
可观察性	完全可见	部分可观察（POMDP）
典型长度	1轮，0.5K-30K tokens	10-100+轮，100K-1M tokens
动作类型	同质（生成token）	异质（工具、规划、格式化）
中间验证	通常可行	几乎不可能
分岔点	中等频率	稀少但决定性
CA难度	★★	★★★★★

这个对比说明了为什么推理CA的成熟方案不能直接迁移——每一个维度的变化都在给信用分配增加新的障碍。

轮次级PRM：适配不确定性的环境

AgentPRM用TD+GAE替代MC标记，因为MC需要重新执行环境交互来估计步骤正确性，这在智能体场景下太贵了（要启动沙箱、调真实API）。AgentPRM用TD自举的方式训练step-level critic，报告样本效率提升8倍。其实吧，这就是推理和智能体场景的一个核心分水岭：推理RL的确定性转移让MC展开几乎是免费的，但智能体RL的随机环境让MC展开的成本直接爆炸。

SWEET-RL（Meta/FAIR）的思路更巧妙：训练时我们有ground truth和完整轨迹，推理时没有——那就利用这个不对称性！训练一个能看"特权信息"的critic提供高质量轮次级奖励，actor端只看正常观测。这个设计优雅地绕过了中间状态不可验证的难题。

Turn-PPO（EACL 2026）把多轮交互重构为轮次级MDP，每个轮次当作一个宏动作，计算轮次级advantage。TARL用LLM法官提供轮次级评估，在 \(\tau\)-bench上比强RL基线任务通过率提升6%+。

后见之明与反事实：回头看才看得清

这是智能体CA最有意思的方向。2026年3月一周之内出现了三篇独立工作——HCAPO、C3、CCPO——都指向同一个思路：轨迹收集完了再回过头来看，哪个轮次真正重要。

HCAPO让LLM critic在知道完整轨迹结果的情况下，对每个轮次做回顾性评估，甚至生成反事实续写（"如果这一轮做了不同选择会怎样"）。关键洞察是：后见之明比前向估计信息更丰富——你能区分"碰巧走运"和"真正做对了"。

C3用留一法框架形式化：\(c_t = R(\tau) - R(\tau_{\setminus t})\)，即去掉第t轮后的反事实结果。环境重新执行太贵，就用LLM估计反事实结果。

CCPO更形式化，用结构因果模型（SCM）建模轨迹，把轮次信用定义为平均处理效应（ATE）。这是因果推断视角的信用分配，理论保证更强。

三篇论文一周内出现，这个时间点不是巧合——社区集体意识到了一件事：在智能体RL中，向后看比向前猜更靠谱。

回到这几个方法的共同逻辑：智能体的环境太不确定，前向预测不准，但轨迹收集完之后回头看，你拥有了完整信息。HCAPO用"后见之明"区分"碰巧成功"和"真正做对"，C3用留一法估算每轮的反事实贡献，CCPO甚至引入了因果推断的数学框架。这三条路殊途同归，都在回答同一个问题：事后看来，这一轮到底重不重要？

无评判器的步骤级方法

GiGPO（NeurIPS 2025）是GRPO的优雅推广：外层按标准GRPO做episode-level群组比较，内层按"锚定状态分组"做step-level比较——共享相似前缀的步骤分为一组，组内计算相对优势。不需要critic，在ALFWorld上比GRPO提升12%，WebShop上提升9%。

CARL（NeurIPS 2025）的思路极其简洁：大部分动作根本不值得分配信用。用动作熵 \(H(\pi(\cdot|s_t))\) 识别分岔点——高熵意味着模型不确定，选择重要；低熵意味着模型很确定，怎么选都差不多。只在最高熵的少数动作上做RL更新，减少72%的梯度更新，性能不降。这个结果暗示了一个重要的方向：智能体CA的目标不应该是给每个动作完美分配信用，而是识别出那些真正重要的动作。

层次化方法

ArCHer（ICML 2024）是智能体多轮RL的开山之作：高层离策略critic学习轮次级Q函数，低层在策略actor优化token级策略。双层解耦直接对应了智能体CA的双重层次——哪一轮重要，那一轮里哪些token重要。ArCHer也是第一个正式认识到多轮LLM RL需要根本不同于单轮推理的信用分配方法的工作。

PilotRL把层次推到三级：规划级→步骤级→token级，信用从粗到细逐级传递。这种级联式设计适合那些先显式制定计划、再逐步执行的智能体——比如"第一步搜索相关文件，第二步理解代码结构，第三步实现修复"。

还有一个值得关注的思路：SPA-RL训练一个轻量MLP进度估计器，把中间状态映射为0到1的"进度分数"，步骤信用就是进度增量 \(c_t = p_t - p_{t-1}\)。成本极低——一个小MLP相比LLM评判器几乎可以忽略，在大规模训练中这个FLOP差异很实在。

信息论方法

IGPO定义信息增益为信用：\(c_t = \log P(\text{success}|h_{1:t}) - \log P(\text{success}|h_{1:t-1})\)。一个轮次如果能大幅提升任务成功概率，就获得高信用。这个定义对搜索型智能体特别自然——每次搜索查询都"揭示"了新信息。

多智能体信用分配：新兴前沿

当多个LLM协作时，信用还要跨智能体分解。

SHARP把Shapley值推广到多智能体场景，报告比单智能体提升23.7%、比多智能体基线提升14.1%。MAPPA提供per-action粒度的过程奖励，在AIME上+5.0-17.5pp。Dr. MAS发现标准多智能体GRPO的global normalization会扭曲不同智能体的梯度尺度，改用per-agent归一化后+5.6%。

M-GRPO支持解耦训练，每个智能体独立更新。LLM-MCA用LLM当中心化critic，能理解语义层面的智能体贡献。QLLM更激进——让LLM直接生成信用分配函数的Python代码。

说实话，多智能体CA这块还处于很早期阶段，6篇论文各有各的benchmark，跨方法对比几乎不可能。但方向是明确的：随着多智能体系统在2026-2027年大规模部署，这会是一个重要的增长点。

方法选型：一个决策树

图4：方法选型决策树

图4：根据任务设置、CoT长度/回合数、算力预算等条件选择合适的CA方法

论文提供了一个实用的决策树，我简化如下：

场景	特征	推荐方法
数学推理 (GSM8K/MATH)	短CoT，可验证	GRPO, PURE, SPO, Spro
竞赛数学 (AIME)	长CoT (10K-30K)	VinePPO, HICRA, CAPO
工具调用 (WebShop/ALFWorld)	5-20轮，部分可验证	GiGPO, AgentPRM, Turn-PPO
网页导航 (WebArena)	10-30轮，随机POMDP	SWEET-RL, HCAPO, IGPO
软件工程 (SWE-bench)	50-100+轮，不可验证	CARL, HCAPO, C3/CCPO, ArCHer
多智能体	跨智能体信用	M-GRPO, SHARP, MAPPA
算力受限	低GPU预算	GRPO, CARL, iStar, GiGPO

核心原则：推理场景看CoT长度选粒度，智能体场景看回合数和验证性选方法论。

关键实验数据

推理RL的量化对比：

方法	基座模型	基准	得分	基线	增益
SPO	DeepSeek-R1-Distill-Qwen-1.5B	MATH-500	82.8%	GRPO 75.2%	+7.6
SPO	RhoMath-1.1B	GSM8K	56.7%	GRPO 45.7%	+11.0
Spro	Eurus-2-7B-SFT	AMC	31.9%	GRPO 23.6%	+8.3
CAPO	Qwen2.5-7B	AIME'24	9.7%	GRPO 3.6%	+6.1
HICRA	Qwen3-4B-Instruct	AIME'25	65.1%	GRPO 60.0%	+5.1

智能体RL的量化对比：

方法	基座模型	基准	得分	基线	增益
GiGPO	Qwen2.5-7B-Instruct	ALFWorld	90.2%	GRPO 77.6%	+12.6
GiGPO	Qwen2.5-7B-Instruct	WebShop	75.2%	GRPO 66.1%	+9.1
CARL	7B non-reasoning	HotpotQA (F1)	51.9	GRPO 47.0	+4.9
SWEET-RL	Llama-3.1-8B-Instruct	ColBench Backend	40.4%	MT-DPO 34.4%	+6.0
AgentPRM	Qwen2.5-3B	WebShop @\(8{\times}8\)	76.0%	ORM 57.0%	+19.0

有个有意思的模式：智能体场景下CA方法的增益均值（+8.5）高于推理场景（+6.0）。这和理论预期一致——轨迹越长，episode-level信用退化越严重，精细CA的边际收益越大。不过要注意，这个比较受基座模型和benchmark差异的影响，只能当做粗略的趋势验证。

我的判断

这篇综述最大的价值不是47种方法的罗列，而是"推理→智能体"这个转变下信用分配问题的系统性重定义。

几个关键判断：

推理CA已经进入收获期。PRM（特别是PURE的最小值信用）和无评判器方法（GRPO家族的群组比较）形成了成熟的技术栈。如果你在做数学推理，直接用GRPO+PRM就够用了，不需要折腾VinePPO这种计算量翻几倍的方法。
智能体CA是真正的蓝海。事后反事实分析（HCAPO/C3/CCPO）在2026年3月的一周内三篇论文同时出现，这个收敛速度说明社区找到了一个真正的方向。但说实话，目前这些方法的实验规模都偏小——SWEET-RL在ColBench上只涨了6个点，HCAPO/C3/CCPO甚至没有公开的标准化benchmark对比。距离工程落地还有距离。
CARL的"稀疏信用"理念被低估了。72%的梯度更新砍掉还不掉点，这说明智能体轨迹中大部分动作的信用接近零。与其花大力气给每个动作精确分配信用，不如先找到那些真正重要的分岔点。这个思路可能会成为智能体CA的主流范式。
一个明显的gap：没有任何方法同时解决了6个智能体挑战。论文的挑战-方法对照表显示，即使是最好的方法也只直接解决了1-2个挑战。这意味着组合多种CA方法可能是未来的方向——比如CARL识别分岔点 + HCAPO做反事实分析。
评估碎片化是最大障碍。推理RL有GSM8K/MATH/AIME共享的benchmark体系，智能体RL几乎每篇论文用不同的benchmark。没有可比性，就无法判断哪个方法真正更好。论文提出的benchmark协议规范是一个好的开始，但需要社区采纳才有意义。
CA × 探索的交叉几乎空白。信用信号理论上可以指导探索——优先探索信用不确定的状态。IGPO用信息论方式定义信用，朝这个方向走了一步，但目前没有方法显式地用CA不确定性驱动探索。这是一个被忽略的机会。

如果你在做智能体RL训练，我的建议是：先试GiGPO（零额外模型、低成本、在短-中等长度任务上效果显著），长轨迹再上CARL或HCAPO。推理场景直接GRPO+PURE/SPRO，不用过度设计。有一个计算效率的trade-off值得注意：投入更多计算在更好的CA上（比如VinePPO的vine展开），可以通过减少所需rollout数来回收——"更少轨迹但信用更精" vs "更多轨迹但信用更粗"，这个最优分配目前还是个开放问题。

觉得有启发的话，欢迎点赞、在看、转发。跟进最新AI前沿，关注我