从推理到智能体:LLM强化学习中的信用分配,到底难在哪?

你有没有碰到过这种情况:用GRPO训练一个做数学推理的模型,效果还不错,但拿同一套方法去训一个写代码修bug的智能体,reward曲线死活不动?不是你调参的问题,是信用分配这件事,从推理到智能体,发生了质变。

这篇由独立研究员Chenchen Zhang撰写的综述,系统梳理了2024年至2026年初47种信用分配方法(41种核心方法+6种邻近使能方法),按"分配粒度"和"方法论"两个维度建立分类体系,并明确指出:推理RL的信用分配正在走向成熟,而智能体RL正在催生全新的方法范式——事后反事实分析、特权非对称评判器、轮次级MDP重构——这些在推理RL中找不到先例。

核心摘要

GRPO把一个episode的总reward均摊给每个token,短链推理还凑合,长链推理和智能体交互就彻底失灵。这篇综述覆盖47种方法,核心判断是:推理CA围绕PRM和无评判器群组比较已经趋于成熟,智能体CA则正在开辟全新战场——后见之明反事实分析、特权评判器、轮次级MDP是三个最有前景的方向。实验数据也印证了这一点:智能体场景下CA方法的增益均值(+8.5)高于推理场景(+6.0),说明episode-level信用在长轨迹上退化更严重。


论文信息

  • 标题:From Reasoning to Agentic: Credit Assignment in Reinforcement Learning for Large Language Models
  • 作者:Chenchen Zhang(独立研究员)
  • 链接:https://arxiv.org/abs/2604.09459
  • GitHub:https://github.com/xxzcc/Awesome-Credit-Assignment-in-LLM-RL

图1:LLM RL的三个阶段与信用分配挑战的演变

图1:从RLHF到推理RL再到智能体RL,轨迹越来越长,信用分配难度发生质的飞跃


问题在哪:GRPO的均摊信用为什么不work

先说清楚核心问题。GRPO的优势估计长这样:

\[\hat{A}^{GRPO}_i = R(\tau_i) - \frac{1}{G}\sum_{j=1}^{G} R(\tau_j)\]

一个trajectory \(\tau_i\) 里所有token共享同一个advantage值。推理RL中轨迹短(500-30K tokens,1轮),这种方法虽然粗暴但还能用——关键决策点少,信噪比勉强够。

但到了智能体RL,情况就完全不同了。论文给了一组对比数据:

设置 回合数 Token数 决策点
推理RL (GSM8K) 1 200-800 3-10步
推理RL (MATH) 1 1,000-5,000 5-20步
推理RL (AIME) 1 10,000-30,000+ 20-100步
智能体RL (ALFWorld) 5-20 5,000-30,000 5-20轮
智能体RL (WebArena) 10-30 30,000-100,000 10-30轮
智能体RL (SWE-bench) 20-100+ 100,000-500,000+ 20-100+轮
智能体RL (OSWorld) 50-100 200,000-1,000,000 50-100+轮

从GSM8K的3个决策点到SWE-bench的100+个决策点,REINFORCE估计器的方差和决策点数量T成正比——\(\mathcal{O}(T \cdot \text{Var}[R])\)。T从10涨到100,方差涨10倍,信噪比直接崩溃。

RAGEN的工作把这个现象叫做"Echo Trap":episode-level信用下,梯度信号太吵,模型分不清有用的探索和无意义的重复,于是收敛到反复调用同一个工具的死循环里。

二维分类法:粒度 × 方法论

论文提出了一个清晰的二维分类框架:

  • 粒度轴:Token → 片段 → 步骤/轮次 → 多智能体
  • 方法论轴:蒙特卡洛 → 时序差分 → LLM评判器 → 博弈论 → 信息论

把47种方法铺到这个网格里,能看到一个明显的趋势:推理RL的方法集中在左上方(细粒度+MC/TD),智能体RL的方法集中在右下方(粗粒度+博弈论/信息论)。

图2:47种信用分配方法的二维分类——粒度×方法论

图2:蓝色为推理RL方法,红色为智能体RL方法,紫色为多智能体。虚线箭头表示从细粒度推理方法到粗粒度环境感知方法的演化趋势

说到底,智能体RL引入了6个推理RL不存在(或不严重)的挑战:

  1. 随机环境转移——调API可能超时,网页可能A/B测试,MC展开要重新执行环境交互,太贵了
  2. 部分可观察性——POMDP,你看到的不是完整状态,决策错误和信息缺失难以区分
  3. 极长视野——100K到1M tokens,方差随T线性增长
  4. 异构动作类型——选工具、写代码、格式化输出,重要性天差地别,但episode-level信用一视同仁
  5. 中间状态不可验证——数学题每步能检查,但"搜Python爬虫教程"这个动作好不好?搜完才知道
  6. 分岔点问题——少数关键决策决定成败,但episode-level信用对其视而不见

这6个挑战不是简单加码,而是让推理RL的方法论基础(确定性转移、可验证步骤、单轮生成)全部失效。

图3:47种方法的层级分类树

图3:按设置(推理/智能体/多智能体)和方法家族组织的层级分类,步骤/轮次级是最密集的区域

推理RL的信用分配:三个层次走向成熟

Token级:MC展开的暴力美学

VinePPO(ICML 2025)的思路很直接:PPO的learned critic不准,那就不要critic了,直接在中间前缀处分叉K次续写,用MC估计token级价值 \(V(s_t) \approx \frac{1}{K}\sum_{k=1}^{K} R(\tau_t^{(k)})\)。无偏,但计算量是 \(\mathcal{O}(K \cdot L)\) 级别的前向传播。

说实话,VinePPO给我最大的启发不是方法本身,而是它证明了一件事:信用分配质量才是瓶颈,策略优化不是。PPO换一个更好的信用信号就能大幅涨点,说明PPO的critic网络在LLM这种高维动作空间里确实拉胯。

REDT-REG走的是低成本路线:RED探测现成reward model的隐层表征做线性回归,零额外RL训练实现token级重分配;T-REG对比模型生成正确和错误解的token级对数概率差异,自监督生成奖励信号。精度不如VinePPO,但成本极低。

From r to Q*从理论上证明了DPO隐式学习了token级Q函数:

\[Q^*(s_t, a_t) = \beta \log \frac{\pi_\theta(a_t|s_t)}{\pi_{\text{ref}}(a_t|s_t)} + \beta \log Z(s_t)\]

这个结论挺漂亮:信用分配可能是alignment训练的"免费副产品"。

Segment级:语义切分的中间地带

Token级太细,step级又需要外部标注,segment级是一个自然的折中。

SPO在推理链的"切割点"(推理方式转换的位置)分段,每段计算MC优势。你想想看,解一道数学题,"设未知数"和"解方程"就是两个不同的segment——SPO让每个segment获得独立的信用信号,而不是一整条链共享一个reward。

TEMPO把推理结构泛化为树,叶节点用MC估计,内部节点用TD自举,不需要critic。这个树结构的设计挺巧妙:在分叉点(比如尝试不同解法),TEMPO同时探索多条路径,然后自底向上传递信用。叶节点的MC估计无偏,内部节点的TD自举降方差,两种估计各司其职。

SCAR把推理链当合作博弈,用Shapley值分配segment信用——理论上最优雅,计算上最昂贵。Shapley值是唯一同时满足效率性、对称性和零贡献者属性的分配方案,但在n个segment上需要评估 \(2^n\) 个联盟。SCAR用采样近似来降成本,不过计算开销依然是所有方法中最大的。

Step级:PRM的天下

这是推理CA最热闹的战场。PRM(Process Reward Model) 本身就是信用分配——给每个推理步骤打分,就是在做step级的信用分解。论文专门做了一个澄清:PRM文献和CA文献是同一个问题的两种视角。

PURE(ICML 2025)提出了一个重要的改进:标准PRM用"求和"形式 \(V(s_t) = \mathbb{E}[\sum_{t'\ge t} r_{t'}]\),容易被reward hacking;PURE改用"最小值"形式 \(V(s_t) = \mathbb{E}[\min_{t'\ge t} r_{t'}]\),让最弱步骤决定信用,堵住了模型用"安全"中间步骤刷分的漏洞。

SPRO的掩码步骤优势更直觉:移除某一步后看正确率下降多少,下降越多说明这步越关键。\(c_i = P(\text{correct}|\text{full}) - P(\text{correct}|\text{without step } i)\)。报告训练效率提升3.4倍。

CAPO让LLM当自己的评判器(Generative PRM),自给自足但存在自评偏差风险。HICRA区分了"规划token"和"执行token",对规划token集中信用——这个思路在智能体场景下会更有价值。说到这个,推理RL里区分规划和执行的需求还不那么强烈,但到了智能体场景,"选什么策略"和"怎么执行策略"的重要性差异就更明显了。

智能体RL的信用分配:全新战场

推理RL的三个隐含假设——确定性转移、单轮生成、可验证结果——在智能体场景下全部失效。所以你不能简单地把PRM搬过来用。让我把推理和智能体的CA差异对比摆出来:

维度 推理RL 智能体RL
环境转移 确定性 随机性(API超时、网页变化)
可观察性 完全可见 部分可观察(POMDP)
典型长度 1轮,0.5K-30K tokens 10-100+轮,100K-1M tokens
动作类型 同质(生成token) 异质(工具、规划、格式化)
中间验证 通常可行 几乎不可能
分岔点 中等频率 稀少但决定性
CA难度 ★★ ★★★★★

这个对比说明了为什么推理CA的成熟方案不能直接迁移——每一个维度的变化都在给信用分配增加新的障碍。

轮次级PRM:适配不确定性的环境

AgentPRM用TD+GAE替代MC标记,因为MC需要重新执行环境交互来估计步骤正确性,这在智能体场景下太贵了(要启动沙箱、调真实API)。AgentPRM用TD自举的方式训练step-level critic,报告样本效率提升8倍。其实吧,这就是推理和智能体场景的一个核心分水岭:推理RL的确定性转移让MC展开几乎是免费的,但智能体RL的随机环境让MC展开的成本直接爆炸。

SWEET-RL(Meta/FAIR)的思路更巧妙:训练时我们有ground truth和完整轨迹,推理时没有——那就利用这个不对称性!训练一个能看"特权信息"的critic提供高质量轮次级奖励,actor端只看正常观测。这个设计优雅地绕过了中间状态不可验证的难题。

Turn-PPO(EACL 2026)把多轮交互重构为轮次级MDP,每个轮次当作一个宏动作,计算轮次级advantage。TARL用LLM法官提供轮次级评估,在 \(\tau\)-bench上比强RL基线任务通过率提升6%+。

后见之明与反事实:回头看才看得清

这是智能体CA最有意思的方向。2026年3月一周之内出现了三篇独立工作——HCAPO、C3、CCPO——都指向同一个思路:轨迹收集完了再回过头来看,哪个轮次真正重要。

HCAPO让LLM critic在知道完整轨迹结果的情况下,对每个轮次做回顾性评估,甚至生成反事实续写("如果这一轮做了不同选择会怎样")。关键洞察是:后见之明比前向估计信息更丰富——你能区分"碰巧走运"和"真正做对了"。

C3用留一法框架形式化:\(c_t = R(\tau) - R(\tau_{\setminus t})\),即去掉第t轮后的反事实结果。环境重新执行太贵,就用LLM估计反事实结果。

CCPO更形式化,用结构因果模型(SCM)建模轨迹,把轮次信用定义为平均处理效应(ATE)。这是因果推断视角的信用分配,理论保证更强。

三篇论文一周内出现,这个时间点不是巧合——社区集体意识到了一件事:在智能体RL中,向后看比向前猜更靠谱

回到这几个方法的共同逻辑:智能体的环境太不确定,前向预测不准,但轨迹收集完之后回头看,你拥有了完整信息。HCAPO用"后见之明"区分"碰巧成功"和"真正做对",C3用留一法估算每轮的反事实贡献,CCPO甚至引入了因果推断的数学框架。这三条路殊途同归,都在回答同一个问题:事后看来,这一轮到底重不重要?

无评判器的步骤级方法

GiGPO(NeurIPS 2025)是GRPO的优雅推广:外层按标准GRPO做episode-level群组比较,内层按"锚定状态分组"做step-level比较——共享相似前缀的步骤分为一组,组内计算相对优势。不需要critic,在ALFWorld上比GRPO提升12%,WebShop上提升9%。

CARL(NeurIPS 2025)的思路极其简洁:大部分动作根本不值得分配信用。用动作熵 \(H(\pi(\cdot|s_t))\) 识别分岔点——高熵意味着模型不确定,选择重要;低熵意味着模型很确定,怎么选都差不多。只在最高熵的少数动作上做RL更新,减少72%的梯度更新,性能不降。这个结果暗示了一个重要的方向:智能体CA的目标不应该是给每个动作完美分配信用,而是识别出那些真正重要的动作。

层次化方法

ArCHer(ICML 2024)是智能体多轮RL的开山之作:高层离策略critic学习轮次级Q函数,低层在策略actor优化token级策略。双层解耦直接对应了智能体CA的双重层次——哪一轮重要,那一轮里哪些token重要。ArCHer也是第一个正式认识到多轮LLM RL需要根本不同于单轮推理的信用分配方法的工作。

PilotRL把层次推到三级:规划级→步骤级→token级,信用从粗到细逐级传递。这种级联式设计适合那些先显式制定计划、再逐步执行的智能体——比如"第一步搜索相关文件,第二步理解代码结构,第三步实现修复"。

还有一个值得关注的思路:SPA-RL训练一个轻量MLP进度估计器,把中间状态映射为0到1的"进度分数",步骤信用就是进度增量 \(c_t = p_t - p_{t-1}\)。成本极低——一个小MLP相比LLM评判器几乎可以忽略,在大规模训练中这个FLOP差异很实在。

信息论方法

IGPO定义信息增益为信用:\(c_t = \log P(\text{success}|h_{1:t}) - \log P(\text{success}|h_{1:t-1})\)。一个轮次如果能大幅提升任务成功概率,就获得高信用。这个定义对搜索型智能体特别自然——每次搜索查询都"揭示"了新信息。

多智能体信用分配:新兴前沿

当多个LLM协作时,信用还要跨智能体分解。

SHARP把Shapley值推广到多智能体场景,报告比单智能体提升23.7%、比多智能体基线提升14.1%。MAPPA提供per-action粒度的过程奖励,在AIME上+5.0-17.5pp。Dr. MAS发现标准多智能体GRPO的global normalization会扭曲不同智能体的梯度尺度,改用per-agent归一化后+5.6%。

M-GRPO支持解耦训练,每个智能体独立更新。LLM-MCA用LLM当中心化critic,能理解语义层面的智能体贡献。QLLM更激进——让LLM直接生成信用分配函数的Python代码。

说实话,多智能体CA这块还处于很早期阶段,6篇论文各有各的benchmark,跨方法对比几乎不可能。但方向是明确的:随着多智能体系统在2026-2027年大规模部署,这会是一个重要的增长点。

方法选型:一个决策树

图4:方法选型决策树

图4:根据任务设置、CoT长度/回合数、算力预算等条件选择合适的CA方法

论文提供了一个实用的决策树,我简化如下:

场景 特征 推荐方法
数学推理 (GSM8K/MATH) 短CoT,可验证 GRPO, PURE, SPO, Spro
竞赛数学 (AIME) 长CoT (10K-30K) VinePPO, HICRA, CAPO
工具调用 (WebShop/ALFWorld) 5-20轮,部分可验证 GiGPO, AgentPRM, Turn-PPO
网页导航 (WebArena) 10-30轮,随机POMDP SWEET-RL, HCAPO, IGPO
软件工程 (SWE-bench) 50-100+轮,不可验证 CARL, HCAPO, C3/CCPO, ArCHer
多智能体 跨智能体信用 M-GRPO, SHARP, MAPPA
算力受限 低GPU预算 GRPO, CARL, iStar, GiGPO

核心原则:推理场景看CoT长度选粒度,智能体场景看回合数和验证性选方法论

关键实验数据

推理RL的量化对比:

方法 基座模型 基准 得分 基线 增益
SPO DeepSeek-R1-Distill-Qwen-1.5B MATH-500 82.8% GRPO 75.2% +7.6
SPO RhoMath-1.1B GSM8K 56.7% GRPO 45.7% +11.0
Spro Eurus-2-7B-SFT AMC 31.9% GRPO 23.6% +8.3
CAPO Qwen2.5-7B AIME'24 9.7% GRPO 3.6% +6.1
HICRA Qwen3-4B-Instruct AIME'25 65.1% GRPO 60.0% +5.1

智能体RL的量化对比:

方法 基座模型 基准 得分 基线 增益
GiGPO Qwen2.5-7B-Instruct ALFWorld 90.2% GRPO 77.6% +12.6
GiGPO Qwen2.5-7B-Instruct WebShop 75.2% GRPO 66.1% +9.1
CARL 7B non-reasoning HotpotQA (F1) 51.9 GRPO 47.0 +4.9
SWEET-RL Llama-3.1-8B-Instruct ColBench Backend 40.4% MT-DPO 34.4% +6.0
AgentPRM Qwen2.5-3B WebShop @\(8{\times}8\) 76.0% ORM 57.0% +19.0

有个有意思的模式:智能体场景下CA方法的增益均值(+8.5)高于推理场景(+6.0)。这和理论预期一致——轨迹越长,episode-level信用退化越严重,精细CA的边际收益越大。不过要注意,这个比较受基座模型和benchmark差异的影响,只能当做粗略的趋势验证。

我的判断

这篇综述最大的价值不是47种方法的罗列,而是"推理→智能体"这个转变下信用分配问题的系统性重定义。

几个关键判断:

  1. 推理CA已经进入收获期。PRM(特别是PURE的最小值信用)和无评判器方法(GRPO家族的群组比较)形成了成熟的技术栈。如果你在做数学推理,直接用GRPO+PRM就够用了,不需要折腾VinePPO这种计算量翻几倍的方法。

  2. 智能体CA是真正的蓝海。事后反事实分析(HCAPO/C3/CCPO)在2026年3月的一周内三篇论文同时出现,这个收敛速度说明社区找到了一个真正的方向。但说实话,目前这些方法的实验规模都偏小——SWEET-RL在ColBench上只涨了6个点,HCAPO/C3/CCPO甚至没有公开的标准化benchmark对比。距离工程落地还有距离。

  3. CARL的"稀疏信用"理念被低估了。72%的梯度更新砍掉还不掉点,这说明智能体轨迹中大部分动作的信用接近零。与其花大力气给每个动作精确分配信用,不如先找到那些真正重要的分岔点。这个思路可能会成为智能体CA的主流范式。

  4. 一个明显的gap:没有任何方法同时解决了6个智能体挑战。论文的挑战-方法对照表显示,即使是最好的方法也只直接解决了1-2个挑战。这意味着组合多种CA方法可能是未来的方向——比如CARL识别分岔点 + HCAPO做反事实分析。

  5. 评估碎片化是最大障碍。推理RL有GSM8K/MATH/AIME共享的benchmark体系,智能体RL几乎每篇论文用不同的benchmark。没有可比性,就无法判断哪个方法真正更好。论文提出的benchmark协议规范是一个好的开始,但需要社区采纳才有意义。

  6. CA × 探索的交叉几乎空白。信用信号理论上可以指导探索——优先探索信用不确定的状态。IGPO用信息论方式定义信用,朝这个方向走了一步,但目前没有方法显式地用CA不确定性驱动探索。这是一个被忽略的机会。

如果你在做智能体RL训练,我的建议是:先试GiGPO(零额外模型、低成本、在短-中等长度任务上效果显著),长轨迹再上CARL或HCAPO。推理场景直接GRPO+PURE/SPRO,不用过度设计。有一个计算效率的trade-off值得注意:投入更多计算在更好的CA上(比如VinePPO的vine展开),可以通过减少所需rollout数来回收——"更少轨迹但信用更精" vs "更多轨迹但信用更粗",这个最优分配目前还是个开放问题。


觉得有启发的话,欢迎点赞、在看、转发。跟进最新AI前沿,关注我