PPO 不是 RLHF 的最优解:Google 跑了 3500 次实验、烧了 30000 TPU 小时给出最终排名

EMNLP 2025 Industry Track | RLHF Algorithms Ranked: An Extensive Evaluation Across Diverse Tasks, Rewards, and Hyperparameters

核心摘要

做 RLHF 的同学应该都被这个问题折磨过:现在 RLHF 算法满天飞——PPO、DPO、IPO、KTO、GRPO、RSO……每篇论文都说自己 SOTA,但对比实验只跟两三个 baseline 比,超参也基本是各说各话。到底哪个算法在你的任务上能 work?没人真的回答过。

Google Research 这篇论文是我最近看到的少数"硬核做对比"的工作。他们一口气评测了 17 个 RLHF 算法,跑了 3500 多次训练、烧了 30000 多 TPU 小时,在两个经典任务(TL;DR 摘要、Anthropic H/H)和两个奖励模型(Gemma 2B RM、规则奖励)上做了完整的超参搜索。结论可能会让一些人不太舒服——PPO 只是中游水平(胜率 54-59%),真正稳定打榜的是 REINFORCE with Baseline、IPO、DPO、GRPO 和 Best-of-N,最差的是 DQN(胜率最低跌到 32%)。

更值得一看的是它的工程结论:最好的超参往往是小学习率、低 KL 系数、低温度采样——也就是说"两层正则同时加"会过约束模型。这个观察跟 Ahmadian 那篇 "Back to Basics" 的判断对上了。

不算底层突破,但绝对是工程上一份值得放进实验室手册的横评,省下你自己跑超参的钱。


论文信息

  • 标题:RLHF Algorithms Ranked: An Extensive Evaluation Across Diverse Tasks, Rewards, and Hyperparameters
  • 作者:Lucas Spangher, Rama Kumar Pasumarthi, Nick Masiewicki, William F. Arnold, Aditi Kaushal, Dale Johnson, Peter Grabowski, Eugene Ie
  • 机构:Google Research(William F. Arnold 隶属 KAIST)
  • 发表:EMNLP 2025 Industry Track,2025 年 11 月
  • 链接ACL Anthology

为什么这篇横评值得读

先聊一下我自己的真实感受。过去两年做 RLHF 选型的时候我一直有个困惑:每个新 RLHF 方法都说自己比 PPO 好,但你要把它们放在同一套数据、同一个 reward model、同一个超参预算下做公平对比,会发现榜单经常翻盘。

这不是哪个作者的问题,而是 RLHF 这个领域本身的实验复现门槛太高——光是 PPO 一个算法,actor、critic、reward model、reference model 四个模型同时挂在显存里,再叠加 KL 系数、clip ratio、value loss 系数、GAE λ、policy lr 这些超参,一次完整的网格搜索就能烧穿你一个季度的算力预算。所以大部分论文写实验时只能选定几组超参做对比,对手算法的最优配置经常没找到。

这就是为什么 Ahmadian 那篇 Back to Basics(ICML 2024)当时让我挺触动的——他们论证"PPO 在 RLHF 场景里其实是过度设计",REINFORCE 和它的变体反而更好。Ahmadian 的核心观点是:PPO 当年是为机器人控制这种"长序列、连续动作、稀疏奖励"场景设计的,trust region 那套约束在那种场景下确实必要;但 LLM 的 RLHF 是"单步轨迹(一次生成一段文本就结束)+ 离散动作(token 选择)+ 稠密奖励(每个序列都有 reward)",根本用不着那么重的约束。但 Ahmadian 只比了 4 个算法(PPO、DPO、REINFORCE、RLOO),覆盖面有限。

Spangher 这篇的定位很清楚:把 Ahmadian 的论点放到一个真正大规模的 benchmark 上,看它能不能被验证。算法从 4 个扩到 17 个,超参从单点对比变成完整网格搜索,任务从 1 个扩到 2 个,奖励模型从 1 个扩到 2 个。

值得一提的还有更早一些的 Tulu 2.5(Ivison et al., 2024)——他们在开源数据集上做过 PPO vs DPO 的细致对比,结论是 PPO 在某些 benchmark 上能略胜 DPO。但 Tulu 系列的对比仅限于这两个算法,对 IPO/GRPO/KTO 这些新势力没有覆盖。

所以这篇 EMNLP 2025 的横评,其实是站在 Ahmadian 和 Tulu 这两个工作的肩膀上:算法集合最广、超参搜索最深、报告最透明。这种"花算力把别人花不起的钱花掉、得出一个所有人都能查的结论"的工作,在工业界其实更稀缺。


17 个算法到底是谁

作者把这 17 个算法按"怎么用偏好数据"分成三类,我给你画个对照表(这张表论文里没有,是我看完总结的):

类别 算法 核心思路 是否需要 Reward Model
经典 RL + RM AC(Actor-Critic) actor 选动作,critic 估值
DQN Bellman 更新估 Q 函数
GRPO 用一组采样的均值做 baseline
IQLearn 逆 Q 学习,模仿学习路线
PCL 路径一致性约束
PI(Policy Iteration) 经典策略迭代
PPO clipped objective 限制策略变化
REINFORCE Monte Carlo 策略梯度
REINFORCE w/Baseline 减 baseline 降方差
直接偏好优化 DPO 偏好三元组 + Bradley-Terry
IPO DPO 推广到非成对偏好
GPO DPO/IPO 的统一抽象
EXO 用 anchor 分布做约束
DRO 单条 reward 信号优化 ⚠️(标量 reward)
KTO Kahneman-Tversky 心理学启发,只要赞踩
SLiC 似然校准
采样筛选 BON 从 N 个候选里选最好的去 clone
RSO 拒绝采样优化

等等,这里有个矛盾——论文摘要说"17 个算法",但 Section 4 列表只列了 16 个。我数了几遍:列表里有 PI(Policy Iteration),但 4.1.2 节里又额外提了 SLiC 但 4.1.1 节漏了 PI 的描述。所以严格说应该是 17 个,论文行文有点小不严谨。这种细节多少能看出 Industry Track 论文的赶进度感,但不影响核心结论。

值得多说两句的是 GRPO——这个算法这两年特别火(DeepSeek-Math 用它做 LLM 数学推理),它和 PPO 最大的区别是不要 critic 模型。具体做法:对同一个 prompt 采样 G 条回答,把这 G 条回答的奖励均值当 baseline 来算 advantage。少一个模型意味着显存少一份,工程上很香。这篇论文跑下来 GRPO 也确实在第一梯队。

还有 DPO 这条线值得展开聊。DPO 的核心 trick 是用一个数学等价变换,把"训 reward model + 用 reward model 跑 RL"两步直接合成一步,不再需要显式的 reward model。从工程角度看,DPO 把原本"四模型同台竞技"(actor、critic、reward、reference)简化成"两模型对抗"(policy 和 reference),显存压力直接腰斩。但代价是它本质是个离线算法——你只能在已有的偏好数据上训,没法像 PPO 那样在训练过程中持续采样新数据来更新 policy。这就引出了 IPO、KTO、GPO 这一长串变种,每个都在尝试补 DPO 的不同短板。

这篇论文的有趣之处在于:你能从同一张表里看出这些"DPO 全家桶"哪些真的在解决问题、哪些只是在 paper 之间互相模仿。比如 EXO 和 SLiC 在所有四列都是中下游(48% 上下),跟 DPO 67% 的差距明显——说明它们提出的"改进"在这个 benchmark 上没立住。这种"打脸"在 RLHF 圈是很罕见的,作者敢这么报数据,是这篇论文最有勇气的地方。


实验设置:怎么算"公平"

公平对比这种事情,魔鬼全在细节里。我把作者的设置拆开看:

起点模型:所有算法都从同一个 Gemma 2B SFT 模型起步,避免"baseline 跑得不够好"这种锅甩给起跑线。

两个奖励模型: 1. Gemma 2B Reward Model——标准做法,用偏好数据训出来的 RM。 2. Rules-based reward——这是个有意思的设计。把 ROUGE-LSum 加上长度惩罚做成一个"宪法 AI 风格"的规则奖励。这种 reward 不会被 model gaming,因为它是封闭的数学函数。作者用它做对照,看哪些算法是真在优化语义、哪些是在 reward hacking。

两个任务: 1. OpenAI TL;DR Summarization(11.6 万条人写指令 + 9.6 万对偏好对)——经典 Reddit 摘要任务。 2. Anthropic Helpfulness/Harmlessness(11.2 万对偏好对)——经典对齐任务。

评测方式:用一个更大的 Gemma 7B 模型当裁判,让 RLHF 后的模型和 SFT 基线做两两对决,每对跑 200 个 prompt(按 80% 统计功效算出来的样本量)。再加上 ROUGE-LSum 做辅助指标,并报告 reward 曲线。

超参搜索:每个算法搜 3 个超参,每个超参 3 个值(27 种组合)。前两个超参对所有算法都一样: - Policy 学习率\(1\mathrm{e}{-7}\)\(1\mathrm{e}{-6}\)\(1\mathrm{e}{-5}\) - KL 系数 α:0.3、0.1、0.05 - 第三个是算法各自的特征参数(详见原文 Appendix Table 3)。

作者特别提了一句——超参的取值是跟原算法作者讨论后定的。我觉得这是一个挺关键的细节,避免了"baseline 跑不好是因为超参没调"的指责。

算力:30000+ TPU 小时,3500+ 训练 run。这个量级在学术界很少见,工业界倒是常态。


核心结果:谁赢了,谁输了

直接上数据。这是论文 Table 2 的胜率(每个 RLHF 模型 vs SFT 基线,由更大的奖励模型做裁判):

算法 TL;DR (2B RM) H/H (2B RM) TL;DR (7B RM) H/H (7B RM)
R w/Baseline 66% 64% 69% 69%
GRPO 65% 63% 75% 68%
DPO 62% 67% 69% 69%
IPO 66% 48% 69% 51%
BON 64% 52% 68% 58%
REINFORCE 60% 62% 64% 67%
RSO 58% 61% 61% 66%
GPO 61% 46% 64% 49%
DRO 58% 52% 61% 58%
PPO 54% 57% 58% 59%
AC 53% 55% 56% 59%
KTO 52% 56% 57% 59%
IQLearn 49% 51% 52% 54%
EXO 48% 43% 51% 48%
SLiC 48% 49% 48% 52%
PI 45% 46% 48% 49%
PCL 41% 42% 45% 45%
DQN 32% 36% 35% 42%

粗体是各列前三名(论文标注),最下方加粗的 DQN 是垫底。

几个我看完最有感觉的判断:

第一,REINFORCE with Baseline 是真稳。四列里三列前三、一列也是 64%。这跟 Ahmadian 当年的论点几乎是完美贴合——一个最古早、最简单的策略梯度方法,加个减 baseline 的小手术,就能稳赢一众"高级"方法。

第二,PPO 不是 RLHF 的"金标准"。54-59%。说实话看到这个数字我愣了一下——业界一直把 PPO 当 RLHF 的事实标准,OpenAI/Anthropic 早期那波 alignment 工作也是 PPO,但在这个 benchmark 上它甚至打不过 REINFORCE。作者的解释是:PPO 的 trust region 思路在 LLM 这种单步轨迹 + 大动作空间的场景下其实是过度约束。这个解释跟 Ahmadian 一致。

第三,DQN 和 PCL 是真的不行。DQN 32-42%,比 SFT 还差。这其实挺反直觉的——DQN 在游戏 RL 里是元老级算法。但 LLM 的状态空间是 token 序列,动作空间是整个词表,让一个 Q 网络去估 \(Q(s, a)\) 几乎是 mission impossible。

第四,DPO/IPO 在 H/H 上的差距很有意思。DPO 67%,IPO 48%——同一类直接偏好优化方法,差了将近 20 个点。仔细看 Table 1 的最优超参:DPO 在 H/H 上选了 \(\beta_{\text{DPO}}=0.5\),IPO 选了 \(\beta_{\text{IPO}}=0\)。也就是说 IPO 在这个任务上几乎"放弃了正则化",可能就是这个原因导致它跑飞。这是一个挺典型的"算法对超参敏感导致排名翻盘"的例子。

第五,GRPO 是最大的黑马。在 7B 裁判 + TL;DR 上拿到 75% 的最高分。作为一个 critic-free 的方法,工程上的便利性又非常好——这就是为什么 DeepSeek 那条线推 GRPO 推得那么用力。


训练曲线:reward 涨不一定真的好

胜率表只能告诉你最终的强弱,但 RLHF 真正的麻烦在训练过程。论文 Figure 1 给了三个任务的 reward / KL / ROUGE 曲线,我把它放在这里——这张图特别能说明问题:

图1(a):TL;DR + Gemma 2B Reward Model 训练曲线

(a) TL;DR 任务 + Gemma 2B 奖励模型。左图 Return 在涨,但有一组算法(红/橙/紫色那几条)的 reward 飙到 15+ 的时候 ROUGE 反而在掉——典型的 reward hacking。中图 KL 散度也在飙到 200+,意味着模型已经偏离 SFT 起点很远。

图1(b):TL;DR + Rules-based Reward 训练曲线

(b) TL;DR + 规则奖励(ROUGE + 长度惩罚)。换了一个无法被 hack 的奖励之后,reward 涨幅明显收敛得多(0-0.8 区间)。但仍然能看到几条曲线(青绿色和淡黄色那两条)的 ROUGE 在某些步数突然崩盘到接近 0——这是 mode collapse 在生效,模型生成了完全无意义的输出。

图1(c):H/H + Gemma 2B Reward Model 训练曲线

(c) Helpfulness/Harmlessness + Gemma 2B 奖励模型。这个任务上 reward 范围更小(-2 到 8),KL 涨势比前两个温和,但 ROUGE 掉得比较厉害——说明 H/H 任务上 reward 优化和文本质量的相关性最弱,最容易 reward hacking。

我觉得看这三张图最重要的一个 takeaway:reward 涨 ≠ 模型变好。论文附录里给了一个非常生动的反面例子,模型生成的东西长这样:

Model Response: increa increa increa increa increa increa
increa increa increa increa increa increa increa increa
increa increa increa increa increa increa increa increa
increa increa increa ...(持续重复几百遍)

这个就是 mode collapse 的典型形态——奖励模型在训练数据上没见过这种"垃圾",给它打了高分;模型发现这条路 reward 高,就拼命走这条路,最后退化成无意义重复。这种现象在你只看 reward 曲线时是发现不了的,必须看 ROUGE 或者人工评审才能暴露。

工程意义上,这意味着训 RLHF 的时候永远不能只盯一个指标。reward + ROUGE + 人工抽样,三件套缺一不可。


超参分析:小学习率、低 KL、低温度

这部分是论文最有工程价值的发现,我列一下作者从 Table 1 总结出来的几个规律:

规律 1:最好的超参往往是最小的学习率。在 17 个算法里,绝大多数在 TL;DR 任务上选了 \(1\mathrm{e}{-7}\) 作为 policy lr。这个值真的很小——很多 RLHF 教程会推荐 \(1\mathrm{e}{-5}\)\(5\mathrm{e}{-6}\)。作者的解释是:RLHF 阶段你只是在 SFT 模型上做"微调里的微调",太大的学习率很容易把已经学好的语言能力破坏掉。

规律 2:KL 系数 α 倾向于小值。绝大多数最优配置选了 0.05 或 0.10,很少选 0.30。这跟规律 1 一起看其实有个共同的故事:你不需要同时用"小学习率"和"强 KL 约束"两层缰绳,两层一起加会过约束模型,让它根本动不了。这跟 PPO trust region 在 LLM 上失效的原因是一样的逻辑。

规律 3:温度倾向于 1.0。REINFORCE 系列、PPO、PCL 这些算法的最优 decoder 温度都是 1.0,不是 1.5 或 2.0。也就是说,RLHF 阶段不要做激进的探索,温和的采样反而效果好。

把这三条放一起看,作者总结出一个挺漂亮的判断:RLHF 的真正定位不是"让模型大幅改变",而是"让模型在已有能力的小邻域里精细微调"。所有让模型"动得太快"的设计——大学习率、激进采样、弱正则——都会把它带到坑里。

我自己之前调 RLHF 的时候也踩过这个坑。一开始按 SFT 的经验直接用 lr=1e-5,结果 reward 还没怎么涨,模型已经胡言乱语了。后来把学习率压到 1e-7,再把 KL 系数从 0.5 降到 0.1,这才稳住。那时候没看到这篇 paper,自己摸黑摸了快两个月才找到合适配置。如果当时这张 Table 1 已经放在面前,估计能省掉一个研究员月。这就是为什么我说"工业界横评"的价值经常被低估——它替你把那些只能靠经验摸索的 trial-and-error 写成了可查证的表格。


我的几个判断

聊完结论,说点我自己看完的想法。

这篇论文最值钱的地方在哪里:不是它的"创新",而是它的工程基建——把所有 RLHF 算法在同一套 codebase 里实现一遍,用同一套训练框架跑出来。这种事情看着简单,但你真做的时候,光"复现 17 个算法"这一项就能耗掉 3-6 个月。Google 干这种事最有动机也最有资源。结果就是:你拿这张表当选型 checklist 用,能省掉好几个研究员月

它的局限性也很明显

  1. 起点模型只有 2B——作者自己也承认了,2B 模型上的结论能不能 transfer 到 70B 甚至更大的模型上,是个开放问题。我个人猜测:RLHF 算法的相对排名在大小模型上应该比较稳(这是工程经验),但绝对差距会缩小——大模型本身能力就强,RLHF 算法间的差异会被稀释。

  2. 超参搜索还是不够大。每个算法 27 种组合,听起来不少,但 RLHF 算法的"敏感超参"远不止 3 个。比如 PPO 的 clip ratio、value loss coefficient、GAE λ 都没动;GRPO 的组大小 G 只搜了 10/20/50 三个值。理论上,每个算法的真正最优配置可能还在搜索空间外。

  3. 任务覆盖偏窄。摘要 + 对齐这两个任务都是"通用对话"性质的,没有覆盖到数学推理、代码、工具调用这些最近 RLHF 的热门战场。比如 GRPO 在数学题上表现极强(DeepSeek-Math),在这篇 benchmark 上排名能不能 transfer,没人知道。

  4. mode collapse 的处理略草率。作者明确提到"mode collapse 有时会人工拉高 reward",但没有把"是否发生 mode collapse"作为评估维度量化报告。读者只能从 ROUGE 曲线和附录的 decoded output 里去推断。如果作者能给一个 mode collapse 检测指标(比如生成多样性、重复率),这张表的价值会再上一层楼

对工程实践的启发

  • 如果你在挑算法:闭眼选 REINFORCE with Baseline 起手,简单稳定。如果你的任务有强偏好数据,可以换 DPOGRPO先别上 PPO,复杂度收益比真的不划算。
  • 如果你在调超参:从 lr=1e-7、α=0.1、温度=1.0 起手,先确保模型不崩,再慢慢往激进方向调。
  • 如果你在做评估:永远不要只看 reward 曲线,必须配 ROUGE / pass@k / 人工抽样的三件套,不然你会被 mode collapse 阴。
  • 如果你在做基础设施:DPO 和 GRPO 是最值得做工程优化的两个算法。DPO 因为是离线的,可以做完整的偏好数据 pipeline 加速;GRPO 因为没有 critic,可以直接复用 SFT 训练框架,工程改造最小。这两个方向在工业界的产出比最高。

一个我觉得作者还可以再深挖的方向:胜率表是用 Gemma 7B 当裁判算出来的——但 Gemma 7B 自己就有偏好倾向。比如它可能更喜欢长回答、更喜欢列表式排版、更喜欢委婉表达。这些"裁判模型自己的偏好"会传染到所有被它评估的 RLHF 算法上。理想情况下应该用人工评审 + 多个不同家族的裁判模型(比如 Claude、GPT、开源模型)做交叉验证。当然这个成本不低,但如果只用一个裁判模型,胜率排名就有可能是裁判模型偏好的"投影",而不是算法本身的强弱。这是我觉得这类 benchmark 工作最容易被忽略的方法论问题。


收尾

这篇论文不能算"理论突破"——它没有提出新算法,没有新理论。但它是一篇我会收藏在书签里、做项目时随手翻的工具书

更值得说的是它代表的研究风气——花算力把"模糊的工业界共识"变成"可查证的客观数据",这种工作在 AI 圈被严重低估了。每年顶会上一堆"我比 PPO 好 2 个点"的论文,但真把 17 个算法摆一起公平比一次的,全行业一只手能数过来。

如果你也在做 RLHF/对齐相关的事,强烈建议把 Table 1 和 Table 2 打印贴在工位墙上。下次有人来跟你 pitch "我们应该上 PPO/IPO/EXO",你可以直接指着这张表说:兄弟,先看看人家烧 30000 TPU 小时跑出来的结论。

PPO 的神话该破了。这篇横评算是补了最后一颗钉子。


参考链接: - 论文:https://aclanthology.org/2025.emnlp-industry.35/ - Back to Basics(Ahmadian et al., 2024):https://arxiv.org/abs/2402.14740 - DPO 原文:https://arxiv.org/abs/2305.18290 - GRPO(DeepSeek-Math):https://arxiv.org/abs/2402.03300


觉得有启发的话,欢迎点赞、在看、转发。跟进最新AI前沿,关注我