30 GPU小时训出AIME 69.9%：Lightning OPD把在线蒸馏搬到了离线

做过推理模型后训练的人大概都有这个体会——OPD效果好是好，但那个实时教师服务器太烧钱了。你得一边跑学生模型训练，一边让一个32B的教师模型实时给每个token打分，GPU集群就没闲着的时候。NVIDIA这篇Lightning OPD直接把这个教师服务器给干掉了，30 GPU小时从Qwen3-8B-Base训到AIME 2024 69.9%，比标准OPD快4倍。

更关键的是，他们发现了一个之前没人注意到的问题：教师一致性。SFT阶段和OPD阶段必须用同一个教师模型，不然梯度里会出现一个不可约偏差，训再久也消不掉。这个发现不光解释了为什么之前离线OPD不work，还给了我们一个干净的理论框架来做离线蒸馏。

核心摘要

标准OPD需要实时教师推理服务器，基础设施开销巨大。Lightning OPD在SFT rollout上一次性预计算教师log概率，完全消除实时教师需求。关键前提是"教师一致性"——SFT和OPD阶段必须用同一个教师，违反则引入不可约梯度偏差。Qwen3-8B-Base用30 GPU小时达AIME 2024 69.9%，4.0倍加速。这篇论文的真正贡献不是工程加速，而是用理论解释了离线OPD为什么之前不work——教师不一致才是罪魁祸首。

论文信息

标题：Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation
作者：Yecheng Wu, Song Han, Hai Cai（NVIDIA）
链接：https://arxiv.org/abs/2604.13010
日期：2026年4月14日

OPD的痛点：效果拉满，但钱包也拉满

先聊聊背景。On-Policy Distillation这个范式，是Thinking Machines Lab在2025年底系统化提出的，不过Google Gemma之前就在用了。核心思路很直觉：让学生在自己生成的轨迹上学习，但每个token的"奖励"不是outcome级别的那种稀疏信号，而是教师模型给出的逐token log概率差——密集信号，梯度丰富。

你想想看，学生做一道数学题，每写一步，教师就给一个评价，告诉学生"你这一步跟我比的差距有多大"。比RL那种"做对了给1分做错了0分"的稀疏奖励不知道高到哪里去了。

但问题是——这个教师得全程在线。

标准OPD的训练循环是这样的：学生先采样一批轨迹，然后把每个token的上下文喂给教师模型，拿到教师的log概率，算优势值，更新学生参数。这意味着你得一直跑着一个教师推理服务。拿Qwen3-8B的学生配Qwen3-32B的教师来说，教师的推理开销比学生训练本身还大。而且还得专门搭serving集群，对于学术实验室来说门槛相当高。

其实吧，一个很直觉的想法是：能不能把教师的log概率预先算好存起来，训练的时候直接查表？这就是离线OPD。但之前的尝试都不太行，效果总是比在线版本差一截。

为什么？这就是这篇论文要回答的核心问题。

教师一致性：一个被忽视的必要条件

什么是教师一致性

作者识别出了一个之前没人正式提出的条件——教师一致性（Teacher Consistency）：SFT阶段用来生成训练轨迹的教师模型 \(\pi_T^{\text{SFT}}\)，和OPD阶段用来提供参考分布的教师模型 \(\pi_T^{\text{OPD}}\)，必须是同一个模型。

你可能觉得这不是显然的吗？说实话我一开始也这么想。但实际操作中，很多团队都在违反这个条件。比如Thinking Machines Lab在复现Qwen3配方时，SFT阶段用QwQ-32B生成数据，OPD阶段却换成了Qwen3-32B当教师。在他们的语境里这很合理——QwQ生成数据质量高，Qwen3做教师推理快。但这恰恰引入了一个隐藏的偏差。

违反一致性会怎样

作者定义了一个教师失配量 \(\Delta_t = \log \pi_T^{\text{SFT}}(a_t|s_t) - \log \pi_T^{\text{OPD}}(a_t|s_t)\)，用来衡量两个教师在同一状态-动作对上的分歧。

对于Lightning OPD（离线版本），Theorem 3.11给出了在线梯度与离线梯度的差距上界：

\[\|\nabla J_{\text{on}}(\theta) - \nabla J_{\text{off}}(\theta)\|_2 \leq G \cdot (\sigma_A \sqrt{\chi^2(\pi_\theta \| \pi_{\text{ref}})} + \sigma_\Delta)\]

关键在右边最后一项 \(G \cdot \sigma_\Delta\)。当教师不一致时 \(\sigma_\Delta > 0\)，即使训练刚开始、策略还没漂移（\(\chi^2 = 0\)），这个偏差依然存在。而且它是不可约的——你增加训练时长也好，增加数据量也好，都消不掉。

对于标准OPD（在线版本），Theorem 3.13同样表明教师不一致会让标准OPD也收敛到次优固定点。所以这不是离线方法独有的问题，而是所有OPD流水线的通病。

实验验证

消融实验设计得很巧妙——交叉测试SFT阶段和OPD阶段用不同教师的组合：

标准OPD教师一致性消融（AIME 2024 Pass@1%）：

SFT教师 \ OPD教师	Qwen3-32B	QwQ-32B
Qwen3-32B	68.5	64.8
QwQ-32B	65.0	66.5

Lightning OPD教师一致性消融（AIME 2024 Pass@1%）：

SFT教师 \ OPD教师	Qwen3-32B	QwQ-32B
Qwen3-32B	69.9	63.1
QwQ-32B	62.1	68.7

对角线（教师一致）始终优于非对角线。有意思的是，Lightning OPD对不一致更敏感——从一致切换到不一致，Lightning OPD暴跌6.8分（69.9→63.1），而标准OPD只降3.7分。因为固定的rollout分布叠加了参考分布偏误，双重打击。

Lightning OPD：离线蒸馏的正确打开方式

图1：Lightning OPD性能与训练成本对比

图1：Lightning OPD在Qwen3-4B和8B规模上的性能与训练成本对比——数学和编程基准全面匹配或超越标准OPD，8B规模30 GPU小时达AIME 2024 69.9%

方法总览

图2：Lightning OPD流程概览

图2：Lightning OPD两阶段流程——SFT阶段用教师生成轨迹训练基座模型，OPD阶段在SFT rollout上预计算教师log概率后离线训练

Lightning OPD分两个阶段：

Stage 1：SFT——选定教师 \(\pi_T\)，让教师生成轨迹，构建SFT数据集，对基座模型做最大似然微调，得到参考策略 \(\pi_{\text{ref}}\)。这里强制了教师一致性：同一个教师既生成了SFT数据，又会在后面提供OPD的参考分布。

Stage 2：离线On-Policy蒸馏，分两期：

Phase 1 预处理：从 \(\pi_{\text{ref}}\) 采样一批响应，一次性查询教师模型计算每个token的log概率，存下来形成离线数据集 \(\mathcal{D}_{\text{OPD}}\)。
Phase 2 训练：学生从 \(\pi_{\text{ref}}\) 初始化，每个step从 \(\mathcal{D}_{\text{OPD}}\) 采样mini-batch。优势值 \(A_t(\theta) = \log \pi_T(a_t|s_t) - \log \pi_\theta(a_t|s_t)\)，其中教师项直接从数据集读取，学生项在线计算。优势值裁剪到 \([-\tau, \tau]\) 后更新参数。

整个过程不需要实时教师服务器。预处理阶段的教师推理是一次性的，跑完就释放。

三个理论保证

在满足教师一致性的前提下，作者给出了三个关键定理：

1. 共享最优固定点（Theorem 3.7）：Lightning OPD和标准OPD的驻点条件等价，都最小化 \(\text{KL}(\pi_\theta \| \pi_T)\)。性能上限只受模型容量限制，不受rollout分布限制。

2. 有界梯度差异（Theorem 3.5）：

\[\|\nabla J_{\text{on}}(\theta) - \nabla J_{\text{off}}(\theta)\|_2 \leq G \cdot \sigma_A \cdot \sqrt{\chi^2(\pi_\theta \| \pi_{\text{ref}})}\]

初始化时差异为0（因为 \(\pi_\theta = \pi_{\text{ref}}\)），随策略漂移增大，但在KL正则化下保持有界。

3. 隐式正则化（Theorem 3.9）：离线梯度可以分解为在线梯度减去一个协方差项：

\[\nabla J_{\text{off}}(\theta) = \nabla J_{\text{on}}(\theta) - \text{Cov}_{\pi_{\text{ref}}}[w(x;\theta), f(x;\theta)]\]

这个协方差项相当于一个隐式的信任域惩罚，自动阻止策略偏离 \(\pi_{\text{ref}}\)。不需要像PPO那样手动调KL惩罚的超参数——数据分布本身就提供了正则化。

这个隐式正则化的效果在实践中确实能观察到。

图3a：重要性权重动态

图3a：训练过程中重要性权重 \(w(x;\theta)\) 的动态变化——方差随训练逐渐增大，但裁剪机制和隐式正则化共同防止策略漂移过大

图3b：AIME 2024训练曲线

图3b：Lightning OPD与标准OPD在AIME 2024上的训练曲线对比——Lightning OPD收敛更快且最终性能持平或略优

实验结果：4倍加速，效果持平甚至更好

主实验

方法	AIME 2024	AIME 2025	HMMT 2025	Math Avg.	LCB v5	LCB v6	Code Avg.
Qwen3-4B-Base / Teacher: Qwen3-8B
+ SFT	56.7	52.1	34.0	47.6	33.8	31.5	32.6
+ OPD	65.4	57.9	39.9	54.4	44.2	39.3	41.8
+ Lightning OPD	68.1	58.4	39.8	55.4	42.8	40.3	41.5
+ ExOPD	61.0	56.0	34.4	50.5	–	29.0	–
Qwen3-8B-Base / Teacher: Qwen3-32B
+ SFT	63.7	51.7	36.9	50.8	44.7	36.8	40.8
+ OPD	68.5	59.0	39.4	55.6	47.3	41.2	44.2
+ Lightning OPD	69.9	59.2	41.9	57.0	49.5	43.9	46.7

说实话，看到69.9%的时候我愣了一下——Lightning OPD居然比标准OPD还高了1.4个点。按理说离线方法的信息量不如在线，怎么还反超了？

答案就在那个隐式正则化里。标准OPD没有固定参考分布的约束，策略容易漂移过大导致训练不稳定。Lightning OPD的协方差项天然限制了漂移，反而更稳健。8B规模下LCB v5涨了2.2个点，Code Avg.涨了2.5个点，这些增益主要来自更好的正则化而非更多信息。

ExOPD是腾讯混元团队提出的"奖励外推"方法，在这里被作为baseline。4B规模下Lightning OPD比ExOPD高了7.1个AIME点，差距相当明显。

训练成本

方法	Qwen3-4B-Base	Qwen3-8B-Base
标准OPD	72 GPU小时	120 GPU小时
Lightning OPD	20 GPU小时	30 GPU小时
加速比	3.6×	4.0×

Lightning OPD的开销拆解：

阶段	4B规模	8B规模
Rollout采集	10小时	10小时
教师log概率预计算	2小时	4小时
OPD训练（无教师服务器）	8小时	16小时
总计	20小时	30小时

8B规模下，30 GPU小时是什么概念？单张A100跑不到两天。标准OPD需要120 GPU小时，其中大部分是教师服务器的开销。对于没有大规模推理集群的学术团队来说，这个差距是"能做"和"不能做"的区别。

与同期工作的对比

有意思的是，同一时期还有一篇"Rethinking OPD"（清华大学团队，arXiv:2604.13016），也从机制角度分析了OPD。两篇论文切入点不同但互有补充：

维度	Lightning OPD	Rethinking OPD
核心发现	教师一致性是OPD必要条件	思维模式一致性+新知识是OPD成功的两个条件
理论风格	梯度偏差界的严格证明	token级动力学实证分析
失败诊断	教师不一致→不可约偏差	师生top-k分布重叠不足→梯度各向异性
实用策略	预计算教师log概率做离线训练	Off-policy冷启动+教师对齐提示选择
长序列问题	未讨论	发现OPD奖励质量随轨迹深度退化

Rethinking OPD提出的"思维模式一致性"和Lightning OPD的"教师一致性"有交集但不等价。思维模式一致性强调师生在token级分布上的重叠程度，而教师一致性强调的是SFT和OPD两个阶段使用同一个教师。前者是关于师生关系的，后者是关于流水线设计的。两者共同指向一个结论：OPD的可靠性比你想象的更脆弱——任何环节的不匹配都可能导致训练崩溃。

不过坦率地讲，Rethinking OPD指出的长序列问题是Lightning OPD没有讨论的盲区。我有点担心的是，OPD的逐token奖励质量随序列深度退化，超过10K token后重叠率崩溃——这对于长链推理蒸馏来说是个根本性挑战。

我的判断

Lightning OPD这篇论文，我觉得最值钱的地方不是4倍加速——加速是工程结果，真正的贡献是教师一致性这个概念。

之前大家做离线OPD不work，可能归因于"离线就是不如在线"、"rollout分布过时了"之类模糊的解释。教师一致性给了我们一个精确的理论诊断：问题出在流水线设计上，不是离线vs在线的问题。只要你SFT阶段用一个教师、OPD阶段换另一个教师，就算是在线OPD也会受损。

这个发现对工业界的后训练流水线设计有直接影响。很多团队在SFT阶段用最强的模型生成数据，OPD阶段用推理最快的模型做教师——这种"最优化组合"恰恰违反了教师一致性，引入了一个你根本意识不到的偏差。

当然，这篇论文也有局限：

1. 教师一致性的实际约束。强制要求SFT和OPD用同一个教师，限制了流水线的灵活性。如果最优的SFT数据生成模型和最优的OPD教师不是同一个，你就得做取舍。论文没有讨论这种场景。

2. 离线方法的探索天花板。固定rollout分布意味着学生无法探索教师分布之外的区域。对于教师覆盖不足的prompt类型，Lightning OPD可能比在线方法更受限。论文的实验集中在数学和编程这两个教师覆盖较好的领域，更开放的任务上表现如何还不好说。

3. 长序列问题悬而未决。正如Rethinking OPD指出的，OPD的奖励质量随序列深度退化。Lightning OPD的固定rollout可能让这个问题更严重——在线OPD至少可以"刷新"一下当前策略的轨迹分布。

但瑕不掩瑜。30 GPU小时训出AIME 69.9%，这个性价比对学术研究来说太重要了。它把高质量推理模型后训练的门槛，从"需要一排GPU跑serving集群"降到了"单机两天就能搞定"。如果你也在做推理模型后训练，这个思路值得认真试试。

觉得有启发的话，欢迎点赞、在看、转发。跟进最新AI前沿，关注我