30 GPU小时训出AIME 69.9%:Lightning OPD把在线蒸馏搬到了离线
做过推理模型后训练的人大概都有这个体会——OPD效果好是好,但那个实时教师服务器太烧钱了。你得一边跑学生模型训练,一边让一个32B的教师模型实时给每个token打分,GPU集群就没闲着的时候。NVIDIA这篇Lightning OPD直接把这个教师服务器给干掉了,30 GPU小时从Qwen3-8B-Base训到AIME 2024 69.9%,比标准OPD快4倍。
更关键的是,他们发现了一个之前没人注意到的问题:教师一致性。SFT阶段和OPD阶段必须用同一个教师模型,不然梯度里会出现一个不可约偏差,训再久也消不掉。这个发现不光解释了为什么之前离线OPD不work,还给了我们一个干净的理论框架来做离线蒸馏。
核心摘要
标准OPD需要实时教师推理服务器,基础设施开销巨大。Lightning OPD在SFT rollout上一次性预计算教师log概率,完全消除实时教师需求。关键前提是"教师一致性"——SFT和OPD阶段必须用同一个教师,违反则引入不可约梯度偏差。Qwen3-8B-Base用30 GPU小时达AIME 2024 69.9%,4.0倍加速。这篇论文的真正贡献不是工程加速,而是用理论解释了离线OPD为什么之前不work——教师不一致才是罪魁祸首。
论文信息
- 标题:Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation
- 作者:Yecheng Wu, Song Han, Hai Cai(NVIDIA)
- 链接:https://arxiv.org/abs/2604.13010
- 日期:2026年4月14日
OPD的痛点:效果拉满,但钱包也拉满
先聊聊背景。On-Policy Distillation这个范式,是Thinking Machines Lab在2025年底系统化提出的,不过Google Gemma之前就在用了。核心思路很直觉:让学生在自己生成的轨迹上学习,但每个token的"奖励"不是outcome级别的那种稀疏信号,而是教师模型给出的逐token log概率差——密集信号,梯度丰富。
你想想看,学生做一道数学题,每写一步,教师就给一个评价,告诉学生"你这一步跟我比的差距有多大"。比RL那种"做对了给1分做错了0分"的稀疏奖励不知道高到哪里去了。
但问题是——这个教师得全程在线。
标准OPD的训练循环是这样的:学生先采样一批轨迹,然后把每个token的上下文喂给教师模型,拿到教师的log概率,算优势值,更新学生参数。这意味着你得一直跑着一个教师推理服务。拿Qwen3-8B的学生配Qwen3-32B的教师来说,教师的推理开销比学生训练本身还大。而且还得专门搭serving集群,对于学术实验室来说门槛相当高。
其实吧,一个很直觉的想法是:能不能把教师的log概率预先算好存起来,训练的时候直接查表?这就是离线OPD。但之前的尝试都不太行,效果总是比在线版本差一截。
为什么?这就是这篇论文要回答的核心问题。
教师一致性:一个被忽视的必要条件
什么是教师一致性
作者识别出了一个之前没人正式提出的条件——教师一致性(Teacher Consistency):SFT阶段用来生成训练轨迹的教师模型 \(\pi_T^{\text{SFT}}\),和OPD阶段用来提供参考分布的教师模型 \(\pi_T^{\text{OPD}}\),必须是同一个模型。
你可能觉得这不是显然的吗?说实话我一开始也这么想。但实际操作中,很多团队都在违反这个条件。比如Thinking Machines Lab在复现Qwen3配方时,SFT阶段用QwQ-32B生成数据,OPD阶段却换成了Qwen3-32B当教师。在他们的语境里这很合理——QwQ生成数据质量高,Qwen3做教师推理快。但这恰恰引入了一个隐藏的偏差。
违反一致性会怎样
作者定义了一个教师失配量 \(\Delta_t = \log \pi_T^{\text{SFT}}(a_t|s_t) - \log \pi_T^{\text{OPD}}(a_t|s_t)\),用来衡量两个教师在同一状态-动作对上的分歧。
对于Lightning OPD(离线版本),Theorem 3.11给出了在线梯度与离线梯度的差距上界:
关键在右边最后一项 \(G \cdot \sigma_\Delta\)。当教师不一致时 \(\sigma_\Delta > 0\),即使训练刚开始、策略还没漂移(\(\chi^2 = 0\)),这个偏差依然存在。而且它是不可约的——你增加训练时长也好,增加数据量也好,都消不掉。
对于标准OPD(在线版本),Theorem 3.13同样表明教师不一致会让标准OPD也收敛到次优固定点。所以这不是离线方法独有的问题,而是所有OPD流水线的通病。
实验验证
消融实验设计得很巧妙——交叉测试SFT阶段和OPD阶段用不同教师的组合:
标准OPD教师一致性消融(AIME 2024 Pass@1%):
| SFT教师 \ OPD教师 | Qwen3-32B | QwQ-32B |
|---|---|---|
| Qwen3-32B | 68.5 | 64.8 |
| QwQ-32B | 65.0 | 66.5 |
Lightning OPD教师一致性消融(AIME 2024 Pass@1%):
| SFT教师 \ OPD教师 | Qwen3-32B | QwQ-32B |
|---|---|---|
| Qwen3-32B | 69.9 | 63.1 |
| QwQ-32B | 62.1 | 68.7 |
对角线(教师一致)始终优于非对角线。有意思的是,Lightning OPD对不一致更敏感——从一致切换到不一致,Lightning OPD暴跌6.8分(69.9→63.1),而标准OPD只降3.7分。因为固定的rollout分布叠加了参考分布偏误,双重打击。
Lightning OPD:离线蒸馏的正确打开方式

图1:Lightning OPD在Qwen3-4B和8B规模上的性能与训练成本对比——数学和编程基准全面匹配或超越标准OPD,8B规模30 GPU小时达AIME 2024 69.9%
方法总览

图2:Lightning OPD两阶段流程——SFT阶段用教师生成轨迹训练基座模型,OPD阶段在SFT rollout上预计算教师log概率后离线训练
Lightning OPD分两个阶段:
Stage 1:SFT——选定教师 \(\pi_T\),让教师生成轨迹,构建SFT数据集,对基座模型做最大似然微调,得到参考策略 \(\pi_{\text{ref}}\)。这里强制了教师一致性:同一个教师既生成了SFT数据,又会在后面提供OPD的参考分布。
Stage 2:离线On-Policy蒸馏,分两期:
- Phase 1 预处理:从 \(\pi_{\text{ref}}\) 采样一批响应,一次性查询教师模型计算每个token的log概率,存下来形成离线数据集 \(\mathcal{D}_{\text{OPD}}\)。
- Phase 2 训练:学生从 \(\pi_{\text{ref}}\) 初始化,每个step从 \(\mathcal{D}_{\text{OPD}}\) 采样mini-batch。优势值 \(A_t(\theta) = \log \pi_T(a_t|s_t) - \log \pi_\theta(a_t|s_t)\),其中教师项直接从数据集读取,学生项在线计算。优势值裁剪到 \([-\tau, \tau]\) 后更新参数。
整个过程不需要实时教师服务器。预处理阶段的教师推理是一次性的,跑完就释放。
三个理论保证
在满足教师一致性的前提下,作者给出了三个关键定理:
1. 共享最优固定点(Theorem 3.7):Lightning OPD和标准OPD的驻点条件等价,都最小化 \(\text{KL}(\pi_\theta \| \pi_T)\)。性能上限只受模型容量限制,不受rollout分布限制。
2. 有界梯度差异(Theorem 3.5):
初始化时差异为0(因为 \(\pi_\theta = \pi_{\text{ref}}\)),随策略漂移增大,但在KL正则化下保持有界。
3. 隐式正则化(Theorem 3.9):离线梯度可以分解为在线梯度减去一个协方差项:
这个协方差项相当于一个隐式的信任域惩罚,自动阻止策略偏离 \(\pi_{\text{ref}}\)。不需要像PPO那样手动调KL惩罚的超参数——数据分布本身就提供了正则化。
这个隐式正则化的效果在实践中确实能观察到。

图3a:训练过程中重要性权重 \(w(x;\theta)\) 的动态变化——方差随训练逐渐增大,但裁剪机制和隐式正则化共同防止策略漂移过大

图3b:Lightning OPD与标准OPD在AIME 2024上的训练曲线对比——Lightning OPD收敛更快且最终性能持平或略优
实验结果:4倍加速,效果持平甚至更好
主实验
| 方法 | AIME 2024 | AIME 2025 | HMMT 2025 | Math Avg. | LCB v5 | LCB v6 | Code Avg. |
|---|---|---|---|---|---|---|---|
| Qwen3-4B-Base / Teacher: Qwen3-8B | |||||||
| + SFT | 56.7 | 52.1 | 34.0 | 47.6 | 33.8 | 31.5 | 32.6 |
| + OPD | 65.4 | 57.9 | 39.9 | 54.4 | 44.2 | 39.3 | 41.8 |
| + Lightning OPD | 68.1 | 58.4 | 39.8 | 55.4 | 42.8 | 40.3 | 41.5 |
| + ExOPD | 61.0 | 56.0 | 34.4 | 50.5 | – | 29.0 | – |
| Qwen3-8B-Base / Teacher: Qwen3-32B | |||||||
| + SFT | 63.7 | 51.7 | 36.9 | 50.8 | 44.7 | 36.8 | 40.8 |
| + OPD | 68.5 | 59.0 | 39.4 | 55.6 | 47.3 | 41.2 | 44.2 |
| + Lightning OPD | 69.9 | 59.2 | 41.9 | 57.0 | 49.5 | 43.9 | 46.7 |
说实话,看到69.9%的时候我愣了一下——Lightning OPD居然比标准OPD还高了1.4个点。按理说离线方法的信息量不如在线,怎么还反超了?
答案就在那个隐式正则化里。标准OPD没有固定参考分布的约束,策略容易漂移过大导致训练不稳定。Lightning OPD的协方差项天然限制了漂移,反而更稳健。8B规模下LCB v5涨了2.2个点,Code Avg.涨了2.5个点,这些增益主要来自更好的正则化而非更多信息。
ExOPD是腾讯混元团队提出的"奖励外推"方法,在这里被作为baseline。4B规模下Lightning OPD比ExOPD高了7.1个AIME点,差距相当明显。
训练成本
| 方法 | Qwen3-4B-Base | Qwen3-8B-Base |
|---|---|---|
| 标准OPD | 72 GPU小时 | 120 GPU小时 |
| Lightning OPD | 20 GPU小时 | 30 GPU小时 |
| 加速比 | 3.6× | 4.0× |
Lightning OPD的开销拆解:
| 阶段 | 4B规模 | 8B规模 |
|---|---|---|
| Rollout采集 | 10小时 | 10小时 |
| 教师log概率预计算 | 2小时 | 4小时 |
| OPD训练(无教师服务器) | 8小时 | 16小时 |
| 总计 | 20小时 | 30小时 |
8B规模下,30 GPU小时是什么概念?单张A100跑不到两天。标准OPD需要120 GPU小时,其中大部分是教师服务器的开销。对于没有大规模推理集群的学术团队来说,这个差距是"能做"和"不能做"的区别。
与同期工作的对比
有意思的是,同一时期还有一篇"Rethinking OPD"(清华大学团队,arXiv:2604.13016),也从机制角度分析了OPD。两篇论文切入点不同但互有补充:
| 维度 | Lightning OPD | Rethinking OPD |
|---|---|---|
| 核心发现 | 教师一致性是OPD必要条件 | 思维模式一致性+新知识是OPD成功的两个条件 |
| 理论风格 | 梯度偏差界的严格证明 | token级动力学实证分析 |
| 失败诊断 | 教师不一致→不可约偏差 | 师生top-k分布重叠不足→梯度各向异性 |
| 实用策略 | 预计算教师log概率做离线训练 | Off-policy冷启动+教师对齐提示选择 |
| 长序列问题 | 未讨论 | 发现OPD奖励质量随轨迹深度退化 |
Rethinking OPD提出的"思维模式一致性"和Lightning OPD的"教师一致性"有交集但不等价。思维模式一致性强调师生在token级分布上的重叠程度,而教师一致性强调的是SFT和OPD两个阶段使用同一个教师。前者是关于师生关系的,后者是关于流水线设计的。两者共同指向一个结论:OPD的可靠性比你想象的更脆弱——任何环节的不匹配都可能导致训练崩溃。
不过坦率地讲,Rethinking OPD指出的长序列问题是Lightning OPD没有讨论的盲区。我有点担心的是,OPD的逐token奖励质量随序列深度退化,超过10K token后重叠率崩溃——这对于长链推理蒸馏来说是个根本性挑战。
我的判断
Lightning OPD这篇论文,我觉得最值钱的地方不是4倍加速——加速是工程结果,真正的贡献是教师一致性这个概念。
之前大家做离线OPD不work,可能归因于"离线就是不如在线"、"rollout分布过时了"之类模糊的解释。教师一致性给了我们一个精确的理论诊断:问题出在流水线设计上,不是离线vs在线的问题。只要你SFT阶段用一个教师、OPD阶段换另一个教师,就算是在线OPD也会受损。
这个发现对工业界的后训练流水线设计有直接影响。很多团队在SFT阶段用最强的模型生成数据,OPD阶段用推理最快的模型做教师——这种"最优化组合"恰恰违反了教师一致性,引入了一个你根本意识不到的偏差。
当然,这篇论文也有局限:
1. 教师一致性的实际约束。强制要求SFT和OPD用同一个教师,限制了流水线的灵活性。如果最优的SFT数据生成模型和最优的OPD教师不是同一个,你就得做取舍。论文没有讨论这种场景。
2. 离线方法的探索天花板。固定rollout分布意味着学生无法探索教师分布之外的区域。对于教师覆盖不足的prompt类型,Lightning OPD可能比在线方法更受限。论文的实验集中在数学和编程这两个教师覆盖较好的领域,更开放的任务上表现如何还不好说。
3. 长序列问题悬而未决。正如Rethinking OPD指出的,OPD的奖励质量随序列深度退化。Lightning OPD的固定rollout可能让这个问题更严重——在线OPD至少可以"刷新"一下当前策略的轨迹分布。
但瑕不掩瑜。30 GPU小时训出AIME 69.9%,这个性价比对学术研究来说太重要了。它把高质量推理模型后训练的门槛,从"需要一排GPU跑serving集群"降到了"单机两天就能搞定"。如果你也在做推理模型后训练,这个思路值得认真试试。
觉得有启发的话,欢迎点赞、在看、转发。跟进最新AI前沿,关注我