GFT：把 SFT 当成"极度稀疏奖励 + 不稳定重要性权重"的 RL 重做一遍

核心摘要

你有没有这种经验：在 Math 上跑 SFT，loss 看着挺稳，eval 一上线发现 base model 的通识能力被你训没了，OOD 直接掉点；接着想再叠一段 RL（比如 GRPO）救一救，结果 SFT+GRPO 居然还不如直接 GRPO from scratch。这不是个别现象，这是 SFT 自身的结构性问题。

这篇来自浙江大学 ACES Lab 的 GFT 给了一个挺漂亮的诊断：SFT 数学上等价于一个"奖励只在 expert 轨迹上为 1、其它都为 0"的 on-policy RL，并且配了一个 \(1/\pi_\theta(y|x)\) 的重要性权重——所以它必然会陷入单路径依赖（reward 太稀疏），并且必然会触发梯度爆炸（重要性权重在低概率 token 上炸）。沿着这个诊断，作者提出Group Advantage Learning 来解决"奖励太稀疏"——一个 query 凑齐 expert + teacher + self-rollout 共 K 条响应，做组内归一化打 advantage；外加 Dynamic Coefficient Rectification 给重要性权重做了个梯度截断。

效果上，10K 数据训出来的 GFT 在 Qwen2.5-Math-1.5B 上把 MATH 从 46.54 拉到 70.50（+23.96），AMC23 拉到 46.09（+15.93），同时把 LLaMA-3.2-3B 的 MMLU-STEM 训完反而涨了 2.86 个点（普通 SFT 是掉 5.98），KL 距离稳在 GRPO 一档。这篇论文最值钱的地方不是 GFT 本身有多惊艳，而是它把 SFT、DFT、ASFT、GRPO 这一波"用 RL 视角重做 SFT"的工作放在同一个分析框架里讲透了，然后用一个实用的、单阶段的方法把两条路并到了一起。

论文信息

标题：GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification
作者：Wangjie Gan, Miao Pan, Linbo Xi, Kaixiang Yao, Wenqi Zhang, Jintao Chen, Jianwei Yin, Xuhong Zhang
机构：浙江大学软件学院 ACES Lab（OmniAI Group）
发表时间：2026-04-15（v1），2026-04-28（v2）
arXiv：https://arxiv.org/abs/2604.14258

一个让我皱眉的现象：SFT 越练越退步

先看一张图，这是论文 Figure 1。

图1：SFT 让 Qwen2.5-Math-1.5B 在多个评测集上比 base 还差，且 SFT+GRPO 反而不如 GRPO 单跑

图1：(a) 用 NuminaMath 跑 SFT 之后，Qwen2.5-Math-1.5B 在 Gaokao2023En、Math、Minerva Math 上相对 base 模型的精度变化都是负的——分别 -1.73、-0.97、-2.69。同样的数据换成 GRPO 训，三个集合都正向，最高 +2.55。(b) 一旦把 SFT 当 RL 的 cold start，SFT+GRPO 在三个评测集上反而比 GRPO 单跑掉 2.67~9.06 个点。

这张图其实把后训练领域两个老大难问题钉在一起了：

第一个问题：catastrophic forgetting。SFT 用 NuminaMath 训 Qwen2.5-Math-1.5B，结果连 Math 这种本就在数学语境下的评测都被训掉了 0.97 个点。这事其实早有共识——SFT 的"严格模仿"目标会粗暴地推平预训练得到的通用表征，把 base model 在大语料上学来的 prior 砸坏。但很多人写 SFT 还是默认它"能涨点不能掉点"，这张图等于把这个幻觉打碎了。

第二个问题，更扎心，是 synergy break。我们做 RLHF 流水线，标准做法是 SFT 先建一个不错的 cold start，然后 RL 再优化。但 Figure 1(b) 告诉你：SFT 不仅没帮上 RL 的忙，反而把 RL 的探索空间给关死了。你想想，RL 要 work 靠的是 rollout 出多样化的轨迹再用 reward 区分；SFT 把策略压到一条 expert demo 的窄路上之后，rollout 出来的全是大同小异的 trace，advantage signal 直接退化。

我自己之前做 reasoning model 的 post-training 时碰到过类似的事。当时的应对策略大多是"调小 SFT 的 epoch"、"加 KL 正则"、"用 mixed batch"这些工程 hack，但都是在症状层面打补丁。这篇论文的好处是它直接戳到了病因——而且病因可以用一个等式写出来。

灵魂等式：SFT 就是一个稀疏奖励 + 高方差权重的 RL

论文 Section 2 给出的推导其实不复杂，但很关键。普通 SFT 的梯度是

\[\nabla_\theta \mathcal{L}_{SFT} = \mathbb{E}_{\mathcal{D}}\big[-\nabla_\theta \log \pi_\theta(y^* \mid x)\big]\]

这个期望是在 expert 数据分布上算的。作者通过重要性采样把它改写成在当前策略 \(\pi_\theta\) 上的 on-policy 形式：

\[\nabla_\theta \mathcal{L} = -\mathbb{E}_{x,y}\Big[\frac{\mathbb{I}[y=y^*]}{\pi_\theta(y \mid x)} \nabla_\theta \log \pi_\theta(y \mid x)\Big]\]

这个等式有两件事值得停下来想一秒。

第一，\(\mathbb{I}[y=y^*]\) 这个指示函数就是一个极度稀疏的奖励——只有当你恰好采到 expert 的那条轨迹时奖励才是 1，其余全部为 0。reward landscape 比 GRPO 这种 rule-based reward 还要稀疏一个量级，因为 GRPO 至少能区分"答对/答错"这两类，而 SFT 的视角下连"答对了但走了不一样的推理"也是 reward 0。这就是为什么 SFT 会陷入 single-path dependency——整个学习信号只挂在 expert 那条独路上。

第二，\(1/\pi_\theta(y|x)\) 这个重要性权重是梯度爆炸的祸根。当 expert 给的 token 在当前策略下概率很小时（比如 \(\pi_\theta = 0.01\)），权重直接放大 100 倍。论文 Figure 2 里画了一张特别直观的图：clip 之前，"标准 token"的梯度系数大约 1.x，但有一些"极端 token"（expert 给的、模型不熟的）的系数能冲到 50 甚至 100。这种规模的更新一打下去，模型就开始机械记忆 + 灾难性遗忘。

写到这我想起 2025 年一系列同期工作。DFT（Wu et al., 2025）发现的就是这个事——它的诊断是"SFT 的 reward 是 ill-posed 的，与模型置信度成反比"，对应的解法是给 loss 乘上 detached token 概率，相当于把 \(1/\pi_\theta\) 这一项直接消掉。ASFT（Zhu et al., 2025）说光消还不够，得加 KL anchor 防止 policy drift。PSFT（同期）干脆把 PPO 的 trust region 套到 SFT 上。GFT 是这条线的延续，但它做了一个更关键的事——把"消稀疏 reward"和"消爆炸权重"两个解法在一个目标函数里同时搞定。

GFT 的两板斧：GAL + DCR

图2：GFT 总体架构。左边一组数据来自 expert 和 distillation，加上 policy model 自己的 rollout；上半部分是 Dynamic Coefficient Rectification，对超大梯度系数（最高到 100）做 token 级的 clip；下半部分是 Group Advantage Learning，对一组 K 条响应算 reward 然后归一化得到 advantage

图2：左侧的 expert data + distillation data 加上模型自己的 rollout 凑成一组响应（图里显示了 4 条），下方走 Group Advantage Learning 算出每条的 advantage A_k，上方走 Dynamic Coefficient Rectification 把 token-level 的重要性权重从最高 100 截到 1.0（蓝色 token 是被 clip 的，红色是保留原始系数的）。两条路的结果在最终的损失函数里乘到一起。

第一板斧：Group Advantage Learning（GAL）—— 把 reward 从"非黑即白"变成"组内对比"

GAL 的思路其实跟 GRPO 很像，但 group 的构造方式更聪明。

对每个 query \(x\)，构造一个混合响应组 \(\mathcal{G}_x = \{y_1, \dots, y_K\}\)，由三类轨迹混合而成：

Expert demonstrations \(y_{exp}\)：来自数据集的 ground truth，保证 group 里永远有一条正确答案
Teacher distillations \(y_{demo}\)：从更强模型（论文里用的是 Qwen2.5-Math-72B）蒸馏来的多样化推理路径
Self-generated samples \(y_{sample}\)：当前模型自己 rollout 的轨迹，提供 on-policy 反馈

每条 \(y_k\) 拿到一个 rule-based 的 scalar reward \(R(y_k)\)（数学题上就是答案对不对），然后做组内归一化：

\[A(y_k) = \frac{R(y_k) - \mu(\mathcal{G}_x)}{\sigma_R(\mathcal{G}_x) + \epsilon}\]

写下来很简单。但效果上发生了几件值得说的事：

第一，原来 SFT 视角下 reward 是 \(\mathbb{I}[y = y^*]\)（只有恰好等于 expert 才是 1），现在变成了"组内排序"——一条不是 expert 但答对了的 self-sample，advantage 也是正的；反过来 expert 自己如果在某个 query 上没法和组里其他响应拉开差距，advantage 也会被压低。这就把 single-path dependency 直接打破了。

第二，跟 GRPO 比，GAL 的 group 多了 expert 和 teacher 这两类"先验高质量数据"。这件事在数学题上很重要——base model 自己 rollout 的 K 条可能全都答错（尤其是 1.5B 这种小模型），advantage 没法做有效区分。expert demo 给了 group 一个"保底正确性"的锚。

第三，advantage 是组内归一化的（标准化到均值 0、方差 1），所以无论 reward scale 怎么变，loss 量级都稳。这点对 RL 训练稳定性特别关键。

第二板斧：Dynamic Coefficient Rectification（DCR）—— 给重要性权重做个 token 级的 clip

DCR 解的是 \(1/\pi_\theta(y|x)\) 那个爆炸项。论文给的截断函数特别简洁：

\[\mathcal{C}(\pi_t) = \begin{cases} \text{sg}(\pi_t) & \text{if } \pi_t \lt \tau \\ 1 & \text{if } \pi_t \geq \tau \end{cases}\]

这里 \(\tau\) 是阈值，\(\text{sg}(\cdot)\) 是 stop-gradient。看起来很 trivial，但仔细想就明白巧思在哪：

当 \(\pi_t \geq \tau\) 时（"自信 token"），\(\mathcal{C}(\pi_t) = 1\)，那么有效系数 \(\mathcal{C}(\pi_t) / \pi_\theta = 1/\pi_\theta\)，保留原始 SFT 梯度——确保对熟悉的 token 还能高效注入知识
当 \(\pi_t \lt \tau\) 时（"低置信 token"），\(\mathcal{C}(\pi_t) = \text{sg}(\pi_t)\)，那么有效系数变成 \(\pi_t / \pi_\theta = 1\)（因为 \(\pi_t = \pi_\theta\)，前者只是被 detached 了），梯度系数被压到 1——彻底压住爆炸

这个 trick 跟 PPO clip 的精神一脉相承，但实现得比 PPO clip 还轻：不需要 reference model，直接用当前 policy 的概率来做截断。论文 Section 4.7 的 ablation 显示 \(\tau \approx 0.7\) 是最优的（后面会展开讲）。

合体的最终目标

把 GAL 和 DCR 拼到一起，就是 GFT 的梯度形式：

\[\nabla_\theta \mathcal{L} = \mathbb{E}_{y_k \in \mathcal{G}_x}\Big[A(y_k) \cdot \frac{\mathcal{C}(\pi)}{\pi_\theta(y_k|x)} \cdot \nabla \log \pi_\theta(y_k|x)\Big]\]

注意三个 term：\(A(y_k)\) 替代了 SFT 那个 \(\mathbb{I}[y=y^*]\)（解决 reward 稀疏），\(\mathcal{C}(\pi)/\pi_\theta(y_k|x)\) 替代了纯粹的 \(1/\pi_\theta\)（解决梯度爆炸），最后那项还是策略梯度的 \(\nabla \log \pi_\theta\)。所以GFT 在结构上就是一个解决了已知病灶的 SFT-as-RL——这话我觉得作者其实可以讲得更直白一点。

实验：10K 数据干翻 100K SFT

实验主表（论文 Table 1）跑了 5 个 base model（Qwen2.5-Math 1.5B/7B、LLaMA-3.2-3B、LLaMA-3.1-8B、DeepSeekMath-7B），7 个数学评测集（这里我抽 6 个最有代表性的）。把核心数字摘出来：

Qwen2.5-Math-1.5B 主表（从 base 出发的提升幅度）

方法	AMC23	College Math	Gaokao2023En	Math	Minerva Math	TabMWP	训练样本
Base	30.16	24.30	34.81	46.54	10.51	24.55	-
SFT	31.25 (+1.09)	36.45 (+12.15)	48.86 (+14.05)	60.66 (+14.12)	23.99 (+13.48)	79.34 (+54.79)	100K
GRPO	44.84 (+14.68)	35.58 (+11.28)	51.80 (+16.99)	65.97 (+19.43)	21.17 (+10.66)	76.94 (+52.39)	10K×8
DFT	36.40 (+6.24)	38.76 (+14.46)	52.75 (+17.94)	64.35 (+17.81)	23.75 (+13.24)	82.08 (+57.53)	100K
ASFT	43.12 (+12.96)	29.40 (+5.10)	47.99 (+13.18)	60.35 (+13.81)	15.55 (+5.04)	65.06 (+40.51)	100K
GFT	46.09 (+15.93)	40.51 (+16.21)	58.32 (+23.51)	70.50 (+23.96)	28.93 (+18.42)	85.24 (+60.69)	10K×8

几个我觉得能打的发现：

第一，数据效率惊人。GFT 用 10K query × 8 trajectory = 80K 总样本（但 unique query 只有 10K），把 100K query 训出来的 SFT 全部碾压。在 Math 集上从 60.66 拉到 70.50，单这一项就涨了快 10 个点。在 AMC23 上比 SFT 多涨 14.84 个点。这说明 SFT 那种"100K query 各自独立"的训练范式对样本利用效率非常低，10K query 配上组内对比就够把信号挖出来了。

第二，GFT 比 GRPO 还要强，但差距不算特别大（AMC23 +1.25、Math +4.53、Minerva Math +7.76）。作者很坦诚地在论文里讨论了这件事——GRPO 之所以能这么接近 GFT，是因为它本身就有 "用相对奖励降方差" 的机制（这块跟 GAL 重叠），而且作者没给 GRPO 加显式 KL 正则，GRPO 的隐式更新稳定化跟 DCR 也部分重叠。你想想看，作者没刻意打压 baseline 来抬自己——这种诚实在 LLM 论文里其实不常见。

第三，小模型上 distill mix 反而是负效果。在 LLaMA-3.2-3B 上，GFT(no mix) 比 GFT 在 Math、Minerva 上都更高（51.71 vs 49.60；21.29 vs 18.84）。作者的解释是异质性小模型对 teacher 的推理 pattern 适应不好。这个发现挺有意思——说明 teacher distillation 不是免费午餐，模型差异越大、teacher 的"风格"越可能成为污染源。

7B 模型上的表现

Qwen2.5-Math-7B 上 GFT 把 Math 从 59.10 拉到 77.31（+18.21），Minerva Math 从 19.20 拉到 39.86（+20.66）——两个评测都几乎翻倍。这个量级的提升，结合 10K 训练量，对工程落地来说性价比相当高。

消融：GAL 和 DCR 各管一摊

图3：MATH-lighteval 上的训练动力学。绿色 GFT 全量在 step 20 后冲到 0.70 并稳住；蓝色 GFT w/o DCR 抖动得很厉害；红色 GFT w/o GAL 收敛慢、上限低

图3：去掉 DCR 之后曲线大幅震荡（蓝色），去掉 GAL 之后收敛缓慢且最终上限只有 0.63（红色），完整 GFT（绿色）在 step 20-30 之间快速爬到 0.70 之后稳定持续。这张图比 ablation 表更能说明两个组件各自管啥。

消融实验（论文 Table 2，Qwen2.5-Math-1.5B）：

方法	AMC23	MATH	Olympiad
Base	30.16	46.54	23.39
GFT w/o (GAL + DCR) ≈ SFT	31.25	60.66	24.58
GFT w/o GAL	35.78	63.91	26.63
GFT w/o DCR	42.81	65.97	27.82
GFT 全量	46.09	70.50	30.52

读这张表我有几点判断：

GAL 主要管的是难题。去掉 GAL 后 Olympiad 掉 3.89 个点（30.52 → 26.63），这个评测集是国际数学奥林匹克级别的，没有组内对比信号，模型就只能死记 expert 的一条 trace，泛化不到难题上。

DCR 主要管的是稳定性。Figure 3 里 w/o DCR 的曲线那个抖动幅度，看着就让人头疼——一个工程团队在线上看到这种曲线会非常焦虑。但你把 DCR 加回来，曲线立刻稳住了。这也解释了为什么 w/o DCR 的最终精度还能到 42.81（因为它能看到 group 信号），但训练过程中可能随时崩。

两个组件是真的有协同：单独 w/o GAL 是 35.78、w/o DCR 是 42.81、全有是 46.09，叠加效应明显。说实话第一眼看这表我以为两个组件会有冗余（因为稳定性问题被 GAL 的归一化部分掩盖了），但数字告诉你它们解决的是不同维度的问题。

SFT/GFT/GRPO 的最佳组合：SFT → GFT → GRPO 三段式

这块其实是论文最有工程意义的部分。

图4：六种训练 pipeline 在 Math、MMLU-Stem、AMC23、Sat Math 上的 Pass@16 对比，右下角是 Sat-Math 的训练曲线（红色 SFT→GFT→GRPO 上限最高，绿色 SFT→GRPO 中后期掉点）

图4：六种训练组合的对比。深红色 SFT+GFT+GRPO（三段式）在 Math Oai 拿到 71.7、MMLU-Stem 58.7、AMC23 48.4、Sat Math 90.2，全面占优。右下角的 Sat Math 训练曲线给了三个 pipeline：Phase I 都是 SFT，Phase II 分叉，Phase III 加 GRPO；可以看到加了 GFT 中段的红色曲线最后稳定在 ~90，纯 SFT→GRPO 的绿色掉到 ~70，GFT→GRPO 的蓝色稳在 ~80。

注意几个数：

SFT + GFT + GRPO = 90.2（Sat Math），明显碾压
SFT + GFT 自己就有 79.7
GFT + GRPO = 79.3
SFT + GRPO（传统 pipeline）= 71.7
GRPO 单跑 = 65.0
SFT 单跑 = 53.3

我读这块时第一反应是——SFT 不是被淘汰了，而是它的角色变了。论文也明确写了："GFT does not replace SFT"。SFT 提供格式对齐和初始化的稳定锚，GFT 把单路径策略撑开成多模态分布并做稳定化（解决 SFT 的 synergy break），GRPO 在更宽的策略空间里做最终 RL 优化。三段式比传统两段式 SFT→GRPO 在 Sat Math 上多涨了 18.5 个点，这个量级在工程落地里太关键了。

如果你团队现在还在跑标准 SFT→RL 流水线，看完这张图至少应该考虑把中间这段 GFT 加进去。

灾难性遗忘评测：训完 LLaMA 在 MMLU 上反而涨了

这个实验我看了挺意外。论文 Table 3：

方法	Mawps	Svamp	MMLU-STEM
Base	96.06	86.36	41.03
+SFT	91.97 (-4.09)	78.73 (-7.63)	35.05 (-5.98)
+GRPO	94.60 (-1.46)	88.11 (+1.75)	39.48 (-1.55)
+GFT	95.79 (-0.27)	84.65 (-1.71)	43.89 (+2.86)

注意 MMLU-STEM 那一列：

SFT 训完直接掉 5.98 个点——这是典型的 catastrophic forgetting，base model 在 STEM 知识上的能力被数学微调任务给挤掉了
GRPO 也掉 1.55，比 SFT 好但不算稳
GFT 反而涨 2.86 个点

这事让我停下来想了好一会儿。GFT 是在 NuminaMath 数学数据上训的，怎么训完之后 MMLU-STEM 这种通识 benchmark 还能涨？

我的理解是：GAL 里的 self-rollout 部分等于在告诉模型"在你自己的策略上怎么把数学推理做得更好"，而不是"必须按 expert 的一条 trace 重复"。这种"self-improvement"信号天然不会去覆盖 base model 在其他领域的 prior。配上 DCR 把更新幅度限制住，整个训练对 base policy 的扰动就特别温和。

图5：训练过程中相对 base model 的 KL 散度。SFT 在 step 100 时 KL 已经飙到 39，GFT 稳在 24 左右（绿色），GRPO 几乎贴着 0（红色）

图5：SFT 在 100 步训练里 KL 从 0 飙到 39，每一步都在远离 base policy；GRPO 几乎贴着横轴，KL 始终 \lt 5；GFT（绿色）介于两者之间，稳定在 24 附近。这跟 Table 3 的遗忘率排序完全一致——KL 越大遗忘越严重。

这张图是直接的证据。KL 散度是遗忘的代理指标——你离 base policy 越远，base 学到的 prior 就被你覆盖得越多。SFT 一路狂奔 KL 到 39，GFT 稳在 24，GRPO 几乎不动。这种排序跟 Table 3 的遗忘排序完全对应。

但这里我也要泼一点冷水——GRPO 的 KL 那么小，部分原因是它学到的东西也少（毕竟 GRPO 单跑在 Math 上只能到 65.97，比 GFT 的 70.50 差了一截）。GFT 的价值在于它在"学得多"和"忘得少"之间找到了一个明显更优的 trade-off，而不是简单地 KL 小就完事。

多样性：Pass@128 把 GRPO 反超 12 个点

论文 Table 4 测了一个我觉得对实际部署很关键的指标——Pass@k：

Metric	方法	SAT Math	Minerva	TabMWP	Avg
Pass@128	Base	39.69	9.71	24.17	24.52
	Distillation	66.67	22.98	79.32	56.32
	GRPO	52.95	19.89	76.77	49.87
	GFT	72.58	28.59	85.31	62.16
Pass@256	Distillation	67.20	21.84	79.28	56.11
	GRPO	51.90	19.77	75.82	49.16
	GFT	73.33	27.17	85.23	61.91

GFT 的 Pass@128 平均是 62.16，比纯 distillation 高 5.84 个点，比 GRPO 高 12.29 个点。这个数我反复确认了一下原文，没看错。

为什么 GRPO 的 Pass@k 这么差？因为 GRPO 这种 pure RL 会把策略往少数几个高 reward 模式上推，导致输出多样性下降——sharper but narrower。这件事 yue2025does 那篇也讨论过，pure RL 的探索空间会被快速 collapse 掉。

而 GFT 的 hybrid group 同时吃 teacher distill（保留多样性）和 self-rollout（用 reward 评估），相当于让 student 去学 teacher 的多个高质量模式，但又用 advantage 来过滤掉低质量的。这个"reward-aware distillation"的视角挺漂亮的——它解释了为什么 GFT 同时能做到高 Pass@1 和高 Pass@128。

工程上 Pass@128 高代表什么？代表你部署的时候做 best-of-N 采样会更便宜——同样 N 下命中率更高，或者达到同样命中率所需 N 更小。对推理类应用这是直接的成本节省。

超参敏感性：组成比例 2:6 最佳，τ=0.7 是甜点

图6：clipping 阈值 τ 的影响。横轴 τ 从 0.01 到 0.9，红色折线是精度（在 0.7 时达到峰值 47.19%），蓝色柱状是被 clip 的 token 比例（从 4% 升到 36.3%）

图6：τ 越大被 DCR 修正的 token 比例越高（4.0% → 36.3%），精度呈倒 U 型，0.7 是最优点 47.19%。τ 太小（0.01-0.3）clip 不够，更新仍不稳；τ 太大（0.9）过度 clip 把有用梯度也压掉了。注意 base model 是 30.16，整个 τ 扫描区间 GFT 都明显高于 base——说明 DCR 对超参不敏感，鲁棒性挺好。

Group 组成比例（论文 Table 5，K=8 固定）：

Demo : Sample	Minerva	Olympiad	Sat Math	Avg
8 : 0	15.11	22.48	36.92	24.84
6 : 2	29.53	29.60	71.68	43.60
4 : 4	28.93	30.52	69.93	43.13
2 : 6	31.01	32.73	73.04	45.59
0 : 8	23.31	28.61	40.60	30.84

两个极端最差：

8:0（全 demo）= 24.84：等于纯 distillation，没有 self-rollout 提供 on-policy 反馈，advantage 退化
0:8（全 self-rollout）= 30.84：等于纯 self-play，缺少 teacher / expert 锚点，小模型自己 rollout 全错，group 内 reward 区分不出来

最优是 2:6，少量 demo 做正确性锚定，大量 self-sample 做对比信号。这个比例其实跟 RL 里"少量 expert demo + 大量 on-policy rollout"的经典 setup 高度一致——只不过 GFT 把它统一在一个 loss 里训。

我的判断：这篇论文该怎么定位？

聊聊这篇我个人的几条评价。

它真正的贡献：把"SFT-as-RL"这条线收口了

2025 年下半年开始，DFT、ASFT、PSFT 这一系列工作其实都在做同一件事——把 SFT 当成稀疏奖励 RL 来重新分析，然后用 RL 的稳定化技巧来修补 SFT。

方法	时间	核心修补	仍未解决
标准 SFT	-	无	单路径依赖 + 梯度爆炸
DFT	2025.08	给 loss 乘 detach 的 token 概率，消掉 \(1/\pi\)	仍是单路径
ASFT	2025.09	DFT + KL anchor 防 drift	仍是单路径
PSFT	2025.08	PPO 的 trust region 套 SFT	仍是单路径
GFT	2026.04	GAL（多路径对比）+ DCR（梯度截断），单阶段同时解决两个问题	-

GFT 的最大价值是它第一次把"reward 太稀疏"和"权重不稳定"这两个 SFT 病灶在一个 unified objective 里同时治疗，前面的 DFT/ASFT 都只解决了第二个。从这个角度看，GFT 是这条研究线的一个自然收口。

但我有几个值得商榷的地方

第一，对 GRPO baseline 的 setup 有些保守。论文承认了没给 GRPO 加 KL 正则，"它的隐式稳定化跟 DCR 部分重叠"。如果 GRPO 配上更好的 reward shaping 和 KL，差距可能会进一步缩小。这块作者已经诚实说出来了，但读者得自己过一道。

第二，Llama-3.2-3B 上的结果有点反常。GFT (no mix) 在 Math、Minerva 上比 GFT (with mix) 还高（51.71 vs 49.60；21.29 vs 18.84）。作者解释是异质模型对 teacher 适应不好——这个解释是合理的，但也表明 GFT 不是无脑能用的，teacher 选错了反而是负贡献。落地时要谨慎选 teacher。

第三，只在数学推理上验证。论文 Limitations 也写了——open-ended task、subjective reward、70B+ 模型都没测。说实话以现在的实验规模，GFT 距离"通用 post-training paradigm"的claim 还差一段路。

第四，一个我想追问的事：GAL 的 K=8 group 里 1+3+4 这个比例最优是 2:6（demo:sample），sample 才是主力。但 sample 来自当前 policy 的 rollout，初期模型很弱时 sample 几乎全错，这时 group 内的 reward 区分度很差，advantage 全靠 expert 一条撑着。论文没单独讨论训练早期和晚期 group composition 是否需要动态调整——我猜动态调度会进一步提升数据效率。

工程落地建议

如果你在做 post-training，几条具体建议：

先试 SFT + GFT + GRPO 三段式，特别是有 RL pipeline 的团队。Figure 4 的 Sat Math 数据非常直接——单这一条流水线改造就能多涨 18 个点
把 GAL 单独作为 reward shaping 的工具：哪怕你不上 DCR，光是把 SFT 换成"K 条响应组内归一化 advantage"也能涨。这个改造对现有训练框架（DeepSpeed/Megatron）的侵入性最小
DCR 的 τ 设 0.7 是个稳健的起点，论文实验显示从 0.01 到 0.9 整个区间 GFT 都比 base 强，鲁棒性不错。可以根据自己模型的 token entropy 微调
Teacher 模型选择要谨慎：不是越强越好，要跟 student 在 reasoning style 上有一定 alignment。论文里 Qwen2.5-Math-72B 给 Qwen2.5-Math-1.5B 蒸馏 work，但给 Llama-3.2-3B 就帮倒忙

一个更本质的追问

我自己读完这篇还有个挥之不去的问题——SFT 真的应该被替代吗？

Figure 4 的数据其实暗示了答案是"不"。最佳的 pipeline 是 SFT → GFT → GRPO，SFT 还在，只不过它的角色从"主力训练"变成了"格式对齐和初始化"。这跟 InstructGPT 那篇 paper 里 SFT 阶段的功能其实是一致的——SFT 解决"模型按照对话格式输出"，RL 解决"模型给出高质量内容"。GFT 的位置正好填补了"从模仿到优化"之间那个 transition phase 的稳定化需求。

从这个视角看，GFT 不是 SFT 的替代品，而是 SFT 和 RL 之间的桥。这个 framing 比论文摘要里那种"GFT consistently surpasses SFT-based methods"要更准确，也更有工程指导意义。

收尾

这篇论文我会推荐给两类人：

在做 reasoning model post-training 的工程师：直接拿 GFT 替换你 pipeline 里的 SFT 阶段，10K 数据+三段式，性价比相当能打
对 RL/SFT 理论关系感兴趣的研究者：Section 2 的推导和 DFT/ASFT/PSFT 这条线一起读，能比较完整地理解"SFT-as-RL"这一波研究的逻辑

最让我觉得舒服的一点是，论文没有把自己包装成"颠覆性突破"——作者在讨论 GRPO 接近 GFT 的原因时表现出的那种诚实，在 LLM 论文里其实是稀缺品质。一个清晰的诊断（SFT 是稀疏奖励 RL）+ 一个对症的方案（GAL + DCR）+ 一组扎实的实验，就是这篇论文的全部。该有的批判性视角作者也写出来了——synergy break、catastrophic forgetting、Pass@k 这些问题都不是新发现，但 GFT 给了一个把它们一起解掉的 unified framework。

值不值得花时间细读？值得——尤其是前 4 节加 Section 4.4。后面的 ablation 看图就够了。

参考链接： - 论文 PDF：https://arxiv.org/abs/2604.14258 - DFT（前置工作）：https://arxiv.org/abs/2508.05629 - ASFT（前置工作）：https://arxiv.org/abs/2509.23753 - PSFT（前置工作）：https://arxiv.org/abs/2508.17784

觉得有启发的话，欢迎点赞、在看、转发。跟进最新AI前沿，关注我