SAGE:你的推理模型其实知道何时该停下来,只是你没让它说

论文标题:Does Your Reasoning Model Implicitly Know When to Stop Thinking?

论文链接:https://arxiv.org/abs/2602.08354

项目主页:https://hzx122.github.io/sage-rl/

机构:Beihang University, ByteDance, University of Illinois Urbana-Champaign 等

一句话总结:大型推理模型(LRMs)其实隐式地知道何时停止思考,但当前的采样方式掩盖了这种能力。论文提出 SAGE 采样范式释放这一潜力,并通过 SAGE-RL 将高效推理模式融入标准推理,实现准确率提升 +2.1% 同时减少 44.1% 的生成 token。


🤔 为什么需要这篇论文?

DeepSeek-R1、QwQ、o1 这些推理模型火了之后,"长思维链"(long CoT)几乎成了推理能力的代名词。模型先在 <think>...</think> 里絮絮叨叨地"想"几千个 token,然后才给出答案。

但这里存在一个被广泛观察到却缺乏深入分析的问题——推理链的长度和正确性不相关,甚至负相关

图1:SAGE 的核心动机——推理冗余示例

图1:一道数学题的推理过程示意。模型用约 500 token 就完成了核心推理(绿色部分),但随后又花了 452 token 做冗余验证和重复计算(红色部分)。这种"过度思考"现象在 LRM 中极为普遍。

这张图非常直观地展示了问题所在——模型已经找到正确答案了,但它不"停"。具体来说:

  1. 大量冗余:模型经常在已经找到正确思路后,仍然反复验证、绕弯子、甚至自我否定再重来。你可以把这想象成一个已经想通答案的学生,因为考试还剩半小时就硬是在草稿纸上写满了计算过程——不是因为需要,而是因为他"以为自己应该写这么多"。

  2. 计算浪费:更长的思维链意味着更多的推理时间和算力消耗。在实时应用场景下(如编程助手、对话系统),几秒钟的延迟差异就是用户体验的天壤之别。

  3. 过度思考可能有害:越想越多不等于越想越对。模型可能在正确的推理路径上写了 2000 token 后,突然"灵机一动"换了个错误方向。这就像考试时改对为错一样令人崩溃。

那核心问题来了:能不能让模型自己判断何时该停下来?

这篇论文给出了一个令人惊喜的发现:模型本来就知道——只是当前的采样方式没给它表达的机会。


🏗️ 方法全景:从发现到训练

图2:SAGE 整体框架

图2:SAGE 方法全景图。左侧对比了 Pass@1(单次随机采样)、SAGE(置信度引导的多路径探索)和 Pass@k(多次采样取最优)三种范式的差异。中间展示了 SAGE-RL 的混合采样训练架构。右侧的雷达图显示 SAGE-RL 在准确率(+2.1%)和 token 效率(-44.1%)上的双重收益。

接下来分三个层次展开:先看实验发现,再看 SAGE 采样方法,最终引出 SAGE-RL 训练方案。


🔍 核心发现:被采样范式"锁住"的高效推理能力

三个关键实验观察

论文做了一系列精巧的预训练分析实验,揭示了三个重要现象:

图3:预训练模型的推理模式分析

图3:三个模型(DS-1.5B、DeepScaleR、Qwen3-8B)在 MATH-500 上的预训练分析。左侧柱状图显示正确响应数,中间显示 RFCS<1(推理链存在高冗余的比例),右侧显示平均 RFCS 值。所有模型都呈现出明显的推理冗余。

观察一:高置信度路径 = 短 + 准

作者定义了一个累积置信度分数 \(\Phi\),衡量整个推理链上模型的"自信程度":

\[\Phi(\mathbf{y}_{\le k}) = \frac{1}{k} \sum_{i=1}^{k} \log \pi_\theta(y_i \mid \mathbf{y}_{<i}, \mathbf{x})\]

\(\Phi\) 就是模型对自己每一步生成的 token 的平均对数概率。\(\Phi\) 越高,说明模型在生成整条推理链时越"胸有成竹"。

实验发现:\(\Phi\) 最高的推理路径,往往既短又正确。在 MATH-500 的 100 道题子集上,使用 \(\Phi\) 引导的路径选择将准确率从随机采样的 0.84 提升到了 0.92,同时推理长度从 3419 token 缩短到了 2609 token。

直觉也很好理解:当模型对一个推理步骤很确定时,它不需要反复验证和纠正;当模型犹犹豫豫、每一步都不太确定时,它会倾向于多写一些来"碰运气"——但碰运气的结果往往是越写越错。

观察二:高置信度路径自信地"喊停"

图4:</think> 排名比率与探索宽度的关系

图4:随着探索宽度增加,高置信度路径中 </think> token 的排名比率趋近于 0——这意味着 </think> 几乎总是排名第一的候选 token。模型在自信路径上确实"想停下来"。

在那些高 \(\Phi\) 的推理路径中,</think>(思考结束标记)几乎总是排在模型下一个 token 预测概率的第一位。也就是说,当模型沿着自信的路径推理时,它在内心深处是"想停下来"的——它知道自己已经想清楚了。

但问题出在哪?出在标准的随机采样(random sampling)。标准采样按照概率分布随机选 token,即便 </think> 的概率很高,模型仍然有不小的概率会继续采样到其他 token,从而"被迫"继续思考。这就好比一个学生想交卷了,但监考老师说"你概率性地不能交,继续写"。

图5:置信度引导 vs 非引导的路径选择对比

图5:左侧是基于 \(\Phi\) 选择的高置信度路径(绿色),它自然地以 </think> 结尾,推理链更短更准确。右侧是未经置信度引导的路径(红色),模型即使已经完成正确推理,仍会继续生成冗余内容。

观察三:扩展探索宽度促进能力收敛

图6:ACC 和响应长度 vs 探索宽度对比(\(\Phi\) vs \(\phi\))

图6:使用累积置信度 \(\Phi\)(蓝色实线)引导的 TSearch,随着探索宽度增加,准确率稳步上升而长度稳步下降。而使用瞬时置信度 \(\phi\)(红色虚线)引导的 TSearch 则出现了长度坍塌——准确率反而低于随机采样。

这张图揭示了一个关键对比:\(\Phi\)(累积置信度)在路径引导上远优于 \(\phi\)(瞬时置信度)。\(\phi\) 只看下一个 token 的概率,容易被局部的高频 token 误导——比如一些"废话" token 概率很高但对推理毫无帮助。\(\Phi\) 平均了整条推理链上的信息,能更准确地反映整体推理质量。

具体数据:\(\Phi\) 引导达到 0.92 准确率,\(\phi\) 只有 0.79(甚至比随机采样的 0.84 还差)。


🧠 方法一:SAGE —— 无需训练的高效采样范式

基于上述发现,论文提出了 SAGE(Self-Aware Guided Efficient Reasoning),一种全新的采样策略。

核心设计:逐步探索 + 自信终止

SAGE 的工作流程围绕两个核心机制展开:

1. Step-Wise Reasoning Chain Exploration(逐步推理链探索)

与传统的逐 token beam search 不同,SAGE 按完整的推理步骤探索:

  • 维护一个宽度为 \(m\) 的候选集(称为探索宽度 EW)
  • 每一步,对候选集中的每条推理链,使用随机采样生成一个完整推理步骤(直到遇到换行符等步骤分隔符)
  • 对所有新生成的候选链计算 \(\Phi\) 分数,保留 \(\Phi\) 最高的 \(m\) 条继续

为什么是逐步而不是逐 token?因为逐 token 的 beam search 虽然理论上搜索更精细,但它的致命问题在于:模型对于单个 token 的置信度波动很大(比如在公式推导中间的某个变量名),但对于一个完整推理步骤的整体置信度才是有意义的评估信号。

这就像评价一个人讲话的可信度——你不应该看他每个字发音标不标准,而应该看他每句话的逻辑是不是清晰。

图7:SAGE 与 Beam Search 的路径选择差异

图7:Case A 展示了 SAGE 按步骤探索时的典型选择模式,Case B 展示了传统 beam search 逐 token 选择可能导致的问题。SAGE 的步骤级粒度避免了 token 级噪声干扰。

2. Confidence-Based Termination(基于置信度的终止)

这是 SAGE 最优雅的部分。在 \(\Phi\) 引导的高置信度路径上,当模型真的"想好了"时,它生成的推理步骤会自然地以 </think> 结尾。因此,SAGE 的终止条件极其简洁:

只要某条候选推理链的最新步骤以 </think> 结尾,就认为该链已完成,将其收入完成集 \(\mathcal{O}\)

不需要任何人工设定的容忍度阈值、概率门限或最大长度限制。模型自己决定何时停下来。

这和之前的 TSearch(Token-level Search)形成鲜明对比。TSearch 需要设定一个"容忍度接受排名比率" \(TR = \frac{h}{2m}\),手动控制 </think> 需要排到前多少名才能被接受。SAGE 完全去掉了这个超参数,因为在高 \(\Phi\) 路径上,</think> 本身就会出现在合适的位置。

SAGE 推理时间缩放

图8:SAGE 推理时间缩放效果

图8:在不同最大步骤数(Max Step)预算下,SAGE 在 MATH-500 和 AMC2023 上的 Pass@1 和响应长度变化。即使在很少的步骤预算下,SAGE 也能保持远高于标准采样的准确率。

SAGE 的另一大优势是零训练成本——它只是改变了采样方式,不需要修改模型参数。在推理阶段直接使用即可。

图9:Token 效率对比

图9:Token Efficiency(= Pass@1 / 响应长度)随探索宽度变化。SAGE 在所有模型和数据集上都展现出更高的 token 效率,且随着探索宽度增加持续改善。

图10:SAGE 详细结果

图10:DeepScaleR 和 DS-1.5B 在 MATH-500 和 AMC2023 上,Pass@1 和响应长度随探索宽度(0-6)的详细变化。探索宽度从 0 到 2 的提升最为显著,之后边际收益递减。


🔧 方法二:SAGE-RL —— 将高效推理烙印到模型里

SAGE 虽然有效,但它在推理时需要维护多条候选链并行探索,增加了推理开销。有没有办法让模型在标准的 pass@1 推理中(一次生成一条链)也能展现出同样高效的推理模式?

答案是 SAGE-RL——用强化学习把 SAGE 发现的高效推理模式"教"给模型。

核心思想:混合采样 + 标准 RLVR

SAGE-RL 的设计理念极其简洁——它对现有的 RLVR(Reinforcement Learning from Verifiable Rewards)框架只做了最小化修改,作者甚至声称"只需一行代码"。

具体来说,在 GRPO/GSPO 的 Rollout 阶段:

  • 对每道训练题,生成 \(G\) 个响应
  • 其中 \(r\) 个用 SAGE(m, r) 采样生成——这些是高质量、高效率的推理链
  • 剩余 \(G - r\) 个用标准随机采样生成——这些保持了原有的探索多样性
  • 两类响应混在一起,统一做组内优势估计和策略更新
\[\mathcal{G} = \{\underbrace{o_1^S, \dots, o_r^S}_{\text{SAGE 采样}}, \underbrace{o_1^R, \dots, o_{G-r}^R}_{\text{随机采样}}\}\]

为什么这个设计能奏效?

SAGE 生成的响应通常又短又对,而随机采样的响应则参差不齐。当它们放在同一个组里做相对排名时:

  • SAGE 响应倾向于获得正优势值(因为又对又高效)
  • 冗长错误的随机响应倾向于获得负优势值

这等价于给模型一个持续的信号:"请学习 SAGE 那种简洁高效的推理模式"。随着训练推进,模型在标准采样下的行为会逐渐向 SAGE 的模式靠拢——推理链变短了,但准确率反而提升了。

关键在于:奖励函数对 SAGE 样本和随机样本是完全一样的,不需要任何修改。SAGE 样本的优势完全来自于它们"在组内更优秀"这一事实。


🧪 实验结果

实验设置

论文在 6 个高难度数学基准上做了全面评估:

  • MATH-500:高中数学竞赛级别
  • AIME 2024/2025:美国数学邀请赛(非常难)
  • AMC23:美国数学竞赛
  • OlympiadBench:数学奥林匹克
  • Minerva Math:矿物学数学

基础模型涵盖: - DeepSeek-R1-Distill-Qwen-1.5B (DS-1.5B) - DeepSeek-R1-Distill-Qwen-7B (DS-7B) - DeepScaleR-1.5B-Preview - Qwen3-8B

对比方法包括 GRPO、GSPO、LC-R1(长度控制变体)、DAPO 等主流 RLVR 方法。

主要结果

模型 方法 MATH-500 AIME24 AIME25 OlympiadBench 平均 LEN
DS-1.5B 基线 83.2 25.1 20.9 33.4 -
DS-1.5B + GRPO 83.6 28.3 24.1 34.2 ~6800
DS-1.5B + SAGE-GRPO 84.8 28.8 26.5 36.9 ~5700
Qwen3-8B 基线 94.4 73.2 67.3 46.6 ~12900
Qwen3-8B + GRPO 93.6 72.8 66.6 45.1 ~9100
Qwen3-8B + SAGE-GRPO 95.0 73.5 66.6 45.4 ~7000

几个核心发现:

准确率和效率可以双赢。 SAGE-RL 不是用准确率换效率,而是两者同时改善。以 DS-1.5B 为例,SAGE-GRPO 相比 GRPO 准确率更高(MATH-500: 84.8 vs 83.6),同时生成长度更短。这证明了冗余的思考不仅浪费算力,还在拖累准确率。

Token 效率大幅改善。 论文定义了 Token Efficiency (TE) = Pass@1 / LEN。SAGE-RL 在所有基准上都实现了 TE 的大幅改善,平均减少 44.1% 的 token 消耗。对于 Qwen3-8B 这种本身就很强的模型,SAGE-GRPO 把 MATH-500 上的平均长度从 5640 压缩到 3015,减少了 46.5%。

模型越强,收益越明显。 在更强的模型(如 Qwen3-8B、DeepScaleR)上,SAGE-RL 的效率改善更加突出。更强的模型内部蕴含着更多"被浪费"的高效推理能力,SAGE-RL 能更好地释放它。

训练动态分析

图11:SAGE-RL 训练动态

图11:DS-1.5B 上 GRPO vs SAGE-GRPO 的训练过程对比。四个面板分别展示:Pass@1 准确率(SAGE-GRPO 收敛更快更高)、响应长度(SAGE-GRPO 持续缩短)、策略熵(SAGE-GRPO 下降更快,表示模型更确信)、KL 散度(两者相当,说明 SAGE-RL 没有引入额外的分布偏移)。

训练过程揭示了几个有意思的现象:

  1. Pass@1 准确率上升更快:SAGE-RL 的训练曲线比纯 GRPO 收敛得更快且更高。SAGE 样本提供了持续的高质量正样本,让模型更快地学到正确的推理模式。

  2. 响应长度持续下降:在整个训练过程中,模型生成的平均响应长度持续减少——模型确实在学习"言简意赅"的推理风格,而不只是靠截断来减少长度。

  3. 策略熵降低:模型在推理过程中的生成分布变得更集中(熵减小),表明模型对自己的推理步骤更加确信。

训练后分析

图12:SAGE-RL 训练后的推理模式分析

图12:SAGE-RL 训练后三个模型的推理模式分析。与图3(训练前)对比,SAGE-RL 训练后模型的正确响应数增加(DS-1.5B: 425/500),RFCS<1 比例降低,平均 RFCS 值提高——模型真的学会了更紧凑的推理。

按难度级别分析

图13:按难度级别的训练过程分析

图13:MATH-500 的 Level 1-5 难度分别统计 Pass@1 和响应长度随训练步骤的变化。SAGE-GRPO(实线)相比 GRPO(虚线),在所有难度级别上都实现了更短的响应长度,且在高难度级别(Level 4-5)上准确率提升更加明显。

这张图有个特别值得关注的细节:难题上的收益比简单题更大。在 Level 1-2 的简单题上,SAGE-GRPO 和 GRPO 的准确率差异不大(因为本来就接近满分),但长度压缩明显。而在 Level 4-5 的难题上,SAGE-GRPO 不仅大幅压缩长度,准确率也有可观提升。这说明难题上的推理冗余更严重,SAGE 的收益空间也更大。


📊 消融实验与深入分析

\(\Phi\) vs \(\phi\):累积置信度 vs 瞬时置信度

方法 置信度 ACC 平均思考长度
Random Sampling - 0.84 3126
TSearch w/ \(\phi\) (瞬时) next-token prob 0.79 1712
TSearch w/ \(\Phi\) (累积) cumulative prob 0.92 2213

使用瞬时对数概率 \(\phi\)(只看下一个 token 的概率)引导的路径选择反而比随机采样更差!\(\phi\) 容易被局部的高频 token 误导——比如一些"废话" token 概率很高但对推理毫无帮助。而 \(\Phi\) 平均了整条推理链上的信息,能更准确地反映整体推理质量。

0.92 vs 0.79,这个差距说明选对"自信度量"至关重要。

超参数敏感性

图14:SAGE-RL 超参数消融

图14:不同 SAGE 配置的消融实验——SAGE(1,1)、SAGE(2,1)、SAGE(2,2) 与纯 GRPO 的对比。四个面板分别展示响应长度、SAGE Rollout 长度、策略熵和 KL 散度。SAGE(2,2) 在长度压缩和策略确信度上表现最优。

探索宽度 \(m\):从 \(m=1\)(退化为标准采样)到 \(m=2\),性能和效率有一个显著的跳跃式改善。但继续增大 \(m\) 的边际收益递减,而计算成本则持续增长。论文推荐 \(m=2\) 作为效率和性能的最佳平衡点。

SAGE 样本数 \(r\)\(r=2\) 的收益相对温和。过多的 SAGE 样本可能会压缩随机样本的探索空间,反而不利于策略学习的多样性。最优组合为 SAGE(2,2)-GRPO

时间复杂度分析

图15:时间复杂度分析

图15:(a) SAGE 单样本推理时间随探索宽度变化,存在一个从缓慢增长到快速增长的拐点。(b) SAGE-GRPO 训练后模型的推理延迟——相比基线模型平均快 28.7%,因为生成的 token 更少了。

这张图传达了一个重要信息:虽然 SAGE 采样本身增加了计算开销,但 SAGE-RL 训练出的模型在标准 pass@1 推理时反而更快——因为它生成的 token 少了将近一半。训练阶段多花一点计算,换来部署阶段持续的推理加速,这个投资回报率非常可观。


🔬 Case Study:压缩前 vs 压缩后

图16:案例对比——领带成本问题

图16:DS-1.5B vs SAGE-GRPO-DS-1.5B 在一道领带成本问题上的对比。原模型花了 957 token,SAGE-RL 训练后只用了 467 token,答案完全一致。省掉的部分全是重复验证和冗余计算。

图17:案例对比——极坐标问题

图17:另一个案例——极坐标转换问题。原模型 1381 token,SAGE-RL 后 712 token,压缩了 48.4%。推理路径更直接,没有"绕弯子再回来"的现象。

这两个案例非常有说服力。不是简单地截断了推理链,而是模型真正学会了"一步到位"的思考方式——跳过了那些"让我再验证一下"、"换个方法试试"的冗余段落。


🤔 个人思考与批判性分析

这篇论文真正有价值的是"发现"而非"方法"

SAGE 的方法论并不复杂——实质上就是用累积概率做 beam search 再加上 RL 混合采样。但论文的核心价值在于它揭示了一个深刻的洞见:推理模型在内部已经具备了高效推理的能力,问题出在"表达方式"上。

这就像一个钢琴家明明已经会弹了,但你让他戴着拳击手套弹——不是他不会弹,是你没给他合适的工具来展现能力。标准采样就是那副"拳击手套"。

这个发现对整个推理模型社区有启示意义:也许我们不需要训练更长的推理链、用更复杂的 RL 算法来提升推理能力。相反,应该思考如何更好地释放模型已有的能力

\(\Phi\) 指标的适用边界

\(\Phi\) 作为"模型自信程度"的代理指标,有一个隐含假设:模型的自信程度和推理质量正相关。数学推理这种有确定答案的任务上,这个假设大致成立。但在更开放的推理任务中(如创意写作、策略规划),高自信可能只意味着模型在重复训练数据中的模式,而非真的"推理正确"。

一个考试型学生对自己最"自信"的答案,往往是他背得最熟的模板题。面对真正需要创造力的问题,他的"自信"恰恰是陷阱。\(\Phi\) 在开放式任务上能否成立,我持保留态度。

"一行代码修改"的工程价值

SAGE-RL 声称只需对标准 RLVR 做一行代码修改。如果这是真的,那它的工程价值可能比学术价值更大——在工业界,任何新方法的落地成本都是关键考量。能在不改动训练框架、奖励函数、优化目标的前提下获得 +2.1% 准确率和 -44.1% token 消耗,这个投入产出比极其诱人。

不过我有个疑虑:SAGE 采样本身需要在 Rollout 阶段维护多路径并行探索,这对 GPU 显存的需求和 batch 调度的复杂度都有影响。说"一行代码"可能低估了工程适配的真实成本。


⚔️ 与相关工作的对比

方法 核心思路 训练需求 准确率变化 Token 节省 通用性
SAGE 累积置信度引导采样 无需训练 ~40-50% 通用
SAGE-RL SAGE + 混合 RL 训练 一行代码修改 ↑ +2.1% 44.1% 通用
Budget Forcing 硬性截断思考长度 ↓ 可能下降 取决于预算 通用
LC-R1 长度正则化 RL 需要修改奖励函数 ↑/↓ 不稳定 ~30-40% 通用
GRPO 标准组相对策略优化 标准 RL 训练 有限 通用
GSPO 序列级策略优化 标准 RL 训练 有限 通用
DAPO 动态采样策略优化 修改采样策略 有限 通用

SAGE/SAGE-RL 的独特之处在于:它不是通过"限制"推理长度来节省 token(Budget Forcing、LC-R1 的思路),而是通过"引导"模型走更高效的推理路径。前者像给学生限制草稿纸页数——可能导致写不完;后者像教学生更高效的解题方法——自然就不需要那么多草稿纸了。


🛠️ 工程实践建议

如果你想在自己的推理模型训练/部署中使用 SAGE 的思路:

推理阶段直接用 SAGE 采样。 不需要任何训练,只要把标准采样替换为 SAGE(2,2) 即可。探索宽度 \(m=2\) 就足够了——计算开销约增加一倍(2 条链并行),但 token 总量平均减少 40% 以上,整体效率反而可能更高。

训练阶段加入 SAGE 混合采样。 如果你已经在用 GRPO/GSPO 做 RL 训练,那就在 Rollout 阶段把一部分随机样本替换为 SAGE 样本。推荐比例:组大小 \(G\) 中有 \(r=2\) 个 SAGE 样本即可。

注意 \(\Phi\) 在不同任务上的表现。 \(\Phi\) 在数学推理这种有确定答案的任务上效果很好,但在其他类型的推理任务(如代码生成、常识推理)上需要验证。建议先在小规模实验上确认 \(\Phi\) 和任务正确性的相关性,再大规模部署。

关注探索宽度 \(m\) 的计算成本。 \(m=2\) 是性价比最优的选择。\(m\) 从 2 增加到更大值时,推理时间会快速增长(因为每一步都要为每条候选链生成完整推理步骤),但准确率改善的边际递减。除非推理预算非常充裕,否则不建议 \(m > 3\)

SAGE-RL 训练时监控两个指标。 一是 pass@1 准确率(应该稳步上升),二是平均响应长度(应该持续下降)。如果长度下降但准确率也在下降,说明模型可能在学习"偷懒"而不是"高效推理",需要调整 SAGE 样本的比例。


⚠️ 局限性与未来方向

只在数学推理上验证。 论文的实验全部在数学基准上完成。对于代码推理、多步逻辑推理、科学问答等其他推理场景,\(\Phi\) 指标是否同样有效还是未知数。

SAGE 的推理开销依然存在。 虽然 SAGE(2,2) 减少了 token 数,但它需要同时维护多条候选链,在单次前向传播层面的计算量其实增加了。在 batch 推理场景下,这个问题会更明显。

\(\Phi\) 可能被"黑"。 如果在 RL 训练中直接用 \(\Phi\) 做奖励(而非辅助采样),模型可能学会生成高 \(\Phi\) 但语义无意义的推理链(reward hacking)。SAGE-RL 通过把 \(\Phi\) 限定在采样层面而非奖励层面来避免这个问题,但这个风险值得关注。

未探索与其他推理优化方法的结合。 SAGE 可以和 Process Reward Model (PRM)、Self-Consistency 等方法组合使用,但论文没有做这方面的实验。用 PRM 替代或辅助 \(\Phi\) 来引导路径选择,可能在开放式任务上更加稳健。

未来值得探索的方向: - 将 \(\Phi\) 引导的采样推广到多模态推理模型 - 探索 SAGE 在 Agent 场景中的应用(Agent 的推理冗余问题更加严重) - 研究训练过程中 \(\Phi\) 分布的变化规律,用于自适应调整训练策略


📝 总结

这篇论文的核心贡献可以用三句话概括:

  1. 发现:大型推理模型隐式地知道何时停止思考,但这种能力被标准采样范式掩盖了
  2. 释放:SAGE 通过累积置信度 \(\Phi\) 引导的逐步探索和自信终止,在推理阶段即可释放高效推理潜力(无需训练)
  3. 固化:SAGE-RL 通过混合采样 + 标准 RL 训练,把高效推理模式烙印到模型中,实现标准 pass@1 推理下的准确率 +2.1% 和 token 节省 44.1%

从更宏观的角度看,这篇论文传递了一个重要的信息:我们可能一直在用错误的方式使用推理模型。模型内部已经学会了高效推理,问题只是我们没有给它合适的"出口"来表达这种能力。与其花大力气训练模型"学会高效思考",不如先确认——它是不是已经会了,只是我们没让它展示出来?

这个思路不仅适用于推理效率优化,对整个 LLM 能力释放的研究都有启发。