SAGE：你的推理模型其实知道何时该停下来，只是你没让它说

论文标题：Does Your Reasoning Model Implicitly Know When to Stop Thinking?

论文链接：https://arxiv.org/abs/2602.08354

项目主页：https://hzx122.github.io/sage-rl/

机构：Beihang University, ByteDance, University of Illinois Urbana-Champaign 等

一句话总结：大型推理模型（LRMs）其实隐式地知道何时停止思考，但当前的采样方式掩盖了这种能力。论文提出 SAGE 采样范式释放这一潜力，并通过 SAGE-RL 将高效推理模式融入标准推理，实现准确率提升 +2.1% 同时减少 44.1% 的生成 token。

🤔 为什么需要这篇论文？

DeepSeek-R1、QwQ、o1 这些推理模型火了之后，"长思维链"（long CoT）几乎成了推理能力的代名词。模型先在 <think>...</think> 里絮絮叨叨地"想"几千个 token，然后才给出答案。

但这里存在一个被广泛观察到却缺乏深入分析的问题——推理链的长度和正确性不相关，甚至负相关。

图1：SAGE 的核心动机——推理冗余示例

图1：一道数学题的推理过程示意。模型用约 500 token 就完成了核心推理（绿色部分），但随后又花了 452 token 做冗余验证和重复计算（红色部分）。这种"过度思考"现象在 LRM 中极为普遍。

这张图非常直观地展示了问题所在——模型已经找到正确答案了，但它不"停"。具体来说：

大量冗余：模型经常在已经找到正确思路后，仍然反复验证、绕弯子、甚至自我否定再重来。你可以把这想象成一个已经想通答案的学生，因为考试还剩半小时就硬是在草稿纸上写满了计算过程——不是因为需要，而是因为他"以为自己应该写这么多"。
计算浪费：更长的思维链意味着更多的推理时间和算力消耗。在实时应用场景下（如编程助手、对话系统），几秒钟的延迟差异就是用户体验的天壤之别。
过度思考可能有害：越想越多不等于越想越对。模型可能在正确的推理路径上写了 2000 token 后，突然"灵机一动"换了个错误方向。这就像考试时改对为错一样令人崩溃。

那核心问题来了：能不能让模型自己判断何时该停下来？

这篇论文给出了一个令人惊喜的发现：模型本来就知道——只是当前的采样方式没给它表达的机会。

🏗️ 方法全景：从发现到训练

图2：SAGE 整体框架

图2：SAGE 方法全景图。左侧对比了 Pass@1（单次随机采样）、SAGE（置信度引导的多路径探索）和 Pass@k（多次采样取最优）三种范式的差异。中间展示了 SAGE-RL 的混合采样训练架构。右侧的雷达图显示 SAGE-RL 在准确率（+2.1%）和 token 效率（-44.1%）上的双重收益。

接下来分三个层次展开：先看实验发现，再看 SAGE 采样方法，最终引出 SAGE-RL 训练方案。

🔍 核心发现：被采样范式"锁住"的高效推理能力

三个关键实验观察

论文做了一系列精巧的预训练分析实验，揭示了三个重要现象：

图3：预训练模型的推理模式分析

图3：三个模型（DS-1.5B、DeepScaleR、Qwen3-8B）在 MATH-500 上的预训练分析。左侧柱状图显示正确响应数，中间显示 RFCS<1（推理链存在高冗余的比例），右侧显示平均 RFCS 值。所有模型都呈现出明显的推理冗余。

观察一：高置信度路径 = 短 + 准

作者定义了一个累积置信度分数 $\Phi$，衡量整个推理链上模型的"自信程度"：

\[\Phi(\mathbf{y}_{\le k}) = \frac{1}{k} \sum_{i=1}^{k} \log \pi_\theta(y_i \mid \mathbf{y}_{<i}, \mathbf{x})\]

$\Phi$ 就是模型对自己每一步生成的 token 的平均对数概率。$\Phi$ 越高，说明模型在生成整条推理链时越"胸有成竹"。

实验发现：$\Phi$ 最高的推理路径，往往既短又正确。在 MATH-500 的 100 道题子集上，使用 $\Phi$ 引导的路径选择将准确率从随机采样的 0.84 提升到了 0.92，同时推理长度从 3419 token 缩短到了 2609 token。

直觉也很好理解：当模型对一个推理步骤很确定时，它不需要反复验证和纠正；当模型犹犹豫豫、每一步都不太确定时，它会倾向于多写一些来"碰运气"——但碰运气的结果往往是越写越错。

观察二：高置信度路径自信地"喊停"

图4：</think> 排名比率与探索宽度的关系

图4：随着探索宽度增加，高置信度路径中 </think> token 的排名比率趋近于 0——这意味着 </think> 几乎总是排名第一的候选 token。模型在自信路径上确实"想停下来"。

在那些高 $\Phi$ 的推理路径中，</think>（思考结束标记）几乎总是排在模型下一个 token 预测概率的第一位。也就是说，当模型沿着自信的路径推理时，它在内心深处是"想停下来"的——它知道自己已经想清楚了。

但问题出在哪？出在标准的随机采样（random sampling）。标准采样按照概率分布随机选 token，即便 </think> 的概率很高，模型仍然有不小的概率会继续采样到其他 token，从而"被迫"继续思考。这就好比一个学生想交卷了，但监考老师说"你概率性地不能交，继续写"。

图5：置信度引导 vs 非引导的路径选择对比

图5：左侧是基于 $\Phi$ 选择的高置信度路径（绿色），它自然地以 </think> 结尾，推理链更短更准确。右侧是未经置信度引导的路径（红色），模型即使已经完成正确推理，仍会继续生成冗余内容。

观察三：扩展探索宽度促进能力收敛

$图6：ACC 和响应长度 vs 探索宽度对比（$\Phi$ vs $\phi$）$

图6：使用累积置信度 $\Phi$（蓝色实线）引导的 TSearch，随着探索宽度增加，准确率稳步上升而长度稳步下降。而使用瞬时置信度 $\phi$（红色虚线）引导的 TSearch 则出现了长度坍塌——准确率反而低于随机采样。

这张图揭示了一个关键对比：$\Phi$（累积置信度）在路径引导上远优于 $\phi$（瞬时置信度）。$\phi$ 只看下一个 token 的概率，容易被局部的高频 token 误导——比如一些"废话" token 概率很高但对推理毫无帮助。$\Phi$ 平均了整条推理链上的信息，能更准确地反映整体推理质量。

具体数据：$\Phi$ 引导达到 0.92 准确率，$\phi$ 只有 0.79（甚至比随机采样的 0.84 还差）。

🧠 方法一：SAGE —— 无需训练的高效采样范式

基于上述发现，论文提出了 SAGE（Self-Aware Guided Efficient Reasoning），一种全新的采样策略。

核心设计：逐步探索 + 自信终止

SAGE 的工作流程围绕两个核心机制展开：

1. Step-Wise Reasoning Chain Exploration（逐步推理链探索）

与传统的逐 token beam search 不同，SAGE 按完整的推理步骤探索：

维护一个宽度为 $m$ 的候选集（称为探索宽度 EW）
每一步，对候选集中的每条推理链，使用随机采样生成一个完整推理步骤（直到遇到换行符等步骤分隔符）
对所有新生成的候选链计算 $\Phi$ 分数，保留 $\Phi$ 最高的 $m$ 条继续

为什么是逐步而不是逐 token？因为逐 token 的 beam search 虽然理论上搜索更精细，但它的致命问题在于：模型对于单个 token 的置信度波动很大（比如在公式推导中间的某个变量名），但对于一个完整推理步骤的整体置信度才是有意义的评估信号。

这就像评价一个人讲话的可信度——你不应该看他每个字发音标不标准，而应该看他每句话的逻辑是不是清晰。

图7：SAGE 与 Beam Search 的路径选择差异

图7：Case A 展示了 SAGE 按步骤探索时的典型选择模式，Case B 展示了传统 beam search 逐 token 选择可能导致的问题。SAGE 的步骤级粒度避免了 token 级噪声干扰。

2. Confidence-Based Termination（基于置信度的终止）

这是 SAGE 最优雅的部分。在 $\Phi$ 引导的高置信度路径上，当模型真的"想好了"时，它生成的推理步骤会自然地以 </think> 结尾。因此，SAGE 的终止条件极其简洁：

只要某条候选推理链的最新步骤以 </think> 结尾，就认为该链已完成，将其收入完成集 $\mathcal{O}$。

不需要任何人工设定的容忍度阈值、概率门限或最大长度限制。模型自己决定何时停下来。

这和之前的 TSearch（Token-level Search）形成鲜明对比。TSearch 需要设定一个"容忍度接受排名比率" $TR = \frac{h}{2m}$，手动控制 </think> 需要排到前多少名才能被接受。SAGE 完全去掉了这个超参数，因为在高 $\Phi$ 路径上，</think> 本身就会出现在合适的位置。

SAGE 推理时间缩放

图8：SAGE 推理时间缩放效果

图8：在不同最大步骤数（Max Step）预算下，SAGE 在 MATH-500 和 AMC2023 上的 Pass@1 和响应长度变化。即使在很少的步骤预算下，SAGE 也能保持远高于标准采样的准确率。

SAGE 的另一大优势是零训练成本——它只是改变了采样方式，不需要修改模型参数。在推理阶段直接使用即可。

图9：Token 效率对比

图9：Token Efficiency（= Pass@1 / 响应长度）随探索宽度变化。SAGE 在所有模型和数据集上都展现出更高的 token 效率，且随着探索宽度增加持续改善。

图10：SAGE 详细结果

图10：DeepScaleR 和 DS-1.5B 在 MATH-500 和 AMC2023 上，Pass@1 和响应长度随探索宽度（0-6）的详细变化。探索宽度从 0 到 2 的提升最为显著，之后边际收益递减。

🔧 方法二：SAGE-RL —— 将高效推理烙印到模型里

SAGE 虽然有效，但它在推理时需要维护多条候选链并行探索，增加了推理开销。有没有办法让模型在标准的 pass@1 推理中（一次生成一条链）也能展现出同样高效的推理模式？

答案是 SAGE-RL——用强化学习把 SAGE 发现的高效推理模式"教"给模型。

核心思想：混合采样 + 标准 RLVR

SAGE-RL 的设计理念极其简洁——它对现有的 RLVR（Reinforcement Learning from Verifiable Rewards）框架只做了最小化修改，作者甚至声称"只需一行代码"。

具体来说，在 GRPO/GSPO 的 Rollout 阶段：

对每道训练题，生成 $G$ 个响应
其中 $r$ 个用 SAGE(m, r) 采样生成——这些是高质量、高效率的推理链
剩余 $G - r$ 个用标准随机采样生成——这些保持了原有的探索多样性
两类响应混在一起，统一做组内优势估计和策略更新

\[\mathcal{G} = \{\underbrace{o_1^S, \dots, o_r^S}_{\text{SAGE 采样}}, \underbrace{o_1^R, \dots, o_{G-r}^R}_{\text{随机采样}}\}\]

为什么这个设计能奏效？

SAGE 生成的响应通常又短又对，而随机采样的响应则参差不齐。当它们放在同一个组里做相对排名时：

SAGE 响应倾向于获得正优势值（因为又对又高效）
冗长错误的随机响应倾向于获得负优势值

这等价于给模型一个持续的信号："请学习 SAGE 那种简洁高效的推理模式"。随着训练推进，模型在标准采样下的行为会逐渐向 SAGE 的模式靠拢——推理链变短了，但准确率反而提升了。

关键在于：奖励函数对 SAGE 样本和随机样本是完全一样的，不需要任何修改。SAGE 样本的优势完全来自于它们"在组内更优秀"这一事实。

🧪 实验结果

实验设置

论文在 6 个高难度数学基准上做了全面评估：

MATH-500：高中数学竞赛级别
AIME 2024/2025：美国数学邀请赛（非常难）
AMC23：美国数学竞赛
OlympiadBench：数学奥林匹克
Minerva Math：矿物学数学

基础模型涵盖： - DeepSeek-R1-Distill-Qwen-1.5B (DS-1.5B) - DeepSeek-R1-Distill-Qwen-7B (DS-7B) - DeepScaleR-1.5B-Preview - Qwen3-8B

对比方法包括 GRPO、GSPO、LC-R1（长度控制变体）、DAPO 等主流 RLVR 方法。

主要结果

模型	方法	MATH-500	AIME24	AIME25	OlympiadBench	平均 LEN
DS-1.5B	基线	83.2	25.1	20.9	33.4	-
DS-1.5B	+ GRPO	83.6	28.3	24.1	34.2	~6800
DS-1.5B	+ SAGE-GRPO	84.8	28.8	26.5	36.9	~5700
Qwen3-8B	基线	94.4	73.2	67.3	46.6	~12900
Qwen3-8B	+ GRPO	93.6	72.8	66.6	45.1	~9100
Qwen3-8B	+ SAGE-GRPO	95.0	73.5	66.6	45.4	~7000

几个核心发现：

准确率和效率可以双赢。 SAGE-RL 不是用准确率换效率，而是两者同时改善。以 DS-1.5B 为例，SAGE-GRPO 相比 GRPO 准确率更高（MATH-500: 84.8 vs 83.6），同时生成长度更短。这证明了冗余的思考不仅浪费算力，还在拖累准确率。

Token 效率大幅改善。 论文定义了 Token Efficiency (TE) = Pass@1 / LEN。SAGE-RL 在所有基准上都实现了 TE 的大幅改善，平均减少 44.1% 的 token 消耗。对于 Qwen3-8B 这种本身就很强的模型，SAGE-GRPO 把 MATH-500 上的平均长度从 5640 压缩到 3015，减少了 46.5%。

模型越强，收益越明显。 在更强的模型（如 Qwen3-8B、DeepScaleR）上，SAGE-RL 的效率改善更加突出。更强的模型内部蕴含着更多"被浪费"的高效推理能力，SAGE-RL 能更好地释放它。

训练动态分析

图11：SAGE-RL 训练动态

图11：DS-1.5B 上 GRPO vs SAGE-GRPO 的训练过程对比。四个面板分别展示：Pass@1 准确率（SAGE-GRPO 收敛更快更高）、响应长度（SAGE-GRPO 持续缩短）、策略熵（SAGE-GRPO 下降更快，表示模型更确信）、KL 散度（两者相当，说明 SAGE-RL 没有引入额外的分布偏移）。

训练过程揭示了几个有意思的现象：

Pass@1 准确率上升更快：SAGE-RL 的训练曲线比纯 GRPO 收敛得更快且更高。SAGE 样本提供了持续的高质量正样本，让模型更快地学到正确的推理模式。
响应长度持续下降：在整个训练过程中，模型生成的平均响应长度持续减少——模型确实在学习"言简意赅"的推理风格，而不只是靠截断来减少长度。
策略熵降低：模型在推理过程中的生成分布变得更集中（熵减小），表明模型对自己的推理步骤更加确信。

训练后分析

图12：SAGE-RL 训练后的推理模式分析

图12：SAGE-RL 训练后三个模型的推理模式分析。与图3（训练前）对比，SAGE-RL 训练后模型的正确响应数增加（DS-1.5B: 425/500），RFCS<1 比例降低，平均 RFCS 值提高——模型真的学会了更紧凑的推理。

按难度级别分析

图13：按难度级别的训练过程分析

图13：MATH-500 的 Level 1-5 难度分别统计 Pass@1 和响应长度随训练步骤的变化。SAGE-GRPO（实线）相比 GRPO（虚线），在所有难度级别上都实现了更短的响应长度，且在高难度级别（Level 4-5）上准确率提升更加明显。

这张图有个特别值得关注的细节：难题上的收益比简单题更大。在 Level 1-2 的简单题上，SAGE-GRPO 和 GRPO 的准确率差异不大（因为本来就接近满分），但长度压缩明显。而在 Level 4-5 的难题上，SAGE-GRPO 不仅大幅压缩长度，准确率也有可观提升。这说明难题上的推理冗余更严重，SAGE 的收益空间也更大。

📊 消融实验与深入分析

$\Phi$ vs $\phi$：累积置信度 vs 瞬时置信度

方法	置信度	ACC	平均思考长度
Random Sampling	-	0.84	3126
TSearch w/ $\phi$ (瞬时)	next-token prob	0.79	1712
TSearch w/ $\Phi$ (累积)	cumulative prob	0.92	2213

使用瞬时对数概率 $\phi$（只看下一个 token 的概率）引导的路径选择反而比随机采样更差！$\phi$ 容易被局部的高频 token 误导——比如一些"废话" token 概率很高但对推理毫无帮助。而 $\Phi$ 平均了整条推理链上的信息，能更准确地反映整体推理质量。

0.92 vs 0.79，这个差距说明选对"自信度量"至关重要。

超参数敏感性

图14：SAGE-RL 超参数消融

图14：不同 SAGE 配置的消融实验——SAGE(1,1)、SAGE(2,1)、SAGE(2,2) 与纯 GRPO 的对比。四个面板分别展示响应长度、SAGE Rollout 长度、策略熵和 KL 散度。SAGE(2,2) 在长度压缩和策略确信度上表现最优。

探索宽度 $m$：从 $m=1$（退化为标准采样）到 $m=2$，性能和效率有一个显著的跳跃式改善。但继续增大 $m$ 的边际收益递减，而计算成本则持续增长。论文推荐 $m=2$ 作为效率和性能的最佳平衡点。

SAGE 样本数 $r$：$r=2$ 的收益相对温和。过多的 SAGE 样本可能会压缩随机样本的探索空间，反而不利于策略学习的多样性。最优组合为 SAGE(2,2)-GRPO。

时间复杂度分析

图15：时间复杂度分析

图15：(a) SAGE 单样本推理时间随探索宽度变化，存在一个从缓慢增长到快速增长的拐点。(b) SAGE-GRPO 训练后模型的推理延迟——相比基线模型平均快 28.7%，因为生成的 token 更少了。

这张图传达了一个重要信息：虽然 SAGE 采样本身增加了计算开销，但 SAGE-RL 训练出的模型在标准 pass@1 推理时反而更快——因为它生成的 token 少了将近一半。训练阶段多花一点计算，换来部署阶段持续的推理加速，这个投资回报率非常可观。

🔬 Case Study：压缩前 vs 压缩后

图16：案例对比——领带成本问题

图16：DS-1.5B vs SAGE-GRPO-DS-1.5B 在一道领带成本问题上的对比。原模型花了 957 token，SAGE-RL 训练后只用了 467 token，答案完全一致。省掉的部分全是重复验证和冗余计算。

图17：案例对比——极坐标问题

图17：另一个案例——极坐标转换问题。原模型 1381 token，SAGE-RL 后 712 token，压缩了 48.4%。推理路径更直接，没有"绕弯子再回来"的现象。

这两个案例非常有说服力。不是简单地截断了推理链，而是模型真正学会了"一步到位"的思考方式——跳过了那些"让我再验证一下"、"换个方法试试"的冗余段落。

🤔 个人思考与批判性分析

这篇论文真正有价值的是"发现"而非"方法"

SAGE 的方法论并不复杂——实质上就是用累积概率做 beam search 再加上 RL 混合采样。但论文的核心价值在于它揭示了一个深刻的洞见：推理模型在内部已经具备了高效推理的能力，问题出在"表达方式"上。

这就像一个钢琴家明明已经会弹了，但你让他戴着拳击手套弹——不是他不会弹，是你没给他合适的工具来展现能力。标准采样就是那副"拳击手套"。

这个发现对整个推理模型社区有启示意义：也许我们不需要训练更长的推理链、用更复杂的 RL 算法来提升推理能力。相反，应该思考如何更好地释放模型已有的能力。

$\Phi$ 指标的适用边界

$\Phi$ 作为"模型自信程度"的代理指标，有一个隐含假设：模型的自信程度和推理质量正相关。数学推理这种有确定答案的任务上，这个假设大致成立。但在更开放的推理任务中（如创意写作、策略规划），高自信可能只意味着模型在重复训练数据中的模式，而非真的"推理正确"。

一个考试型学生对自己最"自信"的答案，往往是他背得最熟的模板题。面对真正需要创造力的问题，他的"自信"恰恰是陷阱。$\Phi$ 在开放式任务上能否成立，我持保留态度。

"一行代码修改"的工程价值

SAGE-RL 声称只需对标准 RLVR 做一行代码修改。如果这是真的，那它的工程价值可能比学术价值更大——在工业界，任何新方法的落地成本都是关键考量。能在不改动训练框架、奖励函数、优化目标的前提下获得 +2.1% 准确率和 -44.1% token 消耗，这个投入产出比极其诱人。

不过我有个疑虑：SAGE 采样本身需要在 Rollout 阶段维护多路径并行探索，这对 GPU 显存的需求和 batch 调度的复杂度都有影响。说"一行代码"可能低估了工程适配的真实成本。

⚔️ 与相关工作的对比

方法	核心思路	训练需求	准确率变化	Token 节省	通用性
SAGE	累积置信度引导采样	无需训练	↑	~40-50%	通用
SAGE-RL	SAGE + 混合 RL 训练	一行代码修改	↑ +2.1%	44.1%	通用
Budget Forcing	硬性截断思考长度	无	↓ 可能下降	取决于预算	通用
LC-R1	长度正则化 RL	需要修改奖励函数	↑/↓ 不稳定	~30-40%	通用
GRPO	标准组相对策略优化	标准 RL 训练	↑	有限	通用
GSPO	序列级策略优化	标准 RL 训练	↑	有限	通用
DAPO	动态采样策略优化	修改采样策略	↑	有限	通用

SAGE/SAGE-RL 的独特之处在于：它不是通过"限制"推理长度来节省 token（Budget Forcing、LC-R1 的思路），而是通过"引导"模型走更高效的推理路径。前者像给学生限制草稿纸页数——可能导致写不完；后者像教学生更高效的解题方法——自然就不需要那么多草稿纸了。

🛠️ 工程实践建议

如果你想在自己的推理模型训练/部署中使用 SAGE 的思路：

推理阶段直接用 SAGE 采样。 不需要任何训练，只要把标准采样替换为 SAGE(2,2) 即可。探索宽度 $m=2$ 就足够了——计算开销约增加一倍（2 条链并行），但 token 总量平均减少 40% 以上，整体效率反而可能更高。

训练阶段加入 SAGE 混合采样。 如果你已经在用 GRPO/GSPO 做 RL 训练，那就在 Rollout 阶段把一部分随机样本替换为 SAGE 样本。推荐比例：组大小 $G$ 中有 $r=2$ 个 SAGE 样本即可。

注意 $\Phi$ 在不同任务上的表现。 $\Phi$ 在数学推理这种有确定答案的任务上效果很好，但在其他类型的推理任务（如代码生成、常识推理）上需要验证。建议先在小规模实验上确认 $\Phi$ 和任务正确性的相关性，再大规模部署。

关注探索宽度 $m$ 的计算成本。 $m=2$ 是性价比最优的选择。$m$ 从 2 增加到更大值时，推理时间会快速增长（因为每一步都要为每条候选链生成完整推理步骤），但准确率改善的边际递减。除非推理预算非常充裕，否则不建议 $m > 3$。

SAGE-RL 训练时监控两个指标。 一是 pass@1 准确率（应该稳步上升），二是平均响应长度（应该持续下降）。如果长度下降但准确率也在下降，说明模型可能在学习"偷懒"而不是"高效推理"，需要调整 SAGE 样本的比例。

⚠️ 局限性与未来方向

只在数学推理上验证。 论文的实验全部在数学基准上完成。对于代码推理、多步逻辑推理、科学问答等其他推理场景，$\Phi$ 指标是否同样有效还是未知数。

SAGE 的推理开销依然存在。 虽然 SAGE(2,2) 减少了 token 数，但它需要同时维护多条候选链，在单次前向传播层面的计算量其实增加了。在 batch 推理场景下，这个问题会更明显。

$\Phi$ 可能被"黑"。 如果在 RL 训练中直接用 $\Phi$ 做奖励（而非辅助采样），模型可能学会生成高 $\Phi$ 但语义无意义的推理链（reward hacking）。SAGE-RL 通过把 $\Phi$ 限定在采样层面而非奖励层面来避免这个问题，但这个风险值得关注。

未探索与其他推理优化方法的结合。 SAGE 可以和 Process Reward Model (PRM)、Self-Consistency 等方法组合使用，但论文没有做这方面的实验。用 PRM 替代或辅助 $\Phi$ 来引导路径选择，可能在开放式任务上更加稳健。

未来值得探索的方向： - 将 $\Phi$ 引导的采样推广到多模态推理模型 - 探索 SAGE 在 Agent 场景中的应用（Agent 的推理冗余问题更加严重） - 研究训练过程中 $\Phi$ 分布的变化规律，用于自适应调整训练策略

📝 总结

这篇论文的核心贡献可以用三句话概括：

发现：大型推理模型隐式地知道何时停止思考，但这种能力被标准采样范式掩盖了
释放：SAGE 通过累积置信度 $\Phi$ 引导的逐步探索和自信终止，在推理阶段即可释放高效推理潜力（无需训练）
固化：SAGE-RL 通过混合采样 + 标准 RL 训练，把高效推理模式烙印到模型中，实现标准 pass@1 推理下的准确率 +2.1% 和 token 节省 44.1%

从更宏观的角度看，这篇论文传递了一个重要的信息：我们可能一直在用错误的方式使用推理模型。模型内部已经学会了高效推理，问题只是我们没有给它合适的"出口"来表达这种能力。与其花大力气训练模型"学会高效思考"，不如先确认——它是不是已经会了，只是我们没让它展示出来？

这个思路不仅适用于推理效率优化，对整个 LLM 能力释放的研究都有启发。