KnowRL:给RL训练开一份"最小处方",1.5B模型数学推理直逼7B水平

你有没有遇到过这种情况——用RL训练模型做数学推理,reward曲线看着还行,但一看训练数据就发现问题了:大量难题上模型压根做不对,rollout全错,优势值全零,这些样本对梯度更新的贡献约等于零。reward在涨,但涨的全是简单题,难题上纹丝不动。

这就是RLVR的老毛病——奖励稀疏性。模型在简单题上已经能拿到reward了,但在困难样本上,32次采样可能一次都对不了,训练信号直接归零。

最近hint-based RL的思路是往prompt里塞点提示,帮模型"开个头"。但你塞什么、塞多少,这件事远比想象中复杂。百度和天津大学团队的KnowRL这篇论文,就是冲着这个问题来的:能不能用最少的知识点,给出最有效的指导?

核心摘要

KnowRL把hint设计重新定义为一个"最小充分指导"问题——不是提示越长越好,而是找到一组原子知识点,刚好够用就行。论文发现了"剪枝交互悖论":单个知识点看起来可以安全移除,但多个一起移除就会翻车。为此设计了约束子集搜索CSS,先剪掉确定无用的,再在剩余空间里穷举最优组合。KnowRL-Nemotron-1.5B在8个推理基准上无提示就达到70.08平均准确率(+9.63),加提示后74.16,1.5B规模新SOTA。最让我信服的一点:无提示时的70.08已经证明模型策略本身被改善了,不是测试时靠提示"作弊"。

论文信息

  • 标题:KnowRL: Boosting LLM Reasoning via Reinforcement Learning with Minimal-Sufficient Knowledge Guidance
  • 作者:Linhao Yu, Tianmeng Yang, Siyu Ding, Renren Jin, Naibin Gu, Xiangzhao Hao, Shuaiyi Nie, Deyi Xiong, Weichong Yin, Yu Sun, Hua Wu
  • 机构:天津大学TJUNLP实验室、百度、中科院信息工程研究所
  • 日期:2026年4月14日
  • 链接:https://arxiv.org/abs/2604.12627
  • 代码:https://github.com/Hasuer/KnowRL

🎯 问题:hint-based RL的三重困境

先说清楚hint-based RL到底在解决什么问题。RLVR训练LLM做数学推理,reward来自最终答案的对错判断——做对了给1分,做错了0分。问题在于,难题上模型做对的概率极低,32次采样可能全军覆没,这批数据对训练就毫无贡献。

一个直观的想法:把部分解题步骤或关键公式塞进prompt里,让模型没那么容易全军覆没。这就是hint-based RL。但KnowRL的作者发现,现有方法存在三个问题:

图1a:关键段效应

图1a:关键段效应——性能在某关键知识片段出现时跳跃式提升,之后收益递减

图1b:跨提示不一致性

图1b:跨提示不一致性——更长的前缀或抽象模板可能引入分支和概念歧义

图1c:指导-效率权衡

图1c:指导-效率权衡——抽象型提示依赖教师模型,增加计算开销

关键段效应(Critical-segment Effect):性能提升不是随着提示长度线性增长的,而是在某个关键知识片段出现时突然跳一截,之后再加内容收益递减。你写了一大段hint,真正起作用的可能就那两句话。

跨提示不一致性(Cross-hint Inconsistency):更长的前缀或更抽象的模板反而可能引入歧义。比如"使用代数方法"这种抽象提示,可能把模型引向多条完全不同的推理路径,搜索空间反而变大了。

指导-效率权衡(Guidance-Efficiency Trade-off):抽象型提示需要教师模型生成,这就得中断在线RL训练去做离线蒸馏,计算成本高,还可能跟当前策略分布不匹配。

这三个问题归结到一点:提示不是越多越好,怎么选比怎么写更重要。


🏗️ 方法:从知识分解到约束子集搜索

知识点构建:三阶段流水线

KnowRL的第一步是把笼统的"提示"拆成原子级别的知识点。

整个流程分三步:

  1. 生成正确解:用DeepSeek-R1对每个训练问题采样,直到至少得到一个正确解
  2. 提取原始知识点:让DeepSeek-R1从"问题+正确解"中提取不可或缺的数学原理,得到初始候选集 \(\mathcal{K} = \{k_1, k_2, ..., k_n\}\)
  3. 泄漏验证:用DeepSeek-R1自动审核每个KP是否直接暴露了答案——失败的case人工修正,确保保留的KP具有通用性而非绑定到具体实例

说实话,这个构建流程挺工程化的。用强模型提取知识点、自动验证泄漏,再辅以人工修正。平均每个问题提取5.86个候选KP,这个数字本身不算大,但后面还需要进一步精简。

核心发现:剪枝交互悖论

这是论文最让我觉得有意思的部分。

做KP选择的时候,一个自然的想法是留一法消融——逐个移除KP,看哪个移除后准确率不降反升,就说明这个KP是"多余"的,可以安全删掉。

但作者发现了一个反直觉的现象:单个KP可以安全移除,不意味着多个这样的KP可以同时移除。

用数学语言描述:

  • 定义正贡献集 \(\mathcal{K}^+ = \{k_i | A_{-i} \geq \max(A_\mathcal{K}, A_\emptyset)\}\),即移除后准确率不低于全量和不加提示的KP
  • 对于 \(S \subseteq \mathcal{K}^+\), \(|S| = m\):定义 \(A_{joint}(S)\) 为联合移除的准确率,\(\bar{A}_{single}(S)\) 为单独移除准确率的均值
  • 关键指标 \(p_m = \Pr(A_{joint}(S) < \bar{A}_{single}(S))\)

实测 \(p_m\) 在40%~60%之间——这意味着联合移除效果比单独移除差的概率接近五五开。KP之间存在隐式依赖和消歧关系,你看着单独移除没问题,一起移除就可能破坏这种微妙的平衡。

这就是"剪枝交互悖论"。它直接否定了简单LOO策略的合理性。

CSS:约束子集搜索

知道交互悖论存在后,怎么选KP?KnowRL的答案是CSS——分两步走,先安全剪枝,再约束搜索。

第一步:安全剪枝

  • 定义非退化KP集合 \(\mathcal{H} = \{k_i | A_{-i} \geq \max(A_\mathcal{K}, A_\emptyset)\}\)
  • \(\mathcal{H}\) 中定义近最优移除集 \(\mathcal{N} = \{k_i \in \mathcal{H} | A_{-i} \geq A_{max}\}\)——这些KP移除后准确率反而达到或接近最高值
  • 直接移除 \(\mathcal{N}\)。注意,\(\mathcal{N}\) 平均只有1.21个KP,交互悖论几乎不可能在这么小的集合上触发

第二步:约束枚举

  • \(\mathcal{C} = \mathcal{H} \setminus \mathcal{N}\) 上枚举所有子集,搜索空间 \(2^{|\mathcal{C}|}\) 实际可行(因为 \(\mathcal{C}\) 本身就不大)
  • 最终选择 \(S^* = \arg\max_S A(S)\),候选集包括所有约束子集、\(\emptyset\)\(\mathcal{K}\)

这其实是一个"先粗后精"的策略:先用LOO安全地剪掉确定无害的部分,再在小空间里做精确的全局搜索。

图2:交互感知的KP选择

图2a:LOO型选择策略下的剪枝交互悖论——联合移除效果系统性低于单独移除的预期

对比策略:CBRS

论文还提了另一个策略CBRS(Consensus-Based Robust Selection),核心思路是多轮投票取共识:

  • 8次独立运行中,每次选出近最优配置集 \(\mathcal{O}^{(j)} = \{c | A^{(j)}(c) \geq \max_{c'} A^{(j)}(c') - \delta\}\)
  • 优先取8次交集,否则选出现频率最高的配置
  • 平局选方差更小的
维度 CSS CBRS
核心思路 先剪枝后全局搜索 多轮共识聚合
平均KP数 2.57 2.60
能否处理交互 能(全局搜索) 不能(投票无法覆盖低频强组合)

CBRS的好处是鲁棒,但可能遗漏低频但真正有效的组合。CSS更激进,直接在小空间里穷举。实测CSS更优。


🧪 实验:数据说话

主实验结果

在1.5B规模的8个推理基准上,KnowRL-Nemotron-1.5B的表现:

模型 提示 AIME24 AIME25 BRUMO25 HMMT25 AMC23 CMIMC25 MATH OlyBench 平均
Nemotron-1.5B w/o KP 59.06 48.33 60.73 30.63 90.70 30.08 92.35 71.70 60.45
QuestA w/o KP 71.56 62.08 67.50 40.94 93.44 41.48 92.95 72.28 67.78
JustRL w/o KP 69.69 62.92 66.88 40.63 96.02 41.72 94.15 76.59 68.58
KnowRL w/o KP 69.79 64.69 69.48 41.04 95.55 44.14 95.70 80.23 70.08
KnowRL CSS 74.58 65.21 78.12 48.75 95.70 52.19 96.20 82.44 74.16

几个关键数字:

  • 无KP推理70.08,比Nemotron-1.5B高+9.63——这是策略本身在变强,不是测试时靠提示作弊
  • 有CSS提示74.16,再涨4个点——说明CSS选出的KP确实提供了有效指导
  • 竞赛级难题上提升最猛:AIME25 +16.36(vs Nemotron),HMMT25 +18.12(CSS),CMIMC25 +22.11(CSS)

说实话,看到AIME25从48.33到64.69这个跨度,我愣了一下。1.5B模型在AIME这种竞赛级题目上做到64.69,之前这个水平大概是7B模型才够得着的。

KP选择策略离线对比

Table 1的离线对比是理解CSS优势的关键:

策略 平均准确率 平均KP数
w/o KP 60.46 0
All KP 61.03 5.86
Random 61.21 2.53
Max-Score 62.73 2.61
S-LOO 62.65 1.72
T-LOO 62.50 1.20
CBRS 62.94 2.60
CSS 63.90 2.57

两个观察:

  1. All KP(用全部5.86个KP)只有61.03,还不如Random选2.53个的61.21——多了反而有害,直接印证关键段效应
  2. CSS用2.57个KP就达到63.90,比S-LOO的1.72个KP高出1.25个点——不是KP越少越好,是要选对

训练数据改善

这个表格读起来更有工程直觉:

条件 零正确比例 全正确比例 平均准确率
骨干模型 41.21% 1.35% 22.40%
KnowRL(无KP推理) 13.00% 34.28% 64.30%
KnowRL(有KP推理) 51.07% 77.04%

骨干模型41.21%的训练样本是零正确的——32次采样一次都没对,完全浪费了。KnowRL训练后这个比例降到13%,同时全正确的比例从1.35%飙升到34.28%。这才是KnowRL有效的根本原因:它让更多训练样本变得"可学习"了。

图3:不同难度分桶的效果分析

图3a:测试集不同难度分桶的对比——CSS选择的KP在各难度段都提供了更一致的提升,而全量KP注入在某些分桶出现了性能回退

熵退火消融

模型 AIME24 AIME25 BRUMO25 HMMT25 AMC23 CMIMC25 MATH OlyBench 平均
KnowRL(含熵退火) 69.79 64.69 69.48 41.04 95.55 44.14 95.70 80.23 70.08
KnowRL(无熵退火) 68.65 62.19 67.40 39.27 95.94 42.81 94.67 77.95 68.61
JustRL 69.69 62.92 66.88 40.63 96.02 41.72 94.15 76.59 68.58

熵退火贡献了+1.47个点。具体操作是在2590步后将clip_high从0.28降到0.26,收紧策略更新的范围。没有熵退火的KnowRL跟JustRL几乎持平——说明训练后期的策略稳定性很关键,别让模型在训练末期"放飞自我"。


💡 CSS vs 其他策略:为什么CSS能赢?

回到方法对比这块,我想多聊几句CSS的设计直觉。

CSS的核心洞察是:LOO只看了单点消融,但KP之间有交互。用个不太严谨的比喻,就像做菜时的调料——你单独去掉盐或酱油,菜可能还能吃;但两个一起去掉,菜就彻底没味了。交互悖论说的就是这么回事。

CSS的做法分两步:

  1. 先把"明显可以安全移除"的KP剪掉(平均1.21个,交互风险极低)
  2. 在剩余的小空间里穷举所有子集组合

为什么第二步的穷举是可行的?因为经过第一步剪枝,\(\mathcal{C}\) 的大小通常在2-4个KP左右,\(2^4 = 16\) 种组合,完全可以枚举。这是问题结构带来的便利——不是所有搜索问题都能这么好解。

反观CBRS,8轮投票取共识的思路听着很鲁棒,但它有个根本性的弱点:如果一个有效的KP组合只在2-3轮中胜出,它在投票中就会被淘汰。低频但有效的组合无法存活。CSS没有这个问题,因为它做的是全局搜索而非民主投票。

不过说实话,CSS也不是没有代价——它需要8×32=256次采样来估计每个配置的准确率,计算成本不低。但这是离线的一次性开销,RL训练本身才是大头。


🤔 我的判断

亮点

  1. 最小充分性的框架化:把hint选择从"经验拍脑袋"变成了一个有理论支撑的组合优化问题,这个框架本身就有价值
  2. 剪枝交互悖论的发现:这不是一个显而易见的结论,做KP选择的人如果不知道这个现象,很容易被LOO的结果误导
  3. 无提示时的策略改善:70.08的无KP准确率说明KnowRL不是在"教模型依赖提示",而是真正改善了推理策略
  4. 工程落地性好:平均2.57个KP,推理开销极低

问题

  1. 对DeepSeek-R1的强依赖:KP构建、泄漏验证全都靠DeepSeek-R1,如果换成更弱的模型,整个流水线还能不能跑通?论文没有讨论这个敏感性
  2. 计算开销:8×32采样做离线评估,每个问题256次rollout,这在训练集8.8k问题上是一笔不小的成本
  3. 通用性存疑:只在数学推理上验证了。KP的原子性在数学上比较好定义——公式、定理都是自然的原子单位。换到代码生成或逻辑推理,"知识点"是什么就不那么清晰了
  4. baseline选取:1.5B规模上的对比是充分的,但跟7B+模型的交叉对比缺失了。如果KnowRL-1.5B+CSS的74.16已经接近某些7B模型水平,这个对比会更有说服力

回到开头那个问题——hint-based RL到底该塞什么?KnowRL给出的答案是:不要塞太多,也不要瞎选,用最小的充分子集。 平均2.57个KP就够了。这个数字本身就说明,之前的hint方法塞了很多冗余内容。

更深层的一个思考:KnowRL的成功是否暗示,RL训练中真正需要的外部指导其实很少?大部分情况下,模型自己就能摸索出来,只是需要那么一两个关键知识点来"点破窗户纸"。如果这个假设成立,那hint-based RL的研究方向就不是"怎么给更多指导",而是"怎么找到最关键的那个提示"。


觉得有启发的话,欢迎点赞、在看、转发。跟进最新AI前沿,关注我