KnowRL:给RL训练开一份"最小处方",1.5B模型数学推理直逼7B水平
你有没有遇到过这种情况——用RL训练模型做数学推理,reward曲线看着还行,但一看训练数据就发现问题了:大量难题上模型压根做不对,rollout全错,优势值全零,这些样本对梯度更新的贡献约等于零。reward在涨,但涨的全是简单题,难题上纹丝不动。
这就是RLVR的老毛病——奖励稀疏性。模型在简单题上已经能拿到reward了,但在困难样本上,32次采样可能一次都对不了,训练信号直接归零。
最近hint-based RL的思路是往prompt里塞点提示,帮模型"开个头"。但你塞什么、塞多少,这件事远比想象中复杂。百度和天津大学团队的KnowRL这篇论文,就是冲着这个问题来的:能不能用最少的知识点,给出最有效的指导?
核心摘要
KnowRL把hint设计重新定义为一个"最小充分指导"问题——不是提示越长越好,而是找到一组原子知识点,刚好够用就行。论文发现了"剪枝交互悖论":单个知识点看起来可以安全移除,但多个一起移除就会翻车。为此设计了约束子集搜索CSS,先剪掉确定无用的,再在剩余空间里穷举最优组合。KnowRL-Nemotron-1.5B在8个推理基准上无提示就达到70.08平均准确率(+9.63),加提示后74.16,1.5B规模新SOTA。最让我信服的一点:无提示时的70.08已经证明模型策略本身被改善了,不是测试时靠提示"作弊"。
论文信息
- 标题:KnowRL: Boosting LLM Reasoning via Reinforcement Learning with Minimal-Sufficient Knowledge Guidance
- 作者:Linhao Yu, Tianmeng Yang, Siyu Ding, Renren Jin, Naibin Gu, Xiangzhao Hao, Shuaiyi Nie, Deyi Xiong, Weichong Yin, Yu Sun, Hua Wu
- 机构:天津大学TJUNLP实验室、百度、中科院信息工程研究所
- 日期:2026年4月14日
- 链接:https://arxiv.org/abs/2604.12627
- 代码:https://github.com/Hasuer/KnowRL
🎯 问题:hint-based RL的三重困境
先说清楚hint-based RL到底在解决什么问题。RLVR训练LLM做数学推理,reward来自最终答案的对错判断——做对了给1分,做错了0分。问题在于,难题上模型做对的概率极低,32次采样可能全军覆没,这批数据对训练就毫无贡献。
一个直观的想法:把部分解题步骤或关键公式塞进prompt里,让模型没那么容易全军覆没。这就是hint-based RL。但KnowRL的作者发现,现有方法存在三个问题:

图1a:关键段效应——性能在某关键知识片段出现时跳跃式提升,之后收益递减

图1b:跨提示不一致性——更长的前缀或抽象模板可能引入分支和概念歧义

图1c:指导-效率权衡——抽象型提示依赖教师模型,增加计算开销
关键段效应(Critical-segment Effect):性能提升不是随着提示长度线性增长的,而是在某个关键知识片段出现时突然跳一截,之后再加内容收益递减。你写了一大段hint,真正起作用的可能就那两句话。
跨提示不一致性(Cross-hint Inconsistency):更长的前缀或更抽象的模板反而可能引入歧义。比如"使用代数方法"这种抽象提示,可能把模型引向多条完全不同的推理路径,搜索空间反而变大了。
指导-效率权衡(Guidance-Efficiency Trade-off):抽象型提示需要教师模型生成,这就得中断在线RL训练去做离线蒸馏,计算成本高,还可能跟当前策略分布不匹配。
这三个问题归结到一点:提示不是越多越好,怎么选比怎么写更重要。
🏗️ 方法:从知识分解到约束子集搜索
知识点构建:三阶段流水线
KnowRL的第一步是把笼统的"提示"拆成原子级别的知识点。
整个流程分三步:
- 生成正确解:用DeepSeek-R1对每个训练问题采样,直到至少得到一个正确解
- 提取原始知识点:让DeepSeek-R1从"问题+正确解"中提取不可或缺的数学原理,得到初始候选集 \(\mathcal{K} = \{k_1, k_2, ..., k_n\}\)
- 泄漏验证:用DeepSeek-R1自动审核每个KP是否直接暴露了答案——失败的case人工修正,确保保留的KP具有通用性而非绑定到具体实例
说实话,这个构建流程挺工程化的。用强模型提取知识点、自动验证泄漏,再辅以人工修正。平均每个问题提取5.86个候选KP,这个数字本身不算大,但后面还需要进一步精简。
核心发现:剪枝交互悖论
这是论文最让我觉得有意思的部分。
做KP选择的时候,一个自然的想法是留一法消融——逐个移除KP,看哪个移除后准确率不降反升,就说明这个KP是"多余"的,可以安全删掉。
但作者发现了一个反直觉的现象:单个KP可以安全移除,不意味着多个这样的KP可以同时移除。
用数学语言描述:
- 定义正贡献集 \(\mathcal{K}^+ = \{k_i | A_{-i} \geq \max(A_\mathcal{K}, A_\emptyset)\}\),即移除后准确率不低于全量和不加提示的KP
- 对于 \(S \subseteq \mathcal{K}^+\), \(|S| = m\):定义 \(A_{joint}(S)\) 为联合移除的准确率,\(\bar{A}_{single}(S)\) 为单独移除准确率的均值
- 关键指标 \(p_m = \Pr(A_{joint}(S) < \bar{A}_{single}(S))\)
实测 \(p_m\) 在40%~60%之间——这意味着联合移除效果比单独移除差的概率接近五五开。KP之间存在隐式依赖和消歧关系,你看着单独移除没问题,一起移除就可能破坏这种微妙的平衡。
这就是"剪枝交互悖论"。它直接否定了简单LOO策略的合理性。
CSS:约束子集搜索
知道交互悖论存在后,怎么选KP?KnowRL的答案是CSS——分两步走,先安全剪枝,再约束搜索。
第一步:安全剪枝
- 定义非退化KP集合 \(\mathcal{H} = \{k_i | A_{-i} \geq \max(A_\mathcal{K}, A_\emptyset)\}\)
- 在 \(\mathcal{H}\) 中定义近最优移除集 \(\mathcal{N} = \{k_i \in \mathcal{H} | A_{-i} \geq A_{max}\}\)——这些KP移除后准确率反而达到或接近最高值
- 直接移除 \(\mathcal{N}\)。注意,\(\mathcal{N}\) 平均只有1.21个KP,交互悖论几乎不可能在这么小的集合上触发
第二步:约束枚举
- 在 \(\mathcal{C} = \mathcal{H} \setminus \mathcal{N}\) 上枚举所有子集,搜索空间 \(2^{|\mathcal{C}|}\) 实际可行(因为 \(\mathcal{C}\) 本身就不大)
- 最终选择 \(S^* = \arg\max_S A(S)\),候选集包括所有约束子集、\(\emptyset\) 和 \(\mathcal{K}\)
这其实是一个"先粗后精"的策略:先用LOO安全地剪掉确定无害的部分,再在小空间里做精确的全局搜索。

图2a:LOO型选择策略下的剪枝交互悖论——联合移除效果系统性低于单独移除的预期
对比策略:CBRS
论文还提了另一个策略CBRS(Consensus-Based Robust Selection),核心思路是多轮投票取共识:
- 8次独立运行中,每次选出近最优配置集 \(\mathcal{O}^{(j)} = \{c | A^{(j)}(c) \geq \max_{c'} A^{(j)}(c') - \delta\}\)
- 优先取8次交集,否则选出现频率最高的配置
- 平局选方差更小的
| 维度 | CSS | CBRS |
|---|---|---|
| 核心思路 | 先剪枝后全局搜索 | 多轮共识聚合 |
| 平均KP数 | 2.57 | 2.60 |
| 能否处理交互 | 能(全局搜索) | 不能(投票无法覆盖低频强组合) |
CBRS的好处是鲁棒,但可能遗漏低频但真正有效的组合。CSS更激进,直接在小空间里穷举。实测CSS更优。
🧪 实验:数据说话
主实验结果
在1.5B规模的8个推理基准上,KnowRL-Nemotron-1.5B的表现:
| 模型 | 提示 | AIME24 | AIME25 | BRUMO25 | HMMT25 | AMC23 | CMIMC25 | MATH | OlyBench | 平均 |
|---|---|---|---|---|---|---|---|---|---|---|
| Nemotron-1.5B | w/o KP | 59.06 | 48.33 | 60.73 | 30.63 | 90.70 | 30.08 | 92.35 | 71.70 | 60.45 |
| QuestA | w/o KP | 71.56 | 62.08 | 67.50 | 40.94 | 93.44 | 41.48 | 92.95 | 72.28 | 67.78 |
| JustRL | w/o KP | 69.69 | 62.92 | 66.88 | 40.63 | 96.02 | 41.72 | 94.15 | 76.59 | 68.58 |
| KnowRL | w/o KP | 69.79 | 64.69 | 69.48 | 41.04 | 95.55 | 44.14 | 95.70 | 80.23 | 70.08 |
| KnowRL | CSS | 74.58 | 65.21 | 78.12 | 48.75 | 95.70 | 52.19 | 96.20 | 82.44 | 74.16 |
几个关键数字:
- 无KP推理70.08,比Nemotron-1.5B高+9.63——这是策略本身在变强,不是测试时靠提示作弊
- 有CSS提示74.16,再涨4个点——说明CSS选出的KP确实提供了有效指导
- 竞赛级难题上提升最猛:AIME25 +16.36(vs Nemotron),HMMT25 +18.12(CSS),CMIMC25 +22.11(CSS)
说实话,看到AIME25从48.33到64.69这个跨度,我愣了一下。1.5B模型在AIME这种竞赛级题目上做到64.69,之前这个水平大概是7B模型才够得着的。
KP选择策略离线对比
Table 1的离线对比是理解CSS优势的关键:
| 策略 | 平均准确率 | 平均KP数 |
|---|---|---|
| w/o KP | 60.46 | 0 |
| All KP | 61.03 | 5.86 |
| Random | 61.21 | 2.53 |
| Max-Score | 62.73 | 2.61 |
| S-LOO | 62.65 | 1.72 |
| T-LOO | 62.50 | 1.20 |
| CBRS | 62.94 | 2.60 |
| CSS | 63.90 | 2.57 |
两个观察:
- All KP(用全部5.86个KP)只有61.03,还不如Random选2.53个的61.21——多了反而有害,直接印证关键段效应
- CSS用2.57个KP就达到63.90,比S-LOO的1.72个KP高出1.25个点——不是KP越少越好,是要选对
训练数据改善
这个表格读起来更有工程直觉:
| 条件 | 零正确比例 | 全正确比例 | 平均准确率 |
|---|---|---|---|
| 骨干模型 | 41.21% | 1.35% | 22.40% |
| KnowRL(无KP推理) | 13.00% | 34.28% | 64.30% |
| KnowRL(有KP推理) | — | 51.07% | 77.04% |
骨干模型41.21%的训练样本是零正确的——32次采样一次都没对,完全浪费了。KnowRL训练后这个比例降到13%,同时全正确的比例从1.35%飙升到34.28%。这才是KnowRL有效的根本原因:它让更多训练样本变得"可学习"了。

图3a:测试集不同难度分桶的对比——CSS选择的KP在各难度段都提供了更一致的提升,而全量KP注入在某些分桶出现了性能回退
熵退火消融
| 模型 | AIME24 | AIME25 | BRUMO25 | HMMT25 | AMC23 | CMIMC25 | MATH | OlyBench | 平均 |
|---|---|---|---|---|---|---|---|---|---|
| KnowRL(含熵退火) | 69.79 | 64.69 | 69.48 | 41.04 | 95.55 | 44.14 | 95.70 | 80.23 | 70.08 |
| KnowRL(无熵退火) | 68.65 | 62.19 | 67.40 | 39.27 | 95.94 | 42.81 | 94.67 | 77.95 | 68.61 |
| JustRL | 69.69 | 62.92 | 66.88 | 40.63 | 96.02 | 41.72 | 94.15 | 76.59 | 68.58 |
熵退火贡献了+1.47个点。具体操作是在2590步后将clip_high从0.28降到0.26,收紧策略更新的范围。没有熵退火的KnowRL跟JustRL几乎持平——说明训练后期的策略稳定性很关键,别让模型在训练末期"放飞自我"。
💡 CSS vs 其他策略:为什么CSS能赢?
回到方法对比这块,我想多聊几句CSS的设计直觉。
CSS的核心洞察是:LOO只看了单点消融,但KP之间有交互。用个不太严谨的比喻,就像做菜时的调料——你单独去掉盐或酱油,菜可能还能吃;但两个一起去掉,菜就彻底没味了。交互悖论说的就是这么回事。
CSS的做法分两步:
- 先把"明显可以安全移除"的KP剪掉(平均1.21个,交互风险极低)
- 在剩余的小空间里穷举所有子集组合
为什么第二步的穷举是可行的?因为经过第一步剪枝,\(\mathcal{C}\) 的大小通常在2-4个KP左右,\(2^4 = 16\) 种组合,完全可以枚举。这是问题结构带来的便利——不是所有搜索问题都能这么好解。
反观CBRS,8轮投票取共识的思路听着很鲁棒,但它有个根本性的弱点:如果一个有效的KP组合只在2-3轮中胜出,它在投票中就会被淘汰。低频但有效的组合无法存活。CSS没有这个问题,因为它做的是全局搜索而非民主投票。
不过说实话,CSS也不是没有代价——它需要8×32=256次采样来估计每个配置的准确率,计算成本不低。但这是离线的一次性开销,RL训练本身才是大头。
🤔 我的判断
亮点:
- 最小充分性的框架化:把hint选择从"经验拍脑袋"变成了一个有理论支撑的组合优化问题,这个框架本身就有价值
- 剪枝交互悖论的发现:这不是一个显而易见的结论,做KP选择的人如果不知道这个现象,很容易被LOO的结果误导
- 无提示时的策略改善:70.08的无KP准确率说明KnowRL不是在"教模型依赖提示",而是真正改善了推理策略
- 工程落地性好:平均2.57个KP,推理开销极低
问题:
- 对DeepSeek-R1的强依赖:KP构建、泄漏验证全都靠DeepSeek-R1,如果换成更弱的模型,整个流水线还能不能跑通?论文没有讨论这个敏感性
- 计算开销:8×32采样做离线评估,每个问题256次rollout,这在训练集8.8k问题上是一笔不小的成本
- 通用性存疑:只在数学推理上验证了。KP的原子性在数学上比较好定义——公式、定理都是自然的原子单位。换到代码生成或逻辑推理,"知识点"是什么就不那么清晰了
- baseline选取:1.5B规模上的对比是充分的,但跟7B+模型的交叉对比缺失了。如果KnowRL-1.5B+CSS的74.16已经接近某些7B模型水平,这个对比会更有说服力
回到开头那个问题——hint-based RL到底该塞什么?KnowRL给出的答案是:不要塞太多,也不要瞎选,用最小的充分子集。 平均2.57个KP就够了。这个数字本身就说明,之前的hint方法塞了很多冗余内容。
更深层的一个思考:KnowRL的成功是否暗示,RL训练中真正需要的外部指导其实很少?大部分情况下,模型自己就能摸索出来,只是需要那么一两个关键知识点来"点破窗户纸"。如果这个假设成立,那hint-based RL的研究方向就不是"怎么给更多指导",而是"怎么找到最关键的那个提示"。
觉得有启发的话,欢迎点赞、在看、转发。跟进最新AI前沿,关注我