DSDR:让推理模型别再"一条路走到黑"——双尺度多样性正则化探索框架

论文标题:DSDR: Dual-Scale Diversity Regularization for Exploration in LLM Reasoning

论文链接:https://arxiv.org/abs/2602.19895

机构:HKUST, CMU, Microsoft Research 等

一句话总结:现有的 RLVR(基于可验证奖励的强化学习)训练容易让模型的推理策略坍缩到少数几种固定模式,传统的熵正则化只能在 token 级别引入随机性,无法真正实现推理路径级别的多样化探索。DSDR 提出"全局轨迹多样性 + 局部 token 熵"的双尺度正则化框架,并通过全局到局部的耦合机制让两个尺度协同工作,在 AIME 2024/2025 等数学推理基准上显著超越 GRPO 和 DAPO。


为什么需要关注这篇论文?

"探索坍缩"——RLVR 训练中被低估的危机

过去一年,DeepSeek-R1 引爆了 RLVR 范式——用程序化的可验证奖励(比如数学题的答案对不对)来训练大模型的推理能力。GRPO、DAPO 等算法在这条路线上取得了瞩目的成绩。

但如果你仔细观察训练过程,会发现一个微妙而危险的现象:模型很快就会锁定几种"看起来能拿分"的推理模式,然后反复使用这些模式。就像一个学生发现用某种固定解题套路能做对60%的数学题,于是他就放弃了去探索其他可能更好的解法。

这就是所谓的 "探索坍缩"(exploration collapse)

具体来说,它表现为:

  1. 推理多样性急剧下降:同一道题生成16次,你可能得到几乎一模一样的推理路径——相同的分析思路、相同的公式推导步骤,甚至连措辞都高度相似。

  2. 难以发现更优解法:数学问题往往有多种解法(代数法、几何法、构造法等),但坍缩后的模型倾向于只用一种方法,即使这种方法在某些问题类型上并不是最优的。

  3. 训练后期停滞:因为缺乏探索,模型在训练后期的准确率提升越来越慢,甚至开始下降——它已经把自己"锁死"在了解空间的一个局部最优区域。

你可能会想:用熵正则化不就行了吗? 在强化学习中,给策略的目标函数加一个熵奖励项,鼓励模型保持输出分布的"随机性",这是防止策略坍缩的经典手段。

问题在于,传统的熵正则化工作在 token 级别——它让模型在每个位置的下一个 token 预测上保持更"不确定"。这带来的效果是:模型可能在同一种推理路径上使用了不同的措辞、换了个等价的数学符号——但推理的核心逻辑并没有真正变化。

打个比方:如果把推理比作从 A 城市到 B 城市,token 级熵正则化就像是让司机在同一条高速公路上随机变换车道——看起来在"动",但其实走的还是同一条路。而真正需要的是让司机尝试不同的路线——走国道、走山路、甚至绕一圈海边。

DSDR 就是要解决这个问题:如何在推理路径层面实现真正的多样化探索?

DSDR框架概览

图1:DSDR框架的核心思路。从问题输入开始,模型生成多条推理轨迹,然后通过双尺度多样性探索(全局轨迹多样性 + 局部token熵正则化)和全局到局部的耦合机制,构建最终的训练目标。


技术背景速览

在理解 DSDR 之前,需要先了解几个关键概念。

RLVR:不靠人类标注的推理训练

传统的 RLHF(基于人类反馈的强化学习)需要人类标注者对模型输出进行打分或排序。而 RLVR 利用了数学题的一个天然优势——答案可以被程序自动验证

做对了,奖励 +1;做错了,奖励 0 或 -1。不需要人类参与,不存在标注噪声,可以无限量生成训练信号。

这使得 RLVR 在数学推理、代码生成等可验证领域成为主流的训练范式。

GRPO:去掉价值网络的策略优化

GRPO(Group Relative Policy Optimization)是 DeepSeek 提出的一种强化学习算法。传统的 PPO 需要一个单独的价值函数模型(Critic)来估计每个状态的价值,这会带来额外的计算开销和训练不稳定性。

GRPO 的核心创新是完全去掉价值函数模型,取而代之的是在一组(group)采样结果内部做相对比较。对于同一个问题,生成一组(比如16条)推理轨迹,计算每条轨迹的奖励,然后通过组内标准化(减均值除标准差)来确定哪些轨迹是"相对好的",哪些是"相对差的"。

\[J_{GRPO} = \frac{1}{G} \sum_{i=1}^{G} \min\left( \frac{\pi_\theta}{\pi_{ref}} \hat{A}_i, \text{clip}\left(\frac{\pi_\theta}{\pi_{ref}}, 1-\epsilon, 1+\epsilon\right) \hat{A}_i \right) - \beta \cdot D_{KL}(\pi_\theta \| \pi_{ref})\]

其中 \(\hat{A}_i\) 是通过组内相对排名计算的优势估计。这种做法简单高效,在 DeepSeek-R1 的训练中发挥了关键作用。

DAPO:解耦剪辑和动态采样

DAPO(Decoupled Clip and Dynamic Sampling Policy Optimization)是字节跳动和清华 AIR 联合提出的改进算法。它在 GRPO 的基础上做了几个针对性优化:

  1. 解耦剪辑:对概率比的上下剪辑使用不同的阈值,鼓励模型更大胆地探索好的方向。
  2. 动态采样:根据训练进展动态调整采样温度和策略。
  3. Token级损失归一化:解决不同长度响应之间损失尺度不一致的问题。

DAPO 在多个数学推理基准上展现了强劲的性能,是 DSDR 论文中最重要的baseline之一。


DSDR 的核心方法

DSDR 的方法论可以概括为三大组件:全局多样性度量、局部熵正则化、全局到局部的耦合机制。下面逐一拆解。

DSDR详细架构

图4:DSDR详细流程。策略模型对同一问题生成多条rollout,筛选出正确的rollout后计算全局多样性奖励,再通过耦合机制将全局信号转化为局部正则化强度,最终整合进策略损失。

第一层:全局多样性——让正确的推理路径"各不相同"

全局多样性的目标是:衡量正确推理轨迹之间有多么"不一样"

一个关键的设计决策是:多样性奖励只施加在正确的 rollout 上(Correct-Only Global Diversity)。为什么?因为如果你对所有 rollout 都给多样性奖励,模型可能会为了追求"与众不同"而生成一些奇奇怪怪的错误推理——这些推理确实很"独特",但毫无价值。只奖励正确推理的多样性,可以保证模型在"做对的前提下"去探索不同的解法。

那如何量化两条推理路径"有多不同"?DSDR 提出了两个互补的度量维度。

语义级多样性(Semantic-Level Diversity)

取每条正确推理轨迹的句子嵌入(使用预训练的句子编码器),计算任意两条轨迹之间的余弦距离:

\[d_{sem}(o_i, o_j) = 1 - \frac{E(o_i) \cdot E(o_j)}{\|E(o_i)\| \cdot \|E(o_j)\|}\]

其中 \(E(\cdot)\) 是句子嵌入函数。余弦距离越大,说明两条推理路径在语义空间中相距越远,即使用了完全不同的思路。

对于第 \(i\) 条正确轨迹,其语义级多样性分数是它与所有其他正确轨迹的平均余弦距离:

\[D_{sem}(o_i) = \frac{1}{|C| - 1} \sum_{j \in C, j \neq i} d_{sem}(o_i, o_j)\]

其中 \(C\) 是该问题下所有正确 rollout 的集合。

公式级多样性(Formula-Level Diversity)

数学推理有一个独特之处:不同的解法往往会使用不同的数学公式和表达式。论文利用这一点,提取每条推理路径中的所有数学表达式(通过正则匹配 LaTeX 公式),然后计算"唯一公式比例":

\[D_{form}(o_i) = \frac{|\text{unique}(F_i \setminus \bigcap_{j \in C} F_j)|}{|F_i|}\]

其中 \(F_i\) 是第 \(i\) 条轨迹中出现的公式集合。分子是"只在第 \(i\) 条轨迹中出现而不在所有正确轨迹中共有的唯一公式数量",分母是该轨迹的总公式数量。

比例越高,说明这条推理路径使用了越多"独一无二"的数学表达式——很可能代表了一种与其他轨迹完全不同的解法。

综合多样性奖励

两个维度的多样性分数线性组合形成最终的全局多样性奖励:

\[r_d(o_i) = \lambda_d \cdot \left( D_{sem}(o_i) + D_{form}(o_i) \right)\]

只有正确的 rollout 才会获得这个奖励,增强后的奖励变为:

\[r'(o_i) = r(o_i) + r_d(o_i)\]

其中 \(r(o_i)\) 是原始的正确/错误二值奖励。

这个设计的巧妙之处在于:它让"用不同方法做对"比"用相同方法做对"获得更高的奖励。模型会被激励去发现新的、独特的推理路径,而不是反复使用已经学会的那种解法。

第二层:局部熵正则化——在 token 级别保持灵活性

全局多样性解决了"不同轨迹走不同路"的问题,但如果模型在每个 token 位置上的输出分布过于尖锐(几乎确定性地选择某个 token),那么即使有全局多样性信号,模型也很难真正采样到不同的路径——因为"骰子"已经变成了"硬币的两面只有一面有数字"。

因此,DSDR 保留了 token 级的熵正则化:

\[H(\pi_\theta(\cdot | s_t)) = -\sum_a \pi_\theta(a | s_t) \log \pi_\theta(a | s_t)\]

更高的熵意味着模型在该位置对下一个 token 的预测更"开放",有更多的可能性空间。

但这里有一个问题——所有位置都应该有同样强度的熵正则化吗?

当然不应该。有些推理步骤需要精确(比如数学公式中间的推导),过多的随机性反而有害;而在推理的分支决策点(比如"用代数法还是几何法?"),适当的不确定性有助于探索不同方向。

这就引出了 DSDR 的第三个核心组件。

第三层:全局到局部的耦合——让多样性信号"因材施教"

DSDR 最精妙的设计在于全局到局部的耦合机制(Global-to-Local Coupling):用全局多样性分数来动态调整每条轨迹的局部熵正则化强度。

直觉是这样的:如果一条正确的推理轨迹已经很"独特"(全局多样性分数高),说明模型在这条路径上的探索是成功的——应该给予更强的局部正则化来维护这种探索趋势,防止它"滑回"到常见模式。反过来,如果一条轨迹和其他正确轨迹很相似(全局多样性分数低),那就不需要太多的局部正则化来保护它的"独特性"。

具体实现是通过多样性加权的 Softmax 来分配局部正则化强度:

\[w_i = \frac{\exp(D_{total}(o_i) / \tau)}{\sum_{j \in C} \exp(D_{total}(o_j) / \tau)}\]

其中 \(D_{total}(o_i) = D_{sem}(o_i) + D_{form}(o_i)\) 是综合多样性分数,\(\tau\) 是温度参数。然后每条轨迹的局部熵正则化强度为:

\[\lambda_\ell^{(i)} = w_i \cdot \lambda_\ell\]

多样性越高的轨迹,\(w_i\) 越大,获得的局部熵正则化越强。

打个生活化的比方:想象你是一个足球教练,球队里有10个前锋。有些前锋总是按固定套路跑位(多样性低),有些前锋很有创造力,会跑出意想不到的路线(多样性高)。你不会给所有前锋同样的"自由发挥空间"——你会给那些有创造力的球员更多的战术自由度,让他们继续保持和发展自己的创造性跑位。同时,对那些跑位单一的球员,你不会给太多自由度,而是让他们先把基本功练扎实。

最终目标函数

把三个组件整合起来,DSDR 的完整训练目标为:

\[J_{DSDR}(\theta) = J_{base}(\theta) + \frac{\lambda_\ell}{|C|} \sum_{i \in C} w_i \cdot H(\pi_\theta(\cdot | s_t^{(i)}))\]

其中 \(J_{base}(\theta)\) 是使用增强奖励 \(r'(o_i)\) 的基础 RL 目标(如 GRPO 或 DAPO 的策略梯度损失),第二项是经过全局多样性加权的局部熵正则化。

这个目标函数优雅地将两个尺度的多样性统一在了一个框架内:全局多样性通过奖励增强直接影响策略梯度的方向,局部多样性通过加权熵正则化保持策略的灵活性,而耦合机制让这两个信号协同工作、相互加强。


直觉理解:探索坍缩 vs. DSDR 探索

为了更直观地理解 DSDR 的效果,论文给出了解空间的3D可视化对比。

Baseline探索可视化

图2:Baseline 的探索行为。策略(蓝色分布)倾向于坍缩到某些局部区域,即使这些区域对应的可能是错误的解(红色区域)。模型缺乏向正确解区域(绿色峰值)移动的动力。

DSDR探索可视化

图3:DSDR 的探索行为。绿色箭头表示多样性信号引导策略向不同的正确解区域探索,红色箭头表示策略远离错误解区域。策略分布更加分散,覆盖了更多的正确解区域。

两张图的对比非常直观:

  • Baseline:策略分布像一团紧缩的云,集中在解空间的一小块区域。模型反复采样这个区域,即使正确解散布在更广阔的空间中。
  • DSDR:策略分布更加舒展,像触角一样伸向解空间的不同角落。每个正确解的方向都有策略的覆盖。

这种差异在实际效果上的体现是:同样生成16条推理轨迹,DSDR 更有可能覆盖到不同类型的正确解法,从而提高 Pass@k 指标。


实验结果:数字说话

主实验:全面碾压

论文在 Qwen3-1.7B 和 Qwen3-4B 两个基础模型上进行了大规模实验,在 AIME 2024、AIME 2025、AMC、MATH-500、Minerva Math 五个数学推理基准上与多个强 baseline 对比。

Qwen3-1.7B 上的结果

方法 AIME24 AIME25 AMC MATH500 Minerva 均值
GRPO 38.3 23.2 60.4 83.5 36.8 48.4
DAPO 39.4 24.6 64.1 83.7 38.0 49.9
DSDR (GRPO) 43.3 29.5 68.1 85.0 40.5 53.3
DSDR (DAPO) 44.8 30.3 68.6 85.7 41.0 54.1

DSDR 在所有基准上都取得了一致的提升。以 AIME 2024 为例,DSDR (DAPO) 比 DAPO 提高了 5.4 个百分点——考虑到这是在竞赛级数学题上的提升,这个幅度相当可观。

Qwen3-4B 上的结果同样令人印象深刻,均值从 DAPO 的 55.2 提升到 DSDR (DAPO) 的 59.7(+4.5)。

Pass@k 曲线:多样性的价值

Pass@k 指标衡量的是"生成k条推理路径,至少有一条正确的概率"。这个指标直接反映了推理多样性的价值——如果所有路径都几乎一样,那 Pass@16 和 Pass@1 不会有太大差距。

Pass@k性能曲线

图5:Pass@k 曲线对比(k从1到32)。左半部分是Qwen3-1.7B,右半部分是Qwen3-4B,在五个benchmark上分别展示。DSDR(红色线)在几乎所有k值和所有benchmark上都高于DAPO(蓝色线)。

从图中可以清晰看到:

  1. DSDR 在所有 k 值上都优于 DAPO:不仅 Pass@1(最终答案的准确率)更高,Pass@16 和 Pass@32 的提升更加显著。

  2. 随着 k 增大,DSDR 的优势更明显:这正是多样性发挥作用的证据——更多样的推理路径意味着更高的"至少有一条对"的概率。

  3. 在 AIME 等高难度基准上优势尤为突出:简单题上大家都能做对,差异不大;但在竞赛级难题上,多样化探索的价值被充分放大。

训练过程:多样性如何演化

训练动态

图6:训练过程中的关键指标变化。从左到右分别是:AIME2024 上的 Avg@16 准确率、策略熵、语义级多样性、公式级多样性。橙色(DSDR)和蓝色(DAPO)在各指标上的变化趋势。

训练曲线揭示了几个重要的动态:

  1. 准确率:DSDR 在训练初期就拉开差距,且差距随训练推进持续扩大。DAPO 在后期出现明显的停滞甚至下降趋势,而 DSDR 仍在稳步上升。

  2. 策略熵:DAPO 的熵在训练过程中持续下降(策略越来越确定性),而 DSDR 的熵保持在更高水平——这说明 DSDR 成功地维持了策略的灵活性。

  3. 语义多样性:DAPO 的语义级多样性在训练中后期急剧下降,正是"探索坍缩"的直接证据。DSDR 有效缓解了这一趋势。

  4. 公式多样性:类似的模式——DSDR 在整个训练过程中都维持了更高的公式级多样性。


消融实验:每个组件都不可或缺

论文做了一系列精细的消融实验来验证各个组件的贡献。

组件消融

配置 AIME24 AIME25
DAPO(Baseline) 39.4 24.6
+ 局部熵正则化(仅Local) 41.2 26.1
+ 全局多样性奖励(仅Global) 42.5 27.8
+ 局部 + 全局(无耦合) 43.0 28.5
+ 局部 + 全局 + 耦合(DSDR完整版) 44.8 30.3

几个关键观察:

  1. 单独的局部或全局正则化都有帮助,但幅度有限。
  2. 简单地叠加两者(无耦合)比单独使用任一种更好,但仍有差距。
  3. 耦合机制带来了额外的显著提升(AIME25: 28.5 → 30.3),证明全局到局部的信号传递不是多余的。

多样性信号的消融

多样性维度 AIME24 AIME25
仅语义级 43.1 28.9
仅公式级 43.5 29.1
语义 + 公式 44.8 30.3

两个维度都有独立的贡献,且组合使用效果最佳。这说明语义多样性和公式多样性捕捉了推理路径差异的不同方面——前者关注整体思路的差异,后者关注具体数学操作的差异——两者是互补的。

多样性和Pass@32对比

图7:DAPO vs DSDR 在多样性和 Pass@32 上的对比。DSDR 在所有benchmark上都实现了更高的多样性和更高的Pass@32,验证了"多样性促进性能"的核心假设。

超参数敏感性

超参数敏感性分析

图8:局部正则化系数 \(\lambda_\ell\)(左)和全局多样性系数 \(\lambda_d\)(右)在AIME24和AIME25上的影响。两个参数都在中等取值时达到最佳,过大或过小都会降低性能。

超参数分析显示:

  • \(\lambda_\ell\) 过大:局部随机性过强,模型生成质量下降。
  • \(\lambda_\ell\) 过小:回退到接近无正则化的状态。
  • \(\lambda_d\) 过大:模型过度追求多样性,可能牺牲正确性。
  • \(\lambda_d\) 过小:全局多样性信号太弱,效果不明显。

两个参数都表现出"适度"的特征,这与直觉一致:多样性是手段不是目的,关键是在"做对"和"做不同"之间找到平衡。


训练动态的深度分析

训练动态详细曲线

图9:训练过程中更多指标的变化曲线。从左到右:AIME2025 Avg@16、Pass@16、策略梯度损失(PG Loss)、响应长度/剪辑比例。

这组曲线提供了更多训练行为的洞察:

  1. AIME 2025 Avg@16 和 Pass@16:DSDR 在两个指标上都持续领先。值得注意的是,Pass@16 的差距尤其大——这再次印证了多样性对"覆盖更多正确解"的直接贡献。

  2. PG Loss:DSDR 的策略梯度损失在训练过程中表现更稳定,波动更小。这说明多样性正则化在一定程度上起到了"平滑"训练的效果——模型不会因为过度拟合某种推理模式而出现剧烈的梯度振荡。

  3. 响应长度:两个方法的响应长度变化趋势相似,说明 DSDR 的性能提升不是通过"写更长的推理"来获得的——它真正提升了推理的质量和多样性,而非简单地增加推理的"量"。


理论视角:为什么双尺度优于单尺度?

论文还提供了理论层面的分析来解释为什么单独的全局或局部正则化不够。

局部正则化的局限

纯 token 级的熵正则化最大化的是 \(H(\pi_\theta(\cdot | s_t))\),即每个时间步的条件熵。但这并不保证联合分布 \(\pi_\theta(o_1, o_2, ..., o_G)\)(即多条完整轨迹的联合分布)具有高多样性。

数学上可以证明:高 token 级熵是轨迹级多样性的必要条件而非充分条件。一个极端的例子是——如果模型在每个位置都有50%的概率选 token A 或 token B,但选择之间高度相关(比如第一个位置选了 A,后面所有位置都倾向于选 A),那么 token 级熵很高,但生成的完整轨迹仍然只有两种模式。

全局正则化的局限

另一方面,纯全局的多样性奖励虽然直接作用于轨迹级别,但它依赖采样过程——只有当模型确实采样到不同的轨迹时,全局多样性奖励才有意义。如果模型的 token 级分布已经很尖锐(低熵),那么即使有全局多样性奖励的诱惑,模型也"采不出"真正不同的路径来。

双尺度的互补性

DSDR 的双尺度设计正好解决了这个鸡生蛋的问题:

  • 局部熵正则化确保模型"有能力"生成多样的路径(维持输出分布的灵活性)。
  • 全局多样性奖励确保模型"有动机"选择多样的路径(对独特的正确路径给予额外奖励)。
  • 耦合机制让两者协同:全局信号告诉局部"哪里需要更多灵活性",避免了无差别地施加熵正则化带来的精度损失。

这种层次化的设计思路在机器学习中有深远的根基——从多尺度图像处理到层次化强化学习,"不同尺度的信号相互补充"一直是有效的建模范式。


案例分析

论文在附录中提供了具体的案例来展示多样性探索的效果。以一道 AIME 2024 的数论题为例,DAPO 训练的模型对同一道题的16次采样中,14次使用了相同的模运算分析方法。而 DSDR 训练的模型则展现了至少4种不同的解法方向:

  1. 直接模运算分析:通过中国剩余定理分解问题。
  2. 构造性方法:通过构造满足条件的具体序列来逼近答案。
  3. 生成函数方法:将计数问题转化为生成函数的系数提取。
  4. 递推关系:建立状态转移方程,用动态规划思想求解。

这种多样性在实际应用中的价值是显而易见的——不同方法在不同类型的题目上有不同的成功率,拥有多种"武器"的模型在面对多样化的题目时会更加robust。


个人思考

这篇工作的亮点

  1. 问题定义精准:论文清晰地指出了"探索坍缩"这个被忽视但重要的问题,并通过实验和理论双重论证了传统方法的不足。

  2. 方法设计优雅:双尺度 + 耦合的框架设计既有直觉上的合理性(不同尺度负责不同层面的问题),又有理论上的支撑(必要条件和充分条件的互补)。

  3. 实验全面扎实:主实验、消融实验、超参数分析、训练动态、Pass@k 曲线、案例分析,形成了一个完整的实验证据链。

  4. 即插即用:DSDR 可以叠加在 GRPO、DAPO 等现有 RL 算法上,不需要改变底层架构,部署门槛低。

一些值得思考的方向

  1. 计算开销问题:语义级多样性需要运行句子编码器对每条轨迹做嵌入,公式级多样性需要正则匹配和集合操作。这些额外计算在大规模训练中的开销有多大?论文对此讨论不多。

  2. 领域迁移性:公式级多样性显然是针对数学推理设计的。对于代码生成、逻辑推理等其他可验证领域,需要设计什么样的领域特定多样性度量?语义级多样性能否覆盖所有情况?

  3. 多样性与一致性的博弈:在实际部署中,用户通常希望模型给出一致的、可靠的答案。如果模型总是"各种方法都试一遍",可能会影响单次推理的稳定性。如何在训练时追求多样性和推理时追求一致性之间找到平衡,是一个值得进一步探索的课题。

  4. 与推理时间计算的交叉:DSDR 在训练阶段引入多样性。如果结合推理时间的 Best-of-N 采样或 MCTS 搜索,多样性模型是否能进一步放大推理时间计算的收益?

  5. Correct-Only 的局限:只对正确 rollout 施加多样性奖励的设计虽然安全,但也意味着——如果模型在某道题上完全做不对(所有 rollout 都错误),那多样性信号就完全缺失了。对于这类"困难样本",是否需要补充其他形式的探索激励?


总结

DSDR 是一篇在 RLVR 训练范式中引入多样性正则化的工作,核心贡献在于识别了"探索坍缩"问题并提出了系统性的解决方案。通过将多样性分解为全局(轨迹间差异)和局部(token 级灵活性)两个尺度,再通过耦合机制让两个尺度协同工作,DSDR 在多个数学推理基准上取得了显著的性能提升。

从更宏观的角度看,这篇论文触及了强化学习中一个永恒的主题——探索与利用的平衡。传统 RL 的解决方案(如 \(\epsilon\)-greedy、UCB、熵正则化)主要工作在动作级别,而大模型推理的特殊性在于"动作"(即 token)和"策略效果"(即推理路径的正确性)之间的关系极其间接。DSDR 通过引入路径级别的多样性信号,在这两个抽象层之间搭建了桥梁,这种思路对未来的 LLM 强化学习研究具有启发意义。

简单说:别让你的推理模型只会"一种姿势"解题——多样性不是浪费,而是通往更强推理能力的必经之路。