一次推理输出多个答案:MIT用强化学习打破LLM的"熵坍缩"困局

论文标题: Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models

作者: Isha Puri, Mehul Damani, Idan Shenfeld, Marzyeh Ghassemi, Jacob Andreas, Yoon Kim (MIT)

发表时间: 2026年3月25日

论文地址: https://arxiv.org/abs/2603.24844


核心摘要

当前大模型经过RLHF/RLVR等后训练流程后,往往会陷入熵坍缩——对同一个问题反复生成几乎相同的答案。这在医疗诊断、模糊问答、编程等存在多个合理解的场景下是致命缺陷。

MIT团队提出Multi-Answer RL,让模型在单次前向推理中同时输出 \(K\) 个不同答案及其置信度分数。在3个基准任务上,该方法相比单答案基线覆盖率提升27%-37%,编程任务top-1准确率从0.29飙升至0.49(提升69%),同时token消耗降低44%。

图1:标准RL vs Multi-Answer RL的输出对比 图1:标准RL训练后模型对同一问题的30次采样几乎收敛到相同答案(左),而Multi-Answer RL训练后模型单次推理即可输出多个差异化的候选答案及置信度(右)。


问题动机:RL后训练的"熵坍缩"代价

常规RLVR(Reinforcement Learning with Verifiable Rewards)的训练信号是"答案对不对",这种二值奖励天然地将模型推向单一高分答案。经过多轮训练后,模型的输出分布急剧收窄——即使用高温采样30次,也只能得到约4个不同答案。

这个问题在3类场景中尤为突出:

  • 医疗诊断:患者症状可能同时对应多种疾病,只输出"最可能的1个"远远不够
  • 模糊问答:信息不完整时,存在多个合理推断
  • 编程任务:同一规格可用完全不同的算法实现,多样性直接关联pass@K指标

传统的解决方案是推理时多次采样(best-of-K),但这需要 \(K\) 倍的计算开销,且由于熵坍缩,多次采样的结果高度重复。


方法设计:集合级奖励 + 校准惩罚

Multi-Answer RLVR:集合级正确性奖励

核心思想是将奖励从"单个答案是否正确"升级为"一组答案中有多少个正确":

\[R_{\text{RLVR}}^{\text{multi}}(A, \mathcal{Y}^*) = \sum_{i=1}^{K} \mathbb{1}[a_i \in \mathcal{Y}^*]\]

其中 \(A = \{a_1, \ldots, a_K\}\) 是模型单次生成的 \(K\) 个答案,\(\mathcal{Y}^*\) 是真实答案集合。这个奖励函数直接激励模型输出更多样、更正确的答案。

Multi-Answer RLCR:加入校准约束

仅追求覆盖率还不够——模型还需要对每个答案给出靠谱的置信度。RLCR在正确性奖励基础上减去Multi-Brier校准惩罚:

\[R_{\text{RLCR}}^{\text{multi}} = R_{\text{RLVR}}^{\text{multi}} - R_{\text{Brier}}^{\text{multi}}\]

其中Multi-Brier分数衡量预测置信度与实际正确性的偏差:

\[R_{\text{Brier}}^{\text{multi}}(A, Q, \mathcal{Y}^*) = \frac{1}{K} \sum_{i=1}^{K} (q_i - \mathbb{1}[a_i \in \mathcal{Y}^*])^2\]

\(q_i\) 是模型为第 \(i\) 个答案输出的置信度。当模型对正确答案给高置信度、对错误答案给低置信度时,Brier分数最小。

生成格式与唯一性约束

模型被训练为按固定格式输出:先在 <think> 标签中推理,然后依次输出 <answer1><confidence1><answer2><confidence2> 等。如果提取出的 \(K\) 个答案不满足互不相同的约束,格式奖励直接归零——这是保证多样性的硬性机制。

对于单答案数据集(真实答案唯一),还额外约束所有置信度之和 \(\leq 1\),使其具备概率分布语义。

训练配置

  • 基础模型:Qwen3-8B
  • 算法:GRPO with BNPO objective
  • 批大小:1536(每个prompt采样32个response)
  • 学习率\(1 \times 10^{-6}\),线性warmup比例0.05
  • 温度:0.7
  • 最大生成长度:1536 tokens
  • 训练轮次:11 epochs
  • 硬件:NVIDIA A100 和 H100 GPU

实验结果

正确性与效率(K=3)

方法 数据集 平均正确数↑ 多样性↑ Token数↓ Top-1准确率↑
RLVR-Multi DDXPlus 0.79 1.00 677 0.42
RLCR-Multi DDXPlus 0.77 1.00 510 0.43
RLVR-Single DDXPlus 0.62 - 1191 -
RLCR-Single DDXPlus 0.65 - - -
RLVR-Multi HotPotQA 0.27 1.00 544 -
RLCR-Multi HotPotQA 0.27 1.00 622 -
RLVR-Single HotPotQA 0.17 - - -
RLCR-Single HotPotQA 0.23 - - -
RLCR-Multi MBPP 1.38 2.94 250.94 0.48
RLVR-Multi MBPP 1.35 2.98 235.49 0.49
RLVR-Single MBPP 0.98 - 511.73 0.29

3个数据集上,Multi-Answer方法的平均正确答案数全面超越单答案基线。MBPP上的提升尤为显著——从0.98提升到1.38,top-1准确率从0.29提升到0.49。

图2:多样性对比——30次单答案采样 vs 10组Multi-Answer生成 图2:左侧为RLVR-Single的30次独立采样,右侧为RLVR-Multi的10组生成(每组3个答案)。Multi-Answer平均产生约8个唯一答案,而Single采样30次也仅得到约4个不同答案,熵坍缩效应一目了然。

校准性能

方法 数据集 Set ECE↓ Top-1 ECE↓ Top-k Brier↓
RLCR-Multi DDXPlus 0.02 0.01 0.18
RLVR-Multi DDXPlus 0.13 0.16 0.19
RLCR-Multi MBPP 0.26 0.37 0.34
RLVR-Multi MBPP 0.44 0.54 0.51

RLCR-Multi在DDXPlus上的Set ECE达到惊人的0.02,几乎完美校准。相比RLVR-Multi,校准误差在MBPP上降低了0.18个绝对值。

图3:校准曲线对比 图3:RLCR-Multi的校准曲线(蓝色)紧贴理想对角线,而RLVR-Multi(橙色)在高置信度区域表现出系统性过度自信。Brier惩罚项有效抑制了置信度虚高。

Token效率

图7:Token消耗对比 图7:在DDXPlus上,Multi-Answer方法仅需单答案方法56%的token即可产出等量答案集。这意味着在相同推理预算下,Multi-Answer可以覆盖更多候选诊断。

K值扩展性

K值 DDXPlus覆盖率 训练稳定性
2 0.78 稳定
3 0.79 稳定
4 0.70 稳定
5 0.62 稳定

随着 \(K\) 从2增至5,覆盖率呈现平缓下降而非剧烈崩溃,说明8B规模的模型在容量上能合理支撑多答案生成。

图6:不同K值的训练曲线 图6:K=2到K=5的训练过程中,奖励曲线均稳定上升,无剧烈振荡。K越大收敛值越低是模型容量有限的自然表现,非训练不稳定。

答案多样性可视化

图4:诊断多样性分布 图4:DDXPlus上不同方法生成的唯一诊断数量分布。Multi-Answer方法(绿色/蓝色)的唯一诊断数显著高于单答案方法(红色/橙色),且分布更均匀。

图5:N-gram重叠分析 图5:通过N-gram重叠度量化答案相似性。RLVR-Single的高N-gram重叠表明其多次采样的结果趋于同质化,而Multi-Answer方法的低重叠度证实了真正的语义多样性。

图8:词云对比 图8:RLVR-Single(左)与RLVR-Multi(右)的词云对比。Single方法的输出高度集中于少数高频词,Multi方法则展现出丰富的词汇分布,覆盖更广泛的诊断术语。


批判性思考

亮点

  1. 问题定义精准:熵坍缩是当前RLVR训练的真实痛点,尤其在医疗、法律等多解场景下影响巨大。这篇工作没有在推理阶段做文章,而是从训练目标层面根治问题——思路干净利落。

  2. 集合级奖励设计优雅\(R_{\text{RLVR}}^{\text{multi}}\) 的设计将"多样性"和"正确性"统一在同一个奖励函数里,无需额外的多样性正则项。唯一性约束通过格式奖励硬编码,避免了连续松弛带来的调参负担。

  3. 校准+正确性双目标:RLCR的Brier惩罚使模型不仅给出多个答案,还能给出可信赖的置信度——DDXPlus上Set ECE=0.02的数字相当惊艳。

  4. 实验设计覆盖面广:涵盖多标签分类(DDXPlus)、模糊单答案(HotPotQA)、代码生成(MBPP)三种不同范式,且每种都有定量分析。

局限

  1. 单答案top-1准确率的代价:论文承认Multi-Answer方法在DDXPlus上的top-1准确率(0.42-0.43)低于单答案基线的最高值。如果应用场景只关心"最佳答案"而非"覆盖候选",Multi-Answer可能不是最优选择。

  2. 串行生成的效率瓶颈:虽然Multi-Answer在总token数上优于多次独立采样,但 \(K\) 个答案仍是串行生成的——无法像并行采样那样利用GPU并行度。在低延迟场景下,这个限制可能是致命的。

  3. 数据集规模和领域有限:DDXPlus 25000条训练数据已算充分,但HotPotQA和MBPP的实验缺乏规模说明。更关键的是,三个基准均为较短答案的QA/代码任务,对长文本生成(如论文撰写、对话等)的泛化能力完全未验证。

  4. 8B模型的天花板:仅在Qwen3-8B上实验,未验证方法在70B+规模模型上是否仍有同等增益。直觉上更大模型可能天然具备更好的多模态输出能力,Multi-Answer的边际收益可能递减。

  5. \(K\) 值需要预设:模型需要在训练时固定生成答案数 \(K\),无法根据问题难度动态调整。一个简单问题强制输出5个答案可能引入噪声,一个复杂问题只输出2个可能不够。


工程启示

  1. 医疗AI的鉴别诊断系统:Multi-Answer RLCR天然适配鉴别诊断(differential diagnosis)场景——一次推理输出多个可能疾病及置信度,直接可作为辅助诊断的候选列表。Set ECE=0.02意味着置信度几乎可以直接当概率用。

  2. 代码补全的多候选方案:在IDE集成场景下,Multi-Answer模型可以一次推理提供多种实现方案(如不同算法复杂度的解法),比best-of-K采样节省44%计算资源。MBPP上top-1准确率从0.29跳到0.49,这个增幅在工业代码补全中是可感知的质量提升。

  3. 集合级奖励可迁移到Agent场景:当AI Agent面对多步规划时,同样存在"探索多条路径 vs 只走最可能路径"的权衡。Multi-Answer RL的集合级奖励函数可以改造为Agent的多路径规划奖励。

  4. 格式约束是廉价但有效的多样性保障:论文中"答案不唯一则格式奖励归零"的做法非常实用。在工程实践中,通过模板化输出格式 + 硬约束检查来保证结构化输出质量,是比连续损失函数更可靠的方案。

  5. 校准Brier分数可作为通用置信度训练信号:无论是否采用Multi-Answer框架,RLCR中的Brier惩罚项都可以独立作为让LLM输出校准置信度的训练技巧。对于任何需要不确定性量化的下游应用(RAG的召回排序、Tool调用决策等),这个信号都有价值。

  6. 部署考量:串行生成 \(K\) 个答案会增加单请求延迟。建议在延迟不敏感的批处理场景(如离线诊断报告生成、代码审查建议)中优先采用,在线实时交互场景仍需评估延迟-质量权衡。


觉得有启发的话,欢迎点赞、在看、转发。跟进最新AI前沿,关注公众号:机器懂语言