一次推理输出多个答案：MIT用强化学习打破LLM的"熵坍缩"困局

论文标题： Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models

作者： Isha Puri, Mehul Damani, Idan Shenfeld, Marzyeh Ghassemi, Jacob Andreas, Yoon Kim (MIT)

发表时间： 2026年3月25日

论文地址： https://arxiv.org/abs/2603.24844

核心摘要

当前大模型经过RLHF/RLVR等后训练流程后，往往会陷入熵坍缩——对同一个问题反复生成几乎相同的答案。这在医疗诊断、模糊问答、编程等存在多个合理解的场景下是致命缺陷。

MIT团队提出Multi-Answer RL，让模型在单次前向推理中同时输出 \(K\) 个不同答案及其置信度分数。在3个基准任务上，该方法相比单答案基线覆盖率提升27%-37%，编程任务top-1准确率从0.29飙升至0.49（提升69%），同时token消耗降低44%。

图1：标准RL vs Multi-Answer RL的输出对比图1：标准RL训练后模型对同一问题的30次采样几乎收敛到相同答案（左），而Multi-Answer RL训练后模型单次推理即可输出多个差异化的候选答案及置信度（右）。

问题动机：RL后训练的"熵坍缩"代价

常规RLVR（Reinforcement Learning with Verifiable Rewards）的训练信号是"答案对不对"，这种二值奖励天然地将模型推向单一高分答案。经过多轮训练后，模型的输出分布急剧收窄——即使用高温采样30次，也只能得到约4个不同答案。

这个问题在3类场景中尤为突出：

医疗诊断：患者症状可能同时对应多种疾病，只输出"最可能的1个"远远不够
模糊问答：信息不完整时，存在多个合理推断
编程任务：同一规格可用完全不同的算法实现，多样性直接关联pass@K指标

传统的解决方案是推理时多次采样（best-of-K），但这需要 \(K\) 倍的计算开销，且由于熵坍缩，多次采样的结果高度重复。

方法设计：集合级奖励 + 校准惩罚

Multi-Answer RLVR：集合级正确性奖励

核心思想是将奖励从"单个答案是否正确"升级为"一组答案中有多少个正确"：

\[R_{\text{RLVR}}^{\text{multi}}(A, \mathcal{Y}^*) = \sum_{i=1}^{K} \mathbb{1}[a_i \in \mathcal{Y}^*]\]

其中 \(A = \{a_1, \ldots, a_K\}\) 是模型单次生成的 \(K\) 个答案，\(\mathcal{Y}^*\) 是真实答案集合。这个奖励函数直接激励模型输出更多样、更正确的答案。

Multi-Answer RLCR：加入校准约束

仅追求覆盖率还不够——模型还需要对每个答案给出靠谱的置信度。RLCR在正确性奖励基础上减去Multi-Brier校准惩罚：

\[R_{\text{RLCR}}^{\text{multi}} = R_{\text{RLVR}}^{\text{multi}} - R_{\text{Brier}}^{\text{multi}}\]

其中Multi-Brier分数衡量预测置信度与实际正确性的偏差：

\[R_{\text{Brier}}^{\text{multi}}(A, Q, \mathcal{Y}^*) = \frac{1}{K} \sum_{i=1}^{K} (q_i - \mathbb{1}[a_i \in \mathcal{Y}^*])^2\]

\(q_i\) 是模型为第 \(i\) 个答案输出的置信度。当模型对正确答案给高置信度、对错误答案给低置信度时，Brier分数最小。

生成格式与唯一性约束

模型被训练为按固定格式输出：先在 <think> 标签中推理，然后依次输出 <answer1>、<confidence1>、<answer2>、<confidence2> 等。如果提取出的 \(K\) 个答案不满足互不相同的约束，格式奖励直接归零——这是保证多样性的硬性机制。

对于单答案数据集（真实答案唯一），还额外约束所有置信度之和 \(\leq 1\)，使其具备概率分布语义。

训练配置

基础模型：Qwen3-8B
算法：GRPO with BNPO objective
批大小：1536（每个prompt采样32个response）
学习率：\(1 \times 10^{-6}\)，线性warmup比例0.05
温度：0.7
最大生成长度：1536 tokens
训练轮次：11 epochs
硬件：NVIDIA A100 和 H100 GPU

实验结果

正确性与效率（K=3）

方法	数据集	平均正确数↑	多样性↑	Token数↓	Top-1准确率↑
RLVR-Multi	DDXPlus	0.79	1.00	677	0.42
RLCR-Multi	DDXPlus	0.77	1.00	510	0.43
RLVR-Single	DDXPlus	0.62	-	1191	-
RLCR-Single	DDXPlus	0.65	-	-	-
RLVR-Multi	HotPotQA	0.27	1.00	544	-
RLCR-Multi	HotPotQA	0.27	1.00	622	-
RLVR-Single	HotPotQA	0.17	-	-	-
RLCR-Single	HotPotQA	0.23	-	-	-
RLCR-Multi	MBPP	1.38	2.94	250.94	0.48
RLVR-Multi	MBPP	1.35	2.98	235.49	0.49
RLVR-Single	MBPP	0.98	-	511.73	0.29

3个数据集上，Multi-Answer方法的平均正确答案数全面超越单答案基线。MBPP上的提升尤为显著——从0.98提升到1.38，top-1准确率从0.29提升到0.49。

图2：多样性对比——30次单答案采样 vs 10组Multi-Answer生成图2：左侧为RLVR-Single的30次独立采样，右侧为RLVR-Multi的10组生成（每组3个答案）。Multi-Answer平均产生约8个唯一答案，而Single采样30次也仅得到约4个不同答案，熵坍缩效应一目了然。

校准性能

方法	数据集	Set ECE↓	Top-1 ECE↓	Top-k Brier↓
RLCR-Multi	DDXPlus	0.02	0.01	0.18
RLVR-Multi	DDXPlus	0.13	0.16	0.19
RLCR-Multi	MBPP	0.26	0.37	0.34
RLVR-Multi	MBPP	0.44	0.54	0.51

RLCR-Multi在DDXPlus上的Set ECE达到惊人的0.02，几乎完美校准。相比RLVR-Multi，校准误差在MBPP上降低了0.18个绝对值。

图3：校准曲线对比 图3：RLCR-Multi的校准曲线（蓝色）紧贴理想对角线，而RLVR-Multi（橙色）在高置信度区域表现出系统性过度自信。Brier惩罚项有效抑制了置信度虚高。

Token效率

图7：Token消耗对比 图7：在DDXPlus上，Multi-Answer方法仅需单答案方法56%的token即可产出等量答案集。这意味着在相同推理预算下，Multi-Answer可以覆盖更多候选诊断。

K值扩展性

K值	DDXPlus覆盖率	训练稳定性
2	0.78	稳定
3	0.79	稳定
4	0.70	稳定
5	0.62	稳定

随着 \(K\) 从2增至5，覆盖率呈现平缓下降而非剧烈崩溃，说明8B规模的模型在容量上能合理支撑多答案生成。

图6：不同K值的训练曲线 图6：K=2到K=5的训练过程中，奖励曲线均稳定上升，无剧烈振荡。K越大收敛值越低是模型容量有限的自然表现，非训练不稳定。

答案多样性可视化

图4：诊断多样性分布 图4：DDXPlus上不同方法生成的唯一诊断数量分布。Multi-Answer方法（绿色/蓝色）的唯一诊断数显著高于单答案方法（红色/橙色），且分布更均匀。

图5：N-gram重叠分析图5：通过N-gram重叠度量化答案相似性。RLVR-Single的高N-gram重叠表明其多次采样的结果趋于同质化，而Multi-Answer方法的低重叠度证实了真正的语义多样性。

图8：词云对比图8：RLVR-Single（左）与RLVR-Multi（右）的词云对比。Single方法的输出高度集中于少数高频词，Multi方法则展现出丰富的词汇分布，覆盖更广泛的诊断术语。

批判性思考

亮点

问题定义精准：熵坍缩是当前RLVR训练的真实痛点，尤其在医疗、法律等多解场景下影响巨大。这篇工作没有在推理阶段做文章，而是从训练目标层面根治问题——思路干净利落。
集合级奖励设计优雅：\(R_{\text{RLVR}}^{\text{multi}}\) 的设计将"多样性"和"正确性"统一在同一个奖励函数里，无需额外的多样性正则项。唯一性约束通过格式奖励硬编码，避免了连续松弛带来的调参负担。
校准+正确性双目标：RLCR的Brier惩罚使模型不仅给出多个答案，还能给出可信赖的置信度——DDXPlus上Set ECE=0.02的数字相当惊艳。
实验设计覆盖面广：涵盖多标签分类（DDXPlus）、模糊单答案（HotPotQA）、代码生成（MBPP）三种不同范式，且每种都有定量分析。

局限

单答案top-1准确率的代价：论文承认Multi-Answer方法在DDXPlus上的top-1准确率（0.42-0.43）低于单答案基线的最高值。如果应用场景只关心"最佳答案"而非"覆盖候选"，Multi-Answer可能不是最优选择。
串行生成的效率瓶颈：虽然Multi-Answer在总token数上优于多次独立采样，但 \(K\) 个答案仍是串行生成的——无法像并行采样那样利用GPU并行度。在低延迟场景下，这个限制可能是致命的。
数据集规模和领域有限：DDXPlus 25000条训练数据已算充分，但HotPotQA和MBPP的实验缺乏规模说明。更关键的是，三个基准均为较短答案的QA/代码任务，对长文本生成（如论文撰写、对话等）的泛化能力完全未验证。
8B模型的天花板：仅在Qwen3-8B上实验，未验证方法在70B+规模模型上是否仍有同等增益。直觉上更大模型可能天然具备更好的多模态输出能力，Multi-Answer的边际收益可能递减。
\(K\) 值需要预设：模型需要在训练时固定生成答案数 \(K\)，无法根据问题难度动态调整。一个简单问题强制输出5个答案可能引入噪声，一个复杂问题只输出2个可能不够。

工程启示

医疗AI的鉴别诊断系统：Multi-Answer RLCR天然适配鉴别诊断（differential diagnosis）场景——一次推理输出多个可能疾病及置信度，直接可作为辅助诊断的候选列表。Set ECE=0.02意味着置信度几乎可以直接当概率用。
代码补全的多候选方案：在IDE集成场景下，Multi-Answer模型可以一次推理提供多种实现方案（如不同算法复杂度的解法），比best-of-K采样节省44%计算资源。MBPP上top-1准确率从0.29跳到0.49，这个增幅在工业代码补全中是可感知的质量提升。
集合级奖励可迁移到Agent场景：当AI Agent面对多步规划时，同样存在"探索多条路径 vs 只走最可能路径"的权衡。Multi-Answer RL的集合级奖励函数可以改造为Agent的多路径规划奖励。
格式约束是廉价但有效的多样性保障：论文中"答案不唯一则格式奖励归零"的做法非常实用。在工程实践中，通过模板化输出格式 + 硬约束检查来保证结构化输出质量，是比连续损失函数更可靠的方案。
校准Brier分数可作为通用置信度训练信号：无论是否采用Multi-Answer框架，RLCR中的Brier惩罚项都可以独立作为让LLM输出校准置信度的训练技巧。对于任何需要不确定性量化的下游应用（RAG的召回排序、Tool调用决策等），这个信号都有价值。
部署考量：串行生成 \(K\) 个答案会增加单请求延迟。建议在延迟不敏感的批处理场景（如离线诊断报告生成、代码审查建议）中优先采用，在线实时交互场景仍需评估延迟-质量权衡。

觉得有启发的话，欢迎点赞、在看、转发。跟进最新AI前沿，关注公众号：机器懂语言