9K条数据训4B模型,逼近DeepSeek-R1?CHIMERA用合成数据破解推理冷启动难题
论文标题:CHIMERA: Compact Synthetic Data for Generalizable LLM Reasoning
论文地址:https://arxiv.org/abs/2603.00889
数据集:https://huggingface.co/datasets/TianHongZXY/CHIMERA
作者:Xinyu Zhu, Yihao Feng, Yanchao Sun, Xianzhi Du, Pingzhi Li, Olli Saarikivi, Yun Zhu, Yu Meng
日期:2026年3月
🎯 一句话总结
CHIMERA是一个仅包含9,225条样本的紧凑型合成推理数据集,覆盖8大学科、1,179个细粒度主题,通过GPT-5生成题目 + Qwen3-235B合成长链推理轨迹的三阶段流水线构建。用它对Qwen3-4B做SFT+RL后训练,在GPQA-Diamond上达到70.1%、AIME24上86.9%——一个4B小模型,用不到1万条数据,就逼近了DeepSeek-R1(671B)和Qwen3-235B的推理水平。
📖 这篇论文在解决什么问题?
推理能力是大模型当前最热门的赛道。DeepSeek-R1、o3、Qwen3——这些模型之所以能做数学题、写证明、解科学问题,核心秘诀在于后训练:先用高质量推理数据做SFT,再用RL进一步优化。
但想复现这条路线,会撞上三堵墙:
第一堵墙:冷启动。 RL训练需要一个还不错的初始策略作为起点——你不能指望一个完全不懂推理的模型通过瞎蒙来学会推理。这个初始策略通常靠SFT来获得,而SFT需要包含详细长链思维轨迹(long CoT)的种子数据集。问题是,这类数据从哪来?人工标注?一条博士级物理题的详细推理过程可能需要数小时才能写完。蒸馏闭源模型?版权和许可问题一堆。
第二堵墙:领域偏科。 翻开当前开源推理数据集的清单——GSM8K、MATH、NuminaMath、DAPO-Math、DeepMath——清一色是数学。这就像只刷数学卷子的学生去参加全科竞赛,物理化学生物一塌糊涂。GPQA-Diamond这种跨学科的博士级基准,正好暴露了这个短板。
第三堵墙:标注成本。 前沿推理任务(比如Humanity's Last Exam里的题目)难到连领域专家都需要反复讨论才能给出答案。靠人工标注来扩展数据规模?不现实。
CHIMERA的目标就是一把解决这三个问题:用全自动合成流水线生成跨学科、高难度、带长链思维轨迹的推理数据集,而且只需要9K条就够用。

图1:CHIMERA的三阶段构建流水线——从学科扩展到题目生成再到解题轨迹合成,每一步都用不同的模型来完成不同的任务
🧠 核心方法:三阶段流水线
CHIMERA的构建分三步走,每一步有明确的目标和质量把关机制。这条流水线的设计哲学是:让不同的模型干各自最擅长的事。
第一阶段:Subject Expansion(学科扩展)
目标:把"数学"、"物理"这种粗粒度学科,展开成上千个细粒度的考试题目方向。
做法很直接——用GPT-5来生成层次化的主题分类树(taxonomy)。比如"数学"会被展开为代数→抽象代数→群论→置换群、数论→解析数论→素数分布→筛法……层层递进,直到每个叶子节点都具体到可以出一道博士级考题的程度。
最终产出:覆盖8大学科的1,179个细粒度主题。

图2:左边是8大学科的样本占比——数学占了48.3%,计算机科学14.1%,化学11.9%,物理8.0%;右边是数学内部的子领域分布
数学占了将近一半,这不意外——推理基准里数学题最多,训练数据自然要匹配。但和纯数学数据集不同,CHIMERA还有计算机科学(14.1%)、化学(11.9%)、物理(8.0%)、文学(5.5%)、历史(4.6%)、生物(4.2%)和语言学(3.4%)。这个分布让模型在非数学领域也能学到推理模式——这一点在GPQA-Diamond上会体现得很明显。
第二阶段:Problem Generation(题目生成)
有了1,179个主题,下一步是出题。
这一步的关键词是双模型交叉验证。流程如下:
- 用GPT-5针对每个细粒度主题生成问题和参考答案
- 要求题目满足三个条件:博士级难度、自包含(题目本身包含所有必要信息)、答案可验证(不能是开放式讨论题)
- 用GPT-5和o4-mini分别独立验证每道题——检查题目是否有歧义、答案是否正确
- 只有两个验证模型都认可的题目才保留
为什么要两个模型交叉验证?单一模型验证会有盲区——GPT-5可能对自己出的题"心有偏爱",o4-mini作为一个不同架构的模型可以提供正交的质量信号。这有点像学术论文的同行评审:一个审稿人容易放水,两个就靠谱得多。
第三阶段:Solution Synthesis(解题轨迹合成)
题目有了,但SFT需要的是问题+详细推理过程的配对数据。这一步要解决的就是"怎么生成高质量的长链推理轨迹"。
这里有个精妙的设计决策:出题和解题用不同的模型。
- 出题:GPT-5(闭源,出题能力强)
- 解题:Qwen3-235B-A22B-Thinking-2507(开源,推理轨迹质量高)
为什么不直接让GPT-5出题又解题?因为用GPT-5生成的推理轨迹去训练开源模型,存在分布偏移问题——闭源模型的推理风格和开源模型差异很大,学出来的效果不一定好。用同系列的Qwen3-235B来生成推理轨迹,再去训练Qwen3-4B,分布更接近,蒸馏效率更高。
具体做法: 1. 对每道题让Qwen3-235B-A22B-Thinking-2507生成推理轨迹 2. 验证生成的答案是否和第二阶段的参考答案一致 3. 答案正确的轨迹→进入SFT训练集 4. 模型解不出来的题目→不扔掉,留给RL阶段当训练素材
这一步也揭示了CHIMERA的一个重要特性:数据的难度足够高。

图5:不同数据集在基础模型上的正确率——CHIMERA只有37.5%,远低于DAPO-Math-17K(88.6%)和DeepMath-103K(88.2%)
Qwen3-4B在CHIMERA上的基础正确率只有37.5%——也就是说超过60%的题目对这个4B模型来说是"真难"。对比一下:同一个模型在DAPO-Math-17K上正确率88.6%,DeepMath-103K上88.2%。那些数据集里的大多数题目对模型来说已经"太简单了",拿来训练的边际收益很低。CHIMERA的难度定位恰好在模型的学习区(learning zone)——不至于完全做不出来,但也确实需要花功夫学。
🏗️ 训练策略:SFT + RL两步走
SFT阶段
把第三阶段中模型能解出来的题目(问题+正确推理轨迹)作为SFT训练数据。
配置: - 基座模型:Qwen3-4B-Thinking-2507 - Batch size:256 - Learning rate:1e-5
RL阶段
SFT之后,用RL继续打磨。这里用了一个叫CISPO的算法,对SFT后模型解不出来的题目进行强化学习训练。
配置: - 算法:CISPO - Batch size:256 - Learning rate:1e-6 - 每个prompt做8次rollout - 奖励模型:o4-mini
RL阶段的逻辑很清晰:SFT教会了模型"怎么推理",RL让模型在"还不够会"的难题上继续学习。那些模型在第三阶段解不出来的题目,正好是RL的理想训练素材——它们够难,但不是不可能解。
🧪 实验结果
主实验:4B模型打出什么水平?
| 模型 | 参数量 | GPQA-D | AIME24 | AIME25 | AIME26 | HMMT Feb 25 | HMMT Nov 25 | HLE |
|---|---|---|---|---|---|---|---|---|
| DeepSeek-R1 | 671B | 71.5 | 79.8 | 70.0 | – | 41.7 | – | 8.5 |
| DeepSeek-R1-0528 | 671B | 81.0 | 91.4 | 87.5 | – | 79.4 | – | 17.7 |
| Qwen3-235B-A22B | 235B | 71.1 | 85.7 | 81.5 | – | 62.5 | – | 11.8 |
| o4-mini (high) | – | 81.4 | 93.4 | 92.7 | – | 66.7 | – | 18.1 |
| gemini-2.5-pro | – | 86.4 | – | 88.0 | – | 82.5 | – | 18.4 |
| Qwen3-4B-Thinking-2507 (Base) | 4B | 65.8 | 81.6 | 81.0 | 80.8 | 59.2 | 57.3 | 7.3 |
| Qwen3-32B | 32B | 68.4 | 81.4 | 72.9 | 74.3 | 56.6 | 50.0 | 8.9 |
| DeepSeek-R1-Qwen3-8B | 8B | 61.1 | 82.2 | 76.3 | 78.0 | 59.2 | 57.7 | 6.9 |
| Qwen3-4B + OpenScience (315K) | 4B | 53.5 | 61.7 | 53.3 | 53.0 | 40.0 | 36.9 | 4.6 |
| Qwen3-4B + CHIMERA (9K) | 4B | 70.1 | 86.9 | 80.7 | 82.7 | 65.7 | 67.0 | 9.0 |
几组关键对比值得细看:
CHIMERA vs 基座模型。 Qwen3-4B-Thinking-2507本身就是一个相当强的基座——AIME24已经能到81.6%。但CHIMERA还是把GPQA-D从65.8%拉到70.1%(+4.3),AIME24从81.6%拉到86.9%(+5.3),HMMT Nov 25更是从57.3%猛涨到67.0%(+9.7)。在一个本身就很强的基座上,9K数据还能带来这种幅度的提升,说明数据质量确实打到了点上。
CHIMERA (9K) vs OpenScience (315K)。 这组对比最震撼。OpenScience有31.5万条数据,是CHIMERA的34倍。但用OpenScience训练的模型在所有基准上都大幅落后——GPQA-D 53.5% vs 70.1%,AIME24 61.7% vs 86.9%,甚至比没有训练的基座模型(65.8%、81.6%)还差。315K条数据不仅没帮上忙,还把模型搞退步了。
这是怎么回事?很可能是因为OpenScience的数据难度太低(基座模型正确率80%+),大量简单题目的SFT相当于让模型"做水题",反而稀释了它原有的难题推理能力。这个对比给出了一个非常明确的信号:数据质量远比数据数量重要,少量高难度、高质量的数据胜过海量平庸数据。
CHIMERA (4B) vs 大模型。 4B模型+CHIMERA在GPQA-D上达到70.1%,距离DeepSeek-R1(671B)的71.5%只差1.4个点——参数量差了168倍,性能差距却可以忽略不计。在AIME24上86.9%更是直接超过了Qwen3-235B的85.7%。和DeepSeek-R1-0528(81.0%)或o4-mini(81.4%)这种最新版本相比还有明显差距,但对于一个4B的开源模型来说,这个成绩已经相当惊艳。
消融实验:SFT和RL各贡献了多少?
| 基准 | Base | SFT | SFT + RL |
|---|---|---|---|
| GPQA-D | 65.8 | 68.8 | 70.1 |
| AIME24 | 81.6 | 86.5 | 86.9 |
| AIME25 | 81.0 | 79.8 | 80.7 |
| AIME26 | 80.8 | 80.3 | 82.7 |
| HMMT Feb 25 | 59.2 | 63.1 | 65.7 |
| HMMT Nov 25 | 57.3 | 66.3 | 67.0 |
| HLE | 7.3 | 9.0 | 9.0 |
SFT是大头。从Base到SFT,GPQA-D涨了3.0个点(65.8→68.8),AIME24涨了4.9个点(81.6→86.5),HMMT Nov 25涨了9.0个点(57.3→66.3)。RL在SFT的基础上又带来了1-2个点的稳定提升,尤其在AIME26上从80.3%拉到82.7%(+2.4),说明RL在更难的题目上发挥更大。
一个有趣的细节:AIME25在SFT之后反而下降了(81.0→79.8),RL才把它拉回80.7。这可能说明SFT的数据分布和AIME25的考点有一定偏差,但RL通过探索性学习弥补了这个缺口。
HLE(Humanity's Last Exam,人类最后的考试)从7.3%到9.0%,RL没有进一步提升。这是因为HLE的题目实在太难了(涵盖数学、物理、生物、哲学等各种冷门领域),9K数据的RL覆盖面不够广。
推理时间缩放(Inference-Time Scaling)

图3:GPQA-Diamond上的Pass@k曲线——CHIMERA训练后的模型在各个k值上都优于基座模型

图4:HLE上的Pass@k曲线——增加采样次数带来稳定的性能提升
推理时间缩放(test-time scaling)是当前推理模型的热门方向——简单说就是让模型多想几次,取最好的答案。
CHIMERA训练后的模型在这方面表现突出: - GPQA-D:Pass@1 = 70.1%,Pass@8 = 90.7%(基座:Pass@1 = 65.8%,Pass@8 = 81.5%) - HLE:Pass@1 = 9.0%,Pass@8 = 24.0%(基座:Pass@1 = 7.3%,Pass@8 = 19.5%)
GPQA-D的Pass@8达到90.7%意味着什么?只要让模型生成8个候选答案再挑最好的,9道题里几乎能对9道。CHIMERA训练不仅提高了"一次答对"的概率,还让模型的采样多样性变好了——不同的采样能探索到更多的正确推理路径。
数据质量验证

图6:不同数据源的质量评估——GPT-5生成的题目在两个评估模型(o4-mini和gemini-2.5-pro)上都获得了最高质量评分
论文还做了一件事:让o4-mini和gemini-2.5-pro分别评估不同数据源(GPT-5生成、Gemini-3-Pro生成、HLE人工标注)的题目质量。结果GPT-5生成的题目在两个评估器上都拿到最高分。这也解释了为什么CHIMERA选择用GPT-5来出题。
数据污染检测
| 基准 | 8-gram重叠 | 13-gram重叠 |
|---|---|---|
| GPQA-Diamond | 0 | 0 |
| HLE | 7.89×10⁻⁶ | 0 |
和测试基准之间几乎零重叠。GPQA-Diamond的8-gram和13-gram重叠都是0,HLE的8-gram重叠是7.89×10⁻⁶(基本可以忽略),13-gram也是0。CHIMERA的性能提升不是因为"见过题目",而是真的学到了推理能力。
🔬 CHIMERA数据集长什么样?
来看看关键统计数据:
| 数据集 | 样本数 | 学科数 | 主题数 | 题目平均长度 | 解题轨迹平均长度 |
|---|---|---|---|---|---|
| GSM8K | 7,473 | 1 | – | 45.1 | 51.7 |
| MATH | 7,500 | 1 | – | 33.0 | 89.5 |
| DAPO-Math-17K | 17,398 | 1 | – | 42.5 | – |
| DeepMath-103K | 103,022 | 1 | – | 33.7 | 2,959.2 |
| OpenScience | 315,579 | – | – | 76.1 | 1,296.8 |
| CHIMERA | 9,225 | 8 | 1,179 | 211.1 | 11,121.4 |
几个数字跳出来了:
解题轨迹长度11,121个token。 这比DeepMath-103K的2,959长了将近4倍,比OpenScience的1,297长了8倍多。长轨迹意味着推理过程更详细——模型不是直接给答案,而是一步步写出完整的思考过程,包括试错、回溯、验证。这种"啰嗦"的推理对SFT来说是金矿——模型能从中学到怎么"慢慢想"而不是"拍脑袋答"。
题目长度211个token。 也远超其他数据集(多数在30-80之间)。题目本身就足够复杂和自包含,不是那种一行就能写完的简单数学题。
8个学科、1,179个主题。 这是CHIMERA和纯数学数据集的最大区别。有了跨学科覆盖,模型在GPQA-Diamond这种涵盖物理、化学、生物的综合基准上才能不掉链子。
💡 我的思考
"少而精"的数据策略为什么有效?
CHIMERA最反直觉的地方在于:9K数据就够了。这和深度学习圈"数据越多越好"的直觉完全相反。
背后的逻辑其实不复杂:推理能力的学习不像知识记忆——你不需要见过一万道三角函数题才能学会三角函数,关键是要见过足够难、推理过程足够详细的示例。CHIMERA的每条数据平均11K token的推理轨迹,信息密度极高。打个比方,1条CHIMERA数据可能相当于10条GSM8K数据的"营养价值"。
另外一个角度:OpenScience用315K数据反而让模型退步的现象,说明数据难度不匹配比数据不足更可怕。如果训练数据对模型来说太简单(正确率88%+),SFT实际上是在教模型"遇到简单题时怎么回答"——这不仅没帮助,还可能覆盖掉模型原本在难题上的推理策略。CHIMERA的37.5%基础正确率恰好在甜区:够难,让模型有东西学;但不至于难到完全学不动。
三阶段流水线的可复制性
CHIMERA的三阶段流水线设计得相当模块化:
- 学科扩展(GPT-5)→ 任何强指令跟随模型都能做
- 题目生成+双模型验证(GPT-5 + o4-mini)→ 核心质量把关环节
- 解题轨迹合成(Qwen3-235B)→ 开源模型,可复现
如果想复刻这条路线,最大的门槛是第二阶段的出题质量。GPT-5出的题目在多个评估器上质量最高(图6),换成开源模型出题会不会打折扣?论文没做这个消融。
另外,用o4-mini做RL的奖励模型,这意味着RL阶段还是依赖闭源模型。纯开源复现的话,奖励模型这块需要找替代方案。
和蒸馏方案的对比
DeepSeek-R1-Distill-Llama-70B是一个经典的蒸馏方案:用DeepSeek-R1的输出去训练Llama-70B。但它在表2中的表现——GPQA-D 65.2%、AIME24 70.0%、AIME25 55.3%——和CHIMERA训练的4B模型相比全面落后。70B蒸馏模型打不过4B+CHIMERA,这个结果很有说服力:精心设计的合成数据比简单的大模型蒸馏更有效。
不过要注意一点:CHIMERA用的基座是Qwen3-4B-Thinking-2507,这本身就是一个经过推理优化的模型。如果换成一个纯base模型(比如Qwen3-4B不带Thinking后缀),效果可能会大打折扣。CHIMERA的成功是建立在"强基座+高质量数据"的叠加之上的。
局限性
学科覆盖的不均匀——数学占48.3%,语言学只有3.4%。这种分布偏差会导致模型在文科类推理上的提升有限。HLE从7.3%只涨到9.0%,可能就和HLE中包含大量非数学领域的题目有关。
RL阶段的增量有限——从表3看,RL在SFT基础上的提升多数在1-2个点。这可能是因为只有1个epoch的RL、9K数据中RL可用的(模型解不出的)题目数量有限。如果能扩大RL阶段的数据量,效果可能更好。
评估基准的覆盖面——论文主要测了数学和科学类基准(AIME、HMMT、GPQA-D),代码推理(如SWE-bench)、多模态推理等方向没有覆盖。CHIMERA在非数学推理上的泛化能力还需要更多验证。
工程落地建议
如果你想用CHIMERA的思路来训练自己的推理模型:
- 基座很重要。选一个已经有推理能力的基座模型(如Qwen3系列的Thinking版本),不要从纯base模型开始
- 关注数据难度。先用你的基座模型跑一遍候选数据集,如果正确率超过80%,这些数据对SFT来说价值不大
- 推理轨迹要长。短轨迹(几十个token)教不会模型"慢思考",瞄准5000+ token级别的详细推理过程
- 双模型验证不能省。单模型验证出题质量很难把控,至少两个不同模型交叉检查
- SFT和RL分开来。正确轨迹给SFT,解不出的难题给RL——这个分工很合理
📝 总结
CHIMERA这篇论文传递了一个清晰的信号:在推理数据这件事上,精心设计的少量数据可以完胜海量平庸数据。9,225条样本,覆盖8个学科、1,179个主题,每条平均11K token的长链推理轨迹——这就是全部。用它训练的4B模型在GPQA-Diamond上70.1%、AIME24上86.9%,和DeepSeek-R1(671B)、Qwen3-235B在同一个档次。
三阶段流水线(学科扩展→题目生成→轨迹合成)是一个可复制的框架,核心思想是"让不同模型干各自擅长的事"。GPT-5擅长出题,就让它出题;Qwen3-235B擅长推理,就让它解题。双模型交叉验证保证了数据质量,高难度定位(基座正确率37.5%)保证了数据的训练价值。
最让人印象深刻的对比是CHIMERA (9K) vs OpenScience (315K):前者全面碾压后者,后者甚至让模型退步。这个结果给"大力出奇迹"的数据思维泼了一盆冷水——在推理领域,数据的难度、多样性和轨迹质量,远比规模重要。