Chinchilla 法则过时了?当推理预算纳入考量,过度训练小模型才是最优解
你有没有注意到一个很有意思的趋势——LLaMA 3 用了 15T tokens 训练一个 8B 的模型,每个参数对应快 2000 个 token。而 Chinchilla 法则告诉你,最优比例大概是 20 个 token 对应一个参数。
差了两个数量级。
业界早就在"违反" Chinchilla 了,但一直缺少一套完整的理论解释。这篇来自威斯康星大学麦迪逊分校和斯坦福的论文,终于把这件事说清楚了:当你把推理阶段的计算开销也纳入优化目标,过度训练(overtraining)不是退而求其次的工程妥协,而是数学上的最优解。
📖 核心摘要
痛点:经典 Chinchilla scaling law 只优化训练阶段的计算分配,完全忽略推理成本。但现实中,模型部署后要做大量推理,尤其是 test-time scaling(重复采样、pass@k)正在成为主流范式。
方案:作者提出 T\(^2\)(Train-to-Test)scaling laws,把模型大小 \(N\)、训练 token 数 \(D\)、推理采样次数 \(k\) 三者放在统一的计算预算下联合优化。两条互补路线——一条建模 NLL loss,一条直接建模 pass@k 准确率。
效果:在 8 个下游任务上,过度训练的 37M 小模型(配合多次采样)在相同总算力下,性能碾压 Chinchilla 最优的 455M-901M 模型。LAMBADA 上 49.90% vs 27.30%,Simple Reasoning 上 57.90% vs 18.40%。
定位:这不是一篇增量改进的论文,而是对 scaling law 这个基础问题的范式级修正。如果你还在用"每参数 20 token"的经验法则做训练规划,这篇论文会让你重新审视整个决策框架。
📖 论文信息
- 标题:Test-Time Scaling Makes Overtraining Compute-Optimal
- 作者:Nicholas Roberts, Sungjun Cho, Zhiqi Gao, Tzu-Heng Huang, Albert Wu, Gabriel Orlanski, Avi Trost, Kelly Buchanan, Aws Albarghouthi, Frederic Sala
- 机构:University of Wisconsin-Madison, Stanford University
- 日期:2026 年 4 月 1 日
- 链接:https://arxiv.org/abs/2604.01411
🎯 问题动机:Chinchilla 法则到底哪里不对?
2022 年 DeepMind 提出 Chinchilla scaling law,核心结论是:给定计算预算 \(C\),模型参数量 \(N\) 和训练 token 数 \(D\) 应该同比例增长,大约每个参数对应 20 个 token。这个结论影响了整个行业的训练资源规划。
但 Chinchilla 有个关键盲区——它只优化了训练阶段,完全没考虑模型部署后的推理成本。
这在 2022 年的语境下还算合理,因为那时的推理基本就是一次前向传播。但现在情况变了。
随着 test-time scaling 成为主流——OpenAI o1 系列的链式推理、best-of-N 采样、pass@k 评估——推理阶段的计算开销已经不可忽视。一个 70B 模型做一次推理,和一个 7B 模型做 10 次推理然后选最好的,哪个更划算?Chinchilla 法则回答不了这个问题。
作者的洞察很直接:如果推理时要做多次采样,那小模型天然有优势——同样的推理预算,小模型能采更多次。而采样次数的增加对准确率的提升,可能远超模型参数量增大带来的收益。
顺着这个逻辑推下去,训练阶段就应该把模型做小、但训练更多 token——也就是过度训练。

图 1:整个框架的直觉。左边是经典 Chinchilla scaling(只看训练),中间是 pass@k scaling(只看推理采样),右边是 T\(^2\) scaling(两者联合优化)。当引入推理预算约束后,最优点会从 Chinchilla 推荐的大模型位置,大幅偏移到更小、训练更久的模型上。
🏗️ 方法核心:两条路线殊途同归
作者提出了两种互补的建模方式,分别从不同角度逼近同一个问题。
统一的算力框架
先把问题形式化。训练开销 \(C_{\text{train}} \approx 6ND\),推理开销 \(C_{\text{inf}} \approx 2Nk\)(\(k\) 是采样次数)。给定固定的推理预算 \(C_{\text{inf}}\),能采样的次数就是:
模型越小,\(k\) 越大。这个简单的关系是整篇论文的核心杠杆。
Approach 1:Loss-based(NLL 建模)
在 Chinchilla 的 loss 公式上加一项 pass@k 的贡献:
前三项就是经典 Chinchilla 公式(不可约误差 + 模型容量不足 + 数据不足),最后一项 \(G/k^{\gamma}\) 捕捉了重复采样带来的收益递减。
把 \(k = C_{\text{inf}} / 2N\) 代入,整个优化问题就变成了:在训练预算 \(C_{\text{train}}\) 下,最小化 \(\hat{L}(N, D, C_{\text{inf}}/2N)\)。
Approach 2:Accuracy-based(Beta 分布回归)
直接建模 pass@k 准确率,而不是走 loss 这个中间量。
核心思路是用 Beta 分布来建模不同题目的难度分布。每个任务的每道题有一个正确概率 \(p_i\),pass@k 就是 \(1 - (1-p_i)^k\)。作者用 Beta 分布来参数化 \(p_i\) 的分布,其均值 \(\mu\) 和方差通过模型 loss 来预测:
这个设计挺精巧的——它不是直接拟合一个数,而是建模了整个难度分布,所以能自然处理不同难度的任务。
两条路线为什么能一致?
Approach 1 建模的是 loss(越低越好),Approach 2 建模的是准确率(越高越好),维度完全不同。但两者给出的最优配置却高度一致——都指向更小、训练更久的模型。
这其实挺让人放心的。如果只有一种方法,你可能会怀疑是拟合偏差。两种完全不同的建模范式得出相同结论,说明这个现象是真实的。
🧪 实验设计
模型和数据
作者用了一套非常扎实的 checkpoint grid。基础部分复用了 Porian et al. (2024) 的 106 个模型(5M 到 901M 参数,在 RefinedWeb 上训练 50M 到 120B tokens)。在此基础上,又额外从头训练了 21 个过度训练的模型。

图 6:Checkpoint grid 的全貌。白格是 Porian et al. (2024) 的原有 checkpoint,橙色格是作者新增的过度训练 checkpoint。每个格子里的数字是在该配置下可用的评估采样数。可以看到橙色 checkpoint 集中在左下角——小模型、大 token 数的区域。
训练配置:AdamW 优化器(lr=3e-3),batch size 256 序列(每条 2048 tokens),cosine decay,bfloat16 精度。
评测任务
8 个下游任务,分两类: - 真实任务(4 个):LAMBADA、ARC-Easy、SciQ、OpenBookQA - 合成任务(4 个):Simple Knowledge、Simple Reasoning、Commonsense Causal、Spatial Reasoning
推理预算统一设为 \(C_{\text{inf}} = 2 \times 10^9\) FLOPs,大约相当于一个 70B 模型跑一次前向传播的开销。
📊 实验结果:数据说话
RQ1:最优训练策略怎么变了?

图 2:三张子图分别展示最优 D/N 比、最优模型大小 N、最优训练 token 数 D 随训练 FLOPs 的变化。黑色虚线是 Chinchilla(Hoffmann et al. 2022)的推荐,蓝色线是 Approach 1,红色线是 Approach 2。结论很清晰:T\(^2\) 推荐的 D/N 比显著高于 Chinchilla,模型大小显著更小,训练 token 数显著更多。
这张图的信息量很大。看左图,Chinchilla 推荐的 D/N 比基本稳定在 20 左右(灰色虚线),而 T\(^2\) 的两种 Approach 在高训练预算下都推荐 \(10^3\) 到 \(10^5\) 量级的 D/N 比——差了两到三个数量级。
中间的图更直观:在 \(10^{25}\) FLOPs 的训练预算下,Chinchilla 推荐大约 \(10^{11}\)(千亿级)参数的模型,而 T\(^2\) 推荐 \(10^{8}\) 到 \(10^{9}\)(亿级)——小了两到三个数量级。
这个偏移幅度坦率讲有点吓人。不是微调,是数量级的差异。
RQ2:对过度训练模型的预测准不准?

图 3:四象限对比图。左列是不考虑推理预算的标准 Chinchilla 视角,右列是加入推理预算修正后的 T\(^2\) 视角。上行是 Approach 1(NLL),下行是 Approach 2(Accuracy)。黑色粗线是 Chinchilla 最优前沿,蓝色/红色线是 T\(^2\) 最优前沿。右列中可以看到,当模型足够小(能采样足够多次)时,性能会远超 Chinchilla 最优点。

图 4:模型预测的外推能力验证。上图是 Approach 1(NLL),下图是 Approach 2(Accuracy)。灰点是用于拟合的原始 checkpoint(Porian et al. 2024),绿点是新训练的过度训练 checkpoint。Approach 1 在外推到过度训练区域时的相对误差仅 2.8%,Approach 2 为 8.4%。
这个验证步骤做得很到位。绿色的点是作者额外训练的过度训练模型,没参与拟合。Approach 1 的 2.8% 相对误差说明 scaling law 对过度训练区域的外推是可靠的。Approach 2 的 8.4% 稍大一些,但考虑到它直接建模准确率(比 loss 更难拟合),这个误差也可以接受。
主实验表:过度训练 vs Chinchilla 最优
在训练预算 \(C_{\text{train}} = 2.56 \times 10^{19}\) FLOPs、推理预算 \(C_{\text{inf}} = 2 \times 10^9\) FLOPs 的条件下:
| 任务 | 最优过度训练模型(pass@k) | 模型大小 | Chinchilla 最优(pass@k) | 模型大小 |
|---|---|---|---|---|
| LAMBADA OpenAI | 49.90% | 37M | 27.30% | 455M |
| OpenBookQA | 1.40% | 37M | 0.30% | 901M |
| SciQ | 1.20% | 37M | 0.22% | 611M |
| ARC-Easy | 0.14% | 149M | 0.07% | 611M |
| Simple Knowledge | 14.60% | 84M | 5.80% | 901M |
| Simple Reasoning | 57.90% | 37M | 18.40% | 901M |
| Commonsense Causal | 8.10% | 37M | 1.40% | 901M |
| Spatial Reasoning | 6.00% | 37M | 1.10% | 901M |
说实话,看到这张表我愣了一下。37M 的模型,参数量是 901M 模型的 4%,pass@k 准确率却高出数倍。LAMBADA 上 49.90% vs 27.30%,Simple Reasoning 上 57.90% vs 18.40%。
不过要注意一个细节——这里的绝对准确率普遍不高(很多任务低于 10%)。这是因为模型本身较小(最大 901M),而且评测标准是严格的 pass@k。但相对提升是实打实的。
RQ3:后训练会不会改变结论?
一个自然的疑问是:过度训练在 base model 上有效,经过 fine-tuning 之后呢?
| 任务 | 方法 | 最优过度训练 | 模型大小 | Chinchilla 最优 | 模型大小 |
|---|---|---|---|---|---|
| OpenBookQA | FT | 2.80% | 37M | 0.45% | 901M |
| SciQ | FT | 56.10% | 149M | 29.00% | 901M |
| ARC-Easy | FT | 5.60% | 149M | 1.50% | 901M |
| OpenBookQA | SFT | 2.60% | 37M | 0.38% | 901M |
| SciQ | SFT | 66.80% | 84M | 57.60% | 901M |
| ARC-Easy | SFT | 8.20% | 37M | 3.40% | 455M |
FT 是标准 fine-tuning(loss 算在 instruction + completion 上),SFT 是只算 completion 的监督微调。
结论很明确:后训练不会推翻过度训练的优势。虽然 fine-tuning 会缩小一些差距(尤其 SFT 在 SciQ 上 66.80% vs 57.60%,差距收窄了),但最优前沿仍然稳定地偏向小模型 + 过度训练。

图 5:后训练后最优 tokens-per-parameter 比例的变化。上行是 Approach 1,下行是 Approach 2。黑色虚线是 Chinchilla 推荐,蓝色/红色虚线是 base model 的 T\(^2\) 推荐,紫色和绿色实线分别是 FT 和 SFT 后的推荐。后训练确实让最优比例往 Chinchilla 方向回退了一些(因为 fine-tuning 本身也会改善性能,削弱了多次采样的边际收益),但仍然远高于 Chinchilla 推荐。
🔬 批判性分析
亮点
1. 问题提得好。 把训练和推理放在统一框架下优化,这个问题本身就很有价值。业界早就在"凭感觉"做过度训练(LLaMA 系列就是典型),这篇论文给出了理论依据。
2. 两种方法的交叉验证。 用两种完全不同的建模范式(loss vs accuracy)得到一致结论,这比单一方法更有说服力。
3. 实验诚实度高。 额外训练了 21 个过度训练 checkpoint 来验证外推能力,不是只在拟合范围内自说自话。
值得商榷的地方
1. 推理范式的局限性。 论文假设 test-time scaling = 重复采样(pass@k),但现实中的 test-time scaling 形式更多样——chain-of-thought、tree search、self-correction 等。pass@k 是最简单的一种,也是对模型能力要求最低的一种。更复杂的推理策略可能需要模型本身有更强的基础能力,这时候过度训练小模型的优势还能保持吗?
我觉得这是一个比较大的开放问题。pass@k 说到底是"量取胜",而 chain-of-thought 更接近"质取胜"。后者对模型内在推理能力的要求更高,小模型即使采样 1000 次可能也跑不出正确的推理链。
2. 模型规模天花板。 实验中最大的模型是 901M,这在今天看来相当小。在更大的规模(比如 7B-70B)上,过度训练的收益递减曲线可能完全不同。作者自己也承认了这个局限——"future work should study scale and model architecture more carefully."
3. 推理预算的设定。 \(C_{\text{inf}} = 2 \times 10^9\) FLOPs(约等于 70B 模型的一次前向传播),这个预算其实不大。在实际部署中,如果推理预算更充裕或更紧张,最优配置可能会有显著变化。论文对不同 \(C_{\text{inf}}\) 的敏感性分析不够充分。
4. 评估公平性。 pass@k 评估天然有利于"能产生更多样本"的配置。小模型在相同推理预算下能采更多次,这几乎是 pass@k 指标本身的结构性偏好,而不完全是模型能力的反映。如果用 majority voting 或者更复杂的选择策略,结论可能会有不同。
跟同期工作的关系
过度训练的实践其实并不新鲜。Meta 的 LLaMA 系列从一开始就在大幅过度训练(LLaMA 1 用 1T tokens 训练 7B 模型,D/N 比约 143)。Sardana & Frankle (2024) 也研究过推理最优的 scaling law。这篇论文的独特贡献在于提供了一个严格的数学框架,把"模型大小-训练量-推理采样"三者统一起来。
💡 我的判断
这篇论文的核心贡献是概念层面的——它让"Chinchilla 法则只考虑了一半问题"这件事变得不可回避。
从工程落地的角度看,有几个启发:
1. 训练规划要考虑部署场景。 如果你的应用会用到 test-time scaling(pass@k、best-of-N、self-consistency 等),那训练时就应该往小模型 + 更多数据的方向偏。不是感觉上偏一点,而是偏很多。
2. 小模型的价值被低估了。 在推理密集型场景下,一个训练充分的小模型可能比一个"Chinchilla 最优"的大模型更有性价比。这对端侧部署、低延迟场景特别有意义。
3. 但不要过度外推。 论文的实验规模(最大 901M)离实际大模型训练还有距离。在 7B+ 规模上,过度训练的收益可能没这么夸张。而且,更复杂的推理策略(不只是 pass@k)可能会改变最优配置的位置。
说到底,这篇论文回答的是一个很根本的问题:在给定总算力(训练 + 推理)的约束下,怎么分配资源最合理? 答案是——比你以为的更偏向小模型和更多训练数据。
这个结论直觉上也说得通。推理是一次性的训练成本被无数次推理调用摊薄的过程。模型越小、推理越便宜,摊薄的效率越高。Chinchilla 法则之所以推荐大模型,是因为它完全没考虑这个摊薄效应。
当然,有个地方我没完全想清楚:当 test-time scaling 的形式从简单的重复采样升级到更复杂的推理策略时,这套框架还能用吗?这可能是接下来最值得关注的方向。
觉得有启发的话,欢迎点赞、在看、转发。跟进最新AI前沿,关注我