Chinchilla 法则过时了？当推理预算纳入考量，过度训练小模型才是最优解

你有没有注意到一个很有意思的趋势——LLaMA 3 用了 15T tokens 训练一个 8B 的模型，每个参数对应快 2000 个 token。而 Chinchilla 法则告诉你，最优比例大概是 20 个 token 对应一个参数。

差了两个数量级。

业界早就在"违反" Chinchilla 了，但一直缺少一套完整的理论解释。这篇来自威斯康星大学麦迪逊分校和斯坦福的论文，终于把这件事说清楚了：当你把推理阶段的计算开销也纳入优化目标，过度训练（overtraining）不是退而求其次的工程妥协，而是数学上的最优解。

📖 核心摘要

痛点：经典 Chinchilla scaling law 只优化训练阶段的计算分配，完全忽略推理成本。但现实中，模型部署后要做大量推理，尤其是 test-time scaling（重复采样、pass@k）正在成为主流范式。

方案：作者提出 T\(^2\)（Train-to-Test）scaling laws，把模型大小 \(N\)、训练 token 数 \(D\)、推理采样次数 \(k\) 三者放在统一的计算预算下联合优化。两条互补路线——一条建模 NLL loss，一条直接建模 pass@k 准确率。

效果：在 8 个下游任务上，过度训练的 37M 小模型（配合多次采样）在相同总算力下，性能碾压 Chinchilla 最优的 455M-901M 模型。LAMBADA 上 49.90% vs 27.30%，Simple Reasoning 上 57.90% vs 18.40%。

定位：这不是一篇增量改进的论文，而是对 scaling law 这个基础问题的范式级修正。如果你还在用"每参数 20 token"的经验法则做训练规划，这篇论文会让你重新审视整个决策框架。

📖 论文信息

标题：Test-Time Scaling Makes Overtraining Compute-Optimal
作者：Nicholas Roberts, Sungjun Cho, Zhiqi Gao, Tzu-Heng Huang, Albert Wu, Gabriel Orlanski, Avi Trost, Kelly Buchanan, Aws Albarghouthi, Frederic Sala
机构：University of Wisconsin-Madison, Stanford University
日期：2026 年 4 月 1 日
链接：https://arxiv.org/abs/2604.01411

🎯 问题动机：Chinchilla 法则到底哪里不对？

2022 年 DeepMind 提出 Chinchilla scaling law，核心结论是：给定计算预算 \(C\)，模型参数量 \(N\) 和训练 token 数 \(D\) 应该同比例增长，大约每个参数对应 20 个 token。这个结论影响了整个行业的训练资源规划。

但 Chinchilla 有个关键盲区——它只优化了训练阶段，完全没考虑模型部署后的推理成本。

这在 2022 年的语境下还算合理，因为那时的推理基本就是一次前向传播。但现在情况变了。

随着 test-time scaling 成为主流——OpenAI o1 系列的链式推理、best-of-N 采样、pass@k 评估——推理阶段的计算开销已经不可忽视。一个 70B 模型做一次推理，和一个 7B 模型做 10 次推理然后选最好的，哪个更划算？Chinchilla 法则回答不了这个问题。

作者的洞察很直接：如果推理时要做多次采样，那小模型天然有优势——同样的推理预算，小模型能采更多次。而采样次数的增加对准确率的提升，可能远超模型参数量增大带来的收益。

顺着这个逻辑推下去，训练阶段就应该把模型做小、但训练更多 token——也就是过度训练。

图 1：T2 Scaling 的核心思路——把 Chinchilla 预训练 scaling 和 pass@k 推理 scaling 统一起来

图 1：整个框架的直觉。左边是经典 Chinchilla scaling（只看训练），中间是 pass@k scaling（只看推理采样），右边是 T\(^2\) scaling（两者联合优化）。当引入推理预算约束后，最优点会从 Chinchilla 推荐的大模型位置，大幅偏移到更小、训练更久的模型上。

🏗️ 方法核心：两条路线殊途同归

作者提出了两种互补的建模方式，分别从不同角度逼近同一个问题。

统一的算力框架

先把问题形式化。训练开销 \(C_{\text{train}} \approx 6ND\)，推理开销 \(C_{\text{inf}} \approx 2Nk\)（\(k\) 是采样次数）。给定固定的推理预算 \(C_{\text{inf}}\)，能采样的次数就是：

\[k = \frac{C_{\text{inf}}}{2N}\]

模型越小，\(k\) 越大。这个简单的关系是整篇论文的核心杠杆。

Approach 1：Loss-based（NLL 建模）

在 Chinchilla 的 loss 公式上加一项 pass@k 的贡献：

\[\hat{L}(N, D, k) = E + \frac{A}{N^{\alpha}} + \frac{B}{D^{\beta}} + \frac{G}{k^{\gamma}}\]

前三项就是经典 Chinchilla 公式（不可约误差 + 模型容量不足 + 数据不足），最后一项 \(G/k^{\gamma}\) 捕捉了重复采样带来的收益递减。

把 \(k = C_{\text{inf}} / 2N\) 代入，整个优化问题就变成了：在训练预算 \(C_{\text{train}}\) 下，最小化 \(\hat{L}(N, D, C_{\text{inf}}/2N)\)。

Approach 2：Accuracy-based（Beta 分布回归）

直接建模 pass@k 准确率，而不是走 loss 这个中间量。

核心思路是用 Beta 分布来建模不同题目的难度分布。每个任务的每道题有一个正确概率 \(p_i\)，pass@k 就是 \(1 - (1-p_i)^k\)。作者用 Beta 分布来参数化 \(p_i\) 的分布，其均值 \(\mu\) 和方差通过模型 loss 来预测：

\[\mu_{N,D} = \frac{\theta_2}{1 + \exp(\theta_1 \cdot (\hat{L}(N,D) - \theta_0))}\]

这个设计挺精巧的——它不是直接拟合一个数，而是建模了整个难度分布，所以能自然处理不同难度的任务。

两条路线为什么能一致？

Approach 1 建模的是 loss（越低越好），Approach 2 建模的是准确率（越高越好），维度完全不同。但两者给出的最优配置却高度一致——都指向更小、训练更久的模型。

这其实挺让人放心的。如果只有一种方法，你可能会怀疑是拟合偏差。两种完全不同的建模范式得出相同结论，说明这个现象是真实的。

🧪 实验设计

模型和数据

作者用了一套非常扎实的 checkpoint grid。基础部分复用了 Porian et al. (2024) 的 106 个模型（5M 到 901M 参数，在 RefinedWeb 上训练 50M 到 120B tokens）。在此基础上，又额外从头训练了 21 个过度训练的模型。

图 6：Checkpoint grid 热力图，显示了不同模型大小和训练 FLOPs 的组合

图 6：Checkpoint grid 的全貌。白格是 Porian et al. (2024) 的原有 checkpoint，橙色格是作者新增的过度训练 checkpoint。每个格子里的数字是在该配置下可用的评估采样数。可以看到橙色 checkpoint 集中在左下角——小模型、大 token 数的区域。

训练配置：AdamW 优化器（lr=3e-3），batch size 256 序列（每条 2048 tokens），cosine decay，bfloat16 精度。

评测任务

8 个下游任务，分两类： - 真实任务（4 个）：LAMBADA、ARC-Easy、SciQ、OpenBookQA - 合成任务（4 个）：Simple Knowledge、Simple Reasoning、Commonsense Causal、Spatial Reasoning

推理预算统一设为 \(C_{\text{inf}} = 2 \times 10^9\) FLOPs，大约相当于一个 70B 模型跑一次前向传播的开销。

📊 实验结果：数据说话

RQ1：最优训练策略怎么变了？

图 2：当考虑推理预算时，最优的 D/N 比例、模型大小 N、训练 token 数 D 如何随训练 FLOPs 变化

图 2：三张子图分别展示最优 D/N 比、最优模型大小 N、最优训练 token 数 D 随训练 FLOPs 的变化。黑色虚线是 Chinchilla（Hoffmann et al. 2022）的推荐，蓝色线是 Approach 1，红色线是 Approach 2。结论很清晰：T\(^2\) 推荐的 D/N 比显著高于 Chinchilla，模型大小显著更小，训练 token 数显著更多。

这张图的信息量很大。看左图，Chinchilla 推荐的 D/N 比基本稳定在 20 左右（灰色虚线），而 T\(^2\) 的两种 Approach 在高训练预算下都推荐 \(10^3\) 到 \(10^5\) 量级的 D/N 比——差了两到三个数量级。

中间的图更直观：在 \(10^{25}\) FLOPs 的训练预算下，Chinchilla 推荐大约 \(10^{11}\)（千亿级）参数的模型，而 T\(^2\) 推荐 \(10^{8}\) 到 \(10^{9}\)（亿级）——小了两到三个数量级。

这个偏移幅度坦率讲有点吓人。不是微调，是数量级的差异。

RQ2：对过度训练模型的预测准不准？

图 3：标准 Chinchilla（左列）和加入推理预算修正（右列）的 scaling 曲线对比

图 3：四象限对比图。左列是不考虑推理预算的标准 Chinchilla 视角，右列是加入推理预算修正后的 T\(^2\) 视角。上行是 Approach 1（NLL），下行是 Approach 2（Accuracy）。黑色粗线是 Chinchilla 最优前沿，蓝色/红色线是 T\(^2\) 最优前沿。右列中可以看到，当模型足够小（能采样足够多次）时，性能会远超 Chinchilla 最优点。

图 4：预测值 vs 实际观测值的散点图

图 4：模型预测的外推能力验证。上图是 Approach 1（NLL），下图是 Approach 2（Accuracy）。灰点是用于拟合的原始 checkpoint（Porian et al. 2024），绿点是新训练的过度训练 checkpoint。Approach 1 在外推到过度训练区域时的相对误差仅 2.8%，Approach 2 为 8.4%。

这个验证步骤做得很到位。绿色的点是作者额外训练的过度训练模型，没参与拟合。Approach 1 的 2.8% 相对误差说明 scaling law 对过度训练区域的外推是可靠的。Approach 2 的 8.4% 稍大一些，但考虑到它直接建模准确率（比 loss 更难拟合），这个误差也可以接受。

主实验表：过度训练 vs Chinchilla 最优

在训练预算 \(C_{\text{train}} = 2.56 \times 10^{19}\) FLOPs、推理预算 \(C_{\text{inf}} = 2 \times 10^9\) FLOPs 的条件下：

任务	最优过度训练模型（pass@k）	模型大小	Chinchilla 最优（pass@k）	模型大小
LAMBADA OpenAI	49.90%	37M	27.30%	455M
OpenBookQA	1.40%	37M	0.30%	901M
SciQ	1.20%	37M	0.22%	611M
ARC-Easy	0.14%	149M	0.07%	611M
Simple Knowledge	14.60%	84M	5.80%	901M
Simple Reasoning	57.90%	37M	18.40%	901M
Commonsense Causal	8.10%	37M	1.40%	901M
Spatial Reasoning	6.00%	37M	1.10%	901M

说实话，看到这张表我愣了一下。37M 的模型，参数量是 901M 模型的 4%，pass@k 准确率却高出数倍。LAMBADA 上 49.90% vs 27.30%，Simple Reasoning 上 57.90% vs 18.40%。

不过要注意一个细节——这里的绝对准确率普遍不高（很多任务低于 10%）。这是因为模型本身较小（最大 901M），而且评测标准是严格的 pass@k。但相对提升是实打实的。

RQ3：后训练会不会改变结论？

一个自然的疑问是：过度训练在 base model 上有效，经过 fine-tuning 之后呢？

任务	方法	最优过度训练	模型大小	Chinchilla 最优	模型大小
OpenBookQA	FT	2.80%	37M	0.45%	901M
SciQ	FT	56.10%	149M	29.00%	901M
ARC-Easy	FT	5.60%	149M	1.50%	901M
OpenBookQA	SFT	2.60%	37M	0.38%	901M
SciQ	SFT	66.80%	84M	57.60%	901M
ARC-Easy	SFT	8.20%	37M	3.40%	455M

FT 是标准 fine-tuning（loss 算在 instruction + completion 上），SFT 是只算 completion 的监督微调。

结论很明确：后训练不会推翻过度训练的优势。虽然 fine-tuning 会缩小一些差距（尤其 SFT 在 SciQ 上 66.80% vs 57.60%，差距收窄了），但最优前沿仍然稳定地偏向小模型 + 过度训练。

图 5：后训练后的最优 D/N 比变化

图 5：后训练后最优 tokens-per-parameter 比例的变化。上行是 Approach 1，下行是 Approach 2。黑色虚线是 Chinchilla 推荐，蓝色/红色虚线是 base model 的 T\(^2\) 推荐，紫色和绿色实线分别是 FT 和 SFT 后的推荐。后训练确实让最优比例往 Chinchilla 方向回退了一些（因为 fine-tuning 本身也会改善性能，削弱了多次采样的边际收益），但仍然远高于 Chinchilla 推荐。

🔬 批判性分析

亮点

1. 问题提得好。 把训练和推理放在统一框架下优化，这个问题本身就很有价值。业界早就在"凭感觉"做过度训练（LLaMA 系列就是典型），这篇论文给出了理论依据。

2. 两种方法的交叉验证。 用两种完全不同的建模范式（loss vs accuracy）得到一致结论，这比单一方法更有说服力。

3. 实验诚实度高。 额外训练了 21 个过度训练 checkpoint 来验证外推能力，不是只在拟合范围内自说自话。

值得商榷的地方

1. 推理范式的局限性。 论文假设 test-time scaling = 重复采样（pass@k），但现实中的 test-time scaling 形式更多样——chain-of-thought、tree search、self-correction 等。pass@k 是最简单的一种，也是对模型能力要求最低的一种。更复杂的推理策略可能需要模型本身有更强的基础能力，这时候过度训练小模型的优势还能保持吗？

我觉得这是一个比较大的开放问题。pass@k 说到底是"量取胜"，而 chain-of-thought 更接近"质取胜"。后者对模型内在推理能力的要求更高，小模型即使采样 1000 次可能也跑不出正确的推理链。

2. 模型规模天花板。 实验中最大的模型是 901M，这在今天看来相当小。在更大的规模（比如 7B-70B）上，过度训练的收益递减曲线可能完全不同。作者自己也承认了这个局限——"future work should study scale and model architecture more carefully."

3. 推理预算的设定。 \(C_{\text{inf}} = 2 \times 10^9\) FLOPs（约等于 70B 模型的一次前向传播），这个预算其实不大。在实际部署中，如果推理预算更充裕或更紧张，最优配置可能会有显著变化。论文对不同 \(C_{\text{inf}}\) 的敏感性分析不够充分。

4. 评估公平性。 pass@k 评估天然有利于"能产生更多样本"的配置。小模型在相同推理预算下能采更多次，这几乎是 pass@k 指标本身的结构性偏好，而不完全是模型能力的反映。如果用 majority voting 或者更复杂的选择策略，结论可能会有不同。

跟同期工作的关系

过度训练的实践其实并不新鲜。Meta 的 LLaMA 系列从一开始就在大幅过度训练（LLaMA 1 用 1T tokens 训练 7B 模型，D/N 比约 143）。Sardana & Frankle (2024) 也研究过推理最优的 scaling law。这篇论文的独特贡献在于提供了一个严格的数学框架，把"模型大小-训练量-推理采样"三者统一起来。

💡 我的判断

这篇论文的核心贡献是概念层面的——它让"Chinchilla 法则只考虑了一半问题"这件事变得不可回避。

从工程落地的角度看，有几个启发：

1. 训练规划要考虑部署场景。 如果你的应用会用到 test-time scaling（pass@k、best-of-N、self-consistency 等），那训练时就应该往小模型 + 更多数据的方向偏。不是感觉上偏一点，而是偏很多。

2. 小模型的价值被低估了。 在推理密集型场景下，一个训练充分的小模型可能比一个"Chinchilla 最优"的大模型更有性价比。这对端侧部署、低延迟场景特别有意义。

3. 但不要过度外推。 论文的实验规模（最大 901M）离实际大模型训练还有距离。在 7B+ 规模上，过度训练的收益可能没这么夸张。而且，更复杂的推理策略（不只是 pass@k）可能会改变最优配置的位置。

说到底，这篇论文回答的是一个很根本的问题：在给定总算力（训练 + 推理）的约束下，怎么分配资源最合理？ 答案是——比你以为的更偏向小模型和更多训练数据。

这个结论直觉上也说得通。推理是一次性的训练成本被无数次推理调用摊薄的过程。模型越小、推理越便宜，摊薄的效率越高。Chinchilla 法则之所以推荐大模型，是因为它完全没考虑这个摊薄效应。

当然，有个地方我没完全想清楚：当 test-time scaling 的形式从简单的重复采样升级到更复杂的推理策略时，这套框架还能用吗？这可能是接下来最值得关注的方向。

觉得有启发的话，欢迎点赞、在看、转发。跟进最新AI前沿，关注我