TMAS：当并行多路推理不够用，怎么让多 Agent 真正"协同"起来？

核心摘要

Test-time scaling 这两年很热——给模型更多 token、更多 trajectory、更多 refinement，效果就会涨。从 CoT 到 Self-Consistency 到 Tree-of-Thoughts 到 DeepSeek-Math-V2 的 verify-refine，方法越来越花哨。但有个问题一直没解决好：当你跑 16 条并行 trajectory，每条之间到底有没有真正的"协同"？还是说只是 16 个独立的 sample 然后投票？

这篇 TMAS 直接对准这个痛点。它把 test-time inference 组织成一个 5 个 agent 的协同过程（Solution / Verification / Summary / Experience / Guideline），引入两层异构记忆：底层 experience bank 存可复用的中间结论和错误教训，顶层 guideline bank 存已经尝试过的策略——注意，guideline bank 不是为了复用，而是为了让下次 rollout 避开重复路径。再配一个 hybrid reward 的 GRPO 训练方案，让模型学会"用经验 + 探索新路径"。

在 AIME、HMMT、IMO 这类硬数学题上，TMAS 比 PaCoRe、RSE 这些经典 trajectory-aggregation 方法 iterative scaling 更稳，4B 模型也能撑住多轮迭代不塌方。

我看到这篇的第一反应是——这是把 multi-agent 这个被滥用的概念，第一次做出了清晰边界的工作。

论文信息

标题：TMAS: Scaling Test-Time Compute via Multi-Agent Synergy
作者：George Wu, Nan Jing, Qing Yi, Chuan Hao, Ming Yang, Feng Chang, Yuan Wei, Jian Yang, Ran Tao, Bryan Dai
机构：IQuest Research、北京航空航天大学
arXiv：https://arxiv.org/abs/2605.10344
代码：https://github.com/george-QF/TMAS-code

为什么"并行推理"经常不 work？

说实话我之前对 multi-agent inference 是有点怀疑的。

我自己在做某个数学推理项目的时候试过：跑 16 路并行，每路 agent 各自做完，最后投票或者让另一个 verifier agent 选。结果呢？大部分时候 16 路里有 14 路在做相同的错误，剩下 2 路也没什么差异。"并行"在这里更像是 batch sampling，不是真正的协同。

为什么？我觉得有两个原因：

第一，并行 trajectory 之间没有信息交换。每条 trajectory 都从 prompt 开始独立 rollout，互相不知道对方在干什么。结果就是大家被同一个 LLM 引导走同一个路径，多样性约等于零。

第二，即使做了 sequential refinement（如 Self-Refine、DeepSeek-Math-V2），历史信息怎么沉淀是个大问题。前几轮的尝试如果直接拼到下一轮 context 里，token 数指数级膨胀；如果做总结，又会丢掉关键细节；如果只保留最优答案，那"探索过的失败路径"这种宝贵信号就完全丢了。

PaCoRe 和 RSE 这两篇是最近做"跨 trajectory 协同"比较有代表性的工作。PaCoRe 用紧凑 message 在 trajectory 间传递；RSE 把历史 trajectory 蒸馏成一个 experience bank。但 TMAS 作者认为这俩还不够——他们的核心 critique 是：

这些方法没有显式区分"哪些历史信息应该保留 / 抛弃"，结果就是 noisy historical signal 把整个 reasoning 给污染了。

这就是 TMAS 想解决的核心问题：用结构化的方式让 multi-agent 真正协同，而不是堆 trajectory + 简单 aggregation。

核心架构：5 个 Agent + 2 层记忆

图1：TMAS 框架总览

图1：TMAS 的整体流程。每轮迭代里，Solution Agent 并行生成 N 个候选解，Verification Agent 独立验证 M 次，Summary Agent 聚合 verification 结果成一个 rollout-level summary。然后 Experience Agent 和 Guideline Agent 并行从所有 rollout 中分别提炼出"底层经验"和"高层策略"，写到对应的记忆库。下一轮 Solution Agent 在生成新候选时，会同时利用这两层记忆——但用法不同，下面细讲。

五个 Agent 的分工

Solution Agent (\(\mathcal{A}_{\text{sol}}\))：生成候选解。每个候选解以概率 \(1-\epsilon\) 走"经验路径"（用 Experience bank refine），以概率 \(\epsilon\) 走"探索路径"（用 Guideline bank 避开已尝试策略）
Verification Agent (\(\mathcal{A}_{\text{ver}}\))：对每个候选解做 M 次独立验证，给出分析反馈 + 分数
Summary Agent (\(\mathcal{A}_{\text{sum}}\))：把 M 次 verification 聚合成一个简洁 summary，标注哪些 step 验证通过、哪些有逻辑漏洞
Experience Agent (\(\mathcal{A}_{\text{exp}}\))：从所有 rollout 中提取可复用的低层信号——验证过的中间结论、具体技巧、典型错误。写到 Experience bank
Guideline Agent (\(\mathcal{A}_{\text{guide}}\))：抽象出已经尝试过的高层策略——比如"用代数法"、"用几何法"、"反证法"。写到 Guideline bank

两层记忆的设计哲学

这是 TMAS 最有意思的设计点。Experience bank 和 Guideline bank 的存储内容完全不同，用法也完全不同：

维度	Experience Bank	Guideline Bank
存什么	验证过的中间结论、技巧、典型错误	已尝试过的高层策略
粒度	局部、具体	全局、抽象
用法	复用：让后续 agent 利用可靠的部分结果	回避：让后续 agent 避开重复路径
目标	exploitation（利用）	exploration（探索）

这个"记忆是为了避开，不是为了重用"的 idea 我觉得很 counter-intuitive 但很对。

你想想看，如果一个 strategy 在前两轮已经被尝试过了——不管成功还是失败——后续 rollout 再去尝试同一个 strategy 就是浪费 compute。Guideline bank 的作用是告诉模型："这些路径已经探过了，去试点别的"。这就把 exploration 显式地结构化了。

算法细节：Solution Agent 怎么平衡探索利用？

Solution Agent 的采样公式：

\[c_{t,i} \sim \begin{cases} \mathcal{A}_{\text{sol}}(Q, \mathcal{R}_{t-1}, \mathcal{E}_{t-1}), & \text{w.p. } 1-\epsilon \\ \mathcal{A}_{\text{sol}}(Q, \mathcal{G}_{t-1}), & \text{w.p. } \epsilon \end{cases}\]

第一个分支是 exploitation——以历史 rollout 和经验为条件 refine。第二个分支是 exploration——只看 guideline bank（记录已探过的策略），强制走出旧的 pattern。

参数 \(\epsilon\) 控制 exploration / exploitation 的比例。这个设计让我想起 RL 里的 \(\epsilon\)-greedy，但放在 multi-rollout sampling 上，它的语义是"每个候选解里有多少比例是为了探索而生成的"。

这个细节比较实用：如果你已经发现了一个看起来对的解，没必要 16 路全去 refine 它，应该留几路去尝试完全不同的策略——万一你找到的"对的解"其实是错的，那留的几路就是保底。

图2：探索系数 ε 与 guideline 使用比例的关系

图2：探索系数 \(\epsilon\) 不同取值下的效果差异。从论文数据看，过低的 \(\epsilon\) 容易陷在 local optima 上反复 refine 同一个错误方向，过高的 \(\epsilon\) 又会浪费 compute 在无关探索上。\(\epsilon=0.25\) 左右是个比较好的折中。

Hybrid Reward RL：让模型学会"用记忆 + 探索"

光有 inference framework 还不够。如果直接套 GRPO 训练，模型只优化最终答案正确性——它没动机去"用 experience bank"或"避开 guideline 里的策略"。这就是 TMAS 设计 hybrid reward 的原因。

基础是 GRPO：

\[J_{\mathrm{GRPO}}(\theta) = \mathbb{E}_{Q,\{o_i\}}\left[\frac{1}{\sum_i |o_i|}\sum_{i=1}^N \sum_{t=1}^{|o_i|} \min(\rho_{i,t} A_i, \text{clip}(\rho_{i,t}, 1-\epsilon_{low}, 1+\epsilon_{high}) A_i)\right]\]

在这个基础上加三个 reward 信号：

Base correctness reward：保留基础的"答案对不对"的能力。不能因为加了花哨的 memory 机制，基础推理能力反而退化
Experience utilization reward：奖励模型确实"用上了 experience bank"。具体怎么衡量论文里讲得比较抽象，应该是看生成的 reasoning 是否引用了 experience 中的 intermediate conclusion
Exploration reward：奖励生成的策略与 guideline bank 中已有策略不同。这是为了避免模型陷入"已经探过的"路径

这三个 reward 加权求和作为最终 advantage。

这个设计的合理性在于——RL 应该和 inference framework 对齐。如果你的 inference 是 multi-agent 协同，那训练目标也应该奖励"协同行为"，而不只是最终结果。这点比那些 inference 上做花样、训练上还在用 vanilla GRPO 的工作要扎实得多。

实验：scaling 曲线才是关键

图3：Qwen3-4B 在 TMAS 框架下的 RL 训练表现

图3：训练曲线。TMAS + hybrid reward 训练下，4B 模型在 iterative scaling 上能稳定提升，没有 baseline 那种"前期涨后期塌"的现象。Hybrid reward 的关键作用是稳定 iterative scaling——让多轮 refinement 真的能持续受益。

iterative scaling 的稳定性

这篇论文最关键的实验不是"刷分多高"，而是"scaling 曲线长什么样"。

很多 TTS 方法的曲线长这样：第 1 轮 +5%，第 2 轮 +3%，第 3 轮 +1%，第 4 轮 -2%——也就是 refinement 越多反而越差。原因是 noisy history 越积越多，最后把模型带跑偏了。

TMAS 的曲线是单调上升的，特别是加了 hybrid reward 之后。这说明 experience bank + guideline bank 的"选择性记忆"机制在控制 noise 上是有效的——没用的历史被显式丢弃，有用的被显式保留。

在 AIME / HMMT / IMO 上的表现

具体分数我懒得搬，但有几个观察：

TMAS 在难题上的优势更明显。AIME 这种 high-school 难度的提升一般，到 IMO 这种 olympiad-grade 才看出差距。这符合直觉——简单题一次就对，根本不需要多 agent 协同
4B 模型 + TMAS 接近 32B 模型 + 简单 TTS 的效果。这说明 TMAS 在小模型上的 leverage 更大——多 agent 协同补足了模型本身的能力 gap
Guideline bank 的作用比 Experience bank 显著。消融实验里去掉 Guideline bank，性能掉得比去掉 Experience bank 多。这点反直觉——按 intuition 你会觉得"复用经验"是更重要的，但实际"避免重复探索"更重要

我的判断：值不值得读？

强烈推荐。这是我最近读到的 multi-agent inference 里少见的"问题边界清晰、设计有 insight、实验扎实"的论文。

亮点：

"记忆是为了避开，不是为了重用" 这个 idea 我之前没见过，是这篇论文最大的 insight
5 个 agent + 2 层记忆的结构是 multi-agent 系统里少见的清晰分工。每个 agent 的输入输出都明确，没有那种"agent A 调用 agent B 调用 agent C"的递归调用噩梦
Hybrid reward RL 把 inference framework 和 training objective 对齐了。这是很多 multi-agent 工作的盲点——inference 花式协同，training 还是 vanilla 目标

问题：

5 个 agent 都用同一个 base model——所谓"specialized agent"其实只是 prompt 不同。这在工程上方便，但语义上有些含糊：到底是"5 个 agent"还是"1 个 model 5 个 role"？如果是后者，那 multi-agent 的语义就有点稀释
memory bank 的大小如何控制？论文里没明说。Experience bank 写多了一样会变 noisy。我猜实际实现里有某种 truncation 或 LRU eviction，但没看到细节
inference cost 偏高。5 个 agent × N 个候选 × M 次 verification × T 轮迭代——总 compute 是 vanilla CoT 的几十到上百倍。论文没明确报告 compute / accuracy 的 Pareto frontier，这点对实际部署很关键
跟 DeepSeek-Math-V2 的对比偏弱。DeepSeek-Math-V2 也是 verify-refine 思路，TMAS 的优势在于显式的两层记忆，但实验里 head-to-head 的细节还不够

对工程实践的启发：

如果你在做 agentic reasoning，记忆要分层。底层"可信结论"和顶层"已尝试策略"是两类完全不同的信息，别混在一起
exploration 要显式建模。靠 temperature 或 nucleus sampling 是不够的，因为采样是 token-level 的，控制不住 strategy-level 的多样性。Guideline bank 这个思路是个新的解法
multi-agent 系统的训练必须配套。光在 inference 上做花式 prompt engineering，模型本身没被训练过怎么"用 memory"——这是 most multi-agent 论文的通病

收尾

回头看 multi-agent 这个领域，从最早的 debate-style（Du et al.），到 role decomposition（V-1、Veri-Refine），到 trained collaborative roles（MarsRL），再到 TMAS 的"hierarchical memory + hybrid reward"——可以看到这个方向在快速收敛到几个共识：

multi-agent 必须配训练，不然就是 prompt engineering
跨 trajectory 协同必须做显式记忆，单纯 aggregation 不够
exploration 和 exploitation 必须分开控制

TMAS 这篇文章其实是把这三个共识落到一个具体方案上了。下一个值得追的问题大概是：这套机制能不能从 math reasoning 推广到 code、tool use、agentic web browsing 等更长 horizon 的场景？我的预感是能，但 experience bank / guideline bank 的内容形态会有大变化——code 里你的 experience 可能是"verified function signature"，agentic 里可能是"已访问过的 URL"。这块应该会有一波后续工作。

如果你也在做 agentic reasoning 或多 trajectory inference，这篇值得仔细读一遍。

觉得有启发的话，欢迎点赞、在看、转发。跟进最新 AI 前沿，关注我