TMAS:当并行多路推理不够用,怎么让多 Agent 真正"协同"起来?
核心摘要
Test-time scaling 这两年很热——给模型更多 token、更多 trajectory、更多 refinement,效果就会涨。从 CoT 到 Self-Consistency 到 Tree-of-Thoughts 到 DeepSeek-Math-V2 的 verify-refine,方法越来越花哨。但有个问题一直没解决好:当你跑 16 条并行 trajectory,每条之间到底有没有真正的"协同"?还是说只是 16 个独立的 sample 然后投票?
这篇 TMAS 直接对准这个痛点。它把 test-time inference 组织成一个 5 个 agent 的协同过程(Solution / Verification / Summary / Experience / Guideline),引入两层异构记忆:底层 experience bank 存可复用的中间结论和错误教训,顶层 guideline bank 存已经尝试过的策略——注意,guideline bank 不是为了复用,而是为了让下次 rollout 避开重复路径。再配一个 hybrid reward 的 GRPO 训练方案,让模型学会"用经验 + 探索新路径"。
在 AIME、HMMT、IMO 这类硬数学题上,TMAS 比 PaCoRe、RSE 这些经典 trajectory-aggregation 方法 iterative scaling 更稳,4B 模型也能撑住多轮迭代不塌方。
我看到这篇的第一反应是——这是把 multi-agent 这个被滥用的概念,第一次做出了清晰边界的工作。
论文信息
- 标题:TMAS: Scaling Test-Time Compute via Multi-Agent Synergy
- 作者:George Wu, Nan Jing, Qing Yi, Chuan Hao, Ming Yang, Feng Chang, Yuan Wei, Jian Yang, Ran Tao, Bryan Dai
- 机构:IQuest Research、北京航空航天大学
- arXiv:https://arxiv.org/abs/2605.10344
- 代码:https://github.com/george-QF/TMAS-code
为什么"并行推理"经常不 work?
说实话我之前对 multi-agent inference 是有点怀疑的。
我自己在做某个数学推理项目的时候试过:跑 16 路并行,每路 agent 各自做完,最后投票或者让另一个 verifier agent 选。结果呢?大部分时候 16 路里有 14 路在做相同的错误,剩下 2 路也没什么差异。"并行"在这里更像是 batch sampling,不是真正的协同。
为什么?我觉得有两个原因:
第一,并行 trajectory 之间没有信息交换。每条 trajectory 都从 prompt 开始独立 rollout,互相不知道对方在干什么。结果就是大家被同一个 LLM 引导走同一个路径,多样性约等于零。
第二,即使做了 sequential refinement(如 Self-Refine、DeepSeek-Math-V2),历史信息怎么沉淀是个大问题。前几轮的尝试如果直接拼到下一轮 context 里,token 数指数级膨胀;如果做总结,又会丢掉关键细节;如果只保留最优答案,那"探索过的失败路径"这种宝贵信号就完全丢了。
PaCoRe 和 RSE 这两篇是最近做"跨 trajectory 协同"比较有代表性的工作。PaCoRe 用紧凑 message 在 trajectory 间传递;RSE 把历史 trajectory 蒸馏成一个 experience bank。但 TMAS 作者认为这俩还不够——他们的核心 critique 是:
这些方法没有显式区分"哪些历史信息应该保留 / 抛弃",结果就是 noisy historical signal 把整个 reasoning 给污染了。
这就是 TMAS 想解决的核心问题:用结构化的方式让 multi-agent 真正协同,而不是堆 trajectory + 简单 aggregation。
核心架构:5 个 Agent + 2 层记忆

图1:TMAS 的整体流程。每轮迭代里,Solution Agent 并行生成 N 个候选解,Verification Agent 独立验证 M 次,Summary Agent 聚合 verification 结果成一个 rollout-level summary。然后 Experience Agent 和 Guideline Agent 并行从所有 rollout 中分别提炼出"底层经验"和"高层策略",写到对应的记忆库。下一轮 Solution Agent 在生成新候选时,会同时利用这两层记忆——但用法不同,下面细讲。
五个 Agent 的分工
- Solution Agent (\(\mathcal{A}_{\text{sol}}\)):生成候选解。每个候选解以概率 \(1-\epsilon\) 走"经验路径"(用 Experience bank refine),以概率 \(\epsilon\) 走"探索路径"(用 Guideline bank 避开已尝试策略)
- Verification Agent (\(\mathcal{A}_{\text{ver}}\)):对每个候选解做 M 次独立验证,给出分析反馈 + 分数
- Summary Agent (\(\mathcal{A}_{\text{sum}}\)):把 M 次 verification 聚合成一个简洁 summary,标注哪些 step 验证通过、哪些有逻辑漏洞
- Experience Agent (\(\mathcal{A}_{\text{exp}}\)):从所有 rollout 中提取可复用的低层信号——验证过的中间结论、具体技巧、典型错误。写到 Experience bank
- Guideline Agent (\(\mathcal{A}_{\text{guide}}\)):抽象出已经尝试过的高层策略——比如"用代数法"、"用几何法"、"反证法"。写到 Guideline bank
两层记忆的设计哲学
这是 TMAS 最有意思的设计点。Experience bank 和 Guideline bank 的存储内容完全不同,用法也完全不同:
| 维度 | Experience Bank | Guideline Bank |
|---|---|---|
| 存什么 | 验证过的中间结论、技巧、典型错误 | 已尝试过的高层策略 |
| 粒度 | 局部、具体 | 全局、抽象 |
| 用法 | 复用:让后续 agent 利用可靠的部分结果 | 回避:让后续 agent 避开重复路径 |
| 目标 | exploitation(利用) | exploration(探索) |
这个"记忆是为了避开,不是为了重用"的 idea 我觉得很 counter-intuitive 但很对。
你想想看,如果一个 strategy 在前两轮已经被尝试过了——不管成功还是失败——后续 rollout 再去尝试同一个 strategy 就是浪费 compute。Guideline bank 的作用是告诉模型:"这些路径已经探过了,去试点别的"。这就把 exploration 显式地结构化了。
算法细节:Solution Agent 怎么平衡探索利用?
Solution Agent 的采样公式:
第一个分支是 exploitation——以历史 rollout 和经验为条件 refine。第二个分支是 exploration——只看 guideline bank(记录已探过的策略),强制走出旧的 pattern。
参数 \(\epsilon\) 控制 exploration / exploitation 的比例。这个设计让我想起 RL 里的 \(\epsilon\)-greedy,但放在 multi-rollout sampling 上,它的语义是"每个候选解里有多少比例是为了探索而生成的"。
这个细节比较实用:如果你已经发现了一个看起来对的解,没必要 16 路全去 refine 它,应该留几路去尝试完全不同的策略——万一你找到的"对的解"其实是错的,那留的几路就是保底。

图2:探索系数 \(\epsilon\) 不同取值下的效果差异。从论文数据看,过低的 \(\epsilon\) 容易陷在 local optima 上反复 refine 同一个错误方向,过高的 \(\epsilon\) 又会浪费 compute 在无关探索上。\(\epsilon=0.25\) 左右是个比较好的折中。
Hybrid Reward RL:让模型学会"用记忆 + 探索"
光有 inference framework 还不够。如果直接套 GRPO 训练,模型只优化最终答案正确性——它没动机去"用 experience bank"或"避开 guideline 里的策略"。这就是 TMAS 设计 hybrid reward 的原因。
基础是 GRPO:
在这个基础上加三个 reward 信号:
- Base correctness reward:保留基础的"答案对不对"的能力。不能因为加了花哨的 memory 机制,基础推理能力反而退化
- Experience utilization reward:奖励模型确实"用上了 experience bank"。具体怎么衡量论文里讲得比较抽象,应该是看生成的 reasoning 是否引用了 experience 中的 intermediate conclusion
- Exploration reward:奖励生成的策略与 guideline bank 中已有策略不同。这是为了避免模型陷入"已经探过的"路径
这三个 reward 加权求和作为最终 advantage。
这个设计的合理性在于——RL 应该和 inference framework 对齐。如果你的 inference 是 multi-agent 协同,那训练目标也应该奖励"协同行为",而不只是最终结果。这点比那些 inference 上做花样、训练上还在用 vanilla GRPO 的工作要扎实得多。
实验:scaling 曲线才是关键

图3:训练曲线。TMAS + hybrid reward 训练下,4B 模型在 iterative scaling 上能稳定提升,没有 baseline 那种"前期涨后期塌"的现象。Hybrid reward 的关键作用是稳定 iterative scaling——让多轮 refinement 真的能持续受益。
iterative scaling 的稳定性
这篇论文最关键的实验不是"刷分多高",而是"scaling 曲线长什么样"。
很多 TTS 方法的曲线长这样:第 1 轮 +5%,第 2 轮 +3%,第 3 轮 +1%,第 4 轮 -2%——也就是 refinement 越多反而越差。原因是 noisy history 越积越多,最后把模型带跑偏了。
TMAS 的曲线是单调上升的,特别是加了 hybrid reward 之后。这说明 experience bank + guideline bank 的"选择性记忆"机制在控制 noise 上是有效的——没用的历史被显式丢弃,有用的被显式保留。
在 AIME / HMMT / IMO 上的表现
具体分数我懒得搬,但有几个观察:
- TMAS 在难题上的优势更明显。AIME 这种 high-school 难度的提升一般,到 IMO 这种 olympiad-grade 才看出差距。这符合直觉——简单题一次就对,根本不需要多 agent 协同
- 4B 模型 + TMAS 接近 32B 模型 + 简单 TTS 的效果。这说明 TMAS 在小模型上的 leverage 更大——多 agent 协同补足了模型本身的能力 gap
- Guideline bank 的作用比 Experience bank 显著。消融实验里去掉 Guideline bank,性能掉得比去掉 Experience bank 多。这点反直觉——按 intuition 你会觉得"复用经验"是更重要的,但实际"避免重复探索"更重要
我的判断:值不值得读?
强烈推荐。这是我最近读到的 multi-agent inference 里少见的"问题边界清晰、设计有 insight、实验扎实"的论文。
亮点:
- "记忆是为了避开,不是为了重用" 这个 idea 我之前没见过,是这篇论文最大的 insight
- 5 个 agent + 2 层记忆的结构是 multi-agent 系统里少见的清晰分工。每个 agent 的输入输出都明确,没有那种"agent A 调用 agent B 调用 agent C"的递归调用噩梦
- Hybrid reward RL 把 inference framework 和 training objective 对齐了。这是很多 multi-agent 工作的盲点——inference 花式协同,training 还是 vanilla 目标
问题:
- 5 个 agent 都用同一个 base model——所谓"specialized agent"其实只是 prompt 不同。这在工程上方便,但语义上有些含糊:到底是"5 个 agent"还是"1 个 model 5 个 role"?如果是后者,那 multi-agent 的语义就有点稀释
- memory bank 的大小如何控制?论文里没明说。Experience bank 写多了一样会变 noisy。我猜实际实现里有某种 truncation 或 LRU eviction,但没看到细节
- inference cost 偏高。5 个 agent × N 个候选 × M 次 verification × T 轮迭代——总 compute 是 vanilla CoT 的几十到上百倍。论文没明确报告 compute / accuracy 的 Pareto frontier,这点对实际部署很关键
- 跟 DeepSeek-Math-V2 的对比偏弱。DeepSeek-Math-V2 也是 verify-refine 思路,TMAS 的优势在于显式的两层记忆,但实验里 head-to-head 的细节还不够
对工程实践的启发:
- 如果你在做 agentic reasoning,记忆要分层。底层"可信结论"和顶层"已尝试策略"是两类完全不同的信息,别混在一起
- exploration 要显式建模。靠 temperature 或 nucleus sampling 是不够的,因为采样是 token-level 的,控制不住 strategy-level 的多样性。Guideline bank 这个思路是个新的解法
- multi-agent 系统的训练必须配套。光在 inference 上做花式 prompt engineering,模型本身没被训练过怎么"用 memory"——这是 most multi-agent 论文的通病
收尾
回头看 multi-agent 这个领域,从最早的 debate-style(Du et al.),到 role decomposition(V-1、Veri-Refine),到 trained collaborative roles(MarsRL),再到 TMAS 的"hierarchical memory + hybrid reward"——可以看到这个方向在快速收敛到几个共识:
- multi-agent 必须配训练,不然就是 prompt engineering
- 跨 trajectory 协同必须做显式记忆,单纯 aggregation 不够
- exploration 和 exploitation 必须分开控制
TMAS 这篇文章其实是把这三个共识落到一个具体方案上了。下一个值得追的问题大概是:这套机制能不能从 math reasoning 推广到 code、tool use、agentic web browsing 等更长 horizon 的场景?我的预感是能,但 experience bank / guideline bank 的内容形态会有大变化——code 里你的 experience 可能是"verified function signature",agentic 里可能是"已访问过的 URL"。这块应该会有一波后续工作。
如果你也在做 agentic reasoning 或多 trajectory inference,这篇值得仔细读一遍。
觉得有启发的话,欢迎点赞、在看、转发。跟进最新 AI 前沿,关注我