AggAgent:把并行轨迹当环境来交互,智能体聚合的新范式

你有没有遇到过这种情况——让一个Agent做深度研究,跑了8次,8条轨迹里其实藏着正确答案,但你怎么把它们"拼"出来?Majority Voting?要是多答案任务,投票直接废了。Best-of-N?模型自己标的confidence在长文本生成任务上根本不准。把8条轨迹全塞进context窗口?每条动辄十万token,8条拼一起直接OOM。

这就是并行扩展(parallel scaling)在智能体任务上的核心瓶颈:并行跑容易,聚合难。

Princeton的Danqi Chen团队给出了一个很漂亮的方案——AggAgent,把聚合本身也做成一个智能体任务,让聚合Agent像调查员一样,拿着轻量工具去"翻阅"并行轨迹,按需提取信息,交叉验证,最终综合出答案。6个基准、3个模型家族,AggAgent全面碾压所有现有聚合方法,平均提升最高5.3个点,深度研究任务直接涨10.3个点。

而且开销极低——8路并行只多花5.7%的额外成本,而对比方法Summary Aggregation要花41%。


📖 核心摘要

并行测试时扩展在数学推理上已经被验证有效,但智能体任务带来了独特挑战:轨迹长、多轮、带工具调用,输出是开放式的。现有聚合方法要么只看最终答案丢了轨迹信息,要么压缩轨迹导致信息损失,要么直接塞进context直接爆窗口。AggAgent的思路是把并行轨迹当成一个"环境",聚合Agent配备4个轻量工具(获取解、关键词搜索、读取片段、提交答案)在这个环境里按需导航和综合信息。全程保真、低成本,聚合开销受限于单次Agent推演的context窗口。


📝 论文信息

  • 标题:Agentic Aggregation for Parallel Scaling of Long-Horizon Agentic Tasks
  • 作者:Yoonsang Lee, Howard Yen, Xi Ye, Danqi Chen
  • 机构:Princeton University
  • 链接arxiv.org/abs/2604.11753
  • 提交日期:2026年4月13日

🎯 为什么需要这篇论文

先聊聊并行扩展这件事。在数学推理领域,test-time compute scaling已经不是什么新鲜概念了——从Self-Consistency的majority voting,到Best-of-N加上reward model打分,再到DeepSeek-R1那样的learning-based aggregation,思路很清晰:多跑几次,挑最好的,或者综合几次的结果。

但把这些方法搬到智能体任务上,问题来了。

智能体任务的轨迹和CoT推理完全不一样。一道数学题的推理链可能几千token,一个深度研究Agent的轨迹动辄几万甚至十几万token,里面穿插着搜索、访问网页、提取信息的工具调用和返回结果。更关键的是,正确信息可能分散在不同轨迹的不同位置——轨迹A在第3步找到了关键证据,轨迹B在第17步发现了矛盾点,轨迹C的最终答案虽然错了但中间某段推理特别有价值。

你想想看,这种情况下怎么聚合?

图1:聚合方法对比总览

图1:三种聚合方法的对比。上面是3条并行轨迹,下面从左到右分别是Solution Aggregation(只看最终答案)、Summary Aggregation(压缩轨迹再聚合)、AggAgent(用工具按需翻阅轨迹,保真低成本)

论文用一张表把现有方法的局限性总结得很清楚:

方法 任务通用 非启发式 利用轨迹信息 全保真 聚合成本
Majority Voting
Weighted MV
Best-of-N
Fewest Tool Calls
Solution Agg
Summary Agg
AggAgent

这张表已经说明了核心问题:没有一种现有方法同时做到任务通用、非启发式、利用轨迹信息、全保真、低成本。 AggAgent是唯一全优解。


🏗️ AggAgent怎么做

核心思路:把轨迹当环境

AggAgent的设计哲学很简洁——既然Agent天生就会跟环境交互,那为什么不把"一堆并行轨迹"也变成一个环境呢?

具体来说,AggAgent收到的初始信息是:问题\(q\) + 每条轨迹的元数据(步数、token数、工具使用统计)。轨迹本身不在context里,而是作为"环境"存在内存中,Agent按需检索。

这个设计直接解决了"8条轨迹塞不进context"的问题——Agent不需要一次性加载所有内容,而是像翻书一样,想看哪段看哪段。

四个工具

AggAgent配备了4个轻量级工具:

  1. get_solution(traj_id):获取轨迹的最终解。不指定traj_id则返回所有\(K\)个解。这一步让Agent快速了解各轨迹的结论,发现共识和分歧。

  2. search_trajectory(traj_id, query, role, k):在单条轨迹内做关键词搜索,按ROUGE-L排序返回top-k匹配的步骤。这是最常用的工具——先粗定位,再细看。

  3. get_segment(traj_id, start_step, end_step):读取轨迹中连续一段步骤的完整内容,包括thinking block和工具返回结果。当关键词搜索不够时,才深入阅读。

  4. finish(solution, reason):提交最终答案和理由。

从粗到细的调查流程

这个工具设计体现了一个很自然的"从粗到细"工作流:

  1. 先扫全局:调一次get_solution,看看\(K\)条轨迹各自的结论是什么
  2. 发现分歧:哪些轨迹答案一致?哪些不一致?不一致的地方值得深入调查
  3. 定位证据:用search_trajectory关键词搜索,找到关键论断对应的步骤
  4. 深入验证:对搜索结果不够确定的,用get_segment读取完整上下文
  5. 综合出答案:交叉验证完毕,调finish提交

整个过程就像一个侦探在翻阅8份调查报告——先看每份报告的结论,发现矛盾点后去翻对应章节,确认关键证据。

而且这些工具全部在内存中操作,不涉及外部API调用,零额外API成本和延迟


🧪 实验设置

6个基准,分两大类

智能体搜索(答案型任务): - BrowseComp:高难度事实问答,需要多步网络浏览 - BrowseComp-Plus:BrowseComp的控制评估版,用本地知识库替代网络搜索 - HLE:跨学科专家级问题 - DeepSearchQA:多答案查询,需要找全所有合法答案

深度研究(长文本生成任务): - Healthbench-Hard:医学领域长文本回答 - ResearchRubrics:开放式研究任务,按多标准评分

3个模型家族

  • GLM-4.7-Flash(30B)
  • Qwen3.5-122B-A10B(122B)
  • MiniMax-M2.5(229B)

每个模型跑8条独立轨迹(\(K=8\)),聚合时用同一个模型。Agent框架用的是通义千问的DeepResearch,支持原生function calling,128K context窗口,最多100次工具调用。


📊 实验结果

主实验:全面领先

图2:AggAgent在不同K值下的平均表现

图2:AggAgent在6个基准上的平均表现,随并行轨迹数K的变化。三个模型上都是最优。

来看\(K=8\)的核心数据,这张表值得细看:

任务 Pass@1 MV WMV BoN FewTool SolAgg SummAgg AggAgent
GLM-4.7-Flash
BrowseComp 27.4 32.7 50.7 51.3 41.3 53.3 55.3 56.0
BrowseComp-Plus 49.1 59.3 68.7 68.7 62.0 70.7 70.7 71.3
HLE 25.0 26.5 27.7 31.0 27.1 32.9 34.8 37.4
DeepSearchQA 32.4 -- -- 35.3 33.3 46.0 47.3 49.3
Healthbench-Hard 8.7 -- -- 9.9 8.9 15.7 7.4 28.0
ResearchRubrics 37.5 -- -- 37.7 35.2 36.8 31.7 45.3
平均 30.0 32.8 37.6 39.0 34.7 42.6 41.2 47.9
Qwen3.5-122B
平均 40.2 43.4 46.2 49.8 45.8 52.8 51.7 55.8
MiniMax-M2.5
平均 44.0 47.8 50.6 52.8 48.0 54.9 53.9 57.3

几个关键观察:

AggAgent比最强基线SolAgg平均高2.4-5.3个点。 这说明只看最终答案确实丢信息,AggAgent通过翻阅轨迹找回了不少被丢弃的关键证据。

深度研究任务上差距更大。 以GLM-4.7为例,Healthbench-Hard上AggAgent拿到28.0,而SolAgg只有15.7,SummAgg更是惨到7.4。ResearchRubrics上AggAgent 45.3 vs SolAgg 36.8。长文本生成任务特别需要轨迹中的细节信息,压缩或丢弃都会导致质量严重下降。

Summary Aggregation在深度研究上翻车了。 这点挺有意思——SummAgg在搜索任务上表现还行,但在Healthbench-Hard上只有7.4,甚至不如Pass@1的8.7。轨迹压缩对长文本生成是致命的,一压缩,细节和连贯性全丢了。

启发式方法在多答案/长文本任务上直接废掉。 Majority Voting和Weighted MV对DeepSearchQA、Healthbench-Hard、ResearchRubrics根本不适用(表中的"--"),因为这些任务的答案没法直接投票。

成本和延迟:Pareto最优

图3:成本和延迟 vs 性能

图3:三种聚合方法的成本(上)和延迟(下)vs 性能。AggAgent在每个模型上都是Pareto最优。

这张图最能说明AggAgent的性价比。以GLM-4.7为例:

  • \(K=8\)时,AggAgent的额外聚合成本只占rollout成本的5.7%
  • 同样条件下,Summary Aggregation占41%
  • Solution Aggregation占3.7%,但性能差一大截

更令人惊讶的是,随着\(K\)增加,AggAgent的聚合成本并没有线性增长。论文给出了解释:更多轨迹意味着更强的支撑证据,有时反而让聚合变得更容易,部分抵消了额外计算。

更强的聚合模型 = 更好的效果

图4:强模型做聚合的效果

图4:用MiniMax-M2.5替代GLM-4.7做聚合,蓝柱是强聚合器,红柱是同模型聚合。

作者做了一个很有工程价值的实验:用弱模型(GLM-4.7)做8路rollout,用强模型(MiniMax-M2.5)做聚合。

结果很清楚——强模型做聚合确实有帮助,而且AggAgent受益最大。用MiniMax做聚合的AggAgent甚至在BrowseComp-Plus上超过了Pass@8——聚合不只是在"选最好的",而是真的在综合出超越任何单条轨迹的答案。

这个发现指向一个很实用的部署策略:非对称模型分配——用便宜的小模型并行跑8条轨迹,用强模型做聚合。毕竟聚合只消耗一次推理的成本,但能显著提升最终质量。


🔬 深入分析

合成 vs 选择:为什么合成更好

图5:合成 vs 选择的消融

图5:AggAgent(合成新答案)vs 选择最佳轨迹的对比。实线是AggAgent,虚线是选择变体。

一个自然的疑问:AggAgent综合出一条新答案,和直接选一条最好的轨迹,效果差多少?

消融实验的结论是:合成整体优于选择,在深度研究任务上优势特别大。

原因很直觉——在搜索任务上,轨迹通常"要么对要么错",选择还行得通。但在深度研究上,质量是分散的:轨迹A的研究框架好,轨迹B的数据引用准,轨迹C的分析角度独特。没有单条轨迹全局最优,但合成可以从每条轨迹中取最好的部分。

这其实呼应了一个更深层的问题:开放式任务的正确性是组合性的,不是选择性的。

工具使用模式

图6:AggAgent工具调用统计

图6:AggAgent平均每次查询的工具调用次数。search_trajectory占了大头,get_segment使用较少,体现粗到细的策略。

工具使用统计也验证了"从粗到细"的工作流假设:

  • search_trajectory占工具调用的大头——先搜关键词定位
  • get_solutionfinish各约调1次——开头扫一遍答案,结尾提交
  • get_segment用得相对少——只在关键词搜索不够时才深入阅读完整上下文

还有一个有趣的发现:越强的模型工具调用越少。 MiniMax-M2.5比GLM-4.7用了更少的工具调用就达到了更好的效果,说明强模型更善于判断"哪些信息值得深挖"。

四种关键行为

图7:AggAgent的定性分析

图7:AggAgent展现的四种关键行为:少数派答案识别、分歧解决、跨轨迹合成、启发式信号利用。

定性分析揭示了AggAgent的四种核心能力:

  1. 少数派答案识别:8条轨迹里只有2条给了正确答案,AggAgent能通过交叉验证发现少数派才是对的
  2. 分歧解决:不同轨迹的结论相互矛盾,AggAgent深入查阅证据后做出裁决
  3. 跨轨迹合成:所有轨迹的最终答案都是错的,但AggAgent从不同轨迹中各取正确片段,拼出正确答案
  4. 启发式信号利用:AggAgent会参考majority和confidence作为线索,但不会盲从

第3种行为最打动我——这证明了AggAgent不只是"在已有的好答案里挑",而是真的在做知识组合


🤔 我的判断

说实话,这篇论文的idea并不复杂——"把轨迹当环境,给聚合Agent配工具",听起来甚至有点trivial。但就是这种简单的insight,往往是最有价值的。

亮点:

  1. 问题定义精准。 并行扩展在Agent任务上的聚合问题确实是一个被忽视的痛点,现有方法要么丢信息要么爆窗口,这是一个真实的工程瓶颈。
  2. 设计优雅。 4个工具的从粗到细设计,不是拍脑袋想出来的,而是对应了人类调查员的工作方式。而且全部在内存操作,没有外部API开销。
  3. 性价比惊人。 5.7%的额外成本换来5.3个点的平均提升和10.3个点的深度研究提升,这个ROI在生产环境中非常有吸引力。
  4. 非对称模型分配。 弱模型rollout + 强模型聚合的思路,对实际部署很有指导意义。

但也有值得追问的地方:

  1. 工具设计的手工性。 4个工具是人工设计的,为什么是这4个?能不能让模型自己发明工具?或者用RL来优化工具的使用策略?目前是zero-shot用off-the-shelf LLM,如果对聚合Agent做fine-tuning效果会不会更好?论文只是提到了这个方向但没实验。
  2. 只验证了搜索和研究类任务。 6个基准都是信息检索和生成为主的,那在软件工程(SWE-bench)或网页操作(WebArena)这种动作空间更大的场景下,AggAgent的"翻阅轨迹"策略还work吗?这些任务的轨迹可能更多是"做了什么操作"而非"找到了什么信息",搜索关键词的策略可能需要调整。
  3. 与同期工作的对比不够充分。 KARL是同期工作,把最终答案喂回rollout Agent继续推理——这其实也是一种agentic聚合,只是没有利用完整轨迹。论文只提了一句,没有实验对比。如果能和KARL直接PK一下会更convincing。

不过话说回来,这篇论文最值钱的地方不在于某个具体技术细节,而在于它确立了一个范式:聚合本身也是智能体任务。 这个框架是可扩展的——你可以换更强的聚合模型、加更多工具、甚至训练专门的聚合Agent。AggAgent只是这个范式的一个起点,后续还有很大的探索空间。

如果你在做多Agent系统或者深度研究产品,这个思路值得认真试试。5.7%的成本加10个点的效果提升,这笔账怎么算都划算。


觉得有启发的话,欢迎点赞、在看、转发。跟进最新AI前沿,关注我