AiScientist：扔掉对话接力棒，用文件总线撑起23小时自主科研

你有没有这种感觉——让AI智能体跑一个几十分钟的ML任务还行，但一旦让它连续干上几个小时甚至一天，它就开始"失忆"？上一轮跑出的实验结果，下一轮它就忘了读；刚写好的代码，跑完实验回来它又想重写一遍。这不是模型笨，是架构有问题。

中国人民大学团队的AiScientist直接对着这个痛点下刀：长周期ML研究工程的瓶颈不在推理，在状态连续性。他们提出了一套分层编排 + File-as-Bus 的系统，让智能体在23小时内跑了74轮实验，AUC从0.903一路拉到0.982。PaperBench上比最强基线高10.54分，MLE-Bench Lite拿到81.82%的Any Medal。

核心判断：这篇论文最大的贡献不是又搞了一个多智能体框架，而是用工程实证告诉所有人——在长周期科研任务里，文件比对话可靠，编排比堆算力有效。File-as-Bus移除后PaperBench掉6.41分、MLE-Bench Lite掉31.82个百分点，这个消融数据本身比主实验更有说服力。

论文信息

标题：Toward Autonomous Long-Horizon Engineering for ML Research
作者：Guoxin Chen, Jie Chen, Lei Chen, Jiale Zhao, Fanzhe Meng, Wayne Xin Zhao, Ruihua Song, Cheng Chen, Ji-Rong Wen, Kai Jia
机构：中国人民大学高瓴人工智能学院
日期：2026年4月14日
链接：https://arxiv.org/abs/2604.13018
代码：https://github.com/AweAI-Team/AiScientist

长周期ML科研到底难在哪

先说问题。OpenAI的PaperBench基准测了一件事：给AI一篇顶会论文，让它从零开始复现——理解论文、配环境、写代码、跑实验、调试迭代。结果呢？最优秀的AI智能体只能拿到21%的复现分，而ML博士48小时能拿到41%。差距肉眼可见。

为什么差这么多？论文总结了四个核心难点：

难点	具体表现
欠规范性	论文不会把每个超参、每个数据预处理细节都写清楚，智能体得自己补全决策
系统设置负担	光写算法不够，还得配环境、下数据集、装依赖、处理版本冲突
延迟反馈	跑一版实验要好几分钟甚至几十分钟，出了问题可能是代码bug、数据问题、超参不对——归因困难
状态连续性	每一轮的代码、日志、诊断结果都是下一轮决策的依据，长链条上稍有断裂就全偏了

说实话，这四个痛点我之前在搞自动化ML pipeline的时候深有体会。前三个都还能靠更好的模型、更长的上下文窗口来缓解，但第四个——状态连续性——是个系统问题，不是把模型换更大的就能解决的。

已有的方案怎么处理这个问题的？大部分是两条路：

单智能体死磕：AIDE用树搜索策略反复试，说到底就是让一个智能体不停地试错。上下文窗口一撑爆，前面的实验结果就丢了。
多智能体接力：MetaGPT、ChatDev这种模式，让不同角色的智能体通过对话交接。但对话传递是有损的——你没法在一条消息里把整个代码仓库+实验日志+错误诊断全塞进去。

这就是AiScientist要解决的真正问题：怎么让多个专业化智能体在长周期任务中，不靠对话接力也能保持状态一致？

AiScientist的核心设计：薄控制 + 厚状态

图1：AiScientist在MLE-Bench Lite的Detecting Insults任务上23小时自主迭代过程

图1：AiScientist在MLE-Bench Lite的Detecting Insults任务上跑了23小时，74轮实验循环，18次刷新最优成绩，AUC从0.903拉到0.982。注意那条不断上探的曲线——每一轮迭代都不是从零开始，而是在前一轮的产物基础上继续。

一句话概括核心思路

控制保持薄，状态保持厚。 顶层Orchestrator只管"现在该做什么"，不管"细节怎么做"；所有中间产物——论文分析、计划、代码、实验日志——全部外化到文件系统，作为整个系统的唯一真相来源。

这个思路其实不新鲜，在软件工程里叫"shared nothing + message passing"，在数据库里叫"write-ahead log"。但把它用在AI智能体编排里，并且用消融实验证明它的决定性作用，这是头一回。

分层编排：Agent-as-Tool

AiScientist的架构是三层结构：

图2：AiScientist架构图——分层编排与File-as-Bus协议

图2：Tier-0 Orchestrator通过阶段级指令和简洁摘要维持薄控制，Tier-1专家和可选的Tier-2子智能体通过权限范围的共享工作区协调。File-as-Bus让智能体从工作区映射开始，按需读取任务相关产物，写回持久化的分析、代码和日志。

Tier-0：Orchestrator。只做两件事：决定当前阶段该调用哪个专家，以及跟踪简洁的进度摘要。它的决策空间里，调用一个专家和调用一个普通工具是同构的——这就是Agent-as-Tool的设计。

Orchestrator的选择公式：

\[a_t = \pi_0(c_t, m_t, G; W_t), \quad a_t \in \mathcal{T}_0 \cup \mathcal{A}_1\]

其中 $c_t$ 是阶段级控制上下文，$m_t$ 是工作区映射，$G$ 是目标，$\mathcal{T}_0$ 是Orchestrator的原生工具集，$\mathcal{A}_1$ 是Tier-1专家集。

Tier-1：五个专业化专家：

专家	职责	核心能力
论文理解专家	把论文转化为实现细节和目标指标	可并行调度子智能体分析不同维度
优先级排序专家	将理解转化为有序执行契约	识别依赖关系，按影响力和可行性排序
实现专家	从计划生成代码，或修复已有代码	全量模式和修复模式两种策略
实验专家	执行端到端流水线，比较产出与目标	记录结果和未解决问题
通用助手接口	处理辅助子任务	轻量级，按需创建

Tier-2：叶级子智能体。在专家的局部视野内创建，做结构提取、算法分析、环境设置这类聚焦子任务，不会递归生成更深层级。这很重要——避免了多智能体系统里常见的"无限委派"问题。

说到这个Agent-as-Tool的设计，我觉得挺巧妙的。它把委派变成了Orchestrator决策空间里的一个普通动作，而不是一个单独的协调协议。这意味着Orchestrator可以选择自己动手（用原生工具），也可以选择委派给专家，委派是选择性的而非强制的。这比那些"每个阶段都必须走一遍所有角色"的流水线架构灵活多了。

File-as-Bus：这篇文章最值钱的设计

File-as-Bus是整个系统里最核心的协议，也是消融实验里贡献最大的组件。

核心思想：在长周期ML研究工程中，关键的中间状态天然就是文件形式的——论文分析是markdown，计划是markdown，代码是python，配置是yaml，实验日志是txt。与其把这些信息压缩成对话消息传递，不如直接把文件系统当作协调总线。

工作区组织为三个权限对齐的区域：

目录	内容	谁写入
`paper_analysis/`	结构化论文理解、目标指标、歧义记录	论文理解专家
`submission/`	可运行复现仓库（代码、配置、reproduce.sh）	实现专家
`agent/`	规划和执行工件（plan.md、impl_log.md、exp_log.md）	排序/实验专家

权限范围协调是关键——每个Tier-1专家只能写自己负责的区域，但都能读所有区域。共享日志是只追加和迭代结构化的。这减少了跨智能体干扰，提高了可追溯性。

还有一个设计叫渐进式披露。智能体不需要每次调用都摄入完整工作区内容——那会撑爆上下文窗口。而是通过一个工作区映射 $m_t = \mathcal{M}(W_t)$ 进行导航，映射是项目状态的轻量级文本索引。智能体从映射开始，按需读取任务相关产物，写回持久输出。

你想想看，这个设计其实跟我们日常做项目的模式很像——你不会把所有代码和日志都背在脑子里，你会在需要的时候去看对应的文件。AiScientist不过是让智能体也这么做。

证据驱动的研究工程循环

AiScientist不是刚性的一次性流水线，而是一个证据驱动的循环。早期偏重论文理解和优先级排序，建立可运行的脚手架后，主导模式变成实现和实验的迭代交替。实验跑出来的失败trace、部分成功、指标差距、资源瓶颈——这些证据决定下一步该构建、修复还是测试什么。

这个设计有个细节我觉得很务实：Orchestrator不看代码细节。它只看简洁摘要和工作区映射。代码层面的决策全部交给实现专家和实验专家。这避免了Orchestrator被实现细节淹没的问题——说实话，这在工程实践中太常见了，leader一旦开始微观管理，整个系统就慢下来。

实验结果：数据说话

PaperBench完整评估

这是主战场——20篇ICML 2024 Spotlight/Oral论文的复现任务。

方法	模型	平均分	成本/任务
BasicAgent	Gemini-3-Flash	19.26	$6.25
IterativeAgent	Gemini-3-Flash	20.60	$27.44
AiScientist	Gemini-3-Flash	30.52	$15.67
BasicAgent	GLM-5	22.58	$4.90
IterativeAgent	GLM-5	22.37	$54.90
AiScientist	GLM-5	33.73	$12.20

两个关键发现：

AiScientist在两个主干LLM上分别比最佳匹配基线高9.92和11.15分。平均下来就是论文标题里说的10.54分。
成本效率惊人。IterativeAgent靠多轮交互砸钱，成本是AiScientist的2-4倍，但分数反而更低。AiScientist靠结构化编排和File-as-Bus，用更少的交互轮次拿到了更好的结果。

说实话，看到IterativeAgent花了$54.90还比不上AiScientist的$12.20，我愣了一下。这说明光堆交互量是不够的，你还得交互得对。

MLE-Bench Lite：竞赛型ML任务

MLE-Bench Lite是OpenAI推出的Kaggle风格ML竞赛基准，33个任务。

方法	模型	有效提交	高于中位数	任意奖牌
AIDE	Gemini-3-Flash	77.27	54.55	45.45
LoongFlow	Gemini-3-Flash	77.27	77.27	77.27
AiScientist	Gemini-3-Flash	100.00	86.36	81.82
AIDE	GLM-5	77.27	50.00	40.91
ML-Master 2.0	GLM-5	100.00	81.82	63.64
AiScientist	GLM-5	100.00	90.91	81.82

100%的有效提交率说明AiScientist每次都能产出能跑的代码，这本身就是长周期连续性的体现。对比AIDE只有77.27%的有效提交率——将近四分之一的尝试直接白费了。

消融实验：File-as-Bus到底有多关键？

这是全文最有说服力的部分。

图3：消融实验——File-as-Bus机制分析

图3左：AiScientist完整版优于简化基线和去File-as-Bus版本。图3右：File-as-Bus在后期迭代改进中更重要。

移除File-as-Bus后： - PaperBench：下降6.41分 - MLE-Bench Lite：Any Medal下降31.82个百分点

31.82个百分点。这个数字太猛了。

但更细致的发现是：在MLE-Bench Lite上，去掉File-as-Bus后，有效提交率和铜牌基本不受影响，但在银牌、金牌等更高等级上损失惨重。这说明什么？File-as-Bus的主要价值在于后期的迭代改进，而不是建立最低竞争力的起点。

这个发现很有工程直觉——你能写出第一版能跑的代码靠的是模型的代码能力，但你能把0.903的AUC拉到0.982靠的是状态连续性。没有文件系统帮你记住"第35轮实验试了什么参数、效果如何"，你每轮迭代都像在赌。

另一个消融比较也值得注意：即使去掉File-as-Bus，AiScientist仍然比BasicAgent在PaperBench上高4.74分。这说明分层编排本身也有实质贡献，不只是File-as-Bus的功劳。论文的观点是：长周期ML研究工程既是编排问题，也是状态连续性问题，两者缺一不可。

跟同行比：AiScientist站在什么位置

图4：MLE-Bench Lite排行榜对比

图4：AiScientist在MLE-Bench Lite上的受控评估结果与官方排行榜的对比。

把AiScientist放进更大的context里看：

系统	核心策略	代表结果
AIDE	树搜索式试错，单智能体	MLE-Bench Lite 45.45% Any Medal
ML-Master 2.0	指令策略优化，上交出品	MLE-Bench排行榜75.76%
R&D-Agent	研发闭环，用GPT-5	68.18% Any Medal
AI Scientist-V2	端到端论文生成，Sakana AI	目标是生成论文，不是复现
AiScientist	分层编排 + File-as-Bus	81.82% Any Medal

AIDE是单智能体路线的代表——靠树搜索反复试，但上下文窗口一满就丢失历史。ML-Master 2.0是上交的工作，走了指令策略优化的路子，效果也不错但依赖更强的模型。AI Scientist-V2走的是另一条路——它目标是自动生成论文，不是复现已有论文，跟AiScientist解决的不是同一个问题。

AiScientist的独特定位是：它不追求最强模型 + 最优prompt的暴力路线，而是靠架构设计来弥补单次推理的不足。用Gemini-3-Flash这种不是最顶级的模型，照样打出了81.82%的成绩。这个思路对工程落地的意义是：你不需要买最贵的API，你需要更好的系统设计。

我的判断

亮点：

File-as-Bus是一个真正有工程洞察的设计。它不是花哨的算法创新，而是对"AI智能体该怎么管理长周期状态"这个问题的务实回答。消融数据太硬了——31.82个百分点的差距不是靠调参能解释的。
薄控制厚状态的分离原则。Orchestrator只看摘要和映射，不看代码细节。这跟优秀的工程管理是同构的——tech lead不需要review每一行代码，他需要知道进度、风险和下一步。
成本效率。用更少的交互、更便宜的模型打出更好的成绩，这才是工程落地的正确方向。

问题：

评估基准的公平性存疑。PaperBench用GPT-5.4打分，虽然作者说评分一致性很高，但用LLM评估LLM产出本身就有隐忧。MLE-Bench Lite的Kaggle指标是客观的，但PaperBench的主观评分可能偏向"看起来完整"而非"真正正确"的实现。
对论文理解专家的依赖很重。如果第一轮论文理解就出了偏差，后面的所有迭代都是在错误的方向上越走越远。论文没有讨论这个"首轮错误传播"的问题。
File-as-Bus在更开放的任务上是否同样有效？ 论文验证的场景都是有明确目标的（复现论文、做Kaggle竞赛）。如果目标是"探索一个新方向"，没有明确的成功标准，File-as-Bus的迭代还能这么高效吗？这块我没看到讨论。
人类基线的差距仍然很大。AiScientist在PaperBench上拿了30-34分，ML博士是41分。近10分的差距说明，在真正需要深度理解和创造性解决方案的场景下，当前架构还有明显的天花板。

工程启发：

如果你在做任何长周期的AI Agent系统——不只是ML研究，包括软件开发、数据分析、甚至自动化运维——File-as-Bus这个思路都值得认真考虑。不要让智能体通过对话传递状态，让它们通过共享文件系统同步状态。 对话是即时的，文件是持久的。在需要跨多小时、跨多轮迭代的任务里，持久性比即时性重要得多。

觉得有启发的话，欢迎点赞、在看、转发。跟进最新AI前沿，关注我