Eywa:当 LLM 不再"什么都自己来",让科学基础模型上桌一起聊

核心摘要

Agentic 这两年的默认假设是——所有 agent 都讲一种语言:自然语言。但你想想看,让 GPT 去预测明年的电力负荷曲线、判断一段时序里有没有故障、对一张表格做精准 forecasting,它真的是最优解吗?现实是,时序有 Chronos,表格有 TabPFN,蛋白质有 ESM,气象有 OlmoEarth——这些专门的 foundation model 在自己的赛道里把通用 LLM 按在地上摩擦。问题在于,它们大多没有语言接口,没法直接进 agentic 系统的"会议室"。

UIUC 的这篇论文给的方案叫 Eywa:用 MCP 协议把领域基础模型包成一个能"被 LLM 调度"的 agent,让二者通过"Tsaheylu Bond"协作。三个落地形态:EywaAgent(单 agent 替换)、EywaMAS(接入现有多智能体框架)、EywaOrchestra(planner 动态编排)。在自建的 Eywabench 上,EywaAgent 平均 utility 涨 6.6%,token 消耗砍掉接近 30%——这个工程信号还是挺明确的。

这篇论文最值钱的地方不是 benchmark 数字,而是它把"agent ≠ 一定要 LLM 出推理"这个共识打开了一道口子。


论文信息

  • 标题:Heterogeneous Scientific Foundation Model Collaboration
  • 作者:Zihao Li, Jiaru Zou, Feihao Fang, Xuying Ning, Mengting Ai, Tianxin Wei, Sirui Chen, Xiyuan Yang, Jingrui He
  • 机构:University of Illinois Urbana-Champaign
  • 日期:2026/04/30
  • arXiv:https://arxiv.org/abs/2604.27351
  • 代码:https://github.com/Violet24K/Eywa

图1:Eywa 三种实例与基线在 Eywabench 上的整体对比与各科学领域分解结果

图1:左半部分是 EywaAgent / EywaMAS / EywaOrchestra 三种实例与 LLM-only 基线在 Eywabench 上的整体 utility-token 散点图——越往右上越好;右半部分把任务按物理、生命、社会三大科学切开,展示 Eywa 在三个维度(utility、token、time)上的稳定收益。


问题动机:语言不是万能接口

说实话,我第一眼看到"Agent 一切都要走自然语言"这个设定的时候,就觉得别扭。

你做时序预测,要把 1024 个浮点数描成"先升后降,第 37 步有个尖峰……"扔给 LLM?做表格分类,把一行 50 维特征拼成英文长句让 LLM 理解?这是把好钢用在了刀背上。语言只是众多模态里的一种,论文里 Information-Theoretic Analysis 一节也专门给出了"language interface bottleneck"的形式化分析——简单说就是当把高维结构化信号压成自然语言时会丢失大量信息。

而另一边,专用基础模型已经爆发了一阵子了:Chronos 把时序当成 token 序列做大规模预训练,TabPFN 直接用 in-context learning 一次前向就解决表格预测,OlmoEarth 处理气象,ESM 处理蛋白质。它们的共同特点是:不长嘴,没有 prompt 接口。

所以问题变成:怎么让这些"沉默的专家"和"能说会道的 LLM"在同一个 agent 框架里干活?


Avatar 的类比:Tsaheylu

论文用了一个挺有趣的设定——Avatar 里 Na'vi 通过"Tsaheylu"(一种神经键)和潘多拉星上的其他物种实现跨物种通信,共同被 Eywa(万物之母)调度。

图2:潘多拉生态系统与 Agentic AI 生态系统的类比

图2:左边是潘多拉,Na'vi 通过 Tsaheylu 连接 Mountain Banshee、Direhorse 等专门物种,统一在 Eywa 之下;右边对应到 AI 系统——LLM 是 Na'vi,Chronos / TabPFN / ESM 等基础模型是各种"灵兽",Tsaheylu 就是 MCP 协议构建的接口。

我承认我看到这个类比的时候笑了一下。是有点中二,但记忆点确实够强——并且工程对应关系是清楚的:LLM 负责高层规划、推理、决策;FM 负责模态原生的精准预测;MCP 负责把二者之间的"接口语言"标准化。

这种设计的精神内核其实和 tool calling 有共通之处,但 Eywa 把"tool"从一个 black-box function 升级成了一个能携带预训练先验的子模型——你调用它不只是为了执行操作,更是为了借用它的领域知识。


方法核心:从单 agent 到动态编排

EywaAgent:把 FM 包成"会被 LLM 召唤"的 agent

图3:EywaAgent 的整体架构——LLM 通过 FM-LLM Tsaheylu Bond 调用专用基础模型

图3:左侧是 generalized reasoning(LLM 做的事——理解任务、拆解、产出最终答案);右侧是 specialized acting(FM 做的事——拿到结构化输入直接产出预测);中间的 Tsaheylu Bond 用 MCP 协议把两边粘起来。

实现上很务实:每个 foundation model 起一个独立的 MCP server(用 FastMCP),通过 streamable HTTP 暴露给 langchain agent。LLM 端持有 prompt 和任务描述,需要走 FM 推理时直接通过 MCP 调用,server 端把任务数据 load 到 server-side storage,FM 一次前向给结果。

一句话直觉:把 FM 当成一个有领域先验、不需要语言描述的"专家函数",LLM 学会什么时候该 call 它。

我之前在做类似的工程时,最大的痛点是"怎么让 LLM 知道某个 tool 比自己更擅长某事"——Eywa 在 prompt 模板里做了几种尝试(Detailed / CoT / ReAct),实验显示 ReAct 在大多数情况下表现最好,这跟我们的工程直觉一致:让 LLM 显式思考"我是不是应该把这个交出去",比让它默默选择要稳定。

EywaMAS:插进现有多智能体系统

图4:EywaMAS 把 EywaAgent 作为成员接入现有多智能体框架

图4:把 EywaAgent 当成普通 agent 节点,无缝替换 Refine、Debate、MoA 这些经典 MAS topology 里的某些节点。重点是"plug-and-play"——上层不用改。

这一步其实没什么算法创新,但工程意义很大:意味着 Chronos / TabPFN 这些 FM 可以无侵入地进入任何现有多智能体系统。我个人觉得这是 Eywa 最务实的一面——不是又造一个新框架让大家迁移,而是兼容已有的 Refine、Debate、MoA、X-MAS。

EywaOrchestra:planner 动态决定谁干活

EywaMAS 默认是 expert-defined topology(人工指定哪些任务调用哪些 FM、用什么协作模式)。EywaOrchestra 则交给一个 conductor LLM 动态决定:

  • 选哪个 FM
  • 用什么 topology(refine / debate / chain / 单 agent)
  • 多少轮

这一步是用 LLM 做 meta-control——"看到这种任务,找谁、怎么合作"。论文里观察到一个挺有意思的现象:在 economy 和 business 这类相对偏自然语言的子域,单 agent 就够用了,没必要拉个 5 人会开 debate。能识别这种情况、不强行用复杂 topology 是 EywaOrchestra 的价值所在。


Eywabench:一个被设计得很认真的 benchmark

图5:不同方法在 Eywabench 上的整体 utility 和 token 消耗

图5:横轴 token,纵轴 utility,越靠左上越好。可以看到 EywaOrchestra 几乎在 Pareto 前沿,token 用得最少同时 utility 也是 top-tier。

Eywabench 的设计有几个点我觉得做得不错:

  • 三模态:natural language / time-series / tabular,正好对应三种 FM 类型
  • 九子域:physical(Material/Energy/Space)、life(Biology/Clinic/Drug)、social(Economy/Business/Infrastructure)
  • 统一 utility ∈ [0,1]:跨模态可比——文本任务用 soft-match,时序/表格用归一化预测误差

图6:Eywabench 各子域 × 模态的覆盖分布

图6:9 个子域分布相对均匀,没有出现某个子域占绝大多数的"domain collapse"——这一点对 benchmark 的公平性挺重要。

但我也想吐槽一句:utility score 用"soft-match + 归一化误差"统一在 [0,1] 区间这种做法,本身是有 trade-off 的。文本的 soft-match 是有阈值偏好的,时序的归一化误差对 outlier 敏感。跨模态对比的绝对数值我不会太信,但相对排序还是有参考价值的。


实验结果与批判性点评

主表关键数字(基于 Table 1 整理)

方法 平均 Utility ↑ 平均 Token ↓ 备注
Single-agent LLM (gpt-5-nano) ~0.61 ~13K 基线
Refine 0.5686 ~10K 同质 MAS
Debate ~0.62 ~13K 同质 MAS
MoA 0.6188 ~15K 异质 LLM MAS
X-MAS 0.6273 ~15K 异质 LLM MAS
EywaMAS(本文) 0.6761 11K 异质 FM-MAS
EywaOrchestra(本文) 0.6746 8.3K 动态编排

EywaOrchestra 的数字让我有点惊讶——utility 几乎打平 EywaMAS,但 token 直接从 11K 降到 8.3K,掉了快 25%。这说明"按需调用 FM/同质 LLM"比"一律全员开会"性价比高得多。

LLM backbone 的可扩展性

Backbone Utility Time(s) Tokens
gpt-4.1-nano 0.5680 19.61 1139
gpt-5-nano 0.6558 22.78 3137
gpt-5-mini 0.6640 23.63 2444

backbone 越强收益越大,但收益增长曲线趋缓。这个 pattern 跟很多 tool-using agent 工作一致——更强的 LLM 主要是"知道什么时候该用 tool"用得更准。

我的几点批判

  1. 基线选择:MoA 和 X-MAS 都是"异质 LLM"的代表,但论文没和"专用 FM 微调 + 简单 wrapper"这种工业界常见做法比。如果你有 Chronos 微调过的版本,单独跑表现可能也不差,那 EywaAgent 的"agent 协作"价值就需要重新评估。
  2. utility ∈ [0,1] 的归一化:在表格任务上,是用归一化预测误差换算的,等同于把 RMSE 映射到 [0,1]。这种映射是非线性的,会放大或压缩某些区间的差异。
  3. FM 只用了 Chronos 和 TabPFN:覆盖了时序和表格,但化学(SMILES)、蛋白质(结构)、气象(高维场)这些更"硬"的科学任务没真正进来。

但话说回来——这是 v1,论文的核心 message 是"建立 Tsaheylu 这种范式",benchmark 是为了验证范式可行性的,覆盖不全可以接受。


我的判断

亮点

  • 范式上有突破:把 agent 从"LLM 的多副本对话"扩展到"LLM + FM 的混合系统",这是个真正的认知升级,不是工程包装。
  • 工程友好:MCP 协议这个选择特别聪明——直接复用了 Anthropic 推出的标准,意味着任何 MCP 兼容的 agent 框架都可以无缝接入 Eywa 的 FM server。
  • 三层抽象很清楚:从 single agent → MAS → orchestrator,覆盖了从轻量替换到完整重构的不同接入成本。
  • Token 节省的工程意义:30% 的 token 削减在长任务 / 高频调用场景下省的是真金白银,不是论文里好看而已。

问题

  • benchmark 的"统一 utility"在跨模态比较时有水分,需要看绝对任务表现而非综合分数。
  • FM 选择面较窄,论文的"科学领域"主要覆盖了 tabular + time-series 这两个 FM 比较成熟的方向。
  • "Tsaheylu Bond"的设计本质上是 MCP 包装 + prompt 模板,方法层的新东西不多。可以说是用对了工程模式,但不是算法上的创新。
  • 我比较担心一点:如果 FM 错了,LLM 能不能识别并 fallback?论文中"两次 retry"的设定其实是把 burden 留给了 LLM 的下游解析能力,没有显式的"FM 可信度估计"。

工程启发

如果你正在做:

  • 行业 agent(金融、医疗、能源、制造):把你领域内的专用模型(不管是 XGBoost 还是更大的 FM)包成 MCP server,让 LLM 通过 tool calling 调用,比硬塞文本 prompt 让 LLM 推理靠谱得多。
  • 多模态 RAG:把检索器、表格 QA 子模型、知识图谱推理器都通过 MCP 暴露,是个比"all-in-one prompt"更可控的工程模式。
  • agent benchmark 设计:Eywabench 的"统一 utility + 多模态 + 多领域"思路可以借鉴,但跨模态聚合分数要小心使用。

至于 EywaOrchestra 这种用 LLM 做 conductor 的动态编排——我自己还在犹豫。在任务分布稳定的场景,用规则路由可能比 LLM 路由更稳,毕竟你不希望调度逻辑本身也会幻觉。这块我自己也还在摸索。

最后说回开头那个问题:language 是不是 agent 的唯一接口?Eywa 给的答案是——不是,而且也不应该是。我觉得这个方向在 2026 接下来会有更多动作,特别是科学 AI、产业 AI 这两条线上。


觉得有启发的话,欢迎点赞、在看、转发。跟进最新 AI 前沿,关注我