Eywa：当 LLM 不再"什么都自己来"，让科学基础模型上桌一起聊

核心摘要

Agentic 这两年的默认假设是——所有 agent 都讲一种语言：自然语言。但你想想看，让 GPT 去预测明年的电力负荷曲线、判断一段时序里有没有故障、对一张表格做精准 forecasting，它真的是最优解吗？现实是，时序有 Chronos，表格有 TabPFN，蛋白质有 ESM，气象有 OlmoEarth——这些专门的 foundation model 在自己的赛道里把通用 LLM 按在地上摩擦。问题在于，它们大多没有语言接口，没法直接进 agentic 系统的"会议室"。

UIUC 的这篇论文给的方案叫 Eywa：用 MCP 协议把领域基础模型包成一个能"被 LLM 调度"的 agent，让二者通过"Tsaheylu Bond"协作。三个落地形态：EywaAgent（单 agent 替换）、EywaMAS（接入现有多智能体框架）、EywaOrchestra（planner 动态编排）。在自建的 Eywabench 上，EywaAgent 平均 utility 涨 6.6%，token 消耗砍掉接近 30%——这个工程信号还是挺明确的。

这篇论文最值钱的地方不是 benchmark 数字，而是它把"agent ≠ 一定要 LLM 出推理"这个共识打开了一道口子。

论文信息

标题：Heterogeneous Scientific Foundation Model Collaboration
作者：Zihao Li, Jiaru Zou, Feihao Fang, Xuying Ning, Mengting Ai, Tianxin Wei, Sirui Chen, Xiyuan Yang, Jingrui He
机构：University of Illinois Urbana-Champaign
日期：2026/04/30
arXiv：https://arxiv.org/abs/2604.27351
代码：https://github.com/Violet24K/Eywa

图1：Eywa 三种实例与基线在 Eywabench 上的整体对比与各科学领域分解结果

图1：左半部分是 EywaAgent / EywaMAS / EywaOrchestra 三种实例与 LLM-only 基线在 Eywabench 上的整体 utility-token 散点图——越往右上越好；右半部分把任务按物理、生命、社会三大科学切开，展示 Eywa 在三个维度（utility、token、time）上的稳定收益。

问题动机：语言不是万能接口

说实话，我第一眼看到"Agent 一切都要走自然语言"这个设定的时候，就觉得别扭。

你做时序预测，要把 1024 个浮点数描成"先升后降，第 37 步有个尖峰……"扔给 LLM？做表格分类，把一行 50 维特征拼成英文长句让 LLM 理解？这是把好钢用在了刀背上。语言只是众多模态里的一种，论文里 Information-Theoretic Analysis 一节也专门给出了"language interface bottleneck"的形式化分析——简单说就是当把高维结构化信号压成自然语言时会丢失大量信息。

而另一边，专用基础模型已经爆发了一阵子了：Chronos 把时序当成 token 序列做大规模预训练，TabPFN 直接用 in-context learning 一次前向就解决表格预测，OlmoEarth 处理气象，ESM 处理蛋白质。它们的共同特点是：不长嘴，没有 prompt 接口。

所以问题变成：怎么让这些"沉默的专家"和"能说会道的 LLM"在同一个 agent 框架里干活？

Avatar 的类比：Tsaheylu

论文用了一个挺有趣的设定——Avatar 里 Na'vi 通过"Tsaheylu"（一种神经键）和潘多拉星上的其他物种实现跨物种通信，共同被 Eywa（万物之母）调度。

图2：潘多拉生态系统与 Agentic AI 生态系统的类比

图2：左边是潘多拉，Na'vi 通过 Tsaheylu 连接 Mountain Banshee、Direhorse 等专门物种，统一在 Eywa 之下；右边对应到 AI 系统——LLM 是 Na'vi，Chronos / TabPFN / ESM 等基础模型是各种"灵兽"，Tsaheylu 就是 MCP 协议构建的接口。

我承认我看到这个类比的时候笑了一下。是有点中二，但记忆点确实够强——并且工程对应关系是清楚的：LLM 负责高层规划、推理、决策；FM 负责模态原生的精准预测；MCP 负责把二者之间的"接口语言"标准化。

这种设计的精神内核其实和 tool calling 有共通之处，但 Eywa 把"tool"从一个 black-box function 升级成了一个能携带预训练先验的子模型——你调用它不只是为了执行操作，更是为了借用它的领域知识。

方法核心：从单 agent 到动态编排

EywaAgent：把 FM 包成"会被 LLM 召唤"的 agent

图3：EywaAgent 的整体架构——LLM 通过 FM-LLM Tsaheylu Bond 调用专用基础模型

图3：左侧是 generalized reasoning（LLM 做的事——理解任务、拆解、产出最终答案）；右侧是 specialized acting（FM 做的事——拿到结构化输入直接产出预测）；中间的 Tsaheylu Bond 用 MCP 协议把两边粘起来。

实现上很务实：每个 foundation model 起一个独立的 MCP server（用 FastMCP），通过 streamable HTTP 暴露给 langchain agent。LLM 端持有 prompt 和任务描述，需要走 FM 推理时直接通过 MCP 调用，server 端把任务数据 load 到 server-side storage，FM 一次前向给结果。

一句话直觉：把 FM 当成一个有领域先验、不需要语言描述的"专家函数"，LLM 学会什么时候该 call 它。

我之前在做类似的工程时，最大的痛点是"怎么让 LLM 知道某个 tool 比自己更擅长某事"——Eywa 在 prompt 模板里做了几种尝试（Detailed / CoT / ReAct），实验显示 ReAct 在大多数情况下表现最好，这跟我们的工程直觉一致：让 LLM 显式思考"我是不是应该把这个交出去"，比让它默默选择要稳定。

EywaMAS：插进现有多智能体系统

图4：EywaMAS 把 EywaAgent 作为成员接入现有多智能体框架

图4：把 EywaAgent 当成普通 agent 节点，无缝替换 Refine、Debate、MoA 这些经典 MAS topology 里的某些节点。重点是"plug-and-play"——上层不用改。

这一步其实没什么算法创新，但工程意义很大：意味着 Chronos / TabPFN 这些 FM 可以无侵入地进入任何现有多智能体系统。我个人觉得这是 Eywa 最务实的一面——不是又造一个新框架让大家迁移，而是兼容已有的 Refine、Debate、MoA、X-MAS。

EywaOrchestra：planner 动态决定谁干活

EywaMAS 默认是 expert-defined topology（人工指定哪些任务调用哪些 FM、用什么协作模式）。EywaOrchestra 则交给一个 conductor LLM 动态决定：

选哪个 FM
用什么 topology（refine / debate / chain / 单 agent）
多少轮

这一步是用 LLM 做 meta-control——"看到这种任务，找谁、怎么合作"。论文里观察到一个挺有意思的现象：在 economy 和 business 这类相对偏自然语言的子域，单 agent 就够用了，没必要拉个 5 人会开 debate。能识别这种情况、不强行用复杂 topology 是 EywaOrchestra 的价值所在。

Eywabench：一个被设计得很认真的 benchmark

图5：不同方法在 Eywabench 上的整体 utility 和 token 消耗

图5：横轴 token，纵轴 utility，越靠左上越好。可以看到 EywaOrchestra 几乎在 Pareto 前沿，token 用得最少同时 utility 也是 top-tier。

Eywabench 的设计有几个点我觉得做得不错：

三模态：natural language / time-series / tabular，正好对应三种 FM 类型
九子域：physical（Material/Energy/Space）、life（Biology/Clinic/Drug）、social（Economy/Business/Infrastructure）
统一 utility ∈ [0,1]：跨模态可比——文本任务用 soft-match，时序/表格用归一化预测误差

图6：Eywabench 各子域 × 模态的覆盖分布

图6：9 个子域分布相对均匀，没有出现某个子域占绝大多数的"domain collapse"——这一点对 benchmark 的公平性挺重要。

但我也想吐槽一句：utility score 用"soft-match + 归一化误差"统一在 [0,1] 区间这种做法，本身是有 trade-off 的。文本的 soft-match 是有阈值偏好的，时序的归一化误差对 outlier 敏感。跨模态对比的绝对数值我不会太信，但相对排序还是有参考价值的。

实验结果与批判性点评

主表关键数字（基于 Table 1 整理）

方法	平均 Utility ↑	平均 Token ↓	备注
Single-agent LLM (gpt-5-nano)	~0.61	~13K	基线
Refine	0.5686	~10K	同质 MAS
Debate	~0.62	~13K	同质 MAS
MoA	0.6188	~15K	异质 LLM MAS
X-MAS	0.6273	~15K	异质 LLM MAS
EywaMAS（本文）	0.6761	11K	异质 FM-MAS
EywaOrchestra（本文）	0.6746	8.3K	动态编排

EywaOrchestra 的数字让我有点惊讶——utility 几乎打平 EywaMAS，但 token 直接从 11K 降到 8.3K，掉了快 25%。这说明"按需调用 FM/同质 LLM"比"一律全员开会"性价比高得多。

LLM backbone 的可扩展性

Backbone	Utility	Time(s)	Tokens
gpt-4.1-nano	0.5680	19.61	1139
gpt-5-nano	0.6558	22.78	3137
gpt-5-mini	0.6640	23.63	2444

backbone 越强收益越大，但收益增长曲线趋缓。这个 pattern 跟很多 tool-using agent 工作一致——更强的 LLM 主要是"知道什么时候该用 tool"用得更准。

我的几点批判

基线选择：MoA 和 X-MAS 都是"异质 LLM"的代表，但论文没和"专用 FM 微调 + 简单 wrapper"这种工业界常见做法比。如果你有 Chronos 微调过的版本，单独跑表现可能也不差，那 EywaAgent 的"agent 协作"价值就需要重新评估。
utility ∈ [0,1] 的归一化：在表格任务上，是用归一化预测误差换算的，等同于把 RMSE 映射到 [0,1]。这种映射是非线性的，会放大或压缩某些区间的差异。
FM 只用了 Chronos 和 TabPFN：覆盖了时序和表格，但化学（SMILES）、蛋白质（结构）、气象（高维场）这些更"硬"的科学任务没真正进来。

但话说回来——这是 v1，论文的核心 message 是"建立 Tsaheylu 这种范式"，benchmark 是为了验证范式可行性的，覆盖不全可以接受。

我的判断

亮点：

范式上有突破：把 agent 从"LLM 的多副本对话"扩展到"LLM + FM 的混合系统"，这是个真正的认知升级，不是工程包装。
工程友好：MCP 协议这个选择特别聪明——直接复用了 Anthropic 推出的标准，意味着任何 MCP 兼容的 agent 框架都可以无缝接入 Eywa 的 FM server。
三层抽象很清楚：从 single agent → MAS → orchestrator，覆盖了从轻量替换到完整重构的不同接入成本。
Token 节省的工程意义：30% 的 token 削减在长任务 / 高频调用场景下省的是真金白银，不是论文里好看而已。

问题：

benchmark 的"统一 utility"在跨模态比较时有水分，需要看绝对任务表现而非综合分数。
FM 选择面较窄，论文的"科学领域"主要覆盖了 tabular + time-series 这两个 FM 比较成熟的方向。
"Tsaheylu Bond"的设计本质上是 MCP 包装 + prompt 模板，方法层的新东西不多。可以说是用对了工程模式，但不是算法上的创新。
我比较担心一点：如果 FM 错了，LLM 能不能识别并 fallback？论文中"两次 retry"的设定其实是把 burden 留给了 LLM 的下游解析能力，没有显式的"FM 可信度估计"。

工程启发

如果你正在做：

行业 agent（金融、医疗、能源、制造）：把你领域内的专用模型（不管是 XGBoost 还是更大的 FM）包成 MCP server，让 LLM 通过 tool calling 调用，比硬塞文本 prompt 让 LLM 推理靠谱得多。
多模态 RAG：把检索器、表格 QA 子模型、知识图谱推理器都通过 MCP 暴露，是个比"all-in-one prompt"更可控的工程模式。
agent benchmark 设计：Eywabench 的"统一 utility + 多模态 + 多领域"思路可以借鉴，但跨模态聚合分数要小心使用。

至于 EywaOrchestra 这种用 LLM 做 conductor 的动态编排——我自己还在犹豫。在任务分布稳定的场景，用规则路由可能比 LLM 路由更稳，毕竟你不希望调度逻辑本身也会幻觉。这块我自己也还在摸索。

最后说回开头那个问题：language 是不是 agent 的唯一接口？Eywa 给的答案是——不是，而且也不应该是。我觉得这个方向在 2026 接下来会有更多动作，特别是科学 AI、产业 AI 这两条线上。

觉得有启发的话，欢迎点赞、在看、转发。跟进最新 AI 前沿，关注我