Eywa:当 LLM 不再"什么都自己来",让科学基础模型上桌一起聊
核心摘要
Agentic 这两年的默认假设是——所有 agent 都讲一种语言:自然语言。但你想想看,让 GPT 去预测明年的电力负荷曲线、判断一段时序里有没有故障、对一张表格做精准 forecasting,它真的是最优解吗?现实是,时序有 Chronos,表格有 TabPFN,蛋白质有 ESM,气象有 OlmoEarth——这些专门的 foundation model 在自己的赛道里把通用 LLM 按在地上摩擦。问题在于,它们大多没有语言接口,没法直接进 agentic 系统的"会议室"。
UIUC 的这篇论文给的方案叫 Eywa:用 MCP 协议把领域基础模型包成一个能"被 LLM 调度"的 agent,让二者通过"Tsaheylu Bond"协作。三个落地形态:EywaAgent(单 agent 替换)、EywaMAS(接入现有多智能体框架)、EywaOrchestra(planner 动态编排)。在自建的 Eywabench 上,EywaAgent 平均 utility 涨 6.6%,token 消耗砍掉接近 30%——这个工程信号还是挺明确的。
这篇论文最值钱的地方不是 benchmark 数字,而是它把"agent ≠ 一定要 LLM 出推理"这个共识打开了一道口子。
论文信息
- 标题:Heterogeneous Scientific Foundation Model Collaboration
- 作者:Zihao Li, Jiaru Zou, Feihao Fang, Xuying Ning, Mengting Ai, Tianxin Wei, Sirui Chen, Xiyuan Yang, Jingrui He
- 机构:University of Illinois Urbana-Champaign
- 日期:2026/04/30
- arXiv:https://arxiv.org/abs/2604.27351
- 代码:https://github.com/Violet24K/Eywa

图1:左半部分是 EywaAgent / EywaMAS / EywaOrchestra 三种实例与 LLM-only 基线在 Eywabench 上的整体 utility-token 散点图——越往右上越好;右半部分把任务按物理、生命、社会三大科学切开,展示 Eywa 在三个维度(utility、token、time)上的稳定收益。
问题动机:语言不是万能接口
说实话,我第一眼看到"Agent 一切都要走自然语言"这个设定的时候,就觉得别扭。
你做时序预测,要把 1024 个浮点数描成"先升后降,第 37 步有个尖峰……"扔给 LLM?做表格分类,把一行 50 维特征拼成英文长句让 LLM 理解?这是把好钢用在了刀背上。语言只是众多模态里的一种,论文里 Information-Theoretic Analysis 一节也专门给出了"language interface bottleneck"的形式化分析——简单说就是当把高维结构化信号压成自然语言时会丢失大量信息。
而另一边,专用基础模型已经爆发了一阵子了:Chronos 把时序当成 token 序列做大规模预训练,TabPFN 直接用 in-context learning 一次前向就解决表格预测,OlmoEarth 处理气象,ESM 处理蛋白质。它们的共同特点是:不长嘴,没有 prompt 接口。
所以问题变成:怎么让这些"沉默的专家"和"能说会道的 LLM"在同一个 agent 框架里干活?
Avatar 的类比:Tsaheylu
论文用了一个挺有趣的设定——Avatar 里 Na'vi 通过"Tsaheylu"(一种神经键)和潘多拉星上的其他物种实现跨物种通信,共同被 Eywa(万物之母)调度。

图2:左边是潘多拉,Na'vi 通过 Tsaheylu 连接 Mountain Banshee、Direhorse 等专门物种,统一在 Eywa 之下;右边对应到 AI 系统——LLM 是 Na'vi,Chronos / TabPFN / ESM 等基础模型是各种"灵兽",Tsaheylu 就是 MCP 协议构建的接口。
我承认我看到这个类比的时候笑了一下。是有点中二,但记忆点确实够强——并且工程对应关系是清楚的:LLM 负责高层规划、推理、决策;FM 负责模态原生的精准预测;MCP 负责把二者之间的"接口语言"标准化。
这种设计的精神内核其实和 tool calling 有共通之处,但 Eywa 把"tool"从一个 black-box function 升级成了一个能携带预训练先验的子模型——你调用它不只是为了执行操作,更是为了借用它的领域知识。
方法核心:从单 agent 到动态编排
EywaAgent:把 FM 包成"会被 LLM 召唤"的 agent

图3:左侧是 generalized reasoning(LLM 做的事——理解任务、拆解、产出最终答案);右侧是 specialized acting(FM 做的事——拿到结构化输入直接产出预测);中间的 Tsaheylu Bond 用 MCP 协议把两边粘起来。
实现上很务实:每个 foundation model 起一个独立的 MCP server(用 FastMCP),通过 streamable HTTP 暴露给 langchain agent。LLM 端持有 prompt 和任务描述,需要走 FM 推理时直接通过 MCP 调用,server 端把任务数据 load 到 server-side storage,FM 一次前向给结果。
一句话直觉:把 FM 当成一个有领域先验、不需要语言描述的"专家函数",LLM 学会什么时候该 call 它。
我之前在做类似的工程时,最大的痛点是"怎么让 LLM 知道某个 tool 比自己更擅长某事"——Eywa 在 prompt 模板里做了几种尝试(Detailed / CoT / ReAct),实验显示 ReAct 在大多数情况下表现最好,这跟我们的工程直觉一致:让 LLM 显式思考"我是不是应该把这个交出去",比让它默默选择要稳定。
EywaMAS:插进现有多智能体系统

图4:把 EywaAgent 当成普通 agent 节点,无缝替换 Refine、Debate、MoA 这些经典 MAS topology 里的某些节点。重点是"plug-and-play"——上层不用改。
这一步其实没什么算法创新,但工程意义很大:意味着 Chronos / TabPFN 这些 FM 可以无侵入地进入任何现有多智能体系统。我个人觉得这是 Eywa 最务实的一面——不是又造一个新框架让大家迁移,而是兼容已有的 Refine、Debate、MoA、X-MAS。
EywaOrchestra:planner 动态决定谁干活
EywaMAS 默认是 expert-defined topology(人工指定哪些任务调用哪些 FM、用什么协作模式)。EywaOrchestra 则交给一个 conductor LLM 动态决定:
- 选哪个 FM
- 用什么 topology(refine / debate / chain / 单 agent)
- 多少轮
这一步是用 LLM 做 meta-control——"看到这种任务,找谁、怎么合作"。论文里观察到一个挺有意思的现象:在 economy 和 business 这类相对偏自然语言的子域,单 agent 就够用了,没必要拉个 5 人会开 debate。能识别这种情况、不强行用复杂 topology 是 EywaOrchestra 的价值所在。
Eywabench:一个被设计得很认真的 benchmark

图5:横轴 token,纵轴 utility,越靠左上越好。可以看到 EywaOrchestra 几乎在 Pareto 前沿,token 用得最少同时 utility 也是 top-tier。
Eywabench 的设计有几个点我觉得做得不错:
- 三模态:natural language / time-series / tabular,正好对应三种 FM 类型
- 九子域:physical(Material/Energy/Space)、life(Biology/Clinic/Drug)、social(Economy/Business/Infrastructure)
- 统一 utility ∈ [0,1]:跨模态可比——文本任务用 soft-match,时序/表格用归一化预测误差

图6:9 个子域分布相对均匀,没有出现某个子域占绝大多数的"domain collapse"——这一点对 benchmark 的公平性挺重要。
但我也想吐槽一句:utility score 用"soft-match + 归一化误差"统一在 [0,1] 区间这种做法,本身是有 trade-off 的。文本的 soft-match 是有阈值偏好的,时序的归一化误差对 outlier 敏感。跨模态对比的绝对数值我不会太信,但相对排序还是有参考价值的。
实验结果与批判性点评
主表关键数字(基于 Table 1 整理)
| 方法 | 平均 Utility ↑ | 平均 Token ↓ | 备注 |
|---|---|---|---|
| Single-agent LLM (gpt-5-nano) | ~0.61 | ~13K | 基线 |
| Refine | 0.5686 | ~10K | 同质 MAS |
| Debate | ~0.62 | ~13K | 同质 MAS |
| MoA | 0.6188 | ~15K | 异质 LLM MAS |
| X-MAS | 0.6273 | ~15K | 异质 LLM MAS |
| EywaMAS(本文) | 0.6761 | 11K | 异质 FM-MAS |
| EywaOrchestra(本文) | 0.6746 | 8.3K | 动态编排 |
EywaOrchestra 的数字让我有点惊讶——utility 几乎打平 EywaMAS,但 token 直接从 11K 降到 8.3K,掉了快 25%。这说明"按需调用 FM/同质 LLM"比"一律全员开会"性价比高得多。
LLM backbone 的可扩展性
| Backbone | Utility | Time(s) | Tokens |
|---|---|---|---|
| gpt-4.1-nano | 0.5680 | 19.61 | 1139 |
| gpt-5-nano | 0.6558 | 22.78 | 3137 |
| gpt-5-mini | 0.6640 | 23.63 | 2444 |
backbone 越强收益越大,但收益增长曲线趋缓。这个 pattern 跟很多 tool-using agent 工作一致——更强的 LLM 主要是"知道什么时候该用 tool"用得更准。
我的几点批判
- 基线选择:MoA 和 X-MAS 都是"异质 LLM"的代表,但论文没和"专用 FM 微调 + 简单 wrapper"这种工业界常见做法比。如果你有 Chronos 微调过的版本,单独跑表现可能也不差,那 EywaAgent 的"agent 协作"价值就需要重新评估。
- utility ∈ [0,1] 的归一化:在表格任务上,是用归一化预测误差换算的,等同于把 RMSE 映射到 [0,1]。这种映射是非线性的,会放大或压缩某些区间的差异。
- FM 只用了 Chronos 和 TabPFN:覆盖了时序和表格,但化学(SMILES)、蛋白质(结构)、气象(高维场)这些更"硬"的科学任务没真正进来。
但话说回来——这是 v1,论文的核心 message 是"建立 Tsaheylu 这种范式",benchmark 是为了验证范式可行性的,覆盖不全可以接受。
我的判断
亮点:
- 范式上有突破:把 agent 从"LLM 的多副本对话"扩展到"LLM + FM 的混合系统",这是个真正的认知升级,不是工程包装。
- 工程友好:MCP 协议这个选择特别聪明——直接复用了 Anthropic 推出的标准,意味着任何 MCP 兼容的 agent 框架都可以无缝接入 Eywa 的 FM server。
- 三层抽象很清楚:从 single agent → MAS → orchestrator,覆盖了从轻量替换到完整重构的不同接入成本。
- Token 节省的工程意义:30% 的 token 削减在长任务 / 高频调用场景下省的是真金白银,不是论文里好看而已。
问题:
- benchmark 的"统一 utility"在跨模态比较时有水分,需要看绝对任务表现而非综合分数。
- FM 选择面较窄,论文的"科学领域"主要覆盖了 tabular + time-series 这两个 FM 比较成熟的方向。
- "Tsaheylu Bond"的设计本质上是 MCP 包装 + prompt 模板,方法层的新东西不多。可以说是用对了工程模式,但不是算法上的创新。
- 我比较担心一点:如果 FM 错了,LLM 能不能识别并 fallback?论文中"两次 retry"的设定其实是把 burden 留给了 LLM 的下游解析能力,没有显式的"FM 可信度估计"。
工程启发
如果你正在做:
- 行业 agent(金融、医疗、能源、制造):把你领域内的专用模型(不管是 XGBoost 还是更大的 FM)包成 MCP server,让 LLM 通过 tool calling 调用,比硬塞文本 prompt 让 LLM 推理靠谱得多。
- 多模态 RAG:把检索器、表格 QA 子模型、知识图谱推理器都通过 MCP 暴露,是个比"all-in-one prompt"更可控的工程模式。
- agent benchmark 设计:Eywabench 的"统一 utility + 多模态 + 多领域"思路可以借鉴,但跨模态聚合分数要小心使用。
至于 EywaOrchestra 这种用 LLM 做 conductor 的动态编排——我自己还在犹豫。在任务分布稳定的场景,用规则路由可能比 LLM 路由更稳,毕竟你不希望调度逻辑本身也会幻觉。这块我自己也还在摸索。
最后说回开头那个问题:language 是不是 agent 的唯一接口?Eywa 给的答案是——不是,而且也不应该是。我觉得这个方向在 2026 接下来会有更多动作,特别是科学 AI、产业 AI 这两条线上。
觉得有启发的话,欢迎点赞、在看、转发。跟进最新 AI 前沿,关注我