Web2BigTable：用 GPT-5 mini + Gemini 3 Flash 干翻 GPT-5 High——双层 Agent + 自演化 skill bank 把 SR 拉到 7.5 倍

核心摘要

如果让你的 agent 出一张表——"列出 2024 年所有市值过百亿美元的 AI 初创公司，含融资额、CEO、最大轮次"——现在主流的方案是啥？要么 deep research 类（Gemini DeepResearch、OpenAI Deep Research）端到端跑一遍，要么 multi-agent 框架并行查。但你试过就知道：广度型任务（多实体 × 多字段）是这两条路线共同的死穴。原因很无聊：单 agent 上下文撑不住表格规模，多 agent 又因为 task decomposition 太僵硬导致系统性的 coverage gap。

这篇 Web2BigTable 给出的方案是双层 multi-agent + 自演化 skill bank：上层 orchestrator 拆任务、下层 worker 并行干活，共享一个可读写的 Markdown workboard。关键创新是 skill bank 不靠微调，靠 run-verify-reflect 循环不断 append SKILL.md 文件——人类可读、版本控制友好。

效果让人有点吓到：在 WideSearch 上 Avg@4 Success Rate 38.50（第二名只有 5.10，7.5×），Row F1 63.53（+25.03），Item F1 80.12（+14.42）。而且后端模型只用了 GPT-5 mini + Gemini 3 Flash 这种"小钢炮"组合，单 agent 模式下 Item F1 只有 33.28——框架本身带来了 46+ 点的提升。在 XBench-DeepSearch 上也做到 73.0 准确率，超过 MiroFlow、Minimax-M2 等 deep research 旗舰。

一句话评价：这是 2026 最值得看的 agent 框架设计之一。skill bank 不靠 RL、不靠 SFT、靠可读 markdown 文件累积——把 agent 自进化的成本压到了一个新的低点。

论文信息

标题：Web2BigTable: A Bi-Level Multi-Agent LLM System for Internet-Scale Information Search and Extraction
作者：Yuxuan Huang, Yihang Chen, Zhiyuan He, Yuxiang Chen, Ka Yiu Lee, Huichi Zhou, Weilin Luo, Meng Fang, Jun Wang
日期：2026/04/29
arXiv：https://arxiv.org/abs/2604.27221
代码：https://github.com/web2bigtable/web2bigtable

图1：Web2BigTable 运行时界面——左侧任务拆解状态，右侧 worker 并行执行，下方共享 workboard

图1：左上是用户 query，左中是 orchestrator 把任务切成的子分区状态，右侧是 N 个 worker 在并行跑（每个对应一个实体子集），底部是共享的 markdown workboard——所有 worker 都能读，写各自的 tagged region。这套 TUI 实际上把 agent 内部状态完全显式化了。

问题动机：现在的 agent 在"宽"任务上都拉胯

说实话我之前用 deep research 类产品做企业调研，最大的痛是列表型 query——"列出所有 X"、"汇总 Y 行业 Top N"。表面看是个简单任务，实际上不管哪个 SOTA 系统都做不好：

单 agent（Claude Opus、GPT-5 High）：上下文限制下，跑到 30-50 行就开始遗漏、重复、字段串行
End-to-end deep research（OpenAI/Gemini）：报告写得花团锦簇，但 SR 普遍低于 5%——你让它列 100 家公司，它给你 60 家还有 20 家虚构
传统 multi-agent 框架：拆任务靠人工模板或 LLM 一次性 decomposition，整个系统的 coverage 取决于一开始拆得对不对

WideSearch 这个 benchmark 把这种"广度型"任务的难度暴露得非常彻底——主流系统 Avg@4 Success Rate 全在 5% 以下。

论文的判断我觉得很准：广度型任务的瓶颈不在 worker 能力，而在 decomposition 策略。worker 个体能力再强，拆错了照样补不回来。

方法核心：双层结构 + 三种记忆 + 自演化

Bi-level 架构

公式表达就一句：

\[\boldsymbol{\tau} = (\tau_1, \dots, \tau_N) \sim \pi_o(\cdot \mid q, \mathcal{S}_o), \quad x_i \sim \pi_w^{(i)}(\cdot \mid \tau_i, m_e, s_i)\]

Orchestrator \(\pi_o\)：基于 query q 和 orchestrator skill bank \(\mathcal{S}_o\)，把任务拆成 N 个子任务 τ_1, ..., τ_N
Workers \(\{\pi_w^{(i)}\}\)：每个 worker 拿一个子任务 τ_i，从 worker skill bank \(\mathcal{S}_w\) 里 retrieve 对应的 execution skill，并能读写共享 workboard \(m_e\)
最终输出：\(X = (x_1, \dots, x_N)\)

图2：Web2BigTable 整体架构——双层 agent + 三类记忆

图2：上方是 orchestrator 调度，配 orchestrator skill bank（长期）；中间是 N 个并行 worker，每个配 worker skill bank（长期）；底层是 shared workboard（短期），所有 worker 通过文件锁安全并发读写。三类记忆三个时间尺度：workboard 分钟级、skill bank 小时/天级。

三种记忆的时间尺度

记忆	时间尺度	形式	写入规则
Workboard \(m_e\)	分钟 / 单 episode	Markdown 文件	每个 worker 写自己 tagged region，文件锁串行化
Orchestrator skill bank \(\mathcal{S}_o\)	跨 episode 累积	SKILL.md 文件集合	只 append，不微调底层 LLM
Worker skill bank \(\mathcal{S}_w\)	跨 episode 累积	SKILL.md 文件集合	只 append，不微调底层 LLM

这个设计我觉得是论文最 elegant 的部分——把"短期工作内存"和"长期知识"用不同的存储方式区隔开。Workboard 是临时的，episode 结束就丢；skill bank 是永久的，跨 episode 累积。

而且，skill bank 是人类可读的 markdown——意味着你可以 git diff 看 agent 学到了什么新技能、可以手工修剪烂技能、可以 cross-project 迁移。这对工程团队而言是个巨大的可控性优势。

Run-Verify-Reflect 训练循环

训练阶段不更新 LLM 权重，只更新 skill banks：

for episode k in training_queries:
    Stage 1 (Run): orchestrator 用 S_o^k 拆任务 → workers 用 S_w^k 跑 → 输出 X_k
    Stage 2 (Verify): 用 gold table X_k^gold 评估 Item F1，生成结构化错误报告 r^{k+1}
    Stage 3 (Reflect): 用 LLM 把 r^{k+1} 蒸馏成新 skill → append 到 S_o, S_w

关键设计：

训练只用 ≤ 20 query（带 gold table）
skill bank 是 monotone append（只加不删）
底层 LLM 全程不动权重

这种"测试时学习"+"参数无关进化"的范式，让我想起 Voyager（Minecraft 那篇）的设计哲学。但 Web2BigTable 在结构化任务（出表）上把这套方法推进得非常彻底。

实验：碾压式的领先

WideSearch 主榜（Avg@4 Success Rate）

类别	系统	SR	Row F1	Item F1
Single Agent	Claude-4.5-Sonnet	–	–	65.70
Single Agent	GPT-5 High	–	–	62.20
Single Agent	OpenAI o3-high	4.50	34.00	52.60
End-to-end	Gemini	4.30	36.60	59.10
End-to-end	OpenAI o3	3.00	23.90	45.50
Multi-Agent	Claude Sonnet 4 (Thinking)	3.60	38.50	62.20
Multi-Agent	OpenAI o3-high	5.10	37.80	57.30
Web2BigTable	GPT-5 mini + Gemini 3 Flash	38.50	63.53	80.12

注意第二名：multi-agent o3-high 的 SR 是 5.10，Web2BigTable 是它的 7.55 倍。Row F1 +25.03、Item F1 +14.42。

更狠的对比在表 2：

系统	WideSearch SR	XBench Acc
GPT-5 mini (single agent)	4.00	35.0
Gemini 3 Flash (single agent)	3.00	28.0
Web2BigTable (GPT-5 mini + Gemini 3 Flash)	38.50	73.0

同样的 backbone，加上框架，SR 从 4 跳到 38.5。这种规模的提升不是参数堆出来的，是 architectural advantage。

XBench-DeepSearch（深度推理 benchmark）

系统	Accuracy
Minimax-M2	72.0
DeepSeek-V3.2	71.0
GLM-4.5	70.0
MiroFlow (GPT-5)	72.0
Kimi-Researcher	69.0
Claude-4.5-Sonnet	66.0
Web2BigTable (GPT-5 mini + Gemini 3 Flash)	73.0

XBench 是深度推理任务（多跳推理 + 跨源验证）。Web2BigTable 用 5 个 worker（不是 WideSearch 的 10 个）也照样赢——说明这套架构同时适配 breadth 和 depth。

消融：到底是哪部分在贡献？

配置	WS SR	WS Row F1	WS Item F1	XBench Acc
Full system	38.50	63.53	80.12	73.0
w/o learned orch. skills	7.00	45.23	62.87	41.0
w/o workboard	27.50	54.81	73.45	60.0
w/o worker skill evolution	33.00	59.67	76.38	64.0

最大头是 orchestrator skill——去掉 SR 直接从 38.5 掉到 7.0，跟 baseline 一档。其次是 workboard，再次是 worker skill。这个排序挺有意思：

拆得对 > 协作得好 > 个体技能强

这个排序我个人非常认同——多 agent 系统的天花板大概率不是个体能力，而是 task decomposition 的策略空间。Web2BigTable 把后者做成了一个跨 episode 累积的可学习对象，是个真正的范式升级。

我的判断

亮点：

skill bank 不微调：用 SKILL.md 文件累积 agent 学到的东西，人可读、可 git diff、可手工编辑。这对工程团队的可控性、可迁移性都是巨大优势。
训练成本极低：20 个带 gold table 的 training query 就够了。相比 RLHF 动辄百万 trace 的训练，便宜得不是一点半点。
backbone 不挑：GPT-5 mini + Gemini 3 Flash 这种"次旗舰"组合也能 SOTA。框架价值不依赖最强 LLM。
breadth + depth 通吃：同一架构，调整 worker 数量就能从广度任务切换到深度任务。
shared workboard 这个设计：让多 worker 系统有了"共同视野"，避免重复探索和遗漏覆盖，对多 agent 系统是个核心补丁。

问题：

skill bank 怎么避免越积越乱？论文用 monotone append，但跑久了 SKILL.md 会膨胀到几 MB 的量级，retrieve 时的效率怎么保证？这块论文里没系统讨论。
训练 query 怎么选？说是用 20 个 query 训，但 query 分布对最终 skill bank 影响巨大。文章里是手工合成的扰动版，没有自动化方案。
WideSearch 用 20 个合成 query 训，再在原始 200 个测：技术上是合规的（query 不同），但训练时见过的"任务结构"和测试时高度相关。这个 generalization gap 论文没量化。
第 2 名 SR 5.10 → 第 1 名 SR 38.50 这个差距太大：让我有点警惕。是不是 baseline 没有用同样的 workboard 协调机制？看起来 multi-agent baseline 用的是"standardised orchestration framework"，但具体是否包括 shared memory 不清楚。如果不包括，这个对比可能高估了 Web2BigTable 的"独有"贡献。
代码可复现性：依赖 OpenRouter API、8000+ 云端 skills、GPT-5 mini 和 Gemini 3 Flash 的具体 prompt——一般实验室复现门槛不低。

工程启发

如果你在做：

企业信息抽取 / 数据库 enrichment：Web2BigTable 这套"orchestrator 拆 + worker 并行 + workboard 协作"的架构可以直接抄。特别是 SKILL.md 这种可累积、可审计的 memory 形式，对企业内部要求 traceable 的场景非常友好。
agent 训练范式选型：在你的应用上能写出 gold-standard reference 的话，run-verify-reflect 比 RL/SFT 便宜很多个数量级。考虑作为 first try。
多 agent 系统设计：把"短期工作内存"（workboard）和"长期知识"（skill bank）显式分离，避免把所有 state 都塞进 prompt。
deep research 类产品：单 agent 路线在广度任务上有结构性短板，下一代产品大概率要走双层 multi-agent。

最后一个略微反向的判断——SKILL.md 这种"markdown 累积"的范式可能会在 2026 接下来成为新标准。它对应着一个朴素但深刻的洞察：agent 自演化不一定要微调，可以靠"写文档"实现。这跟人类工程师怎么变强的方式更接近——读文档、写文档、修文档。

某种意义上 Web2BigTable 是把"DevOps 的 runbook 文化"搬到了 agent 系统里。这个 vibe 我特别喜欢。

觉得有启发的话，欢迎点赞、在看、转发。跟进最新 AI 前沿，关注我