当最强Agent也只能做对45%的任务:CocoaBench揭开统一数字智能体的真实水平

你有没有碰到过这种情况:给AI Agent一个看起来不那么复杂的任务——比如"帮我找到Costco上某款商品的当前价格,再跟另一个网站做个比价"——结果Agent要么在浏览器里迷路,要么代码写了一半开始幻觉,要么干脆忘了你要什么?单个能力测试的时候成绩都挺好看,一旦需要把视觉、搜索、编码串起来,就原形毕露。

这正是CocoaBench这篇论文要揭示的问题。

核心摘要

现有Agent评测大多只测单一能力——要么纯写代码,要么纯操作GUI,要么纯回答问题。CocoaBench构建了153个人工设计的长时域任务,强制要求Agent灵活组合视觉、搜索、编码三大能力。评测结果令人清醒:最强系统仅45.1%成功率,开源模型最高11.8%。错误分析揭示54%的失败源于推理规划缺陷,29%源于视觉定位不准,17%源于工具执行问题。一个意外的发现是,编码导向的脚手架(Codex、Claude Code)在综合任务上的泛化性远超预期,甚至比通用脚手架表现更好。这篇论文给统一数字智能体泼了一盆冷水,但也指出了最清晰的改进路径。


论文信息

  • 标题:CocoaBench: Evaluating Unified Digital Agents in the Wild
  • 作者:Shibo Hao, Zhining Zhang, Zhiqi Liang, Tianyang Liu, Yuheng Zha, Qiyue Gao 等31位作者(CocoaBench Team)
  • 机构:UC San Diego, MBZUAI IFM 等
  • 日期:2026年4月13日
  • 链接:https://arxiv.org/abs/2604.11201
  • 项目主页:https://cocoabench.github.io/

为什么需要CocoaBench

先看看现有的Agent基准测试都在干什么。

SWE-bench测的是纯编码——给定一个GitHub issue,让Agent修bug。WebArena测的是纯网页操作——在电商网站上买东西、在论坛上发帖。OSWorld测的是桌面GUI操作——打开应用、拖拽文件。它们有一个共同特点:能力边界清晰,任务基本只需要一种核心能力。

但真实的数字工作哪有这么干净?

你让我查一篇论文的引用量,我得先搜索找到论文页面(搜索),再从页面上读取Google Scholar的截图或引用计数(视觉),再把结果整理成结构化格式(编码)。三个能力缺一个就做不了。更复杂的任务——比如"找某个运动员本赛季的得分数据,做一张对比图"——需要的能力组合更密集。

这就是CocoaBench的出发点:在需要能力组合的真实场景里,现有Agent到底行不行?

论文列了一组对比数据,很能说明问题:

基准测试 主要能力 能力组合 基础设施耦合 自动验证
SWE-bench Coding 高(Git环境)
WebArena Vision+Search 部分 高(固定网站)
OSWorld Vision 高(桌面环境) 部分
GAIA 搜索+推理 部分 否(LLM裁判)
CocoaBench V+S+C 98%任务需组合 是(函数验证)

说实话,CocoaBench在基础设施解耦这件事上做得挺漂亮。每个任务只定义一条指令和一个评估函数,不绑定任何特定运行时或工具生态——你用OpenClaw跑、用Codex跑、还是用自己的脚手架跑,都行。评估只看最终输出对不对,不关心你中间怎么做的。


CocoaBench怎么设计的

三大核心能力

CocoaBench定义了数字智能体必须具备的三种核心能力:

  • 编码:写代码解题、定量分析、调用结构化工具和API
  • 搜索:从互联网获取、导航和综合信息
  • 视觉:解读视觉输入,与GUI交互

关键数字:98%的任务需要多种能力组合56.2%的任务需要编码能力

Figure 2: CocoaBench统计

Figure 2: CocoaBench的统计概览——9个任务域、153个任务、多种资源类型

Figure 3: 能力共现矩阵

Figure 3: 三大能力的共现矩阵——Vision+Search、Vision+Coding、Search+Coding以及三者同时需要的任务均有覆盖

153个任务长什么样

9个大域覆盖了商业分析、文化、教育、生活、逻辑谜题、科学、体育、技术、旅行。资源类型也很杂——网页、视频、图片、CSV/PDF文档,甚至还有17个自建网站、Weights & Biases日志、ChatGPT对话记录、Costco购物收据这些"野生"数据源。

一个典型的任务:给定一个购物场景,Agent需要浏览多个电商网站对比价格、从截图中读取商品细节、用代码计算折扣和税费、最终输出一个结构化的价格比较结果。这种任务对人来说可能15分钟搞定,但对Agent来说是全方位的压力测试。

最小化任务定义

这个设计思路我觉得很对。每个任务只有两个东西:

  1. 一条自然语言指令
  2. 一个自动评估函数

评估函数不依赖LLM裁判,不用人打分。对于动作导向型任务,设计了基于结果的代理验证器——正确的结果强烈暗示正确的执行过程。比如购物任务,你只需要验证最终价格对不对,不用一步步检查Agent点了哪个按钮。

这套设计的好处是可扩展、可复现——任何Agent都能直接接入评测,不需要适配特定的运行时环境。


Cocoa-Agent:一个受控的对比脚手架

为了公平比较不同模型骨干,论文设计了Cocoa-Agent——一个轻量级、模块化的统一Agent脚手架。

底层跑在AIO Sandbox上,这是一个集成了浏览器、Shell、文件系统的单一Docker容器。Agent采用经典的ReAct模式,配备了39个工具,分5大类:

能力类别 工具数 核心工具
Vision 11 browser_click, browser_type, browser_screenshot, image_read 等
Search 11 browser_navigate, dom_get_text, dom_query_selector, dom_click 等
Coding 5 code_execute, shell_execute, file_read, file_write
File 9 文件操作相关
Control 1 task_complete

Vision和Search的工具设计有个巧妙的区分:Vision工具是像素级的GUI操作(点击坐标、截图),Search工具是DOM级的内容访问(CSS选择器查询、文本提取)。这两种粒度给了Agent灵活的选择——你可以像人一样"看"网页然后点击,也可以像程序员一样直接解析DOM结构。


实验结果:45.1%的天花板

主实验

所有Agent统一跑30分钟预算、最多50轮交互。结果如下:

排名 系统 骨干模型 成功率
1 Codex GPT-5.4 45.1%
2 OpenClaw GPT-5.4 45.1%
3 Cocoa-Agent GPT-5.4 36.6%
4 OpenClaw Claude Sonnet 4.6 34.0%
5 Cocoa-Agent Gemini-3.1-Pro 26.1%
6 Claude Code Claude Sonnet 4.6 25.5%
7 Cocoa-Agent Claude Sonnet 4.6 15.7%
8 Cocoa-Agent Kimi-k2.5 11.8%
9 Cocoa-Agent Qwen3.5-397B-A13B 9.8%

Figure 4: 主实验结果

Figure 4: 各Agent系统在CocoaBench上的整体性能表现

几个值得关注的点:

45.1%就是目前的天花板。GPT-5.4加上专用的Codex或OpenClaw脚手架,也不到一半。对于"统一数字智能体"这个愿景来说,这个数字相当寒酸。

同模型不同脚手架差距巨大。同样用GPT-5.4,Codex拿到45.1%,Cocoa-Agent只有36.6%,差了8.5个点。同样用Claude Sonnet 4.6,OpenClaw 34.0%,Cocoa-Agent 15.7%,差距更夸张——18.3个点。脚手架的设计对性能影响可能比模型本身还大。

开源模型惨不忍睹。Kimi-k2.5(1T参数MoE,32B激活)只有11.8%,Qwen3.5-397B更只有9.8%。跟闭源顶尖模型之间的鸿沟,在Agent场景下被放大了。

成本与性能的权衡

Figure 5: 成本-性能权衡

Figure 5: 准确率-成本和准确率-时间的权衡关系

智能体 成本/任务 准确率
Codex (GPT-5.4) $0.75 45.1%
OpenClaw (GPT-5.4) $1.09 45.1%
Cocoa-Agent (GPT-5.4) $2.31 36.6%

Codex站在帕累托前沿——最便宜,最快,还最准。Cocoa-Agent用同样的GPT-5.4骨干,花了3倍的钱,结果还差了8.5个点。更高的成本并不等于更好的性能,脚手架效率是决定性因素。

工具使用揭示了什么

这个分析是全文最有洞察力的部分。

Figure 6: 工具调用频率

Figure 6: 最频繁使用的10个工具,按总调用次数排序

Figure 7: 各模型工具分配

Figure 7: 各模型在三大能力类别上的工具调用分配

模型 Coding占比 Vision占比 成功率
GPT-5.4 64.0% 36.6%
Gemini-3.1-Pro 63.2% 26.1%
Kimi-k2.5 26.4% 51.7% 11.8%
Qwen3.5-397B 31.3% 9.8%

规律非常清楚:Coding工具使用率跟成功率强正相关

强模型(GPT-5.4、Gemini-3.1-Pro)的策略是"信息获取+代码处理"——用浏览器搜索信息,然后切到代码环境做分析、计算、格式化。弱模型则一直泡在浏览器里,试图通过GUI操作完成所有步骤,效率低且容易出错。

编码在CocoaBench中发挥了双重作用:一是作为高效动作空间,一行代码能替代十次浏览器点击;二是作为分析工具,处理收集到的复杂信息并生成结构化输出。

这个发现对Agent设计有直接的指导意义:别让Agent在浏览器里打持久战,教会它用代码解决问题


错误分析:54%的失败是因为"想错了"

论文对712条失败轨迹做了详细标注,按三大维度9个子类型分类:

Figure 8: 错误分析

Figure 8: 失败原因的三维分类——推理规划54%、视觉定位29%、工具执行17%

E1:推理与规划(54%)

这是最大的瓶颈。又分三个子类型:

  • 错误推理(E1.1):最常见。Agent要么目标偏移——解决了简化版的问题就以为完成了任务;要么策略根本就不对——理解了目标但用了有缺陷的方法。
  • 不精确(E1.2):大方向对,但返回值有精度偏差。浮点累积误差、数据边界搞错——比如统计引用时忘了排除附录里的。
  • 格式错误(E1.3):答案其实算对了,但输出格式不符合要求。答案埋在散文里缺少必需标签,或者多部分输出只提交了一部分。

说实话,E1.2和E1.3这两种失败让人有点窝火——推理是对的,就是收尾一步掉链子。这也说明当前Agent在"最后一公里"的严谨性上还有很大提升空间。

E2:工具与执行(17%)

  • 无限循环(E2.1):Agent卡住了,要么盲目重复相同动作,要么无休止调整低级参数没意识到整体策略失败。
  • 反爬障碍(E2.2):被网站安全机制拦截,把验证页面当成了目标内容,然后一本正经地编造答案。
  • 工具结果幻觉(E2.3):调用不存在的工具或捏造工具返回值继续执行。上下文截断也是这类问题——历史太长导致早期指令丢失。

E2.2这个反爬问题挺现实的。Agent在"野生"环境下碰到验证码、Cloudflare拦截都是常事,怎么识别和处理这些障碍,是走向真实部署必须解决的问题。

E3:视觉定位(29%)

  • 视觉细节(E3.1):看懂了大致布局但错过了细节——小目标检测遗漏、文本识别错误、细线感知偏差。
  • 视觉知识(E3.2):视觉表征形成了,但缺少把特征映射到概念的先验知识——比如颜色命名搞错、方向惯例弄反。
  • 缺失视觉感知(E3.3):Agent只通过DOM查询读取页面内容,完全忽略了只能从渲染后的像素缓冲区看到的信息(Canvas、SVG渲染结果等)。

E3.3这个发现很有意思。它说明很多Agent根本没有"看"网页——它们只是解析了HTML文本。但在真实场景中,大量关键信息只存在于渲染后的视觉输出中。


编码脚手架的意外泛化性

这个发现让我印象最深。

Codex原本是做编码的,Claude Code也是编码工具。但它们在CocoaBench这种需要视觉+搜索+编码综合能力的任务上,泛化性出奇地好:

对比组 编码脚手架 通用脚手架 差距
GPT-5.4 Codex 45.1% Cocoa-Agent 36.6% +8.5%
Claude Sonnet 4.6 OpenClaw 34.0% Cocoa-Agent 15.7% +18.3%

为什么编码脚手架能泛化?论文没给很深入的解释,但我觉得可以从工具使用分析中找到线索:强模型本身就会把大部分工具调用分配给编码。编码脚手架的设计逻辑天然契合了"信息获取+代码处理"这种高效策略。

反过来说,Cocoa-Agent这种"通用"脚手架,可能因为工具太多、选择空间太大,反而让模型在工具选择上犯了更多错。

这是一个值得深挖的方向:少即是多——给Agent更少但更精的工具,可能比给它一堆工具更有效


我的判断

CocoaBench做了一件该有人做的事。在Agent评测领域,大部分基准测试都在"各自为政"——SWE-bench管代码,WebArena管网页,OSWorld管桌面。CocoaBench把它们放到了同一个起跑线上,强制Agent展示跨能力组合的真实水平。45.1%的成绩就是最好的证明——在单一能力测试中看起来已经"及格"的Agent,一旦需要综合运用,就露馅了。

几个我觉得特别有价值的设计决策:

评估函数替代LLM裁判。GAIA等基准依赖LLM打分,引入了额外的噪声和不确定性。CocoaBench每个任务配一个确定性评估函数,结果可复现、无争议。

基础设施无关性。不绑定特定运行时,任何Agent框架都能直接接入。这让评测结果的可比性大大增强。

人为构建的长时域任务。153个任务都是人工设计的,覆盖了9个领域、多种资源类型。这不是从数据集自动采样的短任务,而是真正模拟了人在数字世界中遇到的复杂工作流。

但我也有些疑虑:

153个任务的规模偏小。对于一个覆盖9个域的基准来说,平均每个域不到17个任务。统计波动可能比较大,尤其是在做细粒度分析(比如按域分解)的时候。

时间稳定性问题。论文承认任务的"搜索"部分依赖互联网资源,虽然选择了相对稳定的网站,但互联网说到底是不稳定的。半年后某些网站改版,任务就可能失效。这跟SWE-bench的代码仓库一样,面临数据集老化的挑战。

脚手架差异的混淆因素。Codex和OpenClaw的脚手架都是商业产品,内部实现细节不透明。当我们说"Codex比Cocoa-Agent高8.5个点"时,很难完全归因于脚手架设计——可能跟提示工程、工具定义方式、甚至API参数调优都有关系。Cocoa-Agent作为开源脚手架提供了公平的基线,但商业产品的内部优势很难完全复现。

不过话说回来,作为该领域的早期基准,CocoaBench的设计理念是扎实的。它提出了正确的问题——统一数字智能体到底能不能把多种能力组合起来解决真实任务?答案很清楚:目前还不行,但改进路径也很明确——推理规划、视觉定位、工具执行,这三个方向都有巨大的提升空间。


对工程实践的启发

  1. 如果你正在做Agent产品,别只看单一能力测试的成绩。CocoaBench的数据告诉你,组合能力的衰减可能远超你的预期。
  2. 编码是统一Agent的核心引擎。与其让Agent在浏览器里慢慢操作,不如教它"搜完就写代码分析"。
  3. 视觉定位是个被低估的短板。如果你的Agent需要处理复杂网页,别只依赖DOM解析,确保它真的能"看见"渲染后的内容。
  4. 脚手架设计可能比模型选择更重要。同一模型在不同脚手架下的性能差距,比不同模型在同一脚手架下的差距还大。

觉得有启发的话,欢迎点赞、在看、转发。跟进最新AI前沿,关注我