AI Agent做数据科学,排名不如一半的人类团队:AgentDS竞赛的冷水与启示

💡 论文标题:AgentDS Technical Report: Benchmarking the Future of Human-AI Collaboration in Domain-Specific Data Science

📅 发表时间:2026年3月19日

👤 作者:An Luo, Jin Du, Xun Xian, Robert Specht, Fangqiao Tian, Ganghua Wang, Xuan Bi, Charles Fleming, Ashish Kundu, Jayanth Srinivasa, Mingyi Hong, Rui Zhang, Tianxi Li, Galin Jones, Jie Ding

📎 论文链接:https://arxiv.org/abs/2603.19005


🎯 核心摘要

"AI要取代数据科学家"——这个说法你一定听过不少。但当AI Agent真的被放到需要领域知识的数据科学竞赛中时,结果如何?

这篇论文组织了一场29支队伍、80人参与、横跨6个行业的10天竞赛(AgentDS),用17个真实领域的数据科学挑战来测试AI Agent和人类数据科学家的能力。结果很直白:GPT-4o直接提示排名第17(29队中),得分0.143,低于中位数;Claude Code排名第10,得分0.458,只是中等偏上。排名前9的全是人类主导的团队,最强的队伍得分0.87——几乎是Claude Code的两倍。

核心结论:在需要领域专业知识的数据科学任务上,AI Agent远未达到替代人类的水平。最有效的模式是人机协作——人类把握方向和领域判断,AI加速执行和迭代。

定位:一份有价值的实证报告,用真实竞赛数据给"全自动AI数据科学"的叙事泼了一盆冷水。


📖 问题动机:AI Agent真的能做数据科学吗?

过去一年,各种"AI数据科学家"产品层出不穷——从自动EDA到自动特征工程再到自动建模。很多团队宣称AI Agent能端到端地完成数据科学任务。但一个关键问题没人认真回答过:在需要真实领域知识的场景中,AI Agent到底表现如何?

现有的数据科学benchmark有两个缺陷: 1. 领域浅薄:大多使用公开的Kaggle数据集,不涉及真实的行业知识 2. 评估单一:只看预测精度,不考虑特征工程、模型选择的合理性

AgentDS的设计就是为了填这个坑:6个行业、17个挑战、多模态数据(图片、文本、PDF、JSON)、需要真实的领域理解才能做好。


🏗️ 竞赛设计

覆盖的行业和任务

行业 挑战数 任务类型 数据特点
商业 2-3 分类/回归 交易数据、客户行为
食品生产 2-3 预测/排序 生产参数、质量检测
医疗健康 2-3 分类 临床数据、多模态
保险 2-3 回归/分类 理赔数据、风险评估
制造业 2-3 预测 传感器数据、设备状态
零售银行 2-3 分类/排序 客户信用、营销响应

每个挑战都经过精心设计,确保: - 需要领域特定的推理(不是通用的数据清洗就能搞定) - 包含多模态数据(不只是表格) - 反映真实世界的复杂度(缺失值、噪声、类别不平衡等)

参赛规模

  • 29支队伍,80名参与者
  • 10天竞赛周期
  • 2个AI基线:GPT-4o直接提示、Claude Code Agent模式

🧪 竞赛结果

总体排名

图1:所有参赛队伍和AI基线的总体表现排名——AI基线排名中下游

图1:29支队伍+2个AI基线的总分排名(Quantile Score)。绿色为人类团队,橙色为GPT-4o基线(0.143,排名17),紫色为Claude Code基线(0.458,排名10)。虚线为中位数(0.156)。排名前9的全是人类主导的团队,最高分0.87。

几个关键数字:

排名 选手 得分 性质
1 Team 1 0.87 人类团队
2 Team 2 0.83 人类团队
3 Team 3 0.71 人类团队
... ... ... ...
10 Claude Code 0.458 AI基线
... ... ... ...
17 GPT-4o 0.143 AI基线

按领域拆解

图3:不同领域的分数分布

图3:六个行业领域的得分分布。不同领域难度差异明显,AI基线在某些领域(如需要多模态理解的医疗任务)表现尤其差。

图4:每个具体挑战的表现分布

图4:17个具体挑战的参赛者得分分布,展示了不同任务的难度差异和AI基线在各任务上的表现。


🔬 深入分析:AI为什么做不好?

AI Agent的三大短板

1. 领域推理能力不足

AI Agent在处理需要行业知识的特征工程时表现糟糕。比如在保险领域,人类数据科学家知道"索赔金额与事故类型的交互特征"很重要,但AI只会做通用的统计变换(标准化、one-hot编码),不会构造有业务含义的交叉特征。

2. 多模态数据处理薄弱

当数据集包含PDF报告、产品图片、非结构化文本时,AI Agent要么忽略这些数据源,要么处理方式粗糙(比如只提取PDF中的数字,忽略上下文)。人类能把这些非结构化信息转化为有效特征。

3. 策略判断缺失

数据科学不只是"跑模型"——选什么模型、怎么做验证、什么时候该停止调参,都需要判断。多个参赛团队反馈,他们一开始尝试全自动AI方案,但很快发现AI给出的建议不靠谱(比如在小数据集上用深度学习),最终转向人工主导+AI辅助的模式。

人机协作为什么有效?

竞赛中表现最好的团队,都采用了类似的协作模式:

人类(战略层)              AI(执行层)
├── 诊断问题性质            ├── 快速生成代码模板
├── 设计特征工程策略        ├── 批量实验多种模型
├── 注入领域知识            ├── 自动化调参
├── 过滤AI的错误建议        ├── 数据预处理自动化
└── 最终决策和质量把控      └── 结果可视化

关键是人类保留了控制权:AI负责"干活",人类负责"想方向"。人类能提供的三种不可替代的能力:

  • 因果推理:知道特征之间的业务因果关系,不只是统计相关
  • 领域接地:理解数据背后的业务含义,识别数据中的异常是bug还是真实现象
  • 错误纠正:能判断AI的建议是否合理,及时拦截错误方向

🤔 批判性思考

这篇报告的价值

  1. 实证数据有说服力:不是理论分析,而是29支队伍的真实竞赛结果。"GPT-4o排名17/29"这个数据比任何理论论证都更有冲击力

  2. 挑战了主流叙事:在"AI Agent替代一切"的狂热中,这份报告是少有的冷静声音。数据说明在领域密集型任务上,AI还差得远

  3. 人机协作的实证:不是空喊"人机协作很重要",而是通过竞赛证明了协作模式确实产出最好的结果

局限和需要注意的点

  1. AI基线可能没做到最好:GPT-4o用的是"直接提示",Claude Code用的是"Agent模式"——但这两种方式都可能不是最优的。如果用更精心设计的prompt、RAG增强领域知识、或者用专门的数据科学Agent框架(如AutoML+LLM),AI基线可能会好得多。报告没有测试这些更强的AI方案

  2. 竞赛时长的影响:10天的竞赛周期对人类有利——人类可以深入理解数据,做多轮迭代。如果是1小时限时赛,AI的速度优势可能更明显

  3. 参赛者水平分布不均:29支队伍中很多得分接近0,说明不少队伍可能是初学者。AI基线排名"中下游"部分是因为它在和一些很弱的团队比较

  4. 领域知识的获取方式在变:论文的结论建立在"AI缺乏领域知识"的前提上。但随着RAG和领域专属微调技术的发展,AI获取领域知识的能力正在快速提升。这个结论的时效性可能有限

与"AI数据科学家"产品的关系

市面上的AI数据科学产品(如Julius AI、ChatGPT的Code Interpreter等)主要面向通用数据分析场景——简单的可视化、基础的统计分析、标准的ML流程。AgentDS测试的是需要深度领域知识的场景,难度高得多。不能把"AI在AgentDS上表现差"等同于"AI在所有数据科学场景都没用"。


💡 工程启示

  1. 别急着用AI全自动化数据科学:在领域知识密集的场景中,全自动AI方案的表现不如你想的那么好。最有效的路径是人机协作,而非替代

  2. AI最擅长的是加速执行,不是制定策略:把AI当作"能写代码的助手"比当作"能做决策的专家"更现实。让AI跑实验、写代码、做可视化,但关键决策留给人

  3. 领域知识注入是关键:如果你要做某个垂直行业的AI数据科学产品,单纯的通用大模型不够。你需要RAG领域文档、领域专属的prompt模板、或者微调

  4. 评估AI能力要用领域任务:在通用benchmark上表现好,不代表在你的业务场景中表现好。建议在自己的领域数据上做A/B测试,而不是只看排行榜


觉得有启发的话,欢迎点赞、在看、转发。跟进最新AI前沿,关注公众号:机器懂语言