AI Agent做数据科学，排名不如一半的人类团队：AgentDS竞赛的冷水与启示

💡 论文标题：AgentDS Technical Report: Benchmarking the Future of Human-AI Collaboration in Domain-Specific Data Science

📅 发表时间：2026年3月19日

👤 作者：An Luo, Jin Du, Xun Xian, Robert Specht, Fangqiao Tian, Ganghua Wang, Xuan Bi, Charles Fleming, Ashish Kundu, Jayanth Srinivasa, Mingyi Hong, Rui Zhang, Tianxi Li, Galin Jones, Jie Ding

📎 论文链接：https://arxiv.org/abs/2603.19005

🎯 核心摘要

"AI要取代数据科学家"——这个说法你一定听过不少。但当AI Agent真的被放到需要领域知识的数据科学竞赛中时，结果如何？

这篇论文组织了一场29支队伍、80人参与、横跨6个行业的10天竞赛（AgentDS），用17个真实领域的数据科学挑战来测试AI Agent和人类数据科学家的能力。结果很直白：GPT-4o直接提示排名第17（29队中），得分0.143，低于中位数；Claude Code排名第10，得分0.458，只是中等偏上。排名前9的全是人类主导的团队，最强的队伍得分0.87——几乎是Claude Code的两倍。

核心结论：在需要领域专业知识的数据科学任务上，AI Agent远未达到替代人类的水平。最有效的模式是人机协作——人类把握方向和领域判断，AI加速执行和迭代。

定位：一份有价值的实证报告，用真实竞赛数据给"全自动AI数据科学"的叙事泼了一盆冷水。

📖 问题动机：AI Agent真的能做数据科学吗？

过去一年，各种"AI数据科学家"产品层出不穷——从自动EDA到自动特征工程再到自动建模。很多团队宣称AI Agent能端到端地完成数据科学任务。但一个关键问题没人认真回答过：在需要真实领域知识的场景中，AI Agent到底表现如何？

现有的数据科学benchmark有两个缺陷： 1. 领域浅薄：大多使用公开的Kaggle数据集，不涉及真实的行业知识 2. 评估单一：只看预测精度，不考虑特征工程、模型选择的合理性

AgentDS的设计就是为了填这个坑：6个行业、17个挑战、多模态数据（图片、文本、PDF、JSON）、需要真实的领域理解才能做好。

🏗️ 竞赛设计

覆盖的行业和任务

行业	挑战数	任务类型	数据特点
商业	2-3	分类/回归	交易数据、客户行为
食品生产	2-3	预测/排序	生产参数、质量检测
医疗健康	2-3	分类	临床数据、多模态
保险	2-3	回归/分类	理赔数据、风险评估
制造业	2-3	预测	传感器数据、设备状态
零售银行	2-3	分类/排序	客户信用、营销响应

每个挑战都经过精心设计，确保： - 需要领域特定的推理（不是通用的数据清洗就能搞定） - 包含多模态数据（不只是表格） - 反映真实世界的复杂度（缺失值、噪声、类别不平衡等）

参赛规模

29支队伍，80名参与者
10天竞赛周期
2个AI基线：GPT-4o直接提示、Claude Code Agent模式

🧪 竞赛结果

总体排名

图1：所有参赛队伍和AI基线的总体表现排名——AI基线排名中下游

图1：29支队伍+2个AI基线的总分排名（Quantile Score）。绿色为人类团队，橙色为GPT-4o基线（0.143，排名17），紫色为Claude Code基线（0.458，排名10）。虚线为中位数（0.156）。排名前9的全是人类主导的团队，最高分0.87。

几个关键数字：

排名	选手	得分	性质
1	Team 1	0.87	人类团队
2	Team 2	0.83	人类团队
3	Team 3	0.71	人类团队
...	...	...	...
10	Claude Code	0.458	AI基线
...	...	...	...
17	GPT-4o	0.143	AI基线

按领域拆解

图3：不同领域的分数分布

图3：六个行业领域的得分分布。不同领域难度差异明显，AI基线在某些领域（如需要多模态理解的医疗任务）表现尤其差。

图4：每个具体挑战的表现分布

图4：17个具体挑战的参赛者得分分布，展示了不同任务的难度差异和AI基线在各任务上的表现。

🔬 深入分析：AI为什么做不好？

AI Agent的三大短板

1. 领域推理能力不足

AI Agent在处理需要行业知识的特征工程时表现糟糕。比如在保险领域，人类数据科学家知道"索赔金额与事故类型的交互特征"很重要，但AI只会做通用的统计变换（标准化、one-hot编码），不会构造有业务含义的交叉特征。

2. 多模态数据处理薄弱

当数据集包含PDF报告、产品图片、非结构化文本时，AI Agent要么忽略这些数据源，要么处理方式粗糙（比如只提取PDF中的数字，忽略上下文）。人类能把这些非结构化信息转化为有效特征。

3. 策略判断缺失

数据科学不只是"跑模型"——选什么模型、怎么做验证、什么时候该停止调参，都需要判断。多个参赛团队反馈，他们一开始尝试全自动AI方案，但很快发现AI给出的建议不靠谱（比如在小数据集上用深度学习），最终转向人工主导+AI辅助的模式。

人机协作为什么有效？

竞赛中表现最好的团队，都采用了类似的协作模式：

人类（战略层）              AI（执行层）
├── 诊断问题性质            ├── 快速生成代码模板
├── 设计特征工程策略        ├── 批量实验多种模型
├── 注入领域知识            ├── 自动化调参
├── 过滤AI的错误建议        ├── 数据预处理自动化
└── 最终决策和质量把控      └── 结果可视化

关键是人类保留了控制权：AI负责"干活"，人类负责"想方向"。人类能提供的三种不可替代的能力：

因果推理：知道特征之间的业务因果关系，不只是统计相关
领域接地：理解数据背后的业务含义，识别数据中的异常是bug还是真实现象
错误纠正：能判断AI的建议是否合理，及时拦截错误方向

🤔 批判性思考

这篇报告的价值

实证数据有说服力：不是理论分析，而是29支队伍的真实竞赛结果。"GPT-4o排名17/29"这个数据比任何理论论证都更有冲击力
挑战了主流叙事：在"AI Agent替代一切"的狂热中，这份报告是少有的冷静声音。数据说明在领域密集型任务上，AI还差得远
人机协作的实证：不是空喊"人机协作很重要"，而是通过竞赛证明了协作模式确实产出最好的结果

局限和需要注意的点

AI基线可能没做到最好：GPT-4o用的是"直接提示"，Claude Code用的是"Agent模式"——但这两种方式都可能不是最优的。如果用更精心设计的prompt、RAG增强领域知识、或者用专门的数据科学Agent框架（如AutoML+LLM），AI基线可能会好得多。报告没有测试这些更强的AI方案
竞赛时长的影响：10天的竞赛周期对人类有利——人类可以深入理解数据，做多轮迭代。如果是1小时限时赛，AI的速度优势可能更明显
参赛者水平分布不均：29支队伍中很多得分接近0，说明不少队伍可能是初学者。AI基线排名"中下游"部分是因为它在和一些很弱的团队比较
领域知识的获取方式在变：论文的结论建立在"AI缺乏领域知识"的前提上。但随着RAG和领域专属微调技术的发展，AI获取领域知识的能力正在快速提升。这个结论的时效性可能有限

与"AI数据科学家"产品的关系

市面上的AI数据科学产品（如Julius AI、ChatGPT的Code Interpreter等）主要面向通用数据分析场景——简单的可视化、基础的统计分析、标准的ML流程。AgentDS测试的是需要深度领域知识的场景，难度高得多。不能把"AI在AgentDS上表现差"等同于"AI在所有数据科学场景都没用"。

💡 工程启示

别急着用AI全自动化数据科学：在领域知识密集的场景中，全自动AI方案的表现不如你想的那么好。最有效的路径是人机协作，而非替代
AI最擅长的是加速执行，不是制定策略：把AI当作"能写代码的助手"比当作"能做决策的专家"更现实。让AI跑实验、写代码、做可视化，但关键决策留给人
领域知识注入是关键：如果你要做某个垂直行业的AI数据科学产品，单纯的通用大模型不够。你需要RAG领域文档、领域专属的prompt模板、或者微调
评估AI能力要用领域任务：在通用benchmark上表现好，不代表在你的业务场景中表现好。建议在自己的领域数据上做A/B测试，而不是只看排行榜

觉得有启发的话，欢迎点赞、在看、转发。跟进最新AI前沿，关注公众号：机器懂语言