OmniGAIA：迈向原生全模态AI智能体——基准测试与基础模型的全面突破

一句话总结：本文提出了OmniGAIA——首个面向原生全模态（视觉+音频+语言）AI智能体的综合性基准测试，以及OmniAtlas——一个具备主动感知和工具集成推理能力的全模态基础智能体，通过事件图驱动的数据构建流程和精细化的训练策略，将开源模型的工具使用和推理能力提升至新高度。

论文标题：OmniGAIA: Towards Native Omni-Modal AI Agents

作者：Xiaoxi Li, Wenxiang Jiao, Jiarui Jin, Shijian Wang, Guanting Dong, Jiajie Jin, Hao Wang, Yinuo Wang, Ji-Rong Wen, Yuan Lu, Zhicheng Dou

机构：中国人民大学、小红书、东南大学、浙江大学、清华大学

论文链接：https://arxiv.org/abs/2602.22897

代码链接：https://github.com/RUC-NLPIR/OmniGAIA

一、研究背景与动机

人类智能的核心特征之一，是能够无缝地融合视觉、听觉和语言等多种模态的感知，结合复杂推理和工具使用来理解世界并采取行动。构建通用AI助手因此需要模型能够联合感知多种模态、在长上下文中推理、并与外部工具交互进行验证和知识获取。

然而，当前的多模态大语言模型（MLLM）研究仍然主要聚焦于双模态交互（如视觉-语言或音频-语言），这极大限制了它们处理真实世界中多模态交织场景的能力。尽管新兴的全模态基础模型（如Qwen3-Omni）已开始统一更丰富的模态，但大多数工作主要侧重于感知能力，工具集成的智能体推理（tool-integrated agentic reasoning）仍严重不足。

在评估层面，现有基准测试同样存在明显短板：

基准测试	视频	图像	音频	多跳推理	外部工具	答案类型	Qwen3-Omni准确率
GAIA	✗	✓	✗	✓	✓	开放式	-
OmniBench	✗	✓	✓	✗	✗	多选	58.4
Daily-Omni	✓	✗	✓	✗	✗	多选	75.8
WorldSense	✓	✗	✓	✗	✗	多选	54.0
OmniVideoBench	✓	✗	✓	✓	✗	多选	38.4
UNO-Bench	✓	✓	✓	✓	✗	多选/开放	42.1/37.1
OmniGAIA (本文)	✓	✓	✓	✓	✓	开放式	13.3

从表中可以清楚看到：现有基准测试大多是双模态的、以感知为中心的，且主要使用多选题格式。OmniGAIA是唯一同时支持三种模态、多跳推理、外部工具使用和开放式答案的基准测试——而Qwen3-Omni在该基准上仅达到13.3的Pass@1，远低于其在其他基准上的表现，充分说明了OmniGAIA的挑战性。

二、OmniGAIA基准测试：事件图驱动的构建流程

2.1 整体构建流程

OmniGAIA的核心创新在于提出了一套全模态事件图驱动的构建流程（Event-Graph-Driven Construction Pipeline），通过四个阶段系统性地从真实世界数据中合成高质量的多跳推理任务。

OmniGAIA构建流程

阶段一：数据收集与信息挖掘

OmniGAIA从两种互补的输入设定构建数据： - 带音频的视频：汇聚来自FineVideo（43K视频，平均4分钟）、LongVideoBench（约1K视频）和LongVideo-Reason（约1K视频，约10分钟）等多个来源的高质量视频 - 图像+音频对：使用FineVideo的音频轨道提供多样化声学环境，结合COCO 2017（122K复杂日常场景图像）

论文使用Gemini-3-Flash对每种模态提取细粒度、时间对齐的信号：对视频按最多60秒分割为片段并生成片段级和全视频描述；对音频执行带时间戳的ASR、说话人分离和音频事件检测；对图像进行OCR、物体和人脸识别。

阶段二：全模态事件图构建

利用提取的信息，论文使用强推理智能体DeepSeek-V3.2自动构建事件图，表示实体/事件及其跨模态关系。关键insight是：真实世界的逻辑很少是简单的线性链，通常呈现分支（一对多）、级联（序列化）和混合拓扑结构。图表示能够捕获这些结构，支持合成逻辑一致且具有挑战性的任务。

阶段三：智能体驱动的事件图扩展

给定初始事件图后，论文引入智能体驱动的事件图扩展，主动发现缺失证据并创建真正需要跨模态关联和外部工具使用的任务。扩展智能体（基于DeepSeek-V3.2）配备了以下工具：

跨模态资源链接：search_related_{video/audio/image}_info——从数据库中检索上下文相关的多模态材料
网络知识集成：web_search + page_browser——检索网页并读取详细内容，获取时效性外部知识
外部视觉探索：web_image_search + visual_question_answering——搜索网页图片并查询其内容
计算工具：code_executor——支持复杂多步数值推理

阶段四：通过事件模糊化生成QA对

这是OmniGAIA构建流程中最具创造性的步骤。直接查询图中某个节点通常会退化为简单的事实查找。论文提出事件模糊化（Event Fuzzification）：沿着长推理路径选择特定节点/边，对关键信息进行模糊处理（例如用实体类型替换具体实体名称，或遮蔽关键属性），迫使模型必须遍历完整的逻辑路径并整合多源、多模态证据才能得出唯一答案。

2.2 质量检查

质量保证流程包含三个步骤： 1. LLM筛选：组建由DeepSeek-V3.2和Gemini-3-Pro组成的审查委员会，评估问题的自然性、全模态感知和工具使用的不可或缺性、以及答案的正确性和唯一性 2. 难度扩展：通过链接额外数据源、挖掘更深层证据或引入更复杂计算步骤来提高难度 3. 人工审核：三位计算机科学研究生级别的审核员验证每个QA对，检查问题合理性、标注正确性和答案的正确性/唯一性

2.3 数据集统计

OmniGAIA数据集统计

OmniGAIA包含360个全模态智能体任务，覆盖9个真实世界领域（地理、技术、历史、金融、体育、艺术、电影、科学、美食），分为Easy、Medium和Hard三个难度级别。视频时长从20秒到2352秒，音频时长从20秒到657秒。任务通常需要从长达数分钟的媒体中的视觉和音频中提取证据，规划多步解决方案路径，并通过外部工具验证或扩展信息。

三、OmniAtlas：原生全模态基础智能体

3.1 架构设计

OmniAtlas遵循工具集成推理（Tool-Integrated Reasoning, TIR）范式，自然地在推理和工具调用之间交替。智能体轨迹定义为：

\[\tau = [(s_t, a_t, o_t)]_{t=0}^{T}\]

其中 \(s_t\) 是第 \(t\) 步的推理思考，\(a_t\) 是动作（工具调用或最终回答），\(o_t\) 是工具返回的观察结果。模型根据交互历史生成下一个思考和动作：

\[p_\theta(\tau \mid \mathbf{x}) = \prod_{t=0}^{T} p_\theta(s_t, a_t \mid \mathbf{x}, s_{\lt t}, a_{\lt t}, o_{\lt t})\]

当检测到工具调用token时，生成暂停，执行相应工具，将返回的观察 \(o_t\) 追加到上下文中，然后模型继续生成。

主动全模态感知（Active Omni-Modal Perception）

对于长视频或高分辨率图像，朴素地摄入所有媒体既消耗token又常需激进下采样而丢失关键细节。OmniAtlas支持主动感知：智能体可以通过以下操作选择性地请求所需的特定片段或区域：

read_video(video_id, t_start, t_end)：读取视频特定时间窗口
read_audio(audio_id, t_start, t_end)：读取音频特定时间段
read_image(image_ids, crop_box)：读取图像特定区域

这实现了"按需观看/聆听"的感知策略，避免了全量下采样带来的信息损失。

3.2 训练策略

OmniAtlas训练策略

OmniAtlas的训练流程包含三个关键阶段：

第一阶段：基于后见引导的树探索合成轨迹

由于开源全模态模型在感知和工具集成推理方面仍落后，论文通过两阶段流程合成高质量智能体轨迹：

使用Gemini-3-Flash将原始多模态输入转换为详细文本描述
使用后见引导的树探索（Hindsight-Guided Tree Exploration）生成工具增强的解题轨迹

具体而言，由于专有Gemini模型不暴露原始推理痕迹，论文使用DeepSeek-V3.2合成工具集成轨迹。从根状态开始，在每一步采样 \(k=3\) 个候选续接（推理+工具动作），使用验证器Gemini-3-Flash（以正确答案为条件）来修剪错误或冗余分支，仅保留成功的轨迹用于训练。

最终共合成了2,156条高质量轨迹。

第二阶段：轨迹级有监督微调（Masked SFT）

使用标准teacher forcing进行轨迹级SFT，但施加掩码监督：仅在智能体生成的token（推理和工具调用token）上计算损失，同时屏蔽工具观察结果，以防止记忆环境反馈：

\[\mathcal{L}_{\text{SFT}}(\theta) = - \frac{1}{\sum_{i=1}^{L} m_i} \sum_{i=1}^{L} m_i \log p_\theta(y_i \mid y_{\lt i}, \mathbf{x})\]

其中 \(m_i=1\) 当且仅当 \(y_i\) 属于智能体的思考或动作。

第三阶段：OmniDPO——精细化错误纠正

全模态智能体任务需要多种紧密耦合的能力（感知、推理、工具使用），仅靠全轨迹SFT往往不足以纠正细粒度错误。论文提出OmniDPO，在与失败模式对齐的精细化片段上执行偏好优化。

具体流程： 1. 让SFT模型在训练集上探索 2. 对每条失败轨迹，由Gemini-3-Flash（可访问标注解决方案和答案）识别第一个错误步骤 3. 生成到该点为止的修正前缀

将原始（错误）前缀记为 \(\tau_{\text{lose}}\)，修正前缀记为 \(\tau_{\text{win}}\)，优化掩码DPO目标：

\[\mathcal{L}_{\text{DPO}}(\pi_\theta, \pi_{\text{ref}}) = - \mathbb{E}_{(\tau_{\text{win}}, \tau_{\text{lose}}) \sim \mathcal{D}} \left[ \log \sigma \left( \beta \log \frac{\pi_\theta(\tau_{\text{win}})}{\pi_{\text{ref}}(\tau_{\text{win}})} - \beta \log \frac{\pi_\theta(\tau_{\text{lose}})}{\pi_{\text{ref}}(\tau_{\text{lose}})} \right) \right]\]

OmniDPO的核心优势在于：它不是纠正整条轨迹，而是聚焦于第一个出错的步骤，使训练过程集中于修正单个错误，能更精确地定位和纠正感知、推理或工具使用中的具体弱点。

训练细节：所有实验在4个节点共32张NVIDIA H20-141GB GPU上进行。先在2,156条合成轨迹上进行2个epoch的SFT，再进行2个epoch的OmniDPO。训练了三种骨干模型规模：Qwen2.5-Omni-3B、Qwen2.5-Omni-7B和Qwen3-Omni-30B-A3B。所有模型参数（包括视觉塔、多模态投影器和语言模型）均参与更新。

四、实验结果

4.1 主要结果

模型	参数量	地理	技术	历史	金融	体育	艺术	电影	科学	美食	Easy	Med.	Hard	总体
专有模型
Gemini-2.5-Flash-Lite	-	5.8	8.2	14.9	4.0	10.8	8.3	6.1	3.9	11.1	9.8	8.1	7.7	8.6
Gemini-2.5-Pro	-	23.2	28.6	32.8	20.0	32.4	41.7	42.4	26.9	33.3	41.8	26.9	21.8	30.8
Gemini-3-Flash	-	50.7	57.1	44.8	48.0	59.5	55.6	54.6	38.5	61.1	67.2	46.9	37.2	51.7
Gemini-3-Pro	-	65.2	59.2	62.1	72.0	78.4	52.8	48.5	42.3	88.9	78.7	61.9	38.5	62.5
开源模型
Qwen-2.5-Omni	3B	0.0	2.0	4.5	0.0	0.0	0.0	0.0	3.9	0.0	1.6	1.9	0.0	1.4
Qwen-2.5-Omni	7B	1.5	4.1	7.5	4.0	0.0	2.8	0.0	7.7	5.6	8.2	1.3	1.3	3.6
Qwen-3-Omni	30B-A3B	8.7	14.3	11.9	28.0	10.8	13.9	9.1	15.4	22.2	19.7	10.6	9.0	13.3
LongCat-Flash-Omni	560B-A27B	8.7	10.2	16.4	12.0	10.8	8.3	6.1	11.5	16.7	16.4	9.4	6.4	11.1
OmniAtlas-Qwen-2.5	3B	4.4	12.2	16.7	4.0	16.2	11.1	3.0	11.5	11.1	13.9	10.0	5.1	10.3
OmniAtlas-Qwen-2.5	7B	8.7	18.4	16.4	4.0	16.2	22.2	3.0	7.7	22.2	22.1	11.3	3.9	13.3
OmniAtlas-Qwen-3	30B-A3B	10.1	30.6	29.9	32.0	18.9	16.7	12.1	11.5	27.8	31.1	18.8	9.0	20.8

实验揭示了四个关键发现：

(1) 专有与开源之间存在巨大鸿沟：Gemini-3-Pro（62.5）与Qwen-3-Omni（13.3）之间存在约4.7倍的性能差距，凸显了开源社区在原生全模态感知和可靠工具集成推理方面的迫切需求。

(2) 仅靠参数扩展远远不够：560B参数的LongCat-Flash-Omni（11.1）反而不如30B的Qwen-3-Omni（13.3），说明智能体能力——特别是工具使用策略——而非原始参数量，才是主要瓶颈。

(3) OmniAtlas实现持续提升：OmniAtlas将Qwen-3-Omni从13.3提升至20.8（+7.5绝对值）。在较小骨干上提升更为显著——Qwen-2.5-Omni-7B从3.6提升至13.3（约3.7倍），充分展示了OmniAtlas在不同模型规模上释放智能体潜力的有效性。

(4) 困难任务仍是核心挑战：所有模型在Easy→Hard上的性能急剧下降（如Gemini-3-Pro从78.7降至38.5），Deep多跳推理仍是重大难题。

4.2 精细化错误分析

精细化错误分析热力图

论文对6个模型进行了精细化的错误类型分析，覆盖指令遵循、视觉感知、音频感知、工具使用、推理和无答案6种错误类型。核心发现：

工具使用和推理失败占据主导：无效工具使用（35.3%–91.9%）和推理错误（15.8%–79.7%）远超指令遵循问题（6.4%–18.3%）
困难任务暴露级联失败模式：在Hard任务上，开源模型的工具滥用率接近饱和（约90%–96%），伴随高推理错误率（约80%–90%），证据获取失败会级联传播，最终导致推理崩溃
专有模型展现更强鲁棒性：Gemini-3-Pro在视觉/音频感知错误率（15.3%/14.4%）、工具使用/推理错误率（35.3%/15.8%）方面均显著优于Qwen-3-Omni（31.7%/33.9%和81.1%/79.7%）
OmniAtlas改善工具策略但感知仍是瓶颈：OmniAtlas有效降低了工具滥用率（81.1%→59.4%）和推理错误率（79.7%→64.4%），但视觉和音频感知错误仍居高不下（约30%–50%）

4.3 工具调用分布分析

工具调用分布

外部工具不可或缺：极少调用工具的模型（如Qwen-3-Omni集中在0次附近）成功率几乎为零
更多工具调用并不保证更好表现：高频工具调用（尾部>10-20次）并不保证成功，相当一部分这类运行仍然失败，表明模型存在"震荡"行为——反复调用工具却无法解决核心不确定性
OmniAtlas从工具调用不足转向更主动的工具使用：相比被动的Qwen-3-Omni，OmniAtlas展示了更高更广的工具调用分布

4.4 原生感知 vs. 工具化感知

论文通过精心设计的消融实验回答了一个核心问题：我们真的需要原生全模态智能体，还是感知工具可以替代？

方法	感知模型	Easy	Med.	Hard	平均	工具调用数
原生全模态感知
Gemini-3-Flash	无需	67.2	46.9	37.2	51.7	4.4
Qwen-3-Omni	无需	19.7	10.6	9.0	13.3	0.2
音频作为工具
Gemini-3-Flash	Gemini-3-Flash	60.7	48.8	35.9	50.0	7.6
Qwen-3-VL	Qwen-3-Omni	24.6	18.1	7.7	18.1	2.8
视觉作为工具
Gemini-3-Flash	Gemini-3-Flash	50.0	43.1	33.3	43.3	6.8
音视频均作为工具
Gemini-3-Flash	Gemini-3-Flash	52.5	46.9	35.9	46.4	9.4
Qwen-3	Qwen-3-Omni	32.8	10.6	6.4	17.2	2.3

关键结论： - 对于强模型，原生感知是最优方案：Gemini-3-Flash原生感知得分最高（51.7），工具调用最少（4.4），替换为感知工具后准确率下降而调用成本上升 - 感知工具对弱模型在Easy/Medium任务上有帮助，但在Hard任务上反而有害：Qwen-3-Omni使用工具后Easy/Med提升但Hard下降（9.0→3.9/5.1/7.7），说明工具输出可以修补缺失的低层信号，但无法替代长程推理所需的原生跨模态集成 - 工具化感知一致增加交互成本

因此，原生感知应是有能力的全模态智能体的默认选择，工具化感知最好作为弱模型或缺失模态场景的回退方案。

4.5 OmniAtlas训练有效性

方法	视觉感知↓	音频感知↓	无效工具使用↓	推理错误↓	性能↑
Qwen-2.5-Omni-7B	41.4	48.3	91.9	78.6	3.6
+ OmniAtlas-SFT	38.9	49.7	69.2	75.0	11.4
+ OmniDPO	37.2	46.1	67.2	72.8	13.3
Qwen-3-Omni-30B	31.7	33.9	81.1	79.7	13.3
+ OmniAtlas-SFT	32.2	35.8	65.3	68.1	18.9
+ OmniDPO	30.3	31.9	59.4	64.4	20.8

SFT贡献了大部分收益：大幅提升Pass@1并降低无效工具使用率（Qwen-3-Omni: 13.3→18.9, 81.1%→65.3%）
OmniDPO进一步实现全面提升：额外将性能推至20.8，并继续降低感知、工具使用和推理错误

五、案例分析：深入理解全模态智能体的失败模式

论文附录提供了三个极具启发性的案例研究，均来自同一个OmniGAIA实例。该实例要求识别Joliet Iron Works Historic Site附近的一座活动桥（Ruby Street Bridge，1935年建造），并计算1979年7月《蓝调兄弟》开拍时桥已矗立多少年（答案：44年）。

案例一（失败）：Qwen3-Omni——工具调用不足

模型完全没有使用工具（0次调用），过早地锁定了基于电影知识的"芝加哥桥梁"先验，输出了LaSalle Street Bridge和51年的错误答案。这暴露了过早闭合问题：模型对初始假设过于自信，甚至不尝试通过工具进行验证。

案例二（失败）：OmniAtlas-Qwen3——工具查询漂移

模型确实调用了工具（5次搜索+1次代码执行），但所有搜索查询都被锁定在初始错误假设（芝加哥桥梁）上。每次搜索结果都强化了芝加哥解释，形成确认偏差，模型从未执行过以地点为中心的纠正性查询。最终结果是"正确计算+错误事实"（94年而非44年），说明计算工具无法弥补上游的定位/检索错误。

案例三（成功）：Gemini-3-Pro——位置优先消歧+验证

模型遵循了一个鲁棒模式：首先以位置消歧（Joliet Iron Works → 附近的活动桥），然后进行定向检索验证桥梁身份和建造年份（Ruby Street Bridge, 1935），最后使用计算工具（1979-1935=44）。即使输出格式与标准答案不完全匹配（exact match失败），LLM-as-a-Judge仍判定语义等价。

核心教训：这三个案例隔离出当前全模态智能体的两种主要失败模式：(1)工具调用不足——证据获取不充分；(2)工具查询漂移——证据获取被错误先验引导。成功的策略是：位置优先定位 → 假设检验 → 验证后再计算 → 严格答案规范化。

六、个人思考与展望

6.1 方法论层面的洞察

事件图驱动的数据构建是一大亮点。 现有基准测试通常直接由人工或LLM生成问题，难以系统性控制推理复杂度和跨模态依赖。OmniGAIA通过显式构建事件图，不仅使数据构建过程可控可复现，而且通过事件模糊化可以精确调节任务难度。这种"先构建知识图谱，再基于图谱生成问题"的思路，可以推广到更多基准测试的构建中。

OmniDPO的"找到第一个错误步骤"策略极具实用价值。 传统的DPO/RLHF通常在完整序列级别进行偏好优化，但智能体轨迹中的错误往往具有级联特性——一个早期错误会导致后续所有步骤都偏离正轨。OmniDPO精确定位第一个错误点并仅针对该点进行修正，既避免了对"正确前缀+错误后缀"的无差别惩罚，又使修正信号更加精准。

主动感知机制揭示了一个重要范式转变。 从"一次性摄入所有信息"到"按需查看/聆听"，这不仅是工程优化，更反映了人类认知中"选择性注意"的基本原理。在处理长视频时，人类也不会逐帧观看——而是先获得整体概览，然后对可疑或关键片段进行仔细审查。

6.2 当前局限与未来方向

论文指出的三个未来方向值得关注：

全模态智能体RL：直接在全模态反馈下优化长期智能体策略，这可能是突破当前SFT+DPO天花板的关键路径
全模态MCP服务：可扩展的工具生态系统，为更广泛的全模态任务提供服务
全模态具身智能体：将全模态感知和推理能力扩展到物理世界，推动LLM驱动的AI助手完成现实世界任务

从错误分析数据来看，基础感知能力仍是最根本的瓶颈——即使OmniAtlas有效降低了工具使用和推理错误，视觉/音频感知错误仍居高不下（约30%–50%）。这意味着，提升全模态智能体性能的关键可能不仅在于更好的推理训练，更在于从底层改善模型的跨模态感知质量。

6.3 对工程实践的启示

工具使用策略比参数量更重要：560B的LongCat不如30B的Qwen3-Omni，充分说明在智能体场景中，如何使用工具远比模型大小更关键
确认偏差是智能体系统的隐形杀手：案例分析清楚展示了模型如何在错误假设上自我强化。工程实践中可以考虑引入"对抗性验证"机制——要求智能体在提交答案前主动搜索可能反驳其结论的证据
精细化错误分析对调试智能体系统至关重要：论文提出的6类错误分类（指令遵循、视觉感知、音频感知、工具使用、推理、无答案）为智能体系统的故障诊断提供了一个实用框架

七、总结

OmniGAIA和OmniAtlas的贡献可以从三个层面总结：

基准测试层面：OmniGAIA填补了全模态智能体评估的重大空白，首次同时要求视觉+音频+语言的联合感知、多跳推理、多轮工具使用和开放式答案生成
方法论层面：事件图驱动的数据构建流程和OmniDPO精细化错误纠正，为智能体训练提供了新的范式
实证层面：大规模实验和精细化分析清晰地揭示了当前全模态智能体的关键瓶颈——工具使用策略和基础感知能力，而非简单的参数扩展

这项工作标志着向下一代原生全模态AI助手迈出了重要一步。从13.3到20.8的提升虽然显著，但与Gemini-3-Pro的62.5相比仍有巨大差距，这为开源社区指明了清晰的努力方向：同时提升基础感知质量和智能体推理能力，才能真正实现原生全模态AI助手的愿景。