DR-Venus:4B 小模型靠 1 万条开源数据,把 Deep Research 干到 9B 全员碾压

核心摘要

Deep Research 这条赛道这半年很拥挤——Tongyi、DeepDive、WebSailor、REDSearcher、OpenSeeker,一堆 30B 起步的模型在 BrowseComp 上互卷分数。但端侧/边缘部署一直是个尴尬的话题:30B 跑不动,4B/8B 又打不过,小模型在长程 Agent 任务上常年是个洼地。

蚂蚁集团 Venus 团队的这篇 DR-Venus 给了一个看起来挺极致的答案:以 Qwen3-4B-Thinking-2507 作为基座模型,全部开源数据,只有 1 万条 SFT 轨迹 + 1 千条 RL 数据,做出了一个在 BrowseComp 上拿到 29.1、BrowseComp-ZH 拿到 37.7 的 4B Agent。这个分数的含义是:直接把所有 9B 以下的开源 Agent 全部摁在地上摩擦——之前最强的 4B 同行 AgentCPM-Explore-4B 在 BrowseComp 上是 24.1,DR-Venus-4B-RL 高出 5 个点;和 30B 级别的 Tongyi-DR-30B(43.4)也只差 14 个点了。

更有意思的是 Pass@16 那张图:4B 模型的 BrowseComp-ZH Pass@16 居然冲到了 78.5,反超 GPT-5 High(65.0)和 Gemini-3-Pro(66.8)。这件事说明小模型的能力天花板被 Pass@1 严重低估了,配合 test-time scaling 完全是另一种生物。

技术上的核心是两件事:第一,SFT 阶段的"长轨迹重采样"——把 100 turn 以上的轨迹权重拉到 5×,强行把模型往 long-horizon 上掰;第二,RL 阶段用 IGPO 替代 GRPO——基于信息增益(Information Gain)的 turn-level reward 替代了稀疏的 outcome reward。在他们的消融里,同样的训练流程换成 GRPO 反而是 -1.5,IGPO 是 +2.3,差异非常硬。

这是一篇典型的"工程整合 + 一个关键算法替换"的 paper。亮点不在于发明了什么新组件,而在于它选了一条正确的小模型路径:高质量数据 + 长轨迹偏置 + 密集 turn-level reward。读完之后你会同意一件事:在 Deep Research 这条赛道上,模型规模可能确实不是决定性因素


论文信息

  • 标题:DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data
  • 作者:Sunhao Dai、Yong Deng、Jinzhen Lin、Yusheng Song、Guoqing Wang、Xiaofeng Wu、Yuqi Zhou(核心贡献者);Shuo Yang、Zhenzhe Ying、Zhanwei Zhang(贡献者);Changhua Meng、Weiqiang Wang(指导)
  • 机构:Ant Group(蚂蚁集团 Venus 团队)
  • arXivhttps://arxiv.org/abs/2604.19859
  • 代码https://github.com/inclusionAI/DR-Venus

为什么需要"小型化的 Deep Research Agent"

先聊一下背景。Deep Research 类任务的范式现在已经基本定型:用户给一个复杂的信息查询(比如"某个非主流学术领域里 2024 年之后引用最多的三篇 paper 是什么"),Agent 通过 search + browse 两个工具反复迭代,最终综合证据给出答案。这里面"反复"是关键词——一次 trajectory 动辄 50 turn 起步,长的能到 200 turn。

工业界主流做法是堆模型规模。Tongyi-DR、WebSailor-V2、DeepDive、REDSearcher 全是 30B 起步。原因也很直接:长程任务对推理稳定性、format 一致性、工具调用准确性的要求高,小模型一旦在某一步崩了,整条轨迹就废了。

但 30B 模型的部署成本是另一码事。说实话我之前在做端侧 Agent 的时候反复碰到这个矛盾:你想把 Agent 推到用户本地(隐私、离线、低延迟),但你能塞进消费级硬件的,撑死也就 4B-8B。所以这篇 paper 直接立了个 flag:4B 能不能做到 Deep Research 的前沿水平?

而限制条件还更狠:

  • 只用开源数据——不能拿内部的高质量轨迹,必须从 REDSearcher 公开的 10K 轨迹起步
  • 数据量极少——SFT 只有 1 万条,RL 只有 1 千条 query-answer
  • 基座要小——Qwen3-4B-Thinking-2507

这种约束下能不能 work?看实验结果,能。但能 work 的关键不在于"魔法 trick",而在于把每一步都做到位。


方法核心:两阶段 + 两个关键设计

DR-Venus 的训练 pipeline 干净得有点反直觉——就是经典的 SFT + RL 两阶段,没有任何花里胡哨的中间件。但每一阶段都有一个针对小模型 + 长程任务的关键设计。

Stage 1:SFT 数据清洗 + 长轨迹重采样

REDSearcher 公开的 10K 原始轨迹其实噪声不小。Venus 团队做了一套四步清洗:

步骤 操作 效果
环境对齐 把所有轨迹的 message schema、system prompt、tool 调用格式统一成线上推理一致的 protocol 减少 train/inference mismatch,10001→10001
工具裁剪 + 去重 只保留 searchbrowse 两个工具,删除 PythonInterpreter 等其他工具调用;同时删除重复的 search/browse 调用 移除 3378 个 disallowed 工具调用 + 15728 个重复调用,剩 10000 条
正确性过滤 用 Qwen3-235B-A22B-Instruct-2507 做 judge,只保留最终答案正确的轨迹 9365 条(93.65%)幸存
Turn-aware 重采样 0-50 turn 的轨迹 ×1,51-100 turn ×2,>100 turn ×5 9365→18745 条;>100 turn 的比例从 13.29% 拉到 33.21%

前三步是常规操作,关键是第四步。

这个想法其实挺直觉但也挺关键:Deep Research 任务的难点全在长程——50 turn 以内的任务,模型基本能搞定;100 turn 以上的任务,是模型最容易在中途崩掉的地方。如果均匀采样训练,模型会学到一堆"短任务模式",但部署时碰到长任务就跪。

5× 的权重看起来很激进,但消融数据说话——下面会看到,加了 Resampling 之后 BrowseComp 涨了 4.0 个点,BrowseComp-ZH 涨了 1.8 个点。对于"小模型 + 有限数据"这个 setting,长轨迹的供给密度是关键瓶颈,不是总数据量。

整个 SFT 阶段的目标函数本身没什么花样,就是标准的 next-token loss,但只在 assistant 生成的 token(reasoning + tool call + final answer)上计算,环境返回的 observation 完全 mask 掉:

\[\mathcal{L}_{\mathrm{SFT}}(\theta) = -\sum_{H \in \mathcal{D}_{\mathrm{SFT}}} \sum_{i \in \mathcal{M}(H)} \log \pi_\theta(x_i \mid x_{<i})\]

这个 mask 设计虽然是 agentic SFT 的标配,但对小模型尤其重要——避免模型把环境返回的网页内容也当成自己要学习生成的目标,那样就把模型拉成搜索引擎了。

Stage 2:用 IGPO 替代 GRPO 的 turn-level RL

这个是 paper 的算法核心。我先把直觉讲清楚再展开公式。

问题的本质:GRPO 是 trajectory-level 的稀疏 outcome reward——一条 200 turn 的轨迹,只在最后一步给一个 0 或 1 的信号。对小模型来说这个信号太稀疏了,特别是在长程任务上:rollout group 里经常出现"8 条轨迹全是错的"的情况,advantage 直接 collapse 成 0,整个 group 没有任何梯度可学。

IGPO 的核心思路(来自 wang2026information):把"信息增益"作为 turn-level 的 dense reward。具体一点:在 turn \(t\),模型新看到一些证据(比如 browse 了一个网页),那么模型当前对 ground truth 的 log-likelihood 应该会比 turn \(t-1\) 高一些。这个增量本身就是一个稠密的奖励信号

\[r_{i,t}^{IG} = \log \pi_\theta(g \mid h_{i,\leq t}) - \log \pi_\theta(g \mid h_{i,\leq t-1}), \quad 1 \leq t \lt T\]

其中 \(g\) 是 ground truth 答案 token 序列,\(h_{i,\leq t}\) 是到 turn \(t\) 为止的全部交互历史。直白讲:这一 turn 让我变得多有信心说出正确答案?

工程意义在于——即使最终答案错了,如果中间某些 turn 拉高了对正确答案的信心,那些 turn 仍然是好行为,模型应该被鼓励这么做。这就把 200 turn 的稀疏信号变成了 199 个 turn-level dense 信号 + 1 个 outcome 信号。

DR-Venus 在 IGPO 基础上叠加了三个改良:

1. Browse-Aware IG 分配

search 主要返回短摘要,证据稀薄;browse 才是真正读取网页内容的环节。所以只在 browse turn 上算 IG reward,并把这个 reward 回溯分配给前一次 browse 之后的所有 search turn。等价于把"探索(search)+ 检验(browse)"绑成一个整体来评估。

这个设计在我看来是真有 Agent 工程经验的人才能想到的——search 和 browse 在因果关系上是耦合的,单独评估 search 没有意义。

2. Turn-Level Format Penalty

传统 trajectory-level format penalty 有个明显问题:200 turn 里有 1 turn format 错了,整条轨迹的所有 token 都被惩罚——这对 199 个写对的 turn 是不公平的。

DR-Venus 改成 per-turn 粒度

\[\hat{r}_{i,t} = \begin{cases} r_{i,t}, & \text{turn } t \text{ format 合法} \\ -\lambda_{\mathrm{fmt}}, & \text{否则} \end{cases}\]

只惩罚出错的 turn,不殃及无辜。\(\lambda_{\mathrm{fmt}} = 1.0\)

3. IG-Scale 自适应 rebalance

这个是处理"超长轨迹下 outcome reward 几乎全 0"的极端 case。当一个 group 内所有 8 条 trajectory 都失败时,outcome 的均值/方差归一化会失效,这时候优化几乎完全被 IG reward 主导,容易陷入局部最优。

IG-Scale 用一个比值 \(s = \min(\max(M^O, \eta) / (M^{IG} + \delta), s_{\max})\) 来自适应调节 IG reward 的尺度,让它和 outcome reward 量级匹配(\(\eta = 0.3, s_{\max} = 10\))。

最终每个 turn 的 reward 还会做一个 \(\gamma = 0.95\) 的折扣累积:

\[\tilde{R}_{i,t} = \sum_{k=t}^{T_i} \gamma^{k-t} \bar{r}_{i,k}\]

这样每个 turn 的 reward 不仅反映自己的贡献,也包含对未来的"前瞻性"。

IGPO 的最终目标函数

剩下的就是标准的 GRPO 风格 PPO clip + KL 约束:

\[\mathcal{J}_{\mathrm{IGPO}}(\theta) = \mathbb{E} \left[ \frac{1}{G} \sum_{i=1}^{G} \frac{1}{|u_i|} \sum_{k=1}^{|u_i|} \min\left( \rho \tilde{R}_{i,k},\; \mathrm{clip}(\rho, 1-\epsilon, 1+\epsilon) \tilde{R}_{i,k} \right) - \beta \mathbb{D}_{\mathrm{KL}}(\pi_\theta \| \pi_{\mathrm{ref}}) \right]\]

其中 \(\rho = \pi_\theta(u_{i,k} \mid c_{i,k}) / \pi_{\theta_\mathrm{old}}(u_{i,k} \mid c_{i,k})\)。和 GRPO 长得几乎一样,但 advantage 换成了 turn-level 的 \(\tilde{R}_{i,k}\)


实验:4B 干翻所有 9B,逼近 30B

主实验:六个 Deep Research benchmark 的全方位对比

图1:DR-Venus-4B 在 BrowseComp 和 BrowseComp-ZH 上和其他开源模型的对比

图1:DR-Venus-4B-RL 在 BrowseComp 上拿到 29.1,BrowseComp-ZH 拿到 37.7。比第二名 AgentCPM-Explore-4B 在两个 benchmark 上分别高 5.0 和 8.6 个点,把所有 9B 以下模型拉开一个明显的身位。

主表(Table 1)覆盖了三类对手:foundation model(带工具)、≥30B 的训练 Agent、≤9B 的训练 Agent。我把核心数字整理在下面:

模型 规模 BrowseComp BrowseComp-ZH GAIA(Text) xBench-DS-2505 xBench-DS-2510 DeepSearchQA
Foundation Models(带工具)
GPT-5 High - 54.9 65.0 76.4 77.8 75.0 79.0
Gemini-3-Pro - 59.2 66.8 53.0 76.9
Claude-4.5-Opus - 67.8 62.4 80.0
DeepSeek-V3.2 - 67.6 65.0 75.1 78.0 55.7 60.9
Trained Agents (≥30B)
Tongyi-DR-30B 30B 43.4 46.7 70.9 75.0 55.0
WebSailor-V2-30B-RL 30B 35.3 44.1 74.1 73.7
DeepMiner-32B-RL 32B 33.5 40.1 58.7 62.0
REDSearcher-30B-A3B 30B 42.1 49.8 80.1
Trained Agents (≤9B)
WebSailor-7B 7B 6.7 14.2 37.9 34.3
OffSeeker-8B-DPO 8B 12.8 26.6 51.5 49.0
WebExplorer-8B-RL 8B 15.7 32.0 50.0 53.7 23.0 17.8
AgentCPM-Explore-4B 4B 24.1 29.1 63.9 70.0 34.0 32.8
DR-Venus-4B-SFT 4B 26.8 35.7 65.4 69.0 35.3 37.7
DR-Venus-4B-RL 4B 29.1 37.7 64.4 74.7 40.7 39.6

几个数值需要重点圈一下:

第一,DR-Venus-4B-SFT 单是 SFT 阶段就已经在 5/6 个 benchmark 上击败了之前最强的 4B 同行 AgentCPM-Explore-4B。这意味着光是数据清洗 + 长轨迹重采样,就已经能把 4B 模型拉到一个新的水位。

第二,DR-Venus-4B-RL 在 xBench-DS-2505 上拿到 74.7,已经几乎追平了 Tongyi-DR-30B 的 75.0——这是 4B 接近 30B 的硬证据。

第三,对比 30B 级别 baseline 的失败案例:DeepDive-32B-SFT 在 BrowseComp 上只有 9.5,DeepMiner-32B-RL 也只有 33.5。这说明把 30B 模型直接扔进 Deep Research 不一定能拿到好结果,训练 recipe 比模型规模更关键。

但也要客观看,DR-Venus-4B 和闭源 frontier model(GPT-5、Claude-4.5、Gemini-3-Pro)之间还有一个 30 个点左右的差距。Deep Research 这条赛道,规模和数据的红利还没用完。

消融:到底是哪一步在起作用?

模型 训练 BrowseComp BrowseComp-ZH
REDSearcher-30B-A3B(SFT) SFT 34.7 26.8
DR-Venus-4B-SFT (w/o Resampling) SFT 22.8 33.9
DR-Venus-4B-SFT (w/ Resampling) SFT 26.8 (+4.0) 35.7 (+1.8)
DR-Venus-4B-RL (w/ GRPO) SFT+RL 25.3 (-1.5) 35.6 (-0.1)
DR-Venus-4B-RL (w/ IGPO) SFT+RL 29.1 (+2.3) 37.7 (+2.0)

这张表有两条信息特别值得品。

第一条:DR-Venus-4B-SFT 在 BrowseComp-ZH 上反超 REDSearcher-30B-A3B(35.7 vs 26.8)——同样的训练数据源,4B 把 30B 干翻了。这说明 REDSearcher 团队自己的轨迹其实还没榨干价值,认真做数据清洗 + 重采样能挖出比堆参数更多的收益。

第二条:GRPO 在 SFT baseline 上是 -1.5 / -0.1,IGPO 是 +2.3 / +2.0。差异极大。

说实话看到这个数我愣了一下——同样的训练数据、同样的初始化、同样的 rollout 流程,只是 reward 信号从稀疏 outcome 换成 turn-level IG,效果差了 4 个点。这相当于反向证明了一件事:对于 200 turn 这种超长任务,trajectory-level 稀疏 reward 已经无法提供有效梯度了。GRPO 在 200 turn 上几乎没法 work,这本身就是一个值得记的工程经验。

Pass@K:4B 的能力天花板被严重低估

图2:BrowseComp Pass@K 曲线

图2:BrowseComp 上的 Pass@K 表现。RL 模型(橙)从 K=1 到 K=16 都全程领先 SFT(蓝),最终 Pass@16 拉到 63.7,反超 GPT-5 High(54.9)和 Tongyi-DR-30B(43.4)。

图3:BrowseComp-ZH Pass@K 曲线

图3:BrowseComp-ZH 上的 Pass@K——这张图更夸张。SFT 模型在 K=8 时就达到 74.0,K=16 冲到 78.5,已经反超 Gemini-3-Pro(66.8)和 GPT-5 High(65.0)。RL 模型在小 K 区间(Pass@1, Pass@2)领先 SFT,但在大 K 区间反而稍低(K=16 时 76.5 vs SFT 78.5)。

这两张图给了一个很反直觉的洞察。

我的第一反应是:RL 不一定提升模型的能力天花板,它提升的是"用低预算实现这个天花板的可靠性"。看 BrowseComp-ZH 上 SFT 的 Pass@16 反而高于 RL,原因 paper 给的解释是 RL 的训练数据全是英文(distribution mismatch)。但更普遍的解释可能是:RL 在缩小 trajectory 多样性,让模型在某一种正确路径上变得更可靠,但牺牲了探索其他路径的能力。

无论如何,这个发现对工程的指导意义很明确:部署 4B Deep Research Agent 时,搭配 test-time scaling(多次采样 + 答案聚合)几乎是必选项。Pass@1 的 37.7 看起来一般,但 Pass@16 的 78.5 已经超过 GPT-5 High——投入 16 次推理预算可能比换更大的模型更划算。

工具使用模式分析:browse 是关键

图4:六个 benchmark 上 SFT 和 RL 的 browse ratio 对比

图4:browse ratio 分析。蓝色(实/斜纹)= 答对的轨迹的 browse 比例,黄色 = 答错的轨迹,绿色 = 整体平均。一个一致的模式:答对的轨迹的 browse ratio 普遍高于答错的轨迹,RL 之后这个差距更明显。

这张图的核心信息:

  • 整体 browse ratio:SFT 17.49% → RL 22.46%
  • 正确轨迹的 browse ratio:SFT 23.71% → RL 28.96%
  • 反例修正:xBench-DS-2510 上 SFT 时错的轨迹反而 browse 更多(15.57% vs 14.51%),RL 把这个反向关系修正了(22.99% vs 17.50%)

工程上的解读:search 只能给 snippet,browse 才能拿到完整证据做 grounded reasoning。模型如果只 search 不 browse,其实就是在凭片段信息硬猜,错误率自然高。RL 的作用是让模型学会"在合适的时候去 browse",而不是简单地多 search 或者多 browse。

这个发现和我的直觉一致——之前在做检索增强 Agent 的时候也发现,只看 snippet 的模型会被检索结果的标题党严重误导,必须读全文才能判断


我的判断

这篇 paper 的真正价值

抛开"4B 拿到 SOTA"的标题党价值(这种标题在 Deep Research 这个赛道上其实越来越通货膨胀了),这篇 paper 真正硬的地方有两个。

第一是工程可复现性。10K 开源数据 + 1K RL 数据 + 8 张 A100(SFT)+ 16 张 A100(RL),这是大部分研究团队都能负担的预算。模型也开源了。意味着任何团队都可以基于这个 recipe 起跑。Deep Research 这条赛道上门槛被显著拉低了——不再需要 30B + 闭源数据 + 上百卡的训练 setup。这一点对学术界和小团队的意义其实比"刷分"大得多。

第二是把 IGPO 的工程价值打实了。IGPO 本身是 wang2026information 提出的算法,但这是我看到的第一个把 IGPO 在 200 turn 这种极长任务上跑通并和 GRPO 做严格对比的工作。+2.3 vs -1.5 这个差距在 RL 论文里是非常少见的硬证据——同样的数据、同样的 rollout、同样的 PPO objective,只换 reward 设计,差出 4 个点。我之前在做 trajectory-level reward 的多步 Agent 训练时也碰到过类似的现象——长任务下 advantage 一旦 collapse,整个 group 就废了,这种时候你需要一个能让"中间过程"也产生梯度的机制,IG reward 是其中一种很自然的实现方式。

第三是给"小模型 + test-time scaling"的范式做了一个完整的实证背书。BrowseComp-ZH 上 4B 模型 Pass@16 反超 GPT-5 High 这个数据点,足够说服很多团队重新考虑"是不是真的需要继续堆模型规模"。这个 trade-off 在生产环境里非常实用——尤其是离线分析、批量数据处理这类对单次延迟不敏感的场景。

不那么对的地方

第一,benchmark 选择有点取巧。DR-Venus 主要在 BrowseComp、BrowseComp-ZH、xBench-DS 这种"长程网页搜索"类任务上跑,而 GAIA 这种偏综合推理的任务表现并不突出(SFT 65.4, RL 64.4,RL 反而退步)。如果加上 HLE、SimpleQA 这种更难的任务,可能优势会打折扣。

第二,"4B 反超 30B"的对比对象选得有点巧。DeepDive-32B-SFT 在 BrowseComp 上只有 9.5——这个 baseline 显然没好好训。如果对比 Tongyi-DR-30B(43.4),4B-RL 还是落后 14 个点。所以别被"narrows the gap to 30B"这种叙事完全说服——差距是被显著缩小,但远没消失。

第三,全英文 RL 数据在 BrowseComp-ZH 上的负效应没解决。Pass@16 上 RL 反而比 SFT 低了 2 个点,paper 自己也承认是 distribution mismatch,但没给后续方案。如果把 RL 数据扩到双语,效果可能会更好——这个坑其实留给社区去填了。

对工程的几个启发

如果你也在做 Agent 训练(不限于 Deep Research),这几个 takeaway 我觉得是直接可借鉴的:

  1. 数据清洗的 ROI 比加数据高——10K 原始轨迹清洗 + 重采样得到 18745 条 SFT 数据,效果就足够碾压 30B baseline。在小数据 setting 下,数据质量是首要瓶颈

  2. 长轨迹重采样是免费午餐——就是改个 sampling weight,不改算法、不加数据,BrowseComp 就涨 4 个点。任何 long-horizon 任务都该试一下。

  3. Long-horizon RL 必须用 dense turn-level reward——GRPO 在 200 turn 上的失败已经很清楚了,下次再做长程 Agent RL,IGPO 应该是默认选项之一。哪怕不用 IGPO,也得想办法引入 turn-level signal(process reward、state value、information gain,都行)。

  4. 搭 test-time scaling 是小模型部署的关键——4B 模型 Pass@1 看着平庸,Pass@16 直接对标 GPT-5 High。如果你的产品场景能接受 16× 的推理预算(比如 batch 推理、离线分析),用小模型 + 多次采样可能是最划算的方案。

一个更本质的追问

DR-Venus 的成功背后有一个隐含命题:Deep Research 是否被工业界系统性地"过设计"了?

30B 模型 + 复杂 pipeline + 闭源数据,这套配置可能不是必要的,只是"我有资源所以我堆"的副产品。当一个 4B + 10K 数据的精心训练能逼近 30B 的水平时,意味着前面那些 30B 模型的价值是不是没充分被释放?或者说,当前 Deep Research benchmark 的难度,是不是还没逼出大模型应有的能力上限?

如果是后者,下一代 benchmark 可能要换思路了——不能只考"能不能找到答案",可能还要考"信息源的可信度判断"、"跨语言交叉验证"、"识别和处理矛盾证据"这些更深层的能力。否则 4B 模型可能真的就够用了。


如果你也在做端侧 Agent、小模型 Deep Research、或者长程 RL,这篇 paper 值得通读一遍源码——不是为了学某个 trick,而是看它怎么把"小模型不可能"这件事一步一步证明成"可能"的。

更广义地说,这种"小数据 + 算法精修 + 小模型"的路径,可能是未来一段时间内值得重点关注的方向。当大模型的 scaling law 收益开始边际递减、训练成本继续指数级上涨时,回头去打磨数据质量、reward 设计、长程稳定性这些"老问题",反而更容易出真正能落地的成果。这篇 paper 至少给了一个具体的样板——你不一定要做 Deep Research,但它的方法论是迁移得动的。

觉得有启发的话,欢迎点赞、在看、转发。跟进最新AI前沿,关注我