RubricEM:当 Deep Research Agent 没有 ground truth,RL 还怎么训?

核心摘要

OpenAI / Gemini 的 Deep Research、Kimi-Researcher、Perplexity Sonar——这一波"深度研究 Agent"是当下最 hot 的应用方向之一。给定一个开放性查询,Agent 自主规划、搜索、评估证据、综合写出 long-form report。

但是要训练这种 Agent,传统的 RL pipeline 立刻碰到三个坎:

  1. 没 ground truth:long-form report 没有"标准答案",verifiable reward 无从谈起
  2. Long-horizon credit assignment:单次 rollout 几十次 tool call,最后给一个 scalar reward——这个 reward 分给哪些 token 才对?
  3. 经验无法复用:标准 post-training 把 judged attempt 转成 parametric update,但失去了"显式的可重用经验"

这篇 RubricEM 给出一个 elegant 的答案:把 rubric(评分标准)从"final answer 的评估器"升级为"贯穿整个 RL 流程的共享接口"。Rubric 同时做三件事:

  1. 指导 policy execution:plan / research / review / answer 四个 stage 都基于 self-generated rubric 推理
  2. 支持 process-level judge:每个 stage 都有自己的 rubric,judge 给 stage-level dense reward(Stage-Structured GRPO)
  3. 存进 memory,跨任务复用:trained reflection meta-policy 把 judged trajectory 蒸馏成 rubric-grounded guidance,写到 rubric bank 里给未来 rollout 用

实验结果:RubricEM-8B 在四个 long-form research benchmark 上达到 8B 开源模型 SOTA,逼近 Gemini / OpenAI Deep Research 等闭源系统,只用了 1400 步 RL。

这是篇我读完会想"原来 deep research RL 应该这么训"的 paper。Rubric 这个抽象选得非常合适——它既是 evaluation target,又是 decision criterion,又是 memory format,三位一体。


论文信息

  • 标题:RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards
  • 作者:Gaotang Li, Bhavana Dalvi Mishra, Zifeng Wang, Jun Yan, Yanfei Chen, Chun-Liang Li, Long T. Le, Rujun Han, George Lee, Hanghang Tong, Chen-Yu Lee, Tomas Pfister
  • 机构:UIUC、Google Cloud AI Research
  • arXiv:https://arxiv.org/abs/2605.10899

为什么 Deep Research RL 这么难?

我先把这个问题的难度梳理清楚。

传统 RL for LLM 用的是 RLVR(RL from Verifiable Rewards):数学题判对错、代码跑 unit test、问答匹配 ground truth。这套机制依赖 oracle——存在一个 deterministic function 能告诉你 answer 对不对。

Deep Research 任务是反 RLVR 的: - 一个查询可以有无数种合理的 long-form 回答 - 没有 reference answer 可以对比 - Trajectory 可能上百次 tool call,每一步都没有 immediate reward

那现有方案怎么做?基本上两条路:

路线 1:用 short-form 代理(Search-R1、R1-Searcher 这一脉):把 deep research 简化成"输入查询 → 找答案 → 答案对错"——但这只能训出"搜索能力",长 form 写作和综合能力训不到

路线 2:imitation learning(Gemini、OpenAI Deep Research):闭源系统应该是用大量高质量人工标注 trajectory 做模仿训练。但 imitation 有 ceiling,且不可扩展

路线 3(少数):end-to-end RL beyond verifiable:DR Tulu 是最近的代表。但它的 judge feedback 太 coarse——单次 rollout 给一个 final score,长 trajectory 的 credit assignment 失败

RubricEM 想做的是把路线 3 做扎实。


核心 Insight:Rubric 作为共享接口

图1:RubricEM 总览

图1:RubricEM 把 rubric 作为贯穿三件事的"共享接口"——指导 agent execution(左侧 task policy)、支持 stage-level judge(中下 Judge),并被蒸馏成 reusable guidance(右侧 Reflection Meta-Policy → Rubric Bank)。每个 trajectory 走四个 stage:Plan → Research → Review → Answer,每个 stage 由 rubric 引导。

让我先解释"rubric"是什么。这里 rubric 指的是 agent 自己生成的评分标准——例如对一个"分析 X 公司 2024 年财报"的查询,rubric 可能包括:

  • Knowledge checklist:必须涵盖营收、利润、增长率、关键风险因素等
  • Analytical criteria:要做同比环比对比、要识别 anomaly、要分析驱动因素
  • Negative constraints:不要预测股价、不要做投资建议

这个 rubric 在 Plan stage 就生成了,然后引导后续所有 stage。

为什么这个 framing 这么 powerful?因为 rubric 同时承担了三个 role:

Role 怎么用
Decision criterion Agent 根据 rubric 决定搜什么、停在哪里、怎么 review
Evaluation target Judge 根据 rubric 给每个 stage 打分
Memory format Rubric-grounded reflection 是可读、可复用的经验

这种"一物三用"的 abstraction 在工程上极为 elegant——少一个抽象层,整个 system coherent 性大幅提升。


三个核心组件

Component 1:Rubric-Guided Reasoning Scaffold

图2:四阶段推理 scaffold

图2:四个 stage 的内部结构。Plan 阶段生成 rubric(含 knowledge checklist、analytical criteria、negative constraints)+ research plan;Research 阶段迭代调用 tool 并更新 rubric;Review 阶段对照 rubric 做 self-evaluation;Answer 阶段写 grounded 长答案。整张图基本展示了 Agent 的 step-by-step decision process。

理论支撑:Theorem 1 形式化了"why stage decomposition helps"。当不同 stage 在相同 local context 下有不同的 optimal action(论文叫 context aliasing),flat policy 没法区分,stage-aware policy 可以条件 on stage 信息——所以 value 严格提升。

具体 SFT distillation 用 Gemini-3.1-Pro 当 teacher,生成 stage-structured trajectory,rejection sampling 过滤违规的 trace,用来 SFT Qwen3-8B。这让 base model 学会 stage discipline 和 rubric conditioning,为后续 RL 打基础。

Component 2:Stage-Structured GRPO (SS-GRPO)

这是 credit assignment 的核心。每个 stage \(k\) 都有自己的 rubric judge \(R_{i,k} \in [0,1]\)。但不是每个 stage 的 score 只 reward 自己的 token——SS-GRPO 用一个 causal stage-dependence matrix \(\Lambda = (\lambda_{k,j})\),其中 \(\lambda_{k,j}=0\) for \(j<k\)(前 stage 的 reward 不影响后 stage)。

每个 stage 的 return 是:

\[G_{i,k} = \sum_j \lambda_{k,j} R_{i,j}\]

这把 long-horizon 的 reward 拆成 stage-level dense signal。Plan 阶段质量好不好,立刻就能反馈(不用等 final answer),同时它对后续 stage 的影响也通过 causal mask 传递。

这个设计的关键 insight 是 —— 不靠 oracle,但用 stage boundary 提供 structural prior。每个 stage 是一个 natural 的 optimization unit。

图3:SS-GRPO 的 credit assignment 机制

图3:左侧是 flat GRPO——所有 token 共享同一个 final reward。右侧是 SS-GRPO——每个 stage 有自己的 rubric judge,stage-level return 通过 causal matrix 聚合。这种结构化的 credit 信号让长 trajectory 的优化更高效。

Component 3:Reflection Meta-Policy

这是 RubricEM 最有意思的部分。

目标:让 agent 学会从过去的 trajectory 中提取 reusable lesson,存到 rubric bank 里。

做法:让 task policy 和 reflection meta-policy 共享 backbone。每次 task rollout 被 judge 评分后:

  1. 同一个 backbone 采样 rubric-grounded reflection candidates(只 condition on query 和 raw trajectory,不看 judge 评分)
  2. 另一个 judge 用 task rollout 的 judgment 给这些 reflection candidates 打分
  3. Reflection score 作为 auxiliary RL reward,更新共享 backbone 参数
  4. 得分最高的 reflection 写到 rubric bank 作为 natural-language memory

Rubric bank 有两种使用模式: - Within-episode refinement:retrieve 同一个 query 之前的 reflection - Cross-episode transfer:retrieve 相关 query 的 reflection

这个设计的精妙在 每个 reflection 同时 update agent 两次——一次是 parametric(通过 RL gradient),一次是 textual(写进 rubric bank)。一份经验既"内化"又"外化"。

Asynchronous reflection branch:为了不让 reflection 训练拖慢 task policy RL,作者设计了异步 branch。这避免了之前 Meta-RL 工作的常见 bottleneck(cross-rollout dependencies)。

图4:Reflection meta-policy 的训练流程

图4:上半部分是 task policy RL(标准 SS-GRPO),下半部分是 reflection meta-policy 训练。两条 branch 共享 backbone 参数但异步训练。Reflection 的 reward 来自 reflection judge——它评估"这个 reflection 是否准确捕捉了 trajectory 的 key learnings"。


实验结果

Main Results

RubricEM-8B(基于 Qwen3-8B,1400 步 RL 训出)在四个 long-form research benchmark 上:

  • 同等大小开源模型 SOTA
  • 超过之前最强 RL system DR Tulu(用更少训练步数)
  • 逼近 Gemini Deep Research 和 OpenAI Deep Research

具体数字我没翻完整 table(论文很长),但摘要明确说"approaches proprietary deep-research systems"——8B model 接近商用系统是个很有竞争力的结果。

Ablation Highlights

图5:消融实验

图6:训练动态

图5/6:作者做了多组 600-step RL ablation,验证每个组件的贡献——scaffold without rubric、rubric without stage-GRPO、without reflection meta-policy 等。完整的 RubricEM 显著优于各 ablation variant,说明三个组件是 complementary 的。


我的判断:值不值得读?

强烈推荐,特别是如果你在做 agentic system / long-horizon RL。

亮点

  1. Rubric 作为共享接口是这篇论文最值钱的 insight。一个抽象同时解决 decision-making、evaluation、memory——这在 system design 上是 elegant 的胜利
  2. SS-GRPO 解决了 long-horizon credit assignment 的一个具体痛点。Stage-based dense reward 在没有 oracle 的场景下是 reasonable 的折中
  3. Reflection meta-policy 的"shared backbone + asynchronous"设计很巧妙,避免了 meta-RL 的常见 efficiency 问题
  4. Theorem 1 给了 stage decomposition 一个 theoretical justification——虽然 simplifying,但比纯 empirical 论证有说服力

问题

  1. Rubric 质量极度依赖 SFT teacher。用 Gemini-3.1-Pro 蒸馏,然后用 RL 优化。如果 base model 是 Qwen-7B 而不是 8B,能不能 work?SFT distillation 这步对 base model size 是否敏感?
  2. Judge 还是一个 LLM judge——它依然有 bias 和 reward hacking 风险。论文用 "evolving rubric buffer" 缓解,但没充分讨论 robustness
  3. 8B 接近 Gemini Deep Research 这个 claim 需要更细的对比。Gemini 用了什么 base model、什么训练数据,公众都不知道。这个比较只能 broadly 看 final score,无法解释 gap
  4. Rubric bank 的存储和检索 cost。如果 bank 越来越大,每次 retrieve 一个 reflection 都要做 similarity search——这个 inference overhead 没充分讨论
  5. 4 个 stage 的设计是 deep research 特有的。能否 generalize 到 software engineering agent、coding agent 等其他 long-horizon scenario?需要更多 task 的验证

对工程实践的启发

  • 如果你在做长 trajectory 任务的 RL,先把 trajectory structure 显式 expose 出来。SS-GRPO 思路通用——任何有 natural stage boundary 的任务都可以这么做
  • Rubric 这个 abstraction 值得在你的 agent 系统里推广。比单纯 "evaluation prompt" 更 powerful,可以被 agent 自己使用、修改、复用
  • Reflection 不只是 inference 时的 self-reflect,应该作为 RL signal 加入训练——这是论文的 key thesis
  • Memory 的 dual update(parametric + textual)值得借鉴。两种 memory 互补,单独用任何一种都不如组合

收尾

回头看 deep research agent 这个方向:从 Tool-augmented LLM(基本只能搜+回答)→ Search-R1 系列(短答案的 RL)→ DR Tulu(end-to-end 长答案 RL)→ RubricEM(rubric-guided structured RL)——可以看到 RL for agent 这个方向在快速精细化。

每一步的进化: - Tool-augmented → 引入 tool use - Search-R1 → 引入 verifiable reward - DR Tulu → 突破 verifiable,用 LLM judge - RubricEM → rubric 作为 judge + decision + memory 三合一

RubricEM 把"rubric 作为 ML system 的 first-class abstraction"这件事推到了一个新高度。下一步值得追的:

  1. Rubric 怎么 evolve 跨 user?每个 user 都有自己的 evaluation preference,rubric bank 怎么 personalize?
  2. Multi-modal rubric?如果 agent 要做包含图表的研究,rubric 该怎么扩展?
  3. Rubric 的 verifiability:能不能 train 一个 verifier model 去判断 rubric 本身的质量?这是 reward modeling 的 meta version

如果你在做长 horizon agent 训练,这篇文章值得反复读,特别是 Section 3 (RubricEM 主体)和 Appendix B (scaffold 细节)。


觉得有启发的话,欢迎点赞、在看、转发。跟进最新 AI 前沿,关注我