RubricEM：当 Deep Research Agent 没有 ground truth，RL 还怎么训？

核心摘要

OpenAI / Gemini 的 Deep Research、Kimi-Researcher、Perplexity Sonar——这一波"深度研究 Agent"是当下最 hot 的应用方向之一。给定一个开放性查询，Agent 自主规划、搜索、评估证据、综合写出 long-form report。

但是要训练这种 Agent，传统的 RL pipeline 立刻碰到三个坎：

没 ground truth：long-form report 没有"标准答案"，verifiable reward 无从谈起
Long-horizon credit assignment：单次 rollout 几十次 tool call，最后给一个 scalar reward——这个 reward 分给哪些 token 才对？
经验无法复用：标准 post-training 把 judged attempt 转成 parametric update，但失去了"显式的可重用经验"

这篇 RubricEM 给出一个 elegant 的答案：把 rubric（评分标准）从"final answer 的评估器"升级为"贯穿整个 RL 流程的共享接口"。Rubric 同时做三件事：

指导 policy execution：plan / research / review / answer 四个 stage 都基于 self-generated rubric 推理
支持 process-level judge：每个 stage 都有自己的 rubric，judge 给 stage-level dense reward（Stage-Structured GRPO）
存进 memory，跨任务复用：trained reflection meta-policy 把 judged trajectory 蒸馏成 rubric-grounded guidance，写到 rubric bank 里给未来 rollout 用

实验结果：RubricEM-8B 在四个 long-form research benchmark 上达到 8B 开源模型 SOTA，逼近 Gemini / OpenAI Deep Research 等闭源系统，只用了 1400 步 RL。

这是篇我读完会想"原来 deep research RL 应该这么训"的 paper。Rubric 这个抽象选得非常合适——它既是 evaluation target，又是 decision criterion，又是 memory format，三位一体。

论文信息

标题：RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards
作者：Gaotang Li, Bhavana Dalvi Mishra, Zifeng Wang, Jun Yan, Yanfei Chen, Chun-Liang Li, Long T. Le, Rujun Han, George Lee, Hanghang Tong, Chen-Yu Lee, Tomas Pfister
机构：UIUC、Google Cloud AI Research
arXiv：https://arxiv.org/abs/2605.10899

为什么 Deep Research RL 这么难？

我先把这个问题的难度梳理清楚。

传统 RL for LLM 用的是 RLVR（RL from Verifiable Rewards）：数学题判对错、代码跑 unit test、问答匹配 ground truth。这套机制依赖 oracle——存在一个 deterministic function 能告诉你 answer 对不对。

Deep Research 任务是反 RLVR 的： - 一个查询可以有无数种合理的 long-form 回答 - 没有 reference answer 可以对比 - Trajectory 可能上百次 tool call，每一步都没有 immediate reward

那现有方案怎么做？基本上两条路：

路线 1：用 short-form 代理（Search-R1、R1-Searcher 这一脉）：把 deep research 简化成"输入查询 → 找答案 → 答案对错"——但这只能训出"搜索能力"，长 form 写作和综合能力训不到

路线 2：imitation learning（Gemini、OpenAI Deep Research）：闭源系统应该是用大量高质量人工标注 trajectory 做模仿训练。但 imitation 有 ceiling，且不可扩展

路线 3（少数）：end-to-end RL beyond verifiable：DR Tulu 是最近的代表。但它的 judge feedback 太 coarse——单次 rollout 给一个 final score，长 trajectory 的 credit assignment 失败

RubricEM 想做的是把路线 3 做扎实。

核心 Insight：Rubric 作为共享接口

图1：RubricEM 总览

图1：RubricEM 把 rubric 作为贯穿三件事的"共享接口"——指导 agent execution（左侧 task policy）、支持 stage-level judge（中下 Judge），并被蒸馏成 reusable guidance（右侧 Reflection Meta-Policy → Rubric Bank）。每个 trajectory 走四个 stage：Plan → Research → Review → Answer，每个 stage 由 rubric 引导。

让我先解释"rubric"是什么。这里 rubric 指的是 agent 自己生成的评分标准——例如对一个"分析 X 公司 2024 年财报"的查询，rubric 可能包括：

Knowledge checklist：必须涵盖营收、利润、增长率、关键风险因素等
Analytical criteria：要做同比环比对比、要识别 anomaly、要分析驱动因素
Negative constraints：不要预测股价、不要做投资建议

这个 rubric 在 Plan stage 就生成了，然后引导后续所有 stage。

为什么这个 framing 这么 powerful？因为 rubric 同时承担了三个 role：

Role	怎么用
Decision criterion	Agent 根据 rubric 决定搜什么、停在哪里、怎么 review
Evaluation target	Judge 根据 rubric 给每个 stage 打分
Memory format	Rubric-grounded reflection 是可读、可复用的经验

这种"一物三用"的 abstraction 在工程上极为 elegant——少一个抽象层，整个 system coherent 性大幅提升。

三个核心组件

Component 1：Rubric-Guided Reasoning Scaffold

图2：四阶段推理 scaffold

图2：四个 stage 的内部结构。Plan 阶段生成 rubric（含 knowledge checklist、analytical criteria、negative constraints）+ research plan；Research 阶段迭代调用 tool 并更新 rubric；Review 阶段对照 rubric 做 self-evaluation；Answer 阶段写 grounded 长答案。整张图基本展示了 Agent 的 step-by-step decision process。

理论支撑：Theorem 1 形式化了"why stage decomposition helps"。当不同 stage 在相同 local context 下有不同的 optimal action（论文叫 context aliasing），flat policy 没法区分，stage-aware policy 可以条件 on stage 信息——所以 value 严格提升。

具体 SFT distillation 用 Gemini-3.1-Pro 当 teacher，生成 stage-structured trajectory，rejection sampling 过滤违规的 trace，用来 SFT Qwen3-8B。这让 base model 学会 stage discipline 和 rubric conditioning，为后续 RL 打基础。

Component 2：Stage-Structured GRPO (SS-GRPO)

这是 credit assignment 的核心。每个 stage \(k\) 都有自己的 rubric judge \(R_{i,k} \in [0,1]\)。但不是每个 stage 的 score 只 reward 自己的 token——SS-GRPO 用一个 causal stage-dependence matrix \(\Lambda = (\lambda_{k,j})\)，其中 \(\lambda_{k,j}=0\) for \(j<k\)（前 stage 的 reward 不影响后 stage）。

每个 stage 的 return 是：

\[G_{i,k} = \sum_j \lambda_{k,j} R_{i,j}\]

这把 long-horizon 的 reward 拆成 stage-level dense signal。Plan 阶段质量好不好，立刻就能反馈（不用等 final answer），同时它对后续 stage 的影响也通过 causal mask 传递。

这个设计的关键 insight 是 —— 不靠 oracle，但用 stage boundary 提供 structural prior。每个 stage 是一个 natural 的 optimization unit。

图3：SS-GRPO 的 credit assignment 机制

图3：左侧是 flat GRPO——所有 token 共享同一个 final reward。右侧是 SS-GRPO——每个 stage 有自己的 rubric judge，stage-level return 通过 causal matrix 聚合。这种结构化的 credit 信号让长 trajectory 的优化更高效。

Component 3：Reflection Meta-Policy

这是 RubricEM 最有意思的部分。

目标：让 agent 学会从过去的 trajectory 中提取 reusable lesson，存到 rubric bank 里。

做法：让 task policy 和 reflection meta-policy 共享 backbone。每次 task rollout 被 judge 评分后：

同一个 backbone 采样 rubric-grounded reflection candidates（只 condition on query 和 raw trajectory，不看 judge 评分）
另一个 judge 用 task rollout 的 judgment 给这些 reflection candidates 打分
Reflection score 作为 auxiliary RL reward，更新共享 backbone 参数
得分最高的 reflection 写到 rubric bank 作为 natural-language memory

Rubric bank 有两种使用模式： - Within-episode refinement：retrieve 同一个 query 之前的 reflection - Cross-episode transfer：retrieve 相关 query 的 reflection

这个设计的精妙在 每个 reflection 同时 update agent 两次——一次是 parametric（通过 RL gradient），一次是 textual（写进 rubric bank）。一份经验既"内化"又"外化"。

Asynchronous reflection branch：为了不让 reflection 训练拖慢 task policy RL，作者设计了异步 branch。这避免了之前 Meta-RL 工作的常见 bottleneck（cross-rollout dependencies）。

图4：Reflection meta-policy 的训练流程

图4：上半部分是 task policy RL（标准 SS-GRPO），下半部分是 reflection meta-policy 训练。两条 branch 共享 backbone 参数但异步训练。Reflection 的 reward 来自 reflection judge——它评估"这个 reflection 是否准确捕捉了 trajectory 的 key learnings"。

实验结果

Main Results

RubricEM-8B（基于 Qwen3-8B，1400 步 RL 训出）在四个 long-form research benchmark 上：

同等大小开源模型 SOTA
超过之前最强 RL system DR Tulu（用更少训练步数）
逼近 Gemini Deep Research 和 OpenAI Deep Research

具体数字我没翻完整 table（论文很长），但摘要明确说"approaches proprietary deep-research systems"——8B model 接近商用系统是个很有竞争力的结果。

Ablation Highlights

图5：消融实验

图6：训练动态

图5/6：作者做了多组 600-step RL ablation，验证每个组件的贡献——scaffold without rubric、rubric without stage-GRPO、without reflection meta-policy 等。完整的 RubricEM 显著优于各 ablation variant，说明三个组件是 complementary 的。

我的判断：值不值得读？

强烈推荐，特别是如果你在做 agentic system / long-horizon RL。

亮点：

Rubric 作为共享接口是这篇论文最值钱的 insight。一个抽象同时解决 decision-making、evaluation、memory——这在 system design 上是 elegant 的胜利
SS-GRPO 解决了 long-horizon credit assignment 的一个具体痛点。Stage-based dense reward 在没有 oracle 的场景下是 reasonable 的折中
Reflection meta-policy 的"shared backbone + asynchronous"设计很巧妙，避免了 meta-RL 的常见 efficiency 问题
Theorem 1 给了 stage decomposition 一个 theoretical justification——虽然 simplifying，但比纯 empirical 论证有说服力

问题：

Rubric 质量极度依赖 SFT teacher。用 Gemini-3.1-Pro 蒸馏，然后用 RL 优化。如果 base model 是 Qwen-7B 而不是 8B，能不能 work？SFT distillation 这步对 base model size 是否敏感？
Judge 还是一个 LLM judge——它依然有 bias 和 reward hacking 风险。论文用 "evolving rubric buffer" 缓解，但没充分讨论 robustness
8B 接近 Gemini Deep Research 这个 claim 需要更细的对比。Gemini 用了什么 base model、什么训练数据，公众都不知道。这个比较只能 broadly 看 final score，无法解释 gap
Rubric bank 的存储和检索 cost。如果 bank 越来越大，每次 retrieve 一个 reflection 都要做 similarity search——这个 inference overhead 没充分讨论
4 个 stage 的设计是 deep research 特有的。能否 generalize 到 software engineering agent、coding agent 等其他 long-horizon scenario？需要更多 task 的验证

对工程实践的启发：

如果你在做长 trajectory 任务的 RL，先把 trajectory structure 显式 expose 出来。SS-GRPO 思路通用——任何有 natural stage boundary 的任务都可以这么做
Rubric 这个 abstraction 值得在你的 agent 系统里推广。比单纯 "evaluation prompt" 更 powerful，可以被 agent 自己使用、修改、复用
Reflection 不只是 inference 时的 self-reflect，应该作为 RL signal 加入训练——这是论文的 key thesis
Memory 的 dual update（parametric + textual）值得借鉴。两种 memory 互补，单独用任何一种都不如组合

收尾

回头看 deep research agent 这个方向：从 Tool-augmented LLM（基本只能搜+回答）→ Search-R1 系列（短答案的 RL）→ DR Tulu（end-to-end 长答案 RL）→ RubricEM（rubric-guided structured RL）——可以看到 RL for agent 这个方向在快速精细化。

每一步的进化： - Tool-augmented → 引入 tool use - Search-R1 → 引入 verifiable reward - DR Tulu → 突破 verifiable，用 LLM judge - RubricEM → rubric 作为 judge + decision + memory 三合一

RubricEM 把"rubric 作为 ML system 的 first-class abstraction"这件事推到了一个新高度。下一步值得追的：

Rubric 怎么 evolve 跨 user？每个 user 都有自己的 evaluation preference，rubric bank 怎么 personalize？
Multi-modal rubric？如果 agent 要做包含图表的研究，rubric 该怎么扩展？
Rubric 的 verifiability：能不能 train 一个 verifier model 去判断 rubric 本身的质量？这是 reward modeling 的 meta version

如果你在做长 horizon agent 训练，这篇文章值得反复读，特别是 Section 3 (RubricEM 主体)和 Appendix B (scaffold 细节)。

觉得有启发的话，欢迎点赞、在看、转发。跟进最新 AI 前沿，关注我