Search-P1:让AI搜索代理从"只看结果"到"关注过程"的训练革命

论文标题: Search-P1: Path-Centric Reward Shaping for Stable and Efficient Agentic RAG Training
作者: Tianle Xia, Ming Xu, Lingxiang Hu, et al.

机构: 腾讯(Tencent)
发表时间: 2026年2月
论文链接: arXiv:2602.22576

一句话总结: Search-P1 提出了一种"路径中心"的奖励塑形框架,通过双轨路径评分和软性结果打分,让强化学习训练的搜索代理不再只看最终答案对不对,还关注中间推理路径好不好,在7B模型上比基线Search-R1平均准确率提升7.7%。


1. 为什么需要这篇论文?——"结果导向"训练的致命缺陷

1.1 Agentic RAG 的崛起与困境

检索增强生成(RAG)已经成为解决大语言模型(LLM)幻觉问题的标配方案。但传统 RAG 是一个被动的"一次性检索"流程:用户提问 → 检索文档 → 生成答案。这在简单问题上够用,但面对需要多跳推理的复杂问题(比如"《水浒传》中宋江最终被谁用什么方式害死的?"),一次检索往往获取不到足够信息。

于是 Agentic RAG 应运而生——让 LLM 自主决定何时搜索、搜索什么、如何组合多次搜索结果来回答问题。这就好比从"帮你查一次字典"升级为"帮你做一整个研究项目"。

最近,UIUC 的 Search-R1 开创性地将强化学习(RL)引入 Agentic RAG 训练:模型通过不断试错,学会自主生成搜索查询并推理。Search-R1 取得了显著效果,在多个问答基准上平均提升26%。

但 Search-R1 有一个根本性问题:它只看最终答案对不对

1.2 只看结果的代价

想象你是一位数学老师,批改学生的试卷。Search-R1 的方式是:答案对了给满分,答案错了给零分。完全不看解题过程。

这种"唯结果论"带来三个严重问题:

第一,"蒙对"和"真会"得到同样的奖励。 一个学生胡乱推理但蒙对了答案,和一个步骤清晰推导正确的学生,得到完全相同的反馈。模型无法区分好的推理路径和碰巧正确的路径。

第二,答错的样本完全浪费了。 在 RL 训练中,大量样本的最终答案是错的。在稀疏的结果奖励下,这些样本的奖励全是零,对梯度更新没有任何贡献。这就像考试不及格的学生直接被开除,而不是帮他分析哪些步骤做对了、哪些做错了。

第三,训练不稳定。 稀疏奖励信号导致策略更新方差大,训练容易陷入震荡。模型可能时而表现好、时而崩溃,像一个情绪不稳定的学生。

1.3 Search-P1 的核心思路

Search-P1 的名字里那个"P"代表"Path"(路径),核心思想非常直觉:

不仅评价你答对了没有,还评价你的推理路径好不好。

这就像一位优秀的数学老师:即使学生答错了,也会看解题过程——"你的思路是对的,只是最后计算出错了,加3分鼓励";即使学生答对了但过程混乱,也会指出"答案对了,但解题路径太绕了,可以优化"。


2. 方法全景:Search-P1 如何工作

2.1 整体架构

Search-P1 整体架构图 图1:Search-P1 框架的整体架构。包含四个核心模块:(1) 输入与策略更新,(2) 轨迹生成,(3) 参考计划生成,(4) 双轨路径评分。

如图1所示,Search-P1 的训练流程可以分为四个步骤:

  1. 输入问题,策略模型 \(\pi_\theta\) 生成多条推理轨迹
  2. 轨迹生成:每条轨迹包含 Planner(规划)→ Search(搜索)→ Think(思考)→ Answer(回答)的完整流程
  3. 参考计划生成:通过拒绝采样和 LLM 投票,生成高质量的参考推理计划
  4. 双轨路径评分:从自一致性和参考对齐两个维度评估推理路径质量

最终的总奖励公式为:

\[R_{total} = \lambda_p \cdot R_{path} + \lambda_a \cdot R_{outcome} + \lambda_f \cdot R_{format}\]

其中 \(R_{path}\) 是路径奖励,\(R_{outcome}\) 是(软性的)结果奖励,\(R_{format}\) 是格式奖励。三个权重分别控制不同信号的影响力。

2.2 轨迹结构设计

Search-P1 为模型的推理过程设计了一套结构化的轨迹模板:

\[\mathcal{T} = (p, r_1, a_1, o_1, \dots, r_n, a_n, o_n, r_{final}, \hat{a})\]

其中: - \(p\)规划器(Planner)输出——模型一开始就要先"想好要做什么" - \(r_i\) 是第 \(i\) 步的推理(Think) - \(a_i\) 是第 \(i\) 步的动作(Search query) - \(o_i\) 是检索返回的文档片段 - \(r_{final}\) 是最终推理 - \(\hat{a}\) 是最终答案

这个设计的关键创新在于显式的 Planner。在 Search-R1 中,模型直接就开始搜索,没有明确的规划步骤。而 Search-P1 要求模型先输出一个计划("我打算分几步解决这个问题,每一步搜索什么"),然后再执行。

这就像做一道复杂的菜:有经验的厨师会先在脑子里过一遍步骤——备料、起锅、翻炒、调味、出锅;而新手厨师往往走一步看一步,炒到一半发现盐忘了拿。


3. 核心技术:双轨路径评分

这是 Search-P1 最核心的贡献。路径评分从两个独立的视角评估推理质量,然后取其中较好的那个。

3.1 Track A:自一致性评分(Self-Consistency)

自一致性回答一个简单的问题:模型是否按照自己制定的计划执行了?

计算公式:

\[S_{self} = r_{planner} \times \frac{n_{exec}^{self}}{n_{plan}} \times \frac{n_{exec}^{self}}{n_{actions}}\]

其中: - \(r_{planner}\) 是一个二值指标——如果模型成功输出了合法的 Planner,则为1,否则为0 - \(n_{plan}\) 是计划中的步骤数 - \(n_{exec}^{self}\) 是实际执行的动作中与计划步骤匹配的数量 - \(n_{actions}\) 是实际执行的总动作数

这个公式的设计相当精巧。它同时考虑了两个方面:

计划覆盖率 \(\frac{n_{exec}^{self}}{n_{plan}}\):你计划做5件事,实际做了3件与计划一致的,覆盖率60%。惩罚"光说不练"。

行动精确率 \(\frac{n_{exec}^{self}}{n_{actions}}\):你实际做了6件事,其中3件与计划一致,精确率50%。惩罚"做了很多计划外的事"。

打个比方:你周末计划"上午健身、下午读书、晚上做饭"。如果你上午确实去健身了,下午却刷了半天手机,晚上做了饭但又多加了一个"逛淘宝"——那你的自一致性评分就不会太高,因为计划覆盖率只有2/3,行动精确率只有2/4。

3.2 Track B:参考对齐评分(Reference-Alignment)

参考对齐评分回答另一个问题:模型的行为是否符合专家认为应该做的事?

计算公式:

\[S_{ref} = \frac{n_{covered}}{|\mathcal{R}_{ref}|} \times \frac{n_{covered}}{n_{actions}}\]

其中: - \(\mathcal{R}_{ref}\) 是参考计划中的步骤集合 - \(n_{covered}\) 是模型实际执行的动作中与参考计划步骤匹配的数量

结构与 Track A 类似,但参照标准从"自己的计划"变成了"专家的参考计划"。

3.3 为什么需要双轨?

两条轨道的存在是为了应对一个现实问题:好的推理路径不止一种

如果只有 Track B(参考对齐),那些找到了参考计划之外的有效路径的模型会被不公正地低评。就像一道数学题,标准答案用的是代数法,但学生用几何法也解出来了——按照参考答案评分会给低分,但按照自一致性(学生自己的几何思路是否贯彻到底)评分就能给高分。

最终的路径奖励取两条轨道的最大值:

\[R_{path} = \max(S_{self}, S_{ref})\]

这样设计既鼓励模型遵循已知的好路径,也不惩罚合理的创新路径。


4. 软性结果评分:让失败也有价值

4.1 传统方式的浪费

在 Search-R1 中,结果奖励是二值的:答对了得1分,答错了得0分。这意味着,如果一个训练批次中80%的样本答错了,这80%的样本对训练几乎没有贡献——它们的奖励全是0,梯度更新信号极弱。

这在训练早期尤其严重,因为模型刚开始学搜索时,大部分答案都是错的。

4.2 Search-P1 的软性评分

Search-P1 引入了软性结果评分:

当答案正确时:\(R_{outcome} = 1.0\)

当答案错误时:\(R_{outcome} = \alpha \cdot r_{acc} + (1-\alpha) \cdot r_{reason}\)

其中 \(r_{acc} = 0\)(答案确实错了),\(r_{reason}\) 衡量推理质量(即使答错了,推理过程可能有价值),\(\alpha = 0.8\)

也就是说,即使最终答案错了,如果推理过程中有合理的搜索和分析,模型也能获得一个小的正奖励(上限约0.2)。

这就像体育比赛中的"技术分"——花样滑冰选手即使摔倒了(答错了),之前的高难度动作(好的推理过程)依然可以得分。不会因为最后一刻的失误就全盘否定之前的努力。

4.3 效果验证

软性结果评分效果对比 图2:软性结果评分在不同数据集上的效果对比。蓝色为使用软性评分,橙色为不使用。

图2展示了软性结果评分的效果。最显著的提升出现在 AD-QA(腾讯内部的广告领域问答数据集)上,从约77%提升到约86%,增幅接近9个百分点。这说明在高难度、多失败样本的场景下,软性评分的价值更大——因为失败样本更多,能从中挖掘的训练信号也更多。


5. 参考计划生成:低成本获取高质量"教学参考"

5.1 为什么需要参考计划?

Track B 的参考对齐评分需要一个"专家参考计划"作为对照。但哪里来的专家计划?让人类标注成本太高。

Search-P1 提出了一种巧妙的自动化方案:拒绝采样 + LLM 投票

5.2 生成流程

  1. 拒绝采样(Rejection Sampling):对同一个问题,用模型生成 \(N\) 条完整的推理轨迹(论文中 \(N=64\)),筛选出最终答案正确的轨迹
  2. LLM 投票(LLM Voting):用一个强大的 LLM 对正确轨迹的推理步骤进行比较和投票,提取出"共识步骤"——多条正确轨迹中反复出现的关键推理步骤
  3. 形成参考计划 \(P_{ref}\):这些共识步骤就构成了参考计划

这个设计的巧妙之处在于:它不依赖单条轨迹的质量,而是通过多条轨迹的交叉验证来提取稳健的推理模式。就像做科学实验——单次实验结果可能有偶然性,但如果重复64次实验中有30次都走了相似的路径,那这个路径大概率就是对的。

而且这个过程是离线完成的,只在训练前执行一次,不增加训练时的计算负担。


6. 格式奖励:细节中的工程智慧

6.1 为什么格式也需要奖励?

Agentic RAG 要求模型输出结构化的文本——必须有 <planner> 标签、<search> 标签、<think> 标签等。如果模型的输出格式不对,后续的解析和评分都无法进行。

6.2 严格格式 vs 软性格式

Search-P1 对比了两种格式奖励设计:

严格格式奖励:格式完全正确得1分,任何不合格得0分。

软性格式奖励(Buffer-based):设定一个缓冲期(论文中为前20%的训练步数),在缓冲期内格式奖励恒为1(不惩罚格式错误),缓冲期结束后切换到严格模式。

格式奖励训练动态对比 图3:不同格式奖励设计下的训练动态。(a) 准确率变化,(b) 奖励变化。蓝色:软性格式,绿色:严格格式,红色:无格式奖励。

图3的结果很能说明问题: - 软性格式(蓝色)在准确率上最终达到约40%,显著优于另外两种 - 严格格式(绿色)在训练早期因为格式惩罚太重,模型不敢探索,准确率停滞在约30% - 无格式奖励(红色)则导致模型输出越来越混乱,也停滞在约30%

这背后的道理很直觉:训练初期,模型还在学习基本的搜索和推理能力,此时如果因为格式不完美就给重罚,模型会倾向于输出简短、安全但无用的回答。给一个"试错期",让模型先专注于学会搜索和推理,格式问题后面再收紧。

这就像教小孩写作文——一开始不要纠结字迹工整不工整,先让他敢写、多写,等表达能力上来了再要求书写规范。


7. 训练细节与RL算法

7.1 GRPO:无需评论家的策略优化

Search-P1 采用 DeepSeek 提出的 GRPO(Group Relative Policy Optimization) 算法进行训练。GRPO 的核心优势在于:它不需要额外训练一个"评论家模型"(Critic),而是通过组内相对比较来计算优势值。

具体来说,对同一个问题生成 \(G\) 个轨迹(论文中 \(G=16\)),计算每个轨迹的奖励后,在组内做标准化:

\[\hat{A}_i = \frac{R_i - \text{mean}(\{R_1, \dots, R_G\})}{\text{std}(\{R_1, \dots, R_G\})}\]

然后用 PPO 风格的 clipping 来更新策略:

\[\mathcal{L}(\theta) = -\frac{1}{G} \sum_{i=1}^{G} \min\left(\frac{\pi_\theta(o_i|q)}{\pi_{\theta_{old}}(o_i|q)} \hat{A}_i, \text{clip}\left(\frac{\pi_\theta(o_i|q)}{\pi_{\theta_{old}}(o_i|q)}, 1-\epsilon, 1+\epsilon\right) \hat{A}_i\right) + \beta \cdot D_{KL}(\pi_\theta \| \pi_{ref})\]

这里 \(\epsilon\) 是 clipping 参数,\(\beta\) 是 KL 散度惩罚系数(论文中 \(\beta=0.001\))。

GRPO 的组内相对比较天然适合 Search-P1 的场景:同一问题的多条轨迹中,有的答对了、有的答错了、有的路径好、有的路径差——组内比较让好的轨迹获得正优势、差的获得负优势,形成清晰的学习信号。

7.2 训练配置

配置项
基座模型 Qwen2.5-7B-Instruct / Qwen2.5-3B-Instruct
检索器 E5
知识库 2018年Wikipedia
GPU 8 × NVIDIA H20
并行策略 FSDP(Fully Sharded Data Parallel)
学习率 \(1 \times 10^{-6}\),Warm-up 比例 0.1
总批大小 512
采样数(每问题) 7B: 16条轨迹,3B: 32条轨迹
采样参数 温度 \(\tau=0.6\),Top-k=20,Top-p=0.95
最大上下文长度 8192 tokens
KL 惩罚 \(\beta\) 0.001
最大搜索轮次 5
检索文档数 3(Top-3)
格式奖励权重 \(\lambda_f\) 0.1
路径奖励权重 \(\lambda_p\) 0.3
结果奖励权重 \(\lambda_a\) 0.6

8. 实验结果:全面碾压

8.1 主要结果

Search-P1 在不同基准上的雷达图 图4:Search-P1(蓝色填充)与各基线方法在8个基准上的性能雷达图。(a) Qwen2.5-7B,(b) Qwen2.5-3B。

下表展示了 Search-P1 在 7B 和 3B 模型上的完整实验结果:

Qwen2.5-7B-Instruct 结果:

方法 NQ TriviaQA PopQA HotpotQA 2Wiki Musique Bamboogle AD-QA 平均
Direct 22.8 60.0 23.0 26.8 26.6 8.4 17.6 28.8 26.8
CoT 25.4 62.0 21.6 30.2 30.4 8.8 22.4 34.0 29.4
RAG 37.8 60.8 39.0 32.8 28.8 10.8 21.6 46.6 34.8
IRCoT 38.4 59.0 38.8 32.6 28.8 11.4 24.8 50.4 35.5
Search-o1 36.6 64.4 41.8 37.2 36.6 14.8 22.4 47.6 37.7
Search-R1 42.6 61.4 40.4 38.4 34.6 14.2 31.2 65.6 41.1
Search-P1 50.6 68.8 42.4 45.0 43.6 20.2 35.2 86.2 48.8

关键发现:

  1. Search-P1 vs Search-R1:平均准确率从41.1%提升到48.8%,绝对提升7.7个百分点,相对提升18.7%
  2. AD-QA 上的飞跃:从65.6%到86.2%,提升超过20个百分点。AD-QA 是腾讯内部的广告领域问答数据集(Advertisement QA),包含大量需要精准检索的专业问题,这个提升说明 Search-P1 学到了更稳健的推理能力
  3. 多跳问答全面领先:在 HotpotQA(+6.6)、2WikiMultiHopQA(+9.0)、Musique(+6.0)上都有显著提升,说明路径奖励对复杂推理特别有效

Qwen2.5-3B-Instruct 结果:

方法 NQ TriviaQA PopQA HotpotQA 2Wiki Musique Bamboogle AD-QA 平均
Search-R1 37.6 52.8 36.4 31.4 28.6 9.8 20.8 52.4 33.7
Search-P1 44.4 58.6 42.2 39.2 37.0 16.4 30.4 64.2 41.6

3B 模型上平均提升7.9个百分点,说明 Search-P1 的优势在较小模型上同样成立甚至更加明显——小模型更容易犯错,因此软性评分从失败样本中挖掘信号的能力就更有价值。

8.2 消融实验:双轨缺一不可

论文对路径中心奖励的两条评分轨道(Track A: Self-Consistency, Track B: Reference-Alignment)进行了消融分析:

配置 平均 ACC
Search-P1 (完整双轨) 47.3
w/o Reference-Alignment(仅 Track A) 42.0(-5.3)
w/o Self-Consistency(仅 Track B) 44.2(-3.1)
Search-R1 (基线) 39.6

几个关键观察:

  1. 移除 Reference-Alignment 影响最大(-5.3),说明外部参考计划提供的对齐信号非常关键。没有参考计划作为标杆,模型仅靠自我评估容易陷入"自我满足"——自己制定的计划可能本身就不好,但自一致性评分仍然可能较高
  2. 移除 Self-Consistency 影响次之(-3.1),说明自一致性评分也有独立价值。它为那些找到非标准但有效路径的模型提供了正向反馈
  3. 两者缺一不可:单独任何一条轨道的效果都仍优于 Search-R1 基线(42.0/44.2 vs 39.6),但两轨结合(47.3)的效果远超任何单轨,说明双轨设计存在明显的互补效应

9. 超参数敏感性:平衡的艺术

超参数敏感性分析 图5:超参数敏感性分析。(a) 路径奖励权重 \(\lambda_p\),(b) 结果准确率权重 \(\lambda_a\)

图5揭示了一个有趣的权衡:

路径奖励权重 \(\lambda_p\)(图5a):随着 \(\lambda_p\) 增大,路径奖励(Process Reward)自然上升,但结果奖励(Outcome Reward)反而下降。最优点在 \(\lambda_p = 0.3\)——过高的路径奖励权重会导致模型"过度优化推理过程"而忽略了最终答案的正确性。

这很像"过程与结果"的经典辩论。太看重过程(\(\lambda_p\) 过大),模型会学会"写漂亮的推理步骤但答不对题";太看重结果(\(\lambda_p\) 过小),又退化回 Search-R1 的稀疏奖励问题。0.3 是一个甜蜜点——以结果为主、过程为辅。

结果权重 \(\lambda_a\)(图5b):在错误样本的软性评分中,\(\lambda_a\) 控制准确率和推理质量的相对权重。最优值为0.8,说明即使在软性评分中,准确率仍然应该是主导因素。\(\lambda_a = 1.0\) 反而下降,因为这等于完全忽略推理质量信号,退化为二值评分。

我的看法是,这个超参数分析揭示了 RL 训练中一个普遍的原则:奖励信号需要多样但不能失焦。路径奖励提供丰富的中间信号,但最终目标仍然是回答正确——路径奖励是手段,不是目的。


10. 训练与推理效率

训练与推理效率对比 图6:Search-P1 与 Search-R1 的训练和推理效率对比。(a) 训练过程中准确率和搜索轮次变化,(b) 推理时不同任务类型的平均搜索轮次。

图6展示了一个令人意外的结果:Search-P1 不仅更准确,还更高效

训练阶段(图6a): - Search-P1(蓝色)的准确率随训练快速攀升到约45%,同时搜索轮次从约4次逐渐下降到约2.2次 - Search-R1(绿色)准确率停滞在约37%,搜索轮次稳定在约3次

这意味着 Search-P1 学会了"用更少的搜索达到更高的准确率"。路径奖励教会了模型更高效地规划搜索策略——不需要盲目搜索多次,而是精准地搜索最关键的信息。

推理阶段(图6b): - 在单跳、多跳和对抗性问答三种场景下,Search-P1 的平均搜索轮次都低于 Search-R1 - 特别是在成功的case中,Search-P1 使用的搜索轮次更少

这对实际部署意义重大:每次搜索都意味着额外的检索延迟和计算开销。Search-P1 不仅答得更对,还答得更快。


11. 深度思考与个人评论

11.1 从稀疏到稠密:奖励信号的进化论

回顾 AI 训练的历史,我们可以看到一条清晰的进化脉络:

  • 监督学习时代:每个样本都有明确的标签信号,但需要大量人工标注
  • RLHF 时代:用人类偏好作为奖励,但信号仍然是稀疏的(一个完整回答只有一个偏好分数)
  • 过程奖励时代(PRM, Process Reward Model):OpenAI 等团队开始尝试在推理的每一步都给奖励,但需要额外训练奖励模型
  • Search-P1:通过巧妙的启发式设计(双轨评分),在不需要额外奖励模型的情况下实现了稠密的过程反馈

我认为 Search-P1 的方法论意义大于它的具体技术——它证明了在 Agentic AI 的训练中,我们不需要昂贵的过程奖励模型,仅通过结构化的轨迹设计和简单的匹配规则,就可以从推理路径中提取有效的训练信号。这对资源有限的团队来说,是一个非常实用的方向。

11.2 Planner 的双重角色

Search-P1 中的 Planner 设计体现了一种优雅的"一箭双雕"思路:

  1. 推理层面:强制模型先规划再执行,提高了推理的条理性和完整性
  2. 评估层面:Planner 输出为路径评分提供了对照标准(Track A),使得过程评估成为可能

没有 Planner,Track A 的自一致性评分就失去了基础。这说明好的系统设计不仅要考虑"如何做得更好",还要考虑"如何衡量做得好不好"。可评估性本身就是系统设计的一部分。

11.3 失败样本的价值被严重低估

Search-P1 的软性结果评分触及了 RL 训练中一个长期被忽视的问题:失败样本的信息量。

在传统的 RL 框架中,失败=零奖励=零梯度贡献。但现实世界中,失败往往比成功包含更多的学习信号——一个企业家从10次失败中学到的比1次成功中学到的多得多。

Search-P1 的做法是给失败样本一个小但非零的奖励(基于推理路径质量),让这些样本也能参与梯度更新。从 AD-QA 上20个百分点的提升来看,这种直觉是正确的。

不过,我认为当前的软性评分设计(\(\alpha=0.8\) 的线性组合)还比较粗糙。未来可能有更精细的方式来评估失败样本的价值——比如根据"离正确答案有多远"来动态调整奖励大小,或者根据推理路径中"走对了多少步然后走错了"来分配部分分数。

11.4 局限性的坦诚

论文也诚实地讨论了几个局限:

  1. 检索器固定:Search-P1 使用固定的 E5 检索器,没有联合训练检索器。如果检索器本身质量差,好的规划也无济于事
  2. 参考计划质量:参考计划通过自动化方式生成,可能存在噪声。在模型能力较弱时,生成的参考计划质量也会下降
  3. 泛化性:所有实验都在 Wikipedia 知识库上进行,对其他领域(如医学、法律)的泛化性未知

12. 工程启示与实践建议

如果你正在构建自己的 Agentic RAG 系统,Search-P1 提供了几个可直接借鉴的工程思路:

  1. 永远加一个 Planner:在模型开始搜索之前,强制它先输出一个计划。这不仅提升推理质量,还为后续的质量评估提供了锚点

  2. 奖励信号要多维度:不要只看最终结果。即使没有RL训练,在评估和筛选阶段也可以用路径质量作为额外的筛选维度

  3. 格式约束要循序渐进:不要一开始就对输出格式要求严格。给模型一个"缓冲期"先学会核心能力,再收紧格式要求

  4. 珍惜失败样本:在数据收集和标注中,不要丢弃失败的样本。它们可能包含有价值的中间信号

  5. 超参数的 0.3/0.7 法则:过程奖励约占30%、结果奖励约占70%是一个不错的起点。过度强调过程会导致模型"过度表演"


13. 总结

Search-P1 解决了 Agentic RAG 强化学习训练中的一个核心痛点:稀疏的结果奖励导致训练信号不足、不稳定。通过引入显式的推理规划器、双轨路径评分和软性结果评分,Search-P1 实现了"既看结果又看过程"的稠密奖励信号,在多个QA基准上显著超越了 Search-R1 基线。

更重要的是,Search-P1 的方法论不局限于搜索代理。任何需要多步决策的 AI 系统——代码生成、数学推理、工具调用——都可以借鉴"路径中心奖励塑形"的思路,从推理过程中挖掘更丰富的训练信号。

在 AI Agent 训练从"结果导向"走向"过程导向"的大趋势下,Search-P1 提供了一个简洁而有效的解决方案。它告诉我们:好的训练不是只看学生考了多少分,而是看他有没有学会思考。


参考文献:

  1. Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning. (arXiv:2503.09516)
  2. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. (arXiv:2501.12948)
  3. HiPRAG: Hierarchical Process Rewards for Agentic RAG. (arXiv:2510.07794)
  4. GRPO: Group Relative Policy Optimization. (DeepSeekMath, arXiv:2402.03300)