往 Prompt 前面拼一段 Lorem 乱码,GRPO 居然就训出来了——LoPE 是怎么靠"废话"破开零优势困境的
做过 GRPO 训练的朋友都知道一个让人头疼的现象:一道难题,rollout 八条全错,advantage 直接归零,这一题就白白浪费掉——既没贡献训练信号,又把推理预算烧得干干净净。题目越难,浪费越多。这就是俗称的 zero-advantage problem。
常见的处理方式有两类:一是多采样几次(adaptive rollout budget),二是把温度调高一点,多探索一些。但前者只是把同一个分布多摇几次,命中率被模型当前策略卡死;后者只是在 logit 空间里抖一抖,跳不出原有的 reasoning basin。
这篇来自 Washington University in St. Louis 的论文 LoPE: Lorem Perturbation for Exploration 给了一个让我看完愣了一下的方案——在 prompt 前面拼一段毫无意义的 Lorem Ipsum 伪拉丁乱码,再去重新采样。就这么个粗暴到像恶作剧的改动,居然在 Qwen3-1.7B / 4B、Qwen2.5-Math-7B 上分别拿到 +2.79 / +4.62 / +6.20 的平均提升。
更耐人寻味的是后面那一章分析——作者扫了一圈各种"乱码"扰动(随机 ASCII、随机 token、English Unigram、Latin Unigram、3-gram……),结论是只有困惑度低的伪拉丁乱码能涨点,纯噪声反而砸盘。这说明它真不是"加噪声"这么简单,背后有更细的机制。
下面把这篇论文掰开揉碎讲一讲。
论文信息
- 标题:Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration
- 作者:Langlin Huang, Chengsong Huang, Jinyuan Li, Donghong Cai, Yuyi Yang, Jiaxin Huang
- 机构:Washington University in St. Louis
- 提交时间:2026 年 5 月 7 日
- arXiv:https://arxiv.org/abs/2605.05566
一、先把"零优势"这个坑讲清楚
GRPO 的核心是用同一道题的多个 rollout 之间的相对正确率来算 advantage。具体说,对一个 query \(q\) 和 prompt \(p\),从旧策略 \(\pi_{\theta_{\text{old}}}\) 采样 \(G\) 条回答 \(\{o_i\}_{i=1}^G\),每条算出一个 reward \(r_i\),advantage 用组内归一化得到:
这个设计很优雅——不用 value model,靠组内相对比较就能算策略梯度。但优雅的代价也很明显:一旦 \(G\) 条全错(或者全对),方差归零,advantage 全部塌成 0,这一题对梯度的贡献就是零。
在数学推理这种本来就难的任务上,这个问题特别痛。Qwen3-1.7B-Base 在 OpenR1-Math 数据集上初始能解 500 道里的 148 道,剩下 352 道全部进入零优势黑洞。直接增大采样数 \(G\) 是常见的处方,但作者点了一句很要害的话:这些题就是难,多摇几次也是在同一个 reasoning basin 里打转,命中率提升非常有限。
接下来一段顺手补一下背景。在 RLVR 这条线上,Yan et al. (2025) 的 LUFFY、还有几篇关注 rollout budget 自适应分配的工作(Liao、Li、Xiong 2025 那一波)思路都是"难题多采点样本"。但它们解决的是预算分配的问题,没解决采样分布本身的探索面太窄的问题。LoPE 正是从这里切进去的。
二、核心假设:在 prompt 空间扰动,比在 logit 空间扰动更能解锁正交推理路径
作者的假设其实挺干脆的——
logit 空间的高温采样只能在原有分布上轻微抖动,prompt 空间的扰动才能真正把模型推到一个不一样的输出分布上。
为什么?因为模型在长上下文条件下的输出概率分布对 prompt 上下文极度敏感(这一点 In-Context Learning 那一系列工作已经反复验证过,比如 Xie et al. 2022、Dai et al. 2023)。改一改 prompt,相当于把模型放进一个不同的"初始信念"里,它在生成时走的链路自然就变了。
但问题来了——怎么扰动 prompt,才能既改变输出分布、又不引入对任务的误导?
直接加问题相关的提示?那等于偷偷喂答案。 加随机英文句子?英文是模型的"主语言",会直接干扰对题目的理解。 加纯噪声 token?模型可能整个就懵了。
作者祭出的方案漂亮得有点反直觉——用 Lorem Ipsum。
Lorem Ipsum 是排版界的老朋友:一段伪拉丁占位文本,长得像自然语言(有词长、有句子结构、统计性质接近),但没有任何语义。Python 里有 python-lorem 包,从 63 个拉丁词里随机采样就能拼出一段。把这玩意儿拼到 prompt 前面,模型既看不懂它(语义上),但又不会被它带偏(它什么都没说),同时它确实改变了上下文。
这个 setup 真的挺精巧的。
三、Pilot Study:Venn 图告诉你 Lorem 扰动到底解锁了什么
光说不行,得看证据。作者先做了一个非常小但很有说服力的 pilot study。
在 Qwen3-1.7B-Base 上,从 OpenR1-Math 抽 500 道题,对比三种策略的 Pass@8:
- Naive Prompt(Base):原 prompt + 温度 0.6
- Naive Prompt(High-temp):原 prompt + 温度 1.2(logit 空间扰动)
- Lorem-perturbed Prompt:前面拼随机 Lorem Ipsum + 温度 0.6(prompt 空间扰动)
然后画 Venn 图,看三种策略各自能解出哪些题、重合度如何。

图 1:LoPE 的整体流程示意。注意三个关键点:(1) 触发条件是"原 prompt 下 G 条全错",不是无差别 resample;(2) 用扰动 prompt 重采 G'=24 条;(3) 重组 batch 时保留至少一个错误响应,保证组内 advantage 非零。
下面是 Pilot Study 的核心结果——

图 2(a):在 500 题全集上,Lorem 扰动新增解出的题目里有相当一部分是 naive prompt 和高温采样都完全错失的——也就是说 Lorem 把模型推到了一片它本来根本到不了的推理区域。

图 2(b):在 naive 失败的 352 道难题上对比更明显——Lorem 扰动的"独占解出"区域显著大于高温采样。看到这张图我其实有点意外,本来以为高温和 Lorem 是程度差异,结果是路径差异。
这两张图基本把作者的核心 claim 直接钉死了:Lorem 扰动确实开辟了一条 logit 空间根本到不了的探索方向。
更细的证据是 Figure 3,作者把三种策略下生成回答的 entropy 和 perplexity 分布画了出来——

图 3:高温采样让 entropy 整体右移(变更不确定)但 perplexity 也跟着右移(流畅度下降);而 Lorem 扰动是 entropy 右移、perplexity 保持得很好——这就是"既扩展探索又不破坏生成质量"的视觉证据。
我对这个观察最大的感受是:它把 logit 扰动和 prompt 扰动的本质差异给画明白了。logit 扰动是把分布拍平,所有方向都更随机;prompt 扰动是把分布平移到另一个 mode 附近,方向变了但锐度没变。前者是"乱",后者是"换条路"。
四、LoPE 的训练流程:三个工程细节
讲清楚直觉,接下来看具体训练流程。LoPE 整体沿用 GRPO,但在 rollout 阶段插入三个改动。
1. 触发条件:只在零优势时启动
这点很关键。LoPE 不是无脑给每道题都加扰动——只对那些"\(G\) 条 rollout 全错"的难题,才用扰动 prompt \(\delta \oplus p\) 重新采样 \(G'=24\) 条回答。
实验里 \(G=8\),\(G'=24\)。简单题不浪费预算,难题集中砸资源在"探索新路径"上。
2. 重组 batch:成功重采替换失败原采,保留至少一个失败响应
resample 拿到的成功响应记数 \(c\),作者从中随机选 \(N_s = \min(c, G-1)\) 条替换掉原 batch 里 \(N_s\) 条失败响应。
注意 \(G-1\) 这个上限——它强制 batch 里至少有 1 条失败响应。这是为了让组内 reward 标准差非零,advantage 才有意义。要是把 batch 替成全对,又退回零方差了。
3. Pseudo Rollout + Importance Sampling 修正
最容易被忽略但很要命的一点:重采的响应来自带扰动的旧策略,但训练时 LoPE 把它当作不带扰动的样本来训——也就是说,扰动 \(\delta\) 只在采样时出现,训练时丢掉。形式上,采样分布是 \(\pi_{\theta_{\text{old}}}(o' \mid \delta \oplus p, q)\),训练时却把 \(o'\) 视为来自 \((p, q)\) 的样本。
这是 off-policy 训练。要做无偏估计就得加 importance sampling ratio:
分子是没有扰动时的概率,分母是有扰动时的旧策略概率。这一步保证了"虽然采样时模型见过 Lorem,但训练时学的是不带 Lorem 的能力"。
实测里作者还顺手把 KL 正则 \(\beta D_{\text{KL}}\) 也关掉了,原因是 resample 设置本来就和 reference policy 距离更远,强行拉回反而压死探索。
五、Training Signal Shaping:让 off-policy 训练不被稀释
光做 importance sampling 还不够。off-policy 训练有一个老问题——对于在新策略下概率很低的 token,IS 比值 \(\rho_{i,t}\) 极小,梯度被严重压制。但这些 token 偏偏就是 resample 想引入的"罕见但正确"的关键步骤。
作者沿用 Yan et al. (2025) 的 Policy Shaping,把 IS 比值经过一个非线性函数:
这个函数的好处是: - 当 \(\rho \to 0\) 时(即 \(\pi_\theta\) 很小),\(f\) 还是接近 0 但更平缓,不会把梯度压到完全消失 - 当 \(\rho\) 较大时,\(f\) 趋近 1,梯度被有界控制住
结果是把梯度峰值挪到了低概率区域——也就是模型当前不熟练的那些 token——而不再集中在已经掌握的 token 上。

图 9(论文中编号):三种梯度形态的对比。policy shaping 是把"学习重心"从已经掌握的 token 拨到模型不熟悉但被 reward 验证过的 token 上——这正是 off-policy resample 想要的。
除此之外作者还做了个 Advantage Shaping——在算 advantage 时,把被丢弃的 \(G'\) 条 rollout 也纳入均值/方差的计算,而不是只在保留的 \(G\) 条里算。原因很直白:被丢弃的几乎全是失败 rollout,把它们也算进去能更真实地反映"这道题有多难",从而给那些罕见的正确响应放大 advantage 信号。

图 10(论文中编号):c 是 resample 出的正确响应数量。当 c=1(极难题,32 条只对一条)时,shaped advantage 几乎是 vanilla 的 2 倍。这一脚补在难题上是真的精准。
数学上,shaped advantage 对正样本是:
可以验证,\(c\) 越小,\(\hat A^+\) 越大,符合"越难的题、越罕见的正确响应、越值得放大学习信号"的直觉。
六、主实验结果:在三个尺度上稳定上分
主实验在 Qwen3-1.7B-Base、Qwen3-4B-Base、Qwen2.5-Math-7B 上做,benchmark 覆盖 MATH-500、GSM8K、AMC、AIME 2024、AIME 2025。
| 模型 & 方法 | MATH-500 | GSM8K | AMC | AIME24 | AIME25 | 平均 |
|---|---|---|---|---|---|---|
| Qwen3-1.7B-Base | 63.40 | 76.92 | 26.87 | 5.33 | 2.00 | 34.90 |
| + GRPO | 64.20 | 82.71 | 27.61 | 6.15 | 4.47 | 37.03 |
| + Resample (Naive Prompt) | 67.00 | 82.18 | 28.36 | 8.70 | 4.58 | 38.16 |
| + LoPE(无 Shaping) | 68.00 | 83.55 | 33.58 | 7.97 | 5.83 | 39.79 |
| + LoPE(有 Shaping) | 68.80 | 82.94 | 32.84 | 8.80 | 5.73 | 39.82 |
| Qwen3-4B-Base | 65.80 | 82.71 | 32.84 | 9.38 | 7.24 | 39.59 |
| + GRPO | 77.80 | 91.74 | 47.76 | 16.41 | 13.12 | 49.37 |
| + Resample (Naive Prompt) | 79.80 | 92.87 | 45.52 | 14.90 | 11.67 | 48.95 |
| + LoPE(无 Shaping) | 85.40 | 92.95 | 52.99 | 19.01 | 13.85 | 52.84 |
| + LoPE(有 Shaping) | 82.60 | 92.95 | 58.21 | 19.90 | 16.27 | 53.99 |
| Qwen2.5-Math-7B | 52.80 | 65.50 | 35.40 | 12.90 | 7.90 | 34.90 |
| + GRPO | 78.00 | 85.06 | 47.76 | 17.66 | 9.90 | 47.68 |
| + Resample (Naive Prompt) | 78.20 | 83.02 | 50.00 | 17.19 | 9.17 | 47.52 |
| + LoPE (无 Shaping) | 77.40 | 86.35 | 47.01 | 15.31 | 10.52 | 47.32 |
| + LoPE(有 Shaping) | 81.80 | 90.30 | 61.19 | 19.58 | 16.51 | 53.88 |
几个值得停下来盯一会儿的数:
- Qwen3-4B 上 AMC 从 47.76 涨到 58.21(+10.45 个点),AIME25 从 13.12 涨到 16.27(+3.15)。这种幅度在已经训好 GRPO 的 baseline 上加的,含金量挺高。
- Qwen2.5-Math-7B 上,LoPE 无 Shaping 居然不如 baseline(47.32 vs 47.52),但加上 Training Signal Shaping 之后跳到 53.88(+6.20)。这说明 7B 这种参数更大的模型,off-policy 训练的 gradient suppression 问题更严重,Shaping 不是可选项,是必选项。
- naive prompt resample 自己也能涨点(如 1.7B 从 37.03 到 38.16),但和 LoPE 比还差一截。证明涨点不全是"多采几次"的功劳,prompt 扰动本身的探索面才是关键贡献。
训练曲线也很说明问题——

图 4:左图蓝线 (LoPE) 始终高于橙线 (naive resample)——说明 Lorem 扰动是稳定提升"难题救活率"的,不是偶发涨点。右图准确率曲线也持续保持领先。
七、最有意思的一章:什么样的扰动才"好用"?
如果到这里你还没有疑问,那是不太够的。我看完前面六章心里的第一个反应是——凭什么是 Lorem Ipsum?随便加点别的乱码不行么?
作者也意识到这是必答题。第 7 章他做了一个完整的扰动对比实验,扫了 8 种不同的 perturbation 方案:
- Random Fake English:用 Faker 包生成假英文句子
- Random ASCII:随机可打印 ASCII 字符
- Random Tokens:从模型词表里均匀采 token
- English Unigram Model:从 C4 英文语料里前 50 高频词均匀采
- Latin Unigram Model:从 C4 拉丁语前 50 高频词均匀采
- Latin 3-Gram Model:在 C4 拉丁语料上训的 3-gram LM 生成的序列
- Filtered Latin Natural Language:真实的拉丁语自然文本
下面是两个核心图。

图 5:困惑度高低是核心轴。Lorem Ipsum 的困惑度均值是 6.86,和真实拉丁自然语言(5.79)非常接近;而 Random Token 困惑度均值高达 11086,纯属 OOD 噪声。

图 6(a):Random Token 的 entropy 分布右移幅度极大——这就是为什么它会"砸盘",模型连题目都看懵了。

图 6(b):t-SNE 也佐证——Lorem 类扰动让模型对题目的表示发生"轻微偏移",Random Token 则发生"剧烈漂移"。前者是换条路看题,后者是把题给毁了。
把这些扰动放到训练里跑一圈,得到下面这张关键表——
| 方法 (Qwen3-1.7B-Base) | MATH-500 | GSM8K | AMC | AIME24 | AIME25 | 平均 |
|---|---|---|---|---|---|---|
| Base + GRPO | 64.20 | 82.71 | 27.61 | 6.15 | 4.47 | 37.03 |
| + Resample (Naive Prompt) | 67.00 | 82.18 | 28.36 | 8.70 | 4.58 | 38.16 |
| + Naive Prompt (Temp=1.2) | 64.40 | 82.87 | 31.34 | 8.65 | 4.48 | 38.35 |
| + LoPE | 68.80 | 82.94 | 32.84 | 8.80 | 5.73 | 39.82 |
| + Random Fake English | 65.80 | 81.96 | 32.09 | 7.50 | 5.42 | 38.55 |
| + Random ASCII | 66.20 | 82.94 | 28.36 | 8.12 | 5.32 | 38.19 |
| + Random Token | 64.20 | 81.50 | 29.85 | 8.08 | 4.63 | 37.65(伤害训练!) |
| + Filtered Latin Natural Language | 68.80 | 82.71 | 32.84 | 9.32 | 5.57 | 39.85 |
| + Latin Unigram Model | 69.40 | 83.32 | 32.09 | 7.19 | 6.35 | 39.67 |
| + Latin 3-Gram Model | 68.80 | 81.88 | 29.85 | 7.92 | 5.93 | 38.88 |
| + English Unigram Model | 67.00 | 83.32 | 28.36 | 8.49 | 5.42 | 38.52 |
读到这里我才完全理解作者想说什么。结论可以精炼成两条铁律:
- 必须是"伪拉丁"——也就是模型主语言(英文)之外的语言。Random Fake English / English Unigram 是英文乱码,效果都明显弱于拉丁系扰动。原因很可能是英文乱码会真的干扰模型对英文题目的语义理解,而拉丁语对当代 LLM 是"看着像但读不出意思"的状态,恰好达到"扰动分布但不破坏理解"的临界点。
- 必须低困惑度。Random Token 困惑度 10000+,直接把训练带跑偏;Random ASCII 也比较高,效果一般。三个困惑度最低的——Lorem、Filtered Latin、Latin Unigram——分别拿到 39.82 / 39.85 / 39.67,是 top 3。
归根到底这事儿不能太离谱也不能太规整。轻度扰动 + 非主语言才是 sweet spot。
我看到这里其实挺被打动的——这不是一个堆 trick 的论文,作者真的把"为什么 work"挖到了底。比起"加了个新模块涨了几个点",这种"剥到只剩一个清晰原则"的工作更有价值。
八、几点我自己的判断
读完整篇我整理了几个观察:
亮点:
- idea 漂亮。在 prompt 空间做扰动这个方向其实早有人提(Xie et al. 2022 关于 ICL 的工作,von Oswald 2023 等),但把它具体落到"用 Lorem Ipsum 解 GRPO 零优势"这个 RLVR 实际痛点上,是这篇的新意。思路简单但锋利。
- 机理分析做得好。perplexity 分布、t-SNE、entropy 分布、Venn 图,把"为什么 work"和"什么样的扰动才 work"分开讨论,论据链很硬。这一章是这篇论文的灵魂。
- 工程上易部署。LoPE 不改模型结构、不改 GRPO loss 形式、不额外训其他组件,就是在 rollout 阶段加一段拼接。任何在跑 GRPO 的团队都可以一周内试出来效果。
- Training Signal Shaping 是真功夫。Qwen2.5-Math-7B 上的对照实验很说明问题——没有 Shaping,LoPE 反而比 baseline 差;有了 Shaping,立刻跳到全场最高。这一节的梯度分析挺扎实,没有糊弄。
值得追问的几点:
- Lorem 序列长度 100–300 token,这个选择是经验值。论文里没系统扫这个超参,我猜应该有一个甜区,但目前看不出对短序列的鲁棒性如何。
- 泛化到非数学任务怎么样? 整篇实验全是数学推理,作者没在代码生成、open-ended QA 这种任务上验证。但我自己倾向于认为这套方法在依赖"verifiable reward"的任务上都有戏,因为它没用到任务相关信息。
- boundary instruction 那个 trick 值得注意。作者在扰动末尾会拼一句 "\nPlease reason step by step, and put your final answer within \boxed{}.",说是为了避免模型被扰动带歪输出乱码。这其实是个小补丁,没有这个 instruction,效果可能会打折——这点论文没单独消融,是个小遗憾。
- 算力开销其实不小。\(G'=24\) 意味着难题要额外多采 24 条 rollout——只在零优势触发,预算开销随训练进展而下降,但前期训练阶段开销显著。论文里没正面报告总 token 消耗对比。
和工业界已有方案的关系:
DAPO(Yu et al. 2025)那一批方法走的是 token-level loss、改裁剪边界的思路,跟 LoPE 是正交的;Yan et al. 2025 的 LUFFY 用了 policy shaping,LoPE 直接借用过来,这点作者也明确致谢了。所以 LoPE 不是从零造轮子,而是把一个被忽略的角度(prompt 空间扰动)做透,并且和已有 off-policy 修正手段干净地拼起来。我个人觉得这种工作的价值反而比一个全新但难复现的方法更高。
九、对实战的几点启发
如果你也在跑 GRPO 或者类似的 RLVR 训练,这篇论文里有几个 takeaway 可以直接用:
- 零优势是浪费的元凶。先去日志里查一下每个 step 里有多少题进入零优势——这个比例越高,LoPE 这类方法的边际收益越大。
- logit 空间扰动可能不是你想要的。如果你之前在调温度、调 top-p 还不见效,换个思路——试试 prompt 空间。
- 扰动序列要"非主语言 + 低困惑度"。中文模型上跑可以试试拉丁、希腊、世界语之类的低困惑度异语言;不要用纯随机 token。
- off-policy 训练记得加 policy shaping。如果你的训练涉及 importance sampling 修正,\(f(x) = x/(x+\gamma)\) 这个简单变换非常便宜,效果显著。
- batch 重组时保留至少一个失败响应。这是个看似小但很要命的工程细节,否则方差归零回到原点。
收尾
LoPE 这篇让我想到 Karpathy 之前说过的那句话——"Sometimes the simplest hack works." Lorem Ipsum 作为排版占位符存在了 500 年,没人想到有一天它会在 LLM RL 训练里救命。
但漂亮的不是 Lorem Ipsum 本身,而是作者把"为什么是它"挖到了底——伪拉丁、低困惑度、保留语言结构、不携带任务信息——这四个条件恰好构成一个理论上可被解释的扰动空间。我猜接下来会有一批工作沿着"prompt 空间扰动"这条线展开,比如自动学习扰动的策略、跨语言扰动的设计、动态扰动强度调节等。
如果你也在 RLVR 这块踩坑,这篇论文值得花一小时把方法和分析章节都过一遍——尤其是第 7 章的扰动对比实验,是这两年我看过的"为什么 work"分析里做得最干净的之一。
觉得有启发的话,欢迎点赞、在看、转发。跟进最新 AI 前沿,关注我