强LLM不一定是好"优化器":决定胜负的不是参数量,而是"局部精修"的能力
核心摘要
把LLM塞进进化算法的循环里、让它当 mutation 算子来跑优化,这两年成了 AlphaEvolve、AI Scientist、PromptBreeder 这类系统的标准做法。但有个尴尬的现象一直没人系统讲清楚:同样的 evolutionary loop、同样的 fitness function、同样的初始种群,换个 LLM 进去跑,最终 fitness 能差出一截。这是 base model 能力的差异?还是更隐蔽的"搜索行为"差异?
这篇来自 Univ. Grenoble Alpes 的论文,扔了 15 个模型、8 个任务、72K+ 候选解进去做了个大规模 trajectory 分析,结论挺反直觉:zero-shot 能力只能解释一部分性能差异(R²=0.103),真正卡在哪里的,是模型作为"局部精修器(local refiner)"的稳定性。强 optimizer 不是那种偶尔来个大跃进的,而是能持续不断小步改进、把搜索逐渐收敛到语义空间的局部高地。更扎心的是——Mistral-24B-Instruct 在性价比帕累托前沿上稳压 GPT-4o、DeepSeek-V3、Gemini-1.5-Pro。
如果你正在选模型搭 evolutionary agent 系统,这篇值得花半小时读。
论文信息
- 标题:What Makes an LLM a Good Optimizer? A Trajectory Analysis of LLM-Guided Evolutionary Search
- 作者:Xinhao Zhang, Xi Chen, François Portet, Maxime Peyrard
- 机构:Univ. Grenoble Alpes, CNRS, Grenoble INP, LIG, 38000 Grenoble, France
- arXiv:2604.19440
- 项目页:xinhao-zhang.github.io/traj_evo_search
- 数据集:HuggingFace - LivevreXH/evo_llm_trajectories
为什么这个问题值得做
我之前在做 prompt optimization 的时候踩过一个坑——拿 GPT-4o 当 mutation 算子去 evolve prompt,跑 30 代之后 fitness 卡在某个值,怎么都上不去;换成 Mistral 7B,反而能多挤出几个点。当时下意识以为是 random seed 的事,重跑了一轮还是这样,就放下了,没深究。
后来看 AlphaEvolve、PromptBreeder、FunSearch 这一系列工作越铺越大,才意识到这个问题被绕过去了——所有人都默认"更强的 LLM 当 optimizer 一定更好",但其实没人去算过这个账。
这篇论文做的事情就是把这个账算清楚:在严格控制的进化框架下(同样的 selection、同样的 mutation 接口、同样的 evaluation),15 个 LLM 在 8 个任务上跑 30 代,每代 10 个 offspring,重复两次,72,000+ API 调用、约 500 美刀的实验成本,把每条 trajectory 都存下来分析。
不是 benchmark 那种"谁分高谁牛"的玩法,而是看搜索过程本身的几何形状。
框架:LLM 当 mutation 算子的进化搜索
先把游戏规则讲清楚。整个 loop 走的是经典的进化算法:

图1:方法总览。整个流程像一个"LLM 在不停看上一代的优胜方案、给出改进版"的循环。论文要回答的是:在这个循环里,什么样的 LLM 才是好算子?
具体的设置:
- Selection:每代取 top-20% 作为 elite,按 fitness 加权采样作 parent
- Mutation:把 parent 当 context 喂给 LLM,让它生成 offspring(temperature=0.7)
- Pool 更新:去重后合并,超过容量 N 时只留 top-N
四个任务族覆盖了 LLM-guided 进化搜索常见的应用场景:
| 任务族 | 子任务 | Genome | Fitness |
|---|---|---|---|
| Route Optimization | TSP-30, TSP-60 | 城市排列 | \(-L(\pi)\)(路径长度的负值) |
| Prompt Optimization | SAMSum, ASSET | 自然语言指令 | ROUGE-L / SARI |
| Equation Discovery | Oscillator-1, Oscillator-2 | Python 函数 | \(1 - \text{norm}(\text{MSE})\) |
| Heuristic Design | Bin Packing OR3, Weibull | priority function | \(1/\text{bins}\) |
15 个模型横跨 6 个家族:OpenAI(GPT-4o, GPT-4o-mini, GPT-3.5-turbo)、Gemini(1.5-Pro, 1.5-Flash, Gemma-3n-4B)、Llama(3.1-70B/8B-Instruct, 3.2-3B/1B-Instruct)、DeepSeek-V3、Mistral 全家(7B, 24B, Large, Magistral-Small)。
这套实验设置算是相当扎实,没有"偷偷换 selection 规则"或者"挑对自己有利的 task"的嫌疑。
第一刀:zero-shot 能力到底解释了多少?
最朴素的假设:模型 zero-shot 能力越强,当 optimizer 也越强。这个相关性是存在的——

图2:横轴是 zero-shot 平均 fitness,纵轴是 30 代进化后的最终 fitness。整体确实强相关,但散点离回归线的偏差不小——很多模型偏离回归线 5 个点以上。最显眼的是 Mistral-24B-Instruct——zero-shot 排在中间,进化后却跳到了 0.81 的最高点;而 GPT-4o、Gemini-1.5-Pro 这些 zero-shot 顶尖的,最终也就 0.75 左右。
这就是论文要追的"残差"。同样在 zero-shot 0.4 附近聚成一堆的模型,进化完之后能差出一大截。zero-shot 解释力 R²=0.103,连 11% 都不到。
说实话第一眼我有点意外。我之前的直觉是 zero-shot 能力应该能解释 50% 以上——毕竟好的 mutation 至少得理解任务、得能产出 valid solution。结果连 1/4 都不到,剩下 90% 的方差是哪来的?
论文的回答是:搜索过程本身的差异。模型 A 和模型 B 在 zero-shot 上半斤八两,但 mutation 行为可以完全不一样——一个像精雕细琢的工匠,一个像撒网捞鱼。
举个具体例子:DeepSeek-V3 在 first-generation 的平均 fitness 是 56.9,全场最高,比 GPT-4o (46.5) 高了 10 个点;但跑完 30 代之后,DeepSeek-V3 只到 75.3,反而被 GPT-4o (77.4) 反超。起跑领先 10 个点,全程被反超——这就是"搜索行为差异"在做功的最清楚证据。Zero-shot 决定起点,但决定终点的是别的东西。
第二刀:novelty 真的是好东西吗?
这里就到了我个人最被打动的部分。
经典的进化算法理论里,novelty/diversity 是 exploration 的代理,被认为是好东西。如果搜索陷在局部最优,就需要更高的 novelty 来跳出去。LLM-guided evolution 的常识理解也是这样:mutation 不是随机的、而是被 LLM 的 prior 强烈塑形的,那 exploration 就更受限了,所以 novelty 应该更重要。
——论文的实验结果直接打脸。

图3:novelty 相关的两个指标(avg novelty、init novelty)系数是灰色的"ns"(not significant),贡献几乎为零。真正能预测最终 fitness 的,是 Breakthrough Rate——也就是"出现一次 best-so-far 改进"的频率。BR 单独的 R²=0.198,是 zero-shot 单独 R²=0.103 的近两倍。
这个图我盯着看了好久。它其实在颠覆一个直觉:做 LLM-guided 优化,不是要让模型"想得更野",而是要让它"持续不断地小步前进"。
什么是 breakthrough?论文定义得非常朴素:当前这一代里只要有任意一个 offspring 的 fitness 超过了所有历史代的最优,就算一次 breakthrough。Breakthrough Rate = breakthrough 数 / 总代数。
我的第一反应是怀疑:会不会是定义太宽?后面的混合效应回归(generation-level)进一步把这个故事讲实了——

图4:这是篇文章里我觉得最关键的统计证据。注意右图(lagged):Mean novelty 单独的效应已经不显著了(系数贴近 0),但 Mean novelty × H_spatial 的交互项仍然显著负相关。翻译过来就是:novelty 本身没用,只有当搜索保持局部化(low H_spatial)的时候,novelty 才会带来 breakthrough。否则 novelty 只是在"瞎逛"。
说到这块,我突然想起来之前看的一个 LAS landscape analysis 的工作(也在 related work 里被引了),跟这篇的结论是同一个方向——LLM-driven 的优化更像 "exploitation-heavy" 的过程,randomness 反而是负担。
这里也跟经典进化算法理论分歧得很彻底。Mitchell & Taylor (1999) 那本经典里,evolutionary search 的典型行为是"长 plateau + 偶发大跃进"——大部分时候在小修小补,偶尔一次成功的 mutation 把 fitness 推到新高。但在 LLM-guided 这套里,好 trajectory 长得不像这样——它是连续的小台阶累积,没有明显的"大跃进+长 plateau"模式。这是因为 LLM mutation 不是真正的随机,它本身就被 prior 引导着"往好的方向改",所以"小步快走"是更自然的状态。
第三刀:trajectory 的几何长什么样?
光看数字不够,论文还在语义空间里把 trajectory 画了出来。这是我觉得最有说服力的可视化:

图5:左边 Gemini-1.5-Pro 的 trajectory 像在"螺旋下降"——前几代 novelty 很高(在搜索空间游荡),随着代数推进逐渐 commit 到一个 fitness 高的 region。右边 Mistral-7B-Instruct 一直在搞高 novelty,但 fitness 涨不上去——典型的"为了多样性而多样性"。
光看 fitness vs. novelty 还不够直观。再看 MDS 投影到二维语义空间——

图6:Gemini-1.5-Pro(左)的 trajectory 形成一个明显的黄色聚团——"高 fitness 解都聚在某个 region";Mistral-7B-Instruct(右)的点散满整个空间,黄色高 fitness 的点也是星星点点散开的。前者是收敛、后者是扩散——就这么简单。
最后看 best-so-far fitness curve:

图7:这就是 trajectory 几何差异的最终结果——同样跑 30 代,一个收敛到 fitness ≈ 1.0,一个还在 0.5-0.7 之间打转。
到这里,"effective LLM optimizer = local refiner(局部精修器)"的故事基本闭环了。
第四刀:operator-level 验证——LRR 才是关键
前面都是 trajectory-level 的描述。但要把"局部精修"这个判断坐实,还得在更细的 parent → child mutation 层面做验证。
论文定义了两个 operator-level 指标:
- LRR (Local Refinement Rate):offspring 严格优于其 prompted parent 的频率(在所有 valid offspring 里的比例)
- PCD (Parent–Child Distance):offspring 跟 parent 在语义空间里的平均距离("修改幅度")
跑回归:
| 模型 | ZS + PCD | ZS + LRR + PCD |
|---|---|---|
| Zero-shot Perf. (z) | 0.233* (0.028) | 0.144 (0.112) |
| Avg. Parent–Child Distance (z) | −0.329** (0.001) | −0.024 (0.838) |
| Avg. Local Refinement Rate (z) | — | 0.528*** (\lt0.001) |
| R² | 0.204 | 0.367 |
这张表挺漂亮的。
第一列:单独看 PCD(修改幅度),系数显著为负——改得越狠越差。一个直觉的解释是"魔改容易出 bug"。
第二列:把 LRR 加进去之后,PCD 的系数从 −0.329 直接掉到 −0.024,完全失去显著性。这说明 PCD 之所以负相关,是因为大幅修改往往降低了 refinement 的成功率;一旦控制了 refinement 行为,"修改幅度"本身没那么重要。
LRR 自己的系数是 0.528,p\lt0.001——最强的预测因子。R² 从 0.204 跳到 0.367,几乎翻倍。
这就是论文的核心 insight 浓缩成的一张表:好的 LLM optimizer ≈ 高 LRR。不是修改幅度大、不是 novelty 高、甚至不是 zero-shot 强——而是每次改动都能稳稳地比 parent 好一点点。
第五刀:扰动实验——把 refinement 行为掰断给你看
到这里还都是相关性。要做因果,论文跑了一个 model mixing 的扰动实验:在每代 mutation 里,混入一定比例由"弱 refiner"模型生成的 offspring,剩下由"强 refiner"生成。看 fitness 怎么变。

图8:在 TSP-60 和 Bin Packing 上,weak-refiner 比例越高,fitness 几乎是单调下降,跟 refinement rate 同步坍塌(Pearson r 高达 0.96-0.99)。Prompt Optimization 上信号弱一些(r=0.45),但方向一致。这是相当强的因果证据——你可以直接通过"换掉一部分 mutation 算子"来摧毁系统的优化能力。
我觉得这个实验设计很聪明。比起单纯换模型(很多变量都变了),混合策略只动 mutation 这一个环节,能更干净地隔离 refinement 行为的作用。
不过论文自己也在 Limitations 里坦诚——换模型还是会附带其他不可见的变化(比如 reasoning pattern、exploration tendency),完全 isolate refinement 还是做不到。这个 caveat 我觉得说得很到位。
第六刀:成本对比——Mistral-24B 是真正的赢家
最后一个 punchline 在这张图里:

图9:Pareto 前沿上从左到右是 Llama-3.2-1B → Llama-3.1-8B → Mistral-7B → Mistral-24B-Instruct。Mistral-24B 在 0.1-0.2 美刀的成本下达到了 0.6+ 的 fitness 提升——这是图里最高的提升幅度。再往右的 GPT-4o、DeepSeek-V3、Gemini-1.5-Pro,成本贵了 50-100 倍,fitness 提升反而更低。
这张图其实是整篇论文最实用的一张。如果你正在搭一个 LLM-guided evolutionary 系统,看完这张图就能直接做选型决策——别默认选最贵的模型,先验证它是不是好的 local refiner。
完整实验结果:Table 2 摘要
论文 Appendix A 给了一个完整的 fitness 对比表(横跨 4 个 task family、最后一列是平均)。挑几个关键数字看:
| 模型 | Zero-Shot Avg | First Generation Avg | Last Generation Avg |
|---|---|---|---|
| GPT-4o | 53.3 | 46.5 | 77.4 |
| Gemini-1.5-Pro | 47.8 | 49.4 | 76.4 |
| DeepSeek-V3 | 45.8 | 56.9 | 75.3 |
| Mistral-Large | 45.0 | 49.5 | 75.7 |
| Mistral-24B-Instruct | 42.8 | 51.0 | 81.6 |
| Mistral-7B-Instruct | 34.7 | 45.5 | 70.0 |
| GPT-4o-mini | 38.4 | 47.1 | 70.1 |
| Gemini-1.5-Flash | 29.6 | 47.2 | 68.2 |
| Gemma-3n-4B | 19.6 | 46.8 | 60.8 |
| GPT-3.5-turbo | 18.0 | 45.8 | 59.3 |
注意几个有意思的现象:
- DeepSeek-V3 第一代最强(first-gen avg 56.9),但最后一代只有 75.3——zero-shot 强、但优化能力没跟上。这就是论文里说的"early performance does not predict long-horizon outcomes"。
- Mistral-24B-Instruct 最终拿了第一名(81.6),把 GPT-4o (77.4) 甩了 4 个点。它的 zero-shot 只有 42.8,比 GPT-4o 低 10 多个点。
- Llama-3.1-8B-Instruct (72.2) > Llama-3.1-70B-Instruct (69.2)——同家族里 8B 反过来打 70B。这个现象单独抽出来,足够让所有"参数即正义"的信仰崩一块。
- Magistral-Small (70.4) 跟 Mistral-Large (75.7) 中间隔了 5 个点,但 Magistral-Small 的 zero-shot 反而比 Mistral-Large 高(29.0 vs 19.5)。同家族里"reasoning 强化版"未必更适合当 search operator——这个观察单独拎出来,又是一个值得后续展开的研究点。
我的判断
亮点:
- 大规模、多任务、严格 controlled 的 setup 是真硬核,72K 个 candidate solution、500 美刀实验成本,结论的统计力度是足够的。把数据集开源到 HuggingFace 这一点也很专业,后续工作可以直接 build on top of。
- "Local Refiner"框架在概念上是对的。它把"模型在 evolutionary loop 里到底在干什么"这个 black box 给打开了一个口子,给出了一个可量化的 operator-level 描述。LRR 是个非常实用的指标,可以直接拿来做模型筛选。
- 几何分析框架(spatial entropy + fitness spatial entropy)有可迁移性。不只能分析 evolutionary search,应该可以推广到任何 iterative agent loop 的 trajectory 分析(比如 ReAct、Reflection 这些)。
- 批判性结论挺扎实:"novelty 不是好东西"、"参数大不一定好"这两点本身就是有冲击力的发现,配合扰动实验做了因果验证,让人不容易反驳。
问题与局限:
- "local refinement"的可操作性还需要更多工程经验。论文给了 LRR 这个事后 metric,但没给"如何提前预测一个模型 LRR 高不高"的方法。除了实跑一遍,工程师拿到一个新模型时还是没法快速判断它适不适合当 optimizer。
- 任务覆盖偏窄。4 个 task family 里有 2 个是相对成熟的 LLM-guided evolution 应用(TSP、prompt optimization),equation discovery 和 bin packing 也算常见。但更接近真实 agent 场景的 web automation、coding agent 等没有覆盖。结论能不能外推到 long-horizon agent task 还要打个问号。
- "为什么 Mistral-24B 是最强的 local refiner?"这个机制问题没回答。是它的 RLHF 数据里有更多 incremental refinement 的样本?还是某种 inductive bias?论文留给了"future work"——但这恰恰是工程上最关心的问题。
- 跟 RL/SFT 训练的关系没展开。论文最后提了一句"future work may benefit from training models as effective search operators",引了 EvoTune (Šurina et al., 2025),但没展开讲 LRR 这个目标如何融到 training loss 里。如果有"refine-as-RL-target"的实验,这篇论文的影响力会再上一个台阶。
对工程实践的启发:
- 选模型时别迷信"越强越好"。如果你在搭 LLM-guided evolutionary 系统(PromptBreeder、AlphaEvolve 这类),先用一个小规模 trajectory 评估 LRR 和 trajectory localization,再决定主力模型。Mistral 24B 这个量级值得试。
- prompting 要鼓励 incremental refinement。论文 Appendix C 给的 evolution prompt 模板里都有"please return one BETTER child"这种引导。可以在 prompt 里强化 "modify minimally"、"keep what works"之类的约束,可能能提升 LRR。
- 不要盲目追求 diversity/novelty。如果你在系统里加了 novelty bonus 来"鼓励探索",先验证你的搜索是不是已经处于足够 localized 的状态——否则 novelty bonus 反而是噪声。
- 设计自己的 trajectory 监控指标。LRR 和 spatial entropy 的计算成本不高,可以做成 evolution loop 的实时监控 dashboard。Spatial entropy 突然飙升可能是搜索"失控"的早期信号。
- 混合模型作为兜底策略。论文的扰动实验是反向证明(混入弱 refiner 会拖垮性能),但反过来想——如果不同模型在不同任务/不同阶段的 LRR 不一样,那 ensemble 几个 strong refiner 来覆盖更广的 task distribution,理论上是更稳的方案。这个方向论文没展开,但工程上值得试。
一个开放问题
论文最后讨论里提到一个观察:refinement behavior 不是 base model 单独的属性,而是整个 agentic system 的 emergent 性质——模型、prompt、decoding 配置一起决定。
这其实暗示了一个更根本的问题——LRR 是不是可以通过 prompt engineering 单独优化出来?论文 Appendix D.1 提到 temperature 会影响 refinement rate,但没系统对比不同 prompting strategy 下同一模型的 LRR 变化。
如果答案是"可以",那意味着我们不需要训练新模型,只要找对 prompt 就能把 GPT-4o 调成跟 Mistral-24B 一样好的 optimizer。如果答案是"不行",那 RL/SFT 训练就成了必经之路(EvoTune 那条线)。
这两个方向的差别非常大。希望后续工作能给出明确答案。
收尾
LLM-guided 进化搜索这个赛道这一两年已经卷起来了——从 FunSearch 到 AlphaEvolve、从 PromptBreeder 到 EvoPrompt、从 EoH 到 ReEvo。但绝大部分工作都在比"哪个系统跑出来的最终 fitness 最高",没几个人停下来问"为什么这个系统跑得高"。
这篇论文做的就是停下来问的那个工作。它告诉你:这个游戏不是参数量的游戏、不是探索 vs. 利用的简单 trade-off,而是"能不能稳稳地小步前进"的游戏。
这个 takeaway 让我想起做 RL 训练时的一个老经验——reward 方差比 reward 均值更重要。能稳定给出小奖励的 environment,比偶尔给大奖励的 environment 更容易学到好策略。LLM 当 optimizer 也是同一个道理。
如果你是在做 agent system 设计,这套 trajectory 分析框架应该会成为你工具箱里的一员。如果你是在做模型 post-training,"local refinement as objective"可能是一条值得探索的 fine-tuning 方向。
觉得有启发的话,欢迎点赞、在看、转发。跟进最新AI前沿,关注我