当"世界模型"成了一个谁都看不懂彼此的词：一份给Agentic AI的能力分级地图

核心摘要

如果你最近在不同社区里聊"世界模型"，大概率会有这样的体验——视觉那边的人在说 Sora 这种生成式视频模型，强化学习的人在讲 DreamerV3、MuZero 的潜在动力学，做 Web Agent 的人在讨论让 LLM 模拟网页跳转，搞自动化科学的人在说 A-Lab 那种自主合成实验。同一个词，四套语境，几乎不互通。

这篇 100+ 页的综述（arXiv:2604.22748，作者来自 HKUST、新加坡国立、牛津、南洋理工、港中文等十所机构的 39 人合作）干的事情很直接：给"世界模型"这个被滥用的概念建一套二维坐标系——纵轴是三级能力阶梯（L1 Predictor 一步预测 / L2 Simulator 多步可决策仿真 / L3 Evolver 证据驱动自我修订），横轴是四类规律范畴（物理世界 / 数字世界 / 社会世界 / 科学世界）。论文综合了 400+ 篇工作和 100+ 个代表性系统，最有价值的判断在于：当下绝大多数所谓的"世界模型"还停留在 L1，能像样跑 L2 多步仿真的不多，真正闭环到 L3 自我进化的，目前几乎只有自主科学实验那一类（CAMEO、A-Lab 这种）。

如果你正在做 Agent、做强化学习、做视频生成或做科学发现的工程，这套分级值得花时间读一遍——它不会教你新算法，但能让你看清自己手里的系统到底在第几层、缺什么。

论文信息

标题：Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond
作者：Meng Chu, Xuan Billy Zhang, Kevin Qinghong Lin, Lingdong Kong, Jize Zhang, Teng Tu, Weijian Ma, Ziqi Huang 等共 39 人（含 Mike Zheng Shou、Ziwei Liu、Philip Torr、Jiaya Jia 等多位资深作者）
机构：香港科技大学、新加坡国立大学、牛津大学、南洋理工大学、香港中文大学、香港大学、华盛顿大学、香港科技大学（广州）、新加坡科技设计大学、新加坡管理大学
arXiv：2604.22748

为什么需要又一篇 World Model 综述

说实话，看到"又一篇 World Model 综述"我第一反应是嫌弃的。这两年这个方向 survey 出得已经够多了——Ding et al. (2025) 的 understanding vs. predicting 二分法，Zhu et al. (2024) 围绕 Sora 谈生成式世界模型，Yue et al. (2025) 的 G1-G4 视觉世界模型四代论，Kong et al. (2025) 的 3D/4D 世界建模，机器人操作、自动驾驶各有专门 survey……

这些综述有一个共同的问题：按模态切，按应用切。视觉的归视觉，RL 的归 RL，结果就是两个研究者拿着同一个词在说完全不同的事情。视觉那边一个研究员可能用生成视频的视觉保真度来评世界模型；强化学习那边的人则只看这模型跑下去能不能让 task success rate 涨。同一个 word，互不相干的指标。

这篇论文的切入角度不一样——它按"能力"切，按"规律"切。能力是垂直维度：会不会预测一步？会不会预测多步还满足领域约束？会不会自己发现错了去改自己？规律是水平维度：你在什么"世界"里建模——是物理这种有解析方程可以验证的，还是社会这种连转移函数都靠共同信念支撑的？

这个视角的好处是，它能把分散在不同社区的工作放进一个统一坐标系。你拿着一篇论文，能立刻判断：它在 L 几？哪个 regime？还差什么？如果你做 robot manipulation 想看看代码 agent 那边有没有可以借鉴的 L3 思路，这套地图就有用——这是我读完之后最大的 takeaway。

图1：本综述相对其他世界模型与Agent综述的定位。论文位于中央，整合了跨域覆盖与基于能力的分类法 L1/L2/L3 × 四类规律

图1：四类相邻综述各自只覆盖了世界模型版图的一部分（具身世界模型、生成式世界模型、语言Agent、AI for Science），这篇综述试图用 L1/L2/L3 × 四类规律的能力坐标系把它们统起来。

L1 / L2 / L3：三级能力阶梯，是怎么划分边界的

我特别喜欢作者用哲学传统来引出三级划分这个动作——不是装腔作势，而是为了让"能力边界"这件事有 testable 的判定标准。这是这篇 survey 值钱的地方之一：每一级都有可以验证的边界条件，不是给你抛个抽象口号。

L1 Predictor：休谟式的常规联结

L1 干的事情其实就一句话：给定历史观测和动作，预测下一步会发生什么。形式化地，它包含四个局部算子：

State Inference: \(z_t = q_\phi(z_t \mid o_{\leq t}, a_{\leq t-1})\) — 把观测历史压成潜在状态
Forward Dynamics: \(p_\theta(z_t \mid z_{t-1}, a_t)\) — 核心算子，一步状态转移
Observation Decoder: \(p_\psi(o_t \mid z_t)\) — 反向重建观测
Inverse Dynamics: \(\pi_\eta(a_t \mid z_{t-1}, z_t)\) — 从前后状态反推动作

这一级最经典的代表就是 Dreamer 系列的 RSSM（Recurrent State Space Model）、MuZero 的 latent dynamics、JEPA 系列的 masked latent prediction，再加上 VAE/VQ-VAE/Diffusion 这些表征学习的 building block。

哲学上，作者把它对应到休谟的 constant conjunction——你只是在记录"过去观察到 A 之后总跟着 B"，没有声称你知道为什么。这个比喻很贴切：L1 模型在分布内表现可以非常好，但分布一变就崩，因为你从来没真正建模过因果。

L1 的天然限制就是：单步预测好，不代表多步组合后还能用。一步误差 0.1，叠加 50 步直接漂到月球上去了。这个 compounding error 问题是 L1 系统跨不过去的鸿沟，也是 L2 之所以是"另一个能力级别"而不是"更好的 L1"的根本原因。

L2 Simulator：可以拿来做决策的多步 rollout

L2 的边界条件是这篇 survey 我觉得最有 operational value 的部分——它给出三个可测的 boundary condition，过了才算 L2：

Long-horizon coherence（长程一致性）：rollout 到 H 步还能用，不是一步两步看着合理然后立刻塌
Intervention sensitivity（干预敏感性）：你改个动作，trajectory 应该有方向上正确的变化，不是无脑收敛
Constraint consistency（约束一致性）：生成的未来要符合该领域的支配性规律

第三条是最容易出问题的。Sora 看着惊艳，但杯子穿桌、重力反向这种事说出来你也都见过——这就是典型的 L1 强但 L2 差，视觉看起来真和物理上自洽完全是两回事。作者在文中也直接点了：vbench 系列的 physics consistency 评测下，最好的视频世界模型在 PhyWorldBench 上的成功率才 0.262。

形式化地，L2 把 L1 的局部算子组合起来表示为：

\[\hat{p}(\tau \mid z_0, a_{1:H}, c) \propto \prod_{t=1}^{H} p_\theta(z_t \mid z_{t-1}, a_t)\, \phi_c(\tau)\]

其中 \(\phi_c(\tau)\) 是一个作用在整条轨迹上的支配律兼容性项——这就是 L2 区别于 L1 的关键：L1 的 trajectory distribution 可以分解成独立的逐步项之积，L2 因为 \(\phi_c\) 跟整条轨迹相关而不可分解。这个区别看起来抽象，但它直接决定了你需要的训练 loss 和评测协议都不一样。

哲学比喻：作者用 David Lewis 的"最近可能世界"理论——一个有效的 counterfactual 推理系统，能 explore 与现实最相似的、只有最小干预差异的多个世界。但 L2 的可靠性始终依赖于学到的转移结构本身，所以它有 epistemic drift 的风险——产生在训练 manifold 内部自洽、但脱离真实环境的轨迹。柏拉图洞穴比喻：再厉害的影子预测器，也仍然被墙的尺寸所限制。

L3 Evolver：自己发现自己错了，并且改自己

这是这篇论文真正想立的 flag。L3 的形式化定义是这样一个闭环：

\[\mathcal{M}_t \xrightarrow{\text{design}} a_t \xrightarrow{\text{execute}} o_t \xrightarrow{\text{observe}} d_t \xrightarrow{\text{reflect}} \mathcal{M}_{t+1}\]

四步：design 设计实验 → execute 执行 → observe 观察结果 → reflect 反思并更新模型栈。

但作者明确说：有这个 loop 还不算 L3。要满足三个边界条件：

Evidence-grounded diagnosis：失败必须能归因到具体可操作的原因，并且基于可回放的证据
Persistent asset update：修复要变成可复用的 asset（skill、rule、parser、test），不能只是 in-context 的临时补丁
Governed validation：更新要通过 regression 和 robustness 门，包括 rollback 和 canary 策略，才能默认启用

这三条很关键——它把 L3 从"agent 反思"这种宽泛的概念，收紧成必须有持久化资产更新和回归门控的工程系统。SWE-agent 那种每次 issue 单独解决的，没有累积资产，不算完整 L3；CodeIt 那种把搜索轨迹蒸馏回 LLM 自身参数的，才算闭环。

哲学比喻这次用的是 Lakatos 的"硬核 vs 保护带"：参数微调相当于在调保护带（protective belt），而真正的 L3 升级可能要动硬核（hard core）——架构、归纳偏置、约束模块的改写。Duhem-Quine holism 则解释了为什么 L3 的"诊断"这一步天然困难：错误会在多个模块之间分摊，不靠系统化的 diagnostic 根本定位不到根因。

图2：从局部预测到证据驱动修订的层级视图。L1 建模经验规律做预测，L2 支持可能世界语义和反事实仿真，L3 引入证据驱动的修订机制

图2：三级能力的层级化视图——L1 是模式识别，L2 是时间推演，L3 是基于现实交互的自适应模型演化。这个图把哲学层面的进展和工程层面的能力直接对应起来了。

四类世界规律：为什么物理和科学要分开

四个 governing-law regime 是横轴。乍看会觉得"物理世界"和"科学世界"差不多，但作者做了一个我觉得非常关键的区分：两者的差别在于约束如何被访问。

物理世界：通常可以用解析方程或物理引擎做验证。一个杯子穿桌、刚体互相穿透、能量不守恒，物理引擎当场就能给你判违例。
科学世界：支配机制只是部分已知，往往要通过实验来 empirically 验证。蛋白质折叠、气候动力学、化学反应，你没法事先写出闭式解。

这个区分在工程上意义重大。物理域的 L2 可以靠 MuJoCo、Brax、Isaac Gym 这种 simulator 当 ground truth 来对齐；科学域的 L2 必须做主动实验、跟现实数据对齐——这就是为什么 GraphCast、NeuralGCM、AlphaFold 跟 DreamerV3 不能放在一个评测框架下来比。

社会世界则有完全不同的特性：reflexivity（反身性）和 normativity（规范性）。Agent 关于社会状态的信念会改变社会状态本身（你以为通胀要起来了，于是大家囤货，于是真起来了）；而且转移不仅由"会发生什么"主导，还由"应该发生什么"的共同规范主导。这就是为什么 LLM 当 social agent 的时候 role drift 和 goal forgetting 这类失败几乎是必然的——它根本没建模共同 commitment。

数字世界的特殊性最容易被忽略：程序语义是确定性、可机械验证的。一个动作要么满足 API contract 要么不满足，error code、permission denial、UI state machine 全部 loggable、replayable。这就是为什么数字域的 L3（regression-gated software agent）走得相对最快——验证基础设施天然存在。

图3：四类规律范畴的示意图。从左到右分别是物理世界（人形机器人操作积木）、数字世界（代码与UI界面）、社会世界（带语言行为的多Agent网络）、科学世界（带机器人显微镜与移液器的科学实验）

图3：四类规律的代表性场景。每类规律的形式化约束本质不同——物理世界靠分析或仿真验证，数字世界靠程序执行验证，社会世界靠 commitment/norm consistency 验证，科学世界靠实验测量验证。

历史脉络：从牛顿定律到 AlphaEvolve

作者画了一张时间线（图4），把"世界建模"这个动作的历史从 1687 年的牛顿《原理》一直拉到 2025 年的 AlphaEvolve。这条线索其实回答了一个问题：人类一直在尝试建立世界的内部模型，AI 只是最新的载体。

四个时代的划分：

数学原理时代（–1956）：牛顿、拉普拉斯、图灵——说到底都是在构建可预测的世界模型，只是工具是数学方程
符号智能时代（1956–1986）：STRIPS、CYC，尝试手写规则。Frame Problem 揭示了根本困难——每个动作都要显式说明什么不变。两次 AI winter 把这个路径基本判了死刑。
连接主义复兴（1986–2020）：从反向传播到 Transformer，从手写规则转向学习表征，World Models 论文（Ha & Schmidhuber 2018）和 Dreamer 系列把这条路推到极致。
生成革命（2020–至今）：DDPM、GPT-3 引爆，Sora、AlphaEvolve 这些系统模糊了 prediction 和 simulation 的边界。

图4：世界建模代表性系统的时间线（2018-2026），按能力级别组织。L1 Predictor 是一步动力学，L2 Simulator 是可决策多步 rollout，L3 Evolver 是完整的证据驱动模型修订

图4：70 个代表性系统按"年份 × L 级别"网格放置，每个 pill 用颜色标注 governing-law regime（物理蓝、数字绿、社会橙、科学紫）。可以看到 L3 系统在科学和数字两个 regime 出现得明显更早、更密。

作者的判断我比较认同：进步从来不是单纯靠规模——而是靠改变"被表示的对象"、"在长程上可组合的对象"、"可以被证据修订的对象"。这话说得不漂亮但很硬。

L1 全景：表征 / 动力学 / 解码 / 反向动力学

L1 这一节我其实快速扫过的，因为大家比较熟。几个值得提的点：

表征学习的两条路：一条是对比学习（CPC、SimCLR、MoCo、CURL、SPR），另一条是 mask 预测（I-JEPA、V-JEPA、DINOv2）。后者是 LeCun 推的方向，思路是不要在 pixel 空间重建，而是在 latent 空间预测 masked region 的 embedding。

前向动力学的范式迁移：从 PILCO 的 Gaussian Process，到 RSSM 的 GRU+stochastic，再到 IRIS 的 VQ-VAE+Transformer、TransDreamer 的 Transformer-XL、DIAMOND 的 Diffusion——一条很清晰的"从连续到离散 token、从 RNN 到 Transformer/Diffusion"的演化。TD-MPC2 一个 317M 参数的 agent 能 master 104 个跨域任务，这个数字现在看也还是蛮 impressive 的。

Inverse Dynamics 的妙用：这个算子最被低估。Pathak et al. (2017) 用它当 curiosity-driven exploration——通过预测两个相邻状态之间的动作，编码器自动过滤掉不被 action 影响的视觉噪声（飘动的云、闪烁的背景）。VPT（Baker et al. 2022）更猛：用一小批有动作标注的 Minecraft 视频训了 inverse dynamics model，再去给海量未标注的 internet 视频回填动作标签，最终学会了"挖钻石"这种长程行为——只用被动观看。这个 trick 我觉得比纯 L1 framework 更值得做工程的人记住。

L2 全景：四类 regime 的 simulator 各自长什么样

L2 这一节是论文体量最大的部分，也是真正的 cross-domain synthesis。作者把 L2 boundary condition 在四个 regime 下的具体形态做成了一张表（Table 4）：

边界条件	物理世界	数字世界	社会世界	科学世界
Coherence	H步操作中物体持久性、接触稳定	多步 UI/code 交互中 DOM/文件系统一致	多轮对话中 commitment 与关系稳定	实验序列中因果链有效性
Sensitivity	力/位置扰动按比例改变抓取结果	UI 故障注入引发合适的 replan	改变一个 agent 策略带动谈判结果变化	参数变化产生方向正确的测量变化
Consistency	无相互穿透、能量守恒、运动学可行	API 契约、类型约束、状态机有效	规范遵循、信念一致、社会反身性	守恒律、因果图一致、证据链有效

这个表的价值在于：它给四个领域的工程师一个共同语言。你做物理 simulator 评测时关心的"无穿透"，跟我做 web agent 评测时关心的"DOM 一致"，其实都是 constraint consistency 这个东西的不同实例化。

物理域：视觉看起来真 ≠ planner 能用

这一节作者很犀利。Sora、Lumiere、VideoPoet 这些 visual-first 的 video generation 系统，视觉拟真和决策可用是两回事。VBench 系列、PhyWorldBench 这些专门测物理一致性的 benchmark 揭示了：最强的视频模型在物理一致性上的成功率才 0.262。

更可怕的是，FVD、SSIM 这种传统的生成质量指标根本测不出来这个问题——distributional realism 高得吓人的同时，重力反向、物体穿透、对象消失这种 planner-killing 的 failure 完全测不到。

作者由此引出一个我特别认同的观点：a good Simulator does not have to look more like the world; it must look more like the constraints。一个好的仿真器不需要看起来更像世界，它要看起来更像约束。物理用几何/接触约束、软件用状态机、社会用角色/规范一致性、科学用证据链可证伪性。让约束变得显式（loggable、replayable、regressable），通常比提升感知保真度更能改善长程稳定性。

数字域：世界模型可以是一段可执行的程序

这块最让我兴奋的是 CodeWM 和 WorldCoder 这类工作。它们的核心 insight 是：世界模型不一定要是个 neural network，可以就是一段可执行的 Python 程序。

CodeWM (Dainese et al. 2024) 用 LLM + MCTS 生成 Python 程序作为 18 个环境的 explicit、interpretable world model。WorldCoder 让 LLM agent 通过环境交互增量地构建 Python 世界模型。CWM (Copet et al. 2025) 一个 32B 的 open-weights LLM 专门为 code world model 训练，在 SWE-bench Verified 上拿到 65.8%。

更进一步的是 Web World Models (Feng et al. 2025)：把世界状态实现成 ordinary 的 web code（TypeScript modules、HTTP handlers、database schemas），逻辑一致性交给 web stack 的确定性执行，LLM 只负责生成 context 和高层决策。这个思路很反直觉——你以为越大的 LLM 越能"端到端建模一切"，结果实际工程里"把不该让 LLM 做的让真程序做"反而更可靠。

社会域：1 万 Agent 的城市仿真，还差很远

社会域这块作者比较坦诚——LLM agent 在 Theory of Mind 上的表现还非常弱。FANToM (Kim et al. 2023) 揭示了所有 SOTA LLM 都有"illusory ToM"现象，ExploreToM 测试中 GPT-4o 的准确率低到 9%。

但应用层面的工作进展确实很快。Generative Agents (Park et al. 2023) 的 25 agent 小镇是开端；Project Sid (AL et al. 2024) 上到 1000 agent 还出现了 emergent specialization；OASIS (Yang et al. 2024) 直接拉到 100 万 agent，重现了信息传播和群体极化现象。但这些系统的"社会动力学"基本是涌现出来的，不是被精确建模的——你没法用它做精细的政策推演。

科学域：从 GraphCast 到 AlphaFold

科学域的 L2 系统是最"成熟"的一类——GraphCast、Pangu-Weather 在 90% 以上的 ECMWF 预报指标上超越传统数值天气预报；GenCast 用 diffusion 把概率预报推到 97.2% 的指标领先；NeuralGCM 把可学习参数化嵌入到可微 GCM 内部，能涌现出热带气旋。AlphaFold 系列、Aurora（Earth system foundation model）、神经网络势函数（取代 DFT 做分子动力学，速度提升数量级）。

这些工作之所以成熟，根本原因是科学域有相对干净的 ground truth——观测数据。你的天气预报准不准，对照实测温度、风速、气压就能算清楚。物理 RL 那种"sim 里好看，real 里崩"的问题在这边相对小一些。

图5：四类规律范畴的诊断图。横轴反映规律的可形式化和可机械验证程度，纵轴反映状态和约束的可观测性

图5：四个 regime 的诊断坐标——横轴是规律的"可形式化与可验证度"（数字世界最高、社会世界最低），纵轴是状态与约束的"可观测度"（物理较高、社会较低）。这个图解释了为什么 L3 在不同 regime 的成熟度排序差别如此之大。

L3：自我进化的世界模型，目前真的有吗？

L3 是论文力推的概念，也是实践上最稀缺的能力级别。作者按 regime 给了一个清晰的成熟度判断：

科学域（已成熟）：CAMEO（同步辐射光束线的闭环材料发现）、A-Lab（17 天做了 353 个实验，从 57 个目标合成出 36 个化合物）、BacterAI（零先验的微生物代谢图谱探索）、Robot Scientist Adam（最早的自主基因功能研究）。这些系统反复证明了：只要 instrument 和 feedback 设计得好，闭环修订是可工程化的。
数字域（部分成熟）：FunSearch 在 cap set 问题上找到了新的构造、AlphaEvolve 在 Strassen 矩阵乘 56 年之后给出了改进、CodeIt 把搜索轨迹蒸馏回 LLM 参数。但很多系统缺主动信息扩展这个边界条件——它们有 design 和 observe，但没有真正的 active probing。
物理域（emerging）：AdaptSim 通过少量真实 task data meta-learn 适应策略；Hu et al. (2025) 的视觉 self-model 检测形态变化并重训练。但归因困难是核心瓶颈——感知错了？动力学错了？actuation 错了？环境变了？没法定位就没法修。
社会域（aspirational）：基本还在 paper stage。社会实验有伦理约束，归因本身模糊，行为 ground truth 噪声大。Kumar et al. (2026) 用 LLM 驱动的遗传编程演化 governance rule，比人工设计好 123%——这是少数能算上 social L3 的工作。

图6：L3 进化循环。一个完整周期经历四个阶段：design、execute、observe、reflect，产生修订后的世界模型栈

图6：L3 的四阶段闭环——design 设计干预、execute 执行实验、observe 观察结果、reflect 蒸馏证据并更新模型。这个图本身不复杂，复杂的是工程化每一步：怎么设计高 information gain 的实验？怎么 attribute 失败到具体模块？怎么验证更新没有 regress？

图7：L3 在四类规律范畴的演化示例。(a) 物理智能：自适应探测修正接触动力学；(b) 社会智能：规范漂移触发社会模型修订；(c) 数字智能：评估器驱动的程序搜索 + 回归门控；(d) 科学智能：同步辐射光束线的闭环自主实验

图7：四个 regime 的 L3 实例化各有自己的味道。物理域靠对接触模型的微扰探测，社会域靠规范漂移检测，数字域靠 LLM 程序搜索 + 自动评估器，科学域则真的有机器人在自动跑实验。这张图解释了为什么 L3 不是一个单一技术，而是 regime-specific 的工程模式。

我个人觉得 L3 最有意思的判断是这个：L3 系统的瓶颈通常不是生成候选修复，而是安全地验证它们。你让 LLM 生成 100 个 candidate fix 不难，难的是哪些可以 default-enable，哪些要 canary、哪些要 rollback、哪些要触发 human review。这个判断也跟我自己的工程经验对得上——SWE-agent 这类系统真正的工程难点不在 agent 本身，在于 patch 能不能过 regression suite。

Evidence 的可证伪性是关键

L3 的另一个核心论点：进化质量取决于证据质量。作者给了一张表（Table 9）按 regime 列出了"什么样的信号能触发 L3 模型修订"，并按 within-domain 的 falsifiability 上色。

数字域（高可证伪）：regression detection、execution outcome mismatch、task completion failure——这些都是 mechanically checkable 的硬证据
物理域（中等可证伪）：kinematic infeasibility、contact dynamics mismatch、morphology change——力/扭矩传感器可以提供量化证据
科学域（中-高可证伪）：hypothesis falsification、prediction-measurement gap、epistemic gap detection——靠实验测量
社会域（低可证伪）：interventional inconsistency、global behavioral drift、individual faithfulness violation——基本要靠间接信号，归因极其困难

作者特别提了一句我觉得很值得抄下来的话："human feedback should not be treated as a single falsifiability class"——人类反馈不是同一个可证伪性等级。主观偏好反馈是弱可证伪的，专家诊断反馈在能被后续 test/experiment 验证时才是强可证伪的。这个区分对所有做 RLHF / DPO 的人都有用：你拿来训 reward model 的偏好数据，跟拿来 attribute failure 的诊断数据，根本不是一类东西。

实验和评测：为什么大家其实都在 L1 上比赛

这一节作者做的事情很犀利：把现在大家在做的 benchmark 拿过来看，到底测的是 L 几？

结论让人尴尬：绝大多数主流 benchmark 测的都是 L1。Atari 100k、Meta-World、CALVIN、OSWorld、SWE-bench、WebArena、Sotopia——这些 benchmark 在协议层面其实都是单步预测准确率或者端到端 success rate（没有 perturbation injection）。

L2-style 的评测（counterfactual injection、degradation curve、constraint violation detection）原则上是有的，少数 benchmark 有，但远远不是 field standard practice。L3-style 的评测基础设施（regression suite、asset validation gate、cross-episode improvement tracking）除了 autonomous science，基本不存在。

作者于是提出两个 decision-centric 的 aggregate metric：

Action Success Rate ASR：

\[\mathrm{ASR}=\frac{1}{N}\sum_{i=1}^{N}\mathbf{1}[\text{task}_i \text{ succeeds under policy derived from } \hat{p}]\]

Counterfactual Outcome Deviation COD：

\[\mathrm{COD}(k)=\mathbb{E}[d(\hat{z}^{(1)}_H, \hat{z}^{(2)}_H)]\]

ASR 测"模型支撑的决策好不好"，COD 测"模型对 action 干预敏不敏感"。COD 低意味着模型不响应 action 改变，对 counterfactual planning 完全没用。

我想说的是：这两个指标其实不算多新颖，但它们值得写到工程指南里——如果你只看 success rate，你测的是 agent，不是 world model 本身。要真正评测一个世界模型，必须看 counterfactual 行为。

论文还提了一个 Minimal Reproducible Evaluation Package (MREP) 提案：版本锁定、trace logging、failure taxonomy、tail statistics、boundary condition mapping。这是一个比较 actionable 的工程标准建议——对做 benchmark/leaderboard 的人来说，这是个值得参考的 checklist。

架构落地：representation × dynamics × control

这块作者把世界模型的设计空间拆成三个轴（Table 11）：

表征轴： - 符号/程序状态（VirtualHome）：可解释、能硬约束，但工程量大、状态空间窄 - 潜在连续表征（DreamerV3、V-JEPA2）：吸收高维多模态输入，但长程会语义漂移 - 结构化 3D（RoboOccWorld、PointWorld）：天然契合物理约束，但重建瓶颈 - 离散 token（IRIS VQ-VAE）：组合性强、能用 cross-entropy 精确训练，但 codebook collapse 风险

动力学轴： - Stochastic latent（DreamerV3）：原则性的不确定性建模，但长程 miscalibration - Deterministic value-aware（MuZero、TD-MPC2）：跟 control 紧密整合，但缺乏显式不确定性 - Autoregressive token（iVideoGPT、LWM）：统一多模态接口，但长程逻辑一致性弱 - Diffusion（Sora、DIAMOND、Genie）：逼真观测，但 multi-step denoising 的延迟和 action controllability 都是问题

控制接口轴： - Online MPC（TD-MPC2、PETS）：每步重新规划，反应快但 compute 重 - Tree search（MuZero、EfficientZero）：可分支的反事实探索，但放大模型误差、容易被 benchmark exploit - Imagined-rollout policy（Dreamer 系列）：在模型内训练，不需真实交互，但要求动力学非常准 - Offline distillation（GR-1）：部署便宜，但分布漂移脆弱 - Replayable environment（OSWorld、SWE-agent）：把真实环境当 simulator，绕开学到的动力学

不同 regime 对这三个轴的组合有强偏好。物理域基本是 latent/3D + MPC/imagined-rollout；数字域是 symbolic/DOM + replayable environment；社会域受困于 commitment graph 的可扩展性；科学域则普遍是 Bayesian surrogate + 主动学习。

工程上有三个 cross-cutting 原则我觉得值得反复提：

Separate what is learned from what is enforced：硬约束层（碰撞检测、状态机校验、回归门）应该在 inference 时强制执行，不要靠 training loss 软约束——soft enforcement 没法保证零违例 rollout
Instrument before you iterate：日志、回放、failure attribution 的基础设施要在系统设计早期就做进去，不然 L3 修订就是 anecdotal 的、ungovernable 的
Match the representation to the planner's query：表征看起来真不重要，重要的是它有没有暴露 planner 需要的变量——可达自由空间、permission state、反应速率。一个高保真但不暴露这些变量的表征，反而比低保真但暴露了的差

第三点尤其重要——它直接呼应前面那句"a good Simulator does not have to look more like the world; it must look more like the constraints"。

我的判断：这篇 survey 真正的价值在哪

读完这篇 100+ 页的 survey，我的几个判断：

它最大的价值不是新算法，是新词汇表。L1/L2/L3 + 四类 regime 这套坐标系其实没什么 fundamentally 颠覆性的内容——大部分概念在各自社区都已经存在。但这篇 survey 把它们组织成一个可以跨社区交流的统一语言，这个本身就值得做。前两年做 World Model 不同方向的人聊起来基本是鸡同鸭讲，有了这套坐标系之后至少能问清楚"你在 L 几？哪个 regime？"

L3 的 framing 是这篇文章最有 ambition 的部分。把"自主修订模型"提升为一个独立能力级别，并且给出三个 testable 边界条件（evidence-grounded diagnosis、persistent asset update、governed validation），这个动作很有价值。它逼着工程师区分"agent 能反思" vs "agent 能持久化地自我改进"——这两件事之前经常被混在一起。

深刻的洞见之一：约束比保真度重要。物理域的视频世界模型那一节我反复看了几遍——视觉拟真度上去了不代表 planner 能用。这个判断不算新，但作者把它形式化成了 L2 的三个 boundary condition，并且明确提出"a good Simulator does not have to look more like the world; it must look more like the constraints"，对当下整个生成式 AI 圈是一个不小的提醒。

一些值得吐槽的地方：

它就是一篇 position-driven survey，作者自己也明说了。L1/L2/L3 的边界条件很多时候在实践里很难严格判定——一个系统部分满足、另一部分不满足的情况比比皆是。这种分级在学术叙事里很有用，但工程落地时你会发现很多系统是"L1.5"或"L2.3"。
L3 的工程细节其实没展开太多。CAMEO、A-Lab 这类系统作为 L3 example 被反复提到，但真正怎么搭这种系统、怎么设计 regression gate、怎么设计 canary deployment，作者基本一笔带过。这块可能需要后续专门的 engineering paper 来补。
跨 regime 转移的实操性比较弱。survey 反复说 cross-domain synthesis 是它的核心价值，但具体怎么把数字域的 regression-gated loop 搬到物理域，作者没有给出可操作的迁移路径。
404 个引用里很多是 2025/2026 年的论文，部分引用的工作我读这篇 survey 的时候还没法验证。survey 的"完整性"在快速迭代领域永远是一个相对概念。

对正在做这块的工程师，我的具体建议：

如果你做 Web/GUI agent 或 SWE agent：你目前的系统大概率在 L1.5 到 L2 之间。值得思考的是怎么往 L3 推——具体来说，怎么把 agent 解决过的问题蒸馏成 reusable asset（reproduction script、regression test、reusable installation procedure）。
如果你做 robot policy/manipulation：注意"视觉真" vs "可决策"的差距。FVD/SSIM 这些指标对你来说基本是噪声，要切换到 ASR/COD 这种 decision-centric 的评测。
如果你做生成式视频/世界模拟：物理一致性是一个真问题，光看 VBench-2.0 上的 perceptual 分数会被骗。把约束验证（geometry check、object permanence、conservation laws）当 first-class metric。
如果你做 AI for Science：你已经在 L3 frontier 上了，但要小心 surrogate-to-reality gap——光在 simulation 数据上验证 surrogate 是不够的，必须 budget 一部分真实测量来做 calibration。

最后一个我自己持续在想的问题——meta-world modeling 这个概念（Section 8.3）。L3 是在已知规律内修订模型，meta-world modeling 则是修订规律本身。比如生物演化、社会规范变迁、气候系统，governing law 本身就在漂移。这种"规律的规律"如何建模？符号表征会不会重新变得重要？作者也承认这块是 open question。但我隐约觉得，这可能是 next big thing——尤其是在 AI for Science 这边。

如果你在做 Agent、做 RL、做生成式仿真、做科学发现，我推荐你花时间精读这篇综述里跟你 regime 相关的两个 section（L2 应用、L3 案例），加上 Section 7 的架构指南。其他部分可以扫读，参考文献当 reading list 用。

觉得有启发的话，欢迎点赞、在看、转发。跟进最新AI前沿，关注我