Metis：一种自动驾驶与城市导航的通用高效世界-动作模型

原创于 2026-06-29 00:15:00 发布 · 400 阅读

4 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#自动驾驶 #人工智能 #机器学习 #语言模型 #深度学习

大模型同时被 3 个专栏收录

1279 篇文章

订阅专栏

计算机视觉

977 篇文章

订阅专栏

自动驾驶

234 篇文章

订阅专栏

26年6月来自复旦、上海创新研究院、港大、同济大学、理想汽车、华中科技、英国ICL和悉尼大学的论文“Metis: A Generalizable and Efficient World-Action Model for Autonomous Driving and Urban Navigation”。

世界动作模型（WAMs）在自动驾驶和城市导航领域展现出巨大潜力。现有的基于“视觉-语言-动作”模型或视频生成模型的方法存在两大关键局限：(1) 推理阶段因需要预测未来观测而导致高延迟；(2) 视频与动作建模的紧密耦合导致表征不匹配及泛化能力下降。为解决这些问题，提出 Metis，一个将视频生成与动作预测解耦的端到端 WAM 框架。具体而言，Metis 采用一种“混合Transformer”（Mixture-of-Transformers）架构，利用专用专家模型分别处理视频生成和动作预测，从而保留各项任务固有的分布特性。为了提高效率，引入一种非对称注意掩码（asymmetric attention mask），既支持两个专家模型的联合训练，又允许动作模型在推理阶段跳过显式的视频生成过程。这种设计确保训练与推理的一致性，并在不牺牲规划性能的前提下显著降低计算成本。

近期的世界动作模型（WAMs）发展迅速，衍生出了多种设计范式。一种基于视觉-语言-动作（VLA）模型扩展至 WAMs 的自然思路是：在视觉-语言模型（VLMs）[1, 46, 10, 3] 中增加用于自回归生成未来观测的 token，从而在利用 VLM 丰富先验知识的同时对未来环境动态进行建模，如图 1 (a) 所示。另一类方法则基于视频生成模型 [92, 80, 9, 77, 79, 20] 构建，通过紧密耦合的设计在视频模块与动作模块之间共享中间表征，实现对未来观测和动作的联合建模，如图 1 (b) 所示。

请添加图片描述

尽管这些现有方法表现出色，但仍存在两个主要局限性：基于 VLA 的 WAMs 在推理阶段进行动作预测前，必须先自回归生成未来观测，这导致不可避免的计算延迟；而基于视频生成的 WAMs 采用紧密耦合设计，高维视觉表征可能会干扰低维动作空间，从而导致次优的轨迹规划结果。

本文基于以下观察：具身导航的最终目标是在物理世界中执行动作，而推理与预测仅作为辅助机制来支持决策制定。基于此，提出 Metis——一个面向主动导航（AD）与无监督导航（UN）的端到端框架。如图 1 © 所示，该方法在 WAM 框架内将动作生成与未来观测预测无缝结合。

在自动驾驶（AD）和城市导航（UN）任务中，动作规划通常基于当前的视觉观测 o_t 和语言指令 l 进行。为了增强动作规划的鲁棒性，以往的 WAMs 方法 [34, 92, 25, 94, 37] 引入未来的视觉观测，并在训练过程中将其与动作进行联合建模。

在推理阶段，这些方法要么通过联合去噪来同时生成动作和未来观测，要么采用逆动力学（inverse dynamics）范式，即基于显式预测的未来帧来推断动作 [94, 37]。然而，这两种范式在推理时都需要对未来观测预测进行高维采样或递归去噪，从而导致极高的计算开销和延迟。
为了解决这些效率瓶颈，采用受 [86] 启发而提出的解耦推理范式：其中未来帧仅在训练期间用作监督信号，而推理过程则完全依赖于当前的观测。

在该表述中，未来观测仅在训练阶段使用；而在推理阶段，视频骨干网络生成的潜表征 z(o_t, l) 仅需通过骨干网络的一次前向传播即可获得，从而实现了高效的实时规划。

网络架构

为了避免异构任务分布之间的干扰，采用“Transformer 混合”（Mixture-of-Transformers，MoT）架构，将视频生成和动作规划解耦为两个专门的专家模块，如图 2 所示。视频生成专家（VGE）继承大规模视频模型的物理先验以捕捉时空动态，而动作专家（AE）则专为低维轨迹预测而设计。尽管进行这种解耦，两个专家仍通过共享的潜空间进行交互，从而在保持各自数据分布结构的同时实现信息交换。

请添加图片描述

采用 Wan2.2-5B [65] 作为 VGE 的骨干网络。复用其预训练组件，包括用于视觉编码的视频 VAE 和基于 T5 的文本编码器（用于语言条件控制）。为了实现高效的轨迹预测，AE 被实现为一个扩散 Transformer（Diffusion Transformer），其层深度与 VGE 保持一致，但模型规模较小。此外，为了改进动作策略学习，借鉴以往研究，引入一个智体状态编码器来编码自身状态（ego-state），并将其与语言指令结合，共同作为模型的条件输入。

具体而言，将模型输入组织为三种类型的 Token：当前观测的潜 Token、未来观测的噪声 Token，以及用于轨迹预测的噪声动作 Token。所有 Token 首先通过交叉注意机制（cross-attention）关注语言嵌入（language embeddings）。随后，它们通过专家特定的投影层被映射到共享的潜空间，在该空间中，交互过程由结构化注意机制进行调控。最后，每个专家应用各自的前馈层和输出头，进行特定任务的预测。这种 Token 级的交互实现了受控的信息交换，而无需直接混合异构任务空间中的表征，从而保持每个专家内部的分布结构并提升泛化能力。

3 结构化注意机制

低延迟动作规划是自动驾驶和城市导航的基本要求；然而，现有的世界模型（WAMs）[94, 35, 48, 92] 往往面临高昂的推理成本，这严重限制它们在快速动作预测场景中的部署。为了缓解这种延迟问题，一些 WAM 方法 [39, 77] 尝试缩短预测时域（prediction horizon）、降低未来场景预测的分辨率，或者避免显式生成未来视频。尽管这些策略提升了推理速度，但由于缺乏对未来状态的全面时空建模，它们不可避免地导致了性能上的次优表现。

为了打破这种效率与准确性之间的权衡困境，在 MoT 框架内提出一种非对称注意掩码。与以往的方法 [92, 77] 不同，该方法通过引入非对称注意掩码，在表征层面管理两个“专家”（experts）之间的交互；如图 3 所示，该掩码明确控制动作 Token（action tokens）与潜视频 Token（latent video tokens）之间的信息流向。具体而言，该设计实施一种单向可见性约束：动作 Token 仅被允许关注当前的视觉观测 Token，从而确保规划过程基于当前的上下文信息。
请添加图片描述

相比之下，未来的视频 Token 既可以关注当前的观测信息，也可以关注所有未来的动作 Token。如图 2 (b) 所示，这种结构化的交互方式使得 VGE 能够根据智体预期的特定轨迹，预测出符合物理规律的世界演变过程。同时，通过在联合优化过程中共享表征空间，VGE 的预测能力得以隐式地参与到动作细化（action refinement）的过程中。这种协同效应确保 AE 能够生成充分考虑环境动态特性的稳健轨迹，同时也允许在推理阶段完全跳过显式视频生成分支，从而实现实时高效的推理。