世界动作模型 (WAM)：NVIDIA 在机器人领域的下一步

NVIDIA 探索世界动作模型 (WAM)，这是一种利用机器人视频骨干的新 AI 范式。解决语言与操作差距的关键。

World-Action Models (WAMs): NVIDIA's Next Step in Robotics

NVIDIA 正在深入开发世界动作模型 (WAM)，这是一种新的 AI 范例，旨在解决机器人技术中长期存在的挑战：将复杂的视觉和语言输入转化为精确的真实世界动作。 NVIDIA 研究员 Moritz Reuss 在博客文章中详细介绍了这一概念，重点介绍了 WAM 如何利用预训练的视频主干来建模场景动态并预测相应的动作。这种方法有望补充甚至竞争近年来在该领域占据主导地位的视觉-语言-动作（VLA）模型。

WAM 背后的核心理念

与采用视觉语言模型 (VLM) 来生成动作的传统 VLA 模型不同，WAM 依赖于在海量视频数据集上预训练的视频骨干网。这些骨干网擅长捕捉场景如何随着时间的推移而演变，通常以语言指令为条件。例如，WAM 可能会根据视觉和文本提示预测机器人手臂应如何移动来拿起杯子。这种预测能力可以解决“基础差距”——将抽象语言指令映射到可操作的运动命令的挑战，这是 VLA 模型中持续存在的限制。

Reuss 指出，WAM 并不是全新的。早期版本，如 2023 UniPi 模型，探索了类似的想法，但受到缺乏强大的视频主干和从头开始训练的高计算成本的限制。如今，NVIDIA 的 Cosmos 和 Wan 等预训练视频模型使 WAM 更易于访问和扩展，使研究人员能够微调这些主干网，而不是从头开始构建它们。

为什么是现在？

WAM 的兴起与人工智能基础设施的更广泛进步相一致。视频模型已经有了显着的改进，特别是在采用基于变压器的架构（例如 DiT（扩散变压器））之后。与早期基于 CNN 的系统相比，这些模型可以更有效地处理长视频序列并编码时空动态。此外，预训练视频模型的开放获取降低了小型实验室的进入门槛，加速了该领域的创新。

但是，WAM 也需要权衡。它们对视频骨干网的依赖使得训练和部署的计算成本很高。例如，微调像 Wan 这样的 140 亿参数视频主干网需要大量 GPU 资源，这使得小型组织难以访问。推理速度是另一个瓶颈；生成基于视频的预测可能比传统 VLA 模型慢 3-4 倍，这可能会限制其实时适用性。

市场影响

商业风险很高。视觉语言模型 (VLM) 及其衍生产品（例如 VLA 和 WAM）正在推动机器人、自动驾驶和医疗保健等行业的增长。全球 VLM 市场预计将从 2025 年的 33.5 亿美元增长到 2026 年的 42.4 亿美元，复合年增长率为 26.6%。 NVIDIA 对 WAM 的关注使其能够利用这种增长，特别是当企业为具体的 AI 应用寻求更强大的解决方案时。

值得注意的是，谷歌和苹果等竞争对手也在这一领域取得进展。谷歌的 Veo 3.1 视频模型最近展示了零镜头操纵功能，而苹果的 Siri AI 升级则暗示了更广泛的多模式集成。 NVIDIA 的 WAM 专注于机器人技术，可以通过解决物理 AI 中的特定痛点来开拓利基市场。

下一步是什么？

虽然 WAM 仍处于探索阶段，但其重塑机器人技术的潜力是显而易见的。真正的考验将是它们是否能够在 RoboArena 等现实世界基准测试中提供卓越的性能，NVIDIA 的 DreamZero 模型最近在 RoboArena 中表现优于领先的 VLA 系统。结合 WAM 和 VLA 元素的混合方法最终可能会成为主导范式，利用两者的优势来弥合从指令到行动的差距。

目前，NVIDIA 对 WAM 的投资标志着人工智能研究正在向能够在现实世界应用的更加动态、预测的模型进行更广泛的转变。随着该领域的发展，问题仍然存在：WAM 会成为机器人技术的首选架构，还是只是迈向更具变革性的东西的垫脚石？

书签