导航菜单
首页
排名 涨幅榜 跌幅榜 24h成交额 新币榜
快讯 机构 观点 人物 专题

世界动作模型 (WAM):NVIDIA 在机器人领域的下一步

NVIDIA 探索世界动作模型 (WAM),这是一种利用机器人视频骨干的新 AI 范式。解决语言与操作差距的关键。

World-Action Models (WAMs): NVIDIA's Next Step in Robotics

NVIDIA 正在深入开发世界动作模型 (WAM),这是一种新的 AI 范例,旨在解决机器人技术中长期存在的挑战:将复杂的视觉和语言输入转化为精确的真实世界动作。 NVIDIA 研究员 Moritz Reuss 在博客文章中详细介绍了这一概念,重点介绍了 WAM 如何利用预训练的视频主干来建模场景动态并预测相应的动作。这种方法有望补充甚至竞争近年来在该领域占据主导地位的视觉-语言-动作(VLA)模型。

WAM 背后的核心理念

与采用视觉语言模型 (VLM) 来生成动作的传统 VLA 模型不同,WAM 依赖于在海量视频数据集上预训练的视频骨干网。这些骨干网擅长捕捉场景如何随着时间的推移而演变,通常以语言指令为条件。例如,WAM 可能会根据视觉和文本提示预测机器人手臂应如何移动来拿起杯子。这种预测能力可以解决“基础差距”——将抽象语言指令映射到可操作的运动命令的挑战,这是 VLA 模型中持续存在的限制。

Reuss 指出,WAM 并不是全新的。早期版本,如 2023 UniPi 模型,探索了类似的想法,但受到缺乏强大的视频主干和从头开始训练的高计算成本的限制。如今,NVIDIA 的 Cosmos 和 Wan 等预训练视频模型使 WAM 更易于访问和扩展,使研究人员能够微调这些主干网,而不是从头开始构建它们。

为什么是现在?

WAM 的兴起与人工智能基础设施的更广泛进步相一致。视频模型已经有了显着的改进,特别是在采用基于变压器的架构(例如 DiT(扩散变压器))之后。与早期基于 CNN 的系统相比,这些模型可以更有效地处理长视频序列并编码时空动态。此外,预训练视频模型的开放获取降低了小型实验室的进入门槛,加速了该领域的创新。

但是,WAM 也需要权衡。它们对视频骨干网的依赖使得训练和部署的计算成本很高。例如,微调像 Wan 这样的 140 亿参数视频主干网需要大量 GPU 资源,这使得小型组织难以访问。推理速度是另一个瓶颈;生成基于视频的预测可能比传统 VLA 模型慢 3-4 倍,这可能会限制其实时适用性。

市场影响

商业风险很高。视觉语言模型 (VLM) 及其衍生产品(例如 VLA 和 WAM)正在推动机器人、自动驾驶和医疗保健等行业的增长。全球 VLM 市场预计将从 2025 年的 33.5 亿美元增长到 2026 年的 42.4 亿美元,复合年增长率为 26.6%。 NVIDIA 对 WAM 的关注使其能够利用这种增长,特别是当企业为具体的 AI 应用寻求更强大的解决方案时。

值得注意的是,谷歌和苹果等竞争对手也在这一领域取得进展。谷歌的 Veo 3.1 视频模型最近展示了零镜头操纵功能,而苹果的 Siri AI 升级则暗示了更广泛的多模式集成。 NVIDIA 的 WAM 专注于机器人技术,可以通过解决物理 AI 中的特定痛点来开拓利基市场。

下一步是什么?

虽然 WAM 仍处于探索阶段,但其重塑机器人技术的潜力是显而易见的。真正的考验将是它们是否能够在 RoboArena 等现实世界基准测试中提供卓越的性能,NVIDIA 的 DreamZero 模型最近在 RoboArena 中表现优于领先的 VLA 系统。结合 WAM 和 VLA 元素的混合方法最终可能会成为主导范式,利用两者的优势来弥合从指令到行动的差距。

目前,NVIDIA 对 WAM 的投资标志着人工智能研究正在向能够在现实世界应用的更加动态、预测的模型进行更广泛的转变。随着该领域的发展,问题仍然存在:WAM 会成为机器人技术的首选架构,还是只是迈向更具变革性的东西的垫脚石?

书签