NVIDIA Blackwell 在 MLPerf 训练 v6.0 基准测试中占据主导地位

NVIDIA 的 Blackwell GPU 在 MLPerf Training v6.0 中创造了新记录，在 AI 模型训练中展示了无与伦比的规模和性能。

NVIDIA Blackwell Dominates MLPerf Training v6.0 Benchmarks

NVIDIA 曾一度提出ain 提高了 AI 性能的标准，彻底清除了 MLPerf Training v6.0 基准测试，这是 AI 模型训练的最新行业标准测试。该公司报告了所有基准测试中最快的训练时间结果，展示了其 Blackwell GPU 和 Grace CPU 在扩展到超大规模工作负载方面的能力。

其中一项突出成就是使用 8,192 个 GPU 集群在短短 2.02 分钟内训练了 DeepSeek-V3，这是一个 6710 亿参数的专家混合 (MoE) 模型。这一结果凸显了 NVIDIA 在高性能 AI 领域的主导地位，特别是对于需要巨大计算能力的大规模生成式 AI 模型。

主要结果和指标

MLPerf Training v6.0 引入了 DeepSeek-V3 和 GPT-OSS-20B 模型等新基准，反映了人工智能不断发展的趋势。 NVIDIA 是唯一一个提交每次测试结果的平台，进一步巩固了其领导地位。基准测试的亮点包括：

DeepSeek-V3 (671B)：使用 GB300 NVL72 平台，使用 8,192 个 GPU 在 2.02 分钟内进行训练。
GPT-OSS-20B：在 512 GPU 集群上用 7.43 分钟完成训练。
Llama 3.1 (405B)：使用 8,192 个 GPU 在 7.07 分钟内完成训练。

这些结果证明了 NVIDIA 硬件和软件堆栈的可扩展性，其中包括 NVLink 和 Spectrum-X 以太网等高级网络解决方案，可确保数千个处理器之间的高速通信。

通过全栈协同设计提升性能

NVIDIA 的成功不仅仅在于硬件。该公司的软件堆栈在实现这些破纪录的成果中发挥了关键作用。创新包括：

用于无令牌丢弃 MoE 的全迭代 CUDA 图表，消除了 CPU-GPU 同步延迟。
CuTe DSL 支持的内核融合减少了内存瓶颈并提高了效率。
引入 MXFP8 注意力模块，在保持模型质量的同时降低精度成本。

这些优化不仅提高了速度，而且还更好地利用了 GPU 资源，从而降低了企业的总体培训成本。

为什么 MLPerf 结果很重要

MLPerf 基准由 MLCommons 联盟开发，已成为衡量 AI 训练性能的黄金标准。对于企业来说，这些结果直接影响采购决策和基础设施战略。随着生成式人工智能模型的规模和复杂性不断增长，快速有效地训练它们的能力已成为一种竞争优势。

NVIDIA 在 MLPerf Training v6.0 方面取得的成就是在与其他 AI 芯片制造商和云提供商激烈竞争的背景下取得的。虽然 CoreWeave 声称可用云配置的最快封闭划分结果，但 NVIDIA 的硬件和软件在每次测试中都表现出了无与伦比的一致性，使其成为超大规模企业和人工智能初创公司的首选。

展望未来

NVIDIA 对全栈创新的关注确保了性能的持续改进。威震天核心和变压器引擎库的最新进展凸显了该公司通过软件更新（甚至在现有硬件上）实现显着收益的能力。这使得 NVIDIA 和企业能够扩大他们的人工智能雄心。

对于开发者、超大规模企业和企业来说，MLPerf Training v6.0 结果再次证实了 NVIDIA 在 AI 训练领域的主导地位。凭借在多达 8,192 个 GPU 的集群上经过验证的可扩展性，该平台具有独特的能力来处理下一代 AI 工作负载，将数月的训练压缩为几分钟。

书签