导航菜单
首页
排名 涨幅榜 跌幅榜 24h成交额 新币榜
快讯 机构 观点 人物 专题

NVIDIA Blackwell 在 MLPerf 训练 v6.0 基准测试中占据主导地位

NVIDIA 的 Blackwell GPU 在 MLPerf Training v6.0 中创造了新记录,在 AI 模型训练中展示了无与伦比的规模和性能。

NVIDIA Blackwell Dominates MLPerf Training v6.0 Benchmarks

NVIDIA 曾一度提出ain 提高了 AI 性能的标准,彻底清除了 MLPerf Training v6.0 基准测试,这是 AI 模型训练的最新行业标准测试。该公司报告了所有基准测试中最快的训练时间结果,展示了其 Blackwell GPU 和 Grace CPU 在扩展到超大规模工作负载方面的能力。

其中一项突出成就是使用 8,192 个 GPU 集群在短短 2.02 分钟内训练了 DeepSeek-V3,这是一个 6710 亿参数的专家混合 (MoE) 模型。这一结果凸显了 NVIDIA 在高性能 AI 领域的主导地位,特别是对于需要巨大计算能力的大规模生成式 AI 模型。

主要结果和指标

MLPerf Training v6.0 引入了 DeepSeek-V3 和 GPT-OSS-20B 模型等新基准,反映了人工智能不断发展的趋势。 NVIDIA 是唯一一个提交每次测试结果的平台,进一步巩固了其领导地位。基准测试的亮点包括:

  • DeepSeek-V3 (671B):使用 GB300 NVL72 平台,使用 8,192 个 GPU 在 2.02 分钟内进行训练。
  • GPT-OSS-20B:在 512 GPU 集群上用 7.43 分钟完成训练。
  • Llama 3.1 (405B):使用 8,192 个 GPU 在 7.07 分钟内完成训练。

这些结果证明了 NVIDIA 硬件和软件堆栈的可扩展性,其中包括 NVLink 和 Spectrum-X 以太网等高级网络解决方案,可确保数千个处理器之间的高速通信。

通过全栈协同设计提升性能

NVIDIA 的成功不仅仅在于硬件。该公司的软件堆栈在实现这些破纪录的成果中发挥了关键作用。创新包括:

  • 用于无令牌丢弃 MoE 的全迭代 CUDA 图表,消除了 CPU-GPU 同步延迟。
  • CuTe DSL 支持的内核融合减少了内存瓶颈并提高了效率。
  • 引入 MXFP8 注意力模块,在保持模型质量的同时降低精度成本。

这些优化不仅提高了速度,而且还更好地利用了 GPU 资源,从而降低了企业的总体培训成本。

为什么 MLPerf 结果很重要

MLPerf 基准由 MLCommons 联盟开发,已成为衡量 AI 训练性能的黄金标准。对于企业来说,这些结果直接影响采购决策和基础设施战略。随着生成式人工智能模型的规模和复杂性不断增长,快速有效地训练它们的能力已成为一种竞争优势。

NVIDIA 在 MLPerf Training v6.0 方面取得的成就是在与其他 AI 芯片制造商和云提供商激烈竞争的背景下取得的。虽然 CoreWeave 声称可用云配置的最快封闭划分结果,但 NVIDIA 的硬件和软件在每次测试中都表现出了无与伦比的一致性,使其成为超大规模企业和人工智能初创公司的首选。

展望未来

NVIDIA 对全栈创新的关注确保了性能的持续改进。威震天核心和变压器引擎库的最新进展凸显了该公司通过软件更新(甚至在现有硬件上)实现显着收益的能力。这使得 NVIDIA 和企业能够扩大他们的人工智能雄心。

对于开发者、超大规模企业和企业来说,MLPerf Training v6.0 结果再次证实了 NVIDIA 在 AI 训练领域的主导地位。凭借在多达 8,192 个 GPU 的集群上经过验证的可扩展性,该平台具有独特的能力来处理下一代 AI 工作负载,将数月的训练压缩为几分钟。

书签