NVIDIA 的 NVFP4 通过低精度技术实现更快、更便宜的 Transformer 训练。了解 AI 建模的最新基准和影响。
NVIDIA 概述了使用低精度训练来优化基于 transformer 的 AI 模型的方法,利用其 NVFP4 格式来降低成本并提高 Hopper 和 Blackwell 系列等 GPU 的速度。随着 Transformer 模型变得越来越复杂,这些进步旨在减少训练时间,同时保持模型准确性,这是人工智能军备竞赛的关键因素。
低精度训练(包括 FP8 和 NVFP4 格式)可加速矩阵乘法 (GEMM),而矩阵乘法在变压器工作负载中占主导地位。例如,训练像 CodonFM 这样的 50 亿参数模型需要对 GEMM 进行大量计算。 NVIDIA 的新工具(例如 Transformer Engine)使人工智能研究人员能够在进行昂贵的训练之前对这些操作进行基准测试并评估精度权衡。
主要基准和结果
NVIDIA B300 GPU 的基准测试显示,在计算密集型操作中,NVFP4 比标准 FP8 格式具有显着的加速效果。例如,在一项测试中,对于 CodonFM 架构的“MLP Down”GEMM 组件,NVFP4 比 FP8 实现了 1.66 倍的加速。预量化基准进一步揭示了更大的潜力,NVFP4 在原始内核吞吐量方面比 BF16 高出 3.48 倍。
然而,结果也凸显了局限性。由于动态量化的开销超过了低精度操作的收益,较小的矩阵大小(例如注意力输出层)提供了最小的加速。此外,某些精度格式(例如 FP8 DelayedScaling)显示出具有竞争力的性能,这证明了为每个模型组件选择正确格式的重要性。
为什么这很重要
随着 Transformer 模型扩展到数千亿或数万亿参数,低精度训练变得越来越重要。这些模型正在推动生成人工智能的进步,从 GPT 等语言模型到 CodonFM 等专门系统(针对以 RNA 为重点的生物研究)。
最近的趋势表明,精确优化技术的采用越来越多。例如,Google 的 DeepMind 通过 4 位格式的量化感知训练 (QAT) 将 VRAM 使用量减少了 72%。同样,TurboQuant 等软硬件协同设计方法已在 KV 缓存存储中实现了高达 6 倍的压缩。 NVIDIA 的 NVFP4 适合这一更广泛的运动,提供了一种在不影响准确性的情况下降低成本的途径。
人工智能开发的实际意义
希望采用低精度训练的 AI 团队应遵循 NVIDIA 的建议来对其特定变压器配置进行基准测试。 Transformer Engine 等工具允许用户模拟 GEMM 工作负载、分析精度格式并估计端到端训练增益。这不仅可以避免代价高昂的失误,还有助于识别瓶颈,例如量化开销或次优内核选择。
对于生产就绪部署,FP8 仍然是主导格式,并由 NVIDIA 的 H100 和 B100 GPU 支持。然而,NVFP4 和类似的 4 位格式正在成为大规模预训练和微调任务的可行选择,在性能和计算效率之间提供了中间立场。人工智能从业者还应监控以稳定性为重点的研究,例如 ICLR 2026 对低精度 FlashAttention 舍入误差的见解,以确保稳健的训练结果。
后续步骤
随着低精度训练的发展,NVIDIA 的基准测试表明了行业的发展方向:硬件和软件之间实现更紧密的集成。开发人员可以期待更多针对低精度格式进行优化的工具和框架,从而实现更大、更快且更具成本效益的模型。
对于渴望测试这些创新的团队来说,NVIDIA 的基准脚本是一个合乎逻辑的起点。通过了解 BF16、FP8 和 NVFP4 等精度级别之间的权衡,人工智能从业者可以做出数据驱动的决策,从而最大化其基础设施和研究投资的价值。
