NVIDIA 的 DFlash 推测解码可在 Blackwell GPU 上将 AI 推理速度提高 15 倍,彻底改变多代理工作流程并提高吞吐量。
NVIDIA 推出了 AI 推理性能的重大飞跃,其 DFlash 推测解码技术可在 Blackwell GPU 上实现高达 15 倍的吞吐量提升。这项创新旨在优化对延迟敏感的大型语言模型 (LLM) 部署,随着人工智能系统越来越多地转向处理复杂的多代理工作流程,这是一项关键需求。
DFlash 利用块扩散起草器并行预测多个令牌,而不是自回归模型中典型的顺序令牌生成。这种方法显着提高了 GPU 利用率和吞吐量,而不会影响输出质量。在 NVIDIA Blackwell 架构的测试中,DFlash 在高交互级别(例如每个用户每秒 500-600 个令牌)下实现了传统方法吞吐量的 15 倍,并且与 EAGLE-3 等最先进的推测解码方法相比,Llama 3.1 8B 等较小模型的交互性提高了一倍。
性能提升与 Blackwell 的先进架构息息相关,该架构采用第五代 Tensor Core 和超高带宽互连。每个 Blackwell Ultra GPU 结合了两个芯片,提供针对 AI 工作负载优化的 15 petaflops 密集计算能力。该架构已经超越了基准测试,例如本月早些时候的 MLPerf Training 6.0,但 DFlash 展示了软件优化如何进一步释放其潜力。
DFlash 正在迅速从研究过渡到实际应用。开发人员现在可以通过 Hugging Face 访问 20 个预先训练的 DFlash 模型检查点,涵盖 TensorRT-LLM、SGLang 和 vLLM 等流行的 AI 框架。集成是无缝的,需要最少的应用程序重构或不需要重构。例如,在 vLLM 中将 EAGLE-3 替换为 DFlash 仅涉及配置更改。
在更广泛的基准测试中,DFlash 始终优于现有方法。对于编码、推理和摘要等任务,它在各种数据集上实现了比 EAGLE-3 平均 2.3 倍到 2.8 倍的加速。在单 GPU 设置(例如 NVIDIA 的 DGX B300 系统)上,Qwen3 和 Gemma 4 模型等应用程序的吞吐量比自回归解码提高了 5.8 倍。
这一发展正值 NVIDIA 继续主导人工智能硬件领域之际。 Blackwell 架构已经巩固了其作为人工智能推理和训练基础设施骨干的地位,特别是在为万亿参数模型设计的数据中心中。 NVIDIA 的 GPU 定价反映了这种主导地位,根据 6 月 13 日的报告,RTX Pro 6000 Blackwell GPU 的价格比去年的建议零售价上涨了 55%。
对于开发者和企业来说,DFlash 提供了一个令人信服的主张:在现有 NVIDIA 硬件上实现更高的吞吐量和更低的延迟。随着人工智能工作负载变得越来越复杂且对性能敏感,像 DFlash 这样的优化对于在人工智能军备竞赛中保持竞争力可能变得不可或缺。
DFlash 现已可供部署,可通过 Hugging Face 和 NVIDIA 的开发者生态系统访问预先训练的模型和配方。
