ParallelKernelBench 暴露了多 GPU 内核中的 LLM 弱点

ParallelKernelBench 显示 GPT-5.5 和同行在多 GPU CUDA 内核方面遇到困难，解决了不到 31% 的任务。这就是它的重要性。

ParallelKernelBench Exposes LLM Weakness in Multi-GPU Kernels

最近的基准测试 ParallelKernelBench (PKB) 揭示了在负责生成多 GPU CUDA 内核的任务时大型语言模型 (LLM) 的显着局限性。尽管人工智能驱动的代码生成技术取得了进步，包括 GPT-5.5 和 Gemini 3 Pro 等工具，但基准测试中的 87 个问题中只有不到 31% 得到了正确解决，而且只有一小部分问题比基准实现提供了性能改进。

PKB 值得注意，因为它将重点从单 GPU 任务转移到更复杂的多 GPU 工作负载领域，而后者在当今的生产 AI 系统中占主导地位。这些工作负载需要高效的 GPU 间通信，而这通常会受到 NVLink 等技术的带宽限制的瓶颈。与单 GPU 内核生成相比，性能取决于计算和内存优化，多 GPU 任务在 GPU 之间的数据移动和同步方面带来了复杂的挑战。

基准调查结果

PKB 评估法学硕士使用优化的 CUDA 内核替换标准 PyTorch + NCCL（NVIDIA 集体通信库）实现的能力。模型在 87 项实际任务中进行了测试，包括来自 NVIDIA Megatron-LM 和 NeMo-RL 等系统的工作负载。结果并不令人印象深刻：

在零样本设置中，性能最佳的模型 (GPT-5.5) 仅解决了 28 项任务，其中 22 项的表现优于基线。
允许尝试 3 次可以提高成功率，但最佳模型的“快₁@3”分数仍然仅为 31%。

失败归因于语法级问题（例如，不正确的 CUDA 代码）和更深层次的推理差距，例如排名协调和选择最佳 GPU 到 GPU 通信机制。更强大的模型始终难以处理需要高级抽象的任务，例如 TMA（张量内存加速器）或 NVLS（NVLink 加载/存储）。

为什么多 GPU 是一个更难的问题

从单 GPU 内核生成到多 GPU 内核生成的转变从根本上扩大了问题的复杂性：

组合设计空间：多 GPU 工作负载混合了张量、数据、专家和序列并行性，每种都创建了独特的通信模式。
性能瓶颈：与计算和内存占主导地位的单 GPU 设置不同，多 GPU 性能取决于互连带宽。
新设计选择：GPU 之间的高效数据移动（无论是通过复制引擎、SM 加载/存储还是 NVLink 路径）都需要仔细优化。

PKB 的方法反映了这些挑战。每个任务都以 PyTorch + NCCL 基线开始，并要求模型生成利用 GPU 到 GPU 直接通信的 CUDA 内核。该基准测试涵盖多种工作负载，从大型语言模型 (LLM) 训练到图神经网络 (GNN) 路由和分布式 FFT。

成功的曙光

虽然结果好坏参半，但还是取得了显着的成功。在极少数情况下，模型生成的内核的性能优于任何公开可用的实现。例如，Gemini 3 Pro 为 NVIDIA NeMo-RL 的 GRPO 训练循环生成了一个自定义内核，融合了计算和通信操作，与 PyTorch + NCCL 参考相比，显着减少了延迟。

这些胜利凸显了人工智能驱动的内核优化的潜力，特别是在不存在优化公共参考的利基领域。然而，这些成功仍然是例外，而不是常态。

接下来会发生什么

PKB 的研究结果强调需要进一步研究多 GPU 内核生成。提高法学硕士的表现可能需要两个重大转变：

反馈循环：将迭代反馈（例如调试、性能分析）集成到生成过程中可以帮助法学硕士完善其输出。
训练数据：扩展数据集以包含更多多 GPU 工作负载示例（尤其是涉及高级通信原语的示例）可能有助于模型开发更强大的先验。

PKB 还建议未来的基准测试应从节点内 NVLink 扩展到 InfiniBand 或 RoCE 等节点间结构，这些结构中的通信复杂性进一步增加。

为什么重要

随着人工智能系统的扩展，多 GPU 工作负载的效率将直接影响模型训练和推理的成本和速度。 PKB 强调了法学硕士在能够自主优化大规模分布式基础设施之前还需要走多远。对于开发人员和研究人员来说，该基准测试设定了明确的目标：缩小“工作”分布式内核与真正优化的内核之间的差距。

PKB 是开源的，欢迎贡献和协作来应对这些挑战。感兴趣的人可以通过[email protected]访问基准测试并提交新任务。

书签