NVIDIA 推出 CCCL 运行时以实现 CUDA 开发现代化

NVIDIA 的 CCCL 运行时将现代 C++ 抽象引入 CUDA，为开发人员提供更安全、更高效的 GPU 编程。

NVIDIA Introduces CCCL Runtime to Modernize CUDA Development

NVIDIA 推出了 CUDA 核心计算库 (CCCL) 运行时，这是一套新的现代 C++ API，旨在简化 GPU 编程。 CCCL Runtime为开发人员提供了流管理、内存分配和内核启动等核心CUDA功能的更新抽象，旨在使CUDA开发更安全、更高效。

近二十年来，CUDA 一直是 NVIDIA 将 GPU 用作通用处理器的基石。它为跨行业的人工智能培训、科学模拟和高性能计算提供支持。借助 CCCL Runtime，NVIDIA 正在解决 CUDA 应用程序日益复杂的问题，这些应用程序通常涉及在单个程序中交互的多个库和设备。新的 API 强调显式依赖、强类型和异步操作——旨在减少运行时错误和提高代码可维护性的关键原则。

CCCL 运行时的主要特性

CCCL 运行时基于 CUDA 20 年发展的经验教训，介绍：

流排序内存管理：支持与特定流关联的异步内存分配和释放，从而提高性能并避免隐式全局状态。
现代内核启动 API：新的 cuda::launch 方法简化了线程层次结构配置，并将编译时数据嵌入到设备代码中以进行优化。
语言惯用抽象：cuda::stream 和 cuda::device_ref 等强类型对象替换原始指针，在编译过程中更早捕获错误。

一个突出的功能是支持内核函子 - 具有设备可调用运算符的 C++ 类型。这种方法消除了启动内核时显式模板实例化的需要，从而进一步简化了开发。此外，CCCL Runtime 保持了与传统 CUDA Runtime API 的向后兼容性，允许增量采用，而无需完全重写遗留代码。

为什么它对 NVIDIA 很重要

NVIDIA 对 CUDA 的持续投资反映了其对于公司在 GPU 计算领域的主导地位的战略重要性。截至 2026 年 6 月 22 日，NVIDIA 股票（纳斯达克股票代码：NVDA）交易价格为 209.70 美元，市值高达 5.11 万亿美元。 CUDA 支撑着 NVIDIA 生态系统的大部分，包括 AI 加速器和 TensorRT 和 cuDNN 等高性能计算工具。 CCCL Runtime 通过降低开发人员有效利用 GPU 能力的障碍来增强这个生态系统。

时机与更广泛的行业趋势一致。本月早些时候，NVIDIA 宣布与 SK 海力士合作，利用 CUDA-X 库推进人工智能工厂基础设施。同样，其与台积电的合作旨在通过 GPU 加速来优化半导体设计。 CCCL Runtime 为开发人员提供了在人工智能、仿真和芯片设计方面构建更复杂应用程序的工具，从而补充了这些计划。

对开发者的影响

对于 CUDA 开发人员来说，CCCL Runtime 提供了实现工作流程现代化的清晰路线图。新的 API 消除了常见的痛点，例如管理隐式状态和调试内存问题。开发人员现在可以异步分配设备内存、使用显式设备流关联并利用现代 C++ 约定，所有这些都可以减少开销并提高代码清晰度。

鉴于 CUDA 在人工智能和高性能计算中的核心作用，CCCL Runtime 的采用可能会对整个行业产生连锁反应。将 CUDA 纳入其工作流程的公司（无论是用于 AI 模型训练还是半导体模拟）都将受益于效率的提高和开发复杂性的降低。

展望未来

CCCL 运行时现已作为 NVIDIA CUDA 核心计算库的一部分提供。随着开发人员开始测试新框架，NVIDIA 可能会收集反馈以进一步完善其功能。随着 GPU 工作负载变得越来越复杂，这些现代化工具对于在竞争日益激烈的开发者生态系统中保持 CUDA 的相关性至关重要。

通过简化 GPU 编程并同时保持向后兼容性，CCCL Runtime 使 NVIDIA 能够巩固其在人工智能和高性能计算领域的领先地位。对于开发者和企业来说，这是最大限度发挥 GPU 加速潜力的又一步。

书签