视频选集

重点讨论了图形处理器(GPU)编程的未来,尤其是如何在面临硬件扩展挑战和经济制约的情况下,提高其可访问性和性能。演讲者们首先指出了当前 GPU 编程的复杂性,并提出了一系列创新项目,旨在通过改进数据可用性、构建更智能的编程模型和探索新的编程抽象来应对这一挑战。其中强调了三个关键举措:Kernel Bench 作为评估大型语言模型(LLM)编写内核能力的基准,Kernel Bot 作为收集高质量人类编写内核数据的竞争平台,以及 Kernel LLM 作为利用这些数据训练 LLM 编写高效 GPU 内核的尝试。此外,还介绍了 Thunderkittens 和 Cutlass 4.0 这两个项目,它们都致力于通过提供更直观易用的 Python 接口和抽象,降低 GPU 编程的门槛。最后,演讲者们回顾了 CUDA 的发展历史,强调了使 GPU 编程更易于获取的重要性,并展望了 AI 领域和其他科学计算领域 GPU 应用的广阔前景。