视频选集

手写C++大模型推理框架,支持LLama的推理以及文本生成等功能。CUDA对算子的加速,让大模型推理框架的运算速度更上一层楼,在这里你会学习到CUDA编程语言的写法,尤其能学到怎么用CUDA去写一个算子。
大家好,我们新课上线了,课程将用Openai Triton手写了一个多模态大模型推理框架,支持flashattention v1,v2,v3以及token attention等加速技术,还涵盖Triton编译路线原理讲解,用Triton写出媲美Cublas矩阵乘法性能等课程内容。现在已经开始