vLLM 项目周会-中英 | TPU | 分布式推理 | kv缓存 | 高性能 | 量化| llm压缩器 | GPU | 多模态 | office hours

视频选集

自动连播

P01 vLLM 在 Google TPU 上的性能优化

P02 深入了解 LLM 压缩器 - 2025 年 4 月 10 日
P03 vLLM V1 简介 - 2025 年 3 月 27 日
P04 vLLM 生产栈深入解析 - 2025 年 3 月 6 日
P05 DeepSeek 和 vLLM - 2025 年 2 月 27 日
P06 使用 vLLM v1 实现多模态 LLM - 2025 年 2 月 6 日
P07 使用 vLLM 实现分布式推理 - 2025 年 1 月 23 日
P08 vLLM 项目更新与公开讨论 - 2025 年 1 月 9 日
P09 vLLM 的 2024 回顾与 2025 愿景 - 2024 年 12 月 19 日
P10 探索 Machete，一个用于 Hopper GPU 的混合输入 GEMM 内核 - 2024 年 12 月 5 日
P11 vLLM 中的分离式预填充和 KV 缓存存储 - 2024 年 11 月 14 日
P12 vLLM 中最先进的工具调用实现 - 2024 年 11 月 7 日
P13 深入了解 Mistral 在 vLLM 上的应用 - 2024 年 10 月 17 日
P14 vLLM 中的推测解码 - 2024 年 10 月 3 日
P15 最大化 vLLM 性能的高级技术 - 2024 年 9 月 19 日
P16 使用 NVIDIA CUTLASS 实现高性能推理 - 2024 年 9 月 5 日
P17 vLLM 在 AMD GPU 和 Google TPU 上的应用 - 2024 年 8 月 21 日
P18 使用 Roblox 在 vLLM 中实现多模态模型 - 2024 年 8 月 8 日
P19 用于高效 vLLM 推理的模型量化 - 2024 年 7 月 25 日
P20 vLLM 和 Neural Magic 答疑时间 - 2024 年 6 月 5 日
P21 2024 年 6 月 20 日
P22 FP8 量化深入解析 - 2024 年 7 月 9 日