如果下方播放器无法播放,请您点击这里备用播放! 视频选集 自动连播 ☰ 大模型推理过程,可以分为两个阶段,预填充阶段(prefill stage)和解码阶段(decode stage)。如果把两个阶段放在同一个计算设备上,会导致两阶段优化目标SLOs冲突,而且耦合了两个阶段的部署策略。将两个阶段分别部署到不同的设备上,使用PD分离架构推理,各自优化,势在必行! 计算机技术人工智能AI学习深度学习大模型PD大模型推理