大模型推理-基于prefill和decode阶段特点，PD分离架构，势在必行！ - B站视频无水印解析下载哔哩哔哩视频-bilibilixz.com

自动连播

大模型推理过程，可以分为两个阶段，预填充阶段(prefill stage)和解码阶段(decode stage)。如果把两个阶段放在同一个计算设备上，会导致两阶段优化目标SLOs冲突，而且耦合了两个阶段的部署策略。将两个阶段分别部署到不同的设备上，使用PD分离架构推理，各自优化，势在必行！