视频选集

本序列聚焦于强化学习和大语言模型,探索大语言模型背后的推理能力和强化学习之间的关联关系。通过从最基础的强化学习开始,本视频讲解,马尔可夫奖励过程, 训练完成之后,进行推理 。