视频选集

https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

DeepSeek-R1论文中用于训练大型语言模型的强化学习方法。讲解者首先回顾了语言模型如何预测下一个词元以及强化学习如何通过奖励信号优化智能体的行为。接着,他们阐述了语言模型与强化学习之间的联系,将语言模型视为一种策略,通过选择下一个词元来采取行动,并通过奖励来调整其行为以达到期望的标准。DeepSeek-R1论文特别之处在于其使用基于规则的奖励系统而非传统的奖励模型,并在训练中使用了grpo算法。最终目标是让模型通过强化学习自行学习复杂的推理能力,例如解决编程或数学问题,即使没有监督数据指导其思维过程。