视频选集

直播大纲
1.利用Multi-stage Cost建模符合特定对齐目标的reward
2.结合多种reward对轨迹进行偏好排序,构建偏好数据集
3.使用轨迹偏好优化(TPO)对齐VLA模型,并进行多轮迭代
4.在仿真和真实环境中对模型进行评测与分析,并验证其泛化能力