让机器人更聪明！GRAPE 提升机器人通用性，实现多样化任务 - B站视频无水印解析下载哔哩哔哩视频-bilibilixz.com

自动连播

直播大纲

1.利用Multi-stage Cost建模符合特定对齐目标的reward
2.结合多种reward对轨迹进行偏好排序，构建偏好数据集
3.使用轨迹偏好优化（TPO）对齐VLA模型，并进行多轮迭代
4.在仿真和真实环境中对模型进行评测与分析，并验证其泛化能力