多模态经典论文集2：ViLT - B站视频无水印解析下载哔哩哔哩视频-bilibilixz.com

视频选集

自动连播

这是长期更新的多模态论文集专栏。

第一个视频解读的是ViLT：Vision-and-Language Transformer Without Convolution or Region Supervision
更多技术内容详见个人博客：www.gnn.club
本视频的配套博文地址：https://www.gnn.club/?p=2910