基本模型结构:
基本模型结构:
基本模型结构:
数据集: COCO
基本模型结构:
两通道 VQA 模型:
数据集: VQA v1, VQA v2, Visual Genome, GQA
基本模型结构:
数据集: Visual Dialog, GuessWhat?!
ViLBERT: https://vilbert.cloudcv.org/
本文参考于 ACL 2022 tutorial:Vision-Language Pretraining: Current Trends and the Future