本文是LLM系列文章,针对《Multitask Vision-Language Prompt Tuning》的翻译。
提示调整以任务特定的学习提示向量为条件,已成为一种数据高效和参数高效的方法,用于将大型预训练视觉语言模型适应多个下游任务。然而,现有的方法通常考虑从头开始独立地为每个任务学习提示向量,从而无法在不同的视觉语言任务中利用丰富的可共享知识。在本文中,我们提出了多任务视觉语言提示调整(MVLPT),它将跨任务知识纳入视觉语言模型的提示调整中。具体而言,(i)我们证明了从多个源任务学习单个可迁移提示以初始化每个目标任务的提示的有效性;(ii)我们表明,许多目标任务可以通过共享提示向量而相互受益,因此可以通过多任务提示调整来联合学习。我们使用三种有代表性的提示调整方法对所提出的MVLPT进行了基准测试,即文本提示调整、视觉提示调整和统一视觉语言提示调整。在20个视觉任务中的结果表明,所提出的方法优于所有单任务