多模态模型

转换器成功作为构建语言模型的一种方法，促使 AI 研究人员考虑同样的方法是否对图像数据也有效。研究结果是开发多模态模型，其中模型使用大量带有描述文字的图像进行训练，没有固定的标签。图像编码器基于像素值从图像中提取特征，并将其与语言编码器创建的文本嵌入相结合。整体模型封装了自然语言标记嵌入和图像特征之间的关系，如下所示：
在这里插入图片描述
Microsoft Florence 模型就是这样的模型。此模型使用来自互联网的大量带有描述文字的图像进行训练，包括语言编码器和图像编码器。 Florence 是基础模型的一个例子。换句话说，它是一个预先训练的通用模型，你可以基于此模型为专业任务构建多个自适应模型。例如，可以将 Florence 用作执行以下操作的自适应模型的基础模型：