摘要
【目的】 针对当前非遗图片分类不足的问题,提出结合非遗图片和文本描述,以多模态融合的方式进行非遗图片分类研究。【方法】 构建基于多模态融合的非遗图片分类模型(Image Classification Model with Multimodal Fusion,ICMMF),其主要由用于非遗图片视觉语义特征抽取的微调深度预训练模型、对文本特征进行抽取的BERT模型、融合视觉语义特征和文本描述特征的多模态融合层和预测类别输出层组成。【结果】
京公网安备 11010502049817号