还是需要文字标签和图片两种信息的资料
训练集数据集,像midjourney、stable diffusion、DALL都是用的第三个数据集50多亿张训练图片
直接将文字输入到Denoising Model
而Noising Predicter部分也直接加入文字资料
训练部分的修改,也是在去噪过程中将文章资料给Denoising Model,这代表Denoising有三个输入
下面是详细过程
京公网安备 11010502049817号