• 【CV】第 13 章:用于处理图像的高级 GAN


      🔎大家好,我是Sonhhxg_柒,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流🔎

     

    📝个人主页-Sonhhxg_柒的博客_CSDN博客 📃

    🎁欢迎各位→点赞👍 + 收藏⭐️ + 留言📝​

    📣系列专栏 - 机器学习【ML】 自然语言处理【NLP】  深度学习【DL】

     🖍foreword

    ✔说明⇢本人讲解主要包括Python、机器学习(ML)、深度学习(DL)、自然语言处理(NLP)等内容。

    如果你对这个系列感兴趣的话,可以关注订阅哟👋

    文章目录

    利用 Pix2Pix GAN

    利用 CycleGAN

    在自定义图像上利用 StyleGAN

    超分辨率GAN

    建筑学

    编码 SRGAN

    概括

    问题

    在上一章中,我们了解了如何利用生成对抗网络GAN ) 来生成逼真的图像。在本章中,我们将学习如何利用 GAN 来处理图像。我们将了解使用 GAN 生成图像的两种变体——有监督和无监督方法。在监督方法中,我们将提供输入和输出对组合以基于输入图像生成图像,我们将在 Pix2Pix GAN 中了解这一点。在无监督方法中,我们将指定输入和输出,但是,我们不会提供输入和输出之间的一一对应关系,而是期望 GAN 学习这两个类的结构,并将图像从一个类到另一个,我们将在 CycleGAN 中学习。

    另一类无监督图像处理涉及从随机向量的潜在空间生成图像,并查看图像如何随着潜在向量值的变化而变化,我们将在自定义图像上利用 StyleGAN部分了解这一点。最后,我们将了解如何利用预训练的 GAN – SRGAN,它有助于将低分辨率图像转换为高分辨率图像。

    具体来说,我们将了解以下主题:

    • 利用 Pix2Pix GAN
    • 利用 CycleGAN
    • 在自定义图像上利用 StyleGAN
    • 超分辨率GAN

    利用 Pix2Pix GAN

    想象一个场景,我们有成对的相互关联的图像(例如,对象边缘的图像作为输入,对象的实际图像作为输出)。给定的挑战是,我们要在给定对象边缘的输入图像的情况下生成图像。在传统环境中,这将是输入到输出的简单映射,因此是监督学习问题。但是,假设您正在与一个创意团队合作,该团队正试图为产品提供全新的外观。在这种情况下,监督学习没有多大帮助——因为它只能从历史中学习。

    在本节中,我们将了解从鞋子的手绘涂鸦(轮廓)生成鞋子图像的架构。我们将从涂鸦中生成逼真图像的策略如下:

    1. 使用标准 cv2 边缘检测技术获取大量实际图像并创建相应的轮廓。
    2. 从原始图像的补丁中采样颜色,以便生成器知道要生成的颜色。
    3. 构建一个 UNet 架构,将带有样本补丁颜色的轮廓作为输入并预测相应的图像——这就是我们的生成器。
    4. 构建一个判别器架构,获取图像并预测它是真实的还是虚假的。
    5. 一起训练生成器和判别器,直到生成器可以生成欺骗判别器的图像。

    让我们编写策略代码:

    1.导入数据集并安装相关包:

    1. try:
    2. !wget https://bit.ly/3kiuN93
    3. !mv 3kiuN93 ShoeV2.zip
    4. !unzip ShoeV2.zip
    5. !unzip ShoeV2_F/ShoeV2_photo.zip
    6. except:
    7. !wget https://www.dropbox.com/s/g6b6gtvmdu0h77x/ShoeV2_photo.zip
    8. !pip install torch_snippets
    9. from torch_snippets import *
    10. device = 'cuda' if torch.cuda.is_available() else 'cpu'

    前面的代码下载了鞋子的图片。下载图片示例如下:

    对于我们的问题,我们想在给定轮廓(边缘)的情况下绘制鞋子并采样鞋子的补丁颜色。在下一步中,我们将获取给定鞋子图像的边缘。这样,我们可以训练一个模型,在给定鞋子的轮廓和样本补丁颜色的情况下重建鞋子的图像。

    2.定义一个函数以从下载的图像中获取边缘:

    1. def detect_edges(img):
    2. img_gray = cv2.cvtColor(img, cv2.COLOR_RGB2GRAY)
    3. img_gray = cv2.bilateralFilter(img_gray, 5, 50, 50)
    4. img_gray_edges = cv2.Canny(img_gray, 45, 100)
    5. # invert black/white
    6. img_gray_edges = cv2.bitwise_not(img_gray_edges)
    7. img_edges=cv2.cvtColor(img_gray_edges,cv2.COLOR_GRAY2RGB)
    8. return img_edges

    在前面的代码中,我们利用 OpenCV 包中可用的各种方法来获取图像中的边缘(有关 OpenCV 方法如何工作的更多详细信息,请参见第 18 章使用 OpenCV 实用程序进行图像分析)。

    3.定义图像转换管道(preprocess和normalize):

    1. IMAGE_SIZE = 256
    2. preprocess = T.Compose([
    3. T.Lambda(lambda x: torch.Tensor(x.copy())\
    4. .permute(2, 0, 1).to(device))
    5. ])
    6. normalize = lambda x: (x - 127.5)/127.5

    4.定义数据集类 ( ShoesData)。该数据集类返回原始图像和带边缘的图像。我们将传递给网络的另一个细节是随机选择的区域中出现的色块。通过这种方式,我们使用户能够拍摄手绘轮廓图像,在图像的不同部分撒上所需的颜色,并生成新图像。此处显示了示例输入(第三张图像)和输出(第一张图像)(最好以彩色查看):

    然而,我们在步骤 1 中获得的输入图像只是鞋子(第一张图像)——我们将使用它来提取鞋子的边缘(第二张图像)。此外,我们将在下一步中撒上颜色以获取前面图像的输入(第三张图像)-输出(第一张图像)组合。

    在下面的代码中,我们将构建获取轮廓图像的类,洒上颜色,并返回一对颜色洒上的图像和原始鞋子图像(生成轮廓的图像):

    • 定义ShoesData类、__init__方法和__len__方法:
    1. class ShoesData(Dataset):
    2. def __init__(self, items):
    3. self.items = items
    4. def __len__(self): return len(self.items)
    • 定义__getitem__方法。在这种方法中,我们将处理输入图像以获取具有边缘的图像,然后将原始图像中存在的颜色洒在图像上。在这里,我们正在获取给定图像的边缘:
    1. def __getitem__(self, ix):
    2. f = self.items[ix]
    3. try: im = read(f, 1)
    4. except:
    5. blank = preprocess(Blank(IMAGE_SIZE, \
    6. IMAGE_SIZE, 3))
    7. return blank, blank
    8. edges = detect_edges(im)
    • 一旦我们获取图像中的边缘,调整图像大小并规范化图像:
    1. im, edges = resize(im, IMAGE_SIZE), \
    2. resize(edges, IMAGE_SIZE)
    3. im, edges = normalize(im), normalize(edges)
    • edges在图像和preprocess原件和图像上撒上颜色edges:
    1. self._draw_color_circles_on_src_img(edges, im)
    2. im, edges = preprocess(im), preprocess(edges)
    3. return edges, im
    • 定义洒颜色的函数:
    1. def _draw_color_circles_on_src_img(self, img_src, \
    2. img_target):
    3. non_white_coords = self._get_non_white_coordinates\
    4. (img_target)
    5. for center_y, center_x in non_white_coords:
    6. self._draw_color_circle_on_src_img(img_src, \
    7. img_target, center_y, center_x)
    8. def _get_non_white_coordinates(self, img):
    9. non_white_mask = np.sum(img, axis=-1) < 2.75
    10. non_white_y, non_white_x = np.nonzero(non_white_mask)
    11. # randomly sample non-white coordinates
    12. n_non_white = len(non_white_y)
    13. n_color_points = min(n_non_white, 300)
    14. idxs = np.random.choice(n_non_white, n_color_points, \
    15. replace=False)
    16. non_white_coords = list(zip(non_white_y[idxs], \
    17. non_white_x[idxs]))
    18. return non_white_coords
    19. def _draw_color_circle_on_src_img(self, img_src, \
    20. img_target, center_y, center_x):
    21. assert img_src.shape == img_target.shape
    22. y0, y1, x0, x1 = self._get_color_point_bbox_coords(\
    23. center_y, center_x)
    24. color = np.mean(img_target[y0:y1, x0:x1],axis=(0, 1))
    25. img_src[y0:y1, x0:x1] = color
    26. def _get_color_point_bbox_coords(self, center_y,center_x):
    27. radius = 2
    28. y0 = max(0, center_y-radius+1)
    29. y1 = min(IMAGE_SIZE, center_y+radius)
    30. x0 = max(0, center_x-radius+1)
    31. x1 = min(IMAGE_SIZE, center_x+radius)
    32. return y0, y1, x0, x1
    33. def choose(self): return self[randint(len(self))]

    5.定义训练和验证数据对应的数据集和数据加载器:

    1. from sklearn.model_selection import train_test_split
    2. train_items, val_items = train_test_split(\
    3. Glob('ShoeV2_photo/*.png'), \
    4. test_size=0.2, random_state=2)
    5. trn_ds, val_ds = ShoesData(train_items), ShoesData(val_items)
    6. trn_dl = DataLoader( trn_ds, batch_size=32, shuffle=True)
    7. val_dl = DataLoader(val_ds, batch_size=32, shuffle=True)

    6.定义生成器和鉴别器架构,它们利用权重初始化 ( weights_init_normal)UNetDown和UNetUp架构,就像我们在第 9 章图像分割第 10 章对象检测和分割的应用中所做的那样,来定义GeneratorUNet和Discriminator架构。

    • 初始化权重,使其服从正态分布:
    1. def weights_init_normal(m):
    2. classname = m.__class__.__name__
    3. if classname.find("Conv") != -1:
    4. torch.nn.init.normal_(m.weight.data, 0.0, 0.02)
    5. elif classname.find( "BatchNorm2d") != -1:
    6. torch.nn.init.normal_(m.weight.data, 1.0, 0.02)
    7. torch.nn.init.constant_(m.bias.data, 0.0)
    • 定义UNetwDown和UNetUp类:
    1. class UNetDown(nn.Module):
    2. def __init__(self, in_size, out_size, normalize=True, \
    3. dropout=0.0):
    4. super(UNetDown, self).__init__()
    5. layers = [nn.Conv2d(in_size, out_size, 4, 2, 1, \
    6. bias=False)]
    7. if normalize:
    8. layers.append(nn.InstanceNorm2d(out_size))
    9. layers.append(nn.LeakyReLU(0.2))
    10. if dropout:
    11. layers.append(nn.Dropout(dropout))
    12. self.model = nn.Sequential(*layers)
    13. def forward(self, x):
    14. return self.model(x)
    15. class UNetUp(nn.Module):
    16. def __init__(self, in_size, out_size, dropout=0.0):
    17. super(UNetUp, self).__init__()
    18. layers = [
    19. nn.ConvTranspose2d(in_size, out_size, 4, 2, 1, \
    20. bias=False),
    21. nn.InstanceNorm2d(out_size),
    22. nn.ReLU(inplace=True),
    23. ]
    24. if dropout:
    25. layers.append(nn.Dropout(dropout))
    26. self.model = nn.Sequential(*layers)
    27. def forward(self, x, skip_input):
    28. x = self.model(x)
    29. x = torch.cat((x, skip_input), 1)
    30. return x
    • 定义GeneratorUNet类:
    1. class GeneratorUNet(nn.Module):
    2. def __init__(self, in_channels=3, out_channels=3):
    3. super(GeneratorUNet, self).__init__()
    4. self.down1 = UNetDown(in_channels,64,normalize=False)
    5. self.down2 = UNetDown(64, 128)
    6. self.down3 = UNetDown(128, 256)
    7. self.down4 = UNetDown(256, 512, dropout=0.5)
    8. self.down5 = UNetDown(512, 512, dropout=0.5)
    9. self.down6 = UNetDown(512, 512, dropout=0.5)
    10. self.down7 = UNetDown(512, 512, dropout=0.5)
    11. self.down8 = UNetDown(512, 512, normalize=False, \
    12. dropout=0.5)
    13. self.up1 = UNetUp(512, 512, dropout=0.5)
    14. self.up2 = UNetUp(1024, 512, dropout=0.5)
    15. self.up3 = UNetUp(1024, 512, dropout=0.5)
    16. self.up4 = UNetUp(1024, 512, dropout=0.5)
    17. self.up5 = UNetUp(1024, 256)
    18. self.up6 = UNetUp(512, 128)
    19. self.up7 = UNetUp(256, 64)
    20. self.final = nn.Sequential(
    21. nn.Upsample(scale_factor=2),
    22. nn.ZeroPad2d((1, 0, 1, 0)),
    23. nn.Conv2d(128, out_channels, 4, padding=1),
    24. nn.Tanh(),
    25. )
    26. def forward(self, x):
    27. d1 = self.down1(x)
    28. d2 = self.down2(d1)
    29. d3 = self.down3(d2)
    30. d4 = self.down4(d3)
    31. d5 = self.down5(d4)
    32. d6 = self.down6(d5)
    33. d7 = self.down7(d6)
    34. d8 = self.down8(d7)
    35. u1 = self.up1(d8, d7)
    36. u2 = self.up2(u1, d6)
    37. u3 = self.up3(u2, d5)
    38. u4 = self.up4(u3, d4)
    39. u5 = self.up5(u4, d3)
    40. u6 = self.up6(u5, d2)
    41. u7 = self.up7(u6, d1)
    42. return self.final(u7)
    • 定义Discriminator类:
    1. class Discriminator(nn.Module):
    2. def __init__(self, in_channels=3):
    3. super(Discriminator, self).__init__()
    4. def discriminator_block(in_filters, out_filters, \
    5. normalization=True):
    6. """Returns downsampling layers of each
    7. discriminator block"""
    8. layers = [nn.Conv2d(in_filters, out_filters, \
    9. 4, stride=2, padding=1)]
    10. if normalization:
    11. layers.append(nn.InstanceNorm2d(out_filters))
    12. layers.append(nn.LeakyReLU(0.2, inplace=True))
    13. return layers
    14. self.model = nn.Sequential(
    15. *discriminator_block(in_channels * 2, 64, \
    16. normalization=False),
    17. *discriminator_block(64, 128),
    18. *discriminator_block(128, 256),
    19. *discriminator_block(256, 512),
    20. nn.ZeroPad2d((1, 0, 1, 0)),
    21. nn.Conv2d(512, 1, 4, padding=1, bias=False)
    22. )
    23. def forward(self, img_A, img_B):
    24. img_input = torch.cat((img_A, img_B), 1)
    25. return self.model(img_input)

    7.定义generator和discriminator模型对象并获取摘要:

    1. generator = GeneratorUNet().to(device)
    2. discriminator = Discriminator().to(device)
    3. !pip install torch_summary
    4. from torchsummary import summary
    5. print(summary(generator, torch.zeros(3, 3, IMAGE_SIZE, \
    6. IMAGE_SIZE).to(device)))
    7. print(summary(discriminator, torch.zeros(3, 3, IMAGE_SIZE, \
    8. IMAGE_SIZE).to(device), torch.zeros(3, 3, \
    9. IMAGE_SIZE, IMAGE_SIZE).to(device)))

    生成器架构总结如下:

    判别器架构总结如下:

    8.定义训练判别器的函数 ( discriminator_train_step):

    • 鉴别器函数将源图像 ( real_src)、真实目标 ( real_trg) 和假目标 ( fake_trg) 作为输入:
    1. def discriminator_train_step(real_src, real_trg, fake_trg):
    2. d_optimizer.zero_grad()
    • 通过error_real比较真实目标(real_trgreal_srctorch.ones
    1. prediction_real = discriminator(real_trg, real_src)
    2. error_real = criterion_GAN(prediction_real, \
    3. torch.ones(len(real_src), 1, 16, 16)\
    4. .to(device))
    5. error_real.backward()
    • 计算error_fake与假图像( )对应的鉴别器损失( ) fake_trg,其中期望鉴别器将假目标分类为假图像(由 表示torch.zeros),然后执行反向传播:
    1. prediction_fake = discriminator(real_src, \
    2. fake_trg.detach())
    3. error_fake = criteria_GAN(prediction_fake, \
    4. torch.zeros(len(real_src), 1, \
    5. 16, 16).to(device))
    6. error_fake.backward()
    • 执行优化器步骤并返回预测的真实和虚假目标的总体误差和损失值:
    1. d_optimizer.step()
    2. return error_real + error_fake

    9.定义函数来训练生成器generator_train_step(fake_trg

    1. def generator_train_step(real_src, fake_trg):
    2. g_optimizer.zero_grad()
    3. prediction = discriminator(fake_trg, real_src)
    4. loss_GAN = criteria_GAN(prediction, torch.ones(\
    5. len(real_src), 1, 16, 16)\ .to
    6. (device))
    7. loss_pixel = criteria_pixelwise(fake_trg, real_trg)
    8. loss_G = loss_GAN + lambda_pixel * loss_pixel
    9. loss_G.backward()
    10. g_optimizer.step()
    11. return loss_G

    请注意,在前面的代码中,除了生成器损失之外,我们还获取与loss_pixel给定轮廓的生成图像和真实图像之间的差异相对应的像素损失 ( ):

    • 定义一个函数来获取预测样本:
    1. denorm = T.Normalize((-1, -1, -1), (2, 2, 2))
    2. def sample_prediction():
    3. """Saves a generated sample from the validation set"""
    4. data = next(iter(val_dl))
    5. real_src, real_trg = data
    6. fake_trg = generator(real_src)
    7. img_sample = torch.cat([denorm(real_src[0]), \
    8. denorm(fake_trg[0]), \
    9. denorm(real_trg[0])], -1)
    10. img_sample = img_sample.detach().cpu()\
    11. .permute(1,2,0).numpy()
    12. show(img_sample, title='Source::Generated::GroundTruth', \
    13. sz=12)

    10.将权重初始化 ( weights_init_normal) 应用于生成器和判别器模型对象:

    1. generator.apply(weights_init_normal)
    2. discriminator.apply(weights_init_normal)

    11.指定损失标准和优化方法(criterion_GAN和criterion_pixelwise):

    1. criterion_GAN = torch.nn.MSELoss()
    2. criterion_pixelwise = torch.nn.L1Loss()
    3. lambda_pixel = 100
    4. g_optimizer = torch.optim.Adam(generator.parameters(), \
    5. lr=0.0002, betas=(0.5, 0.999))
    6. d_optimizer = torch.optim.Adam(discriminator.parameters(), \
    7. lr=0.0002, betas=(0.5, 0.999))

    12.训练模型超过 100 个 epoch:

    1. epochs = 100
    2. log = Report(epochs)
    3. for epoch in range(epochs):
    4. N = len(trn_dl)
    5. for bx, batch in enumerate(trn_dl):
    6. real_src, real_trg = batch
    7. fake_trg = generator(real_src)
    8. errD = discriminator_train_step(real_src, real_trg, \
    9. fake_trg)
    10. errG = generator_train_step(real_src, fake_trg)
    11. log.record(pos=epoch+(1+bx)/N, errD=errD.item(), \
    12. errG=errG.item(), end='\r ')
    13. [sample_prediction() for _ in range(2)]

    13.在样本手绘轮廓上生成:

    [sample_prediction() for _ in range(2)]

    上述代码生成以下输出:

    请注意,在前面的输出中,我们生成了与原始图像颜色相似的图像。

    在本节中,我们学习了如何利用图像的轮廓来生成图像。但是,这需要我们成对提供输入和输出,这有时可能是一个乏味的过程。在下一节中,我们将了解未配对的图像翻译,其中网络将计算翻译,而无需我们指定图像的输入和输出映射。

    利用 CycleGAN

    想象一个场景,我们要求您执行从一个类到另一个类的图像转换,但不提供输入和相应的输出图像来训练模型。但是,我们在两个不同的文件夹中为您提供这两个类别的图像。CycleGAN 在这种情况下就派上用场了。

    在本节中,我们将学习如何训练 CycleGAN 将苹果的图像转换为橙子的图像,反之亦然。CycleGAN 中的循环是指我们将图像从一个类转换(转换)到另一个类并返回到原始类的事实。

    在高层次上,我们将在此架构中具有三个单独的损失值(此处提供了更多详细信息):

    • 鉴别器损失(Discriminator loss):这可确保在训练模型时修改对象类(如上一节所示)。
    • Cycle loss:将一张图片从生成的图片循环到原图的损失,以保证周围像素不发生变化。
    • 身份损失(Identity loss):当一个类别的图像通过生成器时的损失,该生成器预期将另一类的图像转换为输入图像的类别。

    在这里,我们将从高层次了解构建 CycleGAN 的步骤:

    1.导入和预处理数据集

    2.构建生成器和判别器网络 UNet 架构

    3.定义两个生成器:

    • G_AB : 将 A 类图像转换为 B 类图像的生成器
    • G_BA:将 B 类图像转换为 A 类图像的生成器

    4.定义身份损失

    • 如果您要将橙色图像发送到橙色生成器,理想情况下,如果生成器了解有关橙色的所有内容,则它不应更改图像并应“生成”完全相同的图像。因此,我们使用这些知识创建了一个身份。
    • 当 A 类 (real_A) 的图像通过 G_BA 并与 real_A 进行比较时,身份损失应该是最小的。
    • 当 B 类 (real_B) 的图像通过 G_AB 并与 real_B 进行比较时,标识 l oss 应该是最小的。

    5.定义GAN 损失:

    • real_A 和 fake_A 的判别器和生成器损失(当 real_B 图像通过 G_BA 时得到 fake_A)
    • real_B 和 fake_B 的判别器和生成器损失(当 real_A 图像通过 G_AB 时得到 fake_B)

    6.定义循环 损失:

    • 考虑这样一个场景,一个苹果的图像将被一个橙子生成器转换为一个假橙子,而这个假橙子将被苹果生成器转换回一个苹果。
    • fake_B 是 real_A 通过 G_AB 时的输出,当 fake_B 通过 G_BA 时应该重新生成 real_A。
    • fake_A 是 real_B 通过 G_BA 时的输出,当 fake_A 通过 G_AB 时应该重新生成 real_B。

    7.优化三个损失的加权损失。

    现在我们了解了这些步骤,让我们编写代码以将苹果转换为橙子,反之亦然,如下所示:

    导入相关数据集和包:

    1.下载并提取数据集:

    1. !wget https://www.dropbox.com/s/2xltmolfbfharri/apples_oranges.zip
    2. !unzip apples_oranges.zip

    我们将处理的图像示例:

    请注意,苹果和橙色图像之间没有一一对应的关系(与我们在利用 Pix2Pix GAN部分了解的轮廓到鞋子生成用例不同)。

    • 导入所需的包:
    1. !pip install torch_snippets torch_summary
    2. import itertools
    3. from PIL import Image
    4. from torch_snippets import *
    5. from torchvision import transforms
    6. from torchvision.utils import make_grid
    7. from torchsummary import summary

    2.定义图像转换管道 ( transform):

    1. IMAGE_SIZE = 256
    2. device = 'cuda' if torch.cuda.is_available() else 'cpu'
    3. transform = transforms.Compose([
    4. transforms.Resize(int(IMAGE_SIZE*1.33)),
    5. transforms.RandomCrop((IMAGE_SIZE,IMAGE_SIZE)),
    6. transforms.RandomHorizo​​ntalFlip(),
    7. transforms.ToTensor(),
    8. transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)),
    9. ])

    3.定义数据集CycleGANDataset类apple(orange

    1. class CycleGANDataset(Dataset):
    2. def __init__(self, apples, oranges):
    3. self.apples = Glob(apples)
    4. self.oranges = Glob(oranges)
    5. def __getitem__(self, ix):
    6. apple = self.apples[ix % len(self.apples)]
    7. orange = choose(self.oranges)
    8. apple = Image.open(apple).convert('RGB')
    9. orange = Image.open(orange).convert('RGB')
    10. return apple, orange
    11. def __len__(self): return max(len(self.apples), \
    12. len(self.oranges))
    13. def choose(self): return self[randint(len(self))]
    14. def collate_fn(self, batch):
    15. srcs, trgs = list(zip(*batch))
    16. srcs=torch.cat([transform(img)[None] for img in srcs]\
    17. , 0).to(device).float()
    18. trgs=torch.cat([transform(img)[None] for img in trgs]\
    19. , 0).to(device).float()
    20. return srcs.to(device), trgs.to(device)

    4.定义训练和验证数据集和数据加载器:

    1. trn_ds = CycleGANDataset('apples_train', 'oranges_train')
    2. val_ds = CycleGANDataset('apples_test', 'oranges_test')
    3. trn_dl = DataLoader(trn_ds, batch_size=1, shuffle=True, \ collat​​e_fn=
    4. trn_ds.collat​​e_fn)
    5. val_dl = DataLoader(val_ds , batch_size=5, shuffle=True, \
    6. collat​​e_fn=val_ds.collat​​e_fn)

    5.定义网络的权重初始化方法 ( weights_init_normal) 如前几节所定义:

    1. def weights_init_normal(m):
    2. classname = m.__class__.__name__
    3. if classname.find("Conv") != -1:
    4. torch.nn.init.normal_(m.weight.data, 0.0, 0.02)
    5. if hasattr(m, "bias") 和 m.bias 不是 None:
    6. torch.nn.init.constant_(m.bias.data, 0.0)
    7. elif classname.find("BatchNorm2d") != -1:
    8. torch.nn.init.normal_( m.weight.data, 1.0, 0.02)
    9. torch.nn.init.constant_(m.bias.data, 0.0)

    6.定义残差块网络 ( ResidualBlock),在本例中,我们将利用 ResNet:

    1. class ResidualBlock(nn.Module):
    2. def __init__(self, in_features):
    3. super(ResidualBlock, self).__init__()
    4. self.block = nn.Sequential(
    5. nn.ReflectionPad2d(1),
    6. nn.Conv2d(in_features, in_features, 3),
    7. nn.InstanceNorm2d(in_features),
    8. nn.ReLU(inplace=True),
    9. nn.ReflectionPad2d(1),
    10. nn.Conv2d(in_features, in_features, 3),
    11. nn.InstanceNorm2d(in_features),
    12. )
    13. def forward(self, x):
    14. return x + self.block(x)

    7.定义生成器网络 ( GeneratorResNet):

    1. class GeneratorResNet(nn.Module):
    2. def __init__(self, num_residual_blocks=9):
    3. super(GeneratorResNet, self).__init__()
    4. out_features = 64
    5. channels = 3
    6. model = [
    7. nn.ReflectionPad2d(3),
    8. nn.Conv2d(channels, out_features, 7),
    9. nn.InstanceNorm2d(out_features),
    10. nn.ReLU(inplace=True),
    11. ]
    12. in_features = out_features
    13. # Downsampling
    14. for _ in range(2):
    15. out_features *= 2
    16. model += [
    17. nn.Conv2d(in_features, out_features, 3, \
    18. stride=2, padding=1),
    19. nn.InstanceNorm2d(out_features),
    20. nn.ReLU(inplace=True),
    21. ]
    22. in_features = out_features
    23. # Residual blocks
    24. for _ in range(num_residual_blocks):
    25. model += [ResidualBlock(out_features)]
    26. # Upsampling
    27. for _ in range(2):
    28. out_features //= 2
    29. model += [
    30. nn.Upsample(scale_factor=2),
    31. nn.Conv2d(in_features, out_features, 3, \
    32. stride=1, padding=1),
    33. nn.InstanceNorm2d(out_features),
    34. nn.ReLU(inplace=True),
    35. ]
    36. in_features = out_features
    37. # Output layer
    38. model += [nn.ReflectionPad2d(channels), \
    39. nn.Conv2d(out_features, channels, 7), \
    40. nn.Tanh()]
    41. self.model = nn.Sequential(*model)
    42. self.apply(weights_init_normal)
    43. def forward(self, x):
    44. return self.model(x)

    8.定义鉴别器网络 ( Discriminator):

    1. class Discriminator(nn.Module):
    2. def __init__(self):
    3. super(Discriminator, self).__init__()
    4. channels, height, width = 3, IMAGE_SIZE, IMAGE_SIZE
    5. def discriminator_block(in_filters, out_filters, \
    6. normalize=True):
    7. """Returns downsampling layers of each
    8. discriminator block"""
    9. layers = [nn.Conv2d(in_filters, out_filters, \
    10. 4, stride=2, padding=1)]
    11. if normalize:
    12. layers.append(nn.InstanceNorm2d(out_filters))
    13. layers.append(nn.LeakyReLU(0.2, inplace=True))
    14. return layers
    15. self.model = nn.Sequential(
    16. *discriminator_block(channels,64,normalize=False),
    17. *discriminator_block(64, 128),
    18. *discriminator_block(128, 256),
    19. *discriminator_block(256, 512),
    20. nn.ZeroPad2d((1, 0, 1, 0)),
    21. nn.Conv2d(512, 1, 4, padding=1)
    22. )
    23. self.apply(weights_init_normal)
    24. def forward(self, img):
    25. return self.model(img)
    • 定义生成图像样本的函数 – generate_sample:
    1. @torch.no_grad()
    2. def generate_sample():
    3. data = next(iter(val_dl))
    4. G_AB.eval()
    5. G_BA.eval()
    6. real_A, real_B = data
    7. fake_B = G_AB(real_A)
    8. fake_A = G_BA(real_B)
    9. # Arange images along x-axis
    10. real_A = make_grid(real_A, nrow=5, normalize=True)
    11. real_B = make_grid(real_B, nrow=5, normalize=True)
    12. fake_A = make_grid(fake_A, nrow=5, normalize=True)
    13. fake_B = make_grid(fake_B, nrow=5, normalize=True)
    14. # Arange images along y-axis
    15. image_grid = torch.cat((real_A,fake_B,real_B,fake_A), 1)
    16. show(image_grid.detach().cpu().permute(1,2,0).numpy(), \
    17. sz=12)

    9.定义训练生成器的函数 ( generator_train_step):

    • 该函数将两个生成器模型(G_AB 和 G_BA 作为Gs)、optimizer和两个类的真实图像 -real_A和real_B- 作为输入:
    def generator_train_step(Gs, optimizer, real_A, real_B):
    • 指定生成器:
        G_AB, G_BA = Gs
    • 将优化器的梯度设置为零:
        optimizer.zero_grad()
    • 如果您要将橙色图像发送到橙色生成器,理想情况下,如果生成器了解有关橙色的所有内容,则它不应该对图像进行任何更改,并且应该“生成”确切的图像。因此,我们使用这些知识创建了一个身份。对应的损失函数criterion_identity将在训练模型之前给出。loss_identity计算类型 A(苹果)和类型 B(橙子)的图像的身份损失 ( ):
    1. loss_id_A = criterion_identity(G_BA(real_A), real_A)
    2. loss_id_B = criterion_identity(G_AB(real_B), real_B)
    3. loss_identity = (loss_id_A + loss_id_B) / 2
    • 计算图像通过生成器时的 GAN 损失,并且生成的图像应尽可能接近其他类(np.ones在这种情况下,我们在训练生成器时有,因为我们将一个类的假图像传递给同类别的鉴别器):
    1. fake_B = G_AB(real_A)
    2. loss_GAN_AB = criterion_GAN(D_B(fake_B), \
    3. torch.Tensor(np.ones((len(real_A), 1, \
    4. 16, 16))).to(device))
    5. fake_A = G_BA(real_B)
    6. loss_GAN_BA = criterion_GAN(D_A(fake_A), \
    7. torch.Tensor(np.ones((len(real_A), 1, \
    8. 16, 16))).to(device))
    9. loss_GAN = (loss_GAN_AB + loss_GAN_BA) / 2
    • 计算循环损失。考虑这样一个场景,一个苹果的图像将被一个橙子生成器转换为一个假橙子,而这样一个假橙子将被苹果生成器转换回一个苹果。如果生成器是完美的,这个过程应该返回原始图像,这意味着以下循环损失应该为零:
    1. recov_A = G_BA(fake_B)
    2. loss_cycle_A = criteria_cycle(recov_A, real_A)
    3. recov_B = G_AB(fake_A)
    4. loss_cycle_B = criteria_cycle(recov_B, real_B)
    5. loss_cycle = (loss_cycle_A + loss_cycle_B) / 2
    • 在返回计算值之前计算总体损失并执行反向传播:
    1. loss_G = loss_GAN + lambda_cyc * loss_cycle + \
    2. lambda_id * loss_identity
    3. loss_G.backward()
    4. optimizer.step()
    5. return loss_G, loss_identity, loss_GAN, loss_cycle, \
    6. loss_G, fake_A, fake_B

    10.定义训练判别器的函数 ( discriminator_train_step):

    1. def discriminator_train_step(D, real_data, fake_data, \
    2. optimizer):
    3. optimizer.zero_grad()
    4. loss_real = criterion_GAN(D(real_data), \
    5. torch.Tensor(np.ones((len(real_data), 1, \
    6. 16, 16))).to(device))
    7. loss_fake = criterion_GAN(D(fake_data.detach()), \
    8. torch.Tensor(np.zeros((len(real_data), 1, \
    9. 16, 16))).to(device))
    10. loss_D = (loss_real + loss_fake) / 2
    11. loss_D.backward()
    12. optimizer.step()
    13. return loss_D

    11.定义生成器、鉴别器对象、优化器和损失函数:

    1. G_AB = GeneratorResNet().to(device)
    2. G_BA = GeneratorResNet().to(device)
    3. D_A = Discriminator().to(device)
    4. D_B = Discriminator().to(device)
    5. criterion_GAN = torch.nn.MSELoss()
    6. criterion_cycle = torch.nn.L1Loss()
    7. criterion_identity = torch.nn.L1Loss()
    8. optimizer_G = torch.optim.Adam(
    9. itertools.chain(G_AB.parameters(), G_BA.parameters()), \
    10. lr=0.0002, betas=(0.5, 0.999))
    11. optimizer_D_A = torch.optim.Adam(D_A.parameters(), \
    12. lr=0.0002, betas=(0.5, 0.999))
    13. optimizer_D_B = torch.optim.Adam(D_B.parameters(), \
    14. lr=0.0002, betas=(0.5, 0.999))
    15. lambda_cyc, lambda_id = 10.0, 5.0

    12.在越来越多的时期训练网络:

    1. n_epochs = 10
    2. log = Report(n_epochs)
    3. for epoch in range(n_epochs):
    4. N = len(trn_dl)
    5. for bx, batch in enumerate(trn_dl):
    6. real_A, real_B = batch
    7. loss_G, loss_identity, loss_GAN, loss_cycle, \
    8. loss_G, fake_A, fake_B = generator_train_step(\
    9. (G_AB,G_BA), optimizer_G, \
    10. real_A, real_B)
    11. loss_D_A = discriminator_train_step(D_A, real_A, \
    12. fake_A, optimizer_D_A)
    13. loss_D_B = discriminator_train_step(D_B, real_B, \
    14. fake_B, optimizer_D_B)
    15. loss_D = (loss_D_A + loss_D_B) / 2
    16. log.record(epoch+(1+bx)/N, loss_D=loss_D.item(), \
    17. loss_G=loss_G.item(), loss_GAN=loss_GAN.item(), \
    18. loss_cycle=loss_cycle.item(), \
    19. loss_identity=loss_identity.item(), end='\r')
    20. if bx%100==0: generate_sample()
    21. log.report_avgs(epoch+1)

    13.训练模型后生成图像:

    generate_sample()

    上述代码生成以下输出:

    从前面可以看出,我们成功地将苹果转换为橙子(前两行)和橙子转换为苹果(最后两行)。

    到目前为止,我们已经通过 Pix2Pix GAN 了解了成对的图像到图像的翻译,以及通过 CycleGAN 了解了不成对的图像到图像的翻译。在下一节中,我们将学习如何利用 StyleGAN 将一种风格的图像转换为另一种风格的图像。

    在自定义图像上利用 StyleGAN

    我们先来了解一下 StyleGAN 发明之前的一些历史发展。正如我们所知,从前一章生成假人脸涉及到 GAN 的使用。研究面临的最大问题是可以生成的图像很小(通常为 64 x 64)。任何生成更大尺寸图像的努力都会导致生成器或鉴别器陷入局部最小值,这将停止训练并产生乱码。生成高质量图像的主要飞跃之一涉及一篇名为 ProGAN(Progressive GAN 的缩写)的研究论文,其中涉及一个巧妙的技巧。

    生成器和鉴别器的大小都在逐渐增加。在第一步中,您创建一个生成器和鉴别器,以从潜在向量生成 4 x 4 图像。在此之后,额外的卷积(和放大)层被添加到经过训练的生成器和鉴别器中,它们将负责接受 4 x 4 图像(由步骤 1 中的潜在向量生成)并生成/鉴别 8 x 8 图像。一旦这一步也完成了,在生成器和鉴别器中再次创建新的层,以训练生成更大的图像。一步一步(逐步),图像大小以这种方式增加。逻辑是向已经运行良好的网络添加新层比尝试从头开始学习所有层更容易。以这种方式,https://arxiv.org/pdf/1710.10196v3.pdf):

    尽管它成功了,但控制生成图像的各个方面(例如性别和年龄)相当困难,主要是因为网络只得到一个输入(在上图中:网络顶部的潜在)。StyleGAN 解决了​​这种情况。

    StyleGAN 使用类似的训练方案,逐步生成图像,但每次网络增长时都会添加一组潜在输入。这意味着网络现在以生成的图像大小的规则间隔接受多个潜在向量。在生成阶段给出的每个潜在值都决定了在该网络的那个阶段将要生成的特征(样式)。让我们在这里更详细地讨论 StyleGAN 的工作细节:

    在上图中,我们可以对比传统的图像生成方式和基于样式的生成器。在传统的生成器中,只有一个输入。但是,在基于样式的生成器中有一种机制。让我们在这里了解详细信息:

    1.创建大小为 1 x 512 的随机噪声向量z

    2.将其馈送到称为样式网络(或映射网络)的辅助网络,该网络创建大小为 18 x 512 的张量w

    3.生成器(合成)网络包含 18 个卷积层。每一层都将接受以下输入:

    • w ('A')的对应行
    • 随机噪声向量 ('B')
    • 上一层的输出

    请注意,噪声 ('B') 仅用于正则化目的。

    前面三个组合将创建一个管道,该管道接收一个 1 x 512 向量并创建一个 1024 x 1024 图像。

    现在让我们了解从映射网络生成的 18 x 512 向量中的 18 个 1 x 512 向量中的每一个如何对图像的生成做出贡献。在合成网络的前几层添加的 1 x 512 向量有助于图像中存在的整体姿势和大规模特征,例如姿势、面部形状等,(因为它们负责生成4 x 4、8 x 8 的图像,等等——这是前几张图像,将在后面的层中进一步增强)。中间层添加的向量对应于小尺度特征,例如发型、睁眼/闭眼(因为它们负责生成 16 x 16、32 x 32 和 64 x 64 图像). 最后几层添加的向量对应于图像的颜色方案和其他微观结构。当我们到达最后几层时,图像结构被保留,面部特征被保留,但只有图像级别的细节(例如照明条件)发生了变化。

    在本节中,我们将利用预训练的 StyleGAN2 模型来定制我们感兴趣的图像以具有不同的风格。

    为了我们的目标,我们将使用 StyleGAN2 模型执行风格迁移。在高层次上,以下是面部风格转换的工作原理(通过代码结果,以下内容会更加清晰):

    • 假设 w 1样式向量用于生成 face-1,而 w 2样式向量用于生成 face-2。它们都是 18 x 512。
    • w 2中的 18 个向量中的前几个(负责从 4 x 4 到 8 x 8 分辨率生成图像)被替换为 w 1中的相应向量。然后,我们将非常粗略的特征(例如姿势从 face-1 转移到 face-2)。
    • 如果后面的样式向量(比如 18 x 512 中的第三个到第十五个——负责生成 64 x 64 到 256 x 256 维的批量图像)在 w 2中被替换为w 1中的样式向量,那么我们转移特征例如眼睛、鼻子和其他面部中级特征。
    • 如果最后几个样式向量(负责生成 512 x 512 到 1024 x 1024 维度的批量图像)被替换,则肤色和背景等精细特征(不会显着影响整体面部)被转移。

    了解了风格转移是如何完成的,现在让我们了解如何使用 StyleGAN2 在自定义图像上执行风格转移:

    1. 拍摄自定义图像。
    2. 对齐自定义图像,以便仅存储图像的面部区域。
    3. 获取可能生成自定义对齐图像的潜在向量。
    4. 通过将随机潜在向量 (1 x 512) 传递到映射网络来生成图像。

    通过这一步,我们有两个图像——我们的自定义对齐图像和 StyleGAN2 网络生成的图像。我们现在想将自定义图像的一些特征转移到生成的图像中,反之亦然。

    让我们编写前面的策略。

    请注意,我们正在利用从 GitHub 存储库中获取的预训练网络,因为训练这样的网络需要几天甚至几周的时间:

    1.克隆存储库,安装需求,并获取预训练的权重:

    1. import os
    2. if not os.path.exists('pytorch_stylegan_encoder'):
    3. !git clone https://github.com/jacobhallberg/pytorch_stylegan_encoder.git
    4. %cd pytorch_stylegan_encoder
    5. !git submodule update --init --recursive
    6. !wget -q https://github.com/jacobhallberg/pytorch_stylegan_encoder/releases/download/v1.0/trained_models.zip
    7. !unzip -q trained_models.zip
    8. !rm trained_models.zip
    9. !pip install -qU torch_snippets
    10. !mv trained_models/stylegan_ffhq.pth InterFaceGAN/models/pretrain
    11. else:
    12. %cd pytorch_stylegan_encoder
    13. from torch_snippets import *

    2.加载预训练的生成器和合成网络,映射网络的权重:

    1. from InterFaceGAN.models.stylegan_generator import StyleGANGenerator
    2. from models.latent_optimizer import PostSynthesisProcessing
    3. synthesizer=StyleGANGenerator("stylegan_ffhq").model.synthesis
    4. mapper = StyleGANGenerator("stylegan_ffhq").model.mapping
    5. trunc = StyleGANGenerator("stylegan_ffhq").model.truncation

    3.定义从随机向量生成图像的函数:

    1. post_processing = PostSynthesisProcessing()
    2. post_process = lambda image: post_processing(image)\
    3. .detach().cpu().numpy().astype(np.uint8)[0]
    4. def latent2image(latent):
    5. img = post_process(synthesizer(latent))
    6. img = img.transpose(1,2,0)
    7. return img

    4.生成一个随机向量:

    rand_latents = torch.randn(1,512).cuda()

    在前面的代码中,我们通过映射和截断网络传递随机的 1 x 512 维向量以生成 1 x 18 x 512 的向量。这些 18 x 512 的向量决定了生成图像的样式。

    5.从随机向量生成图像:

    show(latent2image(trunc(mapper(rand_latents))), sz=5)

    上述代码生成以下输出:

    至此,我们已经生成了一张图片。在接下来的几行代码中,您将了解如何在前面生成的图像和您选择的图像之间执行样式转换。

    6.获取自定义图像 ( MyImage.jpg) 并对齐它。对齐对于生成适当的潜在向量很重要,因为 StyleGAN 中生成的所有图像都以人脸为中心并且特征明显可见:

    1. !wget https://www.dropbox.com/s/lpw10qawsc5ipbn/MyImage.JPG\
    2. -O MyImage.jpg
    3. !git clone https://github.com/Puzer/stylegan-encoder.git
    4. !mkdir -p stylegan-encoder/raw_images
    5. !mkdir -p stylegan-encoder/aligned_images
    6. !mv MyImage.jpg stylegan-encoder/raw_images

    7.对齐自定义图像:

    1. !python stylegan-encoder/align_images.py \
    2. stylegan-encoder/raw_images/ \
    3. stylegan-encoder/aligned_images/
    4. !mv stylegan-encoder/aligned_images/* ./MyImage.jpg

    8.使用对齐的图像生成可以完美再现对齐图像的潜在值。这是一个识别潜在向量组合的过程,该组合使对齐图像与从潜在向量生成的图像之间的差异最小化:

    1. from PIL import Image
    2. img = Image.open('MyImage.jpg')
    3. show(np.array(img), sz=4, title='original')
    4. !python encode_image.py ./MyImage.jpg\
    5. pred_dlatents_myImage.npy\
    6. --use_latent_finder true\
    7. --image_to_latent_path ./trained_models/image_to_latent.pt
    8. pred_dlatents = np.load('pred_dlatents_myImage.npy')
    9. pred_dlatent = torch.from_numpy(pred_dlatents).float().cuda()
    10. pred_image = latent2image(pred_dlatent)
    11. show(pred_image, sz=4, title='synthesized')

    上述代码生成以下输出:

    Python 脚本encode_image.py在高层次上执行以下操作:

    1. 空间中创建一个随机向量。
    2. 使用此向量合成图像。
    3. 使用 VGG 的感知损失(与神经风格迁移中使用的损失相同)将合成图像与原始输入图像进行比较。
    4. 对随机向量执行反向传播,以减少固定迭代次数的损失。
    5. 优化后的向量现在将合成一张 VGG 给出与输入图像几乎相同的特征的图像,因此合成图像看起来与输入图像相似。

    现在我们有了与感兴趣的图像相对应的潜在向量,让我们在下一步中执行图像之间的风格转换。

    9.执行风格转移:

    如前所述,风格转移背后的核心逻辑实际上是风格张量的部分转移,即 18 x 512 风格张量中的 18 个子集。在这里,我们将在一种情况下传输前两行(18 x 512),在一种情况下传输 3-15 行,在一种情况下传输 15-18 行。由于每组向量负责生成图像的不同方面,因此每组交换的向量交换图像中的不同特征:

    1. idxs_to_swap = slice(0,3)
    2. my_latents=torch.Tensor(np.load('pred_dlatents_myImage.npy', \
    3. allow_pickle=True))
    4. A, B = latent2image(my_latents.cuda()), latent2image(trunc(mapper(rand_latents)))
    5. generated_image_latents = trunc(mapper(rand_latents))
    6. x = my_latents.clone()
    7. x[:,idxs_to_swap] = generated_image_latents[:,idxs_to_swap]
    8. a = latent2image(x.float().cuda())
    9. x = generated_image_latents.clone()
    10. x[:,idxs_to_swap] = my_latents[:,idxs_to_swap]
    11. b = latent2image(x.float().cuda())
    12. subplots([A,a,B,b], figsize=(7,8), nc=2, \
    13. suptitle='Transfer high level features')

    前面的代码生成这个:

    这是分别带有idxs_to_swapasslice(4,15)和的输出slice (15,18)。

    10.接下来,我们推断一个样式向量,这样新的向量只会改变我们自定义图像的笑脸。为此,您需要计算移动潜在向量的正确方向。我们可以通过首先创建大量假图像来实现这一点。然后使用 SVM 分类器来训练并找出图像中的人是否微笑。因此,这个 SVM 创建了一个超平面,将笑脸与非笑脸分开。移动所需的方向将垂直于这个超平面,表示为stylegan_ffhq_smile_w_boundary.npy。实现细节可以在InterfaceGAN/edit.py代码本身中找到:

    1. !python InterFaceGAN/edit.py\
    2. -m stylegan_ffhq\
    3. -o results_new_smile\
    4. -b InterFaceGAN/boundaries/stylegan_ffhq_smile_w_boundary.npy\
    5. -i pred_dlatents_myImage.npy\
    6. -s WP\
    7. --steps 20
    8. generated_faces = glob.glob('results_new_smile/*.jpg')
    9. subplots([read(im,1) for im in sorted(generated_faces)], \
    10. figsize=(10,10))

    以下是生成的图像的外观:

     总之,我们已经了解了这项研究在使用 GAN 生成非常高分辨率的人脸图像方面的进展情况。诀窍是在增加分辨率的步骤中增加生成器和判别器的复杂性,以便在每一步中,两个模型都能很好地完成任务。我们了解了如何通过确保每个分辨率的特征由称为样式向量的独立输入来控制生成图像的样式。我们还学习了如何通过将样式从一张图像切换到另一张来操作不同图像的样式。

    现在我们已经了解了如何利用预训练的 StyleGAN2 模型来执行样式迁移,在下一节中,我们将利用预训练的超分辨率 GAN 模型生成高分辨率图像。

    超分辨率GAN

    在上一节中,我们看到了一个场景,我们利用预训练的 StyleGAN 生成给定样式的图像。在本节中,我们将更进一步,了解如何利用预训练模型来执行图像超分辨率。在将其应用于图像之前,我们将了解超分辨率 GAN 模型的架构。

    首先,我们将了解为什么 GAN 是超分辨率任务的良好解决方案。想象一个场景,给您一张图像并要求您提高其分辨率。直观地说,您会考虑使用各种插值技术来执行超分辨率。这是一个示例低分辨率图像以及各种技术的输出(图像来源:https ://arxiv.org/pdf/1609.04802.pdf ):

     从上图中我们可以看出,在从低分辨率(原始图像的 4 倍缩小图像)重建图像时,双三次插值等传统插值技术并没有太大帮助。

    虽然基于 ResNet 的超分辨率 UNet 可以在这种情况下派上用场,但 GAN 可能更有用,因为它们可以模拟人类感知。鉴于判别器知道典型的超分辨率图像的外观,它可以检测生成的图像具有不一定看起来像高分辨率图像的属性的场景。

    随着对 GAN 的超分辨率需求的确立,让我们了解并利用预训练模型。

    建筑学

    虽然可以从头开始编码和训练超分辨率 GAN,但我们将尽可能利用预训练模型。因此,在本节中,我们将利用由 Christian Ledig 及其团队开发并发表在题为“使用生成对抗网络的 Photo-Realistic Single Image Super-Resolution ”的论文中的模型。

    SRGAN的架构如下(图片来源:https ://arxiv.org/pdf/1609.04802.pdf ):

    从上图中,我们看到判别器将高分辨率图像作为输入来训练预测图像是高分辨率图像还是低分辨率图像的模型。生成器网络将低分辨率图像作为输入,生成高分辨率图像。在训练模型时,内容损失和对抗性损失都被最小化了。要详细了解模型训练的细节以及比较用于生成高分辨率图像的各种技术的结果,我们建议您阅读本文。

    凭借对模型构建方式的高层次理解,我们将编写利用预训练 SRGAN 模型将低分辨率图像转换为高分辨率图像的方法。

    编码 SRGAN

    以下是加载预训练的 SRGAN 并进行预测的步骤:

    1.导入相关包和预训练模型:

    1. import os
    2. if not os.path.exists('srgan.pth.tar'):
    3. !pip install -q torch_snippets
    4. !wget -q https://raw.githubusercontent.com/sizhky/a-PyTorch-Tutorial-to-Super-Resolution/master/models.py -O models.py
    5. from pydrive.auth import GoogleAuth
    6. from pydrive.drive import GoogleDrive
    7. from google.colab import auth
    8. from oauth2client.client import GoogleCredentials
    9. auth.authenticate_user()
    10. gauth = GoogleAuth()
    11. gauth.credentials = \
    12. GoogleCredentials.get_application_default()
    13. drive = GoogleDrive(gauth)
    14. downloaded = drive.CreateFile({'id': \
    15. '1_PJ1Uimbr0xrPjE8U3Q_bG7XycGgsbVo'})
    16. downloaded.GetContentFile('srgan.pth.tar')
    17. from torch_snippets import *
    18. device = 'cuda' if torch.cuda.is_available() else 'cpu'

    2.加载模型:

    1. model = torch.load('srgan.pth.tar', map_location='cpu')['generator'].to(device)
    2. model.eval()

    3.获取要转换为高分辨率的图像:

    !wget https://www.dropbox.com/s/nmzwu68nrl9j0lf/Hema6.JPG

    4.定义函数preprocess和postprocess图像:

    1. preprocess = T.Compose([
    2. T.ToTensor(),
    3. T.Normalize([0.485, 0.456, 0.406],
    4. [0.229, 0.224, 0.225]),
    5. T.Lambda(lambda x: x.to(device))
    6. ])
    7. postprocess = T.Compose([
    8. T.Lambda(lambda x: (x.cpu().detach()+1)/2),
    9. T.ToPILImage()
    10. ])

    5.加载图像并对其进行预处理:

    1. image = readPIL('Hema6.JPG')
    2. image.size
    3. # (260,181)
    4. image = image.resize((130,90))
    5. im = preprocess(image)

    请注意,在前面的代码中,我们对原始图像执行了额外的调整大小以进一步模糊图像,但这只是为了说明 - 因为当我们缩小图像时改进更加明显。

    6.通过模型的加载model和postprocess输出传递预处理图像:

    1. sr = model(im[None])[0]
    2. sr = postprocess(sr)

    7.绘制原始图像和高分辨率图像:

    1. subplots([image, sr], nc=2, figsize=(10,10), \
    2. titles=['Original image','High resolution image'])

    前面的代码产生以下输出:

     从上图中,我们可以看到高分辨率图像捕捉到了原始图像中模糊的细节。

    请注意,如果原始图像模糊,则原始图像和高分辨率图像之间的对比度会很高。但是,如果原始图像不模糊,对比度不会那么高。我们鼓励您使用不同分辨率的图像。

    概括

    在本章中,我们学习了使用 Pix2Pix GAN 从给定轮廓生成图像。此外,我们了解了 CycleGAN 中用于将一类图像转换为另一类图像的各种损失函数。接下来,我们了解了 StyleGAN 如何帮助生成逼真的面孔,并根据生成器的训练方式将风格从一张图像复制到另一张图像。最后,我们了解了如何利用预训练的 SRGAN 模型生成高分辨率图像。

    在下一章中,我们将转向学习如何基于很少(通常少于 20 张)图像训练图像分类模型。

    问题

    1. 为什么我们需要 Pix2Pix GAN,其中像 UNet 这样的监督学习算法可以用来从轮廓生成图像?
    2. 为什么我们需要在 CycleGAN 中针对三种不同的损失函数进行优化?
    3. ProgressiveGAN 中利用的技巧如何帮助构建 StyleGAN?
    4. 我们如何识别与给定自定义图像相对应的潜在向量?
  • 相关阅读:
    ASP.NET Core Web项目连接MySQL数据库
    掌动智能:云可观测性的主要特点及应用场景
    对抗样本工具箱(2)——cleverhans
    java毕业设计视频点播系统Mybatis+系统+数据库+调试部署
    【gflags】【gflags实践】【gflags的学习使用记录】
    LeetCode | 232. 用栈实现队列
    Linux内存管理(二十六):shrink_list
    《少有人走的路:心智成熟的旅程》笔记
    口袋参谋:99.99%商家都学的防骗技巧!
    区间预测 | MATLAB实现QRCNN-BiLSTM卷积双向长短期记忆神经网络分位数回归时间序列区间预测
  • 原文地址:https://blog.csdn.net/sikh_0529/article/details/127532847