• 【Deep Learning 5】卷积神经网络CNN


     

    🍊文本从如何识别出图片中的小女孩引入CNN,将其与FNN进行对比,并对CNN网络模型进行了详细的介绍。最后在自然语言处理和视觉领域进行实战。具体来说,使用CNN组合的四个经典模型对Mnist数据集进行图像分类,使用TextCNN对IMDB数据集进行文本分类

    🍊实验一:模拟CNN,并观察其输入、卷积层、输出的维度情况

    🍊实验二:图像分类--LeNet-5模型

    🍊实验三:图像分类--AlexNet模型(改编版)

    🍊实验四:图像分类--VGG16模型

    🍊实验五:图像分类--GoogleNet模型

    🍊实验六:文本分类--TextCNN模型

    一、Introduction

    假如有这样一张图片,我们是如何检测出图片中的小女孩呢?我们可以将图片分割成一个个小部分,对每个小部分来检测嘴巴、鼻子、眼睛,最后进行总体的判断。如此图像检测的流程就是CNN

    在介绍CNN之前,我们先来看FNN有什么缺点。

    缺点一:参数太多,因为FNN是全连接的,它的权重参数需要训练的数量是非常大的,比如有一个图像的尺寸是128*128*3,那么每一次层的神经元和权重参数就有128*128*3个,如此巨大的参数在实际训练过程中效率非常低下。

    缺点二:局部不变性,FNN如果不进行数据增强的话是很那提取到对象的关键信息

    而CNN的产生就是为了解决以上的两个问题,即权重比较少的FNN。 

    二、Convolutional Layer

    如何判断一个网络层是CNN呢?如果一个网络层对输入使用了Receptive FieldParameters Sharing,那么这样的神经网络的架构就是CNN

    我们拿一张图片的简化来举例子,首先神经网络的输入一定是一个向量,但是图片是一个三维(length、width、RGB)的Tensor矩阵,因此我们需要将此Tensor转化为100*100*3的向量。这么大的向量如果输入到模型中其权重w也非常大,因此我们需要对其进行简化

    2.1 Receptive field

    假如有一张图片,我们如何判断里面是否有小鸟,我们实际上不需要知道整张图片的细节,只需要知道关键的区分点,即特征

    因此,我们可以将原始图片即一个大的三维Tensor分割成一个个小的三维Tensor,这里每个Tensor就是一个Receptive field(也被称作卷积核kernels)

    随后将每个Receptive field放到一个单独的网络层中

     因为一张图片中的任何位置都有可能有我们想要检测的目标,因此Receptive field需要覆盖整张图片,因此我们需要设置一个超参数stride步幅来控制覆盖图片的速度

    在覆盖过程中,可能遇到一些边边角角难以适配(与stride超参数有关),那么我们可以覆盖上,超出的部分使用padding补齐,一般使用0或整张图片的平均值来补齐。此外,还有很多时候我们想用padding是因为想将图像变大

    2.2 Parameters sharing

    如果我们只想检测喙,我们需要使用receptive field覆盖整张图片来搜索检测,每个receptive field都有检测喙功能的neurons。

     因为它们的主要功能就是检测喙,只是检测的图像区域不一样罢了,因此我们可以进行优化,即权重共享参数。如此可以共享权重的神经元就叫做filter

    2.3 Pooling

    还有一个简化的方法就是对图片进行压缩,比如说删除掉图片长度为奇数,RGB中的red,虽然图像的画质降低了,但是总体上我们还是能识别该图像。这就是Pooling技术。

    但是如今不怎么使用了,虽然Pooling在一定程度上可以获取重要信息而舍去边缘信息,从而减少计算开销,但是Pooling同时是以牺牲精度为代价来提高训练速度,现在机器的算力如此强悍,这点训练时间不算什么

    将一个Tensor分割成很多小Tensor,每个小Tensor取一个值来合并成一个大Tensor,取值主要有三种方法

    Mean-Pooling取平均值
    Max-Pooling取最大值
    Stochastic-pooling轮盘法取值

    MaxPooling技术 

    2.4 Convolution Algorithm

    在CNN中有一个独特的计算方式叫做卷积计算,其符号的表示和乘法一样都是*,其计算过程如下图中,橙色图为待计算初始图,我们选中一个Receptive field,绿色图为一个filter。

    2*1+3*0+2*(-1)+1*1+0*0+3*(-1)+1*1+2*0+3*(-1)=-4

    随后对其他图也进行卷积计算,最终一个channel计算的结果如下,将所有channels相加起来就是最终的输出

    如果你的数学敏感性比较高,可以发现 

    1 若没有进行padding操作,卷积后的Tensor的尺寸=原图尺寸-Filter尺寸+1

    2 卷积核的有多少个,输出Tensor的channels就有多少层

    最后,再放上一张卷积计算的总过程

    2.5 Calculation skill

    在学CNN的时候大家最烦的莫过于图像尺寸的变化,Padding、Kernal、Stride到底怎么计算?其实这样是有一个计算公式的如下

    N:输出大小
    W:输入图片大小
    F:kernel大小
    S:步长
    P:补缺数量

    2.6 Total flow

            1 根据对象特征设计好一个个Filter

            2 在图片中取出一个个Receptive Field数据,将与Filter进行卷积运算,得到一个具体的数值,将这些数值组合起来形成一个二维Tensor

            3 将2得到的2维Tensor结合起来得到一个高维的Tensor,称之为Feature Map

            4 使用Pooling技术将Tensor压缩(经典做法为其进入几个卷积层之后做一次Pooling)

            5 到这里卷积结束了,但是它是无法直接连接Dense全连接层的,需要将Convolution层的数据压平Flatten为一维数据

            6 最后放到一个FNN中进行分类预测

    2.7 GoogleNet

     我们先看看整个整个网络模型的架构

    咋一看是不是感觉头皮发麻,怎么这个网络模型这么复杂,但是仔细看看会发现可以将其分成许多小模块,这些小模块很多都是重复的,如下图中所示

    这个可复用的小模块称之为Inceptioin

    那为什么要设计这样Inception呢?

    我们在设计CNN网络模型的时候,卷积核的参数、卷积层的个数等超参数都难以确定,Inception就是为了解决这个问题。具体的做法的思想是我们不知道哪种CNN比较好,就设计四个如下图的CNN模型,都放进Inception中,哪个效果最好哪个权重就比较高。

    作者感觉这与集成学习中的软投票做法一致

     使用四个模型计算出了四个Tensor后,还需要使用Concatenate方法将其拼接在一起,实践操作就是使用cat函数

    Inception中有一个非常有意思的东西就是1*1 Conv,它计算的过程如下

    是不是感觉像一个美颜滤镜,对每个图层进行美化,最后合并成一个图层?是的,它的作用是直接压缩Tensor的Channels

    2.8 TextCNN

    CNN一般都是用于CV领域中,而深度学习中主流研究对象还有NLP,那CNN可以用在NLP中吗?当然可以,直观的讲,CNN就是一个滑窗,图像是一个矩形,所以滑窗也是个矩形,而文本是一个向量,因此滑窗就是个向量。

    早在2014年就有人提出了TextCNN,其模型如下

     欸,看起来可能有点抽象,看另一篇解释该模型的图可能好理解多了

    • 首先原句与卷积核分别为[2,768]、[3,768]、[4,768]且channels为2的filtet进行卷积运算得到6个一维向量
    • 随后将每个一维向量中取出最大值,将这6个最大值拼接成[6,2]的Tensor
    • 最后进行常规的分类预测

    三、Experiment

    3.1 实验一:模拟CNN观察各网络层尺寸

    题目:自定义输入图片尺寸,卷积核数量,观察CNN输入、卷积层、输出的各个尺寸分别为多少?

    1. import torch
    2. in_channel, out_channel = 5, 10 # 输入输出的channel
    3. width, height = 100, 100 # 一张照片的长宽
    4. kernel_size = 3 # 卷积核的数量
    5. batch_size = 1 # 当前训练的batch序号
    6. input = torch.randn(batch_size, in_channel, width, height) # 假设有一张照片输入进来
    7. conv_layer = torch.nn.Conv2d(in_channel, out_channel, kernel_size=kernel_size) # 定义卷积层
    8. output = conv_layer(input)
    9. print(input.shape)
    10. print(output.shape)
    11. print(conv_layer.weight.shape)

    Result 

    1 输入的channel为5,输出的channel为10,而卷积层的卷积核的channel为5,一共有10个

    2 该CNN没有Padding操作,输出尺寸98=输入尺寸100-filter尺寸3+1

    3.2 Mnist数据集

     数据集我们是使用torchvision,torchvision是专门服务于Pytorch的图形库

    torchvision.datasets:加载图形数据集

    tramsforms.Compose:各类图片变换,如裁剪,旋转,标准化。按照左到右顺序进行转换

    transforms.ToTensor:转换一张图片或Numpy数组为Tensor张量类型

    transforms.Normalize:使用平均值和标准误差来标准化图片,其中0.1307和0.3081超参数是官方提供的

    MNIST数据集是手写数字的图片, 通过以下代码测试,我们可以发现该数据集的训练集一共有60k条,测试集有10k条,每条数据由28*28的图片构成

    1. print('test_loader.dataset',test_loader.dataset)
    2. print('train_loader.dataset',train_loader.dataset)
    3. imgs,_=next(iter(test_loader))
    4. print(imgs.shape)

    3.3 实验二:LeNet-5 模型

    实验二:构建LeNet-5模型对经典手写数字Mnist数据集进行分类识别

    神经网络架构图

    Code 

    1. import torch
    2. from torch import nn
    3. from torchvision import transforms
    4. from torchvision import datasets
    5. from torch.utils.data import DataLoader
    6. import torch.nn.functional as F
    7. import torch.optim as optim
    8. import matplotlib.pyplot as plt
    9. # Prepare for the datasets
    10. batch_size = 64
    11. EPOCH = 100
    12. transform = transforms.Compose(
    13. [transforms.ToTensor(), transforms.Normalize((0.1307,), (0.3081,))]) # Transform picture to tensor
    14. train_dataset = datasets.MNIST(root='../dataset/mnist/', train=True, download=True, transform=transform)
    15. train_loader = DataLoader(train_dataset, shuffle=True, batch_size=batch_size)
    16. test_dataset = datasets.MNIST(root='../dataset/mnist/', train=False, download=True, transform=transform)
    17. test_loader = DataLoader(test_dataset, shuffle=False, batch_size=batch_size)
    18. class LeNet(torch.nn.Module):
    19. def __init__(self):
    20. super(LeNet,self).__init__()
    21. self.conv=nn.Sequential(
    22. nn.Conv2d(1,6,5),
    23. nn.Sigmoid(),
    24. nn.MaxPool2d(2,2),
    25. nn.Conv2d(6,16,5),
    26. nn.Sigmoid(),
    27. nn.MaxPool2d(2,2)
    28. )
    29. self.fc=nn.Sequential(
    30. nn.Linear(16*4*4,120),
    31. nn.Sigmoid(),
    32. nn.Linear(120,84),
    33. nn.Sigmoid(),
    34. nn.Linear(84,10)
    35. )
    36. def forward(self,x):
    37. batch_size=x.size(0)# Get the batch_size
    38. x=self.conv(x)
    39. x=x.view(batch_size, -1)
    40. x=self.fc(x)
    41. return x
    42. model = LeNet()
    43. device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    44. model.to(device)
    45. # Define criterion and optimizer
    46. criterion = torch.nn.CrossEntropyLoss()
    47. optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.5) # momentum是动量,主要解决初始化数值特殊陷入局部最优问题
    48. def train(epoch):
    49. running_loss = 0.0
    50. for batch_index, data in enumerate(train_loader, 0):
    51. inputs, labels = data
    52. inputs, labels = inputs.to(device), labels.to(device)
    53. outputs = model(inputs)
    54. loss = criterion(outputs, labels)
    55. running_loss += loss.item()
    56. optimizer.zero_grad()
    57. loss.backward()
    58. optimizer.step()
    59. if batch_index % 200 == 199:
    60. print('Epoch:[%d/%d] batch_index: %d loss: %.6f' % (epoch + 1, EPOCH, batch_index + 1, running_loss / 300))
    61. running_loss = 0.0
    62. def test():
    63. correct = 0
    64. total = 0
    65. with torch.no_grad():
    66. for data in test_loader:
    67. images, labels = data
    68. images, labels = images.to(device), labels.to(device)
    69. outputs = model(images) # outputs.shape=[64,10]
    70. _, predicted = torch.max(outputs.data, dim=1) # predicted.shape=[64]
    71. total += labels.size(0) # Add every batch.size
    72. correct += (predicted == labels).sum().item()
    73. print('accuracy on test set: %.6f %% ' % (100 * correct / total))
    74. return correct / total
    75. if __name__ == '__main__':
    76. epoch_list = []
    77. acc_list = []
    78. for epoch in range(EPOCH):
    79. train(epoch)
    80. acc = test()
    81. epoch_list.append(epoch)
    82. acc_list.append(acc)
    83. plt.plot(epoch_list, acc_list)
    84. plt.ylabel('accuracy')
    85. plt.xlabel('epoch')
    86. plt.show()

    Result

    最终准确率在98%左右

    3.4 实验三:AlexNet 模型(改编版)

    实验三:构建AlexN模型改编版对经典手写数字Mnist数据集进行分类识别

    神经网络架构图

    我们使用了3个CNN,将其串行连接,随后将其Flatten成一维向量,放入到两个FNN中进行下游分类任务

    这里的两个FNN都没有加激活函数,大家可能会对此感到疑惑,其实这主要是因为该数据集和网络模型过于简单,更符合于线性规则

    代码

    1. import torch
    2. from torchvision import transforms
    3. from torchvision import datasets
    4. from torch.utils.data import DataLoader
    5. import torch.nn.functional as F
    6. import torch.optim as optim
    7. import matplotlib.pyplot as plt
    8. # Prepare for the datasets
    9. batch_size = 64
    10. EPOCH = 10
    11. transform = transforms.Compose(
    12. [transforms.ToTensor(), transforms.Normalize((0.1307,), (0.3081,))]) # Transform picture to tensor
    13. train_dataset = datasets.MNIST(root='../dataset/mnist/', train=True, download=True, transform=transform)
    14. train_loader = DataLoader(train_dataset, shuffle=True, batch_size=batch_size)
    15. test_dataset = datasets.MNIST(root='../dataset/mnist/', train=False, download=True, transform=transform)
    16. test_loader = DataLoader(test_dataset, shuffle=False, batch_size=batch_size)
    17. # Define the CNN_model
    18. class CNN_Net(torch.nn.Module):
    19. def __init__(self):
    20. super(CNN_Net, self).__init__()
    21. self.conv1 = torch.nn.Conv2d(1, 10, kernel_size=5)
    22. self.conv2 = torch.nn.Conv2d(10, 20, kernel_size=3)
    23. self.conv3 = torch.nn.Conv2d(20, 40, kernel_size=2)
    24. self.pooling = torch.nn.MaxPool2d(2)
    25. self.fc1 = torch.nn.Linear(640, 160)
    26. self.fc2 = torch.nn.Linear(160, 10)
    27. def forward(self, x):
    28. batch_size = x.size(0)
    29. x = F.relu(self.pooling(self.conv1(x))) # conv1+pooling
    30. x = F.relu(self.pooling(self.conv2(x))) # conv2+pooling
    31. x = F.relu(self.conv3(x))
    32. x = x.view(batch_size, -1) # flatten
    33. x = self.fc1(x) # FNN
    34. x = self.fc2(x)
    35. return x
    36. model = CNN_Net()
    37. device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    38. model.to(device)
    39. # Define criterion and optimizer
    40. criterion = torch.nn.CrossEntropyLoss()
    41. optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.5) # momentum是动量,主要解决初始化数值特殊陷入局部最优问题
    42. def train(epoch):
    43. running_loss = 0.0
    44. for batch_index, data in enumerate(train_loader, 0):
    45. inputs, labels = data
    46. inputs, labels = inputs.to(device), labels.to(device)
    47. outputs = model(inputs)
    48. loss = criterion(outputs, labels)
    49. running_loss += loss.item()
    50. optimizer.zero_grad()
    51. loss.backward()
    52. optimizer.step()
    53. if batch_index % 200 == 199:
    54. print('Epoch:[%d/%d] batch_index: %d loss: %.6f' % (epoch + 1,EPOCH, batch_index + 1, running_loss / 300))
    55. running_loss = 0.0
    56. def test():
    57. correct = 0
    58. total = 0
    59. with torch.no_grad():
    60. for data in test_loader:
    61. images, labels = data
    62. images, labels = images.to(device), labels.to(device)
    63. outputs = model(images) # outputs.shape=[64,10]
    64. _, predicted = torch.max(outputs.data, dim=1) # predicted.shape=[64]
    65. total += labels.size(0) # Add every batch.size
    66. correct += (predicted == labels).sum().item()
    67. print('accuracy on test set: %.6f %% ' % (100 * correct / total))
    68. return correct / total
    69. if __name__ == '__main__':
    70. epoch_list = []
    71. acc_list = []
    72. for epoch in range(EPOCH):
    73. train(epoch)
    74. acc = test()
    75. epoch_list.append(epoch)
    76. acc_list.append(acc)
    77. plt.plot(epoch_list, acc_list)
    78. plt.ylabel('accuracy')
    79. plt.xlabel('epoch')
    80. plt.show()

    Result 

     

     可以看到随着训练的进行,该网络模型准确率上升,最终达到了99.12%

     3.5 实验四:VGG16模型

    题目:构建GoogleNet模型来对Mnist模型进行分类预测

    首先看看VGG16的原始模型长啥样 

    其实也非常简单,只用(2,2)或(3,3)卷积核的卷积层和Pool(2,2)的池化层进行拼接

    但是由于我们的图像是28*28的,因此我对原始模型进行了部分的小改

    首先将28*28的图像扩展为64*64的,28*28实在玩不动这么多卷积的网络模型!

    网络架构图

    1. import torch
    2. from torchvision import transforms
    3. from torchvision import datasets
    4. from torch.utils.data import DataLoader
    5. import torch.nn.functional as F
    6. import torch.optim as optim
    7. import matplotlib.pyplot as plt
    8. # Prepare for the datasets
    9. batch_size = 64
    10. EPOCH = 10
    11. transform_VGG16 = transforms.Compose([transforms.Resize([64, 64]),
    12. transforms.ToTensor()])
    13. train_dataset = datasets.MNIST(root='../dataset/mnist/', train=True, download=True, transform=transform_VGG16)
    14. train_loader = DataLoader(train_dataset, shuffle=True, batch_size=batch_size)
    15. test_dataset = datasets.MNIST(root='../dataset/mnist/', train=False, download=True, transform=transform_VGG16)
    16. test_loader = DataLoader(test_dataset, shuffle=False, batch_size=batch_size)
    17. # Define the CNN_model
    18. class VGG16(torch.nn.Module):
    19. def __init__(self):
    20. super(VGG16, self).__init__()
    21. self.block1 = nn.Sequential(
    22. nn.Conv2d(1, 64, 3, 1, 1),
    23. nn.ReLU(),
    24. nn.Conv2d(64, 64, 3, 1, 1),
    25. nn.ReLU(),
    26. nn.MaxPool2d(2, 2)
    27. )
    28. self.block2 = nn.Sequential(
    29. nn.Conv2d(64, 128, 3, 1, 1),
    30. nn.ReLU(),
    31. nn.Conv2d(128, 128, 3, 1, 1),
    32. nn.ReLU(),
    33. nn.MaxPool2d(2, 2)
    34. )
    35. self.block3 = nn.Sequential(
    36. nn.Conv2d(128, 256, 3, 1, 1),
    37. nn.ReLU(),
    38. nn.Conv2d(256, 256, 3, 1, 1),
    39. nn.ReLU(),
    40. nn.Conv2d(256, 256, 3, 1, 1),
    41. nn.ReLU(),
    42. nn.MaxPool2d(2, 2)
    43. )
    44. self.block4 = nn.Sequential(
    45. nn.Conv2d(256, 512, 3, 1, 1),
    46. nn.ReLU(),
    47. nn.Conv2d(512, 512, 3, 1, 1),
    48. nn.ReLU(),
    49. nn.Conv2d(512, 512, 3, 1, 1),
    50. nn.ReLU(),
    51. nn.MaxPool2d(2, 2)
    52. )
    53. self.block5 = nn.Sequential(
    54. nn.Conv2d(512, 512, 3, 1, 1),
    55. nn.ReLU(),
    56. nn.Conv2d(512, 512, 3, 1, 1),
    57. nn.ReLU(),
    58. nn.Conv2d(512, 512, 3, 1, 1),
    59. nn.ReLU(),
    60. nn.MaxPool2d(2, 2)
    61. )
    62. self.fnn = nn.Sequential(
    63. nn.Linear(2 * 2 * 512, 512),
    64. nn.ReLU(),
    65. nn.Linear(512, 512),
    66. nn.ReLU(),
    67. nn.Linear(512, 256),
    68. nn.ReLU(),
    69. nn.Linear(256, 10)
    70. )
    71. def forward(self, x):
    72. batch_size = x.size(0)
    73. x = self.block1(x)
    74. x = self.block2(x)
    75. x = self.block3(x)
    76. x = self.block4(x)
    77. x = self.block5(x)
    78. x = x.view(batch_size, -1)
    79. x = self.fnn(x)
    80. return x
    81. model = VGG16()
    82. device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    83. model.to(device)
    84. # Define criterion and optimizer
    85. criterion = torch.nn.CrossEntropyLoss()
    86. optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.5) # momentum是动量,主要解决初始化数值特殊陷入局部最优问题
    87. def train(epoch):
    88. running_loss = 0.0
    89. for batch_index, data in enumerate(train_loader, 0):
    90. inputs, labels = data
    91. inputs, labels = inputs.to(device), labels.to(device)
    92. outputs = model(inputs)
    93. loss = criterion(outputs, labels)
    94. running_loss += loss.item()
    95. optimizer.zero_grad()
    96. loss.backward()
    97. optimizer.step()
    98. if batch_index % 200 == 199:
    99. print('Epoch:[%d/%d] batch_index: %d loss: %.6f' % (epoch + 1,EPOCH, batch_index + 1, running_loss / 300))
    100. running_loss = 0.0
    101. def test():
    102. correct = 0
    103. total = 0
    104. with torch.no_grad():
    105. for data in test_loader:
    106. images, labels = data
    107. images, labels = images.to(device), labels.to(device)
    108. outputs = model(images) # outputs.shape=[64,10]
    109. _, predicted = torch.max(outputs.data, dim=1) # predicted.shape=[64]
    110. total += labels.size(0) # Add every batch.size
    111. correct += (predicted == labels).sum().item()
    112. print('accuracy on test set: %.6f %% ' % (100 * correct / total))
    113. return correct / total
    114. if __name__ == '__main__':
    115. epoch_list = []
    116. acc_list = []
    117. for epoch in range(EPOCH):
    118. train(epoch)
    119. acc = test()
    120. epoch_list.append(epoch)
    121. acc_list.append(acc)
    122. plt.plot(epoch_list, acc_list)
    123. plt.ylabel('accuracy')
    124. plt.xlabel('epoch')
    125. plt.show()

     

     最终的准确率也是在99%左右

    3.6 实验五:GoogleNet模型

    题目:构建GoogleNet模型来对Mnist模型进行分类预测

    1. import torch
    2. from torch import nn
    3. from torchvision import transforms
    4. from torchvision import datasets
    5. from torch.utils.data import DataLoader
    6. import torch.nn.functional as F
    7. import torch.optim as optim
    8. import matplotlib.pyplot as plt
    9. # Prepare for the datasets
    10. batch_size = 64
    11. EPOCH = 30
    12. transform = transforms.Compose(
    13. [transforms.ToTensor(), transforms.Normalize((0.1307,), (0.3081,))]) # Transform picture to tensor
    14. train_dataset = datasets.MNIST(root='../dataset/mnist/', train=True, download=True, transform=transform)
    15. train_loader = DataLoader(train_dataset, shuffle=True, batch_size=batch_size)
    16. test_dataset = datasets.MNIST(root='../dataset/mnist/', train=False, download=True, transform=transform)
    17. test_loader = DataLoader(test_dataset, shuffle=False, batch_size=batch_size)
    18. # GoogleNet_Inception
    19. class InceptionA(nn.Module):
    20. def __init__(self, in_channels):
    21. super(InceptionA, self).__init__()
    22. self.branch1x1 = nn.Conv2d(in_channels, 16, kernel_size=1)
    23. self.branch5x5_1 = nn.Conv2d(in_channels, 16, kernel_size=1)
    24. self.branch5x5_2 = nn.Conv2d(16, 24, kernel_size=5, padding=2)
    25. self.branch3x3_1 = nn.Conv2d(in_channels, 16, kernel_size=1)
    26. self.branch3x3_2 = nn.Conv2d(16, 24, kernel_size=3, padding=1)
    27. self.branch3x3_3 = nn.Conv2d(24, 24, kernel_size=3, padding=1)
    28. self.branch_pool = nn.Conv2d(in_channels, 24, kernel_size=1)
    29. def forward(self, x):
    30. branch1x1 = self.branch1x1(x)
    31. branch5x5 = self.branch5x5_1(x)
    32. branch5x5 = self.branch5x5_2(branch5x5)
    33. branch3x3 = self.branch3x3_1(x)
    34. branch3x3 = self.branch3x3_2(branch3x3)
    35. branch3x3 = self.branch3x3_3(branch3x3)
    36. branch_pool = F.avg_pool2d(x, kernel_size=3, stride=1, padding=1)
    37. branch_pool = self.branch_pool(branch_pool)
    38. outputs = [branch1x1, branch5x5, branch3x3, branch_pool]
    39. return torch.cat(outputs, dim=1) # b,c,w,h c对应的是dim=1
    40. class GoogleNet(nn.Module):
    41. def __init__(self):
    42. super(GoogleNet, self).__init__()
    43. self.conv1 = nn.Conv2d(1, 10, kernel_size=5)
    44. self.conv2 = nn.Conv2d(88, 20, kernel_size=5) # 88 = 24x3 + 16
    45. self.incep1 = InceptionA(in_channels=10) # 与conv1 中的10对应
    46. self.incep2 = InceptionA(in_channels=20) # 与conv2 中的20对应
    47. self.mp = nn.MaxPool2d(2)
    48. self.fc = nn.Linear(1408, 10)
    49. def forward(self, x):
    50. in_size = x.size(0)
    51. x = F.relu(self.mp(self.conv1(x)))
    52. x = self.incep1(x)
    53. x = F.relu(self.mp(self.conv2(x)))
    54. x = self.incep2(x)
    55. x = x.view(in_size, -1)
    56. x = self.fc(x)
    57. return x
    58. model = GoogleNet()
    59. device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    60. model.to(device)
    61. # Define criterion and optimizer
    62. criterion = torch.nn.CrossEntropyLoss()
    63. optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.5) # momentum是动量,主要解决初始化数值特殊陷入局部最优问题
    64. def train(epoch):
    65. running_loss = 0.0
    66. for batch_index, data in enumerate(train_loader, 0):
    67. inputs, labels = data
    68. inputs, labels = inputs.to(device), labels.to(device)
    69. outputs = model(inputs)
    70. loss = criterion(outputs, labels)
    71. running_loss += loss.item()
    72. optimizer.zero_grad()
    73. loss.backward()
    74. optimizer.step()
    75. if batch_index % 200 == 199:
    76. print('Epoch:[%d/%d] batch_index: %d loss: %.6f' % (epoch + 1, EPOCH, batch_index + 1, running_loss / 300))
    77. running_loss = 0.0
    78. def test():
    79. correct = 0
    80. total = 0
    81. with torch.no_grad():
    82. for data in test_loader:
    83. images, labels = data
    84. images, labels = images.to(device), labels.to(device)
    85. outputs = model(images) # outputs.shape=[64,10]
    86. _, predicted = torch.max(outputs.data, dim=1) # predicted.shape=[64]
    87. total += labels.size(0) # Add every batch.size
    88. correct += (predicted == labels).sum().item()
    89. print('accuracy on test set: %.6f %% ' % (100 * correct / total))
    90. return correct / total
    91. if __name__ == '__main__':
    92. epoch_list = []
    93. acc_list = []
    94. for epoch in range(EPOCH):
    95. train(epoch)
    96. acc = test()
    97. epoch_list.append(epoch)
    98. acc_list.append(acc)
    99. plt.plot(epoch_list, acc_list)
    100. plt.ylabel('accuracy')
    101. plt.xlabel('epoch')
    102. plt.show()

    Result

     最终的准确率也在99%左右

    3.7 实验六:TextCnn

    题目:使用Bert+TextCNN对IMDB进行文本情感分析

    该题的完整工程代码可参考这篇文章,在本节中只描述TextCNN代码模块

    1. class TextCNN_Model(nn.Module):
    2. def __init__(self, base_model, num_classes):
    3. super().__init__()
    4. self.base_model = base_model
    5. self.num_classes = num_classes
    6. for param in base_model.parameters():
    7. param.requires_grad = (True)
    8. # Define the hyperparameters
    9. self.filter_sizes = [2, 3, 4]
    10. self.num_filters = 2
    11. self.encode_layer = 12
    12. # TextCNN
    13. self.convs = nn.ModuleList(
    14. [nn.Conv2d(in_channels=1, out_channels=self.num_filters,
    15. kernel_size=(K, self.base_model.config.hidden_size)) for K in self.filter_sizes]
    16. )
    17. self.block = nn.Sequential(
    18. nn.Dropout(0.5),
    19. nn.Linear(self.num_filters * len(self.filter_sizes), self.num_classes),
    20. nn.Softmax(dim=1)
    21. )
    22. def conv_pool(self, tokens, conv):
    23. tokens = conv(tokens)
    24. tokens = F.relu(tokens)
    25. tokens = tokens.squeeze(3)
    26. tokens = F.max_pool1d(tokens, tokens.size(2))
    27. out = tokens.squeeze(2)
    28. return out
    29. def forward(self, inputs):
    30. raw_outputs = self.base_model(**inputs)
    31. tokens = raw_outputs.last_hidden_state.unsqueeze(1)
    32. out = torch.cat([self.conv_pool(tokens, conv) for conv in self.convs],
    33. 1)
    34. predicts = self.block(out)
    35. return predicts

    其准确率也是可以达到92.30%

    参考资料

    《机器学习》周志华

    《深度学习与机器学习》吴恩达

    《神经网络与与深度学习》邱锡鹏

    《Pytorch深度学习实战》刘二大人

  • 相关阅读:
    记录一下 ThinkPHP 使用JWT进行身份验证
    用NetworkX生成并绘制(带权)无向图
    java 版本企业招标投标管理系统源码+多个行业+tbms+及时准确+全程电子化
    基于R语言分位数回归丨线性回归假设与分位数函数、线性分位数回归 、贝叶斯分位数回归、超越线性分位数回归等
    聊天信息框显示消息
    FusionCharts Suite XT
    52-C语言-文件问题-把字符串中的小写字母变为大写字母,并输出到磁盘文件“test”中,输入的字符串以‘!’结束
    hero博客搭建
    Flutter-自定义之钟表
    顺序表--数据结构第一关
  • 原文地址:https://blog.csdn.net/ccaoshangfei/article/details/126585010