• Pytorch深度学习快速入门—LeNet简单介绍(附代码)


    目录

    一、网络模型结构

    二、各层参数详解

    2.1 INPUT层-输入层

    2.2 C1层-卷积层

    2.3 S2层-池化层(下采样层)

    2.4 C3层-卷积层

    2.5 S4层-池化层(下采样层)

    2.6 C5层-卷积层

    2.7 F6层-全连接层

    2.8 Output层-全连接层

    三、代码实现(采用的激活函数为relu函数)

    3.1 搭建网络框架

    3.2 定义数据集

    3.3 定义损失函数与优化器

    3.4 训练网络

    3.5 测试网络

    四、小结


    一、网络模型结构

            LeNet是具有代表性的CNN,在1998年被提出,是进行手写数字识别的网络,是其他深度学习网络模型的基础。其网络模型结构如下图所示,它具有连续的卷积层和池化层,最后经全连接层输出结果。

    二、各层参数详解

    2.1 INPUT层-输入层

            数据input层,输入图像的尺寸为:32*32大小的一维一通道图片。

            注意:①灰度图像是单通道图像,其中每个像素只携带有关光强度的信息;

                       ②RGB图像是彩色图像,为三通道图像;

                       ③传统上输入层不被视为网络层次结构之一,因此输入层不算LeNet的网络结构。

    2.2 C1层-卷积层

           输入数据(输入特征图input feature map):32*32

           卷积核大小:5*5

    计算公式:

    height_{out}=\frac{height_{in}-height_{kernel}+2*padding}{stride}+1width_{out}=\frac{width_{out}-widtht_{kernel}+2*padding}{stride}+1

    其中,height_{in}是指输入图片的高度;width_{in}是指输入图片的宽度;height_{kernel}是指卷积核的大小;padding是指向图片外面补边,默认为0;S是指步长,卷积核遍历图片的步长,默认为1。

           卷积核种类(通道数):6

           输出数据(输出特征图output feature map):28*28

    2.3 S2层-池化层(下采样层)

           池化是缩小高、长方向上的空间的运算。

           输入数据:28*28

           采样区域:2*2

           采样种类(通道数):6

           输出数据:14*14

    注意:①经过池化运算,输入数据和输出数据的通道数不会发生变化。

    ②此时,S2中每个特征图的大小是C1中每个特征图大小的1/4.

    2.4 C3层-卷积层

           输入数据:S2中所有6个或者几个特征map组合

           卷积核大小:5*5

           卷积核种类(通道数):16

           输出数据(输出特征图output feature map):10*10

    注意:C3中的每个特征map是连接到S2中的所有6个或者几个特征map的,表示本层的特征map是上一层提取到的特征map的不同组合。

    2.5 S4层-池化层(下采样层)

           输入数据:10*10

           采样区域:2*2

           采样种类(通道数):16

           输出数据:5*5

    2.6 C5层-卷积层

           输入数据:S4层的全部16个单元特征map(与s4全相连)

           卷积核大小:5*5

           卷积核种类(通道数):120

           输出数据(输出特征图output feature map):1*1

    2.7 F6层-全连接层

           输入数据:120维向量

           输出数据:84维向量

    2.8 Output层-全连接层

           输入数据:84维向量

           输出数据:10维向量

    三、代码实现(采用的激活函数为relu函数)

    3.1 搭建网络框架

    (1)导包:

    1. import torch
    2. import torch.nn as nn
    3. import torch.nn.functional as F

     (2)定义卷积神经网络:由于训练数据采用的是彩色图片(三通道),因此与上面介绍的通道数有出入。

    1. class Net(nn.Module):
    2. def __init__(self):
    3. super(Net,self).__init__()
    4. self.conv1 = nn.Conv2d(3,6,5)
    5. self.conv2 = nn.Conv2d(6,16,5)
    6. self.fc1 = nn.Linear(16*5*5,120)
    7. self.fc2 = nn.Linear(120,84)
    8. self.fc3 = nn.Linear(84,10)
    9. def forward(self,x):
    10. x = self.conv1(x)
    11. x = F.relu(x)
    12. x = F.max_pool2d(x,(2,2))
    13. x = F.max_pool2d(F.relu(self.conv2(x)),2)
    14. x = x.view(-1,x.size()[1:].numel())
    15. x = F.relu(self.fc1(x))
    16. x = F.relu(self.fc2(x))
    17. x = self.fc3(x)
    18. return x

    (3)测试网络效果:相当于打印初始化部分,可以查看网络的结构

    1. net = Net()
    2. print(net)

    3.2 定义数据集

    (1)导包:

    1. import torchvision
    2. import torchvision.transforms as transforms

    (2)下载数据集:

            解决Downloading data from https://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz国内下载速度缓慢的问题:

            解决方法:

    ①下载文件:下载地址:https://pan.baidu.com/s/1Nh28RyfwPNNfe_sS8NBNUA 

            提取码:1h4x

    ②将下载好的文件重命名为cifar-10-batches-py.tar.gz

    ③将文件保存至相应地址下即可

    1. transform = transforms.Compose([
    2. transforms.ToTensor(),
    3. transforms.Normalize((0.5,0.5,0.5),(0.5,0.5,0.5))
    4. ])
    5. trainset = torchvision.datasets.CIFAR10(root='./data',train=True,download=True,transform=transform)
    6. testset = torchvision.datasets.CIFAR10(root='./data',train=False,download=True,transform=transform)
    7. trainloader = torch.utils.data.DataLoader(trainset,batch_size=4,shuffle=True,num_workers=0)
    8. testloader = torch.utils.data.DataLoader(testset,batch_size=4,shuffle=False,num_workers=0)

    (3)定义元组:进行类别名的中文转换

    classes = ('airplane','automobile','bird','car','deer','dog','frog','horse','ship','truck')

     (4)运行数据加载器:使用绘图函数查看数据加载效果

    1. import matplotlib.pyplot as plt
    2. import numpy as np
    3. def imshow(img):
    4. img = img / 2 + 0.5
    5. npimg = img.numpy()
    6. plt.imshow(np.transpose(npimg,(1,2,0)))
    7. plt.show()
    8. dataiter = iter(trainloader)
    9. images,labels = dataiter.next()
    10. imshow(torchvision.utils.make_grid(images))
    11. print(labels)
    12. print(labels[0],classes[labels[0]])
    13. print(' '.join(classes[labels[j]] for j in range(4)))

    3.3 定义损失函数与优化器

    (1)定义损失函数:交叉熵损失函数

    criterion = nn.CrossEntropyLoss()

    (2)定义优化器:让网络进行更新,不断更新好的参数,达到更好的效果

    1. import torch.optim as optim
    2. optimizer = optim.SGD(net.parameters(),lr=0.001,momentum=0.9)

    3.4 训练网络

    1. for epoch in range(2):
    2. running_loss = 0.0
    3. for i,data in enumerate(trainloader,0):
    4. inputs,labels = data
    5. optimizer.zero_grad()
    6. outputs = net(inputs)
    7. loss = criterion(outputs,labels)
    8. loss.backward()
    9. optimizer.step()
    10. running_loss += loss.item()
    11. if i % 2000 == 1999:
    12. print('[%d,%5d] loss:%.3f' % (epoch + 1,i+1,running_loss/2000))
    13. running_loss = 0.0
    14. print("Finish")

     

    3.5 测试网络

    (1)保存学习好的网络参数:将权重文件保存到本地,之后可以直接调用该文件

    1. PATH='./cifar_net.pth'
    2. torch.save(net.state_dict(),PATH)

    (2) 测试一组图片的训练效果

    1. dataiter = iter(testloader)
    2. images,labels = dataiter.next()
    3. imshow(torchvision.utils.make_grid(images))
    4. print('GroundTruth:',' '.join('%5s'% classes[labels[j]] for j in range(4)))

    (3)观察整个训练集的测试效果

    1. correct = 0
    2. total = 0
    3. with torch.no_grad():
    4. for data in testloader:
    5. images,labels = data
    6. outputs = net(images)
    7. _,predicted = torch.max(outputs,1)
    8. total += labels.size(0)
    9. correct += (predicted == labels).sum().item()
    10. correctGailv = 100*(correct / total)
    11. print(correctGailv)

            注意:可通过修改epoch中训练的轮数提高准确率。通过将epoch训练的轮数从2修改为10,准确率可得到较大提高,如下图所示:

     

    四、小结

            (1)与“目前的CNN”相比,LeNet有以下几个不同点:

            ①激活函数不同:LeNet使用sigmoid函数,而目前的CNN中主要使用ReLU函数,在上面的代码中也使用的是ReLU函数;

            ②原始的LeNet中使用子采样(subsampling)缩小中间数据的大小,而目前的CNN中Max池化是主流。

           (2)存在的疑问:

           ①卷积层的神经元节点个数与卷积层的输出通道数的关系?

            卷积层的神经元节点个数=卷积层的输出feature map的元素数目(即输出feature map的宽,高和通道数之积)。每个输出通道上的神经元是参数共享的,所以可认为卷积层的神经元节点个数=卷积层的输出feature map的通道数(即卷积核的个数)。

            ②各层之间的内部原理还存在疑问;

            ③理解前向传播、反向传播、梯度更新的一些概念。

    参考:

        ①:LeNet详解-CSDN博客

        ②:001网络初学_哔哩哔哩_bilibili

  • 相关阅读:
    【Java基础】Debug模式操作流程及案例:不死神兔、百钱百鸡
    4大功能更新,包含OFD预览、MP3动效、权限回收
    oracle创建表空间、用户、权限以及导入dmp文件
    SEGGER Embedded Studio 编译nrf52833报错 __vfprintf.h: No such file or directory
    golang工程——protobuf使用及原理
    .NET 6 实现滑动验证码(四)、扩展类
    【代码规范】switch 块级的作用域问题
    【进程 进程表】页表通常存在PCB中
    Java多线程4种拒绝策略
    前微软CEO的“离别礼物“:Cortana差点改名为“Bingo”
  • 原文地址:https://blog.csdn.net/m0_53096519/article/details/133996403