• MNIST手写数字辨识-cnn网路 (机器学习中的hello world,加油)


    用PyTorch实现MNIST手写数字识别(非常详细) - 知乎 (zhihu.com)

    参考来源(这篇文章非常适合入门来看,每个细节都讲解得很到位)

    一、模块函数用法-查漏补缺:
    1.关于torch.nn.functional.max_pool2d()的用法:

    上述示例中,输入张量 input 经过最大池化操作后,使用了 kernel_size=2stride=2,所以输出张量 output 的高度和宽度均为输入的一半(32/2=16)。

    2.pytorch中的view函数的用法:

    http://t.csdn.cn/AAhdH

    这一篇文章写得非常好

    3.关于f.log_softmax(x,dim = -1)这个先进行softmax,再取log的函数的讲解:

    http://t.csdn.cn/GIJ7g

    这篇文章讲解得非常好,补充一点,dim的default值和softmax一样,都是-1,也就是计算最里面那个维度的softmax的结果

    4.原来loss和counter计数器数组有这个作用:
    1. train_losses = []
    2. train_counter = []
    3. test_losses = []
    4. test_counter = [i*len(train_loader.dataset) for i in range(n_epochs + 1)]

    5.关于F.nll_loss这个损失函数:

    http://t.csdn.cn/ZoruZ

    总的来说就是一句话“损失函数 nn.CrossEntropyLoss() 与 NLLLoss() 相同, 唯一的不同是它为我们去做 log_softmax.”

    这篇文章讲述得非常清楚

    6.关于loss.item()的作用:

    http://t.csdn.cn/AvrnJ

    这篇文章讲得非常清楚:

    就是输出loss这个数值,但是呢,是用非常高的精度进行输出的,一般我们进行一各batch的训练后,就会得到这一次的loss单个数值,需要输出的话,最好就用item()

    7.with torch.no_grad()的用法:

    http://t.csdn.cn/STaKp

    这篇文章讲述得非常清楚,就是不会进行gradient_descend操作,极大的节省了运算开销

    8.data.max()函数的用法:

    http://t.csdn.cn/aBmin

    上面那里讲得不太好,还是chatGPT比较优秀

    9.data.view_as()的用法:

    10.torch.eq的用法:

    http://t.csdn.cn/Tb0kY

    这篇文章讲述得非常清楚,也就是对张量中的数值逐个进行比较,

    返回的是同样形状的数据,每个位置要么True要么False,可以用.sum()求和得到True的总数

    顺便提一下torch.sum的用法,

    1. x = torch.tensor([[1, 2, 3], [4, 5, 6]])
    2. print(x.sum())

    输出的结果是21

    二、各个部分的代码和注释:
    1. #设置环境
    2. import torch
    3. import torchvision
    4. from torch.utils.data import DataLoader
    1. #准备数据集
    2. #1.设置必要的参数
    3. n_epochs = 3
    4. batch_size_train = 64 #所以呢,这个64其实就是下面train时候的batch_size大小
    5. batch_size_test = 1000
    6. learning_rate = 0.01
    7. momentum = 0.5
    8. log_interval = 10 #这个就是后面用来输出的间隔
    9. random_seed = 1
    10. torch.manual_seed(random_seed)

     

    1. #利用pytorch直接加载对应的train_data集 和 test_Data
    2. train_loader = torch.utils.data.DataLoader( #这里调用的是torch.utils.data.DataLoader的对象,实例化出train_dataloader
    3. #限免设置各个参数,比如,第一个就是Dataset参数,这里是引用MNIST作为参数,并且设置MNIST中的各个参数
    4. torchvision.datasets.MNIST('./data/', train=True, download=True, #设为train数据+下载
    5. transform=torchvision.transforms.Compose([ #对数据进行transform变换
    6. torchvision.transforms.ToTensor(), #先变tensor后进行Normlize
    7. torchvision.transforms.Normalize(
    8. (0.1307,), (0.3081,))
    9. ])),
    10. batch_size=batch_size_train, shuffle=True) #这个loader的后两个参数batch_size和shuffle
    11. #同样的道理设置test_data_loader
    12. test_loader = torch.utils.data.DataLoader(
    13. torchvision.datasets.MNIST('./data/', train=False, download=True,
    14. transform=torchvision.transforms.Compose([
    15. torchvision.transforms.ToTensor(),
    16. torchvision.transforms.Normalize(
    17. (0.1307,), (0.3081,))
    18. ])),
    19. batch_size=batch_size_test, shuffle=True)
    1. #查看一条数据:
    2. examples = enumerate(test_loader) #enumerate返回一个(index,data)的元组,本身是一个迭代器,可以用于遍历test_loader
    3. batch_idx, (example_data, example_targets) = next(examples)
    4. print(example_targets) #输出测试(这里的test是有answer作为label的)的1000各answer
    5. print(len(example_targets)) #总共1000各target
    6. print(example_data.shape) #一共有100028*28的黑白灰度图
    1. #利用matplotlib进行绘制得到某些数据的可视化结果
    2. import matplotlib.pyplot as plt
    3. fig = plt.figure() #创建一个fig对象
    4. for i in range(6):
    5. plt.subplot(2,3,i+1) #按照23列绘制6张图片
    6. plt.tight_layout() #设置紧密相连
    7. plt.imshow(example_data[i][0], cmap='gray', interpolation='none') #利用imshow在下方直接输出图像
    8. plt.title("Ground Truth: {}".format(example_targets[i]))#设置标题,就是label的数值
    9. plt.xticks([])
    10. plt.yticks([])
    11. plt.show()
    1. #定义neural network的结构
    2. import torch.nn as nn #引入neural network的库
    3. import torch.nn.functional as F #引入nn总的常用Func
    4. import torch.optim as optim #引入torch中的optimizer
    5. class Net(nn.Module): #继承nn中的module
    6. def __init__(self): #定义这个网络结构的构造函数
    7. super(Net, self).__init__() #继承nn.Module的初始化构造
    8. self.conv1 = nn.Conv2d(1, 10, kernel_size=5)#参数:输入channel、输出channel、卷积核5*5(filters),strdie(default =1),padding(default=0)
    9. #所以1*28*28的图像通过后,10*21*21(10是filters的数量)
    10. self.conv2 = nn.Conv2d(10, 20, kernel_size=5)
    11. self.conv2_drop = nn.Dropout2d() #这个函数http://t.csdn.cn/xK6og这篇文章讲得挺好的,就是让部分filters在某一层不工作,效果是有效防止overfit
    12. self.fc1 = nn.Linear(320, 50) #定义一个320 -->50 的Linear层函数
    13. self.fc2 = nn.Linear(50, 10) #定义一个50 -->10 的Linear层函数
    14. def forward(self, x): #下面就是直接进行整个network的作用过程定义了 , 输入1*28*28的灰度图
    15. x = F.relu(F.max_pool2d(self.conv1(x), 2)) #经过一个conv1卷积层后,经过12*2窗口的pooling得到,默认??padding=1,之后再算好了
    16. x = F.relu(F.max_pool2d(self.conv2_drop(self.conv2(x)), 2)) #再通过conv2之后->通过conv2_drop->通过max_pool2d
    17. x = x.view(-1, 320) #第二维是320,并自动计算第一维
    18. x = F.relu(self.fc1(x)) #通过一个linear层之后,又通过一个relu的激活函数,最后输出的是第二维是50的结果
    19. x = F.dropout(x, training=self.training) #只有在training模式下才会调用dropout(让某些神经元“熄火”喵)
    20. x = self.fc2(x) #再让x通过一个linear层,输出的结果是2维的数据,第二维(共10列)
    21. return F.log_softmax(x) #最后通过对最里面那一层softmax层后,取log对数
    1. #创建model对象+设置optimizer优化器
    2. network = Net()
    3. optimizer = optim.SGD(network.parameters(), lr=learning_rate,
    4. momentum=momentum) #lr和momentum都是上面设置好的
    1. #设置用于存储的数组结构:
    2. train_losses = []
    3. train_counter = [] #估计就是一个计数器的作用
    4. test_losses = []
    5. test_counter = [i*len(train_loader.dataset) for i in range(n_epochs + 1)]
    6. #print(test_counter)输出[0,60000,120000,180000]不知道再干啥,反正上面的n——epoch==3
    1. #定义这个train函数:
    2. def train(epoch): #这里的epoch是传递进来的参数
    3. network.train() #开启train模式
    4. for batch_idx, (data, target) in enumerate(train_loader):#迭代器:以batch为单位逐个从train_loader中获取 索引、data图像数据、label作为target数据
    5. optimizer.zero_grad() #因为torch中的grad是累加的,所以需要在每个batch训练之前利用optimizer.zero_grad()清零
    6. output = network(data) #将data图像数据通过network网络得到output输出结果
    7. loss = F.nll_loss(output, target) #这个loss_func只是比cross_entropy少一个对输入数据的log_softmax操作
    8. loss.backward()
    9. optimizer.step() #loss.backward + optimizer.step()常规更新模型参数的操作
    10. if batch_idx % log_interval == 0: #下面都是没啥用的间隔输出操作,上面设置的log_interval =10
    11. #每经过10各batch处理输出一次:
    12. #第几个epoch,第几个图像,总共的train有多少图像,已经完成了百分之几的batch,这个batch的loss值
    13. print('Train Epoch: {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format(
    14. epoch, batch_idx * len(data), len(train_loader.dataset),
    15. 100. * batch_idx / len(train_loader), loss.item()))
    16. #将这个batch的loss值添加到train_losses数组中(注意,这里好像是每隔10个batch记录一次loss)
    17. train_losses.append(loss.item())
    18. train_counter.append( #在counter中记录这个batch在考虑epoch情况下的位置
    19. (batch_idx*64) + ((epoch-1)*len(train_loader.dataset))) #这个64是train时候的batch_size上面写了
    20. #将当前的network的参数状态state_dice存储到对应的路径下, 同时optimizer的状态也要存储?why感觉optim没啥用
    21. torch.save(network.state_dict(), './model.pth')
    22. torch.save(optimizer.state_dict(), './optimizer.pth')
    23. #train(1) #传递参数epoch=1进行train一次
    24. #这里的train有个地方很有意思,它只是输出loss,没有利用argmax计算出对应的one-hot vec,从而没法和label进行比较得到acc
    1. #定义test函数,并且进行test测试 (不用想,大概率和train的内容没有太大的区别,不过是少了backward和step的更新)
    2. def test():
    3. network.eval() #开启model的eval模式
    4. test_loss = 0 #设置loss和acc初值
    5. correct = 0
    6. with torch.no_grad(): #不计算SGD
    7. for data, target in test_loader: #非enumerate,非迭代器版本,不会返回索引,获取data图像batch和target的labels数值
    8. output = network(data) #调用network获取output结果
    9. test_loss += F.nll_loss(output, target, size_average=False).item() #这里计算出这一次的 output和target之间的loss
    10. pred = output.data.max(1, keepdim=True)[1] #通过data.max函数获取对应的索引,这是一个索引的数组,因为是一个batch一起预测的
    11. correct += pred.eq(target.data.view_as(pred)).sum() #如果pred和target数组对应位置比较,计算总共相等的位置的数量
    12. test_loss /= len(test_loader.dataset) #计算平均的loss
    13. test_losses.append(test_loss) #将这一次的平均loss加入到test_losses数组中
    14. #输出:
    15. #这一次的平均loss,总数中正确预测的数目,正确率
    16. print('\nTest set: Avg. loss: {:.4f}, Accuracy: {}/{} ({:.0f}%)\n'.format(
    17. test_loss, correct, len(test_loader.dataset),
    18. 100. * correct / len(test_loader.dataset)))
    19. #test()#调用上述定义的test函数
    1. #再调用一次test()
    2. test()
    3. for epoch in range(1, n_epochs + 1): #调用n_epochs个数的train和测试结果
    4. train(epoch)
    5. test()
    1. #下面对上述获取到的数据进行图像的绘制
    2. #绘制图像一开始出错了,我怀疑是我多进行了一次test(),导致x和y的大小不对应
    3. import matplotlib.pyplot as plt
    4. fig = plt.figure() #创建figure对象
    5. plt.plot(train_counter, train_losses, color='blue') #绘制曲线图,x是train计数,y是trainloss
    6. #plt.scatter(test_counter, test_losses, color='red') #绘制散点图,x是test_counter计数,y是test_losses数据
    7. plt.legend(['Train Loss', 'Test Loss'], loc='upper right')
    8. plt.xlabel('number of training examples seen') #x轴标题
    9. plt.ylabel('negative log likelihood loss') #y轴标题
    10. plt.show() #绘制结果
    1. #抽取几个直观的例子进行测试:
    2. examples = enumerate(test_loader) #获取test_loader的迭代器
    3. batch_idx, (example_data, example_targets) = next(examples) #获取第一个test_loader中的batch
    4. with torch.no_grad():
    5. output = network(example_data) #将example_data数据通过network得到output
    6. fig = plt.figure() #创建figure对象
    7. for i in range(6): #构建23列的图像排列
    8. plt.subplot(2,3,i+1)
    9. plt.tight_layout() #紧密排列
    10. plt.imshow(example_data[i][0], cmap='gray', interpolation='none') #利用imshow输出example图像
    11. plt.title("Prediction: {}".format(
    12. output.data.max(1, keepdim=True)[1][i].item())) #输出预测结果,结果非常美妙
    13. plt.xticks([])
    14. plt.yticks([])
    15. plt.show() #绘制-这个似乎可以不用
    1. #为了能够持续训练,这里考虑 获取 上一次的 model_dict 和 optim_dict
    2. continued_network = Net()
    3. continued_optimizer = optim.SGD(network.parameters(), lr=learning_rate,
    4. momentum=momentum)
    5. network_state_dict = torch.load('model.pth')
    6. continued_network.load_state_dict(network_state_dict)
    7. optimizer_state_dict = torch.load('optimizer.pth')
    8. continued_optimizer.load_state_dict(optimizer_state_dict)
    9. #再接着上面练上6
    10. for i in range(4, 9):
    11. test_counter.append(i*len(train_loader.dataset))
    12. train(i)
    13. test()
    1. #同样进行图像的绘制
    2. fig = plt.figure()
    3. plt.plot(train_counter, train_losses, color='blue')
    4. plt.scatter(test_counter, test_losses, color='red') #因为之前多test了一次,所以这里应该还是会出错
    5. plt.legend(['Train Loss', 'Test Loss'], loc='upper right')
    6. plt.xlabel('number of training examples seen')
    7. plt.ylabel('negative log likelihood loss')
    8. plt.show()

    第一个再vscode完成的神经网络训练, 撒花庆祝!!🎉

  • 相关阅读:
    目标检测YOLO实战应用案例100讲-基于改进YOLO的车位导引
    Rust - 所有权
    10月26日星期四今日早报简报微语报早读
    在不使用PageHelper或Mybatis的情况下实现手动分页
    Linux:在线扩容
    使用nginx代理nacos导致nacos登录界面无法显示问题
    ASEMI整流桥KBPC3510,KBPC3510封装,KBPC3510应用
    HT for Web (Hightopo) 使用心得(1)- 基本概念
    WebDAV之π-Disk派盘 + PassStore
    机器学习算法基础--逻辑回归简单处理mnist数据集项目
  • 原文地址:https://blog.csdn.net/xiao_ZHEDA/article/details/132760479