神经网络-最大池化的使用

文章

池化层的官方文档中介绍了很多种的池化方法，但是最常用的还是MaxPool2d,这里我们也用MaxPool2d来讲解，其他的类似，关键还是要学会看官方文档
概述：
最大池化目的就是为了保留输入的特征，但是同时把数据量减少，最大池化之后数据量就减少了，对于整个网路来说，进行计算的参数就变少了，就会训练的更快。
就相当于在网上看视频，视频又有1080P的，720P的，360P的，懂吧，1080P就相当于输入视频，720P的就相当于经过最大池化后的视频，720P也可以满足需求，网不行的时候不就可以看720P的呗。

什么是最大池化？
最大池化操作相当于核在图像上移动的时候，筛选出被核覆盖区域的最大值，注意核的移动步长是kernel_size。

说到MaxPool2d接口的使用这里，关键就是学会如何传参。

torch.nn.MaxPool2d(kernel_size, stride=None, padding=0, dilation=1, return_indices=False, ceil_mode=False)
1

参数说明

kernel_size – the size of the window to take a max over
stride – the stride of the window. Default value is kernel_size
padding – implicit zero padding to be added on both sides
dilation – a parameter that controls the stride of elements in the window
return_indices – if True, will return the max indices along with the outputs. Useful for torch.nn.MaxUnpool2d later
ceil_mode – when True, will use ceil instead of floor to compute the output shape

拎出几个常用的和大家说一下：

kernel_size传入的是常数的时候，则会生成一个大小为kernel_size X kernel_size大小的核，kernel_size传入的是元组的时候，则会生成一个规定高和宽的一个核。
说到Ceil_model参数，有些情况下，核无法全覆盖在图像上，只覆盖到了部分图像，另一部分已经到图像外面去了，Ceil_model就是决定这个时候，对于只覆盖了部分的这一块要不要进行最大池化操作，取出最大值,若Ceil_model为True，则经行最大池化操作，取出最大值，否则不进行最大池化操作，不取出最大值。可以看下图对Ceil_model参数进行理解：

过程：
在这里插入图片描述
结果：

MaxPool2d使用的示例代码如下：

import torch
import torchvision
from torch import nn
from torch.nn import MaxPool2d
from torch.utils.data import DataLoader
from torch.utils.tensorboard import SummaryWriter
dataset = torchvision.datasets.CIFAR10("CIFAR10",train=False,transform=torchvision.transforms.ToTensor(),download=True)
# 注意dataset中transform参数接收的是个对象，所以要加上括号,还有就是之后使用神经网络进行运算的时候需要的数据类型是tensor类型，所以transforms参数要加上。
dataloader = DataLoader(dataset,batch_size=64)

# 搭建神经网络
class Booze(nn.Module):

    # 继承nn.Module的初始化
    def __init__(self):
        super(Booze, self).__init__()
        self.maxpool1 = MaxPool2d(kernel_size=3,ceil_mode=True)

    # 重写forward函数
    def forward(self,x):
        output = self.maxpool1(x)
        return output


obj = Booze()

# 使用tensorboard可视化过程
writer = SummaryWriter("logs")
step = 0
for data in dataloader:
    imgs,targets = data
    writer.add_images("input",imgs,step)
    output = obj(imgs)
    writer.add_images("output",output,step)
    step+=1

writer.close()
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37

上述代码运行完，在pycharm下面的terminal窗口输入tensorboard --logdir=logs回车一查看：
在这里插入图片描述
效果如下：

在这里插入图片描述
从上面的结果可以看出来，经过最大池化处理的部分明显比原图像更模糊，但是和原图像一对比至少还看得出来原来的特征。

相关阅读:
OFDM PLCP
2023-9-12 多重背包问题(一)
JavaScript——数据类型、类型转换
js算法之旅：枚举
什么是DDoS攻击？怎么防御DDoS攻击？
算法进修Day-38
rpt层构建以及实现，220626，hm
一些可以参考的文档集合8
如何使用ChatGPT辅助设计工作
RNN/LSTM (三) 学习torchtext源码

原文地址：https://blog.csdn.net/booze_/article/details/125462744