【深度学习实验】卷积神经网络（四）：自定义二维汇聚层：最大汇聚（max pooling）和平均汇聚（average pooling）

【深度学习实验】卷积神经网络（四）：自定义二维汇聚层：最大汇聚（max pooling）和平均汇聚（average pooling）
目录

一、实验介绍

二、实验环境

1. 配置虚拟环境

2. 库版本介绍

三、实验内容

0. 导入必要的工具包

1. Conv2D（二维卷积层）

2. Pool2D（二维汇聚层）

理论知识

a. 初始化

b. 前向传播(最大汇聚层)

c. 前向传播(平均汇聚层)

d. 测试

一、实验介绍

本实验实现了一个自定义的二维汇聚层（池化层），包括前向传播中进行最大池化、平均池化等操作。

二、实验环境

本系列实验使用了PyTorch深度学习框架，相关操作如下：

1. 配置虚拟环境
```
conda create -n DL python=3.7 
```
```
conda activate DL
```
```
pip install torch==1.8.1+cu102 torchvision==0.9.1+cu102 torchaudio==0.8.1 -f https://download.pytorch.org/whl/torch_stable.html
```
```
conda install matplotlib
```
```
 conda install scikit-learn
```
2. 库版本介绍

软件包本实验版本目前最新版
matplotlib 3.5.3 3.8.0
numpy 1.21.6 1.26.0
python 3.7.16
scikit-learn 0.22.1 1.3.0
torch 1.8.1+cu102 2.0.1
torchaudio 0.8.1 2.0.2
torchvision 0.9.1+cu102 0.15.2

三、实验内容

ChatGPT：
卷积神经网络（Convolutional Neural Network，简称CNN）是一种深度学习模型，广泛应用于图像识别、计算机视觉和模式识别等领域。它的设计灵感来自于生物学中视觉皮层的工作原理。

卷积神经网络通过多个卷积层、池化层和全连接层组成。
- 卷积层主要用于提取图像的局部特征，通过卷积操作和激活函数的处理，可以学习到图像的特征表示。
- 池化层则用于降低特征图的维度，减少参数数量，同时保留主要的特征信息。
- 全连接层则用于将提取到的特征映射到不同类别的概率上，进行分类或回归任务。
卷积神经网络在图像处理方面具有很强的优势，它能够自动学习到具有层次结构的特征表示，并且对平移、缩放和旋转等图像变换具有一定的不变性。这些特点使得卷积神经网络成为图像分类、目标检测、语义分割等任务的首选模型。除了图像处理，卷积神经网络也可以应用于其他领域，如自然语言处理和时间序列分析。通过将文本或时间序列数据转换成二维形式，可以利用卷积神经网络进行相关任务的处理。
0. 导入必要的工具包
```
import torch
from torch import nn
import torch.nn.functional as F
```
1. Conv2D（二维卷积层）

【深度学习实验】卷积神经网络（三）：自定义二维卷积神经网络：步长和填充、输入输出通道_QomolangmaH的博客-CSDN博客https://blog.csdn.net/m0_63834988/article/details/133313330?spm=1001.2014.3001.5501

2. Pool2D（二维汇聚层）

理论知识

        汇聚层（池化层）是深度学习中常用的一种操作，其作用是进行特征选择，降低特征数量，从而减少参数数量。

        卷积层虽然可以显著减少网络中连接的数量，但特征映射组中的神经元个数并没有显著减少。如果后面接一个分类器，分类器的输入维数依然很高，很容易出现过拟合。

        在神经网络的卷积层之后通常会添加汇聚层。汇聚层通过将输入数据划分为不重叠的区域，并在每个区域中选择一个代表性的元素（例如最大值或平均值）来减小空间尺寸。这样可以在保留重要信息的同时，减少冗余和噪声，并提高计算效率。汇聚层的操作是局部的，因此网络可以对图像的平移、旋转和缩放等变换具有一定的不变性。

        常见的汇聚层有最大汇聚（max pooling）和平均汇聚（average pooling）。
- 最大汇聚从输入区域中选择最大的元素作为输出；
- 平均汇聚则计算输入区域的平均值作为输出；
- 这些汇聚操作可以在卷积神经网络中的多个层级上进行，以逐渐减小特征图的空间尺寸。
```
class Pool2D(nn.Module):
    def __init__(self, size=(2,2), mode='max', stride=1):
        super().__init__()
        self.mode = mode
        self.h, self.w = size
        self.stride = stride
        
    def forward(self, x):
        output = torch.zeros((x.shape[0], x.shape[1], (x.shape[2] - self.h + 1)//self.stride, (x.shape[3] - self.w + 1)//self.stride))
        for i in range(output.shape[2]):
            for j in range(output.shape[3]):
                if self.mode == 'max':
                    output[:, :, i, j] = x[:, :, i*self.stride: i*self.stride + self.w, j*self.stride: j*self.stride + self.h].max()
        return output
```
a. 初始化
- size参数用于指定池化窗口的大小，默认为(2, 2)，表示池化窗口的高度和宽度都为2。
- mode参数用于指定池化的模式，默认为'max'，表示最大池化操作。也可以选择'average'来进行平均池化操作。
- stride参数用于指定池化窗口的步幅，默认为1，表示窗口在输入上滑动的间距为1。
b. 前向传播(最大汇聚层)
- 根据输入x的形状创建一个与池化后输出相同形状的零张量output。
- 使用两个嵌套的循环遍历output张量的每个空间位置（高度和宽度）。
  - 在每个位置上，根据池化模式选择不同的操作。
  - 如果self.mode为'max'，则使用x张量切片操作获取对应池化窗口区域内的数据，并取最大值作为输出。
- 最后，返回池化后的输出张量output。
c. 前向传播(平均汇聚层)

只需在forward方法中将池化操作改为计算对应窗口区域内的平均值：
```
class Pool2D(nn.Module):
    def __init__(self, size=(2 ,2), mode='average', stride=1):
        super().__init__()
        self.mode = mode
        self.h, self.w = size
        self.stride = stride
 
    def forward(self, x):
        output = torch.zeros((x.shape[0], x.shape[1], (x.shape[2] - self.h + 1) // self.stride,
                              (x.shape[3] - self.w + 1) // self.stride))
        for i in range(output.shape[2]):
            for j in range(output.shape[3]):
                if self.mode == 'max':
                    output[:, :, i, j] = x[:, :, i* self.stride: i * self.stride + self.w,
                                         j * self.stride: j * self.stride + self.h].max()
                elif self.mode == 'average':
                    output[:, :, i, j] = x[:, :, i * self.stride: i * self.stride + self.w,
                                         j * self.stride: j * self.stride + self.h].mean()
        return output
```
d. 测试
```
fake_feature = torch.rand((3,2,5,5))
pool = Pool2D()
output = pool(fake_feature)
print(output.shape)
```
输出
```
torch.Size([3, 2, 4, 4])
```
相关阅读:
知识图谱-KGE-模型：概述
 LeetCode--578. 查询回答率最高的问题
 【计算机网络】数据链路层-MAC和ARP协议
 [持续更新]计算机经典面试题基础篇Day1
2023年CSP-S赛后总结（2023CSP-S题解+游记）
【Java八股文总结】之异常
 APS生产排产在包装行业的应用
 华为云云耀云服务器L实例评测｜ ultralytics最先进模型YOLOv8深度学习AI训练
 pip 换阿里源
 【c++入门（2）】并查集
原文地址：https://blog.csdn.net/m0_63834988/article/details/133322478

软件包	本实验版本	目前最新版
matplotlib	3.5.3	3.8.0
numpy	1.21.6	1.26.0
python	3.7.16
scikit-learn	0.22.1	1.3.0
torch	1.8.1+cu102	2.0.1
torchaudio	0.8.1	2.0.2
torchvision	0.9.1+cu102	0.15.2

一、实验介绍

二、实验环境

1. 配置虚拟环境

2. 库版本介绍

三、实验内容

0. 导入必要的工具包

1. Conv2D（二维卷积层）

2. Pool2D（二维汇聚层）

理论知识

a. 初始化

b. 前向传播(最大汇聚层)

c. 前向传播(平均汇聚层)

d. 测试