CNN 网络结构简介

本文通过整理李宏毅老师的机器学习教程的内容，介绍 CNN（卷积神经网络）的网络结构。

CNN 主要应用在图像识别（image classification, 图像分类）领域。

通常，输入的图片大小相同，如 $100 \times 100$ ，输出的分类为 one-hot 形式：
输入输出

输入数据的格式为 tensor（张量），维数为：宽度 $\times$ 高度 $\times$ channel（频道）数：

理解方式一：神经元视角（neuron version story）

如果使用全连接（fully connected network）的网络结构，参数量会非常大：
全连接网络

考虑到图片识别问题的特性，其实并不需要全连接的网络，下面基于此进行简化。

图像识别本质上是对图像中的各个部位进行识别，如一只鸟的喙、眼和爪等，因此每个神经元（neuron）只需输入图片的一部分即可，即感受野（receptive field）：

感受野

值得注意的是：

此外，感受野还可以有一些其他的操作：

总之，感受野可以任意设计。

最经典的感受野的设计如下：

由于同样的模式可能出现在图片的不同位置：
不同位置的相同模式

于是侦测不同位置的相同模式的神经元，其对应的参数相同，即参数共享：

侦测相同位置的神经元不能共享参数。

共享的参数叫做滤波器（filter）：
filter

综上所述，以上两种 CNN 对全连接网络的简化方式：
两种简化方式

将每个卷积层（convolutional layer）视为若干滤波器扫过整张图片，去识别对应的模式：
卷积层的 filter

filter 模式识别

同一卷积层的所有滤波器输出的所有数据叫做 feature map，它可以看成是另一张图片，只不过 channel 数量由 3 个（RGB）变成了滤波器的数量，因此下一层的滤波器的高度需要设为上一层的滤波器数量：

当网络更深时，同样大小的感受野所看到的范围会越来越大，例如，同样是 $\times 3$ 的感受野，在第二层就可以看到原图片中 $\times 5$ 的范围：
更大的范围

此外，第一种理解方式中的参数共享，即是把滤波器扫过整张图片的过程。

两种理解方式总结如下：
两种理解方式的总结

pooling 即 subsampling，是把一张大的图片缩小，以减少运算量的过程。
常见的 pooling 方式为 max pooling，即保留最大值：
max pooling 1

max pooling 2

通常是做一层或几层卷积后，做一次 pooling，整体网络结构如下：
含 pooling 的整体网络结构

但近年来，pooling 用得越来越少，甚至可有可无，因为其操作会影响性能，而运算资源又越来越强。

其中，rectifier nonlinearity 即为 ReLU。

此外，AlphaGo 没有使用 pooling。

CNN 无法处理图片放大缩小或旋转的情形，解决方案有：

相关阅读:
基于JavaWEB SpringBoot婚纱影楼摄影预约网站设计和实现
kafka的“直接内存映射技术”，有没有内存修改数据的问题？
敏感性分析一览
67基于matlab图像处理，包括颜色和亮度调整、翻转功能、空间滤波和去噪、频域滤波和去噪、噪声添加，形态学操作、边缘检测及示波器集成的GUI图像处理。
[数据分析] 矩形树图(Treemap)
dBm和asu关系
2022-08-30 第五组张明敏学习笔记
491.递增子序列
同花顺_代码解析_五彩K线
MySQL（二）——约束

原文地址：https://blog.csdn.net/Zhang_0702_China/article/details/134059372