本文通过整理李宏毅老师的机器学习教程的内容,介绍 CNN(卷积神经网络)的网络结构。
CNN 主要应用在图像识别(image classification, 图像分类)领域。
通常,输入的图片大小相同,如
100
×
100
100 \times 100
100×100,输出的分类为 one-hot 形式:
输入数据的格式为 tensor(张量),维数为:宽度
×
\times
× 高度
×
\times
× channel(频道)数:
如果使用全连接(fully connected network)的网络结构,参数量会非常大:
考虑到图片识别问题的特性,其实并不需要全连接的网络,下面基于此进行简化。
图像识别本质上是对图像中的各个部位进行识别,如一只鸟的喙、眼和爪等,因此每个神经元(neuron)只需输入图片的一部分即可,即感受野(receptive field):
值得注意的是:
此外,感受野还可以有一些其他的操作:
总之,感受野可以任意设计。
最经典的感受野的设计如下:
由于同样的模式可能出现在图片的不同位置:
于是侦测不同位置的相同模式的神经元,其对应的参数相同,即参数共享:
侦测相同位置的神经元不能共享参数。
共享的参数叫做滤波器(filter):
综上所述,以上两种 CNN 对全连接网络的简化方式:
将每个卷积层(convolutional layer)视为若干滤波器扫过整张图片,去识别对应的模式:
同一卷积层的所有滤波器输出的所有数据叫做 feature map,它可以看成是另一张图片,只不过 channel 数量由 3 个(RGB)变成了滤波器的数量,因此下一层的滤波器的高度需要设为上一层的滤波器数量:
当网络更深时,同样大小的感受野所看到的范围会越来越大,例如,同样是
3
×
3
3 \times 3
3×3 的感受野,在第二层就可以看到原图片中
5
×
5
5 \times 5
5×5 的范围:
此外,第一种理解方式中的参数共享,即是把滤波器扫过整张图片的过程。
两种理解方式总结如下:
pooling 即 subsampling,是把一张大的图片缩小,以减少运算量的过程。
常见的 pooling 方式为 max pooling,即保留最大值:
通常是做一层或几层卷积后,做一次 pooling,整体网络结构如下:
但近年来,pooling 用得越来越少,甚至可有可无,因为其操作会影响性能,而运算资源又越来越强。
其中,rectifier nonlinearity 即为 ReLU。
此外,AlphaGo 没有使用 pooling。
CNN 无法处理图片放大缩小或旋转的情形,解决方案有: