卷积神经网络入门

卷积神经网络

基本框架

在这里插入图片描述
上图为LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.中提出的-LeNet-5的框架，后续的卷积神经网络基本都是在此基础上进行改动和扩展的。

输入图像会经过卷积层、池化层和全连接层，最终得到输出结果。我们可以对其进行这样简单的理解：卷积层用于提取特征、池化层为了减少参数量进行下采样，全连接层将之前提取的特征展成一维，通过一些很难理解的玄学操作得到最终的结果。
在这里插入图片描述
最终的结果可以是对图像进行判定。

比如判定这张图片是不是猫。

也可以是对其进行分类，计算出其是各种动物的概率，输出可能性最大的结果。
下面是每一层步骤的详细过程。

卷积层

在这里插入图片描述
卷积层是通过卷积核对图像进行遍历，输出遍历到的对应位置与卷积核的对应位置的相乘后的和，生成feature map。

上图为步长为1进行卷积的过程。

每次与卷积核进行卷积的图像部分被称为感受野。

如上图所示，一张5x5的图像通过2x2的卷积核卷积以后，生成的feature map的大小为4x4。
在进行卷积的时候，边缘的像素块只进行了一次运算，而内部像素却进行了多次运算。边缘的像素块的地位与内部像素是一样的，运算次数却不同，这不利于更好的提取特征。
在这里插入图片描述
因此，一般通过对外圈补0后再进行卷积。这样生成的feature map和原图像大小相同。

对于彩色图像，也会有针对对每一层卷积的卷积核进行卷积，并将每一次卷积出的结果赋予不同的权值生成最终的feature map。
在这里插入图片描述
以下图举例，使用下面的卷积核可以将图像中的三角形特征提取出来。

使用提取眼镜、鼻子、耳朵、嘴唇等作为卷积核可以提取出人脸的这一部分特征。

利用如下所示卷积核可以将图像的边缘特征提取出来。
在这里插入图片描述
可以看到，通过不同的卷积核，可以对图像不同的特征进行提取。