三维矩阵
64 * 64 *3
每个element都对应着一个像素点的颜色值
RGB 图像 ——三个独立的矩阵(即三个二维数组),这三个矩阵分别与此图像的红色Red、绿色Green和蓝色Blue相对应
世界上的所有颜色都可以通过红绿蓝三种颜色调配出来
如果图像的大小是64 * 64个 像素 Pixel
一个Pixel就是一个颜色点,一个颜色点由红绿蓝三个值来表示
For example,红绿蓝为255,255,255,那么这个颜色点就是白色
So
为了将图片输入转换为特征向量,通常会进行一系列的预处理操作
例如: 归一化、平均值减法等。
这些操作旨在将图片的原始像素值转换为更具有可解释性和区分性的特征
Interpretable and distinguishable features
卷积神经网络(Convolutional Neural Network, CNN)
它可以自动学习图片中的特征。
CNN通过一系列的卷积层convolution layer和池化层pooling layer来提取图片的局部特征,并通过全连接层full connection layer将这些特征组合成最终的特征向量。
In CNN
卷积层
通过滑动一个小的滤波器(filter)在图片上提取特征。
滤波器的大小通常是小于输入图片的尺寸,例如3x3或5x5。
每个滤波器在滑动过程中会计算与输入图片的卷积,得到一个特征图(feature map),其中每个元素代表一个局部特征。
池化层
的作用是对特征图进行降采样,减少特征的维度并保留最显著的特征。
常见的池化操作:
全连接层
将池化层输出的特征图的每个元素与一组权重相乘,并进行加权求和,转换为最终的特征向量。
神经网络通过一系列的卷积和池化操作提取图片的局部特征,然后通过全连接层将这些特征组合成一个特征向量。
对于一个大小为64x64x3的输入图片,经过卷积、池化和全连接操作后,最终得到的特征向量的维度为12288
为了更加方便后面的处理:
Convert 3个 matrix to 1个vector x
向量 vector 可以理解为数组array:
1 * n(行向量)
或
n * 1(列向量)
总维数: 64 * 64 * 3 = 12288
在人工智能领域中,每一个输入到神经网络的数据都被叫做一个特征feature,那么上面的这张图像中就有12288个特征features
这个12288维的向量也被叫做特征向量
对于不同的应用,需要识别的对象不同,有些是语音有些是图像有些是传感器数据,但是它们在计算机中都有对应的数字表示形式
通常我们会把它们转化成一个特征向量,然后将其input到神经网络中。
未完待续……