在研究一个问题前首先要自己问自己几个问题,是什么?为什么?这个东西有什么用?这几个问题同样可以用在我们的激活函数研究上面。
激活函数的本质是将线性输出转换成非线性输出的一个工具。他的常见类型有恒等函数、阶跃函数、sigmoid、tanh、ReLu和softmax等,激活函数的种类有很多,有时为了针对特殊问题,我们可以专门设计激活函数。
激活函数设计出来的目的,简单的说就是将现行问题转化为非线形问题,为什么我们要将线性问题转化为非线形问题呢?这个原因就在于,神经网络是被设计出来解决复杂问题的,这里说复杂问题是除了线性问题以外,还有一些非线形问题,神经网络在进行仿射变化时,实际进行的是一个线性计算,那么没有讲线性计算转化成非线形计算的过程,网络的表征能力就有限。所以就需要将线形问题转化为非线形问题。
激活函数的种类,我已经在前面激活函数是什么里面介绍过了,下面我们一一介绍他们,并说明他们的应用场景。
恒等激活函数说白了,就是将仿射变换后的结果乘常数一用数学表示为:
f
(
x
)
=
1
f(x)=1
f(x)=1
这种函数一般用于线形问题的激活层当中,因为问题本质属于线形问题,计算结果也是线形的,所以不需要特殊变换,只需要将原来的结果进行输出而不需要激活。
这种函数作者还不太清楚他的具体用途,但是一图胜千言,本质上还是可以将线形问题转化为非线形问题:
这个函数就非常的有名了,它常用与隐含层的激活函数,而且我们在Logistic回归中也层遇见过他,他可以用于二分类问题的输出层激活函数。他的原函数和求导后的结果如下:
σ
(
x
)
=
1
1
+
e
x
p
(
−
x
)
\sigma(x)={1\over 1+exp(-x)}
σ(x)=1+exp(−x)1
优点:函数是平滑的曲线,整个定义域内可以方便的求导
缺点:
常用于NLP中函数和图像如下:
优点:
长用于图像CV:
优点:
梯度下降应用于有明确求导函数的情况,或者可以求出误差的情况(比如 线性回归),我们可以把它看做没有隐藏层的网络。但对于多个隐藏层的 神经网络,输出层可以直接求出误差来更新参数,但隐藏层的误差是不存在的,因此不能对它直接应用梯度下降,而是先将误差反向传播至隐藏层,然后再应用梯度下降。
“卷积”其实是一个数学概念,它描述一个函数和另一个函数在某个维度上 的加权“叠加”作用。函数定义如下:
卷积神经网络(Convolutional Neural Network,CNN)针对全连接网络 的局限做出了修正,加入了卷积层(Convolution层)和池化层(Pooling 层)。
它是卷积神经网络的核心所在,通过卷积运算,达到降维处理和提取特征两个
重要目的
其作用在于将前一层的线性输出,通过非线性的激活函数进行处理,这样用 以模拟任意函数,从而增强网络的表征能力。
也称子采样层或下采样层(Subsampling Layer),目的是缩小高、长方向上的空间的 运算,以降低计算量,提高泛化能力。如下的示例,将44的矩阵缩小成22的矩阵输出
这个网络层相当于多层感知机(Multi-Layer Perceptron,简称MLP), 其在整个卷积神经网络中起到分类器的作用,通过前面多个“卷积-激活-池化”层的反复处理,待处理的数据特性已有 了显著提高:一方面,输入数据的维度已下降到可用传统的前馈全连接 网络来处理了;另一方面,此时的全连接层输入的数据已不再是“泥沙 俱下、鱼龙混杂”,而是经过反复提纯过的结果,因此输出的分类品质 要高得多。