• 第八第九天深度学习和机器视觉基础知识


    一、再议激活函数

    在研究一个问题前首先要自己问自己几个问题,是什么?为什么?这个东西有什么用?这几个问题同样可以用在我们的激活函数研究上面。

    1、激活函数是什么?

    激活函数的本质是将线性输出转换成非线性输出的一个工具。他的常见类型有恒等函数、阶跃函数、sigmoid、tanh、ReLu和softmax等,激活函数的种类有很多,有时为了针对特殊问题,我们可以专门设计激活函数。

    2、这个东西有什么用?

    激活函数设计出来的目的,简单的说就是将现行问题转化为非线形问题,为什么我们要将线性问题转化为非线形问题呢?这个原因就在于,神经网络是被设计出来解决复杂问题的,这里说复杂问题是除了线性问题以外,还有一些非线形问题,神经网络在进行仿射变化时,实际进行的是一个线性计算,那么没有讲线性计算转化成非线形计算的过程,网络的表征能力就有限。所以就需要将线形问题转化为非线形问题。

    3、激活函数的种类特点及应用场景

    激活函数的种类,我已经在前面激活函数是什么里面介绍过了,下面我们一一介绍他们,并说明他们的应用场景。

    1)恒等激活函数

    恒等激活函数说白了,就是将仿射变换后的结果乘常数一用数学表示为:
    f ( x ) = 1 f(x)=1 f(x)=1
    这种函数一般用于线形问题的激活层当中,因为问题本质属于线形问题,计算结果也是线形的,所以不需要特殊变换,只需要将原来的结果进行输出而不需要激活。

    2)阶跃函数

    这种函数作者还不太清楚他的具体用途,但是一图胜千言,本质上还是可以将线形问题转化为非线形问题:
    在这里插入图片描述

    3)Sigmoid

    这个函数就非常的有名了,它常用与隐含层的激活函数,而且我们在Logistic回归中也层遇见过他,他可以用于二分类问题的输出层激活函数。他的原函数和求导后的结果如下:
    σ ( x ) = 1 1 + e x p ( − x ) \sigma(x)={1\over 1+exp(-x)} σ(x)=1+exp(x)1
    在这里插入图片描述
    优点:函数是平滑的曲线,整个定义域内可以方便的求导
    缺点:

    • 激活函数计算量大,反向传播求误差梯度时,求导涉及除法
    • 反向传播时,很容易就 会出现梯度消失的情况,从而无法完成深层网络的训练

    4)tanh

    常用于NLP中函数和图像如下:
    在这里插入图片描述

    优点:

    • 平滑、易于求导
    • 输出均值为0,收敛速度要比sigmoid快,从而可以减少迭代次数
      缺点:
    • 梯度消失

    5)ReLU

    长用于图像CV:
    在这里插入图片描述
    优点:

    • 更加有效率的梯度下降以及反向传播,避免了梯度爆炸和梯度消失问题
    • 计算过程简单
      缺点:
    • 小于等于0的部分梯度为0

    二、为什么需要反向传播

    梯度下降应用于有明确求导函数的情况,或者可以求出误差的情况(比如 线性回归),我们可以把它看做没有隐藏层的网络。但对于多个隐藏层的 神经网络,输出层可以直接求出误差来更新参数,但隐藏层的误差是不存在的,因此不能对它直接应用梯度下降,而是先将误差反向传播至隐藏层,然后再应用梯度下降。

    三、卷积神经网络

    “卷积”其实是一个数学概念,它描述一个函数和另一个函数在某个维度上 的加权“叠加”作用。函数定义如下:
    在这里插入图片描述

    1、为什么用卷机

    1. 未考虑数据的“形状”,会破坏数据空间结构。 例如,输入数据是图像时,图像通常是高长通道 方向上的3维形状。但是,向全连接层输入时,需 要将3维数据拉平为1维数据。
    2. 全连接网络层次深度受限,一般不超过七层。
    3. 全连接网络参数量庞大,需要降低参数量。

    卷积神经网络(Convolutional Neural Network,CNN)针对全连接网络 的局限做出了修正,加入了卷积层(Convolution层)和池化层(Pooling 层)。

    2、卷积层

    它是卷积神经网络的核心所在,通过卷积运算,达到降维处理提取特征两个
    重要目的

    3、激活层

    其作用在于将前一层的线性输出,通过非线性的激活函数进行处理,这样用 以模拟任意函数,从而增强网络的表征能力。

    4、池化层

    也称子采样层或下采样层(Subsampling Layer),目的是缩小高、长方向上的空间的 运算,以降低计算量,提高泛化能力。如下的示例,将44的矩阵缩小成22的矩阵输出
    在这里插入图片描述

    5、全连接层

    这个网络层相当于多层感知机(Multi-Layer Perceptron,简称MLP), 其在整个卷积神经网络中起到分类器的作用,通过前面多个“卷积-激活-池化”层的反复处理,待处理的数据特性已有 了显著提高:一方面,输入数据的维度已下降到可用传统的前馈全连接 网络来处理了;另一方面,此时的全连接层输入的数据已不再是“泥沙 俱下、鱼龙混杂”,而是经过反复提纯过的结果,因此输出的分类品质 要高得多。

  • 相关阅读:
    最简洁网站 SEO 优化,Lighthouse SEO 评分 92
    【并发编程】第二章:从核心源码深入ReentrantLock锁
    flutter开发实战-下拉刷新与上拉加载更多实现
    php foreach变量引用的问题
    Leetcode 541:反转字符串II
    位图的详细介绍及模拟实现
    使用Jetpack组件Navigation实现Android开发中页面跳转
    nodejs——原型链污染
    Kubernetes常用命令
    LeetCode220829_91、除自身以外数组的乘积
  • 原文地址:https://blog.csdn.net/weixin_45256637/article/details/126235087