BP神经网络入门学习笔记 - 码农知识堂 - 文章详情页

BP神经网络入门学习笔记

 1.BP神经网络的基本概念

 1.1神经元模型

 1.2神经网络结构

 1.3神经元激活函数

 2.BP神经网络的基本工作过程

 2.1正向传递

 2.2反向传递

 3.BP神经网络的注意点

 3.1超参：学习率（学习步长）

3.2避免陷入局部极小值

1.BP神经网络基本概念

BP是 Back Propagation 的简写，意思是反向传播。BP网络能学习和存贮大量的输入-输出模式映射关系，而无需事前揭示描述这种映射关系的数学方程。它的学习规则是使用最速下降法，通过反向传播来不断调整网络的权值和阈值，使网络的误差平方和最小。BP网络具有输入层、隐藏层和输出层，在BP神经网络中，单个样本有m个输入，有n个输出，在输入层和输出层之间通常还有若干个隐含层。1989年Robert Hecht-Nielsen证明了对于任何闭区间内的一个连续函数都可以用一个隐含层的BP网络来逼近，这就是万能逼近定理。所以一个三层的BP网络就可以完成任意的维到维的映射。

1.1神经元模型

        每个神经元都接受来自其它神经元的输入信号，每个信号都通过一个带有权重的连接传递，神经元把这些信号加起来得到一个总输入值，然后将总输入值与神经元的阈值进行对比（模拟阈值电位），然后通过一个“激活函数”处理得到最终的输出（模拟细胞的激活），这个输出又会作为之后神经元的输入一层一层传递下去。

1.2神经网络结构

        BP网络由输入层、隐藏层、输出层组成。

        输入层：信息的输入端，是读入你输入的数据的。

        隐藏层：信息的处理端，可以设置这个隐藏层的层数（在这里一层隐藏层，q个神经元）。

        输出层：信息的输出端，也就是我们要的结果。

1.3神经元激活函数

        引入激活函数的目的是在模型中引入非线性。如果没有激活函数（其实相当于激励函数是f(x) = x），那么无论神经网络有多少层，最终都是一个线性映射，那么网络的逼近能力就相当有限，单纯的线性映射无法解决线性不可分问题。正因为上面的原因，引入非线性函数作为激励函数，这样深层神经网络表达能力就更加强大。

        1）Sigmoid（logistic），也称为S型生长曲线，函数在用于分类器时，效果更好。

        2）Tanh函数（双曲正切函数），解决了logistic中心不为0的缺点，但依旧有梯度易消失的缺点。

        3）relu函数是一个通用的激活函数，针对Sigmoid函数和tanh的缺点进行改进的，目前在大多数情况下使用。

2.BP神经网络的基本工作过程

        举一个例子，某厂商生产一种产品，投放到市场之后得到了消费者的反馈，根据消费者的反馈，厂商对产品进一步升级，优化，一直循环往复，直到实现最终目的——生产出让消费者更满意的产品。产品投放就是“信号前向传播”，消费者的反馈就是“误差反向传播”。这就是BP神经网络的核心。

2.1正向传递

        正向传播就是让信息从输入层进入网络，依次经过每一层的计算，得到最终输出层结果的过程。在上面的网络中，我们的计算过程比较直接，用每一层的数值乘以对应的权重+偏置变量（激活函数）。

2.2反向传递

        基本思想就是通过计算输出层与期望值之间的误差来调整网络参数，从而使得误差变小。计算误差公式如下：(差值的平方)

         调整权重的大小，使损失函数不断地变小常用的方法：梯度下降法。从几何意义讲，梯度矩阵代表了函数增加最快的方向，因此，沿着与之相反的方向就可以更快找到最小值。

权重反向更新：L 称为学习率，可以调整更新的步伐，合适的学习率能够使目标函数在合适的时间内收敛到局部最小值。

  隐藏层神经元和输出层神经元激活函数均为sigmod函数，下面是求各个参数的梯度推导过程（激活函数为SIGMOD）。

除此之外，采用其它激活函数，推理过程类似，参考以下公式：

隐藏层神经元激活函数为sigmod输出层神经元激活函数为tanh

         隐藏层神经元激活函数为sigmod输出层神经元激活函数为Purelin(线性)函数

3.BP神经网络的注意点

神经网络中注意的地方有很多，比如如何避免陷入局部最小值，避免过拟合现象，网络层数的设置，网络神经节点数量设置，学习步长（一般选取为0.01−0.8）的设置，设置最大迭代次数...

        如何确定隐层数以及每个隐含层节点个数，应该设置为多少才合适呢（隐含层节点个数的多少对神经网络的性能是有影响的）？
有一个经验公式可以确定隐含层节点数目：，（其中h:隐含层节点数目，m:为输入层节点数目，n:为输出层节点数目，a:为之间的调节常数）。

其余相关注意点和经验暂时不深入探究，将在后面的学习中进一步研究！
相关阅读:
LLM推理框架Triton Inference Server学习笔记(一): Triton Inference Server整体架构初识
 一同走进Linux的“基操”世界
 hudi系列-旧文件清理（clean）
Upcoming Tasks Privacy Policy
asp.net core、c#关于路径的总结
 HTML入门（3）——一个简单的HTML5文档
 Go 语言 context 都能做什么？
踩坑记：JSON.parse和JSON.stringify
Metersphere实现UI自动化元素不可点击（部分遮挡）
『Echarts』简介
原文地址：https://blog.csdn.net/weixin_43249548/article/details/125576432