生物神经元的细胞状态仅有两种:兴奋和抑制

:接收的信号
人工神经元可以被视为一个线性模型
①连续且可导(允许少数点不可导)
②尽可能简单(提升计算效率)
③值域要在一个合适的区间内
④单调递增(整体上升,局部可能下降)

性质:①饱和函数 ②Tanh函数是零中心化的,logistic函数的输出恒大于0
!!! 非0中心化输出会使得下一层神经元出现偏置(使其梯度下降收敛速度减缓)

性质:①高效 ②生物学合理性(单侧抑制、宽兴奋边界) ③一定程度上缓解梯度消失问题
死亡ReLU问题:x小于0时,输出为0
解决:①规划-避免参数过于集中
②
近似非零中心化的非线性函数
1.Swish函数:一种自门控激活函数
可以通过改变

2.高斯误差线性单元
和Swish函数比较类似
其中
可以使用Tanh或Logistic函数来近似



神经网络由大量神经元及其有向连接构成,需要考虑以下三个方面:
①神经元的激活规则:神经元输入和输出的关系,一般为非线性
②网络的拓扑结构
③学习算法
常见的神经网络结构如下:
①前馈网络:单向流动
②记忆网络:有内部循环
③图网络

神经网络是一种主要的连接主义模型,其具有三个特点:
①信息表示是分布式的
②记忆和知识是存储在单元之间的连接上
③通过逐渐改变单元之间的连接强度来学习新的知识
之所有叫前馈神经网络,是因为其调优方式是从计算最后一层的导数反过来对激活函数进行调优(即与信息流动方向相反)

特点: ①各神经元属于不同的层,层内无连接
②相邻两层之间的神经元全部两两连接
③无反馈,信号单向传递,可以形成有向无环图
网络的层数不计算输入层
| 记号 | 含义 |
| L | 层数 |
第 层的神经元个数 | |
![]() | 第 层的激活函数 |
![]() | |
| | |
![]() |
|
|
|
本神经元输入 = 上一层的输入向量 X 权重矩阵 + 偏置

输出 = 以本神经元输入为因变量的激活函数

前馈计算
![]()
对于具有线性输出层和使用“挤压”性质的激活函数的隐藏层组成的前馈神经网络,只要其中隐藏神经元的数量足够,它可以以任意的精度来近似任何一个定义在实数空间中的有界闭集函数。
人话:拥有此性质的神经网络可以近似任意函数
神经网络可以作为一个“万能”函数 / 进行复杂特征转换 / 逼近复杂条件分布
为神经网路、
!!!若
为Logistic回归,则Logistic回归分类器可以视为神经网络的最后一层

越往后层,提取的特征越高级,最后一层为分类器
对于多分类问题
①若使用Softmax回归分类器,相当于在网络最后一层设置C个神经元,

②若采用交叉熵损失函数
损失函数为:
③对于给定的训练集D,输入样本
④梯度下降
计算:
链式法则:
可以使用反向传播算法 或 自动微分
!!!矩阵微积分:以向量来表示,使用分母布局
①矩阵偏导数:
②向量的偏导数:
可以使用链式法则:求复合导 ->


误差项:


利用链式法则,自动计算一个复合函数的梯度,计算图如下:

可以将每一步对应的函数的和导数记录,需要计算时候,由链式法则连乘即可


计算方向与信息传播的方向一致(每走一步算一个导数)
计算方向与信息传播的方向相反(先计算出h6,再返过去算导数--等同于反向传播算法)
编译时构建的,程序运行时不再改变
优点:构建时可以进行优化,并行能力强
缺点:灵活性较差
程序运行时动态构建
优点:灵活性高
缺点:不易优化,难以并行计算



非凸优化问题:存在局部最优解和全局最优解,影响迭代
梯度消失问题:下层参数较难调(多段导数连乘容易趋近于0)
参数过多,影响训练。参数的解释也较为麻烦
需求:①计算资源大 ②数据多 ③算法效率高(快速收敛)