第1章 绪论
第2章 机器学习概述
第3章 线性模型
第4章 前馈神经网络
第5章 卷积神经网络
第6章 循环神经网络
第7章 网络优化与正则化
第8章 注意力机制与外部记忆
第9章 无监督学习
第10章 模型独立的学习方式
第11章 概率图模型
第12章 深度信念网络
第13章 深度生成模型
第14章 深度强化学习
第15章 序列生成模型




随机梯度下降法:





影响方式:
改进训练参数的方法:


学习率衰减的含义:随着训练发的进行,学习率的总趋势在不断减小。






Adam算法≈动量法+RMSprop
先计算两个移动平均:

偏差修整:

更新:

梯度截断是一种比较简单的启发式方法,把梯度的模限定在一个区间,当梯度的模小于或大于这个区间时就进行截断。

大部分优化算法可以使用下面公式来统一描述概括:

g_t 为第t步的梯度,α_t 为第t步的学习率。
各算法列表比较

在鞍部各算法比较

求解最小各函数比较

参数初始化的方法有预训练初始化、随机初始化、固定值初始化(偏置( Bias )通常用 0 来初始化)。
Gaussian分布初始化 :
Gaussian初始化方法是最简单的初始化方法,参数从一个固定均值(比如0)和固定方差(比如0.01)的Gaussian分布进行随机初始化。
均匀分布初始化
参数可以在区间[−r,r]内采用均匀分布进行初始化。
范数保持性( Norm-Preserving )
一个 𝑀 层的等宽线性网络

为了避免梯度消失或梯度爆炸问题,我们希望误差项:

基于方差缩放的参数初始化
Xavier 初始化和 He 初始化

正交初始化


逐层归一化的目的:通过内部协变量偏移获得更好的尺寸不变性,可以更平滑地优化地形。
对于一个深层神经网络,令第l层的净输入为
Z
(
l
)
Z^{(l)}
Z(l),神经元的输出为
a
(
l
)
a^{(l)}
a(l),即:
a
(
l
)
=
f
(
z
(
l
)
)
=
f
(
W
a
(
l
−
1
)
+
b
)
a^{(l)}=f(z^{(l)})=f(Wa^{(l-1)}+b)
a(l)=f(z(l))=f(Wa(l−1)+b)
其中f(.)是激活函数,W和b是可学习的参数。
给定一个包含K 个样本的小批量样本集合,计算均值和方差

批量归一化

第l层神经元的净输入为
z
(
l
)
z^{(l)}
z(l):
层归一化定义为:

批量归一化与层归一化比较

各种归一化的比较

常见的超参数:
层数、每层神经元个数、激活函数、学习率(以及动态调整算法)、正则化系数、mini-batch 大小。
优化方法:
网格搜索、随机搜索、贝叶斯优化、动态资源分配、神经架构搜索。
假设总共有K 个超参数,第k个超参数的可以取m_k 个值。如果参数是连续的,可以将参数离散化,选择几个“经验”值。比如学习率α,我们可以设置:
α
∈
0.01
,
0.1
,
0.5
,
1.0
α ∈ {0.01,0.1,0.5,1.0}
α∈0.01,0.1,0.5,1.0
这些超参数可以有
m
1
×
m
2
×
⋅
⋅
⋅
×
m
K
m_1 × m_2 ×···× m_K
m1×m2×⋅⋅⋅×mK 个取值组合。
假设总共有K 个超参数,第k个超参数的可以取m_k 个值。如果参数是连续的,可以将参数离散化,然后采用随机函数产生参数范围中的参数:

由于神经网络过度参数化,导致训练结果拟合能力过强,泛化性降低,所以我们要想一些办法降低过拟合,提高泛化性能,即采用正则化来损害优化。
正则化:所有损害优化的方法都是正则化,常用的方法有增加约束(L1,L2约束、数据增强)和干扰优化过程(权重衰减、随机梯度下降、提前停止)。
优化问题可以写为:

ℓ
p
ℓ_p
ℓp为范数函数,p的取值通常为{1,2}代表
ℓ
1
ℓ_1
ℓ1和
ℓ
2
ℓ_2
ℓ2范数,λ为正则化系数。
隐藏层的神经元个数对泛化能力的影响:
正则化系数对泛化能力的影响:

可以看出,正则化系数越小,泛化能力越差。
我们使用一个验证集(Validation Dataset)来测试每一次迭代的参数在验证集上是否最优。如果在验证集上的错误率不再下降,就停止迭代。

在每次参数更新时,引入一个衰减系数w

对于一个神经层y = f(Wx+b),引入一个丢弃函数d(·)使得y = f(Wd(x)+b)。
其中
m
∈
{
0
,
1
}
d
m ∈\{0,1\}^d
m∈{0,1}d 是丢弃掩码(dropout mask),通过以概率为p的贝努力分布随机生成。

丢弃法的意义:

循环神经网络上的丢弃法:

含义:
在输出标签中添加噪声来避免模型过拟合。
实例:
一个样本x的标签一般用onehot向量表示:
![]()
引入一个噪声对标签进行平滑,即假设样本以ϵ的概率为其它类。平滑后的标签为:
![]()
去去去