04.6. 暂退法

文章目录

- 4.6. 暂退法（Dropout）

4.6. 暂退法（Dropout）

暂退法（dropout）
在训练过程中丢弃（drop out）一些神经元。
在整个训练过程的每一次迭代中，标准暂退法包括在计算下一层之前将当前层中的一些节点置零。

4.6.3 实践中的暂退法

将暂退法应用到隐藏层，以P 的概率将隐藏单元置为零时，结果可以看作是一个只包含原始神经元子集的网络。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NAwaRCLd-1662888794393)(https://zh.d2l.ai/_images/dropout2.svg)]

删除了h2和h5，因此输出的计算不再依赖于h2或者h5，并且它们各自的梯度在执行反向传播时也会消失。
这样，输出层的计算不能过度依赖于的任何一个元素。

4.6.4. 从零开始实现

在下面的代码中，我们实现 dropout_layer 函数，该函数以dropout的概率丢弃张量输入X中的元素，如上所述重新缩放剩余部分：将剩余部分除以1.0-dropout。

from mxnet import autograd, gluon, init, np, npx
from mxnet.gluon import nn
from d2l import mxnet as d2l

npx.set_np()

def dropout_layer(X, dropout):
    assert 0 <= dropout <= 1
    # 在本情况中，所有元素都被丢弃
    if dropout == 1:
        return np.zeros_like(X)
    # 在本情况中，所有元素都被保留
    if dropout == 0:
        return X
    mask = np.random.uniform(0, 1, X.shape) > dropout
    return mask.astype(np.float32) * X / (1.0 - dropout)
    
# 将输入X通过暂退法操作，暂退概率分别为0、0.5和1。
X = np.arange(16).reshape(2, 8)
print(dropout_layer(X, 0))
print(dropout_layer(X, 0.5))
print(dropout_layer(X, 1))

# 定义模型参数
num_inputs, num_outputs, num_hiddens1, num_hiddens2 = 784, 10, 256, 256

W1 = np.random.normal(scale=0.01, size=(num_inputs, num_hiddens1))
b1 = np.zeros(num_hiddens1)
W2 = np.random.normal(scale=0.01, size=(num_hiddens1, num_hiddens2))
b2 = np.zeros(num_hiddens2)
W3 = np.random.normal(scale=0.01, size=(num_hiddens2, num_outputs))
b3 = np.zeros(num_outputs)

params = [W1, b1, W2, b2, W3, b3]
for param in params:
    param.attach_grad()
    
# 定义模型
dropout1, dropout2 = 0.2, 0.5

def net(X):
    X = X.reshape(-1, num_inputs)
    H1 = npx.relu(np.dot(X, W1) + b1)
    # 只有在训练模型时才使用dropout
    if autograd.is_training():
        # 在第一个全连接层之后添加一个dropout层
        H1 = dropout_layer(H1, dropout1)
    H2 = npx.relu(np.dot(H1, W2) + b2)
    if autograd.is_training():
        # 在第二个全连接层之后添加一个dropout层
        H2 = dropout_layer(H2, dropout2)
    return np.dot(H2, W3) + b3
    
# 训练和测试
num_epochs, lr, batch_size = 10, 0.5, 256
loss = gluon.loss.SoftmaxCrossEntropyLoss()
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs,
              lambda batch_size: d2l.sgd(params, lr, batch_size))
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59

4.6.5. 简洁实现

对于深度学习框架的高级API，我们只需在每个全连接层之后添加一个Dropout层，将暂退概率作为唯一的参数传递给它的构造函数。
在训练时，Dropout层将根据指定的暂退概率随机丢弃上一层的输出（相当于下一层的输入）。
在测试时，Dropout层仅传递数据。

net = nn.Sequential()
net.add(nn.Dense(256, activation="relu"),
        # 在第一个全连接层之后添加一个dropout层
        nn.Dropout(dropout1),
        nn.Dense(256, activation="relu"),
        # 在第二个全连接层之后添加一个dropout层
        nn.Dropout(dropout2),
        nn.Dense(10))
net.initialize(init.Normal(sigma=0.01))

# 训练和测试
trainer = gluon.Trainer(net.collect_params(), 'sgd', {'learning_rate': lr})
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, trainer)

1
2
3
4
5
6
7
8
9
10
11
12
13
14

4.6.6. 小结

暂退法在前向传播过程中，计算每一内部层的同时丢弃一些神经元。
暂退法可以避免过拟合，它通常与控制权重向量的维数和大小结合使用的。
暂退法将活性值替换为具有期望值的随机变量。
暂退法仅在训练期间使用。

相关阅读:
sql注入的数据提交方式和查询方式
全球 IPv4 耗尽，下个月开始收费！
嵌入式学习第二十五天！（网络的概念、UDP编程）
图解maxout-带参数的激活函数
127.(前端)富文本的使用——vue使用超文本
渗透测试之Web安全系列教程（二）
前端设计模式——桥接模式
文本分类之DPCNN的原理（Pytorch实现）
MATLAB数字图像处理实验五:形态学图像处理
茶百道：门店数量狂飙，食品安全问题成最大绊脚石

原文地址：https://blog.csdn.net/weixin_45063703/article/details/126807377