• 04.6. 暂退法


    4.6. 暂退法(Dropout

    暂退法(dropout)
    在训练过程中丢弃(drop out)一些神经元
    在整个训练过程的每一次迭代中,标准暂退法包括在计算下一层之前将当前层中的一些节点置零。

    4.6.3 实践中的暂退法

    将暂退法应用到隐藏层,以P 的概率将隐藏单元置为零时, 结果可以看作是一个只包含原始神经元子集的网络。

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NAwaRCLd-1662888794393)(https://zh.d2l.ai/_images/dropout2.svg)]

    删除了h2和h5, 因此输出的计算不再依赖于h2或者h5,并且它们各自的梯度在执行反向传播时也会消失。
    这样,输出层的计算不能过度依赖于的任何一个元素。

    4.6.4. 从零开始实现

    在下面的代码中,我们实现 dropout_layer 函数, 该函数以dropout的概率丢弃张量输入X中的元素, 如上所述重新缩放剩余部分:将剩余部分除以1.0-dropout。

    from mxnet import autograd, gluon, init, np, npx
    from mxnet.gluon import nn
    from d2l import mxnet as d2l
    
    npx.set_np()
    
    def dropout_layer(X, dropout):
        assert 0 <= dropout <= 1
        # 在本情况中,所有元素都被丢弃
        if dropout == 1:
            return np.zeros_like(X)
        # 在本情况中,所有元素都被保留
        if dropout == 0:
            return X
        mask = np.random.uniform(0, 1, X.shape) > dropout
        return mask.astype(np.float32) * X / (1.0 - dropout)
        
    # 将输入X通过暂退法操作,暂退概率分别为0、0.5和1。
    X = np.arange(16).reshape(2, 8)
    print(dropout_layer(X, 0))
    print(dropout_layer(X, 0.5))
    print(dropout_layer(X, 1))
    
    # 定义模型参数
    num_inputs, num_outputs, num_hiddens1, num_hiddens2 = 784, 10, 256, 256
    
    W1 = np.random.normal(scale=0.01, size=(num_inputs, num_hiddens1))
    b1 = np.zeros(num_hiddens1)
    W2 = np.random.normal(scale=0.01, size=(num_hiddens1, num_hiddens2))
    b2 = np.zeros(num_hiddens2)
    W3 = np.random.normal(scale=0.01, size=(num_hiddens2, num_outputs))
    b3 = np.zeros(num_outputs)
    
    params = [W1, b1, W2, b2, W3, b3]
    for param in params:
        param.attach_grad()
        
    # 定义模型
    dropout1, dropout2 = 0.2, 0.5
    
    def net(X):
        X = X.reshape(-1, num_inputs)
        H1 = npx.relu(np.dot(X, W1) + b1)
        # 只有在训练模型时才使用dropout
        if autograd.is_training():
            # 在第一个全连接层之后添加一个dropout层
            H1 = dropout_layer(H1, dropout1)
        H2 = npx.relu(np.dot(H1, W2) + b2)
        if autograd.is_training():
            # 在第二个全连接层之后添加一个dropout层
            H2 = dropout_layer(H2, dropout2)
        return np.dot(H2, W3) + b3
        
    # 训练和测试
    num_epochs, lr, batch_size = 10, 0.5, 256
    loss = gluon.loss.SoftmaxCrossEntropyLoss()
    train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)
    d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs,
                  lambda batch_size: d2l.sgd(params, lr, batch_size))
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38
    • 39
    • 40
    • 41
    • 42
    • 43
    • 44
    • 45
    • 46
    • 47
    • 48
    • 49
    • 50
    • 51
    • 52
    • 53
    • 54
    • 55
    • 56
    • 57
    • 58
    • 59

    4.6.5. 简洁实现

    对于深度学习框架的高级API,我们只需在每个全连接层之后添加一个Dropout层, 将暂退概率作为唯一的参数传递给它的构造函数。
    在训练时,Dropout层将根据指定的暂退概率随机丢弃上一层的输出(相当于下一层的输入)。
    在测试时,Dropout层仅传递数据。

    net = nn.Sequential()
    net.add(nn.Dense(256, activation="relu"),
            # 在第一个全连接层之后添加一个dropout层
            nn.Dropout(dropout1),
            nn.Dense(256, activation="relu"),
            # 在第二个全连接层之后添加一个dropout层
            nn.Dropout(dropout2),
            nn.Dense(10))
    net.initialize(init.Normal(sigma=0.01))
    
    # 训练和测试
    trainer = gluon.Trainer(net.collect_params(), 'sgd', {'learning_rate': lr})
    d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, trainer)
    
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14

    4.6.6. 小结

    • 暂退法在前向传播过程中,计算每一内部层的同时丢弃一些神经元。

    • 暂退法可以避免过拟合,它通常与控制权重向量的维数和大小结合使用的。

    • 暂退法将活性值替换为具有期望值的随机变量。

    • 暂退法仅在训练期间使用。

  • 相关阅读:
    sql注入的数据提交方式和查询方式
    全球 IPv4 耗尽,下个月开始收费!
    嵌入式学习第二十五天!(网络的概念、UDP编程)
    图解maxout-带参数的激活函数
    127.(前端)富文本的使用——vue使用超文本
    渗透测试之Web安全系列教程(二)
    前端设计模式——桥接模式
    文本分类之DPCNN的原理(Pytorch实现)
    MATLAB数字图像处理 实验五:形态学图像处理
    茶百道:门店数量狂飙,食品安全问题成最大绊脚石
  • 原文地址:https://blog.csdn.net/weixin_45063703/article/details/126807377