• 神经网络迁移学习以及神经网络中间的各种参数(优化器,学习率,正则化)


            迁移学习:本质上是重用预训练层,是通过类似的已经训练过的模型进行重组。

            目的:使用迁移学习,使用部分已经存在的模型,这样子可以增加训练速度与减少参数的训练量,这里利用的是已存在的模型的权重这一信息。

            注意:如果两个model之间有共享层的话,当一个model的参数改变,那么会影响另一个model的权重,可以通过clone_model进行操作。

    keras.clone_model(),clone.set_weights(model.get_weights())

            在迁移模型时,由于一开始是随机权重,所欲将迁移层的权重进行冻结,使用layer.trainable=False。这是为了防止反向传播对迁移的权重有大更改。在训练了几次之后,解冻迁移层,应该降低学习率,防止权重发生更改(这里需要再次编译与训练)。

    1. import tensorflow as tf
    2. from tensorflow import keras
    3. (X_train_full, y_train_full), (X_test, y_test) = keras.datasets.fashion_mnist.load_data()
    4. X_train_full = X_train_full / 255.0
    5. X_test = X_test / 255.0
    6. X_valid, X_train = X_train_full[:5000], X_train_full[5000:]
    7. y_valid, y_train = y_train_full[:5000], y_train_full[5000:]
    8. import numpy as np
    9. def split_dataset(X, y):
    10. y_5_or_6 = (y == 5) | (y == 6) # sandals or shirts
    11. y_A = y[~y_5_or_6]
    12. y_A[y_A > 6] -= 2 # class indices 7, 8, 9 should be moved to 5, 6, 7
    13. y_B = (y[y_5_or_6] == 6).astype(np.float32) # binary classification task: is it a shirt (class 6)?
    14. return ((X[~y_5_or_6], y_A),
    15. (X[y_5_or_6], y_B))
    16. (X_train_A, y_train_A), (X_train_B, y_train_B) = split_dataset(X_train, y_train)
    17. (X_valid_A, y_valid_A), (X_valid_B, y_valid_B) = split_dataset(X_valid, y_valid)
    18. (X_test_A, y_test_A), (X_test_B, y_test_B) = split_dataset(X_test, y_test)
    19. X_train_B = X_train_B[:200]
    20. y_train_B = y_train_B[:200]
    1. model_A = keras.models.Sequential()
    2. model_A.add(keras.layers.Flatten(input_shape=[28, 28]))
    3. for n_hidden in (300, 100, 50, 50, 50):
    4. model_A.add(keras.layers.Dense(n_hidden, activation="selu"))
    5. model_A.add(keras.layers.Dense(8, activation="softmax"))
    6. model_A.compile(loss="sparse_categorical_crossentropy",
    7. optimizer=keras.optimizers.SGD(learning_rate=1e-3),
    8. metrics=["accuracy"])
    9. history = model_A.fit(X_train_A, y_train_A, epochs=20,
    10. validation_data=(X_valid_A, y_valid_A))
    11. model_A.save("my_model_A.h5")
    1. model_B = keras.models.Sequential()
    2. model_B.add(keras.layers.Flatten(input_shape=[28, 28]))
    3. for n_hidden in (300, 100, 50, 50, 50):
    4. model_B.add(keras.layers.Dense(n_hidden, activation="selu"))
    5. model_B.add(keras.layers.Dense(1, activation="sigmoid"))
    6. model_B.compile(loss="binary_crossentropy",
    7. optimizer=keras.optimizers.SGD(learning_rate=1e-3),
    8. metrics=["accuracy"])
    9. history = model_B.fit(X_train_B, y_train_B, epochs=20,
    10. validation_data=(X_valid_B, y_valid_B))

    进行模型的迁移,冻结迁移层。

    1. model_a = keras.models.load_model('my_model_A.h5')
    2. model_b_on_a = keras.models.Sequential(model_a.layers[:-1])
    3. model_b_on_a.add(keras.layers.Dense(1,activation='sigmoid'))
    4. for layer in model_b_on_a.layers[:-1]:
    5. layer.trainable=False
    6. model_b_on_a.compile(loss='binary_crossentropy',optimizer='sgd',metrics=['accuracy'])
    7. history =model_b_on_a.fit(X_train_B,y_train_B,epochs=4,validation_data=[X_valid_B,y_valid_B])

    解冻重用层后,建议降低学习率,放置反向传播对全中的更改

    1. for layer in model_b_on_a.layers[:-1]:
    2. layer.trainable=True
    3. optimizer=keras.optimizers.SGD(lr=1e-4)
    4. model_b_on_a.compile(loss='binary_crossentropy',optimizer=optimizer,metrics=['accuracy'])
    5. history=model_b_on_a.fit(X_train_B,y_train_B,epochs=16,validation_data=[X_valid_B,y_valid_B])
    6. model_b_on_a.evaluate(X_test_B,y_test_B)

            更快的优化器

            1.动量优化

            相比于梯度下降,动量优化的速度更快,相比于梯度下降的公式,有一个动量向量,它积攒了历史的梯度,同时还存在一个b参数,它的目的是防止动量过大。

    keras.optimizers.SGD(lr=0.0001,momentum=0.9)

            2.Nesterov加速梯度

            Nesterov使梯度一直想着动量方向,而动量方向一直会直线正确方向。

    keras.optimizers.SGD(lr=0.0001,momentum=0.9,nesterov=True)

            3.AdaGrad

            通过遮掩最陡峭的维度,按照比例进行缩小梯度来进行校正。一个公式是让维度维度影响更加明显,另一个是将向量等比例缩小。它会使学习率降低,但是对陡峭的维度进行突显,相比于梯度下降,速度更快,但是会导致停止过早。

            4.RMSprop

            通过累加最近的迭代中的梯度。

    keras.optimizers.RMSprop(lr=0.001,rho=0.9)

            5.Adam与Nadam

            Adam自适应矩估计,它结合了动量估计与RMSprop,是通过动量优化与比例缩放。

    keras.optimizers.Adam(learning_rate=0.001, beta_1=0.9, beta_2=0.999)

            而Nadam是Nesterov与Adam的结合。

            学习率的调整。

            有幂调整,指数调整,分段恒定调整,性能调整与周期调整。

    1. ##幂调度
    2. keras.optimizers.SGD(learning_rate=0.01,decay=1e-4)
    1. ##指数调度
    2. def exponential_decay_fn(epoch):
    3. return 0.01*0.1**(epoch/20)
    1. ##性能调度
    2. keras.callbacks.ReduceLROnPlateau(factor=0.5,patience=5)
    1. ##周期调整
    2. s = 20*(len(X_train))
    3. learning_rate = keras.optimizers.schedules.ExponentialDecay(0.01,s,0.1)
    4. keras.optimizers.SGD(learning_rate)

            对于性能调整的解释:factor为降低率,而patience为等待次数,如果验证误差没有改变,那么等待次数之后,那么学习率下降。

            通过正则化避免过拟合

            1.L1,L2正则化

            L1正则化作用于稀疏模型,L2正则化用于约束神经网络权重,在keras.layers.Dense()中的kernel_regularizer=()中进行设置。kernel_regularizers.l1/l2/l1_l2()

    1. ##l1,l2正则化
    2. keras.layers.Dense(10,activation='relu',
    3. kernel_initializer='he_normal',
    4. kernel_regularizer =keras.regularizers.l2(0.01))

             2.functools.partial

            这个方法可以让所有隐藏层,使用相同的激活函数,初始化以及正则化,进行包装。

    1. from functools import partial
    2. layers = partial(keras.layers.Dense,activation = 'elu',
    3. kernel_initializer='he_normal',
    4. kernel_regularizer=keras.regularizers.l2(0.01))
    5. model =keras.models.Sequential([
    6. keras.layers.Flatten(input_shape=[28,28]),
    7. layers(300),
    8. layers(100)
    9. ])

             3.dropout

            将隐藏层中的一些神经元暂时忽略,在实践中通常只能对一到三层的神经元进行应用,dropout只在训练期间激活。当过拟合,那么应该提高dropout,如果欠拟合,那么降低dropout。

    1. layer=partial(keras.layers.Dense,activation='elu',kernel_initializer='he_normal')
    2. model=keras.models.Sequential([
    3. keras.layers.Flatten(input_shape=[28,28]),
    4. layer(300),
    5. keras.layers.Dropout(rate=0.2),
    6. layer(100),
    7. keras.layers.Dropout(rate=0.2),
    8. keras.layers.Dense(10,activation='softmax')
    9. ])

            4.MCdropout

            对具有dropout功能的多个预测进行平均。

    1. Class MCDropout(keras.layers.Dropout):
    2. def call(self,inputs):
    3. return super().call(inputs,training=Ture)

             5.最大范数正则化

            设置一个最大范数超参数。

    keras.layers.Dense(kernel_constraint=keras.constraint.max_norm(1.0))
  • 相关阅读:
    数学建模【对粒子群算法中惯性权重和学习因子的改进】
    PWM驱动舵机
    第一篇 打开终端的时候处在哪个位置
    管姓取名女孩儒雅大气
    SpringBoot SpringBoot 原理篇 2 自定义starter 2.7 开启yml 提示功能
    剑指Offer面试题解总结61~70
    什么是JavaScript(快速入门)
    java项目-第153期ssm超市进销存管理系统-ssm毕业设计-计算机毕业设计
    “第五十天” 机组--数据的表示
    Netty、Kafka中的零拷贝技术到底有多牛?
  • 原文地址:https://blog.csdn.net/lovexyyforever/article/details/126808454