码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 深度学习学习率的调整


    20220626 -

    0. 引言

    最近在做实验的时候,由于结果一直都不怎么好,我就在想是不是过拟合了。那就算不是过拟合,是不是根本没有学习到数据集中的信息呢?想到了这些事情,我就直接把测试集的效果跟随着训练过程直接打印出来了。(当然,实际过程中,肯定是不该以这个过程来作为最终的评判目标,但是在检验阶段还是很有用的)

    通过查看这个过程就发现,随着训练过程,在前期,的确是发现检验指标在上升,这个过程是很正常的,毕竟前期还是能够学习到一些信息的。(实验过程采用的是自编码器进行异常检测)。

    但是达到了一定程度之后,大部分时候学习到20轮左右的时候, 重构损失就差不多不怎么下降了。但是从此时开始,就发现这个时候异常检测的结果指标就一直在震荡,或者在下降。虽然重构损失不怎么变了。

    我的理解就是,此时有可能是发生了过拟合,当然仅仅是猜测。

    那么想到这个问题,其实也定位了很多地方,但是并不能准确定位到什么地方的问题。毕竟自己的数据集本身也不是那么理想,有时候随机性的初始化,可能也不会出现震荡或者下降这种问题。这就比较尴尬。

    但是毕竟下降或震荡是更常见的。

    1. 学习率的问题

    平时的时候,基本上都是采用adam这种优化器,平时的时候任务效果也比较理想。就没有考虑过,那么就简单调整了学习率。调低了,就到不了比较理想的结果,调高了在开始的时候就进行震荡。

    这个时候,我想到了学习率衰减的问题,就是随着训练过程推进,将学习率逐渐降低。不过在平时看到的论文中,基本上没见到过采用学习率衰减的问题。可能平时看的都是一些应用论文,并不是纯粹的机器学习或者深度学习的论文。

    之前看过这部分内容,简单搜索就能找到几篇相关的文章[1][2],其中[2]的作者直接把不同形式的衰减用图片给展现出来了。

    但是毕竟,不试一试,怎么知道有没有效果呢,所有直接就把这部分代码给加上了,(最近改成了torch来写代码,加这个东西,基本上就两行代码而已)。通过加上这个之后, 的确是发现了最后的效果稳定了,最起码不下降或者不震荡了。但是也出现一个问题,这个时候的效果,其实并没有之前震荡的时候那么高了。当然不能这么说,这种随机性的事情谁也说不准。

    但是最起码这个时候能够稳定效果了。

    2. Adam的学习率衰减

    对于adam优化器来说,我并不是非常非常了解,虽然以前也好好学习过,但是也逐渐遗忘了。是不是对adam加上这个东西有意义呢?我带着这个疑问,去搜索了这部分内容。

    在[3][4][5]中,看起来大家都没有非常一致的结论。但是在[3]中,一些人都赞成可以使用。

    参考

    [1]Setting the learning rate of your neural network.
    [2]Guide to Pytorch Learning Rate Scheduling
    [3]Do I still need an LR scheduler to adjust the training learning rate if I use Adam optimizer?

    [4]Adam optimizer with exponential decay
    [5]Should we do learning rate decay for adam optimizer

  • 相关阅读:
    监控员工电脑文件拷贝记录:电脑怎么看员工复制文件的历史记录
    用于设计 CNN 的 7 种不同卷积
    LeetCode(25)验证回文串【双指针】【简单】
    vue 动态组件 render/jsx
    [附源码]Python计算机毕业设计Django基于JAVA技术的旅游信息交互系统
    JAVA实现智能停车场管理系统 开源
    前端提升生产力系列三(vant3 vue3 移动端H5下拉刷新,上拉加载组件的封装)
    力扣(LeetCode)313. 超级丑数(2022.11.10)
    STM32的寄存器操作
    linux CentOs 安装docker 推荐生产环境使用
  • 原文地址:https://blog.csdn.net/u011698800/article/details/125470285
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号