码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 【论文】《Identity Mappings in Deep Residual Networks》论文阅读笔记


    论文:https://arxiv.org/pdf/1603.05027.pdf

    代码:GitHub - KaimingHe/resnet-1k-layers: Deep Residual Networks with 1K Layers

    fb.resnet.torch/pretrained at master · facebookarchive/fb.resnet.torch · GitHub

    1.摘要

    在本文中,分析了残差构建块背后的传播公式。以及通过更深的网络结构resnet1001,得到了更好的效果。

    2.介绍

    ResNets的中心思想是学习与h(xl)有关的加性残差函数F,其中一个关键选择是使用映射h(xl) = xl . 这是通过附加一个跳过连接("捷径")来实现的。

    分析深层残余网络时,重点是创造一条传播信息的 "直接 "路径--不仅是在一个残余单元内,而且是通过整个网络。

    发现(1):

            在调查的所有变体中,[1]中选择的映射h(xl)=xl实现了最快的错误减少和最低的训练损失,而缩放、门控[5,6,7]和1×1卷积的跳过连接都导致了更高的训练损失和错误。实验表明,保持一个 "干净 "的信息路径。

    发现(2):

            (b)中的预激活方式比(a)中后激活方式效果更好。获得更低的训练与测试loss,与更高的精度。

    3.深度残差网络的分析

     当h(xl)=xl时,任意深层特征XL可以由任意浅层特征Xl加上残差函数。

    求导之后, 与weights无关,所以也梯度反向传播的过程中不会出现梯度消息现象。

     这表明信号可以从任何单元直接传播到另一个单元,包括向前和向后传播。

     4.论直接跳过连接的重要性

            如果在Xl前添加一个调制参数,会阻碍反向传播与训练。可能会丢失信息或者反向传播时,会出现梯度消失(调制参数<1)或者爆炸(调制参数>1)。

     实验(给以不同的调制方式):

     

     后面就是大面积的通过消融实验证明“预激活”比“后激活”好。

    结论:对捷径进行乘法操作(缩放、门控、1×1卷积和剔除)会妨碍信息传播并导致优化问题。

    5.关于激活功能的使用

    其中b与c等价

     

     上面一表一图主要说明pre-activation有效。更容易优化,也可以缓解过拟合。

     

     

  • 相关阅读:
    【算能】stream在docker的环境下编译报错
    Python实战 | 如何抓取tx短片弹幕并作词云图分析
    C++对象内存故事, 一个对象是如何由子对象来构成的?
    java8 stream list 操作
    一个简单HTML5期末考核大作业,学生个人html静态网页制作代码
    Jmeter 性能测试工具使用
    专本贯通 转段考试pta C语言
    C. Social Distance
    面试经典150题——生命游戏
    [PYTHON-CSP-前缀和]20210402-邻域均值
  • 原文地址:https://blog.csdn.net/qq_35975447/article/details/126335842
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号