• 分形网络(FractalNet)----学习笔记


    1. 这个网络的提出是为了证明residual对于极深的网络并不是必须的。
    2. 通过一种分形的结构,达到了teacher-student机制,深度监督的效果。
    3. Fractal :分形,从多个层次、多个角度、多个组成成分来共同解决一个问题
    4. 通过多个不同深度的网络的组合提高模型的效果:浅层提供更迅速的回答,深层提供更准确的回答
    5. 网络架构中每一个Fractal的模块,是由多个浅层和深层的联合而成,层的深度呈2的指数型增长。不同深度的输出进行联合时采用求均值的方式。因为每个联合层的输入的个数可能不同,求均值可以起到一个类似于归一化的效果。
    6. 架构更重要的训练学习机制:drop path
      1. dropout:一般用于使神经元随机失活来减少模型的过拟合
      2. droppath:让路径随机失活,即在多个不同深度的层进行联合时,模型会以一个比例随机地让某些路径的输入关闭,但最少保证有一个输入。
      3. 优点:
        1. 减少过拟合
        2. 强化每条路径的输出
        3. 不同路径的联合。在droppath机制下,与teacher-student类似的效果:如果某条路径学到了对最终分类非常重要的特征,如果在某一次迭代中该路径被关闭了,则通过loss进行反向传播时,可能就会指导和该路径进行联合的另一条路径也学习到这种特征。如此不断训练不仅可提高整个模型的效果,而且单独提取出任意一条路径使用也可达到非常好的效果。并且该网络架构不同因为深度加深而出现退化问题,即从整个模型中提取出最深的路径使用可以到达整个fractalnet接近的效果。
      4. 有两种droppath方式:
        1. local:在每一个联合层以固定几率舍弃每个输入,但保证至少保留一个输入
        2. global:在整个网络中随机只保留一条完整的路径进行学习
  • 相关阅读:
    mfc140u.dll丢失怎么修复?4种亲测有效的方法分享
    【AI】机器学习——支持向量机(非线性及分析)
    第2.2章 StarRocks表设计——排序键和数据模型
    【塔望方法论】塔望3W消费战略 - U&A研究法
    docker高级篇(大厂进阶):安装mysql主从复制
    Linuxd中常见命令
    Java设计模式之建造者模式
    【算法-动态规划】贝尔曼福特算法
    nacos配置中心使用教程
    基于vue的移动端如何监听系统返回
  • 原文地址:https://blog.csdn.net/weixin_45647721/article/details/126254913