码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 推荐系统笔记(十二):常用激活函数gelu、swish等


    简介

            gelu就是高斯误差线性单元,这种激活函数在激活中加入了随机正则的思想,是一种对神经元输入的概率描述。为了方便记忆,这里做简要的笔记。汇总有:Identity、Sigmoid、TanH、Softmax、Softsign、Softplus、ReLU、Leaky ReLU、Randomized ReLU、SELU、GELU。其中在推荐系统的lightGCN中取消使用非线性激活函数。

    图像特征 


    (1)Identity图像
    图像接近y=x,导数稳定可用于线性激活。

     

    (2)Sigmoid图像


    优点:便于求导,能将数据幅度控制在0到1之间,适合前向传播。

    缺点:从图中可以看出,接近饱和时,容易出现梯度为0的现象。另外梯度更新单调,且幂运算较为耗时。

    (3) TanH图像


    优点:压缩了输出的幅度,且以0为中心,可以从图像看出输出均值为0。

    缺点: 梯度消失问题,幂运算。

    (4) Softmax图像


     优点:指数形式可以方法差距,关于指数求导较方便,输出为归一化值,可用于表示概率行为。

     缺点:幂运算较为复杂,且容易发生数值溢出,需要进行处理。

    (5)Softsign图像 


    与tanh类似,但饱和速度更慢,比tanh效果更好。

     

     

    (6)ReLU 图像


    优点:ReLU的平滑化,避免了梯度消失,计算快,收敛快。

    缺点:由于许多参数被搁置,导致无法更多的发挥模型的实际能力,即模型部分参数是意义不大的。

     

    (7)Softplus图像


    优点:ReLU的平滑化,避免了梯度消失,计算快,收敛快

    缺点:与ReLU类似

     

    (8)Leaky ReLU图像 

            为了解决dead ReLU现象。用一个类似0.01的小值来初始化神经元,从而使得ReLU在负数区域更偏向于激活而不是死掉。这里的斜率都是确定的。        ​​​​​​​
    与 ReLu 相比 ,leak 给所有负值赋予一个非零斜率,保留了负值信息。

     

    (9) Randomized ReLU图像


    这里关于负值的处理是使用随机的均匀分布来保留负值信息。

     

    (10)SELU图像

     

     
    SELU将隐藏层的输出数据自动分为均值为0方差为1。

     

    (11)GELU图像

            GELU可以看作 dropout的思想和relu的结合,,主要是为激活函数引入了随机性使得模型训练过程更加鲁棒。 我第一次使用gelu是在transformer的任务当中,效果相比于relu及其变体有一定改进。

    参考:

    关于gelu - 知乎

    深度学习相关面经(Deprecated) - 知乎

    Gelu论文:https://arxiv.org/pdf/1606.08415.pdf

  • 相关阅读:
    数据安全峰会2022 | 美创DSM获颁“数据安全产品能力验证计划”评测证书
    瑞芯微RKNN开发·yolov7
    [附源码]java毕业设计食材采购平台论文
    Windows服务器 开机自启动服务
    mysql的分组group by
    (50)其他的性能测试场景
    igraph load 无法读取保存的graph attr
    ssm+java+vue微信小程序的驾校预约管理系统#毕业设计
    Java毕设项目钢材商贸公司网络购销管理系统计算机(附源码+系统+数据库+LW)
    leetcode 34. 在排序数组中查找元素的第一个和最后一个位置
  • 原文地址:https://blog.csdn.net/qq_46006468/article/details/126146451
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号