• 损失函数&激活函数&学习率策略哇


    🚀 作者 :“码上有前”
    🚀 文章简介 :AI-损失函数&激活函数&学习率策略
    🚀 欢迎小伙伴们 点赞👍、收藏⭐、留言💬
    
    • 1
    • 2
    • 3

    在这里插入图片描述

    损失函数&激活函数&学习率策略

    常见损失函数

    1. 平均绝对误差(Mean Absolute Error,MAE):是预测值与真实值之间的差的绝对值的平均值。
      MAE = 1 n ∑ i = 1 n ∣ y i − y ^ i ∣ \text{MAE} = \frac{1}{n}\sum_{i=1}^{n}|y_i - \hat{y}_i| MAE=n1i=1nyiy^i
      其中, n n n为样本数量, y i y_i yi为第 i i i个样本的真实值, y ^ i \hat{y}_i y^i为第 i i i个样本的预测值。

    2. 均方误差(Mean Squared Error,MSE):是预测值与真实值之间差的平方再求平均值。
      MSE = 1 n ∑ i = 1 n ( y i − y ^ i ) 2 \text{MSE} = \frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y}_i)^2 MSE=n1i=1n(yiy^i)2

    3. 交叉熵损失函数(Cross Entropy Loss): 对于分类问题,常用交叉熵作为损失函数。交叉熵表示模型对于真实标签的拟合程度,值越小说明模型拟合效果越好。
      cross-entropy ( y , y ^ ) = − ∑ c = 1 C ( y c × log ⁡ ( y ^ c ) ) \text{cross-entropy}(y, \hat{y}) = -\sum_{c=1}^{C}(y_c × \log(\hat{y}_c)) cross-entropy(y,y^)=c=1C(yc×log(y^c))
      其中, y y y是真实标签的one-hot编码, y ^ \hat{y} y^是模型预测出来的结果概率分布, c c c代表类别数。

    4. 对数损失函数(Log Loss): 在概率论与统计学中,对数损失是一种经常用来评估二分类问题(binary classification)的逻辑回归模型的性能的函数。
      logloss = − ∑ i = 1 n [ y i × log ⁡ ( y ^ i ) + ( 1 − y i ) × log ⁡ ( 1 − y ^ i ) ] \text{logloss} = - \sum_{i=1}^{n}[y_i × \log(\hat{y}_i) + (1-y_i) × \log(1-\hat{y}_i)] logloss=i=1n[yi×log(y^i)+(1yi)×log(1y^i)]

    5. KL散度(KL Divergence):在信息论中,KL散度表示两个分布之间的差异。在机器学习中,可以使用KL散度作为损失函数来衡量两个概率分布的相似程度。
      K L ( p ∣ ∣ q ) = { ∑ i p ( x i ) ⋅ log ⁡ ( p ( x i ) q ( x i ) ) if  x i ∈ X ∫ p ( x ) ⋅ log ⁡ ( p ( x ) q ( x ) )   d x if  x ∈ R KL(p || q) = {ip(xi)log(p(xi)q(xi))if xiXp(x)log(p(x)q(x))dxif xR

      ip(xi)log(p(xi)q(xi))p(x)log(p(x)q(x))dxif xiXif xR
      KL(p∣∣q)= ip(xi)log(q(xi)p(xi))p(x)log(q(x)p(x))dxif xiXif xR

    6. 交叉熵损失函数(Cross Entropy Loss)
      C E _ L o s s ( t ) = − ∑ i = 1 n t i log ⁡ ( s i g m o i d ( o i ) ) + ( 1 − t i ) log ⁡ ( 1 − s i g m o i d ( o i ) ) CE\_Loss(t) = -\sum_{i=1}^n t_i \log(sigmoid(o_i)) + (1-t_i)\log(1-sigmoid(o_i)) CE_Loss(t)=i=1ntilog(sigmoid(oi))+(1ti)log(1sigmoid(oi))
      其中, t i t_i ti代表标签值是1或0, o i o_i oi代表模型预测出的标签值。

    7. softmax 函数
      它是 sigmoid 函数的推广版本,能够处理多分类问题softmax函数用于将一个K维的实数向量映射到(0,1)之间的K维向量,并且使得这个K维向量上的元素值和为1。

    8. 对数似然损失(Log-Likelihood Loss)
      L L ( x , y ) = ∑ i = 1 N y i log ⁡ ( y ^ i ) + ( 1 − y i ) log ⁡ ( 1 − y ^ i ) LL(x,y) = \sum^{N}_{i=1}y_i\log (\hat{y}_i) + (1-y_i)\log (1-\hat{y}_i) LL(x,y)=i=1Nyilog(y^i)+(1yi)log(1y^i)

    9. Hinge Loss
      H i n g e ( z ) = m a x ( 0 , 1 − z ) Hinge(z)=max(0, 1-z) Hinge(z)=max(0,1z)

    10. 指数损失(Exponential Loss)
      E L ( z ) = e − z EL(z)=e^{-z} EL(z)=ez

    11. Log均方误差(Log-Cosh loss)
      H ( y , t ) = 1 N ∑ n = 1 N ( log ⁡ cosh ⁡ ( y n − t n ) ) H(y,t)={\frac {1}{N}}\sum_{n=1}^{N}\left(\log\cosh(y_n-t_n)\right) H(y,t)=N1n=1N(logcosh(yntn))

    12. 互信息(Mutual Information)
      I ( X ; Y ) = ∑ x ∑ y p ( x , y ) log ⁡ 2 p ( x , y ) p ( x ) p ( y ) I(X;Y) = \sum_x \sum_y p(x,y) \log_2{\frac{p(x,y)}{p(x)p(y)}} I(X;Y)=xyp(x,y)log2p(x)p(y)p(x,y)

    13. GAN的损失函数是生成器和判别器的损失函数的加和。
      l o s s = α × g e n e r a t o r _ l o s s ( y _ p r e d , y _ r e a l ) + ( 1 − α ) × g a n _ l o s s ( d _ r e a l , d _ f a k e ) loss = \alpha \times generator\_loss(y\_pred, y\_real) + (1-\alpha) \times gan\_loss(d\_real, d\_fake) loss=α×generator_loss(y_pred,y_real)+(1α)×gan_loss(d_real,d_fake)

    其中, α \alpha α 是两个损失函数的权重系数,在训练过程中可以调整。

    • 第一项是生成器的损失函数。它是一个分类问题,用来衡量生成器生成的样本和真实样本之间的差距。
    • 第二项是判别器的损失函数。对真实样本的判断结果向1逼近,对生成样本的判断结果向0逼近。

    激活函数

    1. 线性激活函数:f(x) = x

    2. 隐含层和输出层通常使用sigmoid函数、relu函数、tanh函数

    3. sigmoid函数: σ ( z ) = 1 1 + e − z \sigma (z)=\frac{1}{1+e^{-z}} σ(z)=1+ez1

    4. 双曲正切函数: t a n h ( z ) = e 2 z − 1 e 2 z + 1 tanh(z)=\frac{e^{2z}-1}{e^{2z}+1} tanh(z)=e2z+1e2z1

    5. RELU函数
      R E L U ( x ) = { 0 ( x , < = 0 ) x ( x > 0 ) RELU(x) = \left\{ 0(x,<=0)x(x>0)

      0x(x,<=0)(x>0)
      \right. RELU(x)={0x(x,<=0)(x>0)

    6. Leaky Relu

    7. ELU

    学习率策略

    提升方法中的学习率调整:

    1. 减小学习速率的下降策略

      方法优点缺点
      变化学习率在训练的初期使用较大的学习率,当模型训练到一定程度的时候,使用较小的学习率。需要每个epoch结束调整,且需要手动测试
      余弦退火优化目标函数不是全局凸性问题,如果没有精确的LR或没有足够的数据,会导致峰值出现在错误的位置上。
      指数衰减衰减速度高,只要迭代次数足够多,就能把后期的分类效果控制的很好。引入了一个超参数 α \alpha α,同时学习率不能设定得过大。
      根据训练次数和当前轮数动态调整学习率逐渐随机地减小学习率
  • 相关阅读:
    基于深度学习的组织病理学图像IDC检测方法
    Adobe Audition CS6 下载与安装教程
    第七章 Java编程-多线程
    英语学习笔记36——Where ... ?
    AlphaLinux配置宽带拨号上网
    Kali 无法联网的解决方案,优雅的配置桥接模式
    自定义View(坐标系)
    java-php-net-python-图书馆选择计算机毕业设计程序
    简洁自增ID实现方案
    通过X射线光刻在指尖大小的芯片中产生高精度微光学元件的晶圆级制造
  • 原文地址:https://blog.csdn.net/qq_45832651/article/details/133838508