损失函数&激活函数&学习率策略哇

🚀 作者 ：“码上有前”
🚀 文章简介 ：AI-损失函数&激活函数&学习率策略
🚀 欢迎小伙伴们 点赞👍、收藏⭐、留言💬
1
2
3

在这里插入图片描述

损失函数&激活函数&学习率策略

常见损失函数
激活函数
学习率策略

常见损失函数

平均绝对误差（Mean Absolute Error，MAE）：是预测值与真实值之间的差的绝对值的平均值。
$\text{MAE} = \frac{1}{n}\sum_{i=1}^{n}|y_i - \hat{y}_i|$
其中， $n$ 为样本数量， $y_i$ 为第 $i$ 个样本的真实值， $\hat{y}_i$ 为第 $i$ 个样本的预测值。
均方误差（Mean Squared Error，MSE）：是预测值与真实值之间差的平方再求平均值。
$\text{MSE} = \frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y}_i)^2$
交叉熵损失函数（Cross Entropy Loss）: 对于分类问题，常用交叉熵作为损失函数。交叉熵表示模型对于真实标签的拟合程度，值越小说明模型拟合效果越好。
$\text{cross-entropy}(y, \hat{y}) = -\sum_{c=1}^{C}(y_c × \log(\hat{y}_c))$
其中， $y$ 是真实标签的one-hot编码， $\hat{y}$ 是模型预测出来的结果概率分布， $c$ 代表类别数。
对数损失函数（Log Loss）: 在概率论与统计学中，对数损失是一种经常用来评估二分类问题（binary classification）的逻辑回归模型的性能的函数。
$\text{logloss} = - \sum_{i=1}^{n}[y_i × \log(\hat{y}_i) + (1-y_i) × \log(1-\hat{y}_i)]$
KL散度（KL Divergence）：在信息论中，KL散度表示两个分布之间的差异。在机器学习中，可以使用KL散度作为损失函数来衡量两个概率分布的相似程度。
$KL(p || q) = {∑ip(xi)⋅log(p(xi)q(xi))if xi∈X∫p(x)⋅log(p(x)q(x))dxif x∈R$
$⎧ ⎩ ⎨ ⎪ ⎪ \sum i p (x i) \cdot log (p ( x i ) q ( x i )) \int p (x) \cdot log (p ( x ) q ( x )) d x if x i \in X if x \in R$ $K L (p ∣∣ q) = ⎩ ⎨ ⎧ \sum_{i} p (x_{i}) \cdot lo g (\frac{p ( x _{i} )}{q ( x _{i} )}) \int p (x) \cdot lo g (\frac{p ( x )}{q ( x )}) d x if x_{i} \in X if x \in R$
交叉熵损失函数（Cross Entropy Loss）
$CE\_Loss(t) = -\sum_{i=1}^n t_i \log(sigmoid(o_i)) + (1-t_i)\log(1-sigmoid(o_i))$
其中， $t_i$ 代表标签值是1或0， $o_i$ 代表模型预测出的标签值。
softmax 函数
它是 sigmoid 函数的推广版本，能够处理多分类问题。softmax函数用于将一个K维的实数向量映射到(0,1)之间的K维向量，并且使得这个K维向量上的元素值和为1。
对数似然损失（Log-Likelihood Loss）
$\sum^{N}_{i=1}y_i\log (\hat{y}_i) + (1-y_i)\log (1-\hat{y}_i)$
Hinge Loss
$H in g e (z) = ma x (0, 1 - z)$
指数损失（Exponential Loss）
$EL(z)=e^{-z}$
Log均方误差（Log-Cosh loss）
$H(y,t)={\frac {1}{N}}\sum_{n=1}^{N}\left(\log\cosh(y_n-t_n)\right)$
互信息（Mutual Information)
$\sum_x \sum_y p(x,y) \log_2{\frac{p(x,y)}{p(x)p(y)}}$
GAN的损失函数是生成器和判别器的损失函数的加和。
$\alpha \times generator\_loss(y\_pred, y\_real) + (1-\alpha) \times gan\_loss(d\_real, d\_fake)$

其中， $\alpha$ 是两个损失函数的权重系数，在训练过程中可以调整。

第一项是生成器的损失函数。它是一个分类问题，用来衡量生成器生成的样本和真实样本之间的差距。
第二项是判别器的损失函数。对真实样本的判断结果向1逼近，对生成样本的判断结果向0逼近。

激活函数

线性激活函数：f(x) = x
隐含层和输出层通常使用sigmoid函数、relu函数、tanh函数
sigmoid函数： $\sigma (z)=\frac{1}{1+e^{-z}}$
双曲正切函数： $tanh(z)=\frac{e^{2z}-1}{e^{2z}+1}$
RELU函数
$\left\{ 0(x,<=0)x(x>0)$
$0 x (x, < = 0) (x > 0)$ \right. $RE LU (x) = {0 x (x, <= 0) (x > 0)$
Leaky Relu
ELU

学习率策略

提升方法中的学习率调整：

减小学习速率的下降策略

方法	优点	缺点
变化学习率	在训练的初期使用较大的学习率，当模型训练到一定程度的时候，使用较小的学习率。	需要每个epoch结束调整，且需要手动测试
余弦退火	优化目标函数不是全局凸性问题，如果没有精确的LR或没有足够的数据，会导致峰值出现在错误的位置上。
指数衰减	衰减速度高，只要迭代次数足够多，就能把后期的分类效果控制的很好。	引入了一个超参数 $\alpha$ ，同时学习率不能设定得过大。
根据训练次数和当前轮数动态调整学习率	逐渐随机地减小学习率

相关阅读:
基于深度学习的组织病理学图像IDC检测方法
 Adobe Audition CS6 下载与安装教程
 第七章 Java编程-多线程
 英语学习笔记36——Where ... ?
AlphaLinux配置宽带拨号上网
 Kali 无法联网的解决方案，优雅的配置桥接模式
 自定义View(坐标系）
java-php-net-python-图书馆选择计算机毕业设计程序
 简洁自增ID实现方案
 通过X射线光刻在指尖大小的芯片中产生高精度微光学元件的晶圆级制造
原文地址：https://blog.csdn.net/qq_45832651/article/details/133838508