机器学习之归一化

参数	含义
$\theta$	函数参数
$\alpha$	学习率
$x^i_{j}$	x:数据集，i:样本，j:特征【数据集的每一行是一条样本，每一列是一个特征】
$z_{(\theta_{j})}$	预测值
$y^i$	真实值

\begin{aligned} θ_{j} & := θ_{j} - α * \frac{\partial L o s s_{(θ)}}{\partial θ_{j}} \\ := θ_{j} - α * (z_{(θ_{j})} - y^{i}) * x_{j}^{i} \end{aligned}

θ_{j} : = θ_{j} - α * \frac{\partial L o s s _{(θ)}}{\partial θ _{j}} : = θ_{j} - α * (z_{(θ_{j})} - y^{i}) * x_{j}^{i}

对参数求偏导【求梯度】如下：

$\begin{aligned} θ_{1} & := θ_{1} - α * (z_{(θ_{1})} - y^{i}) * x_{1}^{i} \\ θ_{2} & := θ_{2} - α * (z_{(θ_{2})} - y^{i}) * x_{2}^{i} \end{aligned}$
θ1θ2:=θ1−α∗(z(θ1)−yi)∗x1i:=θ2−α∗(z(θ2)−yi)∗x2i
- 对于损失函数初始参数时，参数值期望是均值为0方差1的正太分布随机在0附近的，所以每个初始参数值大小是差不多的。
- 根据公式可知 $\alpha* (z_{(\theta_{1})}-y^i)$ 值也差不多，即参数迭代的快慢就由 $x^i_{j}$ 【特征值的大小】决定的
- 假设 $x^i_{1}$ 特征为年龄， $x^i_{2}$ 特征为收入，由于年龄的取值范围远小于收入， $x^i_{1}$ < $x^i_{2}$ ,则 $\theta_{2}$ 迭代速度快于 $\theta_{1}$ ，导致 $\theta_2$ 达到最优解时，需要等待 $\theta_1$ 迭代到最优解
图像说明
- 在机器学习算法模型中，需要根据损失函数(Loss)求梯度根据损失求最优解参数 $\theta$
- 如图，对于loss损失的最优解在中心点
- 迭代参数路线如图蓝色线所示，当 $\theta_2$ 迭代到最优解时， $\theta_1$ 距离最优解的距离还有一段距离，导致 $\theta_2$ 达到最优解时，需要等待 $\theta_1$ 迭代到最优解，会导致 $\theta_1$ 在最优解的位置慢慢震荡，不能同时获取最优解

在这里插入图片描述

\begin{aligned} x_{i, j} & = \frac{x_{i, j} - x_{j}^{m i n}}{x_{j}^{m a x} - x_{j}^{m i n}} \end{aligned}

x_{i, j} = \frac{x _{i, j} - x _{j}^{m i n}}{x _{j}^{m a x} - x _{j}^{m i n}}

参数	含义
$x^{mean}_{j}$	特征均值
$\quad deviation$	特征方差

\begin{aligned} x_{i, j} & = \frac{x_{i, j} - x_{j}^{m e a n}}{s t a n d a r d d e v i a t i o n} \end{aligned}

x_{i, j} = \frac{x _{i, j} - x _{j}^{m e a n}}{s t a n d a r d d e v i a t i o n}

相关阅读:
MAC层协议总结
运行近20年，基于Win 98的火星探测器软件迎来首次升级
JVM笔记: JVM内存模型
Ansible之 AWX 创建管理项目的一些笔记
黑马瑞吉外卖之菜品的启售停售
Java项目：SSH电影在线售票管理系统
FFmpeg 命令：从入门到精通 | FFmpeg 解码流程
IDEA 28 个天花板技巧 + 12 款神级插件，生产力起飞...
MATLAB初学者入门（17）—— 爬山算法
Spring Boot EasyPOI 使用指定模板导出Excel

原文地址：https://blog.csdn.net/m0_46926492/article/details/128092775