分类与回归梯度下降公式推导

链式推导法则
$\begin{aligned} \frac{\partial J_{(θ)}}{\partial θ} = \frac{\partial J_{(h)}}{\partial h} * \frac{\partial h_{(z)}}{\partial z} * \frac{\partial z_{(θ)}}{\partial θ} \end{aligned}$

原函数
$z_{(\theta)}= \theta^T x$
求导过程
$\begin{aligned} \frac{\partial z_{(θ)}}{\partial θ_{}} & = \frac{\partial θ^{T} x}{\partial θ} \\ = x \end{aligned}$

\begin{aligned} \frac{\partial h_{(z)}}{\partial z} & = \frac{\partial (\frac{1}{1 + e^{- z}})}{\partial z} \\ = \frac{0 - \partial (1 + e^{- z})}{(1 + e^{- z})^{2}} \\ = \frac{e^{- z}}{(1 + e^{- z})^{2}} \\ = \frac{1 + e^{- z} - 1}{(1 + e^{- z}) (1 + e^{- z})} \\ = \frac{1 + e^{- z} - 1}{(1 + e^{- z})} . \frac{1}{(1 + e^{- z})} \\ = [1 - \frac{1}{(1 + e^{- z})}] . \frac{1}{(1 + e^{- z})} \\ = (1 - h_{(z)}) * h_{(z)} \end{aligned}

\frac{\partial h _{(z)}}{\partial z} = \frac{\partial ( \frac{1}{1 + e ^{- z}} )}{\partial z} = \frac{0 - \partial ( 1 + e ^{- z} )}{( 1 + e ^{- z} ) ^{2}} = \frac{e ^{- z}}{( 1 + e ^{- z} ) ^{2}} = \frac{1 + e ^{- z} - 1}{( 1 + e ^{- z} ) ( 1 + e ^{- z} )} = \frac{1 + e ^{- z} - 1}{( 1 + e ^{- z} )} . \frac{1}{( 1 + e ^{- z} )} = [1 - \frac{1}{( 1 + e ^{- z} )}] . \frac{1}{( 1 + e ^{- z} )} = (1 - h_{(z)}) * h_{(z)}

原函数
$\begin{aligned} L o s s_{(w)} & = - \frac{1}{m} [\sum_{i = 1}^{m} (y^{i} * l o g^{h (z)} + (1 - y^{i}) * l o g^{(1 - h (z)})] \end{aligned}$
求偏导过程
$\begin{aligned} \frac{\partial L o s s_{(h)}}{\partial h} & = - \frac{\partial \frac{1}{m} [\sum_{i = 1}^{m} (y^{i} * l o g^{h (z)} + (1 - y^{i}) * l o g^{(1 - h (z)})]}{\partial h} \\ = - \frac{1}{m} [\sum_{i = 1}^{m} (y^{i} * \frac{1}{h (z)} + (1 - y^{i}) * \frac{1}{1 - h (z)} * (- 1))] \\ = - \frac{1}{m} [\sum_{i = 1}^{m} (\frac{y^{i}}{h (z)} + \frac{(1 - y^{i})}{1 - h (z)} * (- 1))] \\ = - \frac{1}{m} [\sum_{i = 1}^{m} (\frac{y^{i} * (1 - h_{(z)}) + (y^{i} - 1) * h_{(z)}}{h_{(z)} * (1 - h_{(z)})})] \\ = - \frac{1}{m} [\sum_{i = 1}^{m} (\frac{y^{i} - h_{(z)}}{h_{(z)} * (1 - h_{(z)})})] \\ = \frac{1}{m} [\sum_{i = 1}^{m} (\frac{h_{(z)} - y^{i}}{h_{(z)} * (1 - h_{(z)})})] \end{aligned}$

\begin{aligned} \frac{\partial L o s s_{(θ)}}{\partial θ_{j}} & = \frac{\partial L o s s_{(h)}}{\partial h} * \frac{\partial h_{(z)}}{\partial z} * \frac{\partial z_{(θ)}}{\partial θ_{j}} \\ = \frac{1}{m} [\sum_{i = 1}^{m} (\frac{h_{(z)} - y^{i}}{h_{(z)} * (1 - h_{(z)})})] * (1 - h_{(z)}) * h_{(z)} * x_{j}^{i} \\ = \frac{1}{m} \sum_{i = 1}^{m} (h_{(z)} - y^{i}) * x_{j}^{i} \end{aligned}

\frac{\partial L os s _{(θ)}}{\partial θ _{j}} = \frac{\partial L os s _{(h)}}{\partial h} * \frac{\partial h _{(z)}}{\partial z} * \frac{\partial z _{(θ)}}{\partial θ _{j}} = \frac{1}{m} [i = 1 \sum m (\frac{h _{(z)} - y ^{i}}{h _{(z)} * ( 1 - h _{(z)} )})] * (1 - h_{(z)}) * h_{(z)} * x_{j}^{i} = \frac{1}{m} i = 1 \sum m (h_{(z)} - y^{i}) * x_{j}^{i}

对 $\theta$ 求偏导
$\begin{aligned} θ_{j} & := θ_{j} - α * \frac{\partial L o s s_{(θ)}}{\partial θ_{j}} \\ := θ_{j} - α * \frac{1}{m} \sum_{i = 1}^{m} (h_{(z)} - y^{i}) * x_{j}^{i} \end{aligned}$

原函数
$\begin{aligned} L o s s_{(θ)} & = \frac{1}{2} (z_{(θ)} - y)^{2} \end{aligned}$
求导过程
$\begin{aligned} \frac{\partial L o s s_{(θ)}}{\partial θ_{j}} & = \frac{\partial \frac{1}{2} (z_{(θ)} - y^{i})^{2}}{\partial θ_{j}} \\ = \frac{1}{2} * 2 * (z_{(θ_{j})} - y^{i}) * \partial z_{(θ_{j})} \\ = (z_{(θ_{j})} - y^{i}) * x_{j}^{i} \end{aligned}$

\begin{aligned} θ_{j} & := θ_{j} - α * \frac{\partial L o s s_{(θ)}}{\partial θ_{j}} \\ := θ_{j} - α * (z_{(θ_{j})} - y^{i}) * x_{j}^{i} \end{aligned}

θ_{j} := θ_{j} - α * \frac{\partial L os s _{(θ)}}{\partial θ _{j}} := θ_{j} - α * (z_{(θ_{j})} - y^{i}) * x_{j}^{i}

相关阅读:
数字化转型加快，低代码平台优势凸显
动态规划入门 java版本
猫头虎分享从Python到JavaScript传参数：多面手的数据传递术
十一、任务调度算法
数据库设计 ER图
TCP的重传机制、滑动窗口、流量控制、拥塞控制，这一篇就够了
虚拟摄像头之五: 详解 android8 的 Camera 子系统框架
Windows下将文件夹映射为磁盘
机器学习之集成学习算法简介
CleanMyMac2023免费版系统清理优化工具

原文地址：https://blog.csdn.net/m0_46926492/article/details/128074635