强化学习基础-标量对矩阵的求导术

强化学习基础-标量对矩阵的求导术
以下来自于知乎文章《机器学习中的数学理论1：三步搞定矩阵求导》

在机器学习，控制论中总会遇到这样或那样需要借助矩阵或者向量求导才能解决的问题(例:Gradient Descent)。这类问题对于在机器学习中分析，推导，应用其原理性理论有很重要的作用。

$x :$ 标量； $\mathbf x:$ 向量； $X$ :矩阵

 1.预备背景

 1.1 常用矩阵微分运算法则
- $d(X\pm Y)=d(X)\pm d(Y)$
- $d (X Y) = X d Y + (d X) Y$
- $d(X^T)=(dX)^T$
- $d t r (X) = t r d (X)$
- $d(X\odot Y)=dX\odot Y+X \odot dY$
- $dX^{-1}=-X^{-1}dXX^{-1}$
- $d|X|=|X|tr(X^{-1}dX)$
- $d\sigma(X)=\sigma^{`}(X)\odot dX$
1.2 常用矩阵迹运算法则
- $a = t r (a)$ ,当a是标量
- $tr(A^T)=tr(A)$
- $tr(A\pm B)=tr(A)\pm tr(B)$
- $tr(AB)=tr(BA)=\sum_{i,j}A_{ij}B_{ij}$ ,当 $A$ 与 $B^T$ 尺寸相同时
- $tr(A^T(B\odot C))=tr((A\odot B)^TC)=\sum_{i,j}A_{ij}B_{ij}C_{ij}$
1.3 常用矩阵直积运算法则
- $A\bigotimes B \neq B\bigotimes A$
- $(A_1+A_2)\bigotimes B=A_1\bigotimes B+A_2\bigotimes B$
- $(A\bigotimes B)\bigotimes C=A\bigotimes (B\bigotimes C)$
- 若 $A_1,A_2$ 可以做乘法运算， $B_1,B_2$ 可以做乘法运算:
  $(A_1\bigotimes A_2)(B_1\bigotimes B_2)=(A_1A_2)\bigotimes(B_1B_2)$
- 若 $A, B$ 可以求逆:
  $\bigotimes B)^{-1}=A^{-1}\bigotimes B^{-1}$
  若不能求逆运算则:
  $(A\bigotimes B)^{+}=A^{+}\bigotimes B^{+}$
- $(A\bigotimes B)^H=A^H\bigotimes B^H$
- $det(A\bigotimes B)=(detA)^n(detB)^m(A\in C^{m\times m},B\in C^{n\times n})$
- $tr(A\bigotimes B)=(trA)\bigotimes (trB)$
- $rank(A\bigotimes B)=rankA\bigotimes rankB$
- $e^{I \bigotimes A} = I\bigotimes e^A,e^{A\bigotimes I} = A\bigotimes I$
- $e^{(A\bigotimes I_n+I_m \bigotimes B)}=e^A\bigotimes e^B$
2.标量对矩阵的求导术

 2.1 算法流程
$\mathbf {Input}:X,f$

$\mathbf{Output}:\frac{\partial f}{\partial X}$

$\mathbf{Algorithm}$ :
1. 根据 $f$ 寻找 $d f$ .
2. $d f$ 左右两边套 $t r$ : $t r (d f) = d f$
3. 根据 $df=tr(\frac{\partial f^T}{\partial X}dX)$ 凑出 $\frac{\partial f}{\partial X}$
2.2 习题

2.解: 首先对 $f$ 左右两边求微分，令 $u = X b$ :
$1.df=a^Td(\exp(u))=a^T\exp(u)du=a^T\exp(Xb)\odot(dXb)\\$

$2.df=tr(df)=tr(a^T(\exp(Xb)\odot(dXb)))\\ =tr((a\odot\exp(Xb))^T dXb)\\ =tr(b(a\odot\exp(Xb))^T dX)\\ =tr((a\odot\exp(Xb)b^T)^T dX)\\$

$3.由df=tr(\frac{\partial f^T}{\partial X}dX)\\\ \frac{\partial f}{\partial X}=a\odot\exp(Xb)b^T$
1. 解:对上述 $l$ 可知: $l=(Xw-y)^T(Xw-y)$ :
  $1.dl=(Xdw)^T(Xw-y)+(Xw-y)^T(Xdw)\\ 2.dl = tr(dl)=tr(2(Xw-y)^TXdw)\\ 3.由dl=tr(\frac{\partial f^T}{\partial w}dw)\rightarrow \frac{\partial f}{\partial w}=2X^T(Xw-y)$
2.3 标量对矩阵求导的链式法则

2.3.1 向量对向量求导链式法则

假设向量(列向量)之间存在依赖关系，比如: $\mathbf x\rightarrow \mathbf y \rightarrow \mathbf z$ ，则有:
$\frac{\partial \mathbf z}{\partial \mathbf x}=\frac{\partial \mathbf z}{\partial \mathbf y}\frac{\partial \mathbf y}{\partial \mathbf x}$

2.3.2 标量对多个向量的链式求导法则

假设向量(列向量)之间存在依赖关系，比如: $\mathbf x\rightarrow \mathbf y \rightarrow \mathbf z$ ，要求导的是标量 $z$ 。那么就有: $\frac{\partial z}{\partial \mathbf y}:n\times 1,\frac{\partial z}{\partial \mathbf x}:m\times 1,\frac{\partial \mathbf y}{\partial \mathbf x}:n\times m$ ,则: $\frac{\partial \mathbf z}{\partial \mathbf x}=(\frac{\partial \mathbf y}{\partial \mathbf x})^T\frac{\partial \mathbf z}{\partial \mathbf y}$ 。当形式更为复杂有:
$\mathbf y_1 \rightarrow \mathbf y_1\rightarrow ...\mathbf y_n\rightarrow z$
那链式法则为:
$\frac{\partial z}{\partial \mathbf y_1}=(\frac{\partial \mathbf y_{n}}{\partial \mathbf y_{n-1}}\frac{\partial \mathbf y_{n-1}}{\partial \mathbf y_{n-2}}...\frac{\partial \mathbf y_2}{\partial \mathbf y_1})^T\frac{\partial z}{\partial \mathbf y_n}$

2.3.3 标量对多个矩阵的链式求导法则
相关阅读:
java的网络编程
 使用kubasz快速搭建Kubernetes集群
 Linux生成动态库
 基于surging网络组件多协议适配的平台化发展
 如何在代码层面提高CPU分支预测效率
 关于企业微信中开发第三方应用遇到的退出问题
 浏览器本地存储webStroage
SLM2110 600V 2A 逆变电源专用芯片替代IR2110S 移动储能解决方案
 hive-行转列
 vue项目+xlsx+xlsx-style 实现table导出为excel的功能——技能提升
原文地址：https://blog.csdn.net/shengzimao/article/details/125527405

1.预备背景

1.1 常用矩阵微分运算法则

1.2 常用矩阵迹运算法则

1.3 常用矩阵直积运算法则

2.标量对矩阵的求导术

2.1 算法流程

2.2 习题

2.3 标量对矩阵求导的链式法则

2.3.1 向量对向量求导链式法则

2.3.2 标量对多个向量的链式求导法则

2.3.3 标量对多个矩阵的链式求导法则