矩阵求导之二

上一篇：https://blog.csdn.net/m0_37567738/article/details/133444201?spm=1001.2014.3001.5502

参考网址：https://zhuanlan.zhihu.com/p/262751195

在机器学习的算法推导里，通常遵循以下布局的规范：

如果向量或者矩阵对标量求导，则以分子布局为准。
如果标量对向量或者矩阵求导，则以分母布局为准。
对于向量对对向量求导，一般以分子布局的雅克比矩阵为主，即结果是一个矩阵。
分子布局和分母布局的结果相差一个转置。

$t r (A B) = t r (B A)$

$tr(A^TB) = \sum_{i,j}A_{ij}B_{ij},即tr(A^TB)是矩阵A，B的内积(或卷积和)\tag{2.1}$

$=\sum_{i=1}^{n}\frac{\partial f}{\partial x_{i}}dx_{i} =\frac{\partial f}{\partial x } ^T d x\tag{2.2}$

将{2.2}中的向量推广到矩阵，由{2.1}和{2.2}可得：
$\sum_{i=1}^{m}\sum_{j=1}^{n}\frac{\partial f}{\partial X_{ij}}dX_{ij} =tr(\frac{\partial f}{\partial X } ^T d X)$

上述微分法，是对矩阵求导数的基本思想。

例1:
$a^TXb,其中y是标量,a是m维向量，b是n维向量，X是m*n维矩阵，求\frac{\partial y}{\partial X}$

解法1:
按照分母布局可得：
$\frac{\partial y}{\partial X} = ab^T$

解法2:
$df = da^T Xb + a^TdXb + a^TXdb = a^TdXb$

$df = tr(a^TdXb)=tr((ab^T)^T dX)$

$\frac{\partial f}{\partial X} = ab^T$

例子2：
求 $d A^{-1}$

解：
$A^{-1} A = I => \\ d (A^{-1} A) = d(A^{-1})A + A^{-1}dA = dI=>\\ d(A^{-1})A = - A^{-1}dA =>\\ d(A^{-1}) = - A^{-1}dA A^{-1}$

或者：

$A A^{-1} = I => \\ d (A A^{-1} ) = dA A^{-1} + A d(A^{-1}) = dI=>\\ A d(A^{-1})= -dA A^{-1}=>\\ d(A^{-1}) = - A^{-1}dA A^{-1}$

例3：求d (detA)

解：

$d|X| = |X|tr(X^{-1}dX) = tr(X^*dX)$

行列式求导公式推导：https://www.cnblogs.com/analysis101/p/14677671.html

https://jingyan.baidu.com/article/a501d80cb6ef00ac620f5e21.html

例4:
$\begin {vmatrix} x+ a & a& a \\ a & x+a & a\\a & a & x+a \end{vmatrix}，求f'(x)$

解：
按照例3的公式求导即可。该公式的证明（验证）见例3中的链接地址。

$\begin {vmatrix} x+ a & a\\a&x+a\end{vmatrix} = 3x^2+6ax$

例5：

验证 $d (A B) = d A B + A d B$

解：

设A= $\begin {Bmatrix} f_1 & f_2\\f_3& f_4\end{Bmatrix}$ ,B= $\begin {Bmatrix} g_1 & g_2\\g_3& g_4\end{Bmatrix}$
则A’= $\begin {Bmatrix} f^{'}_1 & f^{'}_2\\f^{'}_3& f^{'}_4\end{Bmatrix}$ ,B’= $\begin {Bmatrix} g^{'}_1 & g^{'}_2\\g^{'}_3& g^{'}_4\end{Bmatrix}$

$\begin {Bmatrix} f_1g_1+f_2g_3 & f_1g_2+f_2g_4\\f_3g_1+f_4g_3& f_3g_2+f_4g_4\end{Bmatrix} =\\ \begin {Bmatrix} f^{'}_1g_1+f^{'}_2g_3 & f^{'}_1g_2+f^{'}_2g_4\\f^{'}_3g_1+f^{'}_4g_3& f^{'}_3g_2+f^{'}_4g_4\end{Bmatrix} +\\ \begin {Bmatrix} f_1g^{'}_1+f_2g^{'}_3 & f_1g^{'}_2+f_2g^{'}_4\\f_3g^{'}_1+f_4g^{'}_3& f_3g^{'}_2+f_4g^{'}_4\end{Bmatrix} =dAb+AdB$

例6:

求dtr(AB)对A的导数。

解：

$\sum_{i,j}A_{ij}B_{ji}$

$\frac{\partial (\sum_{i,j}A_{ij}B_{ji})^T}{\partial A} dA = (B^T)^TdA$

即dtr(AB)对A的导数是 $B^T$ 。

例7: 求 $\frac{\partial tr(A)}{\partial A}$

解：
$\frac{\partial tr(A)}{\partial A} = I$

说明：
此题是标量对矩阵求导的典型例子，此种类型还是按照开头讲的思路计算。这个题没什么技巧，记住即可。

相关阅读:
双非本科是如何逆袭的？这位同学有点东西
HCIA VLAN间通信多臂路由与单臂路由
自学Python 56 多线程开发（六）使用 Process
2023年中国轮胎模具需求量、竞争格局及行业市场规模分析[图]
win7开机有画面进系统黑屏怎么办
搭建深度学习网络时节约GPU显存的技巧
艾体宝案例 | 智能家居销售商的数字化转型故事
Pycharm常用快捷键和替换正则表达式
uniapp项目实战系列(3)：底部导航栏与头部导航栏的配置
微信小程序canvas画布绘制base64图片并保存图片到相册中

原文地址：https://blog.csdn.net/m0_37567738/article/details/133872924