论文笔记——多标签学习：GLOCAL

原文见Yue Zhu, James T. Kwok, Zhi-Hua Zhou, Multi-Label Learning with Global and Local Label Correlation, IEEE Transactions on Knowledge and Data Engineering, 2018 (30), 1081–1094.

符号系统

符号	说明
$\mathbf{X}=[x_{ij}]_{n\times d}\in \mathbb{R}^d$	特征矩阵
$\mathbf{\tilde Y}=[\tilde y_{ij}]\in \{-1,1\}^{l\times n}$	真实标签矩阵，即标签存在值为1，不存在即为-1
$\mathbf{Y}=[y_{ij}]\in \{-1, 0, 1\}^{l\times n}$	观察到的标签矩阵，即标签存在值为1，不存在即为-1，状态未知即为0
$\mathbf{C}=\{c_1, \dots, c_l\}$	标签集

主要思想
全局性体现在将 $\mathbf{\tilde Y}$ 分解成两个低秩矩阵相乘： $\mathbf{UV}$ ，即用 $\mathbf{UV}$ 来拟合 $\mathbf{\tilde Y}$ 。其中， $\mathbf{V}\in \mathbb{R}^{k\times n}$ 表示从原标签中抽象出的隐藏标签； $\mathbf{U}\in \mathbb{R}^{l\times k}$ 表示隐藏标签到原始标签的投射。然后，我们要找从特征数据到隐藏标签之间的映射关系，特征权重值用 $\mathbf{W}\in \mathbb{R}^{d\times k}$ 来表示，即用 $\mathbf{W}^T\mathbf{X}$ 来拟合 $\mathbf{V}$ ，因此基本的目标模函数为：
$\min_{\mathbf{U, V,W}}\parallel \Pi_{\Omega}(\mathbf{Y} - \mathbf{UV})\parallel_F^2+\lambda\parallel (\mathbf{V} - \mathbf{W}^T\mathbf{X})\parallel_F^2+\lambda_2\mathcal{R}(\mathbf{U,V,W}) \tag{1}$
其中， $\Pi_{\Omega}(\mathbf{Y} - \mathbf{UV})$ 是一个大小为 $l\times n$ 的矩阵， $\Omega$ 中记录了已知标签状态的标签索引（ $\mathbf{Y}中非0值的索引$ ），如果 $(i,j)\in \Omega$ ， $[\Pi_{\Omega}(A)]_{ij}=A_{ij}$ ，否则 $[\Pi_{\Omega}(A)]_{ij} = 0$ ；
$\mathcal{R}(\mathbf{U,V,W})$ 是一个正则表达式起约束作用； $\lambda$ 、 $\lambda_2$ 是权衡因子。
针对每一个标签，都有一个模型器与之对应。一个测试样例 $\mathbb{x}$ 的预测结果用 $sign(f(\mathbb{x}))$ 来表示。其中， $f(\mathbb{x})=\mathbf{UW}^T\mathbb{x}$ ， $f=[f_1, \dots, f_l]^T$ ， $f_j(\mathbb{x})$ 表示 $\mathbb{x}$ 关于标签 $c_j$ 的预测值。所有样例的测试结果用 $F_0$ 表示，即 $\mathbf{F}_0=[f(\mathbb{x}_1), \dots, f(\mathbb{x}_n)]=\mathbf{UW}^T\mathbf{X}$ 。
我们期望存在正相关的标签在同一个样本上的输出值越相似，负相关的标签的预测值差异越大。用 $\mathbf{S}_0=[S_{ij}]\in \mathbb{R}^{l \times l}$ 来表示标签的相关性矩阵，本论文中采用了余弦距离来表示相关性，即 $[\mathbf S_0]_{ij}=\frac{\mathbb{y}_i\mathbb{y}_j^T}{\parallel \mathbb{y}_i \parallel \parallel \mathbb{y}_j \parallel}$ ， $\mathbb{y}_i$ 表示 $\mathbf{Y}$ 中的第 $i$ 行数据。因此，希望 $\sum_{i,j}S_{ij}\parallel f_{i,:} - f_{j,:} \parallel _2^2$ 尽可能小。
通过 $\mathbf{S}_0$ 所对应的拉普拉斯矩阵 $\mathbf{L}_0$ （ $\mathbf{L}_0=\mathbf{D}_0 - \mathbf{S}_0$ 其中 $\mathbf{D}_0$ 是一个对角阵，每行的元素值等于 $\mathbf{S}_0$ 对应行的元素值的和）将目标式子 $\sum_{i,j}S_{ij}\parallel f_{i,:} - f_{j,:} \parallel _2^2$ 进行转换（拉普拉斯矩阵在后面介绍），拉普拉斯矩阵其中一个特点——对任意一个向量 $f$ 有： $f^TLf=\sum_{i,j}S_{ij}\parallel f_{i,:} - f_{j,:} \parallel_2^2$ 。
于是， $\mathbf{F}_0^T\mathbf{L}_0\mathbf{F}_0$ 得到一个对角矩阵，将 $\sum_{i,j}S_{ij}\parallel f_{i,:} - f_{j,:} \parallel _2^2$ 尽可能小问题转换为 $tr(\mathbf{F}_0^T\mathbf{L}_0\mathbf{F}_0)$ 尽可能小问题。
上面我们讨论的都是全局下的情况，现在来将局部相关性考虑进去。
由于标签的相关性在不同的环境中的表现可能不同，所以将训练样本划分成 $g$ 组，每个组用 $\mathbf{X}_m\in \mathbb{R}^{d\times n_m},m \in[1,g]$ 表示，每组的大小记作 $n_m$ ，对应的标签值矩阵用 $\mathbf{Y}_m$ 表示。与全局下一样，我们期望每个组的 $tr(\mathbf{F}_i^T\mathbf{L}_i\mathbf{F}_i)$ （ps: $\mathbf{F}_i=\mathbf{UW}^T\mathbf{X}_m，[S_m]_{ij}=\frac{\mathbb{y_m,}_i\mathbb{y_m,}_j^T}{\parallel \mathbb{y}_i \parallel \parallel \mathbb{y}_j \parallel}，\mathbf{L}_m=\mathbf{D}_m - \mathbf{S}_m$ ）（其中 $\mathbb{y_m,}_i$ 表示 $\mathbf{Y}_m$ 的第i行）尽可能的小。
于是，目标进化为：
$\min_{\mathbf{U, V,W}}\parallel \Pi_{\Omega}(\mathbf{Y} - \mathbf{UV})\parallel_F^2 +\lambda\parallel (\mathbf{V} - \mathbf{W}^T\mathbf{X})\parallel_F^2 +\lambda_2\mathcal{R}(\mathbf{U,V,W}) +\lambda_3tr(\mathbf{F}_0^T\mathbf{L}_0\mathbf{F}_0) +\sum\limits_{m=1}^g\lambda_4tr(\mathbf{F}_m^T\mathbf{L}_m\mathbf{F}_m) \tag{2}$
随后，文中提到了一个引理和一个命题：
在这里插入图片描述

于是，在此基础上再次进化：
$\min_{\mathbf{U, V,W}}\parallel \Pi_{\Omega}(\mathbf{Y} - \mathbf{UV})\parallel_F^2 +\lambda\parallel (\mathbf{V} - \mathbf{W}^T\mathbf{X})\parallel_F^2 +\lambda_2\mathcal{R}(\mathbf{U,V,W}) +\sum\limits_{m=1}^g\left ({ \frac{\lambda_3 n_m}{n}tr(\mathbf{F}_0^T\mathbf{L}_m\mathbf{F}_0) +\lambda_4tr(\mathbf{F}_m^T\mathbf{L}_m\mathbf{F}_m) }\right ) \tag{3}$
令 $\mathbf{J}=[\mathbf{J}_{ij}]_{l\times n}$ ，当 $(i,j)\in \Omega$ 时， $\mathbf{J}_{ij}=1$ ，否则为 $0$ 。所以 $\Pi_{\Omega}(\mathbf{Y} - \mathbf{UV})$ 被写成 $\mathbf{J}\circ(\mathbf{Y} - \mathbf{UV})$ 。
由于拉普拉斯矩阵 $\mathbf{L}_m$ 是正定矩阵，一定能找到矩阵 $\mathbf{Z}_m$ 满足 $\mathbf{L}_m = \mathbf{Z}_m\mathbf{Z}_m^T$ 。但注意，以上提到的 $\mathbf{L}_m$ 是我们要去找的，现在我们可以通过 $\mathbf{Z}_m$ 来确定，为了避免 $\mathbf{L}_m$ 是零矩阵且具有归一化，需要给 $\mathbf{Z}_m$ 添加限制条件，即 $diag(\mathbf{Z}_m\mathbf{Z}_m^T)=1$ 。
于是，目标表达式最后为：

\begin{aligned} min_{U, V, W} ∥ J \circ (Y - U V) ∥_{F}^{2} + λ ∥ (V - W^{T} X) ∥_{F}^{2} + λ_{2} R (U, V, W) + \sum_{m = 1}^{g} (\frac{λ_{3} n_{m}}{n} t r (F_{0}^{T} Z_{m} Z_{m}^{T} F_{0}) + λ_{4} t r (F_{m}^{T} Z_{m} Z_{m}^{T} F_{m})) \\ s . t . d i a g (Z_{m} Z_{m}^{T}) = 1, m \in {1, 2, \dots, g} \end{aligned}

\tag{4}

U, V, W min ∥ J \circ (Y - UV) ∥_{F}^{2} + λ ∥ (V - W^{T} X) ∥_{F}^{2} + λ_{2} R (U, V, W) + m = 1 \sum g (\frac{λ _{3} n _{m}}{n} t r (F_{0}^{T} Z_{m} Z_{m}^{T} F_{0}) + λ_{4} t r (F_{m}^{T} Z_{m} Z_{m}^{T} F_{m})) s . t . d ia g (Z_{m} Z_{m}^{T}) = 1, m \in {1, 2, \dots, g} (4)

其中，

\mathcal{R}(\mathbf{U,V,W}) = \parallel \mathbf{U} \parallel_F^2 + \parallel \mathbf{V} \parallel_F^2 + \parallel \mathbf{W} \parallel_F^2

。
我们通过目标表达式，学习得到

\mathbf{U,V,W}

。
贴上论文中的伪代码：
在这里插入图片描述

通过梯度下降法，迭代更新

\mathbf{U,V,W,Z}_m

：
总体思路：将其中一个作为变量，剩余其它参数作为常量，在目标表达式中对变量进行求偏导，获得梯度方向。
在这里插入图片描述

（偷个懒啦~）
总结：在

G L OC A L

算法中，针对每个标签都生成了一个

f_i,i\in[1,\dots,l]

，期望具有正相关性的标签所对应的模型输出值越相近，具有负相关性的标签所对应的模型输出值差异越大。考虑到标签的相关性在不同的环境下有不同的结果，所以将训练样本又划分成多个局部样本集（哈哈，找到了一个能横向切割的方法），并使用同样的方式获得局部下的目标表达式。结合了标签矩阵的对称性和拉普拉斯矩阵的特点，将复杂的差值求和换成简单的迹的求和。最后，通过梯度下降法来找参数。

现在来填坑：
拉普拉斯矩阵：请移步到这儿。
哈哈，自己动手丰衣足食。
不过，我的拉普拉斯启蒙是从这篇博客开始的：谱聚类（spectral clustering）原理总结

最后，恭喜自己草稿箱又少一篇，这个拖延症该治治了🙃

相关阅读:
Maven依赖导入
linux安装mongodb及springboot增删查实现
Python 算法：学习二分法
【React】React18.2.0核心源码解读
项目实战（SpringJDBC框架事务管理）
【阿里AgentScope框架】多框架组合：AgentScope加LangChain，让你的开发效率直线上升
单目标应用：萤火虫算法（Firefly Algorithm，FA）优化RBF神经网络实现数据预测（RBF隐藏层神经元个数可以自行设定）
挺进欧洲：中国汽车如何破解品牌与成本双重困境?
硬件知识——内存
Arduino程序设计（十一）8×8 共阳极LED点阵显示（74HC595）

原文地址：https://blog.csdn.net/Z__XY_/article/details/126632839