论文学习记录随笔多标签之LSML

原文: Huang, J., Qin, F., Zheng, X., Cheng, Z.-K., Yuan, Z.-X., Zhang, W.-G., & Huang, Q.-M. (2019). Improving multi-label classification with missing labels by learning label-specific features. Information Sciences, 492, 124–146.

1.原文摘要理解

2.基本符号

3.公式模型

简单总结

1.原文摘要理解

如今的许多标签学习都是由 所有标签的特征组成的相同数据 来表示(我理解为并未提取出不同标签独有的特征?) 并且寄希望于能在训练集能够窥探到所有的标签, 而在多标签学习中，每个标签可能由其自身的某些 特定特征 决定, 对于某些实际应用, 只能获得每个示例的部分标签集。

而LSML ( Label-Specific features for multi-label classification with Missing Labels ) 着力于标签缺失情况的标签问题, 这里的Label-Specific features多标签学习让人不禁联想到张敏灵教授的LIFT中以某个标签构建一个全新属性集合的方案, 但是本篇虽然仍说Label-Specific features多标签学习, 但是全然不同于LIFT的风格. (~~为Label-Specific features多标签学习邻域开辟了全新的可能性~~)

Zhang, M.-L., & Wu, L. (2015). LIFT: Multi-label learning with label-specific features. IEEE Transactions on Pattern Analysis and Machine Intelligence, 37, 107–120.

LSML实现标签相关性的手段是在原本不完全标签矩阵 $Y$ 的基础上, 通过学习高阶标签关联, 得到一个新的 $l \times l$ 补充标签矩阵 $C$ . 并通过合并学习的高阶标签相关性，在此基础上同时构建多标签分类器.

(这个 $C$ 似乎有总结原标签特征的功效? 毕竟它描述了某个标签对其它所有标签的映射, 也许这就是是本文中强调的"Label-Specific features"?)

多标签学习挑战性问题就是如何从不完整的标签数据中学习准确的标签相关性, 因为大部分标签矩阵都是存在缺失的, LSML就是试着在信息缺失的大前提下通过构建标签的相关性矩阵去提高标签相关性与识别精度, 而非去补齐缺失矩阵再去学习. 作者认为当训练数据的类标签缺失时，直接从不完整的标签矩阵中学习的标签相关性可能是不准确的，并且会大大影响多标签分类器的性能. 所以作者没有采用类似于我之前博客介绍的GLOCAL那样的矩阵分解去补齐标签矩阵.

2.基本符号

符号	含义	说明
$X \in R^{n \times m}$	属性矩阵
$Y \in {0, 1}^{n \times l}$	标签矩阵
$W \in R^{m \times l}$	系数矩阵	仍然是线性模型
$w_{i} \in R^{m}$	某个标签的系数向量
$C \in R^{l \times l}$	标签相关性矩阵	成对相关性, 不满足对称性

$C$ 矩阵通过了一种类似于邻接矩阵的方式描述了任意 $i$ 标签与 $j$ 标签的相关性, 但是值得一提的是这样的矩阵并不满足对称性, 也就是说两个矩阵之间的相关程度在本文是不满足交换定理的(原作者注： $C_{i j}$ 可能不等于 $C_{j i}$ ，而在实验中，我们发现在大多数情况下， $C_{i j} = C_{j i}$ ). 据作者所说, 这种label-specific features多标签处理思路是类似于LLSF-DL与JFSC的, 只不过那些方案的成对标签相关性是事先计算好的, 而本文LSML采用的是拟合 $C$ 的思路, 让机器自己学习出相关性, 并假设任何缺失的标签都可以通过其他标签的值来重建它们之间的关联性.

LLSF-DL来自论文

J. Huang, C. li, Q. Huang, X.Wu, Leaning label-specific features and class-dependent labels for muli-label clssfication, IE Trans.Knowl. Data Eng. 28 (12)(2016) 3309-3323.

JFSC来自论文

Huang, C.Li.,Q Huang,X Wu, Joint feture selection and classification for mulilabel learning IEE Trans. Cyoben. 48 (3)(2018)876-889.

3.公式模型

作者拟合的基本思路还是从线性模型出发, 从拟合系数矩阵 $W$ 出发, 保证 $X W \approx Y$ , 同时对于 $W$ 进行正则惩罚:

\begin{matrix} (1) & min_{W} \frac{1}{2} ‖ X W - Y ‖ + λ_{3} ‖ W ‖_{1} \end{matrix}

对于矩阵进行正则惩罚已然是一个惯常招数, 但是最准确应该是求0范数, 这也是作者本意, 但是因为0范数本身不方便求导, 于是将其等效替换为1范数, 这种方案与PML-NI中的公式替换有异曲同工之处.

机器学习的魅力就在这里, 不要在意数学上的严谨, 大多数情况下, 只要等效代替的损失可以接受, 那么它就是对的 !

PML-NI出自论文

Xie, M.-K., & Huang, S.-J. (2022). Partial multi-label learning with noisy label identification. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 1–12.

然后继续考虑相关性矩阵 $C$ 的优化目标:

\begin{matrix} (2) & \begin{aligned} min_{W, C} & \frac{1}{2} ‖ X W - Y C ‖_{F}^{2} + \frac{λ_{1}}{2} ‖ Y C - Y ‖_{F}^{2} + λ_{2} ‖ C ‖_{1} + λ_{3} ‖ W ‖_{1} \\ s.t. C ⪰ 0 \end{aligned} \end{matrix}

这个模型在之前线性的基础上将

Y

改为了

Y C

, 进行了

Y

的补全和重构, 第二, 三项是

Y C

向

Y

的拟合并且在拟合过程中

Y C

逐步补全了原来

Y

的缺失标签.

沿用老师讲解时的例子, 比如

Y = [\begin{array}{lll} 0 & 1 & 1 \\ 1 & 0 & 0 \\ 1 & 0 & 1 \\ 1 & 1 & 0 \end{array}]

, 若

C

是一个基本的单位矩阵, 那么拟合的效果达到最高:

I = [\begin{array}{lll} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{array}]

有:

Y I = Y

这是若有一个非单位矩阵

C

形如:

C = [\begin{array}{lll} 0.9 & 0.1 & 0.2 \\ 0.1 & 0.8 & 0.3 \\ 0.1 & 0.2 & 0.9 \end{array}]

这个矩阵

C

的对角线都比较高, 意味着每个标签定然与他自己是足够相同的, 譬如上述的0标签与2标签的相关程度要大于1标签(0.2>0.1), 记住这个值, 然后计算

Y C

可以得到:

Y C = [\begin{array}{ccc} 0.2 & 1 & 1.2 \\ 0.9 & 0.1 & 0.2 \\ 1 & 0.3 & 0.4 \\ 1 & 0.9 & 0.5 \end{array}]

同原

Y

的第二行

[1 0 0]

比对可以发现,

Y C

第一行

[0.9 0.1 0.2]

的最后两个值的后者要大于前者, 那怕他们原本标签都是0(可能是缺失又或者表示为负标签), 这就是将原本生硬的二值化标签矩阵

Y

转变为能体现标签确信的"概率化" 矩阵, 从而解决缺失标签问题并且兼顾标签相关性.

这里 $C$ , $W$ 不应该过大, 这个要求体现在对 $C$ 的正则惩罚中, 这里主要的目标是为了减少每次进行数据乘积后迭代的步长(~~似乎能这么理解?~~), 值大了不容易适应不同的目标值, 导致一味兼容当前训练集导致过拟合.(原文给出的原因是: 因为一个类标签可能只与一个类标签的子集相关).

$Y C$ 向 $Y$ 拟合其实有意让 $C$ 接近单位矩阵, 从全局出发, 我们是希望每个标签应当是越独立越好, 即除了对角线, 其他元素越小越好. 这是从全局的观点出发, 保留信息量与可分性. 其实我对于这个观点有个另一个角度, 这种拟合很大程度可以保证后续 $X W$ 拟合的结果尽可能是符合目标矩阵 $Y$ , 若 $Y C$ 都极不像原本的 $Y$ 了, 那么线性模型 $X W$ 似乎也就失去了最基本的保真度吧.

至于最终是以训练出来的 $X W$ 作为预测矩阵, 还是说需要再度乘上 $C^{- 1}$ , 这个说实在的, 我也不是很清楚(还需要进一步看论文), 但是我感觉如果拟合的 $C$ 都接近单位矩阵了, 那么最终是否需要携带上这个逆, 似乎影响也不是很大吧?

(上述有些是我自己的猜测, 欢迎指正.)

进一步, LSML也加入了类似于我昨日GLOCAL介绍博客中提到的The manifold regularizer:

\sum_{1 \leq i, j \leq l} c_{i j} ‖ w_{i} - w_{j} ‖

不过稍有差异的地方在于, 此处是对于权值矩阵

W

的每列使用了manifold正则化而非输出的矩阵, 这里的考量应当与GLOCAL有类似之处, 这里的

Y C

类似于一个分类器的输出, 可以对应于而GLOCAL中提到的:

如果两个标签的正相关性越大, 那么相应的分类器输出就越接近(Intuitively, the more positively correlated two labels are,the closer are the corresponding classifier outputs, and vice versa.)

$W$ 中蓝色框与红色框的值接近, 这就是一种相关性的表现, 这种表现可以完美映射到 $Y C$ 的上述位置, 换言之, $W$ 的每个标签列其实是在代表分类的输出, 或者说是分类器输出的映射.

当两者欧式距离足够近, 那么蓝色区域值高会导致红色区域值也会很高, 反之亦然, 这就是一种彼此相关性的响应. 因此发现, $\sum_{1 \leq i, j \leq l} c_{i j} ‖ w_{i} - w_{j} ‖$ 本身其实是一个纠结体, 之前的拟合让我得知 $C$ 的情况, 当 $C$ 大的时候为了进行相关性响应, 我们会拉低权值向量的欧式距离(通过 $C$ 已知的表现来辅导拟合 $W$ ); 当 $C$ 小的时候, 我们对于权值矩阵的关系程度变得不高, 不会刻意去拉进 $w_{i}$ 与 $w_{j}$ 关系, 体现一种若相关性.

相同的, 最后 $\sum_{1 \leq i, j \leq l} c_{i j} ‖ w_{i} - w_{j} ‖$ 为了方便计算, 依旧等效替换为 $tr (F_{0}^{⊤} L_{0} F_{0})$ , 具体原因参考manifold正则化的技巧, GLOCAL有类似技巧

(后续待之后进一步阅读来完善本篇, 有误欢迎指正)

简单总结

LSML大胆引入了标签相关性矩阵 $C$ 确实是个不错的idea, 但是在 $C$ 究竟要拟合成什么样子这个问题上, 最开始我还是有很多疑惑, 为什么要逼近单位矩阵? 为什么一范数要小? 今天通过老师提到的DM2L中全局与局部的核范数 (nuclear norm) 中稍微得到了启发, 感觉到这也许是一个全局性的问题. 很多时候理解不清楚都是角度问题.

当然这篇再次提到了manifold正则化, 稍微得知了这个正则化中计算欧式距离的列向量不一定用输出矩阵, 使用类似于或者体现输出矩阵映射的一些矩阵都可以.

机器学习真的太灵活了, 很多结论往往需要自己试着去解释让其名正言顺, 充满朦胧感. 但是适当不求甚解也许也是可以, 多收集一些技巧和招数也许更关键.

相关阅读:
【Eclipse】Project interpreter not specified 新建项目时，错误提示，已解决
 文件上传学习笔记
 内存取证入门第二题
 微服务框架 SpringCloud微服务架构 21 RestClient 操作文档 21.5 批量导入文档
 初识类和对象
 Intellij Debugger slow: Method breakpoints may dramatically slow down debugging
烟花爆竹厂如何做到0风险0爆炸事故？AI+视频监控平台给出答案
 安装clang
SQL语言的分类：DDL(数据库、表的增、删、改)、DML(数据的增、删、改)
Java备忘录模式剖析及使用场景
原文地址：https://blog.csdn.net/qq_30016869/article/details/125469020

论文学习记录随笔 多标签之LSML

1.原文摘要理解

2.基本符号

3.公式模型

简单总结

论文学习记录随笔多标签之LSML