原文: Huang, J., Qin, F., Zheng, X., Cheng, Z.-K., Yuan, Z.-X., Zhang, W.-G., & Huang, Q.-M. (2019). Improving multi-label classification with missing labels by learning label-specific features. Information Sciences, 492, 124–146.
目录
如今的许多标签学习都是由 所有标签的特征组成的相同数据 来表示(我理解为并未提取出不同标签独有的特征?) 并且寄希望于能在训练集能够窥探到所有的标签, 而在多标签学习中,每个标签可能由其自身的某些 特定特征 决定, 对于某些实际应用, 只能获得每个示例的部分标签集。
而LSML ( Label-Specific features for multi-label classification with Missing Labels ) 着力于标签缺失情况的标签问题, 这里的Label-Specific features多标签学习让人不禁联想到张敏灵教授的LIFT中以某个标签构建一个全新属性集合的方案, 但是本篇虽然仍说Label-Specific features多标签学习, 但是全然不同于LIFT的风格. (为Label-Specific features多标签学习邻域开辟了全新的可能性)
Zhang, M.-L., & Wu, L. (2015). LIFT: Multi-label learning with label-specific features. IEEE Transactions on Pattern Analysis and Machine Intelligence, 37, 107–120.
LSML实现标签相关性的手段是在原本不完全标签矩阵的基础上, 通过学习高阶标签关联, 得到一个新的补充标签矩阵. 并通过合并学习的高阶标签相关性,在此基础上同时构建多标签分类器.
(这个似乎有总结原标签特征的功效? 毕竟它描述了某个标签对其它所有标签的映射, 也许这就是是本文中强调的"Label-Specific features"?)
多标签学习挑战性问题就是如何从不完整的标签数据中学习准确的标签相关性, 因为大部分标签矩阵都是存在缺失的, LSML就是试着在信息缺失的大前提下通过构建标签的相关性矩阵去提高标签相关性与识别精度, 而非去补齐缺失矩阵再去学习. 作者认为当训练数据的类标签缺失时,直接从不完整的标签矩阵中学习的标签相关性可能是不准确的,并且会大大影响多标签分类器的性能. 所以作者没有采用类似于我之前博客介绍的GLOCAL那样的矩阵分解去补齐标签矩阵.
| 符号 | 含义 | 说明 |
|---|---|---|
| 属性矩阵 | ||
| 标签矩阵 | ||
| 系数矩阵 | 仍然是线性模型 | |
| 某个标签的系数向量 | ||
| 标签相关性矩阵 | 成对相关性, 不满足对称性 |
矩阵通过了一种类似于邻接矩阵的方式描述了任意标签与标签的相关性, 但是值得一提的是这样的矩阵并不满足对称性, 也就是说两个矩阵之间的相关程度在本文是不满足交换定理的(原作者注:可能不等于,而在实验中,我们发现在大多数情况下,). 据作者所说, 这种label-specific features多标签处理思路是类似于LLSF-DL与JFSC的, 只不过那些方案的成对标签相关性是事先计算好的, 而本文LSML采用的是拟合的思路, 让机器自己学习出相关性, 并假设任何缺失的标签都可以通过其他标签的值来重建它们之间的关联性.
LLSF-DL来自论文
J. Huang, C. li, Q. Huang, X.Wu, Leaning label-specific features and class-dependent labels for muli-label clssfication, IE Trans.Knowl. Data Eng. 28 (12)(2016) 3309-3323.
JFSC来自论文
Huang, C.Li.,Q Huang,X Wu, Joint feture selection and classification for mulilabel learning IEE Trans. Cyoben. 48 (3)(2018)876-889.
作者拟合的基本思路还是从线性模型出发, 从拟合系数矩阵出发, 保证, 同时对于进行正则惩罚:
机器学习的魅力就在这里, 不要在意数学上的严谨, 大多数情况下, 只要等效代替的损失可以接受, 那么它就是对的 !
PML-NI出自论文
Xie, M.-K., & Huang, S.-J. (2022). Partial multi-label learning with noisy label identification. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 1–12.
然后继续考虑相关性矩阵的优化目标:
沿用老师讲解时的例子, 比如
这里, 不应该过大, 这个要求体现在对的正则惩罚中, 这里主要的目标是为了减少每次进行数据乘积后迭代的步长(似乎能这么理解?), 值大了不容易适应不同的目标值, 导致一味兼容当前训练集导致过拟合.(原文给出的原因是: 因为一个类标签可能只与一个类标签的子集相关).
向拟合其实有意让接近单位矩阵, 从全局出发, 我们是希望每个标签应当是越独立越好, 即除了对角线, 其他元素越小越好. 这是从全局的观点出发, 保留信息量与可分性. 其实我对于这个观点有个另一个角度, 这种拟合很大程度可以保证后续拟合的结果尽可能是符合目标矩阵, 若都极不像原本的了, 那么线性模型似乎也就失去了最基本的保真度吧.
至于最终是以训练出来的作为预测矩阵, 还是说需要再度乘上, 这个说实在的, 我也不是很清楚(还需要进一步看论文), 但是我感觉如果拟合的都接近单位矩阵了, 那么最终是否需要携带上这个逆, 似乎影响也不是很大吧?
(上述有些是我自己的猜测, 欢迎指正.)
进一步, LSML也加入了类似于我昨日GLOCAL介绍博客中提到的The manifold regularizer:
如果两个标签的正相关性越大, 那么相应的分类器输出就越接近(Intuitively, the more positively correlated two labels are,the closer are the corresponding classifier outputs, and vice versa.)

中蓝色框与红色框的值接近, 这就是一种相关性的表现, 这种表现可以完美映射到的上述位置, 换言之, 的每个标签列其实是在代表分类的输出, 或者说是分类器输出的映射.
当两者欧式距离足够近, 那么蓝色区域值高会导致红色区域值也会很高, 反之亦然, 这就是一种彼此相关性的响应. 因此发现, 本身其实是一个纠结体, 之前的拟合让我得知的情况, 当大的时候为了进行相关性响应, 我们会拉低权值向量的欧式距离(通过已知的表现来辅导拟合); 当小的时候, 我们对于权值矩阵的关系程度变得不高, 不会刻意去拉进与关系, 体现一种若相关性.
相同的, 最后为了方便计算, 依旧等效替换为, 具体原因参考manifold正则化的技巧, GLOCAL有类似技巧
(后续待之后进一步阅读来完善本篇, 有误欢迎指正)
LSML大胆引入了标签相关性矩阵确实是个不错的idea, 但是在究竟要拟合成什么样子这个问题上, 最开始我还是有很多疑惑, 为什么要逼近单位矩阵? 为什么一范数要小? 今天通过老师提到的DM2L中全局与局部的核范数 (nuclear norm) 中稍微得到了启发, 感觉到这也许是一个全局性的问题. 很多时候理解不清楚都是角度问题.
当然这篇再次提到了manifold正则化, 稍微得知了这个正则化中计算欧式距离的列向量不一定用输出矩阵, 使用类似于或者体现输出矩阵映射的一些矩阵都可以.
机器学习真的太灵活了, 很多结论往往需要自己试着去解释让其名正言顺, 充满朦胧感. 但是适当不求甚解也许也是可以, 多收集一些技巧和招数也许更关键.