• 论文笔记: 多标签学习 DM2L


    摘要: 分享对论文的理解. 原文见 Ma, Z.-C., & Chen, S.-C. (2021). Expand globally, shrink locally: Discrimi-nant multi-label learning with missing labels. Pattern Recognition, 111, 107675.

    1. 论文贡献

    • 从全局和局部两个方面同时优化;
    • 用核函数支撑非线性变换;
    • 理论分析到位.

    2. 基本符号

    符号含义说明
    X ∈ R n × d \mathbf{X} \in \mathbb{R}^{n \times d} XRn×d属性矩阵
    X k ∈ R n k × d \mathbf{X}_k \in \mathbb{R}^{n_k \times d} XkRnk×d具有第 k k k 个标签的属性子矩阵
    Y ∈ { − 1 , + 1 } n × c \mathbf{Y} \in \{-1, +1\}^{n \times c} Y{1,+1}n×c标签矩阵
    Y ~ ∈ { − 1 , + 1 } n × l \tilde{\mathbf{Y}} \in \{-1, +1\}^{n \times l} Y~{1,+1}n×l观测到的标签矩阵
    Ω = { 1 , … , n } × { 1 , … , c } \mathbf{\Omega} = \{1, \dots, n\} \times \{1, \dots, c\} Ω={1,,n}×{1,,c}观测标签位置集合
    W ∈ R m × l \mathbf{W} \in \mathbb{R}^{m \times l} WRm×l系数矩阵仍然是线性模型
    w i ∈ R m \mathbf{w}_i \in \mathbb{R}^m wiRm某一标签的系数向量
    C ∈ R l × l \mathbf{C} \in \mathbb{R}^{l \times l} CRl×l标签相关性矩阵成对相关性, 不满足对称性

    3. 算法

    基本优化目标:
    min ⁡ 1 2 ∥ R Ω ( X W ) − Y ~ ∥ F 2 + λ d ∥ X W ∥ ∗ (1) \min \frac{1}{2} \|R_{\Omega}(\mathbf{XW}) - \tilde{\mathbf{Y}}\|_F^2 + \lambda_d \|\mathbf{XW}\|_*\tag{1} min21RΩ(XW)Y~F2+λdXW(1)
    其中,

    • 损失函数部分不考虑缺失值, 这个属于常规操作.
    • 核范数 (nuclear norm) 部分考虑了预测的矩阵, 而不仅仅是 X W \mathbf{XW} XW, 有点奇怪.
    • 核范数的概念点击 这里.

    考虑标签结构后的优化目标:
    min ⁡ 1 2 ∥ R Ω ( X W ) − Y ~ ∥ F 2 + λ d ( ∑ k = 1 c ∥ X k W ∥ ∗ − ∥ X W ∥ ∗ ) , (2) \min \frac{1}{2} \|R_{\Omega}(\mathbf{XW}) - \tilde{\mathbf{Y}}\|_F^2 + \lambda_d \left(\sum_{k = 1}^c \|\mathbf{X}_k\mathbf{W}\|_* - \|\mathbf{XW}\|_*\right), \tag{2} min21RΩ(XW)Y~F2+λd(k=1cXkWXW),(2)
    其中,

    • ∥ X k W ∥ ∗ \|\mathbf{X}_k\mathbf{W}\|_* XkW 表达了局部标签结构, 轶越小越好;
    • ∥ X W ∥ ∗ \|\mathbf{XW}\|_* XW 表达了全局标签结构, 轶越大越好 (可分性更强, 信息量越高).
    • 这两点就是题目的来源.

    增加非线性的优化目标:
    min ⁡ 1 2 ∥ R Ω ( X W ) − Y ~ ∥ F 2 + λ d ( ∑ k = 1 c ∥ f ( X k ) W ∥ ∗ − ∥ f ( X ) W ∥ ∗ ) , (5) \min \frac{1}{2} \|R_{\Omega}(\mathbf{XW}) - \tilde{\mathbf{Y}}\|_F^2 + \lambda_d \left(\sum_{k = 1}^c \|f(\mathbf{X}_k)\mathbf{W}\|_* - \|f(\mathbf{X})\mathbf{W}\|_*\right), \tag{5} min21RΩ(XW)Y~F2+λd(k=1cf(Xk)Wf(X)W),(5)
    其中 f ( ⋅ ) f(\cdot) f() 为核函数导致的非线性变换.

    4. 小结

    • 又是一堆理论证明.
  • 相关阅读:
    Nuxtjs实现服务端渲染和静态化站点
    nodejs+Vue社区菜店线上买菜商城系统java springboot
    C#、C++、Java、Python选择哪个好?
    andlua怎么判断软件是否运行
    Android 12 源码分析 —— 应用层 五(SystemUI的StatusBar类的启动过程和三个窗口的创建)
    人才测评系统在企业招聘中的应用
    FPGA信号处理系列文章——相关与卷积
    2024北京老博会/北京智慧养老展/北京养老机构管理系统展会
    Java版分布式微服务云开发架构 Spring Cloud+Spring Boot+Mybatis 电子招标采购系统功能清单
    vsto转换为windows服务 并部署服务
  • 原文地址:https://blog.csdn.net/minfanphd/article/details/125434702