摘要: 分享对论文的理解. 原文见 Zhang, J., Li, S., Jiang, M., & Tan, K. C. (2020). Learning from weakly labeled data based on manifold regularized sparse model. IEEE Transactions on Cybernetics, (pp. 1–14).
| 符号 | 含义 | 说明 |
|---|---|---|
| X ∈ R n × d \mathbf{X} \in \mathbb{R}^{n \times d} X∈Rn×d | 属性矩阵 | |
| Y ∈ { − 1 , 1 } n × q \mathbf{Y} \in \{-1, 1\}^{n \times q} Y∈{−1,1}n×q | 标签矩阵 | |
| C ∈ { 0 , 1 } n × q \mathbf{C} \in \{0, 1\}^{n \times q} C∈{0,1}n×q | 观测标签矩阵 | c i j = 0 c_{ij} = 0 cij=0 对应于 y i j = − 1 y_{ij} = -1 yij=−1 或 1 1 1 |
| Ω = { 1 , … , n } × { 1 , … , c } \mathbf{\Omega} = \{1, \dots, n\} \times \{1, \dots, c\} Ω={1,…,n}×{1,…,c} | 观测标签位置集合 | |
| W ∈ R m × l \mathbf{W} \in \mathbb{R}^{m \times l} W∈Rm×l | 系数矩阵 | 仍然是线性模型 |
| w i ∈ R m \mathbf{w}_i \in \mathbb{R}^m wi∈Rm | 某一标签的系数向量 | |
| C ∈ R l × l \mathbf{C} \in \mathbb{R}^{l \times l} C∈Rl×l | 标签相关性矩阵 | 成对相关性, 不满足对称性 |

基本的优化目标:
min
W
V
(
X
,
C
,
W
)
+
γ
Ω
(
W
)
+
μ
Z
(
X
,
C
,
W
)
,
(1)
\min_{\mathbf{W}} V(\mathbf{X}, \mathbf{C}, \mathbf{W}) + \gamma \Omega(\mathbf{W}) + \mu Z(\mathbf{X}, \mathbf{C}, \mathbf{W}), \tag{1}
WminV(X,C,W)+γΩ(W)+μZ(X,C,W),(1)
其中
V
V
V 是损失函数,
Z
Z
Z 根据标签相关性信息增强弱标签学习能力.
V
(
X
,
C
,
W
)
=
∥
X
W
−
Y
~
∥
2
2
,
(2)
V(\mathbf{X}, \mathbf{C}, \mathbf{W}) = \|\mathbf{XW} - \tilde{\mathbf{Y}}\|_2^2, \tag{2}
V(X,C,W)=∥XW−Y~∥22,(2)
其中
Y
~
\tilde{\mathbf{Y}}
Y~ 是从
C
\mathbf{C}
C 计算而来, 希望拟合
Y
\mathbf{Y}
Y. 具体方法如下:
如果
c
i
j
=
0
c_{ij} = 0
cij=0, 表示缺值或负标签, 则
c
~
i
j
=
∑
p
∈
N
j
c
i
p
b
p
j
,
(3)
\tilde{c}_{ij} = \sum_{p \in \mathcal{N}_j} c_{ip} b_{pj}, \tag{3}
c~ij=p∈Nj∑cipbpj,(3)
其中
N
j
\mathcal{N}_j
Nj 表示标签
j
j
j 的所有邻居标签,
b
p
j
b_{pj}
bpj 表示标签
p
p
p 与标签
j
j
j 的相关性. 可以记为 (这里有点小的问题, 丢失了邻居信息)
C
~
=
C
(
B
+
I
)
.
\tilde{\mathbf{C}} = \mathbf{C}(\mathbf{B} + \mathbf{I}).
C~=C(B+I).
y
~
i
j
=
{
1
,
c
~
i
j
≥
1
;
c
~
i
j
,
0
<
c
~
i
j
<
1
;
0
,
c
~
i
j
≤
0.
(4)
\tilde{y}_{ij} = \left\{
使用
l
2
,
1
\mathcal{l}_{2, 1}
l2,1 范数控制稀疏性.
Ω
(
W
)
=
∥
W
∥
2
,
1
=
∑
i
=
1
n
∑
j
=
1
t
w
i
j
2
,
\Omega(\mathbf{W}) = \|\mathbf{W}\|_{2, 1} = \sum_{i = 1}^n \sqrt{\sum_{j = 1}^t w_{ij}^2},
Ω(W)=∥W∥2,1=i=1∑nj=1∑twij2,
即逐行取 2 范数再相加. 更多理解见 这里.
注意原文有几个小问题:
最后
Z
(
X
,
C
,
W
)
=
α
∥
W
−
W
B
∥
F
2
+
β
∥
X
W
−
S
X
W
∥
F
2
Z(\mathbf{X}, \mathbf{C}, \mathbf{W}) = \alpha \|\mathbf{W} - \mathbf{WB}\|_F^2 + \beta \|\mathbf{XW} - \mathbf{SXW}\|_F^2
Z(X,C,W)=α∥W−WB∥F2+β∥XW−SXW∥F2
自悟.