摘要: 分享对论文的理解. 原文见 Kilian Q. Weinberger, John Blitzer and Lawrence K. Saul, Distance Metric Learning for Large Margin Nearest Neighbor Classification, NIPS 2005.
符号 | 含义 | 说明 |
---|---|---|
x → i ∈ R d \overrightarrow{x}_i \in \mathbb{R}^{d} xi∈Rd | 第 i i i 个对象 | |
y i ∈ { 1 , 2 , … , C } y_i \in \{1, 2, \dots, C\} yi∈{1,2,…,C} | x → i \overrightarrow{x}_i xi 的标签 | 不限于二分类 |
L ∈ R d × d \mathbf{L} \in \mathbb{R}^{d \times d} L∈Rd×d | 线性变换矩阵 | |
D \mathcal{D} D | 学习到的度量 | |
y i j ∈ { 0 , 1 } y_{ij} \in \{0, 1\} yij∈{0,1} | 1 1 1 表示 y i = y j y_i = y_j yi=yj | |
η i j ∈ { 0 , 1 } \eta_{ij} \in \{0, 1\} ηij∈{0,1} | 1 1 1 表示 x → j \overrightarrow{x}_j xj 为 x → i \overrightarrow{x}_i xi 类别相同的目标邻居 |
度量的计算
D
(
x
→
i
,
x
→
j
)
=
∥
L
(
x
→
i
−
x
→
j
)
∥
2
2
(1)
\mathcal{D}(\overrightarrow{x}_i, \overrightarrow{x}_j) = \|\mathbf{L}(\overrightarrow{x}_i - \overrightarrow{x}_j)\|_2^2\tag{1}
D(xi,xj)=∥L(xi−xj)∥22(1)
解释:
根据欧氏距离. 与当前样本类别相同的最近
k
k
k 个邻居. 这些邻居在学习过程中不改变.
问题:
ε
(
L
)
=
∑
i
j
η
i
j
∥
L
(
x
→
i
−
x
→
j
)
∥
2
+
c
∑
i
j
l
η
i
j
(
1
−
y
i
l
)
[
1
+
∥
L
(
x
→
i
−
x
→
j
)
∥
2
−
∥
L
(
x
→
i
−
x
→
l
)
∥
2
]
+
(2)
\varepsilon(\mathbf{L}) = \sum_{ij} \eta_{ij} \|\mathbf{L}(\overrightarrow{x}_i - \overrightarrow{x}_j)\|^2 + c \sum_{ijl} \eta_{ij} (1 - y_{il}) \left[1 + \|\mathbf{L}(\overrightarrow{x}_i - \overrightarrow{x}_j)\|^2 - \|\mathbf{L}(\overrightarrow{x}_i - \overrightarrow{x}_l)\|^2\right]_+ \tag{2}
ε(L)=ij∑ηij∥L(xi−xj)∥2+cijl∑ηij(1−yil)[1+∥L(xi−xj)∥2−∥L(xi−xl)∥2]+(2)
这个就是核心了. 解释如下: