形式地,我们有参数为
w
(
A
)
\boldsymbol{w}^{(A)}
w(A)的模型
A
A
A和参数为
w
(
B
)
\boldsymbol{w}^{(B)}
w(B)的模型
B
B
B。
这两种模型将输入映射到两个不同但相关的输出:
y
^
(
A
)
=
f
(
w
(
A
)
,
x
)
\hat{y}^{(A)}=f(\boldsymbol{w}^{(A)},\boldsymbol{x})
y^(A)=f(w(A),x)和
y
^
(
B
)
=
f
(
w
(
B
)
,
x
)
\hat{y}^{(B)}=f(\boldsymbol{w}^{(B)},\boldsymbol{x})
y^(B)=f(w(B),x)。
我们可以想象,这些任务足够相似(或许具有相似的输入和输出分布),因此我们认为模型参数应彼此靠近:
∀
i
,
w
i
(
A
)
\forall_i,w_i^{(A)}
∀i,wi(A)应该与
w
i
(
B
)
w_i^{(B)}
wi(B)接近。
我们可以通过正则化利用此信息。具体来说,我们可以使用以下形式的参数范数惩罚:
Ω
(
w
(
A
)
,
w
(
B
)
)
=
∥
w
(
A
)
−
w
(
B
)
∥
2
2
\Omega(\boldsymbol{w}^{(A)},\boldsymbol{w}^{(B)})=\Vert\boldsymbol{w}^{(A)}-\boldsymbol{w}^{(B)}\Vert_2^2
Ω(w(A),w(B))=∥w(A)−w(B)∥22。
在这里,我们使用
L
2
L^2
L2惩罚,但也可以使用其他选择。这种方法由Lasserre et al. (2006) 提出, 正则化一个模型(监督模式下训练的分类器)的参数接近另一个无监督模式下训练的模型(捕捉观察到的输入数据的分布)。这样构造的架构使得许多分类模型中的参数能与之对应的无监督模型的参数匹配。