
Pointwise loss:
L
=
∑
(
u
,
x
)
∈
T
ψ
(
s
(
u
,
x
)
,
l
(
u
,
x
)
)
\mathcal{L}=\sum_{(u, x) \in \mathcal{T}} \psi(s(u, x), l(u, x))
L=(u,x)∈T∑ψ(s(u,x),l(u,x))
Pairwise loss:
L
=
∑
(
u
,
p
)
∈
I
∑
(
u
,
n
)
∉
I
ϕ
(
s
(
u
,
n
)
−
s
(
u
,
p
)
)
\mathcal{L}=\sum_{(u, p) \in I} \sum_{(u, n) \notin I} \phi(s(u, n)-s(u, p))
L=(u,p)∈I∑(u,n)∈/I∑ϕ(s(u,n)−s(u,p))
混合损失:
L
=
∑
(
u
,
p
)
∈
I
ϕ
(
b
u
−
s
(
u
,
p
)
)
⏟
L
p
+
α
∑
(
u
,
n
)
∉
I
ϕ
(
s
(
u
,
n
)
−
b
u
)
⏟
L
n
\mathcal{L}=\underbrace{\sum_{(u, p) \in \mathcal{I}} \phi\left(b_{u}-s(u, p)\right)}_{L_{p}}+\underbrace{\alpha \sum_{(u, n) \notin I} \phi\left(s(u, n)-b_{u}\right)}_{L_{n}}
L=Lp
(u,p)∈I∑ϕ(bu−s(u,p))+Ln
α(u,n)∈/I∑ϕ(s(u,n)−bu)
b u = W T P u , ϕ : M a r g i n L o s s 或 L n S i g m o i d b_{u}=W^{T} P_{u}, \ \ \phi:\ MarginLoss或LnSigmoid bu=WTPu, ϕ: MarginLoss或LnSigmoid

也可以看作一种debias的方法, b u b_{u} bu 是一个标量,只和user embedding有关,所以对于popularity bias大的用户,s往往都很大,这个时候给他限定一个比较高的margin值,相当于设定一个动态的margin loss。
还有一种可能,优化正样本loss
L
p
L_p
Lp,会增大正样本分数
s
(
u
,
p
)
s(u, p)
s(u,p),减少边界分数
b
u
b_u
bu,所以
b
u
b_u
bu 在loss里可以看作是一种针对高频user的惩罚正则化。
