潜在语义分析:《Indexing by latent semantic analysis》
非负矩阵分解算法:《Learning parts of objects by non-negative matrix factorization》、《Algorithms for non-negative matrix factorization》
电信保温杯笔记——《统计学习方法(第二版)——李航》
本文是对原书的精读,会有大量原书的截图,同时对书上不详尽的地方进行细致解读与改写。
潜在语义分析(latent semantic analysis,LSA)是一种无监督学习方法,也被称为潜在语义索引(latent semantic indexing,LSI),主要用于文本的话题分析。传统的方法以单词向量表示文本的语义内容,以单词向量空间的度量表示文本之间的语义相似度。潜在语义分析旨在解决这种方法不能准确表示语义的问题,试图从大量的文本数据中发现潜在的话题,以话题向量表示文本的语义内容,以话题向量空间的度量更准确地表示文本之间的语义相似度。具体地,将文本集合表示为单词-文本矩阵,对单词-文本矩阵进行分解,从而得到话题向量空间,以及文本在话题向量空间的表示。
单词向量空间在内积相似度未必能够准确表达两个文本的语义相似度。因为自然语言的单词具有一词多义性(polysemy)及多词一义性(synonymy),即同一个单词可以表示多个语义,多个单词可以表示同一个语义,所以基于单词向量的相似度计算存在不精确的问题。为了解决这个问题,提出了话题向量空间。



优点:单词向量空间模型的优点是模型简单,计算效率高。因为单词向量通常是稀疏的,两个向量的内积计算只需要在其同不为零的维度上进行即可,需要的计算很少,可以高效地完成。
缺点:在内积相似度未必能够准确表达两个文本的语义相似度。因为自然语言的单词具有一词多义性(polysemy)及多词一义性(synonymy),即同一个单词可以表示多个语义,多个单词可以表示同一个语义,所以基于单词向量的相似度计算存在不精确的问题。
















∂
J
(
W
,
H
)
∂
W
i
l
=
∂
(
1
2
∑
p
∑
j
[
X
p
j
−
∑
k
W
p
k
H
k
j
]
2
)
∂
W
i
l
=
1
2
∂
(
∑
p
≠
i
∑
j
[
X
p
j
−
∑
k
W
p
k
H
k
j
]
2
+
∑
j
[
X
i
j
−
∑
k
W
i
k
H
k
j
]
2
)
∂
W
i
l
=
1
2
∂
(
∑
j
[
X
i
j
−
∑
k
W
i
k
H
k
j
]
2
)
∂
W
i
l
=
1
2
∑
j
∂
(
[
X
i
j
−
∑
k
W
i
k
H
k
j
]
2
)
∂
W
i
l
=
∑
j
(
[
X
i
j
−
∑
k
W
i
k
H
k
j
]
)
∂
(
[
X
i
j
−
∑
k
W
i
k
H
k
j
]
)
∂
W
i
l
=
∑
j
(
[
X
i
j
−
(
W
H
)
i
j
]
)
∂
(
[
X
i
j
−
∑
k
W
i
k
H
k
j
]
)
∂
W
i
l
=
−
∑
j
(
[
X
i
j
−
(
W
H
)
i
j
]
)
∂
(
∑
k
W
i
k
H
k
j
]
)
∂
W
i
l
=
−
∑
j
(
[
X
i
j
−
(
W
H
)
i
j
]
)
H
l
j
=
−
∑
j
(
[
X
i
j
−
(
W
H
)
i
j
]
)
H
j
l
T
=
−
(
∑
j
X
i
j
H
j
l
T
−
∑
j
(
W
H
)
i
j
H
j
l
T
)
=
−
[
(
X
H
T
)
j
l
−
(
W
H
H
T
)
i
j
]
(
17.28
)






hktxt /Learn-Statistical-Learning-Method