电信保温杯笔记——《统计学习方法（第二版）——李航》第17章潜在语义分析 - 码农知识堂 - 文章详情页

电信保温杯笔记——《统计学习方法（第二版）——李航》第17章潜在语义分析
电信保温杯笔记——《统计学习方法（第二版）——李航》第17章潜在语义分析
论文

潜在语义分析：《Indexing by latent semantic analysis》
非负矩阵分解算法：《Learning parts of objects by non-negative matrix factorization》、《Algorithms for non-negative matrix factorization》

介绍

电信保温杯笔记——《统计学习方法（第二版）——李航》
本文是对原书的精读，会有大量原书的截图，同时对书上不详尽的地方进行细致解读与改写。

潜在语义分析（latent semantic analysis，LSA）是一种无监督学习方法，也被称为潜在语义索引（latent semantic indexing，LSI），主要用于文本的话题分析。传统的方法以单词向量表示文本的语义内容，以单词向量空间的度量表示文本之间的语义相似度。潜在语义分析旨在解决这种方法不能准确表示语义的问题，试图从大量的文本数据中发现潜在的话题，以话题向量表示文本的语义内容，以话题向量空间的度量更准确地表示文本之间的语义相似度。具体地，将文本集合表示为单词-文本矩阵，对单词-文本矩阵进行分解，从而得到话题向量空间，以及文本在话题向量空间的表示。

单词向量空间在内积相似度未必能够准确表达两个文本的语义相似度。因为自然语言的单词具有一词多义性(polysemy)及多词一义性(synonymy)，即同一个单词可以表示多个语义，多个单词可以表示同一个语义，所以基于单词向量的相似度计算存在不精确的问题。为了解决这个问题，提出了话题向量空间。

单词向量空间

优点：单词向量空间模型的优点是模型简单，计算效率高。因为单词向量通常是稀疏的,两个向量的内积计算只需要在其同不为零的维度上进行即可，需要的计算很少，可以高效地完成。
缺点：在内积相似度未必能够准确表达两个文本的语义相似度。因为自然语言的单词具有一词多义性(polysemy)及多词一义性(synonymy)，即同一个单词可以表示多个语义，多个单词可以表示同一个语义，所以基于单词向量的相似度计算存在不精确的问题。

话题向量空间

 话题向量空间

 文本在话题向量空间的表示

 从单词向量空间到话题向量空间的线性变换

 潜在语义分析算法

 矩阵奇异值分解算法

 步骤

1. 单词-文本矩阵

2. 截断奇异值分解

3. 话题向量空间

4. 文本的话题空间表示

 例子

 非负矩阵分解算法

 非负矩阵分解

 潜在语义分析模型

 非负矩阵分解的形式化

 算法

$\begin{aligned} \frac{\partial J (W, H)}{\partial W_{i l}} & = \frac{\partial (\frac{1}{2} \sum_{p} \sum_{j} [X_{p j} - \sum_{k} W_{p k} H_{k j}]^{2})}{\partial W_{i l}} \\ = \frac{1}{2} \frac{\partial (\sum_{p \neq i} \sum_{j} [X_{p j} - \sum_{k} W_{p k} H_{k j}]^{2} + \sum_{j} [X_{i j} - \sum_{k} W_{i k} H_{k j}]^{2})}{\partial W_{i l}} \\ = \frac{1}{2} \frac{\partial (\sum_{j} [X_{i j} - \sum_{k} W_{i k} H_{k j}]^{2})}{\partial W_{i l}} \\ = \frac{1}{2} \sum_{j} \frac{\partial ([X_{i j} - \sum_{k} W_{i k} H_{k j}]^{2})}{\partial W_{i l}} \\ = \sum_{j} ([X_{i j} - \sum_{k} W_{i k} H_{k j}]) \frac{\partial ([X_{i j} - \sum_{k} W_{i k} H_{k j}])}{\partial W_{i l}} \\ = \sum_{j} ([X_{i j} - (W H)_{i j}]) \frac{\partial ([X_{i j} - \sum_{k} W_{i k} H_{k j}])}{\partial W_{i l}} \\ = - \sum_{j} ([X_{i j} - (W H)_{i j}]) \frac{\partial (\sum_{k} W_{i k} H_{k j}])}{\partial W_{i l}} \\ = - \sum_{j} ([X_{i j} - (W H)_{i j}]) H_{l j} \\ = - \sum_{j} ([X_{i j} - (W H)_{i j}]) H_{j l}^{T} \\ = - (\sum_{j} X_{i j} H_{j l}^{T} - \sum_{j} (W H)_{i j} H_{j l}^{T}) \\ = - [(X H^{T})_{j l} - (W H H^{T})_{i j}] (17.28) \end{aligned}$
∂Wil∂J(W,H)=∂Wil∂(21∑p∑j[Xpj−∑kWpkHkj]2)=21∂Wil∂(∑p=i∑j[Xpj−∑kWpkHkj]2+∑j[Xij−∑kWikHkj]2)=21∂Wil∂(∑j[Xij−∑kWikHkj]2)=21j∑∂Wil∂([Xij−∑kWikHkj]2)=j∑([Xij−k∑WikHkj])∂Wil∂([Xij−∑kWikHkj])=j∑([Xij−(WH)ij])∂Wil∂([Xij−∑kWikHkj])=−j∑([Xij−(WH)ij])∂Wil∂(∑kWikHkj])=−j∑([Xij−(WH)ij])Hlj=−j∑([Xij−(WH)ij])HjlT=−(j∑XijHjlT−j∑(WH)ijHjlT)=−[(XHT)jl−(WHHT)ij](17.28)

步骤

 本章概要

 相关视频

李航统计学习之潜在语义分析LSA

相关的笔记

hktxt /Learn-Statistical-Learning-Method

相关代码

Dod-o /Statistical-Learning-Method_Code
相关阅读:
阿里云短信服务——短信发送频率限制
 huffman编译码
 003 OpenCV filter2D
C语言核心知识点总结
 python diffusers StableDiffusionXLPipeline 离线使用
 搭建自己的SSR
css初入门：BFC（格式化上下文）
VSCode开发go手记
 RabbitMQ如何保证可靠
 UWF 常用命令及蓝屏修复
原文地址：https://blog.csdn.net/sinat_39448069/article/details/126202037