在解决文本相关问题时,传统方法通常需要对单词进行独热编码。但是,如果数据集中具有数千个不同的单词,则生成的独热编码矢量将具有数千个维度,这会导致计算代价十分高昂。此外,在这种情况下,相似的单词并不具备相似的向量。因此,我们需要研究如何对文本数据进行编码,以使相似的数据具有相似的编码向量。
Word2Vec 是一种可以将相似单词编码为相似向量的方法。在了解 Word2Vec 原理之前,我们首先考虑以下问题,假设我们有以下输入句子:
I love watching movie
I like watching movie
传统方法中,对单词进行独热编码,输出结果如下所示:
| 单词 | 独热编码 | ||||
|---|---|---|---|---|---|
| I | 1 | 0 | 0 | 0 | 0 |
| love | 0 | 1 | |||