前提:信息检索
特点:忽略文档中的单词顺序、语法和语句等要素
核心:文档中的任意一个单词都是可以独立选择,不受文档语意影响
举例:
文档包含两个句子:
John likes to watch movies. Mary likes too.
John also likes to watch football games.
从上述两句话可以得到一个字典:
{“John”: 1, “likes”: 2, “to”: 3, “watch”: 4, “movies”: 5, “also”: 6, “football”: 7, “games”: 8, “Mary”: 9, “too”: 10}
该文档中一共包含10个词,每一个词都有唯一的索引与之对应,可以建立该文档中每一个句子的向量【向量长度为字典中词的个数】

bow的作用就是记录了每一个句子中第i个单词在句子中出现的次数。
缺点:
当词典中单词个数庞大时,会导致出现一个稀疏表示的向量。
这样表示出来的向量丢失了文档句子中原本含有的信息,如顺序信息。
不是所有的单词都用来建立词表:
(1)相似的词常用一个单词来表示,如walks、walking、walk,都统一用walk表示
(2)像一些常见的冠词a、the和an等,由于每一篇文档中都含有很高的频率,所以通常在建立词表时不被使用