这里将向你介绍一个众所周知的经验定律,它被称为Zipf定律。该定律暗示了语言元素的高度偏斜分布(在本例中为词语)在许多情况下都很重要(例如面向单词的文本压缩方法)。我们将尝试验证其正确性通过一些简单的数据分析和图表绘制。一路上,我们会收获一些熟悉Python中可用的图形绘制工具。
齐普夫定律是美国语言学家乔治·金斯利·齐普夫(1935)制定的经验定律。它指出,在一个大型语料库中,任何单词的频率都与其排名成反比在频率表中。因此,最频繁的单词出现的频率大约为两倍作为第二频繁词,是第三频繁词的三倍,等等。
例如,在布朗语料库中,最常见的单词(the)几乎占所有单词的7%单词出现率,第二(of)次,占3.5%,以此类推。因此,只有135个排名靠前在布朗语料库中,词汇项目需要占单词出现次数的一半。
Zipf定律是一个幂律的例子。类似的幂律观察也在各地进行许多不同类型的数据,与语言无关。参见维基百科条目中的Zipf定律
作为评估Zipf定律的基础,我们需要一个合理大小的单词频率数据正文。为此文件mobydick
MOBY DICK; OR THE WHALE
by Herman Melville
ETYMOLOGY.
(Supplied by a Late Consumptive Usher to a Grammar School