备考托福,GRE需要背上万单词,除去考试通关的因素,就想看看是不是真有必要花时间去背那么多单词。
实验使用从初中到GRE不同等级考试要求的单词表,代入Brown文本数据集,评估背会各等级单词后,能看懂多大比例的文本。比如:高中毕业要求4000左右单词量,背会后对于取自不同领域的各种文本,能看懂句中单词的比例是多少。
从实验结果可以看到,即使背会了GRE要求的15000+以上,还会有很多词不认识,如一些专业领域的词汇。当然,如果就认识200个词,那也确实太少了。因此,本文将讨论对于不同学习阶段,背多少词,背哪些词性价比最高。
使用初中,高中,大学四六级,专八,雅思,托福,GRE的单词表。另外,加入了初一上半学期(这个学期基本都在复习小学内容,可近似地视为小学毕业水平),以及Brown数据集中的高频单词。
使用自然语言处理NLTK自带的Brown语料库,它创建于1961年,包含来自五百多个不同来源的文本,包含新闻,社论等类型。是一个覆盖类型相对全面的语料库,其中包含5万多句子,116万多单词。
图中横轴是句子,纵轴是认识的词所占句中单词的比例,比如图中蓝色线在30000的位置表示:如果只认识出现高频最高的500个单词,对于难度适中的句子(30000/50000),能看懂其中70%的单词。
从图中黄线可以看到,如果是初一第一学期水平,几乎没什么句子是完全认识的(左上角),背完初中阶段所有单词(蓝色线),句中词全认识的也不多。
教科书,尤其是低年级的教科书往往是成体系的学习,比如某节课学衣服,就把上衣,裤子,鞋,袜子,短裤都给学了,但是在文本阅读中,“袜子”出现的概率很低。另外,如果某课出现了一个很少用的词,但是为了保持课程的完整性,也加入了单词表。比如初中第一学期单词表400多个,与高频2000词重合的只有200出头。所以此时,娃的常用单词量只有200多。
以娃为例:学习最高频的前2000个单词是个学习的捷径,从中再去掉本来就会的单词,每天背10个,200天背完,除去周末,加上复习时间,一年怎么也背完了;这时候就能看一些简单的英文书;最后就可能进入一个自我进化的良性循环。
个人看法,仅供参考,至于实际效果如何,请关注我家大宝一年后的英语水平。以此送给刚上初中的宝宝和宝爸宝妈们~