以WOS文献数据为例,借助mk库读取数据。首先对于文本数据需要进行停用词的去除,加载cntext中内置的停用词典,选择英文停用词。输出结果中显示该停用词词典共361个单词,数据类型为列表(为展示方便,只输出前50个单词)。除了加载该词典外,也可以自定义词典或者加载其它词典。
mk库中的forNLP()方法功能是将导入的RecordCollection数据类型直接转化为方便进行nlp(natural language processing)处理的数据格式。方法中第一个参数是可以指定处理后的数据保存的文件地址,接着剩下的参数就是对数据的处理。比如l