新建一个ipynb文件,参照7.2.3部分,导入需要使用的python库,并将程序连接到Mysql数据库(也可以进行本地文献数据的读取,仍旧使用CNKI和Scopus数据库)。对于Scopus数据库中的数据摘要字段为空的文献记录进行剔除,读取数据输出结果如下。

文本数据中用词的情感分析需要将文本数据进行分词,然后对分词后的结果进行词性标注,最后根据词性的类别统计各类别的分词结果。随着文本挖掘技术的发展,已经出现了一些比较成熟词典,其中已经标注好了分词对应的词性,我们在使用时加载即可使用。本文进行用词的情感分析使用的cntext库下面的sentiment模块完成。该模块中可根据需要切换数据分析的对象(中文或者英文),也可加载内置的中英文词典(中文或者英文),具体的模块使用手册如下。该模块的功能是计算每个情感类别词在文本中的出现次数,但是强度副词和否定词汇对情绪的混合影响没有被考虑。第一个参数为传入的文本数据,第二个是指定加载的词典,第三个参数默认为分析中文数据。