1、网站预言,看看出现别名最多的top搜索引擎网站
2、临时爬虫对应的url生成(关键词+url组合)
3、临时使用八爪鱼软件进行内容的解析(解析的页面数量保持在每个网站top20左右)
4、对八爪鱼解析的数据进行别名抽取
5、对解析的相同结果进行count统计
6、对于出现频次较高的,则认为别名共识较高
7、正式化生产时,第三步可以使用爬虫系统来完成。从而爬虫url生成+内容爬取+内容解析+统计全流程自动化完成
对应的预言效果:
京公网安备 11010502049817号