说到爬虫,我们就会想到python,python的网页提取模块让爬虫不再困难。
当然了,其他语言都可以做到的。只不过python更方便而已。
我们的功能就是抓取分集标题,然后写入文件text
首先我们来看看某个漫画网站海贼王的那一页,分集标题都有,不像其他网站缺的比较多,那么就选它了。

然后我们打开网站源代码或者开发者工具,看看分集标题在什么标签里面,这样待会抓取的时候就可以针对这个标签进行提取了。

很显然,分集标题都在comic-title的class里面,所以我们就需要对这个标签进行提取操作,
1.使用get_text获取网页所有的文本,然后自己处理文本,或复制或进行再提取。
2.使用find_all获取comic_title的标签,然后再提取标签内的文本。
两种方式我都试过了,总体来说效果差不多,不过显然find_all更加符合程序逻辑,第一种方式手工处理文本对于只有一个文本的时候还行,多了可就麻烦了。
完整代码如下:
- import codecs
-
- import requests
- from bs4 im