今天,突然有一个粉丝找到我说,“仙草哥哥,今天是开学的第一天,有一句话怎么说的来着,新学期,新气象,我也想换一个新头像。但是呢,之前你那个爬取头像的程序,不知道为什么不能用了,现在我又没有头像可以用了,怎么办呢?”
我一看,原来是前两个月更新的文章,妹子天天要换新头像?没问题,通过爬虫爬取精美头像,这里面的爬虫程序因为版本更新的缘故,现在已经不能够使用了,这怎么办呢?没关系,再重新写一份就好咯
有了上次的经验,这次的程序制作也没什么困难的,大体上的技术和上次是一样的,只要跟着模仿,就能够做出一份好的爬取头像的程序啦
毫无疑问,本次也是使用python的requests库,这个非常方便,至于数据提取,我最近使用比较多的是parsel库,它确实是非常的好用,但是呢,由于上次我们使用的是lxml库,本次为了能够与上次的程序的运行环境兼容,同样也是使用了lxml库来进行数据的提取
lxml库的使用和parsel稍微有所不同,我们假如得到的html的响应为html,那么,使用lxml应该像这样
- from lxml import etree
-
- html = etree.HTML(html