本关任务:编写一个爬虫,并使用正则表达式获取求是周刊2019年第一期的所有文章的url。详情请查看《求是》2019年第1期 。 获取每个新闻的url有以下几个步骤:
首先获取2019年第1期页面的源码,需要解决部分反爬机制;
找到目标url所在位置,观察其特征;
编写正则表达式,获取目标数据。
import urllib.request as req import re def geturls(): # ********** Begin *
京公网安备 11010502049817号