- import scrapy
- from Douban.items import DoubanItem
-
-
- class JobSpider(scrapy.Spider):
- name = "job"
- allowed_domains = ["douban.com"]
- start_urls = ["https://movie.douban.com/top250"]
-
- def parse(self, response):
- el_list=response.xpath('//*[@class="info"]')
- # print(len(el_list))
- for el in el_list:
- item=DoubanItem()
-
- item['name']=el.xpath('./div[1]/a/span[1]').extract_first()
- yield item
- # item['info']
- url=response.xpath('//span[@class="next"]/a/@href').extract_first()
- if url:
- url=response.urljoin(url)
- yield scrapy.Request(
- url=url
- )
中间件在Scrapy中的作用主要有以下几个方面:
在Scrapy中,你可以自定义中间件并将其添加到项目的中间件列表中。Scrapy会按照顺序依次调用每个中间件的相应方法,你可以在方法中实现你的自定义逻辑。常用的中间件方法包括: