活动地址:CSDN21天学习挑战赛
活动时间以过
@作者 : SYFStrive
@创建时间 : 2022/8/9 22:01
📜: Scrapy案例
🥧: 点击跳转到上一篇Scrapy续文🦄
🥧: 感谢支持,学习累了可以先看小段由小胖给大家带来的街舞😀
涉及 单管道、多管道
📰代码演示:
📰代码演示:
如下图(下载成功🆗):
📰代码演示:
如下图(下载成功🆗):
# 在爬虫文件开始的之前就执行的一个方法
# def open_spider():
# 在爬虫文件执行完之后 执行的方法
# def close_spider():
简单步骤:获取数据后 👉 使用items 定义数据结构的 👉 导入items(传递数据) 👉 使用Yield返回 👉 通过pipelines管道下载数据(使用前要开启管道(item就是yield后面的book对象))
添加管道:定义管道类 👉 在settings中开启管道
注意:
1、如果是多页下载的话 那么必须要调整的是allowed_domains的范围 一般情况下只写域名
2、write方法必须要写一个字符串 而不能是其他的对象
3、通过该案例检测的一点就是下载的图片目录文件是spiders下的理解如:‘./bookImg/’ + item.get(‘name’) + ‘.jpg’
效果如下:
📰代码演示:
📰代码演示:
class DianyingtiantangPipeline:
def open_spider(self, spider):
self.fs = open('movie.json', 'w', encoding='utf-8')
def process_item(self, item, spider):
# 简单理解:这里的item相当于yield movie返回值
self.fs.write(str(item))
return item
def close_spider(self, spider):
self.fs.close()
如下图(下载成功🆗):
Scrapy框架还未结束(待更),觉得不错的请给我专栏点点订阅,你的支持是我们更新的动力,感谢大家的支持,希望这篇文章能帮到大家
下篇文章再见ヾ( ̄▽ ̄)ByeBye