scrapy_安装
# (1) pip install scrapy # (2) 报错1: building 'twisted.test.raiser' extension # error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ # Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools # 解决1 # http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted # Twisted‑20.3.0‑cp37‑cp37m‑win_amd64.whl # cp是你的python版本 # amd是你的操作系统的版本 # 下载完成之后 使用pip install twisted的路径 安装 # 切记安装完twisted 再次安装scrapy # (3) 报错2 提示python -m pip install --upgrade pip # 解决2 运行python -m pip install --upgrade pip # (4) 报错3 win32的错误 # 解决3 pip install pypiwin32 # (5) anaconda
scrapy_scrapyshell
1. 创建爬虫的项目 scrapy startproject 项目的名字 注意:项目的名字不允许使用数字开头 也不能包含中文 2. 创建爬虫文件 要在spiders文件夹中去创建爬虫文件 cd 项目的名字\项目的名字\spiders cd scrapy_baidu_091\scrapy_baidu_091\spiders 创建爬虫文件 scrapy genspider 爬虫文件的名字 要爬取网页 eg:scrapy genspider baidu http://www.baidu.com 一般情况下不需要添加http协议 因为start_urls的值是根据allowed_domains 修改的 所以添加了http的话 那么start_urls就需要我们手动去修改了 3. 运行爬虫代码 scrapy crawl 爬虫的名字 eg: scrapy crawl baidu
# 进入到scrapy shell的终端 直接在window的终端中输入scrapy shell 域名 # 如果想看到一些高亮 或者 自动补全 那么可以安装ipython pip install ipython # scrapy shell www.baidu.com
scrapy startproject scrapy_readbook_text
cd 项目的名字\项目的名字\spiders
scrapy genspider -t crawl read https://www.dushu.com/book/1188_1.html
运行
scrapy crawl read