• scrapy的使用


    scrapy_安装
    # (1) pip install scrapy
    # (2) 报错1: building 'twisted.test.raiser' extension
    #              error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++
    #              Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools
    #     解决1
    #       http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
    #       Twisted‑20.3.0‑cp37‑cp37m‑win_amd64.whl
    #       cp是你的python版本
    #       amd是你的操作系统的版本
    #       下载完成之后 使用pip install twisted的路径  安装
    #       切记安装完twisted 再次安装scrapy
    
    # (3) 报错2  提示python -m pip install --upgrade pip
    #      解决2   运行python -m pip install --upgrade pip
    
    # (4) 报错3   win32的错误
    #      解决3   pip install pypiwin32
    
    # (5) anaconda
    scrapy_scrapyshell

    1. 创建爬虫的项目   scrapy startproject 项目的名字
                     注意:项目的名字不允许使用数字开头  也不能包含中文
    2. 创建爬虫文件
                     要在spiders文件夹中去创建爬虫文件
                     cd 项目的名字\项目的名字\spiders
                     cd scrapy_baidu_091\scrapy_baidu_091\spiders
    
                     创建爬虫文件
                     scrapy genspider 爬虫文件的名字  要爬取网页
                     eg:scrapy genspider baidu  http://www.baidu.com
                     一般情况下不需要添加http协议  因为start_urls的值是根据allowed_domains
                     修改的  所以添加了http的话  那么start_urls就需要我们手动去修改了
    3. 运行爬虫代码
                     scrapy crawl 爬虫的名字
                     eg:
                     scrapy crawl baidu
    
    # 进入到scrapy shell的终端  直接在window的终端中输入scrapy shell 域名
    # 如果想看到一些高亮 或者 自动补全  那么可以安装ipython  pip install ipython
    # scrapy shell www.baidu.com

    scrapy startproject scrapy_readbook_text

    cd 项目的名字\项目的名字\spiders

    scrapy genspider -t crawl read https://www.dushu.com/book/1188_1.html

    运行

    scrapy crawl read

  • 相关阅读:
    ABP VNext添加全局认证(如何继承AuthorizeFilter)
    adb shell run-as
    算术运算符2(阁瑞钛伦特软件-九耶实训)
    狂神说笔记 快速入门Nginx
    华为网络工程师认证有了解的吗?
    jQuery学习:属性
    欧洲FBA专线海运与陆运的差别
    Go基础3:函数、结构体、方法、接口
    《斯坦福数据挖掘教程·第三版》读书笔记(英文版) Chapter 2 MapReduce and the New Software Stack
    免安装版VSCode配置(便携模式)
  • 原文地址:https://blog.csdn.net/qew110123/article/details/126040709