• scrapy的使用


    scrapy_安装
    # (1) pip install scrapy
    # (2) 报错1: building 'twisted.test.raiser' extension
    #              error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++
    #              Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools
    #     解决1
    #       http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
    #       Twisted‑20.3.0‑cp37‑cp37m‑win_amd64.whl
    #       cp是你的python版本
    #       amd是你的操作系统的版本
    #       下载完成之后 使用pip install twisted的路径  安装
    #       切记安装完twisted 再次安装scrapy
    
    # (3) 报错2  提示python -m pip install --upgrade pip
    #      解决2   运行python -m pip install --upgrade pip
    
    # (4) 报错3   win32的错误
    #      解决3   pip install pypiwin32
    
    # (5) anaconda
    scrapy_scrapyshell

    1. 创建爬虫的项目   scrapy startproject 项目的名字
                     注意:项目的名字不允许使用数字开头  也不能包含中文
    2. 创建爬虫文件
                     要在spiders文件夹中去创建爬虫文件
                     cd 项目的名字\项目的名字\spiders
                     cd scrapy_baidu_091\scrapy_baidu_091\spiders
    
                     创建爬虫文件
                     scrapy genspider 爬虫文件的名字  要爬取网页
                     eg:scrapy genspider baidu  http://www.baidu.com
                     一般情况下不需要添加http协议  因为start_urls的值是根据allowed_domains
                     修改的  所以添加了http的话  那么start_urls就需要我们手动去修改了
    3. 运行爬虫代码
                     scrapy crawl 爬虫的名字
                     eg:
                     scrapy crawl baidu
    
    # 进入到scrapy shell的终端  直接在window的终端中输入scrapy shell 域名
    # 如果想看到一些高亮 或者 自动补全  那么可以安装ipython  pip install ipython
    # scrapy shell www.baidu.com

    scrapy startproject scrapy_readbook_text

    cd 项目的名字\项目的名字\spiders

    scrapy genspider -t crawl read https://www.dushu.com/book/1188_1.html

    运行

    scrapy crawl read

  • 相关阅读:
    C++——函数指针与指针函数
    【每日一题】2558. 从数量最多的堆取走礼物-2023.10.28
    11. 盛最多水的容器
    HTML基础
    【C进阶】字符串函数
    解决VSCode下载速度特别慢的问题
    一键闪测仪的基本概述和应用全面解析
    嵌入式-DMA
    idea springboot 如何支持数据库配置 redis配置 支持不同环境(uat验证环境、测试环境)切换
    静态变 量
  • 原文地址:https://blog.csdn.net/qew110123/article/details/126040709