码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • scrapy的使用


    scrapy_安装
    # (1) pip install scrapy
    # (2) 报错1: building 'twisted.test.raiser' extension
    #              error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++
    #              Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools
    #     解决1
    #       http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
    #       Twisted‑20.3.0‑cp37‑cp37m‑win_amd64.whl
    #       cp是你的python版本
    #       amd是你的操作系统的版本
    #       下载完成之后 使用pip install twisted的路径  安装
    #       切记安装完twisted 再次安装scrapy
    
    # (3) 报错2  提示python -m pip install --upgrade pip
    #      解决2   运行python -m pip install --upgrade pip
    
    # (4) 报错3   win32的错误
    #      解决3   pip install pypiwin32
    
    # (5) anaconda
    scrapy_scrapyshell

    1. 创建爬虫的项目   scrapy startproject 项目的名字
                     注意:项目的名字不允许使用数字开头  也不能包含中文
    2. 创建爬虫文件
                     要在spiders文件夹中去创建爬虫文件
                     cd 项目的名字\项目的名字\spiders
                     cd scrapy_baidu_091\scrapy_baidu_091\spiders
    
                     创建爬虫文件
                     scrapy genspider 爬虫文件的名字  要爬取网页
                     eg:scrapy genspider baidu  http://www.baidu.com
                     一般情况下不需要添加http协议  因为start_urls的值是根据allowed_domains
                     修改的  所以添加了http的话  那么start_urls就需要我们手动去修改了
    3. 运行爬虫代码
                     scrapy crawl 爬虫的名字
                     eg:
                     scrapy crawl baidu
    
    # 进入到scrapy shell的终端  直接在window的终端中输入scrapy shell 域名
    # 如果想看到一些高亮 或者 自动补全  那么可以安装ipython  pip install ipython
    # scrapy shell www.baidu.com

    scrapy startproject scrapy_readbook_text

    cd 项目的名字\项目的名字\spiders

    scrapy genspider -t crawl read https://www.dushu.com/book/1188_1.html

    运行

    scrapy crawl read

  • 相关阅读:
    从零开始的力扣刷题记录-第八十七天
    Operator 基础原理和概念
    计算机网络笔记5 传输层
    25计算机考研院校数据分析 | 浙江大学
    STM32按键消抖——入门状态机思维
    蚁剑加密 WebShell 过杀软
    Note—— OSError & np.degress() & scipy.signal.argrelextrema
    notifyIcon动态图标
    小红书内容运营包含哪些,内容种草攻略
    Siemens-NXUG二次开发-创建倒斜角特征、边倒圆角特征、设置对象颜色、获取面信息[Python UF][20240605]
  • 原文地址:https://blog.csdn.net/qew110123/article/details/126040709
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号