码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • Python爬虫之Scrapy框架(CrawlSpider的简单使用)


    请添加图片描述

    @作者 : SYFStrive
    @创建时间 : 2022/8/10 22:01
    📜: Scrapy框架之CrawlSpider案例
    🥧: 点击跳转到上一篇Scrapy续文🦄
    请添加图片描述

    目录

    • 简介
      • CrawlSpider使用前准备📦
        • 相关说明
        • 基本使用
      • 案例
        • 简单蜘蛛13页内容
        • 简单蜘蛛全部内容
    • 最后

    简介

    1. CrawlSpider是爬取那些具有一定规则网站的常用的爬虫,它基于Spider并有一些独特属性 rules: 是 Rule 对象的集合,用于匹配目标网站并排除干扰 parse_start_url: 用于爬取起始响应,必须要返回 Item , Request 中的一个。
    2. 爬取那些具有一定规则网站的常用的爬虫

    CrawlSpider使用前准备📦

    相关说明

    • 继承自scrapy.Spider
    • 独门秘笈
      CrawlSpider可以定义规则,再解析html内容的时候,可以根据链接规则提取出指定的链接,然后再向这些链接发。
      送请求所以,如果有需要跟进链接的需求,意思就是爬取了网页之后,需要提取链接再次爬取,使用CrawlSpider是非常合适的。
    • 提取链接
      链接提取器,在这里就可以写规则提取指定链接。
      scrapy.linkextractors.LinkExtractor(
      allow = (), # 正则表达式 提取符合正则的链接
      restrict_xpaths = (), # xpath,提取符合xpath规则的链接
      restrict_css = () # 提取符合选择器规则的链接)
      )
    • 举例
    1. 正则用法:links1 = LinkExtractor(allow=r’list_23_\d+.html’)
    2. xpath用法:links2 = LinkExtractor(restrict_xpaths=r’//div[@class=“x”]')
    3. css用法:links3 = LinkExtractor(restrict_css=‘.x’)
    • 注意事项
    1. callback只能写函数名字符串, callback=‘parse_item’
    2. 在基本的spider中,如果重新发送请求,那里的callback写的是 callback=self.parse_item 【注‐
      ‐稍后看】follow=true 是否跟进 就是按照提取连接规则进行提取

    基本使用

    1. 创建项目:scrapy startproject XXX
    2. 跳转到spiders路径
    3. 创建爬虫类:scrapy genspider -t crawl XXX URL
    4. 简单步骤:items 👉 spiders 👉 settings 👉 pipelines(数据保存到本地 或 数据保存到mysql数据库)

    案例

    遇到如下使用 CrawlSpider 是最好的选择
    在这里插入图片描述

    简单蜘蛛13页内容

    📰代码演示:

    dushuwangS.py

    在这里插入图片描述

    pipelines.py

    在这里插入图片描述

    如下图(蜘蛛成功🆗):

    在这里插入图片描述

    简单蜘蛛全部内容

    开启跟进需求

    follow=True

    如下图(蜘蛛成功🆗):

    在这里插入图片描述

    最后

    Scrapy框架还未结束(待更),觉得不错的请给我专栏点点订阅,你的支持是我们更新的动力,感谢大家的支持,希望这篇文章能帮到大家

    点击跳转到我的Python案例专栏

    在这里插入图片描述

    下篇文章再见ヾ( ̄▽ ̄)ByeBye

    在这里插入图片描述

  • 相关阅读:
    Liunx常用命令
    8.论文学习Liver Tumor Segmentation and Classification: A Systematic Review
    蓝队应急响应之Windows篇
    Java Stream流 List< T >转换Map方法汇总合集(大概是最全吧)
    FPGA与人工智能泛谈-01
    时间序列的数据分析(六):指数平滑预测法
    2.00001《Postgresql内幕探索》走读 之 查询优化
    10.2 校招 实习 内推 面经
    腾讯云2核4G轻量服务器5M带宽支持多少人同时在线?
    十五分钟上手JavaScript之面向对象
  • 原文地址:https://blog.csdn.net/m0_61490399/article/details/126260829
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号