码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • scrapy框架选择器


    scrapy框架选择器

    Scrapy有自己的数据提取机制。它们被称为选择器,因为它们“选择”HTML文档的某些部分 XPath 或 CSS 表达。

    • XPath是一种在XML文档中选择节点的语言,也可以与HTML一起使用。

    • CSS是用于将样式应用于HTML文档的语言。它定义选择器,将这些样式与特定的HTML元素相关联。

    参考文献:scrapy官方文档-选择器https://docs.scrapy.org/en/latest/topics/selectors.html

    一、使用选择器

    1.构建选择器

    response.selector.xpath('//span/text()').get() #提取span标签内的值
    
    • 1
    • 响应对象公开 Selector实例对 .selector 属性

    selector是一个很薄的包装 parsel library;这个包装器的目的是提供更好的与slapy响应对象的集成。

    parsel 是一个独立的网页爬取库,可以使用没有 Scrapy 。它使用 lxml库位于引擎盖下,并在LXML API之上实现一个简单的API。这意味着scrapy选择器在速度和解析精度方面与lxml非常相似。

    • 使用xpath和css查询响应非常常见,因此响应中还包含两个快捷方式:

      • response.xpath()

      • response.css()

        response.xpath('//span/text()').get() 	#xpath
        response.css('span::text').get()		#css
        
        • 1
        • 2
    • 如果需要,可以使用 Selector 直接。从文本构建:

      from scrapy.selector import Selector
      body = 'good'
      Selector(text=body).xpath('//span/text()').get()
      
      • 1
      • 2
      • 3

    2.使用选择器

    以scrapy官方文档为例示例:https://docs.scrapy.org/en/latest/_static/selectors-sample1.html

    第一步:获取页面节点元素

    response.xpath('//title/text()') #结果:[]
    
    • 1

    第二步:获取文本内容

    response.xpath('//title/text()').getall() 	#['Example website']
    response.xpath('//title/text()').get()		#'Example website'
    
    • 1
    • 2
    • **.get()**总是返回一个结果;如果有多个匹配项,则返回第一个匹配项的内容;如果没有匹配项,则返回None。

    • **.getall()**返回包含所有结果的列表。

    • 除了使用例如**@srcXPath之外,还可以使用.attrib**a的属性查询属性Selector

    案例:

    response.css('img').attrib['src'] 	#获取图片链接
    
    • 1

    3.将选择器与正则表达式一起使用

    Selector还提供了**.re()一种使用正则表达式提取数据的方法。但是,与使用.xpath()**或 **.css()方法不同,它.re()返回字符串列表。因此,您无法构造嵌套.re()**调用。

    案例:

    response.xpath('//a[contains(@href, "image")]/text()').re(r'Name:\s*(.*)') 
    
    • 1
  • 相关阅读:
    Vue基础(干货+代码)
    盲盒电商平台商业玩法解析
    为什么标准AR HUD的FOV必须在10°×3°以上|技术科普
    cmmi认证是怎么评估的?流程是什么
    富婆富少都爱看的ACL基本配置及实验详解
    Centos5.4下安装Layer7禁止QQ、MSN、p2p软件
    【重走 java 路】数组
    Windows安装Java环境(OracleJDK)
    计算机的硬件组成
    gitlab-ce实现主备切换集群:rsync+PostgreSQL备份的方式实现快速切换server ip实现伪高可用
  • 原文地址:https://blog.csdn.net/zhongjianboy/article/details/126776588
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号