码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • lxml&&BeautifulSoup


    目录

     

    简介

            解析方法——

    lxml库

             lxml库的使用

             lxml库之Xpath(解析本地文件)的简单使用

             lxml库之Xpath(解析爬取的文件)&& Xpath插件简单使用

     BeautifulSoup 库的使用

             BeautifulSoup配合Xpath插件爬取商品名


     

    简介

            简单爬虫是爬取整个页面的内容,解析就是通过某种方法去得到我们想要的数据。

            解析方法——

    ·path

    ·JsonPath

    ·BeautifulSoup

    ·正则表达式

    lxml库

            安装Xpath Helper 插件:帮助高效解析网页内容

    f42ead519c5d424e9b119c0aa6b2300c.png

     6d6ca960bcef493ab6bb25fb95d52b13.png

     d922cfae470940419f5806868e690993.png

             lxml库的使用

    W3c中文官方        官方

    046feca968d54035a3ca0fd5f4c017f2.png

             lxml库之Xpath(解析本地文件)的简单使用

    1. html>
    2. <html lang="en">
    3. <head>
    4. <meta charset="UTF-8"/>
    5. <title>python之lxml库title>
    6. head>
    7. <body>
    8. <ul>
    9. <li name="林" class="student">19-year-oldli>
    10. <wi name="文" class="student">18-year-oldwi>
    11. ul>
    12. <ul>
    13. <li love-food="西红柿">生的li>
    14. <wi love-food="月饼">豆沙馅wi>
    15. ul>
    16. <pr>
    17. <ul>
    18. <ti class="time">2018.9.5-2021.6.9ti>
    19. <ti class="incident">we are good friendsti>
    20. ul>
    21. pr>
    22. body>
    23. html>

    代码演示

    1. from lxml import etree
    2. tree=etree.parse('index.html')
    3. list1=tree.xpath('/body/ul/li/text()')
    4. print(list1)
    5. list2=tree.xpath('//ul/wi[contains(@class,"student")]/text()')
    6. print(list2)
    7. list3=tree.xpath('//ul/li[@name="林" or @class="student"]/text()')
    8. print(list3)
    9. list4=tree.xpath('//ul/wi[starts-with(@name,"文")]/text()')
    10. print(list4)
    11. list5=tree.xpath('//ul/ti[@class="time"]/@class')
    12. print(list5)

    f0c0288799f5404cbe30d4e2e9283184.png

     完整效果——

    10698c4d08974a2bb4499b9379c0c003.png

             lxml库之Xpath(解析爬取的文件)&& Xpath插件简单使用

    20274d322eb64820acb1b7809403d26e.png

    3f357e7e48144028b1e728aeb96a268c.png

             lxml库之Xpath(解析爬取的文件)&& 下载图片

    533a36c969f74eac87bb3f4d8c380fbe.png

    5cf667362d8e465388cb38b3b2a62222.png

    d9395ca6a6b941ed9cdccc3758009302.png

     BeautifulSoup 库的使用

    cbddd9b3e78b49f0b509f0e65f616c02.png

     520ba9e9de404bfc9ef7a6858542ba12.png

     f4f8c0eceaea42e58eb0501eefce064b.png

     fbbc1ae8c9f04816ae13e245e4e5ae8b.png

     b33610ed188444c680db79cc086aee75.png

             BeautifulSoup配合Xpath插件爬取商品名

    获取想要数据的步骤:先通过xpath插件获取对应的数据然后再将其转成对应的Ba4语法即可

    3782b830b5934adb8e2a85ec957575bd.png

  • 相关阅读:
    HTML复习笔记
    Ims服务架构
    软件测试100天上岸3-测试有哪些最高原则
    django接口无法通过ip进行访问
    git cherry pick
    Hive安装教程-Hadoop集成Hive
    【计算机网络】数据链路层-MAC和ARP协议
    pycharm安装django框架详细步骤(Python 3.8.1),编写你的第一个 Django 应用
    聚观早报 | 苹果被曝开发16英寸iPad;5.5G已经取得关键进展
    卷积神经网络(CNN)天气识别
  • 原文地址:https://blog.csdn.net/weixin_62599885/article/details/126340073
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号