码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • Python使用Beautiful Soup及解析html获取元素并提取内容值


    Python使用Beautiful Soup及解析html获取元素并提取内容值

      • 1. 包括解析获取标题
      • 2. 根据标签及id获取所有元素
      • 3. 根据标签及class获取所有元素
      • 4. 获取元素下的标签的值
      • 5. 获取元素下的parent及child的元素的值
      • 参考

    1. 包括解析获取标题

    2. 根据标签及id获取所有元素

    3. 根据标签及class获取所有元素

    4. 获取元素下的标签的值

    5. 获取元素下的parent及child的元素的值

    # 使用Python解析html元素的值
    
    from bs4 import BeautifulSoup
    
    file_html = 'test/demo.html'
    file = open(file_html, "rb")
    html = file.read().decode("utf-8")
    
    # 通过html.parser解析器把我们的HTML解析成了一棵树
    bs = BeautifulSoup(html, "html.parser")
    
    print("获取文章title")
    print(bs.title)
    
    # 根据标签 和 id名称获取所有元素
    id_list = bs.find_all('input', id='mSearchInput')
    
    # 根据标签 和 class名称获取所有元素
    div_class_list = bs.find_all('div', class_='view-num-box')
    for i, div in enumerate(div_class_list):
        # 获取元素的父元素的值
        print(i, div.text, ' parent: ', div.parent.text)
    
    print('-----------------------------------------------------------')
    blog_list = bs.find_all('article', class_='blog-list-box')
    for i, blog in enumerate(blog_list):
        print(i, blog.text, '\ntitle: ', bs.find_all('div', class_='blog-list-box-top')[i].text)
        print(blog.h4.text)  # 获取blog的标签下的h4标签的文本
        print(blog.span.text)
        print(blog.div, blog.div.next)
    
        # 获取content
        for j, content in enumerate(blog.contents):
            print('contents: ', j, content.text)
        # 获取child
        for j, child in enumerate(blog.children):
            print('child: ', j, child.text)
    
    div_list = bs.find_all('div', class_='user-profile-head-address')
    print('div_list: ', div_list[0].text)
    
    meta_list = bs.find_all('meta')
    for j, meta in enumerate(meta_list):
        print(j, meta.text, meta.attrs['content'])
    
    # 2.NavigableString
    print("2. NavigableString的例子:获取title的string内容和div的属性")
    print(bs.title.string)
    print(bs.div.attrs)  # 获取标签中的所有属性,并返回一个字典
    # 3.BeautifulSoup
    print("3. BeautifulSoup的例子:获取整个html文档的name")
    print(bs.name)
    # 4.Comment
    print("4. Comment的例子:获取a的string")
    print(bs.a.string)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38
    • 39
    • 40
    • 41
    • 42
    • 43
    • 44
    • 45
    • 46
    • 47
    • 48
    • 49
    • 50
    • 51
    • 52
    • 53
    • 54
    • 55

    参考

    • https://blog.csdn.net/qq_42732153/article/details/81105725
    • https://blog.csdn.net/qq_50587771/article/details/123870433
  • 相关阅读:
    单片机论文参考:4、基于单片机的智能避障小车
    spring framework spring-boot spring-cloud 官方文档入口
    【C++】十大排序算法之 插入排序 & 希尔排序
    GBase 8c V3.0.0数据类型——访问权限查询函数
    SpringBoot项目--电脑商城【商品热销排名】
    自学黑客/网络安全工具软件大全100套
    Excel之数据透视&NotePad之列编辑
    Day 10 - C# 与 C++ opencv图像数据转换
    制作pcb流畅
    使用Blender编辑Character Creater 4的人物形象
  • 原文地址:https://blog.csdn.net/qq_40985985/article/details/136590140
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号