【python】爬虫系列之爬虫解析器BeautifulSoup4

一、BeautifulSoup4库简单介绍

二、beautifulsoup4的使用

1. 基础操作

2. 对象种类

3. find_all()搜索文档树

4. CSS选择器

活动地址：CSDN21天学习挑战赛

学习日记 Day18

一、BeautifulSoup4库简单介绍

BeautifulSoup4是一个可以从HTML或XML中提取数据的python库。它能够通过你喜欢的转换器实现管用的文档导航、查找、修改文档的方式。BeautifulSoup会帮你节省数小时甚至数天的工作时间。

BeautifulSoup4将网页转换为一颗DOM树：

⚪ 下载BeautifulSoup4模块

在cmd命令中输入pip install beautifulsoup4命令，安装即可。

⚪ beautifulsoup4解析库

BeautifulSoup在解析时实际上依赖解析器，它除了支持python标准库中的HTML解析器外，还支持一些第三方解析器（比如xml）：

解析器	使用方法	优势	劣势
python标准库	BeautifulSoup(html,'html.parser')	pyhton内置标准库、执行速度适中、文档容错能力强	python2.7.3及python3.2.2之前的版本文档容错能力差
lxml HTML解析库	BeautifulSoup(html,'lxml')	速度快、文档容错能力强	需要安装C语言库
lxml XML解析库	BeautifulSoup(html,'xml')	速度快、唯一支持的XML的解析器	需要安装C语言库
htm5lib解析库	BeautifulSoup(html,'html5llib')	最好的容错性、以浏览器的方式解析文档、生成HTMLS格式的文档	速度慢、不依赖外部扩展

常用的解析器是lxml HTML解析器，其次是html5lib。

二、beautifulsoup4的使用

1. 基础操作

⚪ 读取HTML字符串


from bs4 import BeautifulSoup
 
html='''
    
        Hello

Foo

from bs4 import BeautifulSoup html=''' Hello Foo Bar Jay Foo 百度官网 Bar ''' # 创建对象 soup = BeautifulSoup(html,'lxml') # 缩进格式 print(soup.prettify()) # 以缩进格式打印html字符串 print('*'*50) # 获取title标签的所有内容 print(soup.title) # 获取title标签的名称 print(soup.title.name) # 获取title标签的文本内容 print(soup.title.string) # 获取head标签的所有内容 print(soup.head) # 获取第一个div标签中的所有内容 print(soup.div) # 获取第一个div标签的id的值 print(soup.div['id']) # 获取第一个a标签中的所有内容 print(soup.a) # 获取所有的a标签中的所有的内容 print(soup.find_all('a')) # 获取id='ul print(soup.find(id='ul')) # 获取所有的a标签，并遍历打印a标签的文本值 for item in soup.find_all('a'): print(item.get('href')) # 获取所有的a标签，并遍历打印a标签的文本值 for item in soup.find_all('a'): print(item.get_text())

["https://www.baidu.com">百度官网] body PS E:\1_tempFile\1_learn_code\VSCode\python_test> & D:/IDE/Python/python.exe e:/1_tempFile/1_learn_code/VSCode/python_test/python_beautifulsoup4/read_html.py ["https://www.baidu.com">百度官网] body ["list" id="list-1" name="element"> "element">Foo "element">Bar "element">Jay , "list list-small" id="list-2"> "element">Foo "https://www.baidu.com">百度官网 "element">Bar , "https://www.baidu.com">百度官网]

soup = BeautifulSoup(open('test.html'),'lxml') # 匹配字符串 print(soup.find_all(text='a')) # 匹配正则表达式 print(soup.find_all(text=re.compile('^b'))) # 匹配列表 print(soup.find_all(text=['ui','li']))

[<ul class="list" id="list-1" name="element"> <li class="element">Fooli> <li class="element">Barli> <li class="element">Jayli> ul>] ======================================== [<ul class="list" id="list-1" name="element"> <li class="element">Fooli> <li class="element">Barli> <li class="element">Jayli> ul>, <ul class="list list-small" id="list-2"> <li class="element">Fooli> <a href="https://www.baidu.com">Baidua> <li class="element">Barli> ul>] Process finished with exit code 0