lxml 是 Python 的第三方解析库,在第一次使用前需要使用到下面命令进行下载
pip install lxml
lxml模块中提供了一个etree 模块,该模块专门用于解析HTML/XML 文档
from lxml import etree
parse_html = etree.HTML(html)
HTML() 方法能够将 HTML 标签字符串解析为 HTML 文件,该方法可以自动修正 HTML 文本。parse_html只是一个变量名,后续的调用xpath表达式都是在此对象的基础上完成的。
r_list = parse_html.xpath('xpath表达式')
xpath方法会将符合xpath表达式的结果以列表的形式返回。
常用的路径表达式
常用方法
<a href="#">哈哈哈</a> 更多函数看官网:
XPath 教程 (w3school.com.cn)
https://www.w3school.com.cn/xpath/index.asp