目录
lxml库之Xpath(解析爬取的文件)&& Xpath插件简单使用
简单爬虫是爬取整个页面的内容,解析就是通过某种方法去得到我们想要的数据。
·path
·JsonPath
·BeautifulSoup
·正则表达式
安装Xpath Helper 插件:帮助高效解析网页内容




- html>
- <html lang="en">
- <head>
- <meta charset="UTF-8"/>
- <title>python之lxml库title>
- head>
- <body>
- <ul>
- <li name="林" class="student">19-year-oldli>
- <wi name="文" class="student">18-year-oldwi>
- ul>
- <ul>
- <li love-food="西红柿">生的li>
- <wi love-food="月饼">豆沙馅wi>
- ul>
- <pr>
- <ul>
- <ti class="time">2018.9.5-2021.6.9ti>
- <ti class="incident">we are good friendsti>
- ul>
- pr>
- body>
- html>
代码演示
- from lxml import etree
- tree=etree.parse('index.html')
- list1=tree.xpath('/body/ul/li/text()')
- print(list1)
- list2=tree.xpath('//ul/wi[contains(@class,"student")]/text()')
- print(list2)
- list3=tree.xpath('//ul/li[@name="林" or @class="student"]/text()')
- print(list3)
- list4=tree.xpath('//ul/wi[starts-with(@name,"文")]/text()')
- print(list4)
- list5=tree.xpath('//ul/ti[@class="time"]/@class')
- print(list5)

完整效果——



lxml库之Xpath(解析爬取的文件)&& 下载图片








获取想要数据的步骤:先通过xpath插件获取对应的数据然后再将其转成对应的Ba4语法即可
