lxml&&BeautifulSoup

简介

解析方法——

lxml库

lxml库的使用

lxml库之Xpath（解析本地文件）的简单使用

lxml库之Xpath（解析爬取的文件）&& Xpath插件简单使用

BeautifulSoup 库的使用

BeautifulSoup配合Xpath插件爬取商品名

简介

简单爬虫是爬取整个页面的内容，解析就是通过某种方法去得到我们想要的数据。

解析方法——

·path

·JsonPath

·BeautifulSoup

·正则表达式

lxml库

安装Xpath Helper 插件：帮助高效解析网页内容

lxml库的使用

W3c中文官方官方

lxml库之Xpath（解析本地文件）的简单使用


html>
<html lang="en">
<head>
    <meta charset="UTF-8"/>
    <title>python之lxml库title>
head>
<body>
<ul>
    <li name="林" class="student">19-year-oldli>
    <wi name="文" class="student">18-year-oldwi>
ul>
<ul>
    <li love-food="西红柿">生的li>
    <wi love-food="月饼">豆沙馅wi>
ul>
<pr>
    <ul>
        <ti class="time">2018.9.5-2021.6.9ti>
        <ti class="incident">we are good friendsti>
    ul>
pr>
body>
html>

代码演示


from lxml import etree
tree=etree.parse('index.html')
list1=tree.xpath('/body/ul/li/text()')
print(list1)
list2=tree.xpath('//ul/wi[contains(@class,"student")]/text()')
print(list2)
list3=tree.xpath('//ul/li[@name="林" or @class="student"]/text()')
print(list3)
list4=tree.xpath('//ul/wi[starts-with(@name,"文")]/text()')
print(list4)
list5=tree.xpath('//ul/ti[@class="time"]/@class')
print(list5)