• Python lxml库 提取并保存网页内容部分


    有时候, 看见一篇网页, 不知道怎样离线保存。使用浏览器的保存网页功能, 又会保存下许多无用的信息, 如广告等其他部分。
    为解决这个问题, 本程序使用requests库获取网页源代码, 使用re模块及lxml库提取内容、CSS样式, 提取网页的正文部分。

    1.下载页面

    使用requests库的get方法即可, 注意添加headers, 否则会爬取不到内容。
    requests库可使用pip安装: pip install requests

    from requests import get
    from lxml.etree import HTML, tostring
    import re
    
    headers = {
    "User-Agent": """Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 \
    (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36"""
    }
    
    url = input('输入网址: ')
    req = get(url,headers=headers)
    text=req.content.decode('utf-8')
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    2.获取文章对应的标签

    在网页的正文内容部分上右击 => 检查, 找到

    或一个
    标签, 该标签的内容就是大多数网页的正文部分。
    然后右击, 复制XPath即可。这个XPath很重要。不同的网站, 这个XPath不相同。

    3.提取标题和正文部分

    提取标题, 需要使用正则表达式。注意: re.S表示点"."匹配全部字符, 若不用re.S参数, 会无法提取内容。
    提取正文: 首先创建lxml.etreeHTML()对象。
    该对象的xpath()方法会返回一个列表, 包含符合这个XPath的所有标签。
    然后, 用上一步找到的XPath提取正文部分。

    title = re.findall('(.*?)',text,re.S)[0]
    tree = HTML(text)
    
    div = tree.xpath('//*[@id="ssr-content"]/div[2]/div/div[1]')[0] # 百度的
    #div = tree.xpath('//*[@id="mainBox"]/main/div[1]')[0] # C站的
    content='%s'%title # 要保存的网页内容
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    4.提取CSS样式

    CSS样式是修饰网页的工具, 可控制网页的排版。这里再次使用开发工具, 找到了包含CSS样式的标签, 并将标签加入content中。如果不用CSS, 可能会出现网页排版混乱的情况。
    但是, 不是保存所有的网页都需要提取CSS样式这个步骤。

    css_patt=re.compile(',re.S)
    for css in re.findall(css_patt,text):
        content+=css+'>'
    
    • 1
    • 2
    • 3
    5.保存网页
    content += tostring(div, method='html').decode('utf-8')
    content += ''
    
    # 去除文件名不能包含的特殊字符, 用字符串的translate方法
    tbl = str.maketrans('','','\\/:*?"<>|')
    filename = '%s.html'%title.translate(tbl)
    with open(filename,'w',encoding='utf-8') as f:
        f.write(content)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    6.总结

    本程序使用requests库获取网页源代码, 使用re模块及lxml库提取内容、CSS样式。注意要善于使用浏览器的开发工具。
    需要注意的是, 提取少数需手动展开的网页时, 爬取的内容会不完整, 只有网页的前半截。
    完整源代码: gitcode.net/qfcy_/python/-/tree/master/WEB

  • 相关阅读:
    new map日常使用
    JAVA 学习路线 学习大纲(java 进阶路线)
    jupyter 基本用法
    SpringBoot实现指定时间开启定时任务
    新轮子 Caddy 入手体验
    如何使用html、css制作一个期末作业网站【羽毛球体育运动主题html网页设计】
    机器学习-10-可解释性机器学习库Shapash
    Util工具类(JwtUtil、MD5Util、ThreadLocalUtil、拦截器配置)
    Jmeter扩展---自定义取样器
    行列式展开:行列式等于它的任一行(列)的元素与其对应的代数余子式的乘积之和
  • 原文地址:https://blog.csdn.net/qfcy_/article/details/119817805