• lxparse:解析列表页链接和详情页内容


    lxparse:一个适用于解析列表页链接和提取详请页内容的Python库

    Github地址:https://github.com/lixi5338619/lxparse


    项目背景

    现有2000个政企网站信源,要短时间实现动态监测。

    开发时即要查看网站类型又要分析数据接口,然后配置解析规则,人都看麻了。所以写一个自动提取列表页链接的方法。

    奈何国内的站点页面类型千奇百怪,几乎不存在通用的解析方法,只能说尽可能让页面内容提取更便捷一些。

    lxparse中的列表页解析借助了readability的主体抽取方法,详情页解析引用了gen的一些正则匹配方法。


    实现逻辑

    列表页

    1、提取列表页主体。删除html中的无关标签,主要以a标签聚焦程度为评估标准。
    2、通过xpath规则筛选主体中存在的a标签,以h、ul/li、tr/td 为主,返回链接数组。
    3、通过余弦公式计算数组中所有url的相似度,保留相似度较高的url,返回链接数组。
    4、从数组中再次过滤,保留符合规则的链接。

    详情页

    标题、作者、来源:以常见规则匹配,并筛选和评估最优解。
    发布时间:以常见规则和正文内容匹配,经过处理和验证后返回时间格式。
    正文内容:通过readability的主体抽取方法,返回带标签和格式化的正文内容。


    使用方法

    安装: pip install lxparse
    调用:

    from lxparse import LxParse
    lx = LxParse()
    ​
    list_html = ""
    lx.parse_list(list_html)
    # 指定解析规则
    lx.parse_list(list_html,xpath_list="/div[@id='lx']/a")
    ​
    detail_html = ""
    lx.parse_detail(detail_html)
    # 指定解析规则,不声明则使用默认规则
    xpath_item = {
        'xpath_title':'',
        'xpath_source':'',
        'xpath_date':'',
        'xpath_author':'',
        'xpath_content':'',
    }
    lx.parse_detail(detail_html,item=xpath_item)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19

    parse_detail 返回:
    在这里插入图片描述


    测试代码

    demo文件中分别有列表页和详情页的解析示例。

    ​一些页面测试:将html保存本地后,今日头条、新浪新闻、百度资讯、网易新闻、腾讯新闻等可正常解析。


    备注

    使用lxparse解析库解析时,如有解析异常可手动指定解析规则。

    测试用例不多,毕竟目前无法100%解析成功,如有问题可以提issues一起优化。​

  • 相关阅读:
    【Kafka】CDH 中配置 Kafka MirrorMaker 实现 Kafka 集群消息同步
    你的团队工作量饱和吗?
    XHbuilder 需要的 ipa 签名,超详细的教程,你不看吃亏的是自己!
    Qt 布局(QLayout 类&QStackedWidget 类) 总结
    K线形态识别_揉搓线
    RAW图像详解及使用Python读取raw格式图像并显示
    C语言程序环境和预处理
    使用Selenium爬取目标网站被识别的解决之法
    小目标检测:基于切图检测的yolov5小目标训练
    wchar_t* argv[] 数组赋值
  • 原文地址:https://blog.csdn.net/weixin_43582101/article/details/126453369