码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • Python自动读取PDF,推荐用pdfplumber库!


    你好,我是郭震

    pdfplumber 是一个 Python 库,专为从 PDF 文件中提取文本和表格数据而设计。

    与其他 PDF 处理库相比,pdfplumber 更注重保持页面上文本的视觉布局,这使得它在处理包含复杂布局或多列文本的 PDF 文件时表现更为出色。pdfplumber 依赖于 PDFMiner 来解析 PDF 文件,但提供了更友好和直观的 API。

    主要特点

    • 文本提取:pdfplumber 可以准确地提取页面上的文本,同时保持文本的布局信息,这对于分析文档结构非常有用。

    • 表格提取:它能够检测并提取 PDF 中的表格数据,这对于需要从报告或研究文档中提取数据的数据分析项目尤其有价值。

    • 视觉调试:pdfplumber 提供了一种可视化页面布局的方式,使用户能够理解文本和其他元素是如何在页面上组织的。

    • 灵活性:它允许用户根据需要定制文本提取的策略,例如通过定义感兴趣的页面区域来提取特定部分的文本或数据。

    安装

    pdfplumber 可以通过 pip 轻松安装:

    pip install pdfplumber

    使用示例

    下面是一个基本的使用示例,展示了如何打开一个 PDF 文件并提取其文本内容:

    1. import pdfplumber
    2. with pdfplumber.open("人工智能测试.pdf") as pdf:
    3.     first_page = pdf.pages[0]  # 获取第一页
    4.     text = first_page.extract_text()  # 提取文本
    5.     print(text)

    a6e785f3c53d93d4d571d92375d24f9e.png

    这是PDF中第一页,提取后的文本内容打印结果如下所示:

    11e713988f0e96814b4bf218992d7f71.png

    正确率还是比较高,但未到100%准确,其中表格内容也被提取出来。

    对于表格数据的提取,pdfplumber 同样提供了简单直接的方法:

    1. with pdfplumber.open("人工智能测试.pdf") as pdf:
    2.     page = pdf.pages[0]
    3.     table = page.extract_table()  # 提取表格数据
    4.     for row in table:
    5.         print(row)

    表格内容提取结果如下所示,是完全正确的:

    3b2cfd30fb5241484c85807a75c46673.png

    pdfplumber 通过其简洁而强大的功能,成为处理 PDF 文件中的文本和数据提取任务的有力工具,尤其适合数据分析、自动化报告生成等领域。关注更多,访问网址:https://zglg.work

  • 相关阅读:
    微服务架构分布式事务管理问题
    BBR 降本增效
    选择适合的防火墙需要考虑哪些因素?
    Python中的增强现实(AR)技术和应用
    私域运营丨用户运营SOP,批量成交私域新老客户!
    设备树和uboot启动,kernel启动
    C语言实现输入 n 个字符串,将它们按字母由小到大的顺序排列并输出
    UI美工设计岗位的基本职责概述(合集)
    代码随想录刷题记录 day32无重叠区间 划分字母区间 合并区间
    大数据学习初级入门教程(十三) —— Redis 3.x 伪分布式集群(哨兵模式)的安装、配置、启动和测试
  • 原文地址:https://blog.csdn.net/xo3ylAF9kGs/article/details/136311549
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号