Python自动读取PDF，推荐用pdfplumber库！

你好，我是郭震

pdfplumber 是一个 Python 库，专为从 PDF 文件中提取文本和表格数据而设计。

与其他 PDF 处理库相比，pdfplumber 更注重保持页面上文本的视觉布局，这使得它在处理包含复杂布局或多列文本的 PDF 文件时表现更为出色。pdfplumber 依赖于 PDFMiner 来解析 PDF 文件，但提供了更友好和直观的 API。

主要特点

文本提取：pdfplumber 可以准确地提取页面上的文本，同时保持文本的布局信息，这对于分析文档结构非常有用。
表格提取：它能够检测并提取 PDF 中的表格数据，这对于需要从报告或研究文档中提取数据的数据分析项目尤其有价值。
视觉调试：pdfplumber 提供了一种可视化页面布局的方式，使用户能够理解文本和其他元素是如何在页面上组织的。
灵活性：它允许用户根据需要定制文本提取的策略，例如通过定义感兴趣的页面区域来提取特定部分的文本或数据。

安装

pdfplumber 可以通过 pip 轻松安装：

pip install pdfplumber

使用示例

下面是一个基本的使用示例，展示了如何打开一个 PDF 文件并提取其文本内容：


import pdfplumber
 
with pdfplumber.open("人工智能测试.pdf") as pdf:
    first_page = pdf.pages[0]  # 获取第一页
    text = first_page.extract_text()  # 提取文本
    print(text)

这是PDF中第一页，提取后的文本内容打印结果如下所示：

正确率还是比较高，但未到100%准确，其中表格内容也被提取出来。

对于表格数据的提取，pdfplumber 同样提供了简单直接的方法：


with pdfplumber.open("人工智能测试.pdf") as pdf:
    page = pdf.pages[0]
    table = page.extract_table()  # 提取表格数据
    for row in table:
        print(row)

表格内容提取结果如下所示，是完全正确的：

pdfplumber 通过其简洁而强大的功能，成为处理 PDF 文件中的文本和数据提取任务的有力工具，尤其适合数据分析、自动化报告生成等领域。关注更多，访问网址：https://zglg.work

相关阅读:
微服务架构分布式事务管理问题
BBR 降本增效
选择适合的防火墙需要考虑哪些因素？
Python中的增强现实（AR）技术和应用
私域运营丨用户运营SOP，批量成交私域新老客户！
设备树和uboot启动，kernel启动
C语言实现输入 n 个字符串，将它们按字母由小到大的顺序排列并输出
UI美工设计岗位的基本职责概述（合集）
代码随想录刷题记录 day32无重叠区间划分字母区间合并区间
大数据学习初级入门教程（十三） —— Redis 3.x 伪分布式集群（哨兵模式）的安装、配置、启动和测试

原文地址：https://blog.csdn.net/xo3ylAF9kGs/article/details/136311549