• Python提取pdf中的表格数据(附实战案例)


    14天阅读挑战赛

    今天给大家介绍一个Python使用工具,那就是从pdf文件中读取表格数据,主要用到第三方库 pdfplumber。

    pdfplumber简介

    pdfplumber是一款基于pdfminer,完全由python开发的pdf文档解析库,不仅可以获取每个字符、矩形框、线等对象的具体信息,而且还可以抽取文本和表格。目前pdfplumber仅支持可编辑的pdf文档

    虽然pdfminer也可以对可编辑的pdf文档进行解析,但是比较而言,pdfplumber有以下优势:

    1. 二者都可以获取到每个字符、矩形框、线等对象的具体信息,但是pdfplumber在pdfminer的基础上进行了封装和处理,使得到的对象更易于使用,对用户更友好。
    2. 二者都能对文本解析,但是pdfminer输出的文本在布局上可能与原文差别比较大,但是pdfplumber抽取出的文本与原文可以有更高的一致性。
    3. pdfplumber实现了表格抽取逻辑,基于最基本的字符、线框等对象的位置信息,定位、识别pdf文档中的表格。

     首先安装

    pip install pdfplumber

    实战案例

    本次实战,我们需要将pdf中的获奖队伍信息提取出来,然后保存到excel表格中。

    原始pdf文件中大多数都是如上图所示的表格,这里为了不泄露个人隐私,我就先打上码了哈。

    接着开始敲代码提取表格数据!

    1. import pandas as pd
    2. import pdfplumber
    3. pdf = pdfplumber.open("第十届“正大杯”国奖名单.pdf")
    4. df = pd.DataFrame()
    5. for i in range(3,53): # 这里3是指表格信息是从第4页开始的(程序计数是从0开始,所以这里第4页对应程序中的3),53是结束位置
    6. page = pdf.pages[i] # 读取pdf中的每一页
    7. table = page.extract_table() # 从页数据中提取表格数据
    8. df = df.append(table) # 将提取的数据转换为DataFrame二维表格形式
    9. df.drop_duplicates(inplace=True) # 删除重复值
    10. df.to_excel("第十届“正大杯”国奖名单.xlsx", header=False, index=False) # 将提取的数据保存为excel

    这里,我先是用了循环来提取多页,3是指表格信息是从第4页开始的(程序计数是从0开始,所以这里第4页对应程序中的3),53是结束位置 。

     运行之后的结果如下:

    很简单就将pdf中的表格提取出来了。

    做到这里,我只是将一个pdf中的数据提取出来了,可是还有几个类似的pdf需要提取,于是我将上述代码功能进行了简单的封装(功能还比较简陋,各位可根据自己的需要进行扩展)。

    1. def pdf_to_excel(file_path,start:int,end:int,excel_name=None):
    2. '''
    3. params:
    4. file_path:需要提取表格的pdf文件的绝对路径
    5. start:出现表格的起始页码
    6. end:表格结束页码
    7. excel_name:最后保存excel文件的文件名(默认为原始pdf文件名)
    8. '''
    9. pdf = pdfplumber.open(file_path)
    10. if not excel_name:
    11. excel_name = file_path.split('\\')[-1].split('.')[0]
    12. df_result = pd.DataFrame()
    13. for i in range(start-1,end):
    14. page = pdf.pages[i]
    15. table = page.extract_table()
    16. df_result = df_result.append(table)
    17. df_result = df_result.drop_duplicates(inplace=True)
    18. df_result.to_excel(excel_name+'.xlsx',index=False)
    19. pdf_to_excel(file_path=r'C:xxx.pdf',start=4,end=53)

    以上就是本次分享的python小工具,希望对有同样需求的你有所帮助!

  • 相关阅读:
    协同办公“战役”,华为输了吗?
    用了这么久SpringBoot却还不知道的一个小技巧
    GeoServer服务迁移出现 EncryptionOperationNotPossibleException 错误的解决方案
    嵌入式面试3(C++相关)
    webpack5学习进阶:Library、模块联邦、构建优化
    Git远程库代码回退
    【人工智能-神经网络】Numpy 实现单层感知机对情感文本多分类
    Kubernetes 那些奇技淫巧
    Ubuntu 使用 nginx 搭建 https 文件服务器
    如何在Ubuntu上安装WordPress
  • 原文地址:https://blog.csdn.net/m0_64336780/article/details/127538201