码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 通过Python的pdfplumber库提取pdf中表格数据


    文章目录

    • 前言
    • 一、pdfplumber库是什么?
    • 二、安装pdfplumber库
    • 三、查看pdfplumber库版本
    • 四、提取pdf中表格数据
      • 1.引入库
      • 2.定义pdf文件路径
      • 3.打开pdf文件
      • 4.获取pdf文件中的页数
      • 5.遍历每一页
      • 6.获取当前页内容
      • 7.提取表格数据
      • 8.输出表格数据
      • 9.效果
    • 总结

    前言

    大家好,我是空空star,本篇给大家分享一下《通过Python的pdfplumber库提取pdf中表格数据》。

    一、pdfplumber库是什么?

    pdfplumber是一个用于从PDF文档中提取文本和表格数据的Python库。它可以帮助用户轻松地从PDF文件中提取有用的信息,例如表格、文本、元数据等。pdfplumber库的特点包括:简单易用、速度快、支持多种PDF文件格式、支持从多个页面中提取数据等。pdfplumber库还提供了一些方便的方法来处理提取的数据,例如排序、过滤和格式化等。它是一个非常有用的工具,特别是在需要从大量PDF文件中提取数据时。

    二、安装pdfplumber库

    pip install pdfplumber
    
    • 1

    三、查看pdfplumber库版本

    pip show pdfplumber
    
    • 1

    Name: pdfplumber
    Version: 0.9.0
    Summary: Plumb a PDF for detailed information about each char, rectangle, and line.
    Home-page: https://github.com/jsvine/pdfplumber
    Author: Jeremy Singer-Vine
    Author-email: jsvine@gmail.com
    License:
    Requires: pdfminer.six, Pillow, Wand
    Required-by:

    四、提取pdf中表格数据

    1.引入库

    import pdfplumber
    
    • 1

    2.定义pdf文件路径

    local = '/Users/kkstar/Downloads/'
    
    • 1

    3.打开pdf文件

    with pdfplumber.open(local+"demo_table.pdf") as pdf:
    
    • 1

    4.获取pdf文件中的页数

        num_pages = len(pdf.pages)
    
    • 1

    5.遍历每一页

        for page_num in range(num_pages):
    
    • 1

    6.获取当前页内容

            page = pdf.pages[page_num]
    
    • 1

    7.提取表格数据

            table = page.extract_table(table_settings={
                "vertical_strategy": "lines",
                "horizontal_strategy": "lines",
                "intersection_x_tolerance": 15,
                "intersection_y_tolerance": 15
            })
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6

    8.输出表格数据

            for row in table:
                print(row)
    
    • 1
    • 2

    9.效果

    [‘username’, ‘nickname’, ‘article’]
    [‘weixin_38093452’, ‘空空 star’, ‘130889268’]
    [‘weixin_38093452’, ‘空空 star’, ‘130852811’]
    [‘weixin_38093452’, ‘空空 star’, ‘130815851’]
    Process finished with exit code 0

    总结

  • 相关阅读:
    Windows安装VMware(Broadcom)
    大语言模型LLM Pro+中Pro+(Prompting)的意义
    详解C++ 循环
    基于目标检测的无人机航拍场景下小目标检测实践
    iCopy for Mac 剪切板 粘贴工具 历史记录 安装(保姆级教程,新手小白轻松上手)
    Springboot+RabbitMQ+ACK机制(生产方确认(全局、局部)、消费方确认)、知识盲区
    java游戏制作-拼图游戏
    1.9 if语句(Python)
    lodash的merge()方法
    Git - IDEA中 Undo Commit / Revert Commit 撤销已 commit 的记录
  • 原文地址:https://blog.csdn.net/weixin_38093452/article/details/130915632
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号