目录
活动地址:CSDN21天学习挑战赛
学习的最大理由是想摆脱平庸,早一天就多一份人生的精彩;迟一天就多一天平庸的困扰
可操作PDF的工具对比如下:

本文具体介绍pdfplumber专注PDF内容提取,例如文本(位置、字体和颜色)、形状(矩形、直线、曲线),还有解析表格的功能
有以下特点:
轻松访问有关每个PDF对象的详细信息
用于提取文本和表格的更高级别、可自定义的方法
紧密集成的可视化调试
其他实用功能,例如通过裁剪框过滤对象
- PS C:\Users\T14\Desktop> pip install pdfplumber
- Collecting pdfplumber
- Downloading pdfplumber-0.7.4-py3-none-any.whl (40 kB)
- ---------------------------------------- 40.0/40.0 KB 44.3 kB/s eta 0:00:00
- Collecting Pillow>=9.1
- Downloading Pillow-9.2.0-cp39-cp39-win_amd64.whl (3.3 MB)
- ---------------------------------------- 3.3/3.3 MB 21.1 kB/s eta 0:00:00
- Collecting pdfminer.six==20220524
- Downloading pdfminer.six-20220524-py3-none-any.whl (5.6 MB)
- ---------------------------------------- 5.6/5.6 MB 23.6 kB/s eta 0:00:00
- Collecting Wand>=0.6.7
- Downloading Wand-0.6.9-py2.py3-none-any.whl (142 kB)
- ---------------------------------------- 142.8/142.8 KB 15.7 kB/s eta 0:00:00
- Collecting charset-normalizer>=2.0.0
- Downloading charset_normalizer-2.1.0-py3-none-any.whl (39 kB)
- Collecting cryptography>=36.0.0
- Downloading cryptography-37.0.4-cp36-abi3-win_amd64.whl (2.4 MB)
- ---------------------------------------- 2.4/2.4 MB 23.8 kB/s eta 0:00:00
- Collecting cffi>=1.12
- Downloading cffi-1.15.1-cp39-cp39-win_amd64.whl (179 kB)
- ---------------------------------------- 179.1/179.1 KB 27.4 kB/s eta 0:00:00
- Collecting pycparser
- Downloading pycparser-2.21-py2.py3-none-any.whl (118 kB)
- ---------------------------------------- 118.7/118.7 KB 23.1 kB/s eta 0:00:00
- Installing collected packages: Wand, pycparser, Pillow, charset-normalizer, cffi, cryptography, pdfminer.six, pdfplumber
pdfplumber.open("路径/文件名.pdf",password="test",laparams={''line_overlap":0.7})
password:加载受保护的PDF,需要传递密码
laparams:要将布局分析参数设置为pdfminer.six的布局引擎
- import pdfplumber
-
- with pdfplumber.open("./1.pdf") as pdf:
- print(pdf)
- print(type(pdf))
.metadata:从PDF的info中获取元数据键/值对字典
.pages返回一个包含pdfplumber.Page实例的列表,每一个实例代表PDF每一页的信息
- import pdfplumber
-
- with pdfplumber.open("./1.pdf") as pdf:
- print(pdf.metadata)