PDF是Portable Document Format的简称,意为“可携带文档格式”,是由Adobe Systems用于与应用程序、操作系统、硬件无关的方式进行文件交换所发展出的文件格式。
在python中有多个对应的库可以操作Pdf文件,其中最常用的是Pypdf2
PyPDF是一个操作pdf的模块,现在最常用的版本是PyPDF2;
需要注意的是,这个库不能操作pdf获取文字信息
PyPDF2 是一个纯 Python PDF 库,可以读取文档信息(标题,作者等)、写入、分割、合并PDF文档,它还可以对pdf文档进行添加水印、加密解密等操作。
使用pip包管理器安装PyPDF2最新版本:
pip install PyPDF2
编辑器推荐使用VSCode,启动VSCode,可以直接选择打开“终端”菜单,进行库的安装和程序的运行;非常的方便
PyPdf2中有两个模块,分别是:
1、使用PDFFileReader可以获取pdf文件的基本信息,还可以获取到每一页pdf并加载为PageObject对象;
from PyPDF2 import PdfFileReader #引入reader
pdf = PdfFileReader(input_path) #初始化一个reader对象,传入文件路径
infomation =