可移植文档格式,俗称 PDF,是现代最常用的数据存储格式,具有众多优势。文件及其数据的加密是保证信息安全的主要特征之一。但是,此功能在基于 AI 的自动化中成为一个障碍,您希望自动执行诸如文档识别、从 pdf 文档中提取有用信息等任务。
在 Quantrium,我们在我们的工资单数字化平台上工作时遇到了同样的问题,在该平台上,贷款申请人上传了加密的 pdf 工资单。
在本文中,我将讨论以下主题:
使用 Python 识别加密的 PDF。
一些 PDF 加密类型以及如何识别它们。
如何使用 Python 解密受密码保护的 PDF。
PDF 加密的类型
PDF加密主要有两种类型:
密码保护:受密码保护的 PDF 无法立即打开/查看,因为它已被锁定,因此需要密码才能解锁/打开。这是用于 PDF 文档的最常见的加密类型。
文本加密:您可以打开这些 PDF 并正常查看它们,但不能复制或编辑存储在 PDF 中的文本/数据以进行分析或任何其他用途。要识别这一点,如果您选择 PDF 文本并尝试将其复制到文本文档,您将无法粘贴所选文本。 一些 PDF 可能还实现了两种加密。现在,让我们讨论如何使用 Python 识别这些类型的 PDF 文档。
使用 Python 识别加密的 PDF
在这里,我们将使用一个名为 PyMuPDF 的模块,它是 Python 中强大的 PDF 处理和管理库之一。PyMuPDF 文档可以在这里找到。我们将使用相同的内置fitz模块来识别加密的 PDF。