• python-自动化篇-办公-将PDF文件转存为图片


    因工作中的某些奇葩要求,需要将PDF文件的每页内容转存成按顺序编号的图片。用第三方软件或者在线转换也可以,但批量操作还是Python方便,所谓搞定办公自动化,Python出山,一统天下;Python出征,寸草不生~ O(∩_∩)O

    不过这个需要用到PyMuPDF库,电脑运行cmd,输入“pip install PyMuPDF”安装即可。安装后通过import fitz导入模块。等等,为什么安装的是PyMuPDF,导入的是fitz?俺PyMuPDF就是这么任性,怎么的,爱用不用!哈哈,开个玩笑。其实是因为PyMuPDF曾用名fitz-python,所以只是fitz换了个马甲而已,呵呵。

    这里先导入fitz库,用于将PDF文件的页面提取成像素信息(图片)。再导入glob库,用于获取后缀为".pdf"的文件的文件名。os库可新建文件夹。

    #批量将PDF文件转为图片
    import fitz
    import glob
    import os
    
    image_path = "图片\\" #存放图片的文件夹
    PDFfiles = glob.glob("PDF文件\\*.pdf") #获取所有pdf文件的文件名
    for PDFfile in PDFfiles: #遍历所有PDF文件
        PDFdoc = fitz.open(PDFfile) #读取PDF文件
        folder_name = PDFfile.split("\\")[-1].split(".")[0] #按源文件名新建文件夹
        for pg in range(PDFdoc.pageCount): #根据PDF的页数,按页提取图片        
            page = PDFdoc[pg]
            #增强图片分辨率
            zoom_x = 3 #水平方向
            zoom_y = 3 #垂直方向
            mat = fitz.Matrix(zoom_x, zoom_y) 
            pix = page.getPixmap(matrix=mat)  
            #按原PDF名称新建文件夹并按顺序保存图片
            if not os.path.exists(image_path+folder_name):#判断文件夹是否已存在
                os.makedirs(image_path+folder_name)#不存在则新建,存在就跳过这行
            pix.writeImage(image_path+folder_name + "\\{}.png".format(str(pg+1))) #按PDF中的页面顺序命名并保存图片
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21

    以上,我们先将所有待处理的PDF文件放入“PDF文件夹”,然后通过glob.glob("PDF文件\\*.pdf")搜索并抓取所有以".pdf"为后缀的文件,并存入变量PDFfiles中。结果如下所示:

    PDFfiles
    
    • 1

    [‘PDF文件\6S稽查问题.pdf’, ‘PDF文件\收货记录.pdf’]

    然后,遍历PDFfiles中的所有PDF文件,使用fitz.open()读取。fitz.open()用于创建PDF文件中页面的像素映射(pixel maps),即用像素来表示页面信息。然后按PDF文件名命名一个新的文件夹,以便储存图片。比如给“收货记录.pdf”文件建一个名字为“收货记录”的文件夹,专门储存关于它的页面的图片。随后用for循环,根据PDF的页数,按页提取图片。将每页的信息存入page变量,它的type 是fitz.fitz.Page,即一页像素文件。为了让图片看起来更清晰,需要增强图片的分辨率,设定图片水平及垂直方向的增强倍数,传入MatrixMatrix用于提升即将保存的图片的分辨率,分辨率的提升倍数为zoom_xzoom_y的乘积。倍数越大,图片越清晰,当然占用空间也越大。这个参数可根据实际要求调整。然后将Matrix存入mat,传入getPixmap()getPixmap()用于控制图片分辨率、色域(比如生成灰度图像或带有减色方案的图像)、透明度、旋转、镜像、移位、剪切等。由于其它都不需要专门设定,所以只增强其分辨率。

    一页图片处理好后,就需要保存图片了。先通过os.path.exists判断一下需要的文件夹是否存在,若不存在就通过os.makedirs创建。然后用pix.writeImage按页码编号写入并保存图片。
    在这里插入图片描述

    准备

    pip install fitz
    在这里插入图片描述

    代码

    #!/usr/bin/env python
    # coding: utf-8
    
    # 因工作中的某些奇葩要求,需要将PDF文件的每页内容转存成按顺序编号的图片。用第三方软件或者在线转换也可以,但批量操作还是Python方便,所谓搞定办公自动化,Python出山,一统天下;Python出征,寸草不生~ O(∩_∩)O
    
    # 不过这个需要用到`PyMuPDF`库,电脑运行cmd,输入“pip install PyMuPDF”安装即可。安装后通过`import fitz`导入模块。等等,为什么安装的是`PyMuPDF`,导入的是`fitz`?俺`PyMuPDF`就是这么任性,怎么的,爱用不用!哈哈,开个玩笑。其实是因为`PyMuPDF`曾用名`fitz-python`,所以只是`fitz`换了个马甲而已,呵呵。
    
    # 这里先导入`fitz`库,用于将PDF文件的页面提取成像素信息(图片)。再导入`glob`库,用于获取后缀为".pdf"的文件的文件名。`os`库可新建文件夹。
    
    # In[12]:
    
    
    #批量将PDF文件转为图片
    import fitz
    import glob
    import os
    
    image_path = "图片\\" #存放图片的文件夹
    PDFfiles = glob.glob("PDF文件\\*.pdf") #获取所有pdf文件的文件名
    for PDFfile in PDFfiles: #遍历所有PDF文件
        PDFdoc = fitz.open(PDFfile) #读取PDF文件
        folder_name = PDFfile.split("\\")[-1].split(".")[0] #按源文件名新建文件夹
        for pg in range(PDFdoc.pageCount): #根据PDF的页数,按页提取图片        
            page = PDFdoc[pg]
            #增强图片分辨率
            zoom_x = 3 #水平方向
            zoom_y = 3 #垂直方向
            mat = fitz.Matrix(zoom_x, zoom_y) 
            pix = page.getPixmap(matrix=mat)  
            #按原PDF名称新建文件夹并按顺序保存图片
            if not os.path.exists(image_path+folder_name):#判断文件夹是否已存在
                os.makedirs(image_path+folder_name)#不存在则新建,存在就跳过这行
            pix.writeImage(image_path+folder_name + "\\{}.png".format(str(pg+1))) #按PDF中的页面顺序命名并保存图片
    
    
    # 以上,我们先将所有待处理的PDF文件放入“PDF文件夹”,然后通过`glob.glob("PDF文件\\*.pdf")`搜索并抓取所有以".pdf"为后缀的文件,并存入变量`PDFfiles`中。结果如下所示:
    
    # In[2]:
    
    
    PDFfiles
    
    
    # 然后,遍历`PDFfiles`中的所有PDF文件,使用`fitz.open()`读取。`fitz.open()`用于创建PDF文件中页面的像素映射(pixel maps),即用像素来表示页面信息。然后按PDF文件名命名一个新的文件夹,以便储存图片。比如给“收货记录.pdf”文件建一个名字为“收货记录”的文件夹,专门储存关于它的页面的图片。随后用`for`循环,根据PDF的页数,按页提取图片。将每页的信息存入`page`变量,它的type 是`fitz.fitz.Page`,即一页像素文件。为了让图片看起来更清晰,需要增强图片的分辨率,设定图片水平及垂直方向的增强倍数,传入`Matrix`。`Matrix`用于提升即将保存的图片的分辨率,分辨率的提升倍数为`zoom_x`与`zoom_y`的乘积。倍数越大,图片越清晰,当然占用空间也越大。这个参数可根据实际要求调整。然后将`Matrix`存入`mat`,传入`getPixmap()`。`getPixmap()`用于控制图片分辨率、色域(比如生成灰度图像或带有减色方案的图像)、透明度、旋转、镜像、移位、剪切等。由于其它都不需要专门设定,所以只增强其分辨率。
    
    # 一页图片处理好后,就需要保存图片了。先通过`os.path.exists`判断一下需要的文件夹是否存在,若不存在就通过`os.makedirs`创建。然后用`pix.writeImage`按页码编号写入并保存图片。
    # ![](result.png)
    
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38
    • 39
    • 40
    • 41
    • 42
    • 43
    • 44
    • 45
    • 46
    • 47
    • 48
  • 相关阅读:
    【Java面试八股文宝典之基础篇】备战2023 查缺补漏 你越早准备 越早成功!!!——Day10
    浅谈人工智能服务器和人工智能工作站的区别
    基于 YOLOV5 的 SAR 图像舰船检测
    Trino 387 Docker 部署配置数据源后不显示对应数据Catalog
    Flink 窗口分配器 WindowAssigner
    Linux系统编程·进程概念引入
    运维保障:智慧城市建设中的IT基础资源监控
    React状态与引用(Refs)- 差异和使用场景
    word2016版本中同时显示多个页面
    三万字盘点Spring/Boot的那些常用扩展点
  • 原文地址:https://blog.csdn.net/stqer/article/details/136138790