获取PDF中的布局信息——如何获取段落

PDF解析是极其复杂的问题。不可能靠一个工具解决全部问题，尤其是五花八门，格式不统一的PDF文件。除非有钞能力。如果没有那就看看可以分为哪些问题。

提取文本内容，提取表格内容，提取图片。我认为这些应该是分开做的事情。python有一些组件，是有专长的。

问题分解以后，最重要的一个事情是，版面分析。怎么确定边界，就是哪一块是什么内容？是正文，还是表格，还是图片？

文本、图片及形状涵盖了常见的PDF元素，本文介绍利用PyMuPDF提取这些页面元素，及其基本数据结构。本文会提供可运行的代码！

一、技术选型 `PyMuPDF`

PyMuPDF的Textpage对象提供的extractDICT()和extractRAWDICT()用以获取页面中的所有文本和图片（内容、位置、属性），基本数据结构如下：

看到这里，有分类，有位置信息。

二、代码演示

2.1 安装

pip install PyMuPDF

2.2 demo代码


import fitz  # PyMuPDF
 
def extract_text_blocks(pdf_path):
    # 打开 PDF 文件
    pdf_document = fitz.open(pdf_path)
    
    # 存储文本块和行块信息
    text_blocks = []
    line_blocks = []
    
    # 遍历 PDF 中的每一页
    for page_number in range(len(pdf_document)):
        page = pdf_document.load_page(page_number)
        
        # 获取文本块和行块信息
        blocks = page.get_text("dict")["blocks"]
        for b in blocks:
            for l in b["lines"]:
                line_blocks.append({
                    "line": l["spans"],
                    "bbox": l["bbox"],
                    "height": l["bbox"][3] - l["bbox"][1]  # 计算行块的高度
                })
            text_blocks.append({
                "block": b["lines"],
                "bbox": b["bbox"]
            })
    
    # 关闭 PDF 文件
    pdf_document.close()
    
    return text_blocks, line_blocks
 
# 示例用法
pdf_path = "D:\\angus\\py\\困难pdf节选西藏奇正2022.pdf"
text_blocks, line_blocks = extract_text_blocks(pdf_path)
 
# 打印提取的文本块信息
for index, block in enumerate(text_blocks):
    print(f"Text Block {index + 1}:")
    for line_index, line in enumerate(block["block"]):
        print(f"  Line {line_index + 1}: '{line['spans']}' at position {block['bbox']}")
 
# 打印提取的行块信息
for index, line in enumerate(line_blocks):
    print(f"Line {index + 1}: '{line['line']}' at position {line['bbox']}, height={line['height']}")

三、效果展示

3.1 原文PDF内容

3.2 解析后得到的结果

3.3 分析原文和结果

对比输出的结果和原文。我们可以发现，我们拿到了行的数据，也拿到了段落的数据。上述的代码中已经给我们分好了块！这样解可以区分段落了。

3.4 获取更多信息，包括位置

来看一个文本块：

size: 文本的大小。
flags: 文本的标志。
font: 字体名称。
color: 字体颜色。
ascender: 文本的上升高度。
descender: 文本的下降高度。
text: 文本内容。
origin: 文本的起始位置坐标。
bbox: 文本的边界框坐标，即左下角和右上角的坐标。

通过这些信息，我们可以获取到每个文本块的具体内容、大小、位置和格式等信息。这些信息对于分析和处理 PDF 文件中的文本内容非常有用。例如，你可以根据文本的大小、位置和格式来识别标题、正文和其他内容，并进行相应的处理和分析。当然，就以这个文档为例，我们可以看到的是，因为文档本身字体大小都一样，所以很难根据字体和大小获取到标题。

四、错误问题

但是也发现了问题

4.1 段落有被分开了

原文

错误的问题如下

4.2 将表格错当成了文本内容

原文表格内容如下

解析得到的内容如下

表格的一行为一个块内容，

这里调试了一版，可以去掉表格。

逻辑是：判断相邻的block，表格的特征是，当个block内的 lines的 bbox的第四位是相同的。且相邻的block的lines一定是相同的，且lines不为空。逻辑本身没有问题，就怕PDF有问题，识别出来的表格的同一行的bbox中的第四位不一样，这样会错误判断！


import fitz  # PyMuPDF
 
def is_table_block(b1, b2):
    # 检查连续相邻的文本块是否具有相同的行数，并且其 bbox 的高度也相同
    if len(b1["lines"]) == len(b2["lines"]) and b1["bbox"][3] - b1["bbox"][1] == b2["bbox"][3] - b2["bbox"][1]:
        return True
    return False
 
def extract_text_blocks(pdf_path):
    # 打开 PDF 文件
    pdf_document = fitz.open(pdf_path)
    
    # 存储文本块信息
    text_blocks = []
    line_blocks = []
    
    # 遍历 PDF 中的每一页
    for page_number in range(len(pdf_document)):
        page = pdf_document.load_page(page_number)
        
        # 获取文本块和行块信息
        blocks = page.get_text("dict")["blocks"]
        for i in range(len(blocks)):
            if i < len(blocks) - 1 and is_table_block(blocks[i], blocks[i+1]):  # 如果是表格，则跳过
                continue
            for l in blocks[i]["lines"]:
                line_blocks.append({
                    "line": l["spans"],
                    "bbox": l["bbox"],
                    "height": l["bbox"][3] - l["bbox"][1]  # 计算行块的高度
                })
            text_blocks.append({
                "block": blocks[i]["lines"],
                "bbox": blocks[i]["bbox"]
            })
    
    # 关闭 PDF 文件
    pdf_document.close()
    
    return text_blocks, line_blocks
 
# 示例用法
pdf_path = "D:\\angus\\py\\困难pdf节选西藏奇正2022.pdf"
text_blocks, line_blocks = extract_text_blocks(pdf_path)
 
# 打印提取的文本块信息
# 用于检查两个文本块中的行是否相同
def check_lines_same(block1, block2):
    num_lines_block1 = len(block1["block"])
    num_lines_block2 = len(block2["block"])
    return num_lines_block1 == num_lines_block2
 
for index, block in enumerate(text_blocks):
    # 获取当前文本块中行的个数
    num_lines = len(block["block"])
    
    # 如果当前文本块是表格，则继续检查下一个文本块是否是表格
    if num_lines > 1 and index < len(text_blocks) - 1:  # 需要多于一行，并且不是最后一个文本块
        next_block = text_blocks[index + 1]
        if check_lines_same(block, next_block):
            # 如果下一个文本块也是表格，则跳过，不进行打印输出
            continue
    
    # 如果当前文本块不是表格，则打印输出
    print(f"Text Block {index + 1}:")
    for line_index, line in enumerate(block["block"]):
        print(f"  Line {line_index + 1}: '{line['spans']}' at position {block['bbox']}")
 
 
# 打印提取的行块信息
# for index, line in enumerate(line_blocks):
#     print(f"Line {index + 1}: '{line['line']}' at position {line['bbox']}, height={line['height']}")

4.3 解析丢失整行数据

测试了另外一个法律法规文件。

发现文件丢失了。原文件内容如下：

解析后的：

还没找到bug的原因。

五、升级版

解决了丢行的问题，因为代码bug，在判断表格的时候有问题。

解决了段落被分开的问题。解决思路是，判断两个段落之间，应该有空白分隔。如果两个块之间没有空白分隔，则为同一个段。

并将内容输出为json格式


import fitz  # PyMuPDF
import json
 
def is_table_block(b1, b2):
    # 检查连续相邻的文本块是否具有相同的行数，并且其 bbox 的高度也相同
    if len(b1["lines"]) == len(b2["lines"]) and b1["bbox"][3] - b1["bbox"][1] == b2["bbox"][3] - b2["bbox"][1]:
        return True
    return False
 
def extract_text_blocks(pdf_path):
    # 打开 PDF 文件
    pdf_document = fitz.open(pdf_path)
    
    # 存储文本块信息
    text_blocks = []
    line_blocks = []
    
    # 遍历 PDF 中的每一页
    for page_number in range(len(pdf_document)):
        page = pdf_document.load_page(page_number)
        
        # 获取文本块和行块信息
        blocks = page.get_text("dict")["blocks"]
        
        # 对当前页面内的文本块按照坐标进行排序
        blocks.sort(key=lambda x: (x['bbox'][3], x['bbox'][0]))
        
        for i in range(len(blocks)):
            for l in blocks[i]["lines"]:
                line_blocks.append({
                    "line": l["spans"],
                    "bbox": l["bbox"],
                    "height": l["bbox"][3] - l["bbox"][1],  # 计算行块的高度
                    "page_number": page_number + 1  # 记录页码信息
                })
            text_blocks.append({
                "block": blocks[i]["lines"],
                "bbox": blocks[i]["bbox"],
                "page_number": page_number + 1  # 记录页码信息
            })
    
    # 关闭 PDF 文件
    pdf_document.close()
    
    return text_blocks, line_blocks
 
def is_same_paragraph(line1, line2):
    # 判断相邻行是否属于同一个段落的逻辑
    # 这里提供一个简单的示例，你可以根据实际情况调整和扩展
    
    # 判断两行之间的垂直间距是否小于某个阈值
    vertical_threshold = 5  # 垂直间距阈值，根据实际情况调整
    if abs(line1['bbox'][3] - line2['bbox'][1]) < vertical_threshold:
        return True
    
    return False
 
# 示例用法
 
pdf_path = "D:\\angus\\py\\困难pdf节选西藏奇正2022.pdf"
text_blocks, line_blocks = extract_text_blocks(pdf_path)
 
# 用于检查两个文本块中的行是否相同
def check_lines_same(block1, block2):
    num_lines_block1 = len(block1["block"])
    num_lines_block2 = len(block2["block"])
    return num_lines_block1 == num_lines_block2
 
# 收集打印的 JSON
printed_json_list = []
 
for index, block in enumerate(text_blocks):
    # 获取当前文本块中行的个数
    num_lines = len(block["block"])
    
    # 如果当前文本块是表格，则继续检查下一个文本块是否是表格
    if num_lines > 1 and index < len(text_blocks) - 1:  # 需要多于一行，并且不是最后一个文本块
        next_block = text_blocks[index + 1]
        if check_lines_same(block, next_block):
            # 如果下一个文本块也是表格，则跳过，不进行打印输出
            continue
    
    # 如果当前文本块不是表格，则添加到打印的 JSON 列表中
    block_info = {
        "block_index": index + 1,
        "page_number": block['page_number'],
        "lines": [line['spans'] for line in block['block']],
        "bbox": block['bbox']
    }
    print(block_info)
    printed_json_list.append(block_info)
 
previous_json = None  # 用于记录上一个非空 JSON
 
for printed_json in printed_json_list:
    # 获取 lines 的最后一个对象
    last_line_array = printed_json["lines"][-1]
 
    # 获取最后一个对象中的最后一个对象
    last_object_in_last_line = last_line_array[-1]
 
    # 获取最后一个对象中的 text 字段的值
    text_value = last_object_in_last_line["text"]
    # 输出截取到的最后一个text值
    #print("text字段的取值为>>>>>>>>>>>>..:", text_value)
 
    if text_value.strip() == "":
        # 如果 text_value 为空，则打印当前 JSON
        if previous_json is not None:
            # 合并当前 JSON 到上一个非空 JSON 上
            previous_json["lines"].extend(printed_json["lines"])
            previous_json["bbox"] = [min(previous_json["bbox"][0], printed_json["bbox"][0]),
                                     min(previous_json["bbox"][1], printed_json["bbox"][1]),
                                     max(previous_json["bbox"][2], printed_json["bbox"][2]),
                                     max(previous_json["bbox"][3], printed_json["bbox"][3])]
            # 更新页码信息
            previous_json["page_number"] = printed_json["page_number"]
 
            print(json.dumps(previous_json, ensure_ascii=False))
             # 重置json
            previous_json = None
        else:
            print(json.dumps(printed_json, ensure_ascii=False))     
        
       
    else:
        # 如果 text_value 不为空，则合并当前 JSON 到上一个非空 JSON 上
        if previous_json is not None:
            # 合并当前 JSON 到上一个非空 JSON 上
            previous_json["lines"].extend(printed_json["lines"])
            previous_json["bbox"] = [min(previous_json["bbox"][0], printed_json["bbox"][0]),
                                     min(previous_json["bbox"][1], printed_json["bbox"][1]),
                                     max(previous_json["bbox"][2], printed_json["bbox"][2]),
                                     max(previous_json["bbox"][3], printed_json["bbox"][3])]
            # 更新页码信息
            previous_json["page_number"] = printed_json["page_number"]
        else:
            # 如果没有上一个非空 JSON，则将当前 JSON 赋值给上一个非空 JSON
            previous_json = printed_json

相关阅读:
中国企业出海应尽早把握海外社交媒体运营红利-出海传播趋势的言灵视角
 Vue-62、Vue技术路由守卫
 Git分布式版本控制工具
 Metric Similarity Joins Using MapReduce论文总结
 http概念
 数字样机的前世今生
 C语言数组和指针笔试题(二)(一定要看)
openmmlab教程2-MMCV使用
 Maven配置阿里云镜像
 【OJ比赛日历】快周末了，不来一场比赛吗？ #09.09-09.15 #15场
原文地址：https://blog.csdn.net/star1210644725/article/details/136365870