• 【OCR】合同上批量贴印章


    【OCR】【专题系列】二、数据获取-合同数据合成方法

    目录

    一、需求

    二、原理实现      

    2.1 随机印章样式

     2.2 随机印章位置角度

    2.3 随机合同样式

    三、秀效果


    一、需求

            OCR算法在处理合同等文件时,会由于印章等遮挡导致文本误识别。因此在OCR预处理时,有一个很重要的步骤是“去除印章”。其中本文主要聚焦在“去除印章”任务中的数据构建步骤:“合同+伪印章”的数据构建。下面直接放几张批量合成后效果。

    二、原理实现      

            合成合同印章的步骤有三个“随机”需要控制。1.印章样式需要“随机”;2.印章“随机”角度、位置贴在合同上的;3.合同版面色泽需要“随机”。

    2.1 随机印章样式

            我采用的是第三方接口,这里借鉴了这位大佬方法二的思路:【Python】实现公章自动化生成以及自动盖章效果-CSDN博客,实现批量生成。主要的调用思路是,通过调用第三方印章生成网址跑批生成。

    1. def func_get_stamp_png(name,use,seal_type):
    2. # 定义API的地址
    3. out_put_name = os.path.join(seal_output_path,name+".png")
    4. url = "http://www.yinzhang8.com.cn/seal/index.php?name={}&str={}&type={}".format(str(name),str(use),str(seal_type))
    5. # 发送HTTP请求
    6. response = requests.get(url)
    7. assert response.status_code == 200
    8. assert 1<=types<=4
    9. # 将返回的二进制数据保存为本地文件
    10. with open(out_put_name, "wb") as f:
    11. f.write(response.content)

    然而第三方网址需要公司名,这里我采用的是faker库,随机生成公司名然后去调用跑批。代码如下。这里公司长度一般在[8,11]字长范围较合适

    1. #批量随机生成公司名
    2. def get_faker_company(self,n,control_len):
    3. # 一般公司名的字长范围为,限制 control_len = [8,11]
    4. from faker import Faker
    5. my_fake = Faker("zh-CN")
    6. comany_list = set()
    7. while len(comany_list) < n:
    8. tmp_company = my_fake.company()
    9. if control_len[0]<=len(tmp_company)<=control_len[1]:
    10. comany_list.add(tmp_company)
    11. return list(comany_list)

     2.2 随机印章位置角度

            在贴上合同的时候,需要用PIL的paste函数中的position来实现控制位置,随机角度需要采用PIL.Image库首先将印章完成旋转,然后再贴上去。部分代码如下。

    1. # 随机选择一个倾斜角度
    2. angle = random.randint(-15, 15)
    3. watermark = watermark.rotate(angle)
    1. # 计算印章可以放置的位置范围
    2. x_range = [int(doc_width * 0.2),int(doc_width * 0.8)]
    3. y_range = [int(doc_height * 0.5),int(doc_height * 0.9)]
    4. # 随机选择一个位置
    5. x_position = random.randint(x_range[0], x_range[1])
    6. y_position = random.randint(y_range[0], y_range[1])
    7. watermark = watermark.resize((int(doc_width*0.1),int(doc_height*0.1)))
    8. # 将水印添加到基本图像
    9. base_image.paste(watermark, (x_position,y_position), watermark)

    2.3 随机合同样式

            这部分考虑到,由于是做图像复原任务,所以在torch里做比较好,对image和label做同一个转换,就能保持图像前后的一致性。

    三、秀效果

            随便贴张图,展现效果。全部源码传送门:coming soon。

  • 相关阅读:
    LBA逻辑区块地址
    Mysql中常见的锁
    队列与堆栈:原理、区别、算法效率和应用场景的探究
    编译原理——自上而下分析与递归下降分析构造(笔记)
    C语言 —— 指针
    c++面向对象
    自动化RPA大纲
    Linux之使用LAMP搭建私有云存储
    程序员的自我修养
    前后端数据交互与HTTP协议
  • 原文地址:https://blog.csdn.net/weian4913/article/details/133695000