表单识别中存在的问题:
- 表单背景复杂多样,表格图像会受到背景、光照等因素的影响,表单目标域背景相分离就会显得十分重要,同时,背景与目标相分离也十分困难。
- 表单上内容复杂:表单尺寸不一、字体多样、语种多样,不仅包括:汉字、字符及其特殊字符,有些表单中甚至有图像或者表格。
需要考虑的问题:
扫面文件,一般都会对原图进行自动校正,预处理阶段就可以减少很多操作;
拍摄的照片:会存在图像扭曲,文字弯曲等多种情况;
- 表单背景:是否有背景,有背景需要进行背景分离;没有背景:直接进行识别;
- 表单中的结构是否多样;
- 表单内容类型:语种,汉字,字符,特殊字符,领域专业术语;是否有手写体;
一般的字符识别相对要简单:英文、数字结构简单,数量少;
汉字识别较为困难:汉字类型复杂切庞大,目前对于6000多个常用汉字以及能够较好识别。
- 表单内容中是否有表格:是否需要进行表格结构识别;
- 表单中是否有图像:是否需要图像目标检测;
分类:
也就是表格识别,包括:OCR与表格识别。按照表格识别来进行处理;OCR主要分为:文本检测与文本识别;
可以单纯看做OCR,也就是只包括:文本检测与文本识别;