(论文研读:基于深度学习的票据识别系统设计与实现,卞飞飞;)
基于回归文本框的文字检测算法受到一般物体目标检测方法启发,并在一般物体检测方法的基础上做出针对性的改进。从宏观角度看,文字检测属于一般物体目标检测,即将文字视为一类特殊目标。文字目标的特点在于:文字的长宽比大;文字目标尺度范围大;存在水平、多方向文字目标。针对文字目标的特点,研究者在一般物体目标检测算法的基础上做了针对性调整和改进,其中典型的工作如Text Boxes[18]、Text Boxes++[19]、EAST[20]等。
Text Boxes基于一般目标检测网络SSD[21]改进而来,如图2-1所示,Text Boxes采用多尺度输入,适应多尺度文本目标;设计长宽比较大的默认框,采用{1,2,3,5,7,10}六种长宽比比例;设计1×5尺寸卷积核,产生矩形感受野,更好的提取文字特征。Text Boxes++在Text Boxes基础上进一步改进,与Text Boxes直接预测默认框的位置偏移与长宽不同,Text Boxes++预测默认框的顶点坐标偏移,如图2-2所示,图中黄色框表示标注框,绿色虚线框表示与标注框匹配成功的默认框,红色箭头表示预测默认框的四个顶点的偏移,黑色虚线框表示未匹配到标注框的默认框,绿色实线框表示标注框的最小水平矩形包围框。通过回归默认框的四个顶点坐标,得到任意方向、任意角度的文本包围框,实现多方向文本检测,克服Text Boxes只能检测水平文本框的缺点。
基于回归文本框的文字检测算法由一般物体目标检测方法发展而来,适用于大部分文本检测任务,但同时存在缺点,如算法阶段多、后处理过程复杂、左右边界的字符容易漏检(如图2-4所示)。虽然这种漏检对检测精度没有影响,但对于后续的文字识别任务影响较大,左右字符的漏检导致整个单词识别错误,尤其是对于含有重要信息的金融票据,识别错误对后续数据的处理与使用将产生重大影响。因此,在票据文本检测算法的研究工作中,必须避免左右字符漏检的问题。
基于分割的文本检测算法将文本检测任务视为语义分割任务,即预测每个像素属于文本区域的概率,得到每个像素的分类结果,再利用后处理组合成文本区域,最终得到文本区域包围框。基于文本区域分割的方法可完成任意形状、任意方向、任意曲形文本的检测任务,且分割方式不会产生字符漏检情况,检测结果召回率高于基于回归文本框的方法。但基于分割的密集文本检测容易产生分割区域粘连问题,如图2-5所示:
如图2-5所示,密集文本分割存在区域粘连,导致一个文本框包围多个文本区域。对于粘连问题,直接的想法是建模文本区域间边界信息,通过边界信息区分不同文本实例,典型工作如DB[22]、Text Field[23]等。
Magnitude 重要性 大小
Fusion融合 融化
Visualization 形象化
目前基于深度学习的文字识别算法基本均由CRNN网络发展而来,票据文本识别算法主要还是基于CRNN网络,对CRNN网络做出针对性的改进,提高票据文本识别精度。
早期的票据文本识别工作主要基于传统文本识别方法,利用图像特征(如颜色特征、纹理特征、HOG特征、SIFT特征等)进行票据图片中字符的识别。吴畏等人[6]提出使用不同方法对票据图片上待识别区域的字符进行切分,提高票据识别系统的准确率和速度;朱辉等人[5]基于方向元素特征和数字模板,采用最小欧式距离分类器与模板匹配分类器融合的方式,在银行票据图片上数字字符识别率达到99.527%;张闯等人[4]提出利用支持向量机与神经网络相结合的方式,并对相似字进行二次识别,降低错误率,解决票据图片上手写数字识别问题;肖波等人[3]改进切分算法,解决覆盖、粘连等不确定位数的银行票据手写数字串切分问题,提高手写数字识别精度。
以卷积神经网络为代表的深度学习算法兴起后,基于深度学习的OCR研究工作大量涌现,在文档识别等领域取得卓越的成绩。由于票据识别属于文档识别领域,目前针对票据文本检测识别的研究工作较少,没有出现较为有效的深度学习方法。现有的票据文本识别研究工作是在自然场景文字检测识别的工作基础上发展而来,但票据图片上的文本有着与文档文本、自然场景文本不同的特点,且识别精度要求高。受到票据文本识别相关比赛[36]的影响,越来越多研究人员开始关注基于深度学习的票据文本检测与识别算法。Le
等人[7]提出基于深度学习的扫描票据识别方法,利用 x 轴与 y 轴的直方图提取扫描图片上的票据区域,使用
CTPN[26]方法检测票据文本并使用 CRNN[32]网络识别文本内容。
此外,部分工作研究文本检测与识别方法在票据识别系统中的应用,虞飞等人[2]在分析商业发票特点基础上,设计基于投影特性的识别算法,实现一种商业发票识别系统;张红云等人[1]提出一种基于票据数字定位、数字串分割算法的票据自动识别系统,为票据自动识别提供一条新途径。目前关于票据识别系统的研究工作较少,且现有的针对票据识别系统的研究停留在传统文本检测与识别算法,虽然有较高的精度,但鲁棒性较差。基于深度学习方法的票据识别系统的研究少之又少,因此,研究基于深度学习的票据识别系统具有较大价值和意义。