随着人工智能技术的不断发展,尤其是深度学习技术的广泛应用,多模态数据处理和大模型训练已成为当下研究的热点之一,这些技术也为文档图像智能处理和分析领域带来了新的发展机遇。
多模态大模型时代下的文档图像智能分析与处理的研究旨在通过运用多种数据类型,如文本、图像、音频等,并借助大规模深度学习模型的训练,来实现对文档图像内容的更加准确和全面的理解和分析。综合使用多模态数据训练大模型可以极大地提高文档图像处理和分析的效率和精度,进而推动相关行业的数字化转型和智能化升级。
在本节中,回顾来自中科院自动化研究所、北京大学、中科大的学术专家与合合信息等知名企业的研究者在中国图形图像大会 (CCIG 2023
) 关于文档图像分析与处理的相关分享,介绍在多模态大模型时代下文档图像智能分析与处理技术的最新进展和发展展望。
传统应用程序中,系统是通过使用程序员编写的复杂算法来实现智能化的。例如,假设我们希望识别照片中是否包含狗。在传统的机器学习 (Machine Learning
, ML
) 中,需要机器学习研究人员首先确定需要从图像中提取的特征,然后提取这些特征并将它们作为输入传递给复杂算法,算法解析给定特征以判断图像中是否包含狗:
然而,如果要为多种类别图像分类手动提取特征,其数量可能是指数级的,因此,传统方法在受限环境中效果很好(例如,识别证件照片),而在不受限制的环境中效果不佳,因为每张图像之间都有较大差异。
我们可以将相同的思想扩展到其他领域,例如文本或结构化数据。过去,如果希望通过编程来解决现实世界的任务,就必须了解有关输入数据的所有内容并编写尽可能多的规则来涵盖所有场景,并且不能保证所有新场景都会遵循已有规则。
传统机器学习的主要特点是以有限的特征集和显式规则为基础,从大量数据中学习模型,并利用学习到的模型对新数据进行预测或分类;主要方法包括:决策树、朴素贝叶斯分类、支持向量机、最近邻分类、线性回归、逻辑回归等,这些方法通常需要经过数据预处理、特征选择、模型训练和模型评估等一系列步骤,以达到更好的分类或预测效果。
传统机器学习的优点在于它们的理论基础比较成熟,训练和推理速度相对较快,并且可以适用于各种类型的数据,此外,对于一些小规模的数据集,传统机器学习方法的效果也相对不错。然而,传统机器学习方法也有相当明显的局限性,例如,由于传统机器学习方法依赖于手动选择的特征,因此难以捕捉数据中的复杂非线性关系;同时,这些方法通常不具备自适应学习能力,需要人工干预来调整模型。
神经网络内含了特征提取的过程,并将这些特征用于分类/回归,几乎不需要手动特征工程,只需要标记数据(例如,哪些图片是狗,哪些图片不是狗)和神经网络架构,不需要手动提出规则来对图像进行分类,这减轻了传统机器学习技术强加给程序员的大部分负担。
训练神经网络需要提供大量样本数据。例如,在前面的例子中,我们需要为模型提供大量的狗和非狗图片,以便它学习特征。神经网络用于分类任务的流程如下,其训练与测试是端到端 (end-to-end
) 的:
深度学习(Deep Learning
, DL
)是一类基于神经网络的机器学习算法,其主要特点是使用多层神经元构成的深度神经网络,通过大规模数据训练模型并自动地提取、分析、抽象出高级别的特征,经典的深度神经网络架构示例如下所示:
深度学习的优势在于它可以自动地从大量非结构化或半结构化的数据中学习,同时可以发现数据之间的隐含关系和规律,有效地处理语音、图像、自然语言等复杂的数据。常用的神经网络模型包括多层感知机 (Multilayer Perceptron
, MLP
)、卷积神经网络 (Convolutional Neural Network
, CNN
)、循环神经网络 (Recurrent Neural Network
, RNN
) 等。
深度学习目前已经广泛应用于图像识别、语音识别、自然语言处理等领域,如人脸识别、自动驾驶、智能客服、机器翻译等。虽然深度学习在很多领域取得了出色的成果,但是深度神经网络的训练和优化也存在一些难点和挑战,如梯度消失和梯度爆炸等问题,需要使用一系列优化算法和技巧来解决。
随着 ChatGPT
等大模型在自然语言处理和其他领域的广泛应用,大模型这一概念开始受到越来越多的关注。一方面,大模型在很多领域都取得了显著的成果,为人工智能技术的发展提供了强大的支撑。例如,在自然语言处理领域,大模型可以实现更精确、更快速的文本生成、机器翻译等任务;在图像识别领域,大模型可以实现更高准确性的图像分类和目标检测等任务。另一方面,随着硬件技术的不断进步和计算资源的逐步普及,大模型的应用也逐渐向更多的领域扩展。越来越多的企业和研究机构开始关注大模型的应用与研究。
多模态模型是一种能够同时处理不同类型数据的深度学习模型,它可以将来自不同来源、具有不同特征的数据进行有效整合,从而提供更全面、更准确的信息表示。目前,多模态模型在计算机视觉、自然语言处理、语音识别、推荐系统等领域中都得到了广泛应用。
多模态大模型时代是当前人工智能和机器学习领域所面临的一个新的阶段,主要特点是通过结合多种数据类型和使用超大规模的深度学习模型来处理和分析数据,从而取得更好的效果和性能,多模态大模型的发展主要得益于以下几个方面:
在文档图像智能处理和分析领域,随着多模态大模型的深入研究和发展,使得处理和分析具有多种类型和来源的数据变得更加容易和精确。例如,可以通过使用多模态信息(如文本、视觉和音频)来实现文档图像的内容理解和分类,并且可以使用大规模深度学习模型进行训练与推理,从而取得更好的效果和性能。
文档图像智能分析与处理是一种将图像和文本结合起来的技术,可以将图像中的文字识别为计算机可读的文本,并将其用于数据分析、信息检索、自然语言处理以及其他信息处理任务中,因此文档图像智能分析与处理在现实场景具有重要意义:
但目前,文档图像智能分析与处理过程中仍面临着诸多挑战:
文档图像智能分析与处理是图像图形技术研究的重要方向,为了推动相关研发和实践工作,中国图象图形学学会等专业组织及合合信息等人工智能企业长期关注文档图像智能分析、处理焦点议题。
2023
年 5
月 11-14
日,以“图象图形向未来”为主题的中国图象图形大会 (CCIG 2023
) 于苏州成功举办。为了推动文档图像智能分析与处理领域的技术交流及发展,中国图象图形学学会文档图像分析与识别专业委员会与合合信息共同打造了《文档图像智能分析与处理》高峰论坛
在 CCIG 2023
文档图像智能分析与处理论坛中,合合信息特别邀请了来自中科院自动化所、北大、中科大、华南理工大的学术专家与华为等知名企业的研究者们,分享了文档图像分析与处理及 OCR
领域的前沿技术报告,探讨了在多模态大模型时代下文档图像智能分析与处理领域的发展方向。在下一节中,我们将介绍论坛上多位大咖分享的文档图像智能分析与处理的前沿技术。
合合信息是行业领先的人工智能及大数据科技企业,深耕智能文字识别、图像处理、自然语言处理和大数据挖掘等领域,其研发的智能图像处理引擎提供多种图像智能处理黑科技,例如图像切边增强、PS 篡改检测以及图像矫正等,相关黑科技的体验可以登录合合信息官网。
文档图像智能分析与处理可以提取文档图像中的文本信息、图像信息等有用信息,从而实现分类、目标检测、文字识别、自动分析统计等多种应用,主要步骤包括:图像预处理、特征提取、文字识别和自动分析等。
在文档图像智能分析与处理高峰论坛上,来自合合信息的丁凯博士主要介绍了合合信息依托自研的智能文档处理技术,在解决工业界中面临的各类问题中所做一些相关工作进展和研究成果,并探讨当前工业界中面临的一些关键技术难题和挑战。
文档图像分析与预处理是指对文档图像进行预处理和分析,以便后续的自动文档识别或文本检索等任务能够更加准确、高效地进行,其主要包括以下一些步骤:
随着移动智能手机、便携相机等设备的逐渐普及,我们通常通过拍照实现纸质文档的数字化,以便进行纸质文档的存档、检索、共享、识别与分析等处理,文档数字化为我们日常的工作与生活带来了极大的便利。但由于相机的姿态、文档放置状态、文档自身变形等不确定因素,在使用移动设备采集文档照片时会出现角度和弯曲变形,这些原始的照片对于文档图像内容的自动提取与分析造成了不利影响,因此需要进行一定的形变矫正处理。对文档图片进行形变矫正还原,对于文档内容的还原有着极大地帮助。
现有基于深度学习的矫正方法主要关注于紧密裁剪的文档图像,而忽视存在大环境边界的文档图像和没有环境边界的文档图像。为了解决这一问题,合合信息提出了新的矫正方法 Marrior
,Marrior
采用渐进式的矫正方式来逐步提高矫正性能。具体而言:先利用分割结果进行环境边缘去除获得初步矫正结果,再通过预测偏移场迭代式地优化该初步结果。模型包含两个子模块:边界去除模块和迭代式内容矫正模块,架构如下所示:
合合信息图像矫正可以智能定位图像中文档主体的边缘,并进行背景切除 (文档提取),对形变文档进行矫正,主要包括角度矫正和弯曲矫正两种复杂的矫正,体验地址:合合信息图像矫正。在下图中,可以看到利用合合信息图像矫正功能能够将图像恢复至正面垂直拍摄的效果,解决了文档图像变形矫正算法抗干扰性差、矫正效果不佳等问题。
智能手机、数码相机等设备为我们提供了快速记录信息的机会,已经逐渐成为人们日常生活中必不可少的工具。但是,使用数码相机拍摄文档时容易出现阴影,而在拍摄电子屏幕时会照片中出现令人反感的屏幕纹。这些问题不仅严重降低了图像的质量,并且也会影响到我们后续的分析和处理,因此我们需要利用图像恢复技术恢复图像质量。
由于屏幕纹对重复结构的轻微变换具有极度敏感性,因此图像结构的多样性导致屏幕纹也具有复杂性和不规则性,屏幕纹的消除一直以来都是具有极具挑战性的任务。传统高斯、双边等滤波方式对屏幕纹的抑制效果不佳,而专门针对屏幕纹消除的工作目前仍然较少。不同于去噪点或去马赛克等图像修复问题,由于摩尔纹在频率、形状、颜色等方面的巨大变化,从被摩尔纹扰动的图像中恢复出原始干净图像仍然是一个未解决的问题。去除摩尔纹是文档图像处理中颇具挑战性的任务,也是合合信息在智能文字识别领域里创新技术应用之一,其模型架构如下所示:
合合信息图像去屏幕纹可以有效去除拍摄屏幕的图像中的摩尔纹,在保留图像原始颜色、纹理、字迹细节的同时,得到更高清的图像,体验地址:合合信息图像去屏幕纹。
可以看到合合信息图像去屏幕纹功能能够高效的完成图像恢复任务,最大程度的恢复被屏幕纹污染的屏摄照片,能够去除所有样式的屏幕纹,并且能够保证图片细节信息完整,便于我们后续对图像进行进一步的分析。
手写板反光是在使用电子手写板时,由于表面反光或者暴露在强烈的光源下,导致写下的文字或图像无法清晰显示和识别的问题。反光问题会影响手写板的使用体验和准确度,如果不加以处理,反光甚至可能会使得书写或绘画结果无法被识别。为了解决这些问题,合合信息技术团队使用以下网络架构实现手写板反光擦除:
使用以上架构可以识别和消除反光区域,得到清晰图像,反光擦除效果如下图所示:
版面分析与还原是一种将印刷品或电子文档中的内容进行识别和分析,重新生成文档结构和版面设计的技术。它可以在文本、图形和表格等复杂元素之间建立关联性,进而实现自动化文档处理和排版。具体而言,版面分析与还原的主要任务包括:
Optical Character Recognition
, OCR
) 技术将文本从图像中提取出来版面分析与还原技术可以应用于自动化文本排版、电子书制作、期刊杂志制作等领域。它可以大幅缩短排版时间和成本,提高生产效率和质量,并且解决了传统排版中可能出现的人为错误和疏漏问题。
合合信息提出的版面分析与还原系统如上图所示,该系统综合了文字检测识别、版面元素检测识别、图层分离、排版布局等一系列深度学习模型,并通过合理的方式糅合各个模块,并搭配文档渲染引擎,最终生成可供用户编辑修改的 Word/Excel
文档。合合信息版面还原模型的效果如下所示:
来自华为云 AI
算法研究员的廖明辉在论坛上介绍了华为云在 OCR
技术上的研究进展,包括文字识别自监督预训练模型以及局部场景文字检索。
现有的文字识别方法通常需要大规模的训练数据,由于缺乏注释的真实图像,大多数文字识别模型依赖于合成训练数据。然而,合成数据和真实数据之间存在一定差距,这限制了文本识别模型的性能。自监督文本识别模型通过引入对比学习来利用未标记的真实图像,对比学习主要学习文本图像的判别。
受人类通过阅读和写作学习识别文本的启发,廖明辉等人将生成式自监督模型引入文字识别模型,将对比学习和掩码图像建模集成到一个统一的模型中。采用对比学习分支来学习文本图像的判别,模仿人类的阅读行为;同时,将掩蔽图像建模用于文本识别,以学习文本图像的上下文生成,模仿人类的写作行为。
场景文本检索旨在定位和搜索图像库中与给定查询文本相同或相似的所有文本实例,通常是通过将查询文本与由端到端场景文本检测器输出的识别单词进行匹配来实现的。
廖明辉等人通过直接从自然图像中学习查询文本和每个文本实例之间的跨模态相似性来解决此问题,利用多示例学习实现局部特征的匹配和学习,构建了一个端到端的可训练网络共同优化场景文本检测和跨模态相似性学习。通过特征共享,跨模态相似性学习为多示例学习提供基本的相似性度量能力;多示例学习能更充分利用包数据,从而加强整个模型相似性度量的能力。
在 CCIG 2023
文档图像智能分析与处理论坛中,中国科学院自动化研究所的副所长刘成林分享了有关大模型时代的文档识别与理解。文档识别研究可以追溯到 1920
年代,经历了纯光学阶段、字符识别方法探索与应用、简单结构文档分析与识别、复杂文档分析与识别等阶段,到今天的以深度学习主导的文档复杂内容识别阶段,不仅能够识别结构化文档,同时对于自由手写文档和自由格式表格也有着较高的识别准确率。
文档分析于理解技术涉及图像处理(文档预处理、图像增强、图像校正、二值化等)、版面分析(区域分割、区域分类、文本定位、表格分析等)、内容识别(文本识别、图形/符号识别、风格鉴定等)和语义提取(结构理解、文档检索、语义分析等)等过程。总体上,当前文档识别与理解研究向深度、广度扩展,处理方法全面转向深度神经网络模型和深度学习方法,识别性能大幅提升且应用场景不断扩展。但当前技术在可靠性、可解释性、自适应性等方面还有明显不足,在复杂环境和问题中识别精度仍待进一步提升。
针对目前文档识别与理解技术遇到的问题,结合 ChatGPT
、GPT-4
等大模型带来的超强的语言联想能力和跨模态特征提取和对齐能力,刘成林等人提出了多模态大模型时代新的研究问题和方向,具体包括:
视觉-语言任务是典型的跨模态机器学习任务,通过将图像或视频与语言结合起来,进行联合分析、理解和处理,主要应用包括:视觉问答 (Visual Question Answering
),将自然语言问题与图片相结合,模型输出相应的文本答案;图像字幕生成 (Image Captioning
),利用图像生成与自然语言处理技术,将输入的图片转换成文本简介或描述;交互式图像生成 (Interactive Image Generation
),利用用户输入的文字,生成对应的图像;跨媒体检索 (Cross-modal Retrieval
),通过图像查询自然语言或者通过自然语言查询图像集合中相关的图像,等等。
来自北京大学的邹月娴教授分享了团队在视觉-语言预训练模型及迁移学习方法的研究进展,基于适配器的视觉-语言预训练 (Vision-Language Pre-training
, VLP
) 迁移学习方法,保留了 VLP
模型的先验知识,获得了优异的少样本能力。并且提出了在 GPT
时代,预训练模型研究应当深入探索迁移模型、因果推理、模型组合和可靠性等方面。
文字、图像都是信息传递的载体,在现代社会中被广泛使用。但是,恶意的伪造活动会对信息的真实性和可信度造成威胁。资质证书、文案、聊天截图等文本图像的伪造被用于散播谣言、经济诈骗、编造虚假新闻等,会对个人和社会造成恶劣的负面影响。
目前,图像篡改生成与检测的研究多集中在自然图像上,对于文本图像篡改生成和检测的相关研究较为缺乏。因此,应该进一步开展文本图像篡改检测的研究,以有效地保护文本图像的真实性和安全性。随着基于深度学习的伪造与取证技术的出现,文本图像的真伪鉴定问题进入攻防博弈阶段。
篡改文档图像生成是指对场景图像中的指定文本进行编辑,在保留原始字体风格和背景纹理的同时,使目标文本尽可能清晰、容易辨认,在拍照翻译和隐私保护等场景中有着重要用途。
篡改文档图像生成面临多种挑战,包括字体多样性(图像中通常包含多种字体,同时字符大小和颜色也并不像相同)、语言多样性(不同语言字形结构不同)和背景多样性(背景纹理复杂多样,准确重建背景纹理较为困难)等。为了解决这些问题,研究人员已经提出了多种模型:
模型 | 原理 | 优点 | 缺点 |
---|---|---|---|
EnsNet | 引入条件生成对抗网络,在没有任何先验知识的情况下对单个图像进行端到端操作 | 模型简单,提出文本擦除基本解决思路 | 对复杂文本图像擦除效果较差 |
EraseNet | 利用文本感知分支提升网络对文本区域的捕捉能力,引入 SN-Patch-GAN 用于保持擦除区域的训练稳定性和一致性 | 引入多级擦除策略,擦除效果提升明显 | 网络结构相较复杂,模型参数量较大 |
CTRNet | 以低维结构信息和高维上下文特征作为先验知识指导文本擦除和背景重建过程 | 引入多维语义先验用于指导文字擦除和背景重建,针对复杂背景效果好 | 依赖于 GAN 损失,训练过程相对复杂 |
SRNet | 将文本部分和背景部分的生成方法分开学习,然后通过融合算法生成篡改图像 | 模型简单,对简单文本图像具有较好的篡改效果 | 对复杂背景的文本图像篡改效果较差,对复杂字型有较重篡改痕迹 |
SwapText | 对目标文本形状先进行 Thin-Plate-Spline 变换,降低目标风格文本的合成难度 | 对于曲形文本的篡改效果较好 | 网络对整幅图像块进行编辑,存在对非文本区域的过度篡改 |
TextStyleBrush | 基于 StyleGAN 以不同分辨率和内容的示例风格为条件,采用自我监督训练使用预训练的字体分类器和文本识别器来保留源风格和目标内容 | 能够用于篡改真实数据集 | 网络结构复杂,模型难以收敛 |
但是,以上模型需要文本风格图像的监督,使其只能在合成数据集上训练,由于合成数据集与真实数据集存在差异,导致网络在真实场景下的篡改效果不佳;同时,这些模型都是对图像块的所有像素点进行编辑,并未区分前景和背景区域,存在对非文本区域的过度篡改。
为了简化篡改文本生成网络,去掉不必要的监督过程,并且能够针对性地进行篡改,仅对文字区域进行编辑操作,以避免对非文本区域的过度篡改,来自中国科学技术大学的谢洪涛教授分享了团队在篡改文本图像生成方面的研究进展,针对篡改文本图像生成质量差的问题,从文本图像擦除的角度考虑文本擦除彻底性和背景纹理完整性,并结合通用的篡改生成框架提出基于笔迹的场景文本图像篡改生成算法。
文档图像篡改检测任务会检测文本图像中所有文本实例,并在此基础上对文本真伪性进行鉴别,包含文本定位和文本真伪性鉴别两个步骤。但通常,篡改文本和真实文本具有相同的语义(文本位置、几何结构),仅在局部纹理中存在一定差异;并且,高质量的篡改文档图像数据获取困难,导致篡改文本检测网络很难在小规模样本下学到具有区分力的篡改特征。
传统的文档图像篡改检测方法通常基于文档内在特性或图像局部纹理特征,这类方法鲁棒性和扩展性较差,为了解决这些问题,将深度学习相关技术引入文档图像篡改检测模型:
模型 | 原理 | 优点 | 缺点 |
---|---|---|---|
全卷积分割 | 将篡改文档检测任务视作二分类语义分割任务,使用全卷积网络直接分割出篡改文本所在的区域 | 能够产生像素级的预测结果,定位信息更加精确 | 未考虑语义分割和篡改文档检测任务间的差异,仅在空域上提取篡改纹理难度较高 |
双流特征提取 | 在特征编码器中,除了使用空域上提取的特征,额外建立了上下文特征提取分支,通过捕获像素上下文间的差异性以辅助判断篡改区域 | 建立关系流提取上下文信息,对局部篡改纹理的辨别能力较强 | 未考虑文本内容的纹理特点,同时建模文本和篡改特征需要依赖大量数据 |
数据生成与频域信息提取 | 使用与目标文字属性相似的字体或文档内其他相似的文字进行篡改;提出频域感知头,同时在空域和频域上提取篡改痕迹,并通过融合双域特征提升检测性能 | 构建 DocTamper 大规模数据集提供数据支撑;引入频域信息捕获篡改造成的频域纹理不连续 | 独立设计网络结构,无法继承常规文本检测器对文本特征提取的有效性 |
中国科学技术大学的谢洪涛教授带领团队提出了通用篡改文本检测器,他们认为篡改文本检测是多分类目标检测任务,不应只拟合篡改文本区域,并考虑了篡改文本检测器应该继承场景文本检测器对文本检测的有效性以及如何构建低数据量依赖的篡改文本检测器。基于以上目标,提出了从一般场景文本检测器向篡改文本检测器的网络修改策略,并基于频域的特征提取器降低网络对数据量的依赖性。
合合信息高级工程师丁凯分享了合合信息在文档图像篡改检测方面的最新进展,融合SRM、BayarConv、ELA等方法提升 CNN Tamper Detector
性能,检测 RGB
域和噪声域存在痕迹的篡改,例如擦除、擦除重打印文本、重打印文本、复制、移动、拼接等,网络架构如下所示:
文档图像篡改检测技术对维护信息的真实性和可信度至关重要,即使对于人眼而言无法察觉的微小篡改痕迹,利用合合信息的文档图像篡改检测系统的“火眼金睛”仍然可以准确的让其原形毕露,体验地址:合合信息篡改检测。
多模态大模型时代下的文档图像智能分析与处理仍存在一些挑战和问题,例如模型的复杂度和训练难度、数据来源和质量的限制等。未来的研究需要进一步探索和解决这些问题,以使文档图像智能分析与处理技术能够用于更加广泛的实际场景中。
在多模态大模型时代,文档图像智能分析与处理的发展前景更加广阔,通过将不同的模态(文字、图像、声音等)进行融合,从而提高处理效率和准确性,使得文档图像智能分析与处理领域具有了更多的应用场景:
总之,在多模态大模型时代下,文档图像智能分析与处理的发展前景更加广阔。随着新技术的不断涌现和应用场景的不断扩大,文档图像智能分析与处理将成为大数据时代中不可或缺的一部分。
多模态大模型技术可以更好地融合不同形式的信息,例如文字、图像、声音等等,从而为文档图像智能分析与处理领域带来了更高效、更精准的处理方法。在本节中,介绍了文档图像智能分析与处理以及文档图像安全分析的前沿技术,并介绍了多模态大模型对文档图像智能分析与处理的影响,最后,对文档图像智能分析与处理的发展前景进行了展望。