特定于文本的属性,如文本级布局和字符级细节在处理场景文本图像提升分辨率任务上也不容忽视。因此本文建立了一个聚焦文本的超分辨率框架,称为场景文本望远镜(STT)。在文本级布局方面,本文提出了一个基于Transformer的超分辨网络(TBSRN),包含一个自注意模块来提取序列信息,对任意方向的文本具有鲁棒性。在字符级的细节方面,本文提出了一个位置感知模块和一个内容感知模块来突出每个字符的位置和内容。通过观察一些字符在低分辨率条件下看起来难以区分,本文使用加权交叉熵损失来解决这个问题。
STT的总体架构如图所示。在Pixel-Wise Supervision模块(绿色虚线框)中,首先通过Spatial Transformer Network(STN)对低分辨率的文本图像进行校正,以解决错位问题。校正后的图像进入一系列基于Transformer的超分辨率网络(TBSRN),然后通过像素变换上采样到超分辨率的文本图像。在Position-Aware模块(红色虚线帧)中,以相应的HR图像作为参考,对HR图像和SR图像的注意图进行L1损失监督。Content-Aware模块(蓝色虚线框架)提供了关于内容的线索,并使用了一个加权的交叉熵损失来区分可混淆的字符。

提出了一个基于Transformer的超分辨率网络(TBSRN),它主要包含一个自注意模块和一个Position-Wise Feed-Forward模块。由于自注意模块可以关联特征映射中的任何像素对,因此它对处理任意方向的文本图像具有鲁棒性。每个TBSRN单元如图所示。经过STN校正后,将图像输入两个连续的cnn,提取一个特征图,并进一步发送到自注意模块,捕获序列信息。在这种情况下,我们将一个二维位置编码(PE)与特征映射连接起来。然后将特征图与Px和Py连接,并平展为一个一维序列,依次发送到自注意模块和Position-Wise Feed-Forward模块。然后,生成的特征映射的大小被重塑为与输入图像相同的大小。最后,进行像素变换生成SR图像。

为了避免场景文本图像中复杂背景的干扰,本文使用了一个位置感知模块来突出显示具有参考高分辨率图像的字符区域。
首先使用包括Syn90k和SynthText在内的合成文本数据集预训练一个基于Transformer的识别模型,然后利用其在每个时间步长的参与区域作为位置线索。给定一个 HR 文本图像,Transformer 输出一个注意力映射列表 AHR = (a1, a2, …, al),其中 ai 表示第 i 个时间步的注意力映射,l 是其文本标签的长度 . 利用字符之间经常有明显间隙的 HR 图像,我们利用它们的注意力图作为字符区域的标签。 生成的 SR 图像也被馈送到 Transformer 以获得另一个列表 ASR,其长度与 AHR 相同。
我们使用一个L1损失来监督以下两张注意力映射列表:

给定超分辨率的图像,本文使用一个预先训练过的 Transformer (与在位置感知模块中使用的 Transformer 相同)来预测一个文本序列。
有一些字符对在低分辨率条件下看起来很相似,这对于超分辨率过程来说是很困难的。为了解决这个问题,本文首先使用EMNIST训练一个变分自动编码器(VAE)来获得每个字符的二维潜在表示。


假设在时间步长t,预训练的Transformer 生成一个输出向量o={o1,o2,…,o|a|}。对于每个o∈R,值越大,识别模型越有可能预测当前时间步长的第i个字符。识别模型的最后几层可以分为三层,包括隐藏层、输出层和softmax层。

所有时间步长的内容损失LCON由
计算,其中yt表示第t个时间步长的真实值。给这种二维潜在空间表示,字符Ai和Aj之间的欧氏距离表示为dij。当i≠j时将它们的混淆系数cij设为1/dij。否则,当i=j时,我们将cij设为1,此时LCON等于普通的交叉熵损失。在时间步长t时,如果预测为Ai,而真实值为Aj,则梯度计算如下:

如果 Ai 和 Aj 看起来相似,则 cij 将是一个高值(即远大于 1),这会导致反向传播的数值梯度更高(即受到更多惩罚)。 与普通交叉熵损失相比,加权交叉熵损失会更加关注那些易混淆的字符。

lamda是超参数
在本文中,我们提出了一个聚焦文本的超分辨率模型,称为Scene Text Telescope,旨在挖掘文本特定的属性。所提出的主干被称为TBSRN,它利用自我注意机制来处理不规则的文本图像。位置感知模块和内容感知模块有助于模型更加注意每个字符的位置和内容,而不会带来额外的时间开销。此外,加权交叉熵损失减轻了由可混淆特征引起的差异。有了这些组件,生成的图像对于识别模型更容易区分。因此,该方法在低分辨率场景文本图像上采样方面具有良好的优越性。