




整体使用的损失函数如下:
L
=
L
det
+
L
r
e
c
.
(1)
\mathcal{L}=\mathcal{L}_{\text {det }}+\mathcal{L}_{\mathrm{rec}}. \tag1
L=Ldet +Lrec.(1)
本文提出了一个仅包含两层卷积的轻量级检测头(见图6)来完成文本检测任务。
该检测头同时预测:

通过PA算法将文本区域、文本内核和实例向量进行融合,得到最终的检测结果(见图7)。

图8是测试阶段。

文本检测部分的损失函数如下:
L
det
=
L
tex
+
α
L
k
e
r
+
β
(
L
a
g
g
+
L
dis
)
.
(2)
\mathcal{L}_{\text {det }}=\mathcal{L}_{\text {tex }}+\alpha \mathcal{L}_{k e r}+\beta\left(\mathcal{L}_{a g g}+\mathcal{L}_{\text {dis }}\right). \tag2
Ldet =Ltex +αLker+β(Lagg+Ldis ).(2)
L
tex
=
1
−
2
∑
i
P
tex
(
i
)
G
tex
(
i
)
∑
i
P
tex
(
i
)
2
+
∑
i
G
tex
(
i
)
2
.
(3)
\mathcal{L}_{\text {tex }}=1-\frac{2 \sum_{i} P_{\text {tex }}(i) G_{\text {tex }}(i)}{\sum_{i} P_{\text {tex }}(i)^{2}+\sum_{i} G_{\text {tex }}(i)^{2}}. \tag3
Ltex =1−∑iPtex (i)2+∑iGtex (i)22∑iPtex (i)Gtex (i).(3)
P
tex
(
i
)
P_{\text {tex }}(i)
Ptex (i)和
G
tex
(
i
)
G_{\text {tex }}(i)
Gtex (i)分别指分割结果中第
i
i
i个像素的值和文本区域的真实值。
L
k
e
r
=
1
−
2
∑
i
P
k
e
r
(
i
)
G
k
e
r
(
i
)
∑
i
P
k
e
r
(
i
)
2
+
∑
i
G
k
e
r
(
i
)
2
.
(4)
\mathcal{L}_{k e r}=1-\frac{2 \sum_{i} P_{k e r}(i) G_{k e r}(i)}{\sum_{i} P_{k e r}(i)^{2}+\sum_{i} G_{k e r}(i)^{2}}. \tag4
Lker=1−∑iPker(i)2+∑iGker(i)22∑iPker(i)Gker(i).(4)
P
k
e
r
(
i
)
P_{k e r}(i)
Pker(i)和
G
k
e
r
(
i
)
G_{k e r}(i)
Gker(i)分别指文本核预测中的第
i
i
i个像素值和真实值。
L
a
g
g
=
1
N
∑
i
=
1
N
1
∣
T
i
∣
∑
p
∈
T
i
D
1
(
p
,
K
i
)
,
D
1
(
p
,
K
i
)
=
ln
(
R
(
∥
F
(
p
)
−
G
(
K
i
)
∥
−
δ
a
g
g
)
2
+
1
)
.
(5)
L
d
i
s
=
1
N
2
∑
i
=
1
N
(
D
b
(
K
i
)
+
∑
j
=
1
j
≠
i
N
D
2
(
K
i
,
K
j
)
)
,
D
b
(
K
i
)
=
1
∣
B
∣
∑
p
∈
B
ln
(
R
(
δ
d
i
s
−
∥
F
(
p
)
−
G
(
K
i
)
∥
)
2
+
1
)
,
D
2
(
K
i
,
K
j
)
=
ln
(
R
(
δ
d
i
s
−
∥
G
(
K
i
)
−
G
(
K
j
)
∥
)
2
+
1
)
.
(6)
本文提出了一个不规则文字特征提取器Masked RoI和一个基于注意力机制的轻量级识别头来完成文本识别任务。

文本识别使用的损失函数如下:
L
r
e
c
=
1
∣
w
∣
∑
i
=
0
∣
w
∣
CrossEntropy
(
y
i
,
w
i
)
.
(7)
\mathcal{L}_{r e c}=\frac{1}{|w|} \sum_{i=0}^{|w|} \operatorname{CrossEntropy}\left(y_{i}, w_{i}\right). \tag7
Lrec=∣w∣1i=0∑∣w∣CrossEntropy(yi,wi).(7)