一种场景文字检测的方法和装置与流程

文档序号:30992478发布日期:2022-08-03 02:33阅读:101来源:国知局
一种场景文字检测的方法和装置与流程

1.本发明涉及图像文字处理领域,尤其涉及一种场景文字检测的方法和装置。


背景技术:

2.场景文字检测技术具有广泛的应用前景,例如可以用于辅助无人驾驶系统获得实时的路况和地理信息。
3.目前场景文字检测的方法主要包括以下两种:一种是基于回归的方式,通过预测候选文字框与实际文字框之间的偏移量,得到水平框、带方向的矩形框或四边形框,但该方式在不适用于检测不规则形状的文字;另一种是基于分割的方式,利用全卷积网络逐个判别图像中的像素点的属于文字区域还是非文字区域,但该种方式难以将紧邻的文字区域分开,降低检测的准确性。


技术实现要素:

4.有鉴于此,本发明实施例提供一种场景文字检测的方法和装置,能够有效分离文字区域中的紧邻的场景文字,且能够解决不规则形状和方向的场景文字的检测问题,提升检测的性能。
5.为实现上述目的,根据本发明实施例的一个方面,提供了一种场景文字检测的方法,包括:
6.获取待检测图像,所述待检测图像中包含文字区域;
7.确定所述文字区域的文字中心线图和方向距离图;
8.根据所述文字中心线图和所述方向距离图,确定所述文字区域的文字轮廓;
9.其中,所述文字中心线图是根据所述文字区域的文字中心线构成的,所述方向距离图是采用极坐标的方式回归所述文字中心线上的点沿多个预设方向到达所述文字轮廓边缘的距离得到的。
10.可选地,确定所述文字区域的文字中心线图和方向距离图之前,包括:
11.获取图像数据训练集,其中,所述图像数据训练集中的图像数据训练样本中包含文字区域;
12.构建网络结构并为所述网络结构构建多任务损失函数;
13.利用所述图像数据训练集对所述网络结构进行训练,直至所述多任务损失函数的值达到预设条件,获得场景文字检测模型。
14.可选地,所述多任务损失函数包括分割损失函数和回归损失函数,所述分割损失函数为基于预测的和真实的文字中心线图构造的,所述回归损失函数为基于预测的和真实的方向距离图构造的;
15.所述确定所述文字区域的文字中心线图和方向距离图,包括:
16.将所述待检测图像输入到训练好的所述场景文字检测模型中,预测得到所述待检测图像对应的文字中心线图和方向距离图。
17.可选地,所述将所述待检测图像输入到训练好的所述场景文字检测模型中,预测得到所述待检测图像对应的文字中心线图和方向距离图,包括:
18.根据所述场景文字检测模型,提取所述待检测图像的特征并进行特征融合,获得融合特征图;
19.根据所述融合特征图和所述场景文字检测模型,预测得到所述待检测图像对应的文字中心线图和方向距离图。
20.可选地,根据所述文字中心线图和所述方向距离图,确定所述文字区域的文字轮廓,包括:
21.根据文字中心线图中所述文字中心线上相邻的点聚合形成连通区域;
22.确定所述连通区域上的各个采样点;
23.根据所述采样点和所述方向距离图,确定与每个所述采样点对应的方向点;
24.根据各个所述采样点的方向点,确定所述文字区域的文字轮廓。
25.可选地,确定所述连通区域上的各个采样点,包括:
26.确定所述连通区域的最小旋转外接矩形;
27.对所述矩形进行n等分,形成n-1条垂线;其中,n为大于1的整数;
28.以每条垂线与所述连通区域的交线的中点作为所述采样点。
29.可选地,提取所述待检测图像的特征并进行特征融合,获得融合特征图,包括:
30.通过骨干网络对所述待检测图像进行特征提取,获得多个不同尺度的特征图;
31.将多个不同尺度的特征图融合,获得所述融合特征图。
32.可选地,通过骨干网络对所述待检测图像进行特征提取,获得多个不同尺度的特征图,包括:通过骨干网络的多个卷积模块提取待检测图像的特征,获得多个不同尺度的深层特征图和浅层特征图;
33.将多个不同尺度的特征图融合,获得所述融合特征图,包括:采用标准卷积和多个不同空洞率的空洞卷积网络对多个所述深层特征图进行上下文特征提取,将提取上下文特征后的多个深层特征图与所述浅层特征图通过级联的方式进行合并,获得所述融合特征图。
34.本发明实施例的另一方面提供一种场景文字检测的装置,包括:
35.获取模块,获取待检测图像,所述待检测图像中包含文字区域;
36.模型预测模块,确定所述文字区域的文字中心线图和方向距离图;
37.确定模块,根据所述文字中心线图和所述方向距离图,确定所述文字区域的文字轮廓,
38.其中,所述文字中心线图是根据所述文字区域的文字中心线构成的,所述方向距离图是采用极坐标的方式回归所述文字中心线上的点沿多个预设方向到达所述文字轮廓边缘的距离得到的。
39.根据本发明实施例的另一个方面,提供了一种电子设备,包括:
40.一个或多个处理器;
41.存储装置,用于存储一个或多个程序,
42.当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明提供的场景文字检测的方法。
43.根据本发明实施例的还一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明提供的场景文字检测的方法。
44.上述发明中的一个实施例具有如下优点或有益效果:通过获取待检测图像,待检测图像中包含文字区域,根据待检测图像确定文字区域的文字中心线图和方向距离图,根据文字中心线图和方向距离图,得到文字区域的文字轮廓。本发明实施例的场景文字检测的方法通过文字中心线图能够有效将紧邻的文字分离开,基于文字中心线图得到的方向距离图能够检测具有任意形状和方向的场景文字,解决了不规则场景文字的检测问题,进而能够有效提升场景文字检测器的检测性能。
45.上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
46.附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
47.图1是根据本发明实施例的一种场景文字检测的方法的主要流程的示意图;
48.图2是根据本发明实施例的不同文字的表达方式的示意图;
49.图3是根据本发明实施例的一种获得融合特征图的过程示意图;
50.图4是根据本发明实施例的一种确定文字区域的文字轮廓的过程示意图;
51.图5是根据本发明实施例的一种场景文字检测的方法的流程示意图;
52.图6是根据本发明实施例的一种场景文字检测的装置的主要模块的示意图;
53.图7是本发明实施例可以应用于其中的示例性系统架构图;
54.图8是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
55.以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
56.近年来,基于深度学习的场景文字检测技术广泛应用于计算机视觉的各个领域,如自动驾驶领域、图像视频检索、文字翻译等均需要对场景文字进行识别。目前大量的场景文字检测方法大多依赖手动涉及的特征来区分文字和文字区域,需要大量的特征工程且不能保证文字检测的鲁棒性。基于深度学习算法的场景文字检测方法包括回归和分割的方式,但不能有效分开紧邻的文字区域,且检测不规则形状的文字如弯曲的文字时,预测出多余的背景信息,给后续的文字识别带来较大的干扰,检测准确性低。针对以上问题,本发明实施例提供一种场景文字检测的方法,能够将紧邻的文字分离且适用于检测不规则形状的场景文字,提升检测性能。
57.图1是根据本发明实施例的一种场景文字检测的方法的主要流程的示意图,如图1所示,该方法包括以下步骤:
58.步骤s101:获取待检测图像,待检测图像中包含文字区域;
59.步骤s102:确定文字区域的文字中心线图和方向距离图;
60.步骤s103:根据文字中心线图和方向距离图,确定文字区域的文字轮廓。
61.在本发明实施例中,待检测图像可以为自动驾驶、图像视频检索、文字翻译等场景中得到的图像,待检测图像为包含文字区域的图像,文字区域为包含场景文字(文字实例)的区域,场景文字例如可以为一个或多个单词或文字行。待检测图像中可以包含一个或多个文字区域。可选地,场景文字可以为规则形状,也可以为不规则形状,例如,场景文字为弯曲形状。
62.在本发明实施例中,文字中心线图是根据文字区域的文字中心线构成的,方向距离图是采用极坐标的方式对回归文字中心线上的点沿多个预设方向达到文字轮廓边缘的距离得到的。
63.如图2所示为不同形状文字的表达方式的示意图,图2中,(a)为采用欧几里德坐标的方法获得的规则形状文字的文字轮廓;(b)为仅使用一个具有极坐标的点获得的规则形状文字的文字轮廓;从(c)中可以看出,当文字为不规则形状时,仅采用一个具有极坐标的点将无法覆盖整个文字区域,从而难以较为准确地获得该不规则形状文字的文字轮廓;从(d)可以看出,本发明实施例针对不规则形状的文字,首先获取文字区域的文字中心线图,然后回归文字中心线上的点沿预定方向到文字轮廓的距离,如预定8个方向,相邻方向的夹角为45度,从而得到不规则形状的文字轮廓。本发明实施例的方法可以用于在场景图像中精确定位任意形状的文字。
64.在本发明实施例中,确定文字区域的文字中心线图和方向距离图之前,包括:
65.获取图像数据训练集,图像数据包含文字区域;
66.构建网络结构并为网络结构构建多任务损失函数,
67.利用图像数据训练集对网络结构进行训练,直至多任务损失函数的值达到预设条件,获得场景文字检测模型。
68.在本发明实施例中,在确定文字中心线图和方向距离图之前,需要获得场景文字检测模型,首先获取图像数据训练集,图像数据训练集中包括多个图像数据训练样本,每个图像数据训练样本均包含文字区域。图像数据的获取方式不做特别限定。然后构建网络结构,网络结构由cnn(convolutional neural network,卷积神经网络)+fpn(feature pyramid networks,特征金字塔网络)构成。
69.利用所述多个图像的图像训练样本进行模型训练,得到场景文字检测模型,可选地,该模型可以为基于fcn网络(fully convolutional networks,全卷积网络)的模型,以实现图像语义分割。
70.在本发明实施例中,多任务损失函数包括分割损失函数和回归损失函数,分割损失函数为基于预测的和实际的文字中心线图构造的,回归损失函数为基于预测的和实际的方向距离图构造的。
71.在本发明实施例中,构建的多任务损失函数的值的计算式如式(1)所示,
72.l=λl
tcd
+l
dd
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式(1),
73.其中,l
tcd
表示tcl(文字中心线图)的二分类分割损失,l
dd
表示dd(方向距离图)的回归损失,λ为平衡两个损失项的权重系数,例如为0.1。
74.对于tcl的预测,可以视为对图像数据逐像素判断属于文字或者背景区域的二分
类问题,由于自然场景中文字实例的尺度大小差异显著,如果所有文字像素的权重都相同,则小的文字实例可能因为对总的二分类分割损失的贡献小而被漏检掉。因此,本发明实施例采用基于实例均衡的dice损失函数,构建的tcl的二分类分割损失函数如式(2)所示,
[0075][0076]
式(2)中,g和p分别表示图像中tcl的实际区域和预测区域;w表示tcl的权重图,w中的任一任意像素点的权重p的wc(p)通过如式(3)所示的计算式得到,
[0077][0078]
式(3)中,wc(p)表示tcl中像素点p的权重,area(c)是区域c中像素点的总数,c表示tcl中像素的集合,n是图像中文字实例的数量,c
p
表示图像中包含像素p的中心线区域。
[0079]
在本发明实施例的可选的实施方式中,预测方向距离即为预测tcl上的点沿多个方向到文字轮廓的距离,采用基于smooth l1损失构建得到dd损失函数如式(4)所示,
[0080][0081]
式(4)中,d
x,y
和d
*x,y
分别表示点(x,y)到文字边缘的实际距离和预测距离,norm
x,y
通过式(5)获得,
[0082][0083]
式(5)中,box_h
x,y
和box_w
x,y
分别表示点(x,y)所在的文字实例边缘框的高度和宽度。
[0084]
在本发明实施例中,采用端到端的方式训练神经网络(如fcn网络),以最大程度的减小多任务损失函数的值,多次迭代,当多任务损失函数的值达到预设收敛条件时,如多任务损失函数的值的增量在预设范围内时,停止迭代,获得场景文字检测模型。
[0085]
在本发明实施例中,确定文字区域的文字中心线图和方向距离图,包括:将待检测图像输入到训练好的场景文字检测模型中,预测得到待检测图像对应的文字中心线图和方向距离图,具体地,包括:根据场景文字检测模型,提取待检测图像的特征并进行特征融合,获得融合特征图;根据融合特征图和场景文字检测模型,预测得到待检测图像对应的文字中心线图和方向距离图。
[0086]
在本发明实施例中,提取待检测图像的特征并进行特征融合,获得融合特征图,包括:通过骨干网络对待检测图像进行特征提取,获得多个不同尺度的特征图;将多个不同尺度的特征图融合,获得融合特征图。可选地,采用去除全连接层后的resnet-50残差卷积网络作为骨干网络(主网络)提取待检测图像的特征。
[0087]
在本发明实施例中,通过骨干网络对待检测图像进行特征提取,获得多个不同尺度的特征图,包括:通过骨干网络的多个卷积模块提取待检测图像的特征,获得多个不同尺度的深层特征图和浅层特征图,采用标准卷积和多个不同空洞率的空洞卷积网络对多个深
层特征图进行上下文特征提取。
[0088]
在本发明实施例中,将多个不同尺度的特征图融合,获得融合特征图,包括:将提取上下文特征后的多个深层特征图与浅层特征图通过级联的方式进行合并,获得融合特征图。
[0089]
为由于标准卷积的感受野的限制,标准卷积不适用于处理在形状和宽高比例上有较大变化的场景文字,因此,本发明实施例可以通过引入空洞卷积使得网络在保持参数量相同的情况下拥有更大的感受野,从而提升了对长文字的检测性能。
[0090]
采用标准卷积和多个不同空洞率的空洞卷积构成上下文特征提取模块(cfe),采用上下文特征提取模块对深层特征图进行特征提取,以提取深层特征图中丰富的上下文特征。
[0091]
如图3所示为根据本发明实施例的一种获得融合特征图的过程示意图,输入待检测图像(image),然后通过骨干网络对待检测图像进行特征提取,经stage1的64个卷积核下采样(/2)操作后进入四个阶段stage2、stage3、stage4和stage5进行下采样(/2)操作,卷积核个数分别为256、512、1024和2048,经过stage2的1*1的卷积层(conv1*1)处理后获得浅层特征图,经过stage3、stage4和stage5的不同通道数的1*1卷积核处理后获得3个不同尺度的深层特征图,采用cfe模块对深层特征图进行上下文特征提取,cfe模块由三个具有不同空洞率的空洞卷积(空洞率r分别设置为3、5和7)和一个1*1的标准卷积,将提取上下文特征的3个不同尺度的深层特征图和1个浅层特征图沿着通道轴对其进行连接(concat),以融合不同感受野范围的特征信息,即将浅层特征图和深层特征图通过级联的方式进行合并,获得与待检测图像的尺寸相同的融合特征图。element-wise sum为将3个空洞卷积和标准卷积融合。
[0092]
在本发明实施例中,根据文字中心线图和方向距离图,确定文字区域的文字轮廓,包括:根据文字中心线形成连通区域;确定连通区域上的各个采样点;根据采样点和方向距离图,确定与各个采样点对应的方向点;根据方向点,确定文字区域的文字轮廓。
[0093]
可选地,根据文字中心线图中文字中心线上相邻的点聚合形成连通区域,包括:利用图像处理连通方法将文字中心线中相邻的点聚合,形成连通区域,其中,图像处理连通方法可以包括腐蚀、膨胀等处理方法。
[0094]
在本发明实施例中,确定连通区域上的各个采样点,包括:确定连通区域的最小旋转外接矩形;对矩形进行n等分,形成n-1条垂线;其中,n为大于1的整数;以每条垂线与连通区域的交线的中点作为采样点。
[0095]
可选地,确定连通区域上的各个采样点还可以采用其他方式获得,例如,可以在连通区域上间隔预设距离确定各个采样点。
[0096]
可选地,根据方向点可以产生一个多边形包围框,即为文字区域的文字轮廓,例如可以采用alpha-shape算法(一种利用某些特征点来刻画点集直观轮廓的一种算法)根据方向点产生多边形包围框。
[0097]
本发明实施例中,当确定文字中心线图和方向距离图后,进行后处理以得到文字轮廓。如图4所示为一种确定文字区域的文字轮廓的过程示意图,在图4中,(a)为得到的两条文字中心线分别形成的连通区域,(b)为对其中的一个连通区域获得该连通区域的最小旋转外接矩形,然后沿着该矩形的长边将其n等分,n为11,得到10条垂线,以每条垂线与连
通区域的交线的中点作为采样点,确定10个采样点;(c)中,基于采样点和方向距离图,针对每个采样点,计算得到对应的方向点,从而得到文字边缘区域的方向点;(d)中,基于获得的方向点,采用alpha-shape算法产生一个多边形包围框,该多边形包围框即为文字区域的文字轮廓。本发明实施例的后处理方法相对于pixellink,textsnake和textfield等基于分割的方法更加简单高效,能够提高场景文字检测的效率。
[0098]
如图5所示为本发明实施例的一种场景文字检测的方法的过程示意图,在图5中,(a)为获取的待检测图像,该待检测图像中包括具有多个单词的文字区域,多个单词呈弯曲形状,且多个单词相邻的距离较近;将待检测图像输入到场景文字检测模型中,得到(b)所示的单通道的文字中心线图和(c)所示的八通道的方向距离图,其中,方向距离图是以极坐标的方式回归文字中心线上的点沿八个方向(八个方向包括上、下、左、右、左上、左下、右上、右下)到文字轮廓的距离得到的,然后基于得到的方向距离和文字中心线图进行后处理,得到(d)所示的文字轮廓,实现文字实例重建。
[0099]
本发明实施例所提供的场景文字检测的方法,提供了采用极坐标进行文字表达的方式,构建网络结构实现端到端可训练的深度学习模型即场景文字检测模型;通过语义分割确定待检测图像的文字区域的文字中心线图,能够有效地将文字区域中紧邻的场景文字分离,然后基于文字中心线图获得方向距离图,利用极坐标的方式来参数化文字区域的文字轮廓,从而可以检测任意形状的场景文字,不包括多余的背景信息,利于后续的文字识别,解决了不规则场景文字的检测问题,从而能够更加精确的重建出任意形状的文字实例。此外,为了解决场景文字尺度差异大的问题,引入空洞卷积来提取丰富的上下文特征信息,有效提升了对长文字的检测性能。并且后处理方法简单高效,能够提高场景文字检测的效率。
[0100]
如图6所示,本发明实施例的另一方面提供一种场景文字检测的装置600,包括:
[0101]
获取模块601,获取待检测图像,待检测图像中包含文字区域;
[0102]
模型预测模块602,确定文字区域的文字中心线图和方向距离图;
[0103]
确定模块603,根据文字中心线图和方向距离图,确定文字区域的文字轮廓,
[0104]
其中,文字中心线图是根据文字区域的文字中心线构成的,方向距离图是采用极坐标的方式回归文字中心线上的点沿多个预设方向到达文字轮廓边缘的距离得到的。
[0105]
在本发明实施例中,模型预测模型602,还用于:在确定文字区域的文字中心线图和方向距离图之前,获取图像数据训练集,图像数据包含文字区域;构建网络结构并为网络结构构建多任务损失函数,利用图像数据训练集对网络结构进行训练,直至损失函数的值达到预设条件,获得场景文字检测模型。
[0106]
在本发明实施例中,模型预测模块602,进一步用于:提取待检测图像的特征并进行特征融合,获得融合特征图;将融合特征图输入到场景文字检测模型中,获得文字中心线图和方向距离图;方向距离图是采用极坐标的方式对回归文字中心线上的点沿多个预设方向达到文字轮廓边缘的距离得到的。
[0107]
在本发明实施例中,确定模块603,进一步用于:根据文字中心线形成连通区域;确定连通区域上的各个采样点;根据采样点和方向距离图,确定与每个采样点对应的一组方向点;根据各个采样点的各组方向点,确定文字区域的文字轮廓。
[0108]
在本发明实施例中,确定模块603,进一步用于:确定连通区域的最小旋转外接矩
形;对矩形进行n等分,形成n-1条垂线;其中,n为大于1的整数;以每条垂线与连通区域的交线的中点作为采样点。
[0109]
在本发明实施例中,模型预测模块602,还用于:通过骨干网络对待检测图像进行特征提取,获得多个不同尺度的特征图;将多个不同尺度的特征图融合,获得融合特征图。
[0110]
在本发明实施例中,模型预测模块602,进一步用于:通过骨干网络的多个卷积模块提取待检测图像的特征,获得多个不同尺度的深层特征图和浅层特征图;将多个不同尺度的特征图融合,获得融合特征图,包括:采用标准卷积和多个不同空洞率的空洞卷积网络对多个深层特征图进行上下文特征提取,将提取上下文特征后的多个深层特征图与浅层特征图通过级联的方式进行合并,获得融合特征图。
[0111]
本发明实施例的再一方面提供一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现本发明实施例所提供的场景文字检测的方法。
[0112]
本发明实施例的还一方面提供一种计算机可读介质,其上存储有计算机程序,程序被处理器执行时实现本发明实施例的场景文字检测的方法。
[0113]
图7示出了可以应用本发明实施例的场景文字检测的方法或场景文字检测的装置的示例性系统架构700。
[0114]
如图7所示,系统架构700可以包括终端设备701、702、703,网络704和服务器705。网络704用以在终端设备701、702、703和服务器705之间提供通信链路的介质。网络704可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
[0115]
用户可以使用终端设备701、702、703通过网络704与服务器705交互,以接收或发送消息等。终端设备701、702、703上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
[0116]
终端设备701、702、703可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
[0117]
服务器705可以是提供各种服务的服务器,例如对用户利用终端设备701、702、703所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对待检测图像等数据进行分析等处理,并将处理结果(例如文字轮廓
‑‑
仅为示例)反馈给终端设备。
[0118]
需要说明的是,本发明实施例所提供的场景文字检测的方法一般由服务器705执行,相应地,场景文字检测的装置一般设置于服务器705中。
[0119]
应该理解,图7中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
[0120]
下面参考图8,其示出了适于用来实现本发明实施例的终端设备的计算机系统800的结构示意图。图8示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
[0121]
如图8所示,计算机系统800包括中央处理单元(cpu)801,其可以根据存储在只读存储器(rom)802中的程序或者从存储部分808加载到随机访问存储器(ram)803中的程序而执行各种适当的动作和处理。在ram 803中,还存储有系统800操作所需的各种程序和数据。cpu 801、rom 802以及ram 803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总
线804。
[0122]
以下部件连接至i/o接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至i/o接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
[0123]
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(cpu)801执行时,执行本发明的系统中限定的上述功能。
[0124]
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。
[0125]
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0126]
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包
括获取模块、模型预测模块和确定模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,获取模块还可以被描述为“获取待检测图像的模块”。
[0127]
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:获取待检测图像,待检测图像中包含文字区域;确定文字区域的文字中心线图和方向距离图;根据文字中心线图和方向距离图,确定文字区域的文字轮廓。
[0128]
根据本发明实施例的技术方案,提供了采用极坐标进行文字表达的方式,构建网络结构实现端到端可训练的深度学习模型即场景文字检测模型;通过确定待检测图像的文字区域的文字中心线图,能够有效地将文字区域中紧邻的场景文字分离,然后基于文字中心线图获得方向距离图,利用极坐标的方式来参数化文字区域的文字轮廓,从而可以检测任意形状的场景文字,不包括多余的背景信息,利于后续的文字识别,解决了不规则场景文字的检测问题,从而能够更加精确的重建出任意形状的文字实例。此外,为了解决场景文字尺度差异大的问题,引入空洞卷积来提取丰富的上下文特征信息,有效提升了对长文字的检测性能。并且后处理方法简单高效,能够提高场景文字检测的效率。
[0129]
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1