本技术涉及计算机,尤其涉及一种文本检测方法及装置。
背景技术:
1、文本检测任务是定位到图片中的文本区域的位置。大多数方法是将图像中的文本当成一个文本实例,采用回归或者分割的方法进行检测,如ctpn、dbnet等,适用于检测常规的水平、弯曲文本。
2、但是实际应用场景中,不仅需要检测水平、弯曲文本,还需要检测密集的文本。常规的检测或分割方法无法处理密集文本的情况。
技术实现思路
1、为了解决上述技术问题或者至少部分地解决上述技术问题,本技术提供了一种文本检测方法及装置。
2、第一方面,本技术提供了一种文本检测方法,包括:
3、获取包含文本的目标图像;
4、根据所述目标图像及预先训练的解码网络,获得文本中心区域对应的第一概率图和文本边缘区域对应的第二概率图;
5、融合所述第一概率图和所述第二概率图,得到目标文本区域二值图;
6、在所述目标文本区域二值图中检测文本,得到文本检测框。
7、在本技术的一种可能的实施方式中,融合所述第一概率图和所述第二概率图,得到目标文本区域二值图,包括:
8、根据所述第二概率图中每个像素点的像素值确定所述第二概率图中属于文本边缘区域的像素点及属于文本中心区域的像素点,所述第二概率图中每个像素点的像素值用于表示像素点属于文本边缘区域的概率;
9、基于所述第二概率图中每个属于文本边缘区域的像素点的像素值,将所述第一概率图中对应像素点的像素值设置为第一预设值,并且基于所述第二概率图中每个属于文本中心区域的像素点的像素值,将所述第一概率图中对应像素点的像素值设置为第二预设值,得到所述目标文本区域二值图。
10、在本技术的一种可能的实施方式中,根据所述第二概率图中每个像素点的像素值确定所述第二概率图中属于文本边缘区域的像素点及属于文本中心区域的像素点,包括:
11、基于所述第二概率图及预设二值化阈值确定文本边缘区域的第一边缘二值图;
12、将所述第一边缘二值图中各像素点的像素值按照预设规则进行转换,得到第二边缘二值图;
13、将所述第二边缘二值图中像素值与预设边缘像素值相同的像素点确定为属于文本边缘区域的像素点;
14、将所述第二边缘二值图中像素值与预设中心像素值相同的像素点确定为属于文本中心区域的像素点。
15、在本技术的一种可能的实施方式中,基于所述第二概率图中每个属于文本边缘区域的像素点的像素值,将所述第一概率图中对应像素点的像素值设置为第一预设值,并且基于所述第二概率图中每个属于文本中心区域的像素点的像素值,将所述第一概率图中对应像素点的像素值设置为第二预设值,得到所述目标文本区域二值图,包括:
16、将所述第二概率图中每个属于文本边缘区域的像素点的像素值与所述第一概率图中对应像素点的像素值的乘积,确定为第一预设值,并且将所述第二概率图中每个属于文本中心区域的像素点的像素值与所述第一概率图中对应像素点的像素值的乘积,确定为第二预设值,得到所述目标文本区域二值图。
17、在本技术的一种可能的实施方式中,在所述目标文本区域二值图中检测文本,得到文本检测框,包括:
18、在所述目标文本区域二值图中检测闭合连通域;
19、获取所述闭合连通域中多个像素点对应的概率数据;
20、根据多个所述概率数据确定连通域概率数据;
21、在所述连通域概率数据大于预设概率阈值的情况下,将所述闭合连通域的最小外接矩形确定为所述文本检测框。
22、在本技术的一种可能的实施方式中,所述解码网络通过以下步骤训练得到:
23、获取与文本图像对应的训练数据及标签数据;
24、根据所述训练数据及初始解码网络,获得文本中心区域对应的第三概率图、文本中心区域对应的第一阈值图、文本边缘区域对应的第四概率图和文本边缘区域对应的第二阈值图;
25、融合所述第三概率图和所述第一阈值图,得到第一二值图;
26、融合所述第四概率图和所述第二阈值图,得到第二二值图;
27、基于所述第一二值图、所述第二二值图及所述标签数据,训练所述初始解码网络,直至得到训练完毕的解码网络。
28、在本技术的一种可能的实施方式中,融合所述第三概率图和所述第一阈值图,得到第一二值图,包括:
29、针对所述第三概率图中每个像素点的像素值,将所述像素值与所述第一阈值图中相应像素点的像素值比较;
30、在所述像素值大于所述第一阈值图中相应像素点的像素值的情况下,将所述第三概率图中该像素点的像素值设置为第一二值数值;在所述像素值小于所述第一阈值图中相应像素点的像素值的情况下,将所述第三概率图中该像素点的像素值设置为第二二值数值,得到所述第一二值图。
31、在本技术的一种可能的实施方式中,获取与文本图像对应的训练数据及标签数据,包括:
32、获取所述文本图像的特征图,以作为所述训练数据;
33、获取所述文本图像的文本中心区域对应的第一概率标签图、及所述文本图像的文本边缘区域对应的第二概率标签图,以作为所述标签数据。
34、在本技术的一种可能的实施方式中,所述方法还包括:
35、在所述标签数据中提取文本中心区域对应的第一概率标签图、文本中心区域对应的第一阈值标签图,文本边缘区域对应的第二概率标签图,以及,文本边缘区域对应的第二阈值标签图;
36、基于所述第三概率图与所述第一概率标签图之间的差异,所述第四概率图与所述第二概率标签图之间的差异,所述第一阈值图和所述第一阈值标签图之间的差异,以及,所述第二阈值图和所述第二阈值标签图之间的差异,对所述初始解码网络的参数进行调整,直至得到训练完毕的解码网络。
37、在本技术的一种可能的实施方式中,获取所述文本图像的特征图,包括:
38、对所述文本图像进行特征提取,得到高维特征图;
39、将所述高维特征图进行多尺度特征融合,得到所述文本图像的特征图。
40、第二方面,本技术提供了一种模型训练装置,包括:
41、第一获取模块,用于获取包含文本的目标图像;
42、第二获取模块,用于根据所述目标图像及预先训练的解码网络,获得文本中心区域对应的第一概率图和文本边缘区域对应的第二概率图;
43、第一融合模块,用于融合所述第一概率图和所述第二概率图,得到目标文本区域二值图;
44、检测模块,用于在所述目标文本区域二值图中检测文本,得到文本检测框。
45、在本技术的一种可能的实施方式中,所述第一融合模块包括:
46、第一确定单元,用于根据所述第二概率图中每个像素点的像素值确定所述第二概率图中属于文本边缘区域的像素点及属于文本中心区域的像素点,所述第二概率图中每个像素点的像素值用于表示像素点属于文本边缘区域的概率;
47、第一设置单元,用于基于所述第二概率图中每个属于文本边缘区域的像素点的像素值,将所述第一概率图中对应像素点的像素值设置为第一预设值,并且基于所述第二概率图中每个属于文本中心区域的像素点的像素值,将所述第一概率图中对应像素点的像素值设置为第二预设值,得到所述目标文本区域二值图。
48、在本技术的一种可能的实施方式中,所述第一确定单元包括:
49、第一确定子单元,用于基于所述第二概率图及预设二值化阈值确定文本边缘区域的第一边缘二值图;
50、转换子单元,用于将所述第一边缘二值图中各像素点的像素值按照预设规则进行转换,得到第二边缘二值图;
51、第二确定子单元,用于将所述第二边缘二值图中像素值与预设边缘像素值相同的像素点确定为属于文本边缘区域的像素点;
52、第三确定子单元,用于将所述第二边缘二值图中像素值与预设中心像素值相同的像素点确定为属于文本中心区域的像素点。
53、在本技术的一种可能的实施方式中,所述第一设置单元包括:
54、第四确定子单元,用于将所述第二概率图中每个属于文本边缘区域的像素点的像素值与所述第一概率图中对应像素点的像素值的乘积,确定为第一预设值,并且将所述第二概率图中每个属于文本中心区域的像素点的像素值与所述第一概率图中对应像素点的像素值的乘积,确定为第二预设值,得到所述目标文本区域二值图。
55、在本技术的一种可能的实施方式中,所述检测模块包括:
56、检测单元,用于在所述目标文本区域二值图中检测闭合连通域;
57、第一获取单元,用于获取所述闭合连通域中多个像素点对应的概率数据;
58、第二确定单元,用于根据多个所述概率数据确定连通域概率数据;
59、第三确定单元,用于在所述连通域概率数据大于预设概率阈值的情况下,将所述闭合连通域的最小外接矩形确定为所述文本检测框。
60、在本技术的一种可能的实施方式中,所述装置还包括:
61、第三获取模块,用于获取与文本图像对应的训练数据及标签数据;
62、第四获取模块,用于根据所述训练数据及初始解码网络,获得文本中心区域对应的第三概率图、文本中心区域对应的第一阈值图、文本边缘区域对应的第四概率图和文本边缘区域对应的第二阈值图;
63、第二融合模块,用于融合所述第三概率图和所述第一阈值图,得到第一二值图;
64、第三融合模块,用于融合所述第四概率图和所述第二阈值图,得到第二二值图;
65、训练模块,用于基于所述第一二值图、所述第二二值图及所述标签数据,训练所述初始解码网络,直至得到训练完毕的解码网络。
66、在本技术的一种可能的实施方式中,所述第二融合模块包括:
67、比较单元,用于针对所述第三概率图中每个像素点的像素值,将所述像素值与所述第一阈值图中相应像素点的像素值比较;
68、第二设置单元,用于在所述像素值大于所述第一阈值图中相应像素点的像素值的情况下,将所述第三概率图中该像素点的像素值设置为第一二值数值;在所述像素值小于所述第一阈值图中相应像素点的像素值的情况下,将所述第三概率图中该像素点的像素值设置为第二二值数值,得到所述第一二值图。
69、在本技术的一种可能的实施方式中,所述第三获取模块包括:
70、第二获取单元,用于获取所述文本图像的特征图,以作为所述训练数据;
71、第三获取单元,用于获取所述文本图像的文本中心区域对应的第一概率标签图、及所述文本图像的文本边缘区域对应的第二概率标签图,以作为所述标签数据。
72、在本技术的一种可能的实施方式中,所述装置还包括:
73、提取模块,用于在所述标签数据中提取文本中心区域对应的第一概率标签图、文本中心区域对应的第一阈值标签图,文本边缘区域对应的第二概率标签图,以及,文本边缘区域对应的第二阈值标签图;
74、调整模块,用于基于所述第三概率图与所述第一概率标签图之间的差异,所述第四概率图与所述第二概率标签图之间的差异,所述第一阈值图和所述第一阈值标签图之间的差异,以及,所述第二阈值图和所述第二阈值标签图之间的差异,对所述初始解码网络的参数进行调整,直至得到训练完毕的解码网络。
75、在本技术的一种可能的实施方式中,所述第二获取单元包括:
76、提取子单元,用于对所述训练图像进行特征提取,得到高维特征图;
77、融合子单元,用于将所述高维特征图进行多尺度特征融合,得到所述特征图。
78、第三方面,本技术提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
79、存储器,用于存放计算机程序;
80、处理器,用于执行存储器上所存放的程序时,实现第一方面任一所述的模型训练方法的文本检测方法。
81、第四方面,本技术提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有文本检测方法的程序,所述文本检测方法的程序被处理器执行时实现第一方面任一所述的文本检测方法。
82、本技术实施例提供的上述技术方案与现有技术相比具有如下优点:
83、本技术实施例利用训练完毕的解码网络获得文本中心区域对应的第一概率图和文本边缘区域对应的第二概率图,并在基于二者确定的目标文本区域二值图中检测文本检测框,通过利用第二概率图中的文本边缘区域抑制第一概率图中文本中心区域,实现密集文本的检测。