本技术涉及图像处理,尤其涉及一种图像文本分类方法、装置、设备及存储介质。
背景技术:
1、随着通用目标检测技术的发展,文本作为一种特殊的目标,文本检测在取得突飞猛进的进展的同时也迎来了全新的挑战。光学字符识别(optical characterrecognition,ocr)是指对与文本资料对应的图像文件进行分析识别处理,获取文字及版面信息的过程。在ocr应用中,文本检测算法和关键信息提取算法分别完成不同功能。文本检测模型和关键信息提取模型作为前后节点,分工协作完成ocr端到端任务,其主要缺点是模型冗余,推断相对耗时等。比如,两次模型共有的在骨干网络backbone子网络产生的图片特征值无法在模型间共享,即图片特征值需要在每个模型都计算一次,从而降低了整体ocr的性能。
技术实现思路
1、有鉴于此,本技术的目的在于提供了一种图像文本分类方法、装置、设备及存储介质,将文本框检测和文本分类进行结合,无需计算多次图像特征值,提高了分类准确性,也提高了ocr的整体性能,其具体技术方案如下:
2、第一方面,本技术提供了一种图像文本分类方法,所述方法包括:
3、对待分类图像进行特征提取,得到所述待分类图像对应的至少一个待预测特征;
4、利用所述至少一个待预测特征,预测所述待分类图像中的文本区域,预测所述文本区域对应的傅里叶特征,以及预测所述文本区域对应的分类掩码图;
5、对所述文本区域对应的傅里叶特征进行傅里叶逆变换,得到所述文本区域对应的文本框轮廓线;
6、利用所述分类掩码图确定待分类文本框对应的掩码值,所述待分类文本框由所述文本区域对应的文本框轮廓线构成;
7、基于所述待分类文本框对应的掩码值,确定所述待分类文本框对应的类别,将所述待分类文本框对应的类别确定为所述待分类文本框内的文本的类别。
8、在一种可能的实现方式中,所述基于所述待分类文本框对应的掩码值,确定所述待分类文本框的类别,包括:
9、统计所述待分类文本框对应的掩码值中不同数值的掩码值的频次,所述待分类文本框对应的掩码值中包括多种不同数值的掩码值;
10、将频次最高的掩码值确定为所述待分类文本框的类别值;
11、根据所述待分类文本框的类别值确定所述待分类文本框的类别。
12、在一种可能的实现方式中,所述待预测特征包括待预测特征图,所述利用所述至少一个待预测特征,预测所述待分类图像中的文本区域,包括:
13、根据至少一个所述待预测特征图,对所述待分类图像中的像素点进行文本区域分类,得到所述待分类图像中的初始文本区域;
14、根据至少一个所述待预测特征图,对所述待分类图像中的像素点进行中心区域分类,得到所述待分类图像中的文本中心区域,所述文本中心区域位于所述初始文本区域的中心;
15、根据所述初始文本区域和所述文本中心区域,确定所述文本区域。
16、在一种可能的实现方式中,所述图像文本分类方法通过傅里叶轮廓嵌入fce模型实现,所述fce模型的训练样本包括:样本图像、所述样本图像对应的标注文本区域、所述标注文本区域对应的标注文本框和所述标注文本框对应的标注类别;
17、所述方法还包括:
18、通过初始网络模型对所述样本图像进行特征提取,得到所述样本图像对应的至少一个样本特征;
19、利用所述至少一个样本特征,预测所述样本图像的样本文本区域,预测所述样本文本区域对应的傅里叶特征,以及预测所述样本文本区域对应的样本掩码图;
20、对所述样本文本区域对应的傅里叶特征进行傅里叶逆变换,得到所述样本文本区域对应的样本文本框轮廓线;
21、利用所述样本掩码图确定样本文本框对应的掩码值,所述样本文本框由所述样本文本区域对应的样本文本框轮廓线构成;
22、基于所述样本文本框对应的掩码值,确定所述样本文本框对应的类别;
23、根据所述样本文本区域和标注文本区域、所述标注文本框和所述样本文本框以及所述标注类别和所述样本文本框对应的类别,确定所述初始网络模型的分类损失;
24、根据所述分类损失,调整所述初始模型的模型参数,得到训练后的所述fce模型。
25、在一种可能的实现方式中,在所述对待分类图像进行特征提取,得到所述待分类图像对应的至少一个待预测特征之前,所述方法还包括:
26、对所述待分类图像进行归一化处理;
27、所述对待分类图像进行特征提取,得到所述待分类图像对应的至少一个待预测特征,包括:
28、对归一化处理后的待分类图像进行特征提取,得到所述待分类图像对应的至少一个待预测特征。
29、第二方面,本技术还提供了一种图像文本分类装置,所述装置包括:
30、特征提取模块,用于对待分类图像进行特征提取,得到所述待分类图像对应的至少一个待预测特征;
31、预测模块,用于利用所述至少一个待预测特征,预测所述待分类图像中的文本区域,预测所述文本区域对应的傅里叶特征,以及预测所述文本区域对应的分类掩码图;
32、逆变换模块,用于对所述文本区域对应的傅里叶特征进行傅里叶逆变换,得到所述文本区域对应的文本框轮廓线;
33、掩码值确定模块,用于利用所述分类掩码图确定待分类文本框对应的掩码值,,所述待分类文本框由所述文本区域对应的文本框轮廓线构成;
34、类别确定模块,用于基于所述待分类文本框对应的掩码值,确定所述待分类文本框对应的类别,将所述待分类文本框对应的类别确定为所述待分类文本框内的文本的类别。
35、在一种可能的实现方式中,在基于所述待分类文本框对应的掩码值,确定所述待分类文本框对应的类别时,所述类别确定模块包括:
36、统计单元,用于统计所述待分类文本框对应的掩码值中不同数值的掩码值的频次,所述待分类文本框对应的掩码值中包括多种不同数值的掩码值;
37、类别值确定单元,用于将频次最高的掩码值确定为所述待分类文本框的类别值;
38、类别确定单元,用于根据所述待分类文本框的类别值确定所述待分类文本框的类别。
39、在一种可能的实现方式中,所述待预测特征包括待预测特征图,在利用所述至少一个待预测特征,预测所述待分类图像中的文本区域时,所述预测模块包括:
40、文本区域分类单元,用于根据至少一个所述待预测特征图,对所述待分类图像中的像素点进行文本区域分类,得到所述待分类图像中的初始文本区域;
41、中心区域分类单元,用于根据至少一个所述待预测特征图,对所述待分类图像中的像素点进行中心区域分类,得到所述待分类图像中的文本中心区域,所述文本中心区域位于所述初始文本区域的中心;
42、文本区域确定单元,用于根据所述初始文本区域和所述文本中心区域,确定所述文本区域。
43、第三方面,本技术还提供了一种计算机设备,其特征在于,包括:存储器以及处理器;
44、所述存储器用于存储计算机程序;
45、所述处理器用于执行所述存储器中的计算机程序,以实现上述第一方面或第一方面任一项所述的方法。
46、第四方面,本技术还提供了一种计算机可读存储介质,其特征在于,存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面或第一方面任一项所述的方法。
47、在本技术实施例中,对待分类图像进行特征提取,得到待分类图像对应的至少一个待预测特征;利用至少一个待预测特征,预测待分类图像中的文本区域,预测文本区域对应的傅里叶特征,以及预测文本区域对应的分类掩码图;对文本区域对应的傅里叶特征进行傅里叶逆变换,得到文本区域对应的文本框轮廓线;利用分类掩码图确定待分类文本框对应的掩码值;基于待分类文本框对应的掩码值,确定待分类文本框对应的类别,将待分类文本框对应的类别确定为待分类文本框内的文本的类别。本技术实施例将文本框检测和文本分类进行结合,无需计算多次图像特征值,提高了分类准确性,也提高了ocr的整体性能。在得到文本类别信息的基础上,可以直接根据文本类别信息进行关键信息提取,提高了信息提取的效率。