一种文本行噪声拒识方法、装置、电子设备和存储介质与流程

文档序号:31331178发布日期:2022-08-31 07:05阅读:74来源:国知局
一种文本行噪声拒识方法、装置、电子设备和存储介质与流程

1.本发明涉及图像处理技术领域,特别是涉及一种文本行噪声拒识方法、一种文本行噪声拒识装置、一种电子设备和一种计算机可读存储介质。


背景技术:

2.在ocr(optical character recognition,光学字符识别)技术中,对于文本图像的识别主要包含两个步骤,首先进行文本行检测,再进行文本行识别。然而在对文本图像进行文本行检测时,容易引入如音符曲线、人眼无法识别的低分辨率文本等类文字噪声,导致文本行识别模型对类文字噪声进行识别后输出噪声无序文字,影响用户体验。


技术实现要素:

3.鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种文本行噪声拒识方法、一种文本行噪声拒识装置、一种电子设备和一种计算机可读存储介质。
4.为了解决上述问题,本发明实施例公开了一种文本行噪声拒识方法,所述方法包括:
5.获取待检测文本行图像;
6.将所述待检测文本行图像输入文本行检测模型,得到待识别文本行图像区域;所述待识别文本行图像区域包括具有类文字噪声的图像区域;
7.将所述待识别文本行图像区域输入文本行噪声拒识模型进行处理,得到针对所述待识别文本行图像区域的识别结果;其中,所述文本行噪声拒识模型基于具有类文字噪声的图像区域样本、不具有类文字噪声的图像区域样本和样本对应的文本标注训练得到;所述文本行噪声拒识模型包括目标卷积循环网络以及与所述目标卷积循环网络连接的置信度打分网络,采用共同学习相互监督策略进行训练;
8.若所述待识别文本行图像区域为不具有类文字噪声的图像区域,则输出文本行识别结果以及所述文本行识别结果的置信度;
9.若所述待识别文本行图像区域为具有类文字噪声的图像区域,则输出空白识别结果。
10.可选地,所述目标卷积循环网络包括卷积网络和循环网络;所述将所述待识别文本行图像区域输入文本行噪声拒识模型进行处理,得到针对所述待识别文本行图像区域的识别结果,包括:
11.通过所述卷积网络提取所述待识别文本行图像区域的卷积特征;通过所述循环网络基于所述卷积特征,提取所述待识别文本行图像区域的文字行序列特征;通过连接时序分类算法ctc,对所述文字行序列特征进行解码处理,得到针对所述待识别文本行图像区域的识别结果。
12.可选地,所述若所述待识别文本行图像区域为不具有类文字噪声的图像区域,则
输出文本行识别结果以及所述文本行识别结果的置信度,包括:
13.若所述待识别文本行图像区域为不具有类文字噪声的图像区域,则将针对所述待识别文本行图像区域的文本行识别结果输入所述置信度打分网络,得到所述文本行识别结果的置信度;
14.输出所述文本行识别结果以及所述文本行识别结果的置信度。
15.可选地,通过如下方式训练所述文本行噪声拒识模型:
16.获取文本行图像区域样本和所述文本行图像区域样本对应的文本标注;所述文本行图像区域样本包括具有类文字噪声的图像区域样本和不具有类文字噪声的图像区域样本;
17.将所述文本行图像区域样本作为文本行噪声拒识模型的输入;所述文本行噪声拒识模型包括多个预设卷积循环网络以及与各个预设卷积循环网络连接的置信度打分网络;所述各个预设卷积循环网络包括卷积网络和循环网络;通过所述卷积网络提取所述文本行图像区域样本的卷积特征;通过所述循环网络基于所述卷积特征,提取所述文本行图像区域样本的文字行序列特征;通过连接时序分类算法ctc,对所述文字行序列特征进行解码处理,输出ctc贪婪解码结果;
18.基于所述各个预设卷积循环网络的输出,采用共同学习相互监督策略对所述文本行噪声拒识模型进行训练。
19.可选地,所述文本标注包括所述文本行图像区域样本对应的真实标签;所述基于所述各个预设卷积循环网络的输出,采用共同学习相互监督策略对所述文本行噪声拒识模型进行训练,包括:
20.基于所述各个预设卷积循环网络中卷积网络提取的卷积特征和循环网络提取的文字行序列特征进行相互学习,以使所述各个预设卷积循环网络各自输出的ctc贪婪解码结果趋近所述真实标签;
21.计算所述各个预设卷积循环网络各自输出的ctc贪婪解码结果与所述真实标签之间的编辑距离,作为与所述各个预设卷积循环网络连接的置信度打分网络的监督标签;
22.通过所述置信度打分网络,基于所述监督标签拟合置信区间;
23.采用ctc计算损失,调整文本行噪声拒识模型的参数,以对所述文本行噪声拒识模型进行训练。
24.可选地,所述方法还包括:
25.将多个预设卷积循环网络作为目标卷积循环网络;
26.或,获取文本行图像区域测试样本;
27.将所述文本行图像区域测试样本输入预先训练好的文本行噪声拒识模型进行测试,得到分别对应所述各个预设卷积循环网络以及与所述各个预设卷积循环网络连接的置信度打分网络的测试结果;
28.将测试结果得分最高的预设卷积循环网络作为目标卷积循环网络。
29.本发明实施例还公开了一种文本行噪声拒识装置,所述装置包括:
30.获取模块,用于获取待检测文本行图像;
31.检测模块,用于将所述待检测文本行图像输入文本行检测模型,得到待识别文本行图像区域;所述待识别文本行图像区域包括具有类文字噪声的图像区域;
32.识别模块,用于将所述待识别文本行图像区域输入文本行噪声拒识模型进行处理,得到针对所述待识别文本行图像区域的识别结果;其中,所述文本行噪声拒识模型基于具有类文字噪声的图像区域样本、不具有类文字噪声的图像区域样本和样本对应的文本标注训练得到;所述文本行噪声拒识模型包括目标卷积循环网络以及与所述目标卷积循环网络连接的置信度打分网络,采用共同学习相互监督策略进行训练;
33.文本行输出模块,用于若所述待识别文本行图像区域为不具有类文字噪声的图像区域,则输出文本行识别结果以及所述文本行识别结果的置信度;
34.空白输出模块,用于若所述待识别文本行图像区域为具有类文字噪声的图像区域,则输出空白识别结果。
35.可选地,所述目标卷积循环网络包括卷积网络和循环网络;所述识别模块,包括:
36.特征提取子模块,用于通过所述卷积网络提取所述待识别文本行图像区域的卷积特征;通过所述循环网络基于所述卷积特征,提取所述待识别文本行图像区域的文字行序列特征;通过连接时序分类算法ctc,对所述文字行序列特征进行解码处理,得到针对所述待识别文本行图像区域的识别结果。
37.可选地,所述文本行输出模块,包括:
38.打分子模块,用于若所述待识别文本行图像区域为不具有类文字噪声的图像区域,则将针对所述待识别文本行图像区域的文本行识别结果输入所述置信度打分网络,得到所述文本行识别结果的置信度;
39.结果输出子模块,用于输出所述文本行识别结果以及所述文本行识别结果的置信度。
40.可选地,通过以下模块训练所述文本行噪声拒识模型:
41.样本获取模块,用于获取文本行图像区域样本和所述文本行图像区域样本对应的文本标注;所述文本行图像区域样本包括具有类文字噪声的图像区域样本和不具有类文字噪声的图像区域样本;
42.解码结果输出模块,用于将所述文本行图像区域样本作为文本行噪声拒识模型的输入;所述文本行噪声拒识模型包括多个预设卷积循环网络以及与各个预设卷积循环网络连接的置信度打分网络;所述各个预设卷积循环网络包括卷积网络和循环网络;通过所述卷积网络提取所述文本行图像区域样本的卷积特征;通过所述循环网络基于所述卷积特征,提取所述文本行图像区域样本的文字行序列特征;通过连接时序分类算法ctc,对所述文字行序列特征进行解码处理,输出ctc贪婪解码结果;
43.训练模块,用于基于所述各个预设卷积循环网络的输出,采用共同学习相互监督策略对所述文本行噪声拒识模型进行训练。
44.可选地,所述文本标注包括所述文本行图像区域样本对应的真实标签;所述训练模块,包括:
45.相互学习子模块,用于基于所述各个预设卷积循环网络中卷积网络提取的卷积特征和循环网络提取的文字行序列特征进行相互学习,以使所述各个预设卷积循环网络各自输出的ctc贪婪解码结果趋近所述真实标签;
46.监督标签确定子模块,用于计算所述各个预设卷积循环网络各自输出的ctc贪婪解码结果与所述真实标签之间的编辑距离,作为与所述各个预设卷积循环网络连接的置信
度打分网络的监督标签;
47.拟合子模块,用于通过所述置信度打分网络,基于所述监督标签拟合置信区间;
48.参数调整模块,用于采用ctc计算损失,调整文本行噪声拒识模型的参数,以对所述文本行噪声拒识模型进行训练。
49.可选地,所述装置还包括:
50.目标网络确定模块,用于将多个预设卷积循环网络作为目标卷积循环网络;
51.或,测试样本获取模块,用于获取文本行图像区域测试样本;
52.测试模块,用于将所述文本行图像区域测试样本输入预先训练好的文本行噪声拒识模型进行测试,得到分别对应所述各个预设卷积循环网络以及与所述各个预设卷积循环网络连接的置信度打分网络的测试结果;
53.网络确定模块,用于将测试结果得分最高的预设卷积循环网络作为目标卷积循环网络。
54.本发明实施例还公开了一种电子设备,包括:处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的文本行噪声拒识方法的步骤。
55.本发明实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上所述的文本行噪声拒识方法的步骤。
56.本发明实施例包括以下优点:
57.在本发明实施例中,通过将包括具有类文字噪声的图像区域的待识别文本行图像区域,输入基于具有类文字噪声的图像区域样本、不具有类文字噪声的图像区域样本和样本对应的文本标注训练得到的文本行噪声拒识模型进行处理,得到针对所述待识别文本行图像区域的识别结果;若图像区域为不具有类文字噪声的图像区域,则输出文本行识别结果以及对应的置信度;若图像区域为具有类文字噪声的图像区域,则输出空白识别结果,从而可以通过文本行噪声拒识模型识别出具有类文字噪声的图像区域并输出空白识别结果,避免采用现有的识别模型导致输出噪声无序文字,从而提升含有类文字噪声文本图像上的识别率,进一步提升用户体验。
附图说明
58.图1是本发明实施例提供的一种文本行噪声拒识方法的步骤流程图;
59.图2是本发明实施例提供的一种文本行噪声拒识模型的结构示意图;
60.图3是本发明实施例中文本行噪声拒识模型的训练方法的步骤流程图;
61.图4是本发明实施例提供的一种文本行噪声拒识装置的结构框图。
具体实施方式
62.为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
63.在ocr技术中,对文本图像进行文本行检测时,容易引入如音符曲线、人眼无法识别的低分辨率文本等类文字噪声,导致文本行识别模型对类文字噪声进行识别后输出噪声
无序文字。目前的文本行识别模型通常基于图像弯曲变形、存在少量背景噪声、图像模糊等原始文本图像自身存在的噪声进行训练,因此只能识别出原始文本图像自身存在的噪声,对文本行检测引入的类文字噪声通常输出无序乱码文字。
64.本发明实施例的核心构思在于,通过将包括具有类文字噪声的图像区域的待识别文本行图像区域,输入基于具有类文字噪声的图像区域样本、不具有类文字噪声的图像区域样本和样本对应的文本标注训练得到的文本行噪声拒识模型进行处理,得到针对所述待识别文本行图像区域的识别结果;若图像区域为不具有类文字噪声的图像区域,则输出文本行识别结果以及对应的置信度;若图像区域为具有类文字噪声的图像区域,则输出空白识别结果,从而可以通过文本行噪声拒识模型识别出具有类文字噪声的图像区域并输出空白识别结果,避免采用现有的识别模型导致输出噪声无序文字,从而提升含有类文字噪声文本图像上的识别率,进一步提升用户体验。
65.参照图1,示出了本发明实施例提供的一种文本行噪声拒识方法的步骤流程图,所述方法具体可以包括如下步骤:
66.步骤101,获取待检测文本行图像。
67.ocr识别技术是通过扫描和摄像等光学输入方式获取纸张上的文本图像信息,利用各种模式识别算法分析文字形态特征,可以将票据、报刊、书籍、文稿及其它印刷品转化为文本图像信息,再利用图像识别技术将文本图像信息转化为可以使用的计算机输入的技术。
68.文本行图像可以是具有至少一行文本的图像。在本发明实施例中,文本行噪声拒识方法可以应用于服务器获取待检测文本行图像进行检测,对得到的待识别文本行图像区域进行文本行噪声拒识,从而对具有类文字噪声的图像区域输出空白识别结果的场景中。
69.步骤102,将所述待检测文本行图像输入文本行检测模型,得到待识别文本行图像区域;所述待识别文本行图像区域包括具有类文字噪声的图像区域。
70.在本发明实施例中,将获取的待检测文本行图像输入文本行检测模型,可以由文本行检测模型对待检测文本行图像中的文字所在区域进行定位,根据定位的区域进行切割,可以得到待识别文本行图像区域。
71.待识别文本行图像区域可以包括具有类文字噪声的图像区域和不具有类文字噪声的图像区域。类文字噪声可以为在文本行检测模型对输入的待检测文本行图像进行处理的过程中引入的噪声。例如,类文字噪声可以为音符曲线、人眼无法识别的低分辨率文本等。
72.步骤103,将所述待识别文本行图像区域输入文本行噪声拒识模型进行处理,得到针对所述待识别文本行图像区域的识别结果;其中,所述文本行噪声拒识模型基于具有类文字噪声的图像区域样本、不具有类文字噪声的图像区域样本和样本对应的文本标注训练得到;所述文本行噪声拒识模型包括目标卷积循环网络以及与所述目标卷积循环网络连接的置信度打分网络,采用共同学习相互监督策略进行训练。
73.在本发明实施例中,可以将待识别文本行图像区域输入预先训练好的文本行噪声拒识模型,由训练好的文本行噪声拒识模型对待识别文本行图像区域进行识别,从而根据识别结果判断待识别文本行图像区域是否为具有类文字噪声的图像区域。
74.可以基于具有类文字噪声的图像区域样本、不具有类文字噪声的图像区域样本和
图像区域样本对应的文本标注训练得到文本行噪声拒识模型。其中,不具有类文字噪声的图像区域样本可以为图像存在其他噪声但不具有类文字噪声的训练样本,存在的其他噪声可以包括图像弯曲变形、存在少量背景噪声、图像模糊等。具有类文字噪声的图像区域样本可以为对文本行检测模型引入的类文字噪声进行收集或仿真的训练样本,例如,类文字噪声可以为音符曲线、人眼无法识别的低分辨率文本等。
75.文本行噪声拒识模型可以包括目标卷积循环网络以及与目标卷积循环网络连接的置信度打分网络,采用共同学习相互监督策略进行训练。其中,目标卷积循环网络可以是从多个训练完毕的卷积循环网络中确定的一个或多个卷积循环网络。具体的,在对模型训练完毕后,可以对训练好的模型进行测试,根据性能要求确定最优的卷积循环网络作为目标卷积循环网络;在另一示例中,在对模型训练完毕后,可以将所有卷积循环网络作为目标卷积循环网络,并将所有卷积循环网络的输出结果进行加权平均进行最终输出。
76.步骤104,若所述待识别文本行图像区域为不具有类文字噪声的图像区域,则输出文本行识别结果以及所述文本行识别结果的置信度。
77.若待识别文本行图像区域为不具有类文字噪声的图像区域,则该区域为正常的图像区域,此时输出文本行识别结果以及该文本行识别结果的置信度。
78.步骤105,若所述待识别文本行图像区域为具有类文字噪声的图像区域,则输出空白识别结果。
79.若待识别文本行图像区域为具有类文字噪声的图像区域,则在对待检测文本行图像进行文本行检测时引入了类文字噪声,此时输出空白识别结果。
80.在一种可选的实施例中,所述步骤103可以包括:通过所述卷积网络提取所述待识别文本行图像区域的卷积特征;通过所述循环网络基于所述卷积特征,提取所述待识别文本行图像区域的文字行序列特征;通过连接时序分类算法ctc,对所述文字行序列特征进行解码处理,得到针对所述待识别文本行图像区域的识别结果。
81.参照图2所示,为本发明实施例提供的一种文本行噪声拒识模型的结构示意图。文本行噪声拒识模型可以包括目标卷积循环网络,以及与目标卷积循环网络连接的置信度打分网络。目标卷积循环网络可以包括卷积网络和循环网络。将待识别文本行图像区域输入文本行噪声拒识模型,可以通过卷积网络提取待识别文本行图像区域的卷积特征;通过循环网络基于待识别文本行图像区域的卷积特征,提取图像区域的文字行序列特征;通过连接时序分类算法ctc(connectionist temporal classification),对所述文字行序列特征进行解码处理,得到针对所述待识别文本行图像区域的识别结果。
82.在一种可选的实施例中,所述步骤104可以包括以下子步骤s11-s12:
83.子步骤s11,若所述待识别文本行图像区域为不具有类文字噪声的图像区域,则将针对所述待识别文本行图像区域的文本行识别结果输入所述置信度打分网络,得到所述文本行识别结果的置信度。
84.子步骤s12,输出所述文本行识别结果以及所述文本行识别结果的置信度。
85.在本发明实施例中,当待识别文本图像区域为不具有类文字噪声的图像区域时,可以将针对待识别文本行图像区域的文本行识别结果输入置信度打分网络,由置信度打分网络对文本行识别结果进行置信度打分,得到文本行识别结果的置信度,并输出文本行识别结果以及文本行识别结果的置信度,从而在确定待识别文本图像区域不具有类文字噪声
neural network,卷积神经网络)以及双向lstm(long short-term memory,长短期记忆网络)构成的rnn(recurrent neural network,循环神经网络)作为预设卷积循环网络;可以采用2层全连接层作为置信度打分网络。
96.在本发明实施例中,文本行噪声拒识模型可以包括多个预设卷积循环网络,以及与各个预设卷积循环网络连接的置信度打分网络;预设卷积循环网络可以包括卷积网络和循环网络。将文本行图像区域样本输入卷积网络,可以由卷积网络提取文本行图像区域训练样本的卷积特征;再由循环网络基于文本行图像区域训练样本的卷积特征,提取图像区域训练样本的文字行序列特征;最后通过连接时序分类算法ctc,对所述文字行序列特征进行解码处理,输出ctc贪婪解码结果。
97.步骤303,基于所述各个预设卷积循环网络的输出,采用共同学习相互监督策略对所述文本行噪声拒识模型进行训练。
98.将文本行图像区域样本输入文本行噪声拒识模型,可以得到模型中各个预设卷积循环网络针对文本行图像区域样本的多个输出,基于多个输出可以采用共同学习相互监督策略对文本行噪声拒识模型进行训练。
99.在本发明实施例中,通过采用多个预设卷积循环网络进行相互学习,有利于增加网络的收敛性能以及提升含有类文字噪声的文本图像的识别率。
100.在一种可选的实施例中,所述文本标注包括所述文本行图像区域样本对应的真实标签,所述步骤303可以包括以下子步骤s21-s24:
101.子步骤s21,基于所述各个预设卷积循环网络中卷积网络提取的卷积特征和循环网络提取的文字行序列特征进行相互学习,以使所述各个预设卷积循环网络各自输出的ctc贪婪解码结果趋近所述真实标签。
102.具体的,可以采用kl散度(kullback-leibler divergence,又称相对熵),基于各个预设卷积循环网络中卷积网络提取的各卷积特征之间,以及各个预设卷积循环网络中循环网络提取的各文字行序列特征之间进行相互学习,从而使得各个预设卷积循环网络各自输出的ctc贪婪解码结果都趋近真实标签。
103.子步骤s22,计算所述各个预设卷积循环网络各自输出的ctc贪婪解码结果与所述真实标签之间的编辑距离,作为所述各个预设卷积循环网络对应的置信度打分网络的监督标签。
104.编辑距离是针对两个字符串的差异程度的量化量测,量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。在本发明实施例中,可以分别计算各个预设卷积循环网络各自输出的ctc贪婪解码结果与文本行图像样本对应的真实标签之间的编辑距离,并将编辑距离作为各个预设卷积循环网络对应的置信度打分网络的监督标签。
105.子步骤s23,通过所述置信度打分网络,基于所述监督标签拟合置信区间。
106.在确定针对各个预设卷积循环网络的监督标签后,可以通过各个预设卷积循环网络各自连接的置信度打分网络,基于监督标签拟合置信区间。
107.子步骤s24,采用ctc计算损失,调整文本行噪声拒识模型的参数,以对所述文本行噪声拒识模型进行训练。
108.具体的,可以通过ctc准则计算梯度调整文本噪声拒识模型中循环网络的参数,以对该文本行噪声拒识模型进行训练。
109.在一种可选的实施例中,所述方法还可以包括:将多个预设卷积循环网络作为目标卷积循环网络;或,获取文本行图像区域测试样本;将所述文本行图像区域测试样本输入预先训练好的文本行噪声拒识模型进行测试,得到分别对应所述各个预设卷积循环网络以及与所述各个预设卷积循环网络连接的置信度打分网络的测试结果;将测试结果得分最高的预设卷积循环网络作为目标卷积循环网络。
110.在一种示例中,在对文本行噪声拒识模型训练完毕后,可以将多个预设卷积循环网络作为目标卷积循环网络,在将待识别文本行图像区域输入目标卷积循环网络即多个预设卷积循环网络后,可以得到多个输出结果,可以将多个输出结果进行加权平均后得到的结果作为最终输出结果。
111.在另一种示例中,可以获取文本行图像区域测试样本,将文本行图像区域测试样本输入训练好的文本行噪声拒识模型进行测试,得到各个预设卷积循环网络对应的测试结果,并将测试结果得分最高,即多个预设卷积循环网络中测试性能最优的预设卷积循环网络作为目标卷积循环网络。
112.在本发明实施例中,通过在训练文本行噪声拒识模型时增加具有类文字噪声的图像区域样本对文本行噪声拒识模型进行训练,可以在实际应用中有效提升含有类文字噪声的文本图像的识别率,对具有类文字噪声的图像区域输出空白识别结果,减少一系列乱码文字的输出,提升用户体验。
113.需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
114.参照图4,示出了本发明实施例提供的一种文本行噪声拒识装置的结构框图,具体可以包括如下模块:
115.获取模块401,用于获取待检测文本行图像;
116.检测模块402,用于将所述待检测文本行图像输入文本行检测模型,得到待识别文本行图像区域;所述待识别文本行图像区域包括具有类文字噪声的图像区域;
117.识别模块403,用于将所述待识别文本行图像区域输入文本行噪声拒识模型进行处理,得到针对所述待识别文本行图像区域的识别结果;其中,所述文本行噪声拒识模型基于具有类文字噪声的图像区域样本、不具有类文字噪声的图像区域样本和样本对应的文本标注训练得到;所述文本行噪声拒识模型包括目标卷积循环网络以及与所述目标卷积循环网络连接的置信度打分网络,采用共同学习相互监督策略进行训练;
118.文本行输出模块404,用于若所述待识别文本行图像区域为不具有类文字噪声的图像区域,则输出文本行识别结果以及所述文本行识别结果的置信度;
119.空白输出模块405,用于若所述待识别文本行图像区域为具有类文字噪声的图像区域,则输出空白识别结果。
120.在本发明实施例中,所述目标卷积循环网络包括卷积网络和循环网络;所述识别模块,包括:
121.特征提取子模块,用于通过所述卷积网络提取所述待识别文本行图像区域的卷积
特征;通过所述循环网络基于所述卷积特征,提取所述待识别文本行图像区域的文字行序列特征;通过连接时序分类算法ctc,对所述文字行序列特征进行解码处理,得到针对所述待识别文本行图像区域的识别结果。
122.在本发明实施例中,所述文本行输出模块,包括:
123.打分子模块,用于若所述待识别文本行图像区域为不具有类文字噪声的图像区域,则将针对所述待识别文本行图像区域的文本行识别结果输入所述置信度打分网络,得到所述文本行识别结果的置信度;
124.结果输出子模块,用于输出所述文本行识别结果以及所述文本行识别结果的置信度。
125.在本发明实施例中,通过以下模块训练所述文本行噪声拒识模型:
126.样本获取模块,用于获取文本行图像区域样本和所述文本行图像区域样本对应的文本标注;所述文本行图像区域样本包括具有类文字噪声的图像区域样本和不具有类文字噪声的图像区域样本;
127.解码结果输出模块,用于将所述文本行图像区域样本作为文本行噪声拒识模型的输入;所述文本行噪声拒识模型包括多个预设卷积循环网络以及与各个预设卷积循环网络连接的置信度打分网络;所述各个预设卷积循环网络包括卷积网络和循环网络;通过所述卷积网络提取所述文本行图像区域样本的卷积特征;通过所述循环网络基于所述卷积特征,提取所述文本行图像区域样本的文字行序列特征;通过连接时序分类算法ctc,对所述文字行序列特征进行解码处理,输出ctc贪婪解码结果;
128.训练模块,用于基于所述各个预设卷积循环网络的输出,采用共同学习相互监督策略对所述文本行噪声拒识模型进行训练。
129.在本发明实施例中,所述文本标注包括所述文本行图像区域样本对应的真实标签;所述训练模块,包括:
130.相互学习子模块,用于基于所述各个预设卷积循环网络中卷积网络提取的卷积特征和循环网络提取的文字行序列特征进行相互学习,以使所述各个预设卷积循环网络各自输出的ctc贪婪解码结果趋近所述真实标签;
131.监督标签确定子模块,用于计算所述各个预设卷积循环网络各自输出的ctc贪婪解码结果与所述真实标签之间的编辑距离,作为与所述各个预设卷积循环网络连接的置信度打分网络的监督标签;
132.拟合子模块,用于通过所述置信度打分网络,基于所述监督标签拟合置信区间;
133.参数调整模块,用于采用ctc计算损失,调整文本行噪声拒识模型的参数,以对所述文本行噪声拒识模型进行训练。
134.在本发明实施例中,所述装置还包括:
135.目标网络确定模块,用于将多个预设卷积循环网络作为目标卷积循环网络;
136.或,测试样本获取模块,用于获取文本行图像区域测试样本;
137.测试模块,用于将所述文本行图像区域测试样本输入预先训练好的文本行噪声拒识模型进行测试,得到分别对应所述各个预设卷积循环网络以及与所述各个预设卷积循环网络连接的置信度打分网络的测试结果;
138.网络确定模块,用于将测试结果得分最高的预设卷积循环网络作为目标卷积循环
网络。
139.在本发明实施例中,通过将包括具有类文字噪声的图像区域的待识别文本行图像区域,输入基于具有类文字噪声的图像区域样本、不具有类文字噪声的图像区域样本和样本对应的文本标注训练得到的文本行噪声拒识模型进行处理,得到针对所述待识别文本行图像区域的识别结果;若图像区域为不具有类文字噪声的图像区域,则输出文本行识别结果以及对应的置信度;若图像区域为具有类文字噪声的图像区域,则输出空白识别结果,从而可以通过文本行噪声拒识模型识别出具有类文字噪声的图像区域并输出空白识别结果,避免采用现有的识别模型导致输出噪声无序文字,从而提升含有类文字噪声文本图像上的识别率,进一步提升用户体验。
140.对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
141.本发明实施例还提供了一种电子设备,包括:
142.包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述文本行噪声拒识方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
143.本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现上述文本行噪声拒识方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
144.本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
145.本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
146.本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
147.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
148.这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程
和/或方框图一个方框或多个方框中指定的功能的步骤。
149.尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
150.最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
151.以上对本发明所提供的一种文本行噪声拒识方法、装置、电子设备和存储介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1