本技术涉及图像处理领域,尤其涉及一种识别结果处理方法、设备及计算机可读介质。
背景技术:
1、光学字符识别(ocr,optical character recognition)是指利用电子设备采用光学的方式将纸张等实体文档中的文字转换成为图像文件,并通过图像识别技术对图像中的文字进行识别,以获取文本信息的技术。在现有的ocr识别方案中,对于初步得到的识别结果,通常采用可以两种方式进行处理,一种是贪婪搜索(greedy search)算法,另一种是束搜索(beam search)算法。
2、对于束搜索算法,一般会设置n条搜索路径,也就是会得到n条候选结果,然后通过一个外置的语言模型,选出这n条候选结果概率最大的候选结果作为最后的识别结果。但是外置的语言模型一般是通过n-gram方法统计而来,需要业务专业知识定制,而且n的设置不同,也会导致选出不同的结果。因此,此类ocr识别方案的准确性会受限于外置语言模型的性能,若外置语言模型的性能不佳时,ocr识别方案的准确性也会受到严重影响,导致识别性能较差。
技术实现思路
1、本技术的一个目的是提供一种识别结果处理方法、设备及计算机可读介质,用以解决现有识别方案的识别性能受限于外置的语言模型,准确性不足的问题。
2、为实现上述目的,本技术实施例提供了一种识别结果处理方法,所述方法包括:
3、对输入图像进行光学字符识别,获取多组候选识别结果,所述候选识别结果包括文本行内容以及所述文本行内容对应的文本行位置;
4、根据每组候选识别结果的文本行位置从所述输入图像中截取对应的文本行图像,并根据所述输入图像、所述文本行图像以及所述文本行位置,提取关注于图像的第一特征信息;
5、对每组候选识别结果的文本行内容进行拼接,获取识别文本,并根据所述识别文本、所述文本行内容以及所述文本行位置,提取关注于文本的第二特征信息;
6、将每组候选识别结果的所述第一特征信息和第二特征信息进行特征拼接,获取拼接特征信息;
7、根据每组候选识别结果的拼接特征信息,计算对应的质量分值;
8、根据每组候选识别结果对应的质量分值,从所述多组候选识别结果中确定本次光学字符识别的识别结果。
9、进一步地,根据所述输入图像、所述文本行图像以及所述文本行位置,提取关注于图像的第一特征信息,包括:
10、对所述输入图像进行特征抽取,得到整体图像特征信息;
11、对所述文本行图像进行特征抽取,得到局部图像特征信息;
12、对所述文本行位置进行特征抽取,得到位置特征信息;
13、基于交叉注意力机制,对所述整体图像特征信息、局部图像特征信息和位置特征信息进行特征融合,获取关注于图像的第一特征信息。
14、进一步地,基于交叉注意力机制,对所述整体图像特征信息、局部图像特征信息和位置特征信息进行特征融合,获取关注于图像的第一特征信息,包括:
15、将所述整体图像特征信息作为交叉注意力机制模型的q向量特征,将所述局部图像特征信息作为交叉注意力机制模型的k向量特征,将所述位置特征信息作为交叉注意力机制模型的v向量特征,输入至交叉注意力机制模型,获取初步融合图像特征信息;
16、将所述初步融合图像特征信息作为交叉注意力机制模型的q向量特征,将所述局部图像特征信息作为交叉注意力机制模型的k向量特征,将所述位置特征信息作为交叉注意力机制模型的v向量特征,输入至交叉注意力机制模型,获取关注于图像的第一特征信息。
17、进一步地,对每组候选识别结果的文本行内容进行拼接,获取识别文本,并根据所述识别文本、所述文本行内容以及所述文本行位置,提取关注于文本的第二特征信息,包括:
18、对所述文本行内容进行特征抽取,得到局部文本特征信息;
19、对所述识别文本进行特征抽取,得到整体文本特征信息;
20、对所述文本行位置进行特征抽取,得到位置特征信息;
21、基于交叉注意力机制,对所述整体文本特征信息、局部文本特征信息和位置特征信息进行特征融合,获取关注于文本的第二特征信息。
22、进一步地,基于交叉注意力机制,对所述整体文本特征信息、局部文本特征信息和位置特征信息进行特征融合,获取关注于文本的第二特征信息,包括:
23、将所述整体文本特征信息作为交叉注意力机制模型的q向量特征,将所述局部文本特征信息作为交叉注意力机制模型的k向量特征,将所述位置特征信息作为交叉注意力机制模型的v向量特征,输入至交叉注意力机制模型,获取初步融合文本特征信息;
24、将所述初步融合文本特征信息作为交叉注意力机制模型的q向量特征,将所述局部文本特征信息作为交叉注意力机制模型的k向量特征,将所述位置特征信息作为交叉注意力机制模型的v向量特征,输入至交叉注意力机制模型,获取关注于文本的第二特征信息。
25、进一步地,根据每组候选识别结果的拼接特征信息,计算对应的质量分值,包括:
26、将所述拼接特征信息进行特征编码,并将特征编码结果与预设评分字符的空间特征嵌入结果拼接后,输入至预设的编码器模型中,获取预设评分字符对应位置的输出信息;
27、使用预设的分类激活函数,确定所述输出信息对应的分量分值。
28、进一步地,所述预设的编码器模型为transformer模型的编码器模块。
29、进一步地,根据每组候选识别结果对应的质量分值,从所述多组候选识别结果中确定本次光学字符识别的识别结果,包括:
30、对每组候选识别结果对应的质量分值进行排序;
31、将所述排序结果中质量分值最高的候选识别结果,作为本次光学字符识别的识别结果。
32、本技术的一些实施例还提供了一种识别结果处理设备,其中,该设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发所述设备执行前述的识别结果处理方法。
33、本技术的另一些实施例还提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令可被处理器执行以实现所述的识别结果处理方法。
34、相较于现有技术,本技术实施例提供的一种识别结果处理方案,该方案对输入图像进行光学字符识别,获取多组候选识别结果,然后根据每组候选识别结果的文本行位置从所述输入图像中截取对应的文本行图像,并根据所述输入图像、所述文本行图像以及所述文本行位置,提取关注于图像的第一特征信息;对每组候选识别结果的文本行内容进行拼接,获取识别文本,并根据所述识别文本、所述文本行内容以及所述文本行位置,提取关注于文本的第二特征信息;将每组候选识别结果的所述第一特征信息和第二特征信息进行特征拼接,获取拼接特征信息,并根据每组候选识别结果的拼接特征信息,计算对应的质量分值;根据每组候选识别结果对应的质量分值,从所述多组候选识别结果中确定本次光学字符识别的识别结果。本方案不需要依赖外置的语言模型,而是可以结合原始的输入图像、识别出的文本行位置、文本行内容以及所有识别文本等额外的信息,对候选识别结果的识别质量进行评分,从而实现了从图像和文本两方面,对候选识别结果进行全局(整体的输入图像、所有识别文本)加局部(每条文本行内容、文本行图像以及文本行位置)的筛选,解决了识别性能受限于外置的语言模型的问题,并且有效提高了识别的准确性。