一种语义关联文字识别方法及装置与流程

文档序号：26175206发布日期：2021-08-06 18:20阅读：98来源：国知局

本发明涉及图像处理技术领域，具体而言，涉及一种语义关联文字识别方法及装置。

背景技术：

随着互联网技术的蓬勃发展，越来越多的图片在网络中展示、传输或者应用，也应用到了教育、传媒、医学等多个领域，它们的作用越来越不能够被替代。同时，海量的文字在图片中出现，但读者只能够阅读但不能更加方便的进行编辑，如何非常有效地将目标文字从图像中识别出来变成了一项非常有意义的工作。传统的文字识别方法能够较好地将文字识别出来，完成较为精准的识别。然而，传统的方法存在着非常明显的局限性。首先，文字的形式非常多样，往往包含着非常复杂的背景，传统的识别方法无法精准地提取特征，如果直接对其进行识别往往会显著地降低识别的精度。其次，单一的文字往往和上下文有紧密的语义联系，传统的方法往往无法充分考虑上下文的语义信息，或者仅考虑一部分语义关联信息，显著地降低了识别的正确率。

技术实现要素：

本发明的目的在于提供一种语义关联文字识别方法及装置，用以改善现有技术中识别率低的问题。

第一方面，本申请实施例提供一种语义关联文字识别方法，方法包括：获取待识别图像，并获取与其对应的文字模板；计算待识别图像及文字模板之间的相似度；在相似度大于预设值时，确定待识别图像中的文字为目标文字；将目标文字所在的区域划分为多个块；根据语义关联性对每个块中的文字进行检验，得到检验结果；根据检验结果对目标文字进行识别。

上述实现过程中，先获取与待识别图像对应的文字模板，以便于计算待识别图像及文字模板之间的相似度，并根据相似度确定待识别图像中的文字是否为预判定的文字类别，以保证后续语义关联识别的准确性。在确定待识别图像中的文字是否为预判定的文字类别后，可通过多区域关联性检测对图像中的文字进行精准的识别，从而提高文字识别的正确率。

在本发明的一些实施例中，根据检验结果对目标文字进行识别的步骤，包括：若检验结果为语义关联有偏差，则返回执行获取与待识别图像对应的文字模板的步骤。

上述实现过程中，若检验结果为语义关联有偏差，则表明其文字识别不准确，因此可以通过重新匹配文字模板的方法重新选择一个文字模板再执行语义关联性检验的步骤，从而提高文字识别的准确性。

在本发明的一些实施例中，获取待识别图像，并获取与其对应的文字模板的步骤，包括：获取多个包括文字的图像，并对图像进行目标加强处理；根据目标加强处理结果，从图像中确定符合预设条件的文字模板。

上述实现过程中，通过对图像进行目标加强处理，可以增强图像中的有用信息。该处理过程是一个失真的过程，其目的是要改善图像的视觉效果。有目的地强调图像的整体或局部特性，将原来不清晰的图像变得清晰或强调某些感兴趣的特征，扩大图像中不同物体特征之间的差别，抑制不感兴趣的特征，使之改善图像质量、丰富信息量，加强对图像中文字的判读和识别效果。例如，在图像中文字与背景颜色的区别较小的情况。先对图像进行图像加强处理后，可以根据目标加强处理结果，从图像中确定符合预设条件的文字模板，从而可以准确的根据文字模板进行文字识别。

在本发明的一些实施例中，获取多个包括文字的图像，并对图像进行目标加强处理的步骤，包括：对图像进行滤波；将滤波后的图像分割为多个尺度；对不同尺度之间进行减除计算，得到多个细节信息；删除多个细节信息中不满足预设条件的细节信息，以得到目标加强后的文字图像块；将加强后的文字图像块存储至文字数据库。

上述实现过程中，将滤波后的图像分割为多个尺度，再对不同尺度之间进行减除计算，可以得到图像中的多个细节信息，细节信息中可以包括有显著的轮廓信息以及不显著的细节信息。将得到的细节信息中的显著的轮廓信息保留下，删除不显著的细节信息，有利于对文字进行准确的识别，减少不显著的细节信息对文字识别结果的干扰。

在本发明的一些实施例中，根据目标加强处理结果，从图像中确定符合预设条件的文字模板的步骤包括：从文字数据库中挑选出多个文字图像块；对文字图像块进行深度自编码处理，并计算不同文字图像块之间自编码的欧式距离；确定欧式距离小于预设值的多个文字图像块中的多个文字图像块为符合预设条件的文字模板。

上述实现过程中，由于欧式距离较近的两个文字图像块之间较为相似，因此若多个文字图像块中有几个文字图像块之间的欧式距离较近，则可以仅保留其中的一个，经过多次欧式距离的计算，从多个文字图像块中筛选出一批差异性较大的文字图像块作为有代表性的文字模板。

在本发明的一些实施例中，根据语义关联性对每个块中的文字进行检验，得到检验结果的步骤，包括：获取多个文字样本，并对多个文字样本中文字的联合出现概率进行统计；根据联合出现概率对每个块中的文字进行检验。

第二方面，本申请实施例提供一种语义关联文字识别装置，装置包括：文字模板获取模块，用于获取待识别图像，并获取与其对应的文字模板；相似度获取模块，用于计算待识别图像及文字模板之间的相似度；目标文字确定模块，用于在相似度大于预设值时，确定待识别图像中的文字为目标文字；区域划分模块，用于将目标文字所在的区域划分为多个块；语义关联检验模块，用于根据语义关联性对每个块中的文字进行检验，得到检验结果；识别模块，用于根据检验结果对目标文字进行识别。

在本发明的一些实施例中，识别模块包括：文字模板重选单元，用于在检验结果为语义关联有偏差时，则返回执行获取与待识别图像对应的文字模板的步骤。

在本发明的一些实施例中，文字模板获取模块包括：目标加强处理单元，用于获取多个包括文字的图像，并对图像进行目标加强处理；文字模块确定单元，用于根据目标加强处理结果，从图像中确定符合预设条件的文字模板。

在本发明的一些实施例中，目标加强处理单元包括：滤波子单元，用于对图像进行滤波；图像分割子单元，用于将滤波后的图像分割为多个尺度；减除计算子单元，用于对不同尺度之间进行减除计算，得到多个细节信息；筛选子单元，用于删除多个细节信息中不满足预设条件的细节信息，以得到目标加强后的文字图像块；存储子单元，用于将加强后的文字图像块存储至文字数据库。

在本发明的一些实施例中，文字模块确定单元包括：图像块挑选子单元，用于从文字数据库中挑选出多个文字图像块；自编码子单元，用于对文字图像块进行深度自编码处理，并计算不同文字图像块之间自编码的欧式距离；文字模板确定子单元，用于确定欧式距离小于预设值的多个文字图像块中的多个文字图像块为符合预设条件的文字模板。

在本发明的一些实施例中，语义关联检验模块包括：概率统计单元，用于获取多个文字样本，并对多个文字样本中文字的联合出现概率进行统计；检验单元，用于根据联合出现概率对每个块中的文字进行检验。

第三方面，本申请实施例提供一种电子设备，其包括存储器，用于存储一个或多个程序；处理器。当一个或多个程序被处理器执行时，实现如上述第一方面中任一项的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述第一方面中任一项的方法。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的一种语义关联文字识别方法的流程图；

图2为本发明实施例提供的一种语义关联文字识别装置的结构框图；

图3为本发明实施例提供的一种电子设备的结构框图。

图标：100-语义关联文字识别装置；110-文字模板获取模块；120-相似度获取模块；130-目标文字确定模块；140-区域划分模块；150-语义关联检验模块；160-识别模块；101-存储器；102-处理器；103-通信接口。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的各个实施例及实施例中的各个特征可以相互组合。

请参看图1，图1为本发明实施例提供的一种语义关联文字识别方法的流程图。该语义关联文字识别方法包括如下步骤：

步骤s110：获取待识别图像，并获取与其对应的文字模板。

待识别图像为用户选中输入或者通过自动识别确定的待识别图像。而文字模板可以为从模板库中选中的与待识别图像匹配的模板。

步骤s120：计算待识别图像及文字模板之间的相似度。

在计算待识别图像及文字模板之间的相似度时，可以通过比对的方式计算两者之间的相似部分占总体的比值，然后将该比值作为相似度。例如，若两者之间相似部分占总体的比值为80％，则其相似度则可以为80％。

步骤s130：在相似度大于预设值时，确定待识别图像中的文字为目标文字。

在相似度大于预设值时表面该待识别图像中的文字符合文字模板的要求，可以预先对待识别图像中文字的类型进行判定，便于后续对待识别图像进行语义关联性识别，从而提高识别的准确性。

步骤s140：将目标文字所在的区域划分为多个块。

步骤s150：根据语义关联性对每个块中的文字进行检验，得到检验结果。

传统的基于词语字符串匹配的方法在对语义进行分析时，常常由于没有对上下文进行语义关联，所以语言分析结果往往与实际意思不同，因此在用于对图像中的文字进行识别时，无法准确的分析出图像中的文字。通过语义关联对每个块中的文字进行检验，可以有效的对每个块中文字之间进行语义关联，从而得到语义关联的检验结果。

在本发明的一些实施例中，在根据检验结果对目标文字进行识别时，若检验结果为语义关联有偏差，则返回执行获取与待识别图像对应的文字模板的步骤，以重新匹配一个文字模板。

若检验结果为语义关联有偏差，则表明其文字识别不准确，因此可以通过重新匹配文字模板的方法重新选择一个文字模板再执行语义关联性检验的步骤，从而提高文字识别的准确性。若检验结果为语义关联无偏差，则可以继续执行后续步骤。

步骤s160：根据检验结果对目标文字进行识别。

在本发明的一些实施例中，获取待识别图像，并获取与其对应的文字模板时，可以先获取多个包括文字的图像，并对图像进行目标加强处理，然后根据目标加强处理结果，从图像中确定符合预设条件的文字模板。

通过对图像进行目标加强处理，可以增强图像中的有用信息。该处理过程是一个失真的过程，其目的是要改善图像的视觉效果。有目的地强调图像的整体或局部特性，将原来不清晰的图像变得清晰或强调某些感兴趣的特征，扩大图像中不同物体特征之间的差别，抑制不感兴趣的特征，使之改善图像质量、丰富信息量，加强对图像中文字的判读和识别效果。例如，在图像中文字与背景颜色的区别较小的情况。先对图像进行图像加强处理后，可以根据目标加强处理结果，从图像中确定符合预设条件的文字模板，从而可以准确的根据文字模板进行文字识别。

其中，在获取多个包括文字的图像，并对图像进行目标加强处理时，可以先对图像进行滤波，然后将滤波后的图像分割为多个尺度，再对不同尺度之间进行减除计算，得到多个细节信息。最后，删除多个细节信息中不满足预设条件的细节信息，以得到目标加强后的文字图像块。将加强后的文字图像块存储至文字数据库。

其中，可以利用最小二乘滤波器对图像进行过滤。小二乘滤波器是由无系统参数的最小二乘配置。是一种观测数据确定随机参数最佳估值的一种方法，也就是说在其函数模型中不包含非随机参数的部分。图像滤波可以在尽量保留图像细节特征的条件下对目标图像的噪声进行抑制，是图像预处理中不可缺少的操作，其处理效果的好坏将直接影响到后续图像处理和分析的有效性和可靠性。

将滤波后的图像分割为多个尺度，再对不同尺度之间进行减除计算，可以得到图像中的多个细节信息，细节信息中可以包括有显著的轮廓信息以及不显著的细节信息。将得到的细节信息中的显著的轮廓信息保留下，删除不显著的细节信息，有利于对文字进行准确的识别，减少不显著的细节信息对文字识别结果的干扰。

在本发明的一些实施例中，根据目标加强处理结果，从图像中确定符合预设条件的文字模板的过程可以包括以下步骤。先从文字数据库中挑选出多个文字图像块，然后对文字图像块进行深度自编码处理，并计算不同文字图像块之间自编码的欧式距离，确定欧式距离小于预设值的多个文字图像块中的多个文字图像块为符合预设条件的文字模板。

由于欧式距离较近的两个文字图像块之间较为相似，因此若多个文字图像块中有几个文字图像块之间的欧式距离较近，则可以仅保留其中的一个，经过多次欧式距离的计算，从多个文字图像块中筛选出一批差异性较大的文字图像块作为有代表性的文字模板。

通过文字的联合出现概率可以准确的判断出待识别图像中文字的实际意义，因此，可以在对文字进行语义关联性检验时先对文字样本中的文字的联合出现概率进行统计。具体地，可以重点统计少量文字的联合出现概率，作为判断的重要依据；也可以统计多个文字的联合出现概率，作为判断的重要参考。结合统计的联合出现概率，对包含汉字的每个块进行检验，以根据检验结果进行准确的语义识别或修正。

基于同样的发明构思，本发明还提出一种语义关联文字识别装置100，请参看图2，图2为本发明实施例提供的一种语义关联文字识别装置的结构框图。该语义关联文字识别装置包括：

文字模板获取模块110，用于获取待识别图像，并获取与其对应的文字模板；

相似度获取模块120，用于计算待识别图像及文字模板之间的相似度；

目标文字确定模块130，用于在相似度大于预设值时，确定待识别图像中的文字为目标文字；

区域划分模块140，用于将目标文字所在的区域划分为多个块；

语义关联检验模块150，用于根据语义关联性对每个块中的文字进行检验，得到检验结果；

识别模块160，用于根据检验结果对目标文字进行识别。

请参阅图3，图3为本申请实施例提供的电子设备的一种示意性结构框图。电子设备包括存储器101、处理器102和通信接口103，该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器101可用于存储软件程序及模块，如本申请实施例所提供的语义关联文字识别装置100对应的程序指令/模块，处理器102通过执行存储在存储器101内的软件程序及模块，从而执行各种功能应用以及数据处理。该通信接口103可用于与其他节点设备进行信令或数据的通信。

其中，存储器101可以是但不限于，随机存取存储器(randomaccessmemory，ram)，只读存储器(readonlymemory，rom)，可编程只读存储器(programmableread-onlymemory，prom)，可擦除只读存储器(erasableprogrammableread-onlymemory，eprom)，电可擦除只读存储器(electricerasableprogrammableread-onlymemory，eeprom)等。

处理器102可以是一种集成电路芯片，具有信号处理能力。该处理器102可以是通用处理器，包括中央处理器(centralprocessingunit，cpu)、网络处理器(networkprocessor，np)等；还可以是数字信号处理器(digitalsignalprocessing，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现场可编程门阵列(field－programmablegatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以理解，图3所示的结构仅为示意，电子设备还可包括比图3中所示更多或者更少的组件，或者具有与图3所示不同的配置。图3中所示的各组件可以采用硬件、软件或其组合实现。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

综上，本申请实施例提供的一种语义关联文字识别方法及装置，该方法包括：获取待识别图像，并获取与其对应的文字模板；计算待识别图像及文字模板之间的相似度；在相似度大于预设值时，确定待识别图像中的文字为目标文字；将目标文字所在的区域划分为多个块；根据语义关联性对每个块中的文字进行检验，得到检验结果；根据检验结果对目标文字进行识别。上述实现过程中，先获取与待识别图像对应的文字模板，以便于计算待识别图像及文字模板之间的相似度，并根据相似度确定待识别图像中的文字是否为预判定的文字类别，以保证后续语义关联识别的准确性。在确定待识别图像中的文字是否为预判定的文字类别后，可通过多区域关联性检测对图像中的文字进行精准的识别，从而提高文字识别的正确率。

以上仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其它的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐晶
技术所有人：北京惠朗时代科技有限公司
我是此专利的发明人

上一篇：隧道用具有防火功能的水性蓄能发光涂料及其制备方法与流程
上一篇：一种利用共生菌的白芨直播育苗的方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。