一种文字识别纠错方法、纠错系统及计算机装置与流程

文档序号:13557768阅读:288来源:国知局
一种文字识别纠错方法、纠错系统及计算机装置与流程

本发明涉及文字识别技术领域,具体而言,涉及一种文字识别纠错方法、纠错系统、计算机装置及计算机可读存储介质。



背景技术:

云智能服务在进行单据识别系统的研发过程中会使用文字识别技术,文字识别也是系统的主要模块,但是由于图片像素、清晰度、噪音等问题导致文字识别准确率不高,因而对识别错误结果分析和分类时发现大部分被识别成字形相似的字,如“成”识别成了“咸”,因此如何进行纠错进而提升文字识别的准确率成为亟待解决的问题。



技术实现要素:

本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。

为此,本发明的一个方面在于提出了一种文字识别纠错方法。

本发明的另一个方面在于提出了一种文字识别纠错系统。

本发明的再一个方面在于提出了一种计算机装置。

本发明的又一个方面在于提出了一种计算机可读存储介质。

有鉴于此,根据本发明的一个方面,提出了一种文字识别纠错方法,包括:获取文字图片,对文字图片进行识别得到文字识别结果;检测文字识别结果,确定识别错误区域;获取识别错误区域内文字的存在概率,将存在概率小于预设阈值的文字作为错误文字;筛选错误文字的相似候选集;对相似候选集内文字排列组合,并计算匹配得分,将匹配得分最高的组合作为纠错结果;将纠错结果与错误文字进行替换。

本发明提供的文字识别纠错方法,首先获取文字图片,对该文字图片进行ocr(opticalcharacterrecognition,光学字符识别)获取文字识别结果,但在该文字识别结果中可能出现识别误差,即识别出与正确文字相似的字,因此进一步地在文字识别结果中检测出识别错误区域,获取识别错误区域内字与字一起出现的存在概率,将存在概率较低的文字作为错误文字,例如,识别错误区域内出现了“咸功”,而“咸功”的概率非常低,因此“咸功”则作为错误文字,通过先识别出识别错误区域再检测出错误文字可以提高纠错效率。进一步地,筛选错误文字中每个文字对应的相似候选集,将任一相似候选集内的文字与其它候选集内的文字进行排列组合,并将每个组合与领域词典存储中的领域词计算匹配得分,将匹配得分最高的组合作为纠错结果,即为正确的识别结果,将该纠错结果与错误文字进行替换,完成纠错。通过本发明通过对识别文字的自动纠错能够降低了识别过程中人工标注的成本,在加快了识别速度的同时提升了ocr的准确率。

其中,文字的存在概率是通过对于要识别的领域收集一些文章,对文章进行二元和三元分词,即“计算机”分词为:“计算机”,“计算”,“算机”;这样就会训练出自然场景中字和字之间出现的概率。

根据本发明的上述文字识别纠错方法,还可以具有以下技术特征:

在上述技术方案中,优选地,筛选错误文字的相似候选集的步骤,具体包括:根据错误文字的属性与汉字库中文字的属性,计算错误文字与汉字库中文字的相似度得分;将相似度得分大于预设阈值的汉字库中文字进行集合,作为相似候选集。

在该技术方案中,错误文字的相似候选集即为与该错误文字的字形相似的文字的集合,为了给每个错误文字提供字形相似候选集,需要根据文字的属性分别计算每个错误文字与汉字库中文字的相似度得分,将相似度得分大于预设阈值的文字的集合作为错误文字的相似候选集,实现精准地筛选出相似候选集,保证相似度候选集内的文字均为错误文字的相似字。

在上述任一技术方案中,优选地,错误文字的属性以及汉字库中文字的属性包括文字结构、四角码、笔顺编码、字向量。

在该技术方案中,文字结构是文字组成的方式,四角码的编码原则是把汉字的基本笔画分为10种,分别用1、2、3、4、5、6、7、8、9、0十个数字代表,按顺序取汉字的四角的笔划代码作为汉字的编码。笔顺编码是为了记录汉字笔画的书写顺序而设定的具体的笔画的编号,具体如下:横:1、竖:2、撇:3、捺:4、折:5等。字向量是通过数字0、1将汉字表示出来的方式。通过这四种属性可以计算出错误文字与汉字库中文字的相似度得分,从而根据上述属性更加准确地找到错误文字的字形相似候选集。

在上述任一技术方案中,优选地,根据错误文字的属性与汉字库中文字的属性,计算错误文字与汉字库中文字的相似度得分的步骤,具体包括:比较错误文字的文字结构与汉字库中文字的文字结构,当错误文字的文字结构与汉字库中文字的文字结构相同时,得到结构相似度得分;对错误文字的四角码与汉字库中文字的四角码进行编辑距离计算,得到四角码相似度得分;对错误文字的笔顺编码与汉字库中文字的笔顺编码进行编辑距离计算,得到笔顺相似度得分;计算错误文字的字向量与汉字库中文字的字向量的夹角的余弦值,作为字向量相似度得分;计算结构相似度得分、四角码相似度得分、笔顺相似度得分、字向量相似度得分的和,作为相似度得分。

在该技术方案中,两个字的相似度得分=结构相似度得分+四角码相似度得分+笔顺相似度得分+字向量相似度得分,例如,结构相似得分为如果两个字结构相同那么相似度得分为0.5分,否则不加分;四角码相似度得分为两个四角码的编辑距离得分;笔顺编码得分为两个笔顺编码的编辑距离得分;字向量相似得分为两个字的字向量夹角的余弦值。其中,编辑距离指两个字符串之间,由一个转成另一个所需要的最少编辑操作次数。由此得到错误文字与汉字库中文字的相似度得分,进而得到相似候选集,为提高识别精准率打下基础。

在上述任一技术方案中,优选地,对相似候选集内文字排列组合,并计算匹配得分,将匹配得分最高的组合作为纠错结果的步骤,具体包括:对相似候选集内文字排列组合,得到多个词;分别对每个词与领域词典内的领域词进行编辑距离计算,得到匹配得分;将匹配得分最高的词作为纠错结果。

在该技术方案中,对每个相似候选集内的文字分别进行排列组合得到多个词,例如错误文字为“咸交”,而“咸”的相似候选集为[“咸”,“威”,“戚”,“成”,“戒”,“或”],“交”的相似候选集为[“交”,“卒”,“文”,“立”,“妄”,“变”],则排列组合后可以得到“咸交”,“咸卒”,“成交”等词。进一步地,计算每个词与领域词典内的领域词的编辑距离,得到匹配得分,将匹配得分最高的词作为纠错结果,即在该领域词典中只有“成交”的得分最高,因此将利用“成交”替换“咸交”,实现精准地纠错。此外通过领域词典内的文字进行纠错能够减少纠错训练的成本,并且可以进一步地通过更换领域词典提高识别纠错方法的通用性。

在上述任一技术方案中,优选地,还包括:存储错误文字的相似候选集。

在该技术方案中,将错误文字的相似候选集进行存储,在下次需要查找该错误文字的字形相似字时,可以直接利用无需重复获取,方便使用,提高纠错效率。

根据本发明的另一个方面,提出了一种文字识别纠错系统,包括:识别单元,用于获取文字图片,对文字图片进行识别得到文字识别结果;检测单元,用于检测文字识别结果,确定识别错误区域;获取单元,用于获取识别错误区域内文字的存在概率,将存在概率小于预设阈值的文字作为错误文字;筛选单元,用于筛选错误文字的相似候选集;第一计算单元,用于对相似候选集内文字排列组合,并计算匹配得分,将匹配得分最高的组合作为纠错结果;替换单元,用于将纠错结果与错误文字进行替换。

本发明提供的文字识别纠错系统,首先通过识别单元获取文字图片,对该文字图片进行ocr获取文字识别结果,但在该文字识别结果中可能出现识别误差,即识别出与正确文字相似的字,因此进一步地通过检测单元在文字识别结果中检测出识别错误区域,获取单元获取识别错误区域内字与字一起出现的存在概率,将存在概率较低的文字作为错误文字,例如,识别错误区域内出现了“咸功”,而“咸功”的概率非常低,因此“咸功”则作为错误文字,通过先识别出识别错误区域再检测出错误文字可以提高纠错效率。进一步地,通过筛选单元筛选错误文字中每个文字对应的相似候选集,第一计算单元将任一相似候选集内的文字与其它候选集内的文字进行排列组合,并将每个组合与领域词典存储中的领域词计算匹配得分,将匹配得分最高的组合作为纠错结果,即为正确的识别结果,通过替换单元将该纠错结果与错误文字进行替换,完成纠错。通过本发明通过对识别文字的自动纠错能够降低了识别过程中人工标注的成本,在加快了识别速度的同时提升了ocr的准确率。

其中,文字的存在概率是通过对于要识别的领域收集一些文章,对文章进行二元和三元分词,即“计算机”分词为:“计算机”,“计算”,“算机”;这样就会训练出自然场景中字和字之间出现的概率。

根据本发明的上述文字识别纠错系统,还可以具有以下技术特征:

在上述技术方案中,优选地,筛选单元,包括:第二计算单元,用于根据错误文字的属性与汉字库中文字的属性,计算错误文字与汉字库中文字的相似度得分;筛选单元,具体用于将相似度得分大于预设阈值的汉字库中文字进行集合,作为相似候选集。

在该技术方案中,错误文字的相似候选集即为与该错误文字的字形相似的文字的集合,为了给每个错误文字提供字形相似候选集,需要通过第二计算单元根据文字的属性分别计算每个错误文字与汉字库中文字的相似度得分,通过筛选单元将相似度得分大于预设阈值的文字的集合作为错误文字的相似候选集,实现精准地筛选出相似候选集,保证相似度候选集内的文字均为错误文字的相似字。

在上述任一技术方案中,优选地,错误文字的属性以及汉字库中文字的属性包括文字结构、四角码、笔顺编码、字向量。

在该技术方案中,文字结构是文字组成的方式,四角码的编码原则是把汉字的基本笔画分为10种,分别用1、2、3、4、5、6、7、8、9、0十个数字代表,按顺序取汉字的四角的笔划代码作为汉字的编码。笔顺编码是为了记录汉字笔画的书写顺序而设定的具体的笔画的编号,具体如下:横:1、竖:2、撇:3、捺:4、折:5等。字向量是通过数字0、1将汉字表示出来的方式。通过这四种属性可以计算出错误文字与汉字库中文字的相似度得分,从而根据上述属性更加准确地找到错误文字的字形相似候选集。

在上述任一技术方案中,优选地,第二计算单元,具体用于:比较错误文字的文字结构与汉字库中文字的文字结构,当错误文字的文字结构与汉字库中文字的文字结构相同时,得到结构相似度得分;对错误文字的四角码与汉字库中文字的四角码进行编辑距离计算,得到四角码相似度得分;对错误文字的笔顺编码与汉字库中文字的笔顺编码进行编辑距离计算,得到笔顺相似度得分;计算错误文字的字向量与汉字库中文字的字向量的夹角的余弦值,作为字向量相似度得分;计算结构相似度得分、四角码相似度得分、笔顺相似度得分、字向量相似度得分的和,作为相似度得分。

在该技术方案中,两个字的相似度得分=结构相似度得分+四角码相似度得分+笔顺相似度得分+字向量相似度得分,例如,结构相似得分为如果两个字结构相同那么相似度得分为0.5分,否则不加分;四角码相似度得分为两个四角码的编辑距离得分;笔顺编码得分为两个笔顺编码的编辑距离得分;字向量相似得分为两个字的字向量夹角的余弦值。其中,编辑距离指两个字符串之间,由一个转成另一个所需要的最少编辑操作次数。由此得到错误文字与汉字库中文字的相似度得分,进而得到相似候选集,为提高识别精准率打下基础。

在上述任一技术方案中,优选地,第一计算单元,包括:排列单元,用于对相似候选集内文字排列组合,得到多个词;第一计算单元,具体用于分别对每个词与领域词进行编辑距离计算,得到匹配得分;以及将匹配得分最高的词作为纠错结果。

在该技术方案中,排列单元对每个相似候选集内的文字分别进行排列组合得到多个词,例如错误文字为“咸交”,而“咸”的相似候选集为[“咸”,“威”,“戚”,“成”,“戒”,“或”],“交”的相似候选集为[“交”,“卒”,“文”,“立”,“妄”,“变”],则排列组合后可以得到“咸交”,“咸卒”,“成交”等词。进一步地,通过第一计算单元计算每个词与领域词典内的领域词的编辑距离,得到匹配得分,将匹配得分最高的词作为纠错结果,即在该领域词典中只有“成交”的得分最高,因此将利用“成交”替换“咸交”,实现精准地纠错。此外通过领域词典内的文字进行纠错能够减少纠错训练的成本,并且可以进一步地通过更换领域词典提高识别纠错方法的通用性。

在上述任一技术方案中,优选地,还包括:存储单元,用于存储错误文字的所述相似候选集。

在该技术方案中,存储单元将错误文字的相似候选集进行存储,在下次需要查找该错误文字的字形相似字时,可以直接利用无需重复获取,方便使用,提高纠错效率。

根据本发明的再一个方面,提出了一种计算机装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上述任一项的文字识别纠错方法的步骤。

本发明提供的计算机装置,处理器执行计算机程序时实现获取文字图片,对该文字图片进行ocr获取文字识别结果,但在该文字识别结果中可能出现识别误差,即识别出与正确文字相似的字,因此进一步地在文字识别结果中检测出识别错误区域,获取识别错误区域内字与字一起出现的存在概率,将存在概率较低的文字作为错误文字,例如,识别错误区域内出现了“咸功”,而“咸功”的概率非常低,因此“咸功”则作为错误文字,通过先识别出识别错误区域再检测出错误文字可以提高纠错效率。进一步地,筛选错误文字中每个文字对应的相似候选集,将任一相似候选集内的文字与其它候选集内的文字进行排列组合,并将每个组合与领域词典存储中的领域词计算匹配得分,将匹配得分最高的组合作为纠错结果,即为正确的识别结果,将该纠错结果与错误文字进行替换,完成纠错。通过本发明通过对识别文字的自动纠错能够降低了识别过程中人工标注的成本,在加快了识别速度的同时提升了ocr的准确率。

根据本发明的又一个方面,提出了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述任一项的文字识别纠错方法的步骤。

本发明提供的计算机可读存储介质,计算机程序被处理器执行时实现获取文字图片,对该文字图片进行ocr获取文字识别结果,但在该文字识别结果中可能出现识别误差,即识别出与正确文字相似的字,因此进一步地在文字识别结果中检测出识别错误区域,获取识别错误区域内字与字一起出现的存在概率,将存在概率较低的文字作为错误文字,例如,识别错误区域内出现了“咸功”,而“咸功”的概率非常低,因此“咸功”则作为错误文字,通过先识别出识别错误区域再检测出错误文字可以提高纠错效率。进一步地,筛选错误文字中每个文字对应的相似候选集,将任一相似候选集内的文字与其它候选集内的文字进行排列组合,并将每个组合与领域词典存储中的领域词计算匹配得分,将匹配得分最高的组合作为纠错结果,即为正确的识别结果,将该纠错结果与错误文字进行替换,完成纠错。通过本发明通过对识别文字的自动纠错能够降低了识别过程中人工标注的成本,在加快了识别速度的同时提升了ocr的准确率。

本发明的附加方面和优点将在下面的描述部分中变得明显,或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:

图1示出了本发明的一个实施例的文字识别纠错方法的流程示意图;

图2示出了本发明的另一个实施例的文字识别纠错方法的流程示意图;

图3示出了本发明的再一个实施例的文字识别纠错方法的流程示意图;

图4示出了本发明的又一个实施例的文字识别纠错方法的流程示意图;

图5a示出了本发明的一个实施例的文字识别纠错系统的示意框图;

图5b示出了本发明的另一个实施例的文字识别纠错系统的示意框图;

图5c示出了本发明的再一个实施例的文字识别纠错系统的示意框图;

图5d示出了本发明的又一个实施例的文字识别纠错系统的示意框图

图6示出了本发明的一个具体实施例的文字识别纠错方法系统的工作过程示意图;

图7示出了本发明的一个具体实施例的相似候选集的测试结果示意图;

图8示出了本发明的一个具体实施例的汉字库文字属性部分截图;

图9示出了本发明的一个实施例的计算机装置的示意框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不限于下面公开的具体实施例的限制。

本发明第一方面的实施例,提出一种文字识别纠错方法,图1示出了本发明的一个实施例的文字识别纠错方法的流程示意图。其中,该方法包括:

步骤102,获取文字图片,对文字图片进行识别得到文字识别结果;

步骤104,检测文字识别结果,确定识别错误区域;

步骤106,获取识别错误区域内文字的存在概率,将存在概率小于预设阈值的文字作为错误文字;

步骤108,筛选错误文字的相似候选集;

步骤110,对相似候选集内文字排列组合,并计算匹配得分,将匹配得分最高的组合作为纠错结果;

步骤112,将纠错结果与错误文字进行替换。

本发明提供的文字识别纠错方法,首先获取文字图片,对该文字图片进行ocr获取文字识别结果,但在该文字识别结果中可能出现识别误差,即识别出与正确文字相似的字,因此进一步地在文字识别结果中检测出识别错误区域,获取识别错误区域内字与字一起出现的存在概率,将存在概率较低的文字作为错误文字,例如,识别错误区域内出现了“咸功”,而“咸功”的概率非常低,因此“咸功”则作为错误文字,通过先识别出识别错误区域再检测出错误文字可以提高纠错效率。进一步地,筛选错误文字中每个文字对应的相似候选集,将任一相似候选集内的文字与其它候选集内的文字进行排列组合,并将每个组合与领域词典存储中的领域词计算匹配得分,将匹配得分最高的组合作为纠错结果,即为正确的识别结果,将该纠错结果与错误文字进行替换,完成纠错。通过本发明通过对识别文字的自动纠错能够降低了识别过程中人工标注的成本,在加快了识别速度的同时提升了ocr的准确率。

其中,文字的存在概率是通过对于要识别的领域收集一些文章,对文章进行二元和三元分词,即“计算机”分词为:“计算机”,“计算”,“算机”;这样就会训练出自然场景中字和字之间出现的概率。

图2示出了本发明的另一个实施例的文字识别纠错方法的流程示意图。其中,该方法包括:

步骤202,获取文字图片,对文字图片进行识别得到文字识别结果;

步骤204,检测文字识别结果,确定识别错误区域;

步骤206,获取识别错误区域内文字的存在概率,将存在概率小于预设阈值的文字作为错误文字;

步骤208,根据错误文字的属性与汉字库中文字的属性,计算错误文字与汉字库中文字的相似度得分;将相似度得分大于预设阈值的汉字库中文字进行集合,作为相似候选集;

步骤210,对相似候选集内文字排列组合,并计算匹配得分,将匹配得分最高的组合作为纠错结果;

步骤212,将纠错结果与错误文字进行替换。

在该实施例中,错误文字的相似候选集即为与该错误文字的字形相似的文字的集合,为了给每个错误文字提供字形相似候选集,需要根据文字的属性分别计算每个错误文字与汉字库中文字的相似度得分,将相似度得分大于预设阈值的文字的集合作为错误文字的相似候选集,实现精准地筛选出相似候选集,保证相似度候选集内的文字均为错误文字的相似字。

在本发明的一个实施例中,优选地,错误文字的属性以及汉字库中文字的属性包括文字结构、四角码、笔顺编码、字向量。

在该实施例中,文字结构是文字组成的方式,四角码的编码原则是把汉字的基本笔画分为10种,分别用1、2、3、4、5、6、7、8、9、0十个数字代表,按顺序取汉字的四角的笔划代码作为汉字的编码。笔顺编码是为了记录汉字笔画的书写顺序而设定的具体的笔画的编号,具体如下:横:1、竖:2、撇:3、捺:4、折:5等。字向量是通过数字0、1将汉字表示出来的方式。通过这四种属性可以计算出错误文字与汉字库中文字的相似度得分,从而根据上述属性更加准确地找到错误文字的字形相似候选集。

图3示出了本发明的再一个实施例的文字识别纠错方法的流程示意图。其中,该方法包括:

步骤302,获取文字图片,对文字图片进行识别得到文字识别结果;

步骤304,检测文字识别结果,确定识别错误区域;

步骤306,获取识别错误区域内文字的存在概率,将存在概率小于预设阈值的文字作为错误文字;

步骤308,比较错误文字的文字结构与汉字库中文字的文字结构,当错误文字的文字结构与汉字库中文字的文字结构相同时,得到结构相似度得分;对错误文字的四角码与汉字库中文字的四角码进行编辑距离计算,得到四角码相似度得分;对错误文字的笔顺编码与汉字库中文字的笔顺编码进行编辑距离计算,得到笔顺相似度得分;计算错误文字的字向量与汉字库中文字的字向量的夹角的余弦值,作为字向量相似度得分;

步骤310,计算结构相似度得分、四角码相似度得分、笔顺相似度得分、字向量相似度得分的和,作为相似度得分;

步骤312,将相似度得分大于预设阈值的汉字库中文字进行集合,作为相似候选集;

步骤314,对相似候选集内文字排列组合,并计算匹配得分,将匹配得分最高的组合作为纠错结果;

步骤316,将纠错结果与错误文字进行替换。

在该实施例中,两个字的相似度得分=结构相似度得分+四角码相似度得分+笔顺相似度得分+字向量相似度得分,例如,结构相似得分为如果两个字结构相同那么相似度得分为0.5分,否则不加分;四角码相似度得分为两个四角码的编辑距离得分;笔顺编码得分为两个笔顺编码的编辑距离得分;字向量相似得分为两个字的字向量夹角的余弦值。其中,编辑距离指两个字符串之间,由一个转成另一个所需要的最少编辑操作次数。由此得到错误文字与汉字库中文字的相似度得分,进而得到相似候选集,为提高识别精准率打下基础。

图4示出了本发明的又一个实施例的文字识别纠错方法的流程示意图。其中,该方法包括:

步骤402,获取文字图片,对文字图片进行识别得到文字识别结果;

步骤404,检测文字识别结果,确定识别错误区域;

步骤406,获取识别错误区域内文字的存在概率,将存在概率小于预设阈值的文字作为错误文字;

步骤408,比较错误文字的文字结构与汉字库中文字的文字结构,当错误文字的文字结构与汉字库中文字的文字结构相同时,得到结构相似度得分;对错误文字的四角码与汉字库中文字的四角码进行编辑距离计算,得到四角码相似度得分;对错误文字的笔顺编码与汉字库中文字的笔顺编码进行编辑距离计算,得到笔顺相似度得分;计算错误文字的字向量与汉字库中文字的字向量的夹角的余弦值,作为字向量相似度得分;

步骤410,计算结构相似度得分、四角码相似度得分、笔顺相似度得分、字向量相似度得分的和,作为相似度得分;

步骤412,将相似度得分大于预设阈值的汉字库中文字进行集合,作为相似候选集;

步骤414,对相似候选集内文字排列组合,得到多个词;分别对每个词与领域词典内的领域词进行编辑距离计算,得到匹配得分;将匹配得分最高的词作为纠错结果;

步骤416,将纠错结果与错误文字进行替换。

在该实施例中,对每个相似候选集内的文字分别进行排列组合得到多个词,例如错误文字为“咸交”,而“咸”的相似候选集为[“咸”,“威”,“戚”,“成”,“戒”,“或”],“交”的相似候选集为[“交”,“卒”,“文”,“立”,“妄”,“变”],则排列组合后可以得到“咸交”,“咸卒”,“成交”等词。进一步地,计算每个词与领域词典内的领域词的编辑距离,得到匹配得分,将匹配得分最高的词作为纠错结果,即在该领域词典中只有“成交”的得分最高,因此将利用“成交”替换“咸交”,实现精准地纠错。此外通过领域词典内的文字进行纠错能够减少纠错训练的成本,并且可以进一步地通过更换领域词典提高识别纠错方法的通用性。

在本发明的一个实施例中,优选地,还包括:存储错误文字的相似候选集。

在该实施例中,将错误文字的相似候选集进行存储,在下次需要查找该错误文字的字形相似字时,可以直接利用无需重复获取,方便使用,提高纠错效率。

本发明第二方面的实施例,提出一种文字识别纠错系统,图5a示出了本发明的一个实施例的文字识别纠错系统500的示意框图。其中,该系统包括:

识别单元502,用于获取文字图片,对文字图片进行识别得到文字识别结果;

检测单元504,用于检测文字识别结果,确定识别错误区域;

获取单元506,用于获取识别错误区域内文字的存在概率,将存在概率小于预设阈值的文字作为错误文字;

筛选单元508,用于筛选错误文字的相似候选集;

第一计算单元510,用于对相似候选集内文字排列组合,并计算匹配得分,将匹配得分最高的组合作为纠错结果;

替换单元512,用于将纠错结果与错误文字进行替换。

本发明提供的文字识别纠错系统500,首先通过识别单元502获取文字图片,对该文字图片进行ocr获取文字识别结果,但在该文字识别结果中可能出现识别误差,即识别出与正确文字相似的字,因此进一步地通过检测单元504在文字识别结果中检测出识别错误区域,获取单元506获取识别错误区域内字与字一起出现的存在概率,将存在概率较低的文字作为错误文字,例如,识别错误区域内出现了“咸功”,而“咸功”的概率非常低,因此“咸功”则作为错误文字,通过先识别出识别错误区域再检测出错误文字可以提高纠错效率。进一步地,通过筛选单元508筛选错误文字中每个文字对应的相似候选集,第一计算单元510将任一相似候选集内的文字与其它候选集内的文字进行排列组合,并将每个组合与领域词典存储中的领域词计算匹配得分,将匹配得分最高的组合作为纠错结果,即为正确的识别结果,通过替换单元512将该纠错结果与错误文字进行替换,完成纠错。通过本发明通过对识别文字的自动纠错能够降低了识别过程中人工标注的成本,在加快了识别速度的同时提升了ocr的准确率。

其中,文字的存在概率是通过对于要识别的领域收集一些文章,对文章进行二元和三元分词,即“计算机”分词为:“计算机”,“计算”,“算机”;这样就会训练出自然场景中字和字之间出现的概率。

图5b示出了本发明的另一个实施例的文字识别纠错系统500的示意框图。其中,该系统包括:

识别单元502,用于获取文字图片,对文字图片进行识别得到文字识别结果;

检测单元504,用于检测文字识别结果,确定识别错误区域;

获取单元506,用于获取识别错误区域内文字的存在概率,将存在概率小于预设阈值的文字作为错误文字;

筛选单元508,用于筛选错误文字的相似候选集;

第一计算单元510,用于对相似候选集内文字排列组合,并计算匹配得分,将匹配得分最高的组合作为纠错结果;

替换单元512,用于将纠错结果与错误文字进行替换;

筛选单元508,包括:第二计算单元5082,用于根据错误文字的属性与汉字库中文字的属性,计算错误文字与汉字库中文字的相似度得分;

筛选单元508,具体用于将相似度得分大于预设阈值的汉字库中文字进行集合,作为相似候选集。

在该实施例中,错误文字的相似候选集即为与该错误文字的字形相似的文字的集合,为了给每个错误文字提供字形相似候选集,需要通过第二计算单元5082根据文字的属性分别计算每个错误文字与汉字库中文字的相似度得分,通过筛选单元508将相似度得分大于预设阈值的文字的集合作为错误文字的相似候选集,实现精准地筛选出相似候选集,保证相似度候选集内的文字均为错误文字的相似字。

在本发明的一个实施例中,优选地,错误文字的属性以及汉字库中文字的属性包括文字结构、四角码、笔顺编码、字向量。

在该实施例中,文字结构是文字组成的方式,四角码的编码原则是把汉字的基本笔画分为10种,分别用1、2、3、4、5、6、7、8、9、0十个数字代表,按顺序取汉字的四角的笔划代码作为汉字的编码。笔顺编码是为了记录汉字笔画的书写顺序而设定的具体的笔画的编号,具体如下:横:1、竖:2、撇:3、捺:4、折:5等。字向量是通过数字0、1将汉字表示出来的方式。通过这四种属性可以计算出错误文字与汉字库中文字的相似度得分,从而根据上述属性更加准确地找到错误文字的字形相似候选集。

在本发明的一个实施例中,优选地,第二计算单元5082,具体用于:比较错误文字的文字结构与汉字库中文字的文字结构,当错误文字的文字结构与汉字库中文字的文字结构相同时,得到结构相似度得分;对错误文字的四角码与汉字库中文字的四角码进行编辑距离计算,得到四角码相似度得分;对错误文字的笔顺编码与汉字库中文字的笔顺编码进行编辑距离计算,得到笔顺相似度得分;计算错误文字的字向量与汉字库中文字的字向量的夹角的余弦值,作为字向量相似度得分;计算结构相似度得分、四角码相似度得分、笔顺相似度得分、字向量相似度得分的和,作为相似度得分。

在该实施例中,两个字的相似度得分=结构相似度得分+四角码相似度得分+笔顺相似度得分+字向量相似度得分,例如,结构相似得分为如果两个字结构相同那么相似度得分为0.5分,否则不加分;四角码相似度得分为两个四角码的编辑距离得分;笔顺编码得分为两个笔顺编码的编辑距离得分;字向量相似得分为两个字的字向量夹角的余弦值。其中,编辑距离指两个字符串之间,由一个转成另一个所需要的最少编辑操作次数。由此得到错误文字与汉字库中文字的相似度得分,进而得到相似候选集,为提高识别精准率打下基础。

图5c示出了本发明的再一个实施例的文字识别纠错系统500的示意框图。其中,该系统包括:

识别单元502,用于获取文字图片,对文字图片进行识别得到文字识别结果;

检测单元504,用于检测文字识别结果,确定识别错误区域;

获取单元506,用于获取识别错误区域内文字的存在概率,将存在概率小于预设阈值的文字作为错误文字;

筛选单元508,用于筛选错误文字的相似候选集;

第一计算单元510,用于对相似候选集内文字排列组合,并计算匹配得分,将匹配得分最高的组合作为纠错结果;

替换单元512,用于将纠错结果与错误文字进行替换;

筛选单元508,包括:第二计算单元5082,用于根据错误文字的属性与汉字库中文字的属性,计算错误文字与汉字库中文字的相似度得分;

筛选单元508,具体用于将相似度得分大于预设阈值的汉字库中文字进行集合,作为相似候选集;

第一计算单元510,包括:排列单元5102,用于对相似候选集内文字排列组合,得到多个词;

第一计算单元510,具体用于分别对每个词与领域词进行编辑距离计算,得到匹配得分;以及将匹配得分最高的词作为纠错结果。

在该实施例中,排列单元5102对每个相似候选集内的文字分别进行排列组合得到多个词,例如错误文字为“咸交”,而“咸”的相似候选集为[“咸”,“威”,“戚”,“成”,“戒”,“或”],“交”的相似候选集为[“交”,“卒”,“文”,“立”,“妄”,“变”],则排列组合后可以得到“咸交”,“咸卒”,“成交”等词。进一步地,通过第一计算单元510计算每个词与领域词典内的领域词的编辑距离,得到匹配得分,将匹配得分最高的词作为纠错结果,即在该领域词典中只有“成交”的得分最高,因此将利用“成交”替换“咸交”,实现精准地纠错。此外通过领域词典内的文字进行纠错能够减少纠错训练的成本,并且可以进一步地通过更换领域词典提高识别纠错方法的通用性。

图5d示出了本发明的又一个实施例的文字识别纠错系统500的示意框图。其中,该系统包括:

识别单元502,用于获取文字图片,对文字图片进行识别得到文字识别结果;

检测单元504,用于检测文字识别结果,确定识别错误区域;

获取单元506,用于获取识别错误区域内文字的存在概率,将存在概率小于预设阈值的文字作为错误文字;

筛选单元508,用于筛选错误文字的相似候选集;

第一计算单元510,用于对相似候选集内文字排列组合,并计算匹配得分,将匹配得分最高的组合作为纠错结果;

替换单元512,用于将纠错结果与错误文字进行替换;

筛选单元508,包括:第二计算单元5082,用于根据错误文字的属性与汉字库中文字的属性,计算错误文字与汉字库中文字的相似度得分;

筛选单元508,具体用于将相似度得分大于预设阈值的汉字库中文字进行集合,作为相似候选集;

第一计算单元510,包括:排列单元5102,用于对相似候选集内文字排列组合,得到多个词;

第一计算单元510,具体用于分别对每个词与领域词进行编辑距离计算,得到匹配得分;以及将匹配得分最高的词作为纠错结果;

文字识别纠错系统500还包括:存储单元514,用于存储错误文字的所述相似候选集。

在该实施例中,存储单元514将错误文字的相似候选集进行存储,在下次需要查找该错误文字的字形相似字时,可以直接利用无需重复获取,方便使用,提高纠错效率。

图6示出了本发明的一个具体实施例的文字识别纠错方法系统的工作过程示意图。其中,该工作过程包括:

将请求输入输入至文字识别纠错装置接口后,对请求输入进行错误区域判定,对错误区域进行纠错计算,得出结果,再将结果通过文字识别纠错装置接口输出。纠错计算具体包括:通过将汉字字典中的文字进行字形相似度计算得出错误区域内错误文字的相似候选集,再对相似候选集内的文字进行排列组合进行该错误区域的纠错结果的计算。

图7示出了本发明的一个具体实施例的相似候选集的测试结果示意图。其中,需要测试文字为“大”,当按照综合属性(四角码+笔顺+五角+图片)进行测试时,得到的测试结果包括“大”、“犬”、“丈”等;当按照图片属性进行测试时,得到的测试结果包括“大”、“犬”、“人”等;当按照四角码属性进行测试时,得到的测试结果包括“大”、“走”、“灰”等;当按照五笔属性进行测试时,得到的测试结果包括“大”、“非”、“兢”等;当按照笔顺属性进行测试时,得到的测试结果包括“大”、“丈”、“天”等;当按照四角码+笔顺+图片的属性进行测试时,得到的测试结果包括“大”、“犬”、“丈”等;当按照四角码+笔顺属性进行测试时,得到的测试结果包括“大”、“犬”、“丈”等。图8示出了本发明的一个具体实施例的汉字库文字属性部分截图。其中包括属性有字、结构、部首、笔顺编号、四角码、五笔,通过汉字库文字属性计算出相似候选集。

本发明第三方面的实施例,提出一种计算机装置,图9示出了本发明的一个实施例的计算机装置900的示意框图。其中,该计算机装置900包括:

存储器902、处理器904及存储在存储器902上并可在处理器904上运行的计算机程序,处理器904执行计算机程序时实现如上述任一项的文字识别纠错方法的步骤。

本发明提供的计算机装置900,处理器904执行计算机程序时实现获取文字图片,对该文字图片进行ocr获取文字识别结果,但在该文字识别结果中可能出现识别误差,即识别出与正确文字相似的字,因此进一步地在文字识别结果中检测出识别错误区域,获取识别错误区域内字与字一起出现的存在概率,将存在概率较低的文字作为错误文字,例如,识别错误区域内出现了“咸功”,而“咸功”的概率非常低,因此“咸功”则作为错误文字,通过先识别出识别错误区域再检测出错误文字可以提高纠错效率。进一步地,筛选错误文字中每个文字对应的相似候选集,将任一相似候选集内的文字与其它候选集内的文字进行排列组合,并将每个组合与领域词典存储中的领域词计算匹配得分,将匹配得分最高的组合作为纠错结果,即为正确的识别结果,将该纠错结果与错误文字进行替换,完成纠错。通过本发明通过对识别文字的自动纠错能够降低了识别过程中人工标注的成本,在加快了识别速度的同时提升了ocr的准确率。

本发明第四方面的实施例,提出了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述任一项的文字识别纠错方法的步骤。

本发明提供的计算机可读存储介质,计算机程序被处理器执行时实现获取文字图片,对该文字图片进行ocr获取文字识别结果,但在该文字识别结果中可能出现识别误差,即识别出与正确文字相似的字,因此进一步地在文字识别结果中检测出识别错误区域,获取识别错误区域内字与字一起出现的存在概率,将存在概率较低的文字作为错误文字,例如,识别错误区域内出现了“咸功”,而“咸功”的概率非常低,因此“咸功”则作为错误文字,通过先识别出识别错误区域再检测出错误文字可以提高纠错效率。进一步地,筛选错误文字中每个文字对应的相似候选集,将任一相似候选集内的文字与其它候选集内的文字进行排列组合,并将每个组合与领域词典存储中的领域词计算匹配得分,将匹配得分最高的组合作为纠错结果,即为正确的识别结果,将该纠错结果与错误文字进行替换,完成纠错。通过本发明通过对识别文字的自动纠错能够降低了识别过程中人工标注的成本,在加快了识别速度的同时提升了ocr的准确率。

在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1