生僻字处理方法、计算设备及计算机存储介质与流程

文档序号:16000729发布日期:2018-11-20 19:25阅读:312来源:国知局

本发明涉及文本识别技术领域,具体涉及一种生僻字处理方法、计算设备及计算机存储介质。



背景技术:

目前,随着手机等移动终端的普及以及电子书阅读器的发展,电子书越来越受阅读用户的青睐。与此同时,在电子阅读器中,为使文档内容能够根据阅读设备的特性,以最适于阅读的方式显示,需将版式文档转成流式文档,例如,将PDF文档转成电子出版文档(Electronic Publication,简称ePUB)。

然而,由于PDF等版式文档的字符编码方式有限,导致大量生僻字只能以路径线的形式表示出来,针对这些生僻字,则需要采用生僻字的识别方法,来得到特定位置的生僻字的识别结果,例如得到特定位置的生僻字图片;而在流式文档的填充过程中,则用保存的特定位置的生僻字的识别结果来进行对应位置的生字僻填充,以使呈现给用户的流式文档的内容完整且有序。但是,若在版式文档的不同位置,均出现相同的生僻字,则需要分别保存对应多处不同位置的生僻字的识别结果,例如,版式文档中的生僻字a出现了100次,则在已识别结果中保存对应100处生僻字a的相同的识别结果,这样会使保存的生僻字的识别结果存在大量的重复,极大的增加了书籍文件的数据量。



技术实现要素:

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的生僻字处理方法、计算设备及计算机存储介质。

根据本发明的一个方面,提供了对文档的文本对象进行识别,确定待识别生僻字区域,获取待识别生僻字区域内的待识别生僻字信息;

根据相似度匹配规则,判断所述文档的已识别结果中是否存在与所述待识别生僻字信息匹配的已识别生僻字信息;

若是,则将所述已识别生僻字信息对应的识别结果作为所述待识别生僻字区域的识别结果。

根据本发明的另一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;

所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下操作:

对文档的文本对象进行识别,确定待识别生僻字区域,获取待识别生僻字区域内的待识别生僻字信息;

根据相似度匹配规则,判断所述文档的已识别结果中是否存在与所述待识别生僻字信息匹配的已识别生僻字信息;

若是,则将所述已识别生僻字信息对应的识别结果作为所述待识别生僻字区域的识别结果。

根据本发明的又一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行以下操作:

对文档的文本对象进行识别,确定待识别生僻字区域,获取待识别生僻字区域内的待识别生僻字信息;

根据相似度匹配规则,判断所述文档的已识别结果中是否存在与所述待识别生僻字信息匹配的已识别生僻字信息;

若是,则将所述已识别生僻字信息对应的识别结果作为所述待识别生僻字区域的识别结果。

根据本发明提供的生僻字处理方法、计算设备及计算机存储介质,根据相似度匹配规则,判断文档的已识别结果中是否存在与待识别生僻字信息匹配的已识别生僻字信息;若存在,则不再像现有技术一样,针对该待识别生僻字进行识别,以及对识别结果进行保存,而是将相匹配的已识别生僻字信息对应的识别结果直接作为待识别生僻字区域的识别结果。由此可见,本发明方案,针对相同的生僻字,仅需保存唯一一份识别结果,以及,在显示待识别生僻字的场景中,直接用相同的已识别生僻字的识别结果作为待识别生僻字区域的识别结果,避免了大量重复的识别结果的存储,进而减小了书籍文件的大小。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了根据本发明一个实施例的生僻字处理方法的流程图;

图2示出了根据本发明另一个实施例的生僻字处理方法的流程图;

图3示出了根据本发明又一个实施例的生僻字处理方法的流程图;

图4示出了根据本发明实施例的一种计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的生僻字处理方法的流程图。如图1所示,该方法包括:

步骤S101,对文档的文本对象进行识别,确定待识别生僻字区域,获取待识别生僻字区域内的待识别生僻字信息。

其中,文档为版式文档;文档的文本对象包括通过字符编码方式编码出的字符文本,以及通过路径线描绘出的生僻字。

其中,待识别生僻字信息为能够用于表示待识别生僻字的结构组成的信息。例如,待识别生僻字信息为表示组成待识别生僻字的路径线数量的信息。

具体地,在进行版式文档的文本对象的识别时,字符文本通过现有的文本识别技术可以较容易识别出;而由于待识别生僻字是通过路径线描绘出的,不是通过编码得到的,因此会识别失败。即,在识别结果中对应待识别生僻字所在的位置未识别出字符文本。基于此,本步骤中,根据各个位置的识别结果确定待识别生僻字区域。但是,在本发明中,不对确定待识别生僻字区域的具体方式做任何限定,具体实施时,本领域技术人员可根据实际情况选择合适的方式,可选的,根据对应位置是否存在路径线,来确定待识别生僻字区域。

步骤S102,根据相似度匹配规则,判断文档的已识别结果中是否存在与待识别生僻字信息匹配的已识别生僻字信息。若是,则执行步骤S103;若否,则本方法结束。

其中,相似度匹配规则根据相同生僻字的结构组成上的相似信息进行设置。例如,相同生僻字的对应路径线的位置关系是一致的,则可据此设置相似度匹配规则为:根据待识别生僻字与已识别生僻字的路径线的位置关系的一致性进行相似度匹配。

具体地,根据相似度匹配规则,将待识别生僻字信息与已识别结果中的已识别生僻字信息进行相似度比较,根据比较结果判断是否存在与待识别生僻字信息匹配的已识别生僻字信息,若存在,则确定该相匹配的已识别生僻字信息对应的已识别生僻字为与待识别生僻字相同的生僻字,则不再针对该待识别生僻字进行识别,以及不再重复保存相同的识别结果,即待识别生僻字的识别结果,而是执行步骤S103,以根据已识别生僻字信息对应的识别结果处理待识别生僻字;若不存在,则确定所有已识别生僻字信息对应的已识别生僻字均不与待识别生僻字相同,即待识别生僻字为新的生僻字,则针对待识别生僻字进一步进行识别,识别完成后,将待识别生僻字信息的识别结果作为已识别生僻字的识别结果、以及将待识别生僻字信息作为已识别生僻字信息存储在已识别结果中,以便下一次匹配判断时使用。在本发明中,不对识别待识别生僻字的方法做具体限定,具体实施时,本领域技术人员可灵活确定识别方法,可选的,根据待识别生僻字区域的截图,对待识别生僻字进行识别。

举例来说,文档1的已识别结果中,对应已识别生僻字a、已识别生僻字b、以及已识别生僻字c,分别保存有已识别生僻字信息A、已识别生僻字信息B、以及已识别生僻字信息C。将当前待识别生僻字信息D与已识别生僻字信息A、已识别生僻字信息B、以及已识别生僻字信息C进行比较,若待识别生僻字信息D与已识别生僻字信息B相匹配,则确定待识别生僻字信息D对应的待识别生僻字d与已识别生僻字信息B对应的已识别生僻字b相同,则执行步骤S103,根据已识别生僻字信息B对应的识别结果b处理待识别生僻字d;若待识别生僻字信息D与已识别生僻字信息A、已识别生僻字信息B、以及已识别生僻字信息C均不匹配,则确定待识别生僻字信息D对应的待识别生僻字d为新的生僻字,则针对待识别生僻字d进行生僻字识别。

步骤S103,将已识别生僻字信息对应的识别结果作为待识别生僻字区域的识别结果。

具体地,在判断处文档的已识别结果中存在与待识别生僻字信息匹配的已识别生僻字信息后,建立相匹配的待识别生僻字与已识别生僻字的关联关系。可选的,建立待识别生僻字与相匹配的已识别生僻字信息的关联关系,或者,建立待识别生僻字与相匹配的已识别生僻字信息对应的识别结果的关联关系。在需要显示该待识别生僻字的场景中,则根据关联关系,确定相同的已识别生僻字的识别结果;然后将该识别结果填充到显示待识别生僻字的待识别生僻字区域中。

根据本实施例提供的生僻字处理方法,根据相似度匹配规则,判断文档的已识别结果中是否存在与待识别生僻字信息匹配的已识别生僻字信息;若存在,则不再像现有技术一样,针对该待识别生僻字进行识别,以及对识别结果进行保存,而是将相匹配的已识别生僻字信息对应的识别结果直接作为待识别生僻字区域的识别结果。由此可见,本实施例方案,针对相同的生僻字,仅需保存唯一一份识别结果,以及,在显示待识别生僻字的场景中,直接用相同的已识别生僻字的识别结果作为待识别生僻字区域的识别结果,避免了大量重复的识别结果的存储,进而减小了书籍文件的大小。

图2示出了根据本发明另一个实施例的生僻字处理方法的流程图。在本实施例中,生僻字信息具体为路径线信息。如图2所示,该方法包括:

步骤S201,对文档的文本对象进行识别,确定待识别生僻字区域,获取待识别生僻字区域内的待识别生僻字路径线信息。

其中,待识别生僻字路径线信息包括待识别生僻字路径线的数量,以及待识别生僻字各条路径线的位置信息。

本实施例中,首先根据文本对象的识别结果,确定指定区域;其中,指定区域是位于两个已识别的文本对象之间的覆盖未识别出的文本对象的区域;而由于未识别出文本对象的原因有多种,则通过判断指定区域是否符合预设规则,来确定指定区域是否为待识别生僻字区域。进一步的,判断指定区域是否符合预设规则包括:判断指定区域的宽度是否位于预设字符宽度范围内,若是,则判定指定区域符合预设规则。其中,指定区域的宽度具体为两个已识别的文本对象的相邻的两个边缘之间的宽度,可选的,预设字符宽度范围为1至2个字符宽度。和/或,判断所述指定区域内是否包含路径线,若是,则判定所述指定区域符合预设规则。和/或,判断所述指定区域是否覆盖有文本内容,若否,则判定所述指定区域符合预设规则。当判断出指定区域符合预设规则时,则确定指定区域为待识别生僻字区域。但是,本发明并不以上述示出的确定待识别生僻字区域的方式为限。

步骤S202,根据路径线比较规则,判断文档的已识别结果中是否存在与待识别生僻字路径线信息匹配的已识别生僻字路径线信息;若是,则执行步骤S203;若否,则执行步骤S204。

其中,路径线比较规则包括路径线的数量和路径线位置信息两个层面的比较规则。

具体地,比较待识别生僻字路径线的数量与已识别生僻字路径线的数量是否相等;若相等,则判断待识别生僻字路径线中各条路径线位置信息与已识别生僻字路径线的各条路径线位置信息是否相匹配;可选的,各条路径线位置信息为各条路径线的端点坐标。

在版式文档中,每个生僻字的多条路径线都是有序的,例如,在PDF文档中,按照统一的编号规则,对每个生僻字的多条路径线进行编号。在本发明的一些具体实施例中,则可通过如下步骤判断路径线位置信息是否匹配:

步骤一,计算具有相同路径线编号的待识别生僻字路径线的端点坐标和已识别生僻字路径线的端点坐标的坐标差。具体地,首先针对待识别生僻字区域和已识别生僻字区域分别确定第一坐标原点和第二坐标原点,并分别建立第一坐标系和第二坐标系,其中,待识别生僻字区域的第一坐标系与已识别生僻字区域的第二坐标系保持相对一致。以待识别生僻字区域和已识别生僻字区域为矩形区域为例,待识别生僻字区域的左上顶点为第一坐标原点,待识别生僻字区域的上边为第一坐标系的X轴,待识别生僻字区域的左边为第一坐标系的Y轴;已识别生僻字区域的左上顶点为第二坐标原点,已识别生僻字区域的上边为第二坐标系的X轴,已识别生僻字区域的左边为第二坐标系的Y轴。待识别生僻字路径线的端点坐标是指待识别生僻字路径线的两个端点相较于第一坐标系的坐标,已识别生僻字路径线的端点坐标是指已识别生僻字路径线的两个端点相较于第二坐标系的坐标。具体地,相同路径线编号的待识别生僻字路径线的端点坐标和已识别生僻字路径线的端点坐标的坐标差通过如下公式计算:

式中,i为路径线编号,j为路径线端点序号(j=1,2),rij为路径线i的第j个端点的端点坐标的坐标差,xij为待识别生僻字路径线i的第j个端点的X轴坐标的坐标值,x'ij为已识别生僻字路径线i的第j个端点的X轴坐标的坐标值,yij为待识别生僻字路径线i的第j个端点的Y轴坐标的坐标值,y'ij为已识别生僻字路径线i的第j个端点的Y轴坐标的坐标值。

步骤二,计算待识别生僻字和已识别生僻字所有路径线的坐标差的方差。具体地,根据如下公式计算待识别生僻字和已识别生僻字所有路径线的坐标差的方差:

式中,n为路径线的数量,s2为所有路径线的坐标差的方差,为所有路径线的坐标差的平均值。

步骤三,判断方差是否小于预设期望值;若是,则判定待识别生僻字路径线中各条路径线位置信息与已识别生僻字路径线的各条路径线位置信息相匹配。理想情况下,由于相同的生僻字的笔画数相同(即路径线的数量相同),并且同一文档按照相同的编号规则进行编号,则相同的笔画对应的路径线编号端点位置也相同。若待识别生僻字与已识别生僻字相同,则计算出的方差值为0。但是,考虑到一些误差因素,例如,由于确定的待识别生僻字区域与已识别生僻字区域的尺寸不同造成的误差,则通过预设期望值,判断待识别生僻字路径线中各条路径线位置信息是否与已识别生僻字路径线的各条路径线位置信息相匹配。

但是,需要在此说明的是,上述根据所有路径线的坐标差的方差判断路径线位置信息是否匹配的方式仅为本发明的一种优选的实施方式,本发明并不以此为限,本领域技术人员应该理解的是,凡是能够用于确定待识别生僻字的各条路径线与已识别生僻字的各条路径线的位置信息的一致性的实施方式均包含在本发明的范围内。可选的,在本发明的另一些具体实施中,也可以根据各条路径线的长度值,或者,根据所有路径线的坐标差的平均值或标准差,来判断待识别生僻字的各条路径线位置信息与已识别生僻字的各条路径线位置信息是否匹配。

若判断出待识别生僻字路径线中各条路径线位置信息与已识别生僻字路径线的各条路径线位置信息相匹配,则文档的已识别结果中存在与待识别生僻字路径线信息匹配的已识别生僻字路径线信息,即确定待识别生僻字为与相匹配的已识别生僻字路径线信息对应的已识别生僻字相同的生僻字,则不再针对该待识别生僻字进行识别,以及不再重复保存与已识别生僻字路径线信息对应的识别结果相同的待识别生僻字的识别结果,而是执行步骤S203,以根据已识别生僻字路径线信息对应的识别结果处理待识别生僻字;若判断出待识别生僻字路径线中各条路径线位置信息与已识别生僻字路径线的各条路径线位置信息不相匹配,则文档的已识别结果中不存在与待识别生僻字路径线信息匹配的已识别生僻字路径线信息,则执行步骤S204,针对待识别生僻字进一步进行识别以及对识别结果进行保存,以便下一次匹配时使用。,

步骤S203,将已识别生僻字路径线信息对应的识别结果作为待识别生僻字区域的识别结果。

步骤S204,对待识别生僻字进行识别,以及保存待识别生僻字的识别结果至已识别结果中。

若文档的已识别结果中不存在与待识别生僻字路径线信息匹配的已识别生僻字路径线信息,即待识别生僻字为新的生僻字,则针对待识别生僻字进一步进行识别,识别完成后,将待识别生僻字信息的识别结果作为已识别生僻字的识别结果、以及将待识别生僻字信息作为已识别生僻字信息存储在已识别结果中,以便下一次匹配判断时使用。

在本发明的一些具体实施例中,通过如下方式对待识别生僻字进行识别:对待识别生僻字区域进行截图得到待识别生僻字图片,利用图片文字识别技术对待识别生僻字图片进行识别;可选的,图片文字识别技术具体为OCR技术。若识别输出一个字符,则以该字符作为待识别生僻字对应的识别结果;若识别输出多个字符或未能得到识别结果,则以待识别生僻字图片本身作为待识别生僻字对应的识别结果。但是,本发明并不以此为限,具体实施时,也可以以其它可行的识别生僻字的方式来进行待识别生僻字的识别。

根据本实施例提供的生僻字处理方法,将待识别生僻字路径线的数量与已识别生僻字的路径线的数量进行比较,以及将待识别生僻字路径线中各条路径线位置信息与已识别生僻字路径线的各条路径线位置信息进行比较,根据比较结果判断文档的已识别结果中是否存在与待识别生僻字路径线信息匹配的已识别生僻字路径线信息;若文档的已识别结果中存在与待识别生僻字路径线信息匹配的已识别生僻字路径线信息,则将相匹配的已识别生僻字路径线信息对应的识别结果作为待识别生僻字区域的识别结果。由此可见,本实施例方案,针对相同的生僻字,仅需保存唯一一份识别结果,以及,在显示待识别生僻字的场景中,直接用相同的已识别生僻字的识别结果作为待识别生僻字区域的识别结果,避免了大量重复的识别结果的存储,进而减小了书籍文件的大小。

图3示出了根据本发明又一个实施例的生僻字处理方法的流程图。在本实施例中,生僻字信息为对生僻字区域进行截图得到的生僻字图片。如图3所示,该方法包括:

步骤S301,对文档的文本对象进行识别,确定待识别生僻字区域,获取对待识别生僻字区域进行截图得到的待识别生僻字图片。

其中,待识别生僻字区域中存在路径线。本步骤中,对待识别生僻字区域进行截图处理,得到待识别生僻字图片,则待识别生僻字图片保留了版式文档中对应待识别生僻字区域的原始信息。

具体地,通过以下步骤确定截图的边缘线:根据待识别生僻字区域左侧的文本对象的右边缘确定截图的左边缘,根据待识别生僻字区域右侧的文本对象的左边缘确定截图的右边缘,根据待识别生僻字区域两侧的文本对象中较高的上边缘确定截图的上边缘,以及根据待识别生僻字区域两侧的文本对象中较低的下边缘确定截图的下边缘,得到待识别生僻字图片。可选的,直接以待识别生僻字区域左侧的文本对象的右边缘、待识别生僻字区域右侧的文本对象的左边缘、待识别生僻字区域两侧的文本对象中较高的上边缘以及待识别生僻字区域两侧的文本对象中较低的下边缘分别确定截图的左边缘、右边缘、上边缘及下边缘;也可以,在前述确定的截图的左边缘、右边缘、上边缘及下边缘的基础上,向左、向右、向上以及向下分别扩宽预设宽度,以扩宽后的左边缘、右边缘、上边缘及下边缘作为截图的左边缘、右边缘、上边缘及下边缘,该方式可以使通过截图得到的待识别生僻字图片充分包括版式文档中待识别生僻字的原始信息。

步骤S302,根据图片相似度计算规则,判断文档的已识别结果中是否存在与待识别生僻字图片匹配的已识别生僻字图片。若是,则执行步骤S303;若否,则执行步骤S304。

具体地,判断待识别生僻字图片与任一已识别生僻字图片的相似度是否大于或等于预设相似度阈值,例如,将待识别生僻字图片和任一已识别生僻字图片分别二值化处理,然后根据二值化结果判断待识别生僻字图片和任一已识别生僻字图片的相似度,但是,本发明并不以此举例为限。若相似度大于或等于预设相似度阈值,则判定文档的已识别结果中存在与待识别生僻字图片匹配的已识别生僻字图片,即待识别生僻字为与相匹配的已识别生僻字图片对应的已识别生僻字相同的生僻字,则执行步骤S303,以根据已识别生僻字信息对应的识别结果处理待识别生僻字;若相似度小于预设相似度阈值,则针对待识别生僻字进一步进行识别以及对识别结果进行保存,以便下一次匹配时使用。

步骤S303,将已识别生僻字图片对应的识别结果作为待识别生僻字区域的识别结果。

步骤S304,对待识别生僻字进行识别,以及保存待识别生僻字的识别结果至已识别结果中。

根据本实施例提供的生僻字处理方法,对待识别生僻字区域进行截图得到待识别生僻字图片,利用图片相似度算法计算待识别生僻字图片与已识别结果中的已识别生僻字图片的相似度,并判断已识别结果是否存在与待识别生僻字图片相匹配的已识别生僻字图片;若文档的已识别结果中存在与待识别生僻字图片匹配的已识别生僻字图片,则将相匹配的已识别生僻字图片对应的识别结果作为待识别生僻字区域的识别结果。由此可见,本实施例方案,针对相同的生僻字,仅需保存唯一一份识别结果,以及,在显示待识别生僻字的场景中,直接用相同的已识别生僻字的识别结果作为待识别生僻字区域的识别结果,避免了大量重复的识别结果的存储,进而减小了书籍文件的大小。

本申请实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的生僻字处理方法。

可执行指令具体可以用于使得处理器执行以下操作:

对文档的文本对象进行识别,确定待识别生僻字区域,获取待识别生僻字区域内的待识别生僻字信息;

根据相似度匹配规则,判断所述文档的已识别结果中是否存在与所述待识别生僻字信息匹配的已识别生僻字信息;

若是,则将所述已识别生僻字信息对应的识别结果作为所述待识别生僻字区域的识别结果。

在一种可选的实施方式中,其中,生僻字信息具体为:生僻字路径线信息;所述可执行指令进一步使所述处理器执行以下操作:

根据路径线比较规则,判断所述文档的已识别结果中是否存在与所述待识别生僻字路径线信息匹配的已识别生僻字路径线信息。

在一种可选的实施方式中,所述可执行指令进一步使所述处理器执行以下操作:

比较待识别生僻字路径线的数量与已识别生僻字路径线的数量是否相等;

若是,则判断所述待识别生僻字路径线中各条路径线位置信息与所述已识别生僻字路径线的各条路径线位置信息是否相匹配。

在一种可选的实施方式中,所述可执行指令进一步使所述处理器执行以下操作:

计算具有相同路径线编号的所述待识别生僻字路径线的端点坐标和所述已识别生僻字路径线的端点坐标的坐标差;

计算待识别生僻字和已识别生僻字所有路径线的坐标差的方差;

判断所述方差是否小于预设期望值;若是,则判定所述待识别生僻字路径线中各条路径线位置信息与所述已识别生僻字路径线的各条路径线位置信息相匹配。

在一种可选的实施方式中,其中,生僻字信息具体为:对生僻字区域进行截图得到的生僻字图片;

所述可执行指令进一步使所述处理器执行以下操作:

根据图片相似度计算规则,判断待识别生僻字图片与任一已识别生僻字图片的相似度是否大于或等于预设相似度阈值,若是,则判定所述文档的已识别结果中存在与所述待识别生僻字信息匹配的已识别生僻字信息。

图4示出了根据本发明实施例的一种计算设备的结构示意图,本发明具体实施例并不对计算设备的具体实现做限定。

如图4所示,该计算设备可以包括:处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。

其中:

处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。

通信接口404,用于与其它设备比如客户端或其它服务器等的网元通信。

处理器402,用于执行程序410,具体可以执行上述生僻字处理方法实施例中的相关步骤。

具体地,程序410可以包括程序代码,该程序代码包括计算机操作指令。

处理器402可能是中央处理器CPU,或者是特定集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。

存储器406,用于存放程序410。存储器406可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。

程序410具体可以用于使得处理器402执行以下操作:

对文档的文本对象进行识别,确定待识别生僻字区域,获取待识别生僻字区域内的待识别生僻字信息;

根据相似度匹配规则,判断所述文档的已识别结果中是否存在与所述待识别生僻字信息匹配的已识别生僻字信息;

若是,则将所述已识别生僻字信息对应的识别结果作为所述待识别生僻字区域的识别结果。

在一种可选的实施方式中,其中,生僻字信息具体为:生僻字路径线信息;

程序410具体可以进一步用于使得处理器402执行以下操作:

根据路径线比较规则,判断所述文档的已识别结果中是否存在与所述待识别生僻字路径线信息匹配的已识别生僻字路径线信息。

在一种可选的实施方式中,程序410具体可以进一步用于使得处理器402执行以下操作:

比较待识别生僻字路径线的数量与已识别生僻字路径线的数量是否相等;

若是,则判断所述待识别生僻字路径线中各条路径线位置信息与所述已识别生僻字路径线的各条路径线位置信息是否相匹配。

在一种可选的实施方式中,程序410具体可以进一步用于使得处理器402执行以下操作:

计算具有相同路径线编号的所述待识别生僻字路径线的端点坐标和所述已识别生僻字路径线的端点坐标的坐标差;

计算待识别生僻字和已识别生僻字所有路径线的坐标差的方差;

判断所述方差是否小于预设期望值;若是,则判定所述待识别生僻字路径线中各条路径线位置信息与所述已识别生僻字路径线的各条路径线位置信息相匹配。

在一种可选的实施方式中,其中,生僻字信息具体为:对生僻字区域进行截图得到的生僻字图片;

程序410具体可以进一步用于使得处理器402执行以下操作:

根据图片相似度计算规则,判断待识别生僻字图片与任一已识别生僻字图片的相似度是否大于或等于预设相似度阈值,若是,则判定所述文档的已识别结果中存在与所述待识别生僻字信息匹配的已识别生僻字信息。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明公开了:A1.一种生僻字处理方法,包括:

对文档的文本对象进行识别,确定待识别生僻字区域,获取待识别生僻字区域内的待识别生僻字信息;

根据相似度匹配规则,判断所述文档的已识别结果中是否存在与所述待识别生僻字信息匹配的已识别生僻字信息;

若是,则将所述已识别生僻字信息对应的识别结果作为所述待识别生僻字区域的识别结果。

A2.根据A1所述的方法,其中,生僻字信息具体为:生僻字路径线信息;

所述根据相似度匹配规则,判断所述文档的已识别结果中是否存在与所述待识别生僻字信息匹配的已识别生僻字信息具体为:

根据路径线比较规则,判断所述文档的已识别结果中是否存在与所述待识别生僻字路径线信息匹配的已识别生僻字路径线信息。

A3.根据A2所述的方法,其中,所述根据路径线比较规则,判断所述文档的已识别结果中是否存在与所述待识别生僻字路径线信息匹配的已识别生僻字路径线信息进一步包括:

比较待识别生僻字路径线的数量与已识别生僻字路径线的数量是否相等;

若是,则判断所述待识别生僻字路径线中各条路径线位置信息与所述已识别生僻字路径线的各条路径线位置信息是否相匹配。

A4.根据A3所述的方法,其中,所述判断所述待识别生僻字路径线中各条路径线位置信息与所述已识别生僻字路径线的各条路径线位置信息是否相匹配进一步包括:

计算具有相同路径线编号的所述待识别生僻字路径线的端点坐标和所述已识别生僻字路径线的端点坐标的坐标差;

计算待识别生僻字和已识别生僻字所有路径线的坐标差的方差;

判断所述方差是否小于预设期望值;若是,则判定所述待识别生僻字路径线中各条路径线位置信息与所述已识别生僻字路径线的各条路径线位置信息相匹配。

A5.根据A1所述的方法,其中,生僻字信息具体为:对生僻字区域进行截图得到的生僻字图片;

所述根据相似度匹配规则,判断所述文档的已识别结果中是否存在与所述待识别生僻字信息匹配的已识别生僻字信息具体为:

根据图片相似度计算规则,判断待识别生僻字图片与任一已识别生僻字图片的相似度是否大于或等于预设相似度阈值,若是,则判定所述文档的已识别结果中存在与所述待识别生僻字信息匹配的已识别生僻字信息。

本发明还公开了:B6.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;

所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下操作:

对文档的文本对象进行识别,确定待识别生僻字区域,获取待识别生僻字区域内的待识别生僻字信息;

根据相似度匹配规则,判断所述文档的已识别结果中是否存在与所述待识别生僻字信息匹配的已识别生僻字信息;

若是,则将所述已识别生僻字信息对应的识别结果作为所述待识别生僻字区域的识别结果。

B7.根据B6所述的计算设备,其中,生僻字信息具体为:生僻字路径线信息;所述可执行指令进一步使所述处理器执行以下操作:

根据路径线比较规则,判断所述文档的已识别结果中是否存在与所述待识别生僻字路径线信息匹配的已识别生僻字路径线信息。

B8.根据B7所述的计算设备,其中,所述可执行指令进一步使所述处理器执行以下操作:

比较待识别生僻字路径线的数量与已识别生僻字路径线的数量是否相等;

若是,则判断所述待识别生僻字路径线中各条路径线位置信息与所述已识别生僻字路径线的各条路径线位置信息是否相匹配。

B9.根据B8所述的计算设备,其中,所述可执行指令进一步使所述处理器执行以下操作:

计算具有相同路径线编号的所述待识别生僻字路径线的端点坐标和所述已识别生僻字路径线的端点坐标的坐标差;

计算待识别生僻字和已识别生僻字所有路径线的坐标差的方差;

判断所述方差是否小于预设期望值;若是,则判定所述待识别生僻字路径线中各条路径线位置信息与所述已识别生僻字路径线的各条路径线位置信息相匹配。

B10.根据B6所述的计算设备,其中,生僻字信息具体为:对生僻字区域进行截图得到的生僻字图片;

所述可执行指令进一步使所述处理器执行以下操作:

根据图片相似度计算规则,判断待识别生僻字图片与任一已识别生僻字图片的相似度是否大于或等于预设相似度阈值,若是,则判定所述文档的已识别结果中存在与所述待识别生僻字信息匹配的已识别生僻字信息。

本发明还公开了:C11.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行以下操作:

对文档的文本对象进行识别,确定待识别生僻字区域,获取待识别生僻字区域内的待识别生僻字信息;

根据相似度匹配规则,判断所述文档的已识别结果中是否存在与所述待识别生僻字信息匹配的已识别生僻字信息;

若是,则将所述已识别生僻字信息对应的识别结果作为所述待识别生僻字区域的识别结果。

C12.根据C11所述的计算机存储介质,其中,生僻字信息具体为:生僻字路径线信息;所述可执行指令进一步使所述处理器执行以下操作:

根据路径线比较规则,判断所述文档的已识别结果中是否存在与所述待识别生僻字路径线信息匹配的已识别生僻字路径线信息。

C13.根据C12所述的计算机存储介质,其中,所述可执行指令进一步使所述处理器执行以下操作:

比较待识别生僻字路径线的数量与已识别生僻字路径线的数量是否相等;

若是,则判断所述待识别生僻字路径线中各条路径线位置信息与所述已识别生僻字路径线的各条路径线位置信息是否相匹配。

C14.根据C13所述的计算机存储介质,其中,所述可执行指令进一步使所述处理器执行以下操作:

计算具有相同路径线编号的所述待识别生僻字路径线的端点坐标和所述已识别生僻字路径线的端点坐标的坐标差;

计算待识别生僻字和已识别生僻字所有路径线的坐标差的方差;

判断所述方差是否小于预设期望值;若是,则判定所述待识别生僻字路径线中各条路径线位置信息与所述已识别生僻字路径线的各条路径线位置信息相匹配。

C15.根据C11所述的计算机存储介质,其中,生僻字信息具体为:对生僻字区域进行截图得到的生僻字图片;

所述可执行指令进一步使所述处理器执行以下操作:

根据图片相似度计算规则,判断待识别生僻字图片与任一已识别生僻字图片的相似度是否大于或等于预设相似度阈值,若是,则判定所述文档的已识别结果中存在与所述待识别生僻字信息匹配的已识别生僻字信息。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1