1.一种生僻字处理方法,包括:
对文档的文本对象进行识别,确定待识别生僻字区域,获取待识别生僻字区域内的待识别生僻字信息;
根据相似度匹配规则,判断所述文档的已识别结果中是否存在与所述待识别生僻字信息匹配的已识别生僻字信息;
若是,则将所述已识别生僻字信息对应的识别结果作为所述待识别生僻字区域的识别结果。
2.根据权利要求1所述的方法,其中,生僻字信息具体为:生僻字路径线信息;
所述根据相似度匹配规则,判断所述文档的已识别结果中是否存在与所述待识别生僻字信息匹配的已识别生僻字信息具体为:
根据路径线比较规则,判断所述文档的已识别结果中是否存在与所述待识别生僻字路径线信息匹配的已识别生僻字路径线信息。
3.根据权利要求2所述的方法,其中,所述根据路径线比较规则,判断所述文档的已识别结果中是否存在与所述待识别生僻字路径线信息匹配的已识别生僻字路径线信息进一步包括:
比较待识别生僻字路径线的数量与已识别生僻字路径线的数量是否相等;
若是,则判断所述待识别生僻字路径线中各条路径线位置信息与所述已识别生僻字路径线的各条路径线位置信息是否相匹配。
4.根据权利要求3所述的方法,其中,所述判断所述待识别生僻字路径线中各条路径线位置信息与所述已识别生僻字路径线的各条路径线位置信息是否相匹配进一步包括:
计算具有相同路径线编号的所述待识别生僻字路径线的端点坐标和所述已识别生僻字路径线的端点坐标的坐标差;
计算待识别生僻字和已识别生僻字所有路径线的坐标差的方差;
判断所述方差是否小于预设期望值;若是,则判定所述待识别生僻字路径线中各条路径线位置信息与所述已识别生僻字路径线的各条路径线位置信息相匹配。
5.根据权利要求1所述的方法,其中,生僻字信息具体为:对生僻字区域进行截图得到的生僻字图片;
所述根据相似度匹配规则,判断所述文档的已识别结果中是否存在与所述待识别生僻字信息匹配的已识别生僻字信息具体为:
根据图片相似度计算规则,判断待识别生僻字图片与任一已识别生僻字图片的相似度是否大于或等于预设相似度阈值,若是,则判定所述文档的已识别结果中存在与所述待识别生僻字信息匹配的已识别生僻字信息。
6.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下操作:
对文档的文本对象进行识别,确定待识别生僻字区域,获取待识别生僻字区域内的待识别生僻字信息;
根据相似度匹配规则,判断所述文档的已识别结果中是否存在与所述待识别生僻字信息匹配的已识别生僻字信息;
若是,则将所述已识别生僻字信息对应的识别结果作为所述待识别生僻字区域的识别结果。
7.根据权利要求6所述的计算设备,其中,生僻字信息具体为:生僻字路径线信息;所述可执行指令进一步使所述处理器执行以下操作:
根据路径线比较规则,判断所述文档的已识别结果中是否存在与所述待识别生僻字路径线信息匹配的已识别生僻字路径线信息。
8.根据权利要求7所述的计算设备,其中,所述可执行指令进一步使所述处理器执行以下操作:
比较待识别生僻字路径线的数量与已识别生僻字路径线的数量是否相等;
若是,则判断所述待识别生僻字路径线中各条路径线位置信息与所述已识别生僻字路径线的各条路径线位置信息是否相匹配。
9.根据权利要求8所述的计算设备,其中,所述可执行指令进一步使所述处理器执行以下操作:
计算具有相同路径线编号的所述待识别生僻字路径线的端点坐标和所述已识别生僻字路径线的端点坐标的坐标差;
计算待识别生僻字和已识别生僻字所有路径线的坐标差的方差;
判断所述方差是否小于预设期望值;若是,则判定所述待识别生僻字路径线中各条路径线位置信息与所述已识别生僻字路径线的各条路径线位置信息相匹配。
10.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行以下操作:
对文档的文本对象进行识别,确定待识别生僻字区域,获取待识别生僻字区域内的待识别生僻字信息;
根据相似度匹配规则,判断所述文档的已识别结果中是否存在与所述待识别生僻字信息匹配的已识别生僻字信息;
若是,则将所述已识别生僻字信息对应的识别结果作为所述待识别生僻字区域的识别结果。