文字识别方法、装置、存储介质及电子设备与流程

文档序号:34453121发布日期:2023-06-13 19:27阅读:30来源:国知局
文字识别方法、装置、存储介质及电子设备与流程

本申请涉及文字处理,具体涉及一种文字识别方法、装置、存储介质及电子设备。


背景技术:

1、在学生时代,会存在很多手写作业。学生在完成手写作业后,与标准答案进行对比,判断手写作业中书写的字是否正确,但该方法一般只能进行别字识别,无法进行错字识别。

2、相关错字识别方法中,是通过获取学生书写的字对应的笔画结构,进行错字的判别,但笔画结构比较简单,导致错字识别精度低,进一步导致错字的判断精度低。


技术实现思路

1、为了解决上述技术问题,提出了本申请。本申请实施例提供了一种文字识别方法、装置、存储介质及电子设备。

2、第一方面,本申请一实施例提供了一种文字识别方法,包括:对待识别字进行拆解,得到待识别字的偏旁序列,偏旁序列包括至少一个偏旁元素,至少一个偏旁元素组合构成待识别字;若至少一个偏旁元素均各自对应有书写模板,则确定至少一个偏旁元素各自的特征数据;确定至少一个偏旁元素各自对应的书写模板的特征数据;基于至少一个偏旁元素各自的特征数据和至少一个偏旁元素各自对应的书写模板的特征数据,确定待识别字对应的错别字识别结果。

3、结合第一方面,在第一方面的某些实现方式中,基于至少一个偏旁元素各自的特征数据和至少一个偏旁元素各自对应的书写模板的特征数据,确定待识别字对应的错别字识别结果,包括:若在至少一个偏旁元素中,每个偏旁元素的特征数据均与偏旁元素对应的书写模板的特征数据一致,则获取至少一个偏旁元素各自对应的笔画识别序列;基于至少一个偏旁元素各自对应的笔画识别序列,确定待识别字对应的错别字识别结果。

4、结合第一方面,在第一方面的某些实现方式中,基于至少一个偏旁元素各自对应的笔画识别序列,确定待识别字对应的错别字识别结果,包括:获取至少一个偏旁元素各自对应的标准笔画序列;若在至少一个偏旁元素中,每个偏旁元素对应的笔画识别序列均与偏旁元素对应的标准笔画序列一致,则获取m个听写字,m为正整数;基于m个听写字,确定待识别字对应的错别字识别结果。

5、结合第一方面,在第一方面的某些实现方式中,基于m个听写字,确定待识别字对应的错别字识别结果,包括:若待识别字与m个听写字之一相同,则确定待识别字为正确字识别结果;若待识别字与m个听写字均不相同,则确定待识别字为别字识别结果。

6、结合第一方面,在第一方面的某些实现方式中,基于至少一个偏旁元素各自对应的笔画识别序列,确定待识别字对应的错别字识别结果,还包括:判断在至少一个偏旁元素中,是否存在偏旁元素的笔画识别序列和偏旁元素的标准笔画序列不一致;若在至少一个偏旁元素中,存在笔画识别序列和标准笔画序列不一致的偏旁元素,则确定待识别字为错字识别结果。

7、结合第一方面,在第一方面的某些实现方式中,基于至少一个偏旁元素各自的特征数据和至少一个偏旁元素各自对应的书写模板的特征数据,确定待识别字对应的错别字识别结果,还包括:判断在至少一个偏旁元素中,是否存在偏旁元素的特征数据和偏旁元素的书写模板的特征数据不一致;若在至少一个偏旁元素中,存在偏旁元素的特征数据和书写模板的特征数据不一致的偏旁元素,则确定待识别字为错字识别结果。

8、结合第一方面,在第一方面的某些实现方式中,对待识别字进行拆解,得到待识别字的偏旁序列,包括:利用编码-解码器模型对待识别字进行拆解,得到待识别字的偏旁序列,编码-解码器模型中包含能够提取特征的注意力机制。

9、第二方面,本申请一实施例提供了一种文字识别装置,包括:第一确定模块,用于对待识别字进行拆解,得到待识别字的偏旁序列,偏旁序列包括至少一个偏旁元素,至少一个偏旁元素组合构成待识别字;第二确定模块,用于若至少一个偏旁元素均各自对应有书写模板,则确定至少一个偏旁元素各自的特征数据;第三确定模块,用于确定至少一个偏旁元素各自对应的书写模板的特征数据;第四确定模块,用于基于至少一个偏旁元素各自的特征数据和至少一个偏旁元素各自对应的书写模板的特征数据,确定待识别字对应的错别字识别结果。

10、第三方面,本申请一实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序用于执行第一方面所述的文字识别方法。

11、第四方面,本申请一实施例提供了一种电子设备,该电子设备包括:处理器;用于存储处理器可执行指令的存储器;该处理器用于执行第一方面所述的文字识别方法。

12、本申请提供的文字识别方法具有以下有益效果。

13、首先,偏旁序列相比于笔画序列,更能准确表征一个字的结构特征。因此,基于待识别字的偏旁序列,最终确定待识别字对应的识别结果,可以提高待识别字的识别精度。并且,偏旁序列相比于笔画序列,复杂度更低,也能进一步降低确定识别结果时的相关计算量,进而提高识别速度。

14、其次,本申请获取偏旁序列后,在评判偏旁序列中的每个偏旁元素都有对应的书写模板后,进一步确定偏旁元素的特征数据以及书写模板的特征数据,并根据偏旁元素的特征数据和书写模板的特征数据,确定待识别字的错别字识别结果。即,将参考模板作为识别错字、别字和正确字的标准,并比较二者的特征数据的相似性,该方法可操作性高,并且能够简单、准确地确定待识别字的各类识别结果。



技术特征:

1.一种文字识别方法,其特征在于,包括:

2.根据权利要求1所述的文字识别方法,其特征在于,所述基于所述至少一个偏旁元素各自的特征数据和所述至少一个偏旁元素各自对应的书写模板的特征数据,确定所述待识别字对应的错别字识别结果,包括:

3.根据权利要求2所述的文字识别方法,其特征在于,所述基于所述至少一个偏旁元素各自对应的笔画识别序列,确定所述待识别字对应的错别字识别结果,包括:

4.根据权利要求3所述的文字识别方法,其特征在于,所述基于所述m个听写字,确定所述待识别字对应的错别字识别结果,包括:

5.根据权利要求3所述的文字识别方法,其特征在于,所述基于所述至少一个偏旁元素各自对应的笔画识别序列,确定所述待识别字对应的错别字识别结果,还包括:

6.根据权利要求2所述的文字识别方法,其特征在于,所述基于所述至少一个偏旁元素各自的特征数据和所述至少一个偏旁元素各自对应的书写模板的特征数据,确定所述待识别字对应的错别字识别结果,还包括:

7.根据权利要求1至6任一项所述的文字识别方法,其特征在于,所述对待识别字进行拆解,得到所述待识别字的偏旁序列,包括:

8.一种文字识别装置,其特征在于,包括:

9.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1至7任一项所述的文字识别方法。

10.一种电子设备,其特征在于,包括:


技术总结
本申请提供了一种文字识别方法、装置、存储介质及电子设备,涉及文字处理技术领域。该文字识别方法包括:对待识别字进行拆解,得到待识别字的偏旁序列,偏旁序列包括至少一个偏旁元素,至少一个偏旁元素组合构成待识别字;若至少一个偏旁元素均各自对应有书写模板,则确定至少一个偏旁元素各自的特征数据;确定至少一个偏旁元素各自对应的书写模板的特征数据;基于至少一个偏旁元素各自的特征数据和至少一个偏旁元素各自对应的书写模板的特征数据,确定待识别字对应的错别字识别结果。通过本申请中的方案,不仅能进行错字识别,也能进行别字和正确字识别,并且基于书写模板的特征数据,有效提高了待识别字的识别精度。

技术研发人员:吴嘉嘉,张建树,蒋磊,殷兵,胡金水,刘聪
受保护的技术使用者:科大讯飞股份有限公司
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1