错字识别方法、装置、设备、存储介质及程序产品与流程

文档序号:36013589发布日期:2023-11-17 08:52阅读:44来源:国知局
错字识别方法、装置、设备、存储介质及程序产品与流程

本申请涉及文本识别,具体涉及一种错字识别方法、装置、设备、存储介质及程序产品。


背景技术:

1、随着网络技术的发展,各式各样的文本通过网络流通,其中,低质量文本大量充斥于网络,给用户带来较差的阅读体验。通常的,文本中存在错字会影响用户对文本所要表达意思的理解。因此,识别文本中的错字对提高文本质量而言至关重要。

2、目前,通常采用人工校对的方式识别文本中的错字,以对文本质量进行评价。

3、但由于人工校对依赖于人的主观判断,不一定每次都能准确地识别出错字,且人工校对还受视觉疲劳的影响致使对错字的识别准确度降低。


技术实现思路

1、本申请实施例提供一种错字识别方法、装置、设备、存储介质及程序产品,能够提高错字识别的准确度。

2、本申请实施例提供的错字识别方法,包括:

3、获取需要进行错字识别的待识别文本;

4、获取待识别文本中每一字符的词嵌入特征、发音特征以及字形特征;

5、融合每一字符的词嵌入特征、发音特征以及字形特征,得到每一字符的第一融合字符特征;

6、根据每一字符的第一融合字符特征,及其相邻字符的第二融合字符特征,对每一字符进行错字识别处理,得到识别结果。

7、在一种可能实现方式中,融合每一字符的词嵌入特征、发音特征以及字形特征,得到每一字符的第一融合字符特征,包括:

8、获取预先训练的错字识别模型,错字识别模型包括输入模块、语义编码模块以及错字识别模块;

9、将每一字符的词嵌入特征、发音特征以及字形特征输入输入模块进行融合处理,得到每一字符的第一融合字符特征;

10、根据每一字符的第一融合字符特征,及其相邻字符的第二融合字符特征,对每一字符进行错字识别处理,得到识别结果,包括:

11、将每一字符的第一融合字符特征输入语义编码模块进行语义编码处理,得到每一字符的语义编码特征;

12、将每一字符的语义编码特征,及其相邻字符的第二融合字符特征,输入错字识别模块进行错字识别处理,得到识别结果。

13、在一种可能实现方式中,将每一字符的第一融合字符特征输入语义编码模块进行语义编码处理,得到每一字符的语义编码特征,包括:

14、将每一字符的第一融合字符特征输入语义编码模块进行语义编码处理,得到每一字符的候选语义编码特征;

15、融合每一字符的第一融合字符特征和候选语义编码特征,得到每一字符的语义编码特征。

16、在一种可能实现方式中,将每一字符的语义编码特征,及其相邻字符的第二融合字符特征,输入错字识别模块进行错字识别处理,得到识别结果,包括:

17、融合每一字符的语义编码特征,及其相邻字符的第二融合字符特征,得到每一字符的第三融合字符特征;

18、将每一字符的第三融合字符特征输入错字识别模块进行错字识别处理,得到识别结果。

19、在一种可能实现方式中,错字识别模块包括全连接层和分类函数层;将每一字符的第三融合字符特征输入错字识别模块进行错字识别处理,得到识别结果,包括:

20、将每一字符的第三融合字符特征输入全连接层进行全连接处理,得到全连接结果;

21、将全连接结果输入分类函数层进行分类处理,得到识别结果,识别结果用于描述每一字符为错字的概率。

22、在一种可能实现方式中,语义编码模块包括预先训练的基于转换器的双向编码网络、长短期记忆网络、门控循环单元网络中的至少一种。

23、在一种可能实现方式中,获取待识别文本中每一字符的发音特征,包括:

24、获取待识别文本中每一字符的音素序列;

25、将每一字符的音素序列输入第一双向长短期记忆网络进行特征提取,得到每一字符的发音特征。

26、在一种可能实现方式中,获取待识别文本中每一字符的字形特征,包括:

27、获取待识别文本中每一字符的笔画序列;

28、将每一字符的笔画序列输入第二双向长短期记忆网络进行特征提取,得到每一字符的字形特征。

29、在一种可能实现方式中,待识别文本包括需要进行文本推荐的待推荐文本;根据每一字符的第一融合字符特征,及其相邻字符的第二融合字符特征,对每一字符进行错字识别处理,得到识别结果之后,还包括:

30、根据每一字符的识别结果,确定待推荐文本的目标推荐策略,并执行目标推荐策略。

31、在一种可能实现方式中,根据每一字符的第一融合字符特征,及其相邻字符的第二融合字符特征,对每一字符进行错字识别处理,得到识别结果之后,还包括:

32、根据每一字符的识别结果,确定待识别文本中的错字;

33、获取错字的上下文特征,并根据错字及其对应的上下文特征,确定错字对应的修正字;

34、根据修正字对错字进行修正提示。

35、本申请实施例提供的错字识别装置,包括:

36、文本获取模块,用于获取需要进行错字识别的待识别文本;

37、字符转换模块,用于获取待识别文本中每一字符的词嵌入特征、发音特征以及字形特征;

38、特征处理模块,用于融合每一字符的词嵌入特征、发音特征以及字形特征,得到每一字符的第一融合字符特征;

39、字符识别模块,用于根据每一字符的第一融合字符特征,及其相邻字符的第二融合字符特征,对每一字符进行错字识别处理,得到识别结果。

40、本申请实施例提供的计算机可读存储介质,其上存储有计算机程序,当计算机程序在计算机上运行时,使得计算机执行如本申请任一实施例提供的错字识别方法。

41、本申请实施例提供的计算机设备,包括处理器和存储器,存储器有计算机程序,处理器通过调用计算机程序,用于执行如本申请任一实施例提供的错字识别方法。

42、本申请实施例提供的计算机程序产品,包括计算机程序/指令,计算机程序/指令被处理器执行时实现如本申请任一实施例提供的错字识别方法中的步骤。

43、本申请中,通过获取待识别文本中每一字符的词嵌入特征、发音特征以及字形特征,得到了每一字符在不同维度的特征。在此基础上,还对每一字符的词嵌入特征、发音特征以及字形特征进行融合,得到每一字符的第一融合字符特征,其中,通过第一融合字符特征能够在不同维度对字符进行准确表征。此外,还利用相邻字符之间的关联性,根据每一字符的第一融合字符特征,及其相邻字符的第二融合字符特征,对每一字符进行错字识别处理,降低了识别错误的概率,以得到更为准确的识别结果。相较于相关技术,还避免了人工校对受限于人的主观判断以及视觉疲劳的影响,提高了错字识别的准确度,且相较于人工校对而言还提高了错字识别的效率。



技术特征:

1.一种错字识别方法,其特征在于,包括:

2.如权利要求1所述的错字识别方法,其特征在于,所述融合每一所述字符的所述词嵌入特征、所述发音特征以及所述字形特征,得到每一所述字符的第一融合字符特征,包括:

3.如权利要求2所述的错字识别方法,其特征在于,所述将每一所述字符的所述第一融合字符特征输入所述语义编码模块进行语义编码处理,得到每一所述字符的语义编码特征,包括:

4.如权利要求2所述的错字识别方法,其特征在于,所述将每一所述字符的语义编码特征,及其相邻字符的第二融合字符特征,输入所述错字识别模块进行错字识别处理,得到所述识别结果,包括:

5.如权利要求4所述的错字识别方法,其特征在于,所述错字识别模块包括全连接层和分类函数层;所述将每一所述字符的所述第三融合字符特征输入所述错字识别模块进行错字识别处理,得到所述识别结果,包括:

6.如权利要求2所述的错字识别方法,其特征在于,所述语义编码模块包括预先训练的基于转换器的双向编码网络、长短期记忆网络、门控循环单元网络中的至少一种。

7.如权利要求1至6任一项所述的错字识别方法,其特征在于,所述获取所述待识别文本中每一字符的发音特征,包括:

8.如权利要求1至6任一项所述的错字识别方法,其特征在于,所述获取所述待识别文本中每一字符的字形特征,包括:

9.如权利要求1至6任一项所述的错字识别方法,其特征在于,所述待识别文本包括需要进行文本推荐的待推荐文本;所述根据每一所述字符的第一融合字符特征,及其相邻字符的第二融合字符特征,对每一所述字符进行错字识别处理,得到识别结果之后,还包括:

10.如权利要求1至6任一项所述的错字识别方法,其特征在于,所述根据每一所述字符的第一融合字符特征,及其相邻字符的第二融合字符特征,对每一所述字符进行错字识别处理,得到识别结果之后,还包括:

11.一种错字识别装置,其特征在于,包括:

12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1至10任一项所述的错字识别方法。

13.一种计算机设备,包括处理器和存储器,所述存储器存储有计算机程序,其特征在于,所述处理器通过调用所述计算机程序,用于执行如权利要求1至10任一项所述的错字识别方法。

14.一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现权利要求1至10任一项所述的错字识别方法中的步骤。


技术总结
本申请公开了一种错字识别方法、装置、设备、存储介质及程序产品,其中,方法包括:获取需要进行错字识别的待识别文本;获取待识别文本中每一字符的词嵌入特征、发音特征以及字形特征;融合每一字符的词嵌入特征、发音特征以及字形特征,得到每一字符的第一融合字符特征;根据每一字符的第一融合字符特征,及其相邻字符的第二融合字符特征,对每一字符进行错字识别处理,得到识别结果。通过融合每一字符的词嵌入特征、发音特征以及字形特征,能够提取到字符在各方面较多的特征。并在此基础上通过结合相邻字符的第二融合字符特征进行错字识别处理,能够提取字符的上下文特征,从而提高了错字识别的准确度。

技术研发人员:杨韬
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:
技术公布日:2024/1/16
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1