本发明涉及自然语言处理领域,具体而言,涉及一种文本纠错方法、系统、设备及存储介质。
背景技术:
1、中文是一种复杂的语言,由于汉字的多音字、异形字、繁体字等特性,使得中文文本纠错技术面临着许多挑战;中文文本纠错是指通过自然语言处理技术,对中文文本中的错误进行识别和修正的过程。错误包括文字错误、语法错误。中文纠错技术在日常生活、工作和学习中具有重要的应用价值,可以提高中文输入和编辑的准确性和效率,减少用户的输入和编辑成本。
2、目前,主流的中文文本纠错技术主要有基于统计学的方式、基于人工规则的方式和基于深度学习的方式。基于统计学方式主要基于n元语法模型和贝叶斯分类器,通过分析语料库中的大量文本数据,来识别和纠正中文文本中的错误。但是由于中文的复杂性,这种方式的准确率和召回率都较低,难以满足实际应用的需求。基于人工规则的方式主要是通过人工定义一系列的规则,对中文文本进行分析和纠错。但是人工定义往往难以覆盖所有情况,这种方式的准确性和实用性业有限。基于深度学习方方式则是通过建立深度神经网络来实现中文文本纠错,这种方式在语义理解和上下文推断方面有着较好的表现,能够通过大量的文本数据自动学习中文的语法和语义规则,提高纠错的准确性和召回率,这种方式不仅准确性高,而且能够适应中文的复杂性和变化性,然而,基于深度学习的方式通常将中文文本中的所有错误看作同一类型,通过训练对所有错误进行纠正,因此无法准确地识别和修复不同类型的错误。
技术实现思路
1、本发明提供一种文本纠错方法、系统、设备及存储介质,解决现有基于深度学习的方式只是将中文文本中的所有错误看作同一类型,因此无法准确地识别和修复不同类型的错误的问题。
2、在第一方面,本发明实施例中提供一种文本纠错方法,所述方法包括以下步骤:
3、将待纠错文本输入训练后的拼写纠错模型进行拼写纠正编辑,以形成拼写纠正结果,并且将待纠错文本输入训练后的语法纠错模型进行语法纠正编辑,以形成语法纠正结果;
4、对拼写纠正结果和语法纠正结果进行融合处理,以得到纠错后文本。
5、于上述实施例中,本发明将中文文本错误细分为拼音错误和语法错误,并且分别针对不同类型错误通过不同模型进行处理,使得模型能够更加准确地识别和修复不同类型的错误。
6、作为本技术一些可选实施方式,所述语法纠错模型包括序列标注模型和序列到序列模型,通过序列表征模型能够解决输入输出不对齐的语法错误,使得中文文本纠错更加具备针对性。
7、作为本技术一些可选实施方式,将待纠错文本输入训练后的拼写纠错模型进行拼写纠正编辑,以形成拼写纠正结果的流程如下:
8、对待纠错文本中的中文句子序列进行标准化、切分处理,以形成固定长度的第一文字向量;
9、将第一文字向量输入训练后的拼写纠错模型,通过拼写纠错模型对固定长度的第一文字向量进行遮盖、微调处理,以形成拼写纠正结果。
10、作为本技术一些可选实施方式,对固定长度的第一文字向量进行遮盖即是对固定长度的第一文字向量进行掩码标记替换、字音混淆词替换和/或混淆字符拼音替换,以生成待拼音纠错序列。
11、于上述实施例中,本发明更改了拼写纠错模型的遮盖规则,使得上游遮盖任务和下游的微调任务统一起来,提高模型的性能和泛化能力。
12、作为本技术一些可选实施方式,对固定长度的第一文字向量进行微调的流程如下:
13、对待拼音纠错序列进行分词处理,并且基于分词处理结果映射生成词嵌入向量和拼音嵌入向量;
14、结合词嵌入向量对待拼音纠错序列进行句子表征错误检测,以生成字符错误概率;
15、结合字符错误概率选择性地对拼音嵌入向量进行拼音表征错误纠正,以形成拼写纠正结果。
16、作为本技术一些可选实施方式,将待纠错文本输入训练后的语法纠错模型进行语法纠正编辑,以形成语法纠正结果的流程如下:
17、将待纠错文本输入训练后的序列标注模型,以形成第一语法纠正结果;
18、将待纠错文本输入训练后的序列到序列模型,以形成第二语法纠正结果。
19、作为本技术一些可选实施方式,将待纠错文本输入训练后的序列标注模型,以形成第一语法纠正结果的流程如下:
20、对待纠错文本中的中文句子序列进行字编辑处理,以形成语法编辑文本;
21、将语法编辑文本输出训练后的序列标注模型,通过序列标注模型对语法编辑文本进行编辑概率预测,以输出第一语法纠正结果。
22、作为本技术一些可选实施方式,将待纠错文本输入训练后的序列到序列模型,以形成第二语法纠正结果的流程如下:
23、将待纠错文本中的中文句子序列输入训练后的序列到序列模型,通过序列到序列模型对中文句子序列进行遮盖、微调处理,以形成固定长度的第二文字向量;
24、对第二文字向量进行加权处理,以形成第二语法纠正结果。
25、作为本技术一些可选实施方式,对中文句子序列进行遮盖即是对中文句子序列进行掩码标记替换、随机字符删除、文本填充、句子重排、文档旋转,以形成固定长度的第二文字向量。
26、作为本技术一些可选实施方式,对拼写纠正结果和语法纠正结果进行融合,以得到纠错后文本的流程如下:
27、对拼写纠正结果、第一语法纠正结果以及第二语法纠正结果进行字编辑处理,以抽取所有错误纠正编辑;
28、将所有错误纠正编辑融合,并且将所有编辑融合重新映射到待纠错文本中,以得到纠错后文本。
29、在第二方面,本发明提供一种文本纠错系统,所述系统包括:
30、拼写纠错单元,所述拼写纠错单元用于将待纠错文本输入训练后的拼写纠错模进行拼写纠正编辑,以形成拼写纠正结果;
31、语法纠错单元,所述语法纠错单元用于将待纠错文本输入训练后的语法纠错模型进行语法纠正编辑,以形成语法纠正结果;
32、融合单元,所述融合单元用于对拼写纠正结果和语法纠正结果进行融合处理,以得到纠错后文本。
33、在第三方面,本发明提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行计算机程序时实现所述一种文本纠错方法。
34、在第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述一种文本纠错方法。
35、本发明的有益效果如下:
36、1.本发明将中文文本错误细分为拼音错误和语法错误,并且分别针对两种错误进行建模,使得模型能够更加准确地识别和修复不同类型的错误;并且通过将模型融合,利用多个模型之间的差异性,将不同模型的优点结合起来,提高纠错准确率、减少误判率、提高鲁棒性。
37、2.本发明更改了拼写纠错模型和序列到序列模型的遮盖规则,使得上游遮盖任务和下游的微调任务统一起来,提高模型的性能和泛化能力。
38、3.本发明的拼音纠错模型采用联合错误检错模块和错误纠正模块,使得错误纠正模块可以通过错误检测模块输出的错误位置信息来进行更准确的纠错,而错误检测错模块可以通过错误纠正模块输出的正确文本信息来更好地判断错误位置和类型。
39、4.本发明的序列标注模型能够解决输入输出不对齐的问题,即采用基于字编辑操作的方式,将纠错问题转化为序列编辑问题,且相比于序列到序列模型解码空间大幅降低,推理性能提升明显;同时由于预测的内容求解空间也大幅降低,所以对样本的需求量也大幅减少。