中文错别字纠正数据增强方法、装置、设备及介质与流程

文档序号:36653105发布日期:2024-01-06 23:39阅读:34来源:国知局
中文错别字纠正数据增强方法、装置、设备及介质与流程

本技术涉及文本数据增强,尤其涉及一种中文错别字纠正数据增强方法、装置、设备及介质。


背景技术:

1、中文错别字纠正应用十分广泛,尤其在教育或者出版领域。该任务首先判断输入文本中的每个汉字是否有错,如果有错,应该被替换成哪个汉字。中文错别字纠正的瓶颈在于训练语料(中文错别字纠正语料)非常少,发明人发现,已有的论文通过混淆集来构造错误-正确句子对(训练语料),但是如果不做任何限制,可能会造成大量的表示人名,地名等实体的汉字被替换。这样的数据用于训练错别字纠正模型,可能会对正确的人名,地名等实体做修改。而一般情况下,由于人名,地名,甚至还有网名等多种多样,系统修改往往是不可靠的。此外,仅仅使用混淆集替换的方法,引入的错误汉字和前后汉字通常没有语义连贯关系,甚至和前后汉字无法成词,这就造成了引入的错误比较简单,容易识别,且能够构造出的训练语料非常少,这样就导致了训练得到的中文错别字纠正模型纠正效果不是很好。


技术实现思路

1、针对上述技术问题,本技术的目的在于提供一种中文错别字纠正数据增强方法、装置、设备及介质,旨在解决现有方法构建的中文错别字纠正语料不够丰富、引入的错误比较简单,容易识别,导致基于此中文错别字纠正语料训练得到的中文错别字纠正模型纠正效果不好的技术问题,同时以避免实体被改错的情况。

2、为了解决上述技术问题,第一方面,本技术实施例提供一种中文错别字纠正数据增强方法,包括:

3、从预处理后的中文语料中获取待处理句子;

4、为所述待处理句子的每一个汉字赋予一个id,得到id列表;

5、通过命名实体模型对所述待处理句子进行命名实体识别,将识别到的实体对应的id加入到实体列表中;

6、将所述id列表中的id打乱,得到重新排序后id列表;

7、从所述重新排序后的id列表中选择第一个id作为待比对id;

8、判断所述待比对id是否在所述实体列表中;

9、若所述待比对id在所述实体列表中,则不对所述待比对id对应的汉字进行处理;若所述待比对id不在所述实体列表中,则利用汉字混淆集和语言模型对所述待比对id对应的汉字进行替换处理;其中,所述语言模型用于对所述待比对id对应的汉字所在的位置进行遮盖,并预测出所述位置所有可能的汉字;

10、将下一个id作为待比对id,并返回判断所述待比对id是否在所述实体列表中的步骤,直至满足预设的条件,得到替换后的句子;

11、将所述替换后的句子和所述待处理句子作为错误-正确句子对。

12、进一步的,所述若所述待比对id不在所述实体列表中,则利用汉字混淆集和语言模型对所述待比对id对应的汉字进行替换处理,包括:

13、若所述待比对id不在所述实体列表中,则判断所述待比对id对应的汉字是否在汉字混淆集中;

14、若在汉字混淆集中,则以设定的第一概率随机选取所述待比对id对应的汉字对应的混淆汉字进行替换,或以设定的第二概率随机选取汉字字典中任意一个汉字进行替换;其中,第二概率=1-第一概率;

15、若不在汉字混淆集中,则对所述待比对id对应的汉字所处的位置进行遮盖,并通过所述语言模型预测所述位置可能的汉字,得到所有可能的汉字以及每一个可能的汉字对应概率;

16、根据每一个可能的汉字对应的概率,按照预设的第一规则从所述所有可能的汉字中选取若干个汉字,作为待分析的汉字;

17、若所述待分析的汉字中存在与所述待比对id对应的汉字相似的汉字,则从所述相似的汉字中按照预设的第二规则选取一个与所述待比对id对应的汉字相似的汉字,并用选取到的相似的汉字替换所述待比对id对应的汉字;

18、若所述待分析的汉字中不存在与所述待比对id对应的汉字相似的汉字,则不对所述待比对id对应的汉字处理。

19、进一步的,所述根据每一个可能的汉字对应的概率,按照预设的第一规则从所述所有可能的汉字中选取若干个汉字,作为待分析的汉字,包括:

20、根据每一个可能的汉字对应的概率,从所述所有可能的汉字中选取概率由高到低排序在前m的m个汉字,作为待分析的汉字;其中,m为正整数。

21、在一个实施例中,所述若所述待分析的汉字中存在与所述待比对id对应的汉字相似的汉字,则从所述相似的汉字中按照预设的第二规则选取一个与所述待比对id对应的汉字相似的汉字,并用选取到的相似的汉字替换所述待比对id对应的汉字,包括:

22、若所述待分析的汉字中存在与所述待比对id对应的汉字相似的汉字,从所述相似的汉字中选取概率最大的汉字,并用所述概率最大的汉字替换所述待比对id对应的汉字。

23、进一步的,所述的中文错别字纠正数据增强方法,还包括:

24、获取大量的中文语料;

25、对所述大量的中文语料进行分句处理,并去除每句中非中字符以及空白符,得到所述预处理后的中文语料;

26、统计所述预处理后的中文语料中的汉字频次,并将频次小于预设阈值的汉字过滤掉,得到所述汉字字典。

27、进一步的,所述将下一个id作为待比对id,并返回判断所述待比对id是否在所述实体列表中的步骤,直至满足预设的条件,得到替换后的句子,包括:

28、将下一个id作为待比对id,并返回判断所述待比对id是否在所述实体列表中的步骤,直至替换的字数达到预设的阈值,输出替换后的句子;其中,若替换的字数没有达到预设的阈值,但所述重新排序后的id列表中的所有id遍历结束,输出替换后的句子。

29、第二方面,本技术实施例提供一种文本错别字纠正方法,包括:

30、获取待纠正文本;

31、将所述待纠正文本输入到训练好的文本错别字纠正模型中进行纠正,输出纠正后的文本;其中,所述训练好的文本错别字纠正模型以权利要求1-7任一项所述的错误句子作为输入、以所述正确句子作为输出,对待训练模型进行训练得到。

32、第三方面,本技术实施例提供一种中文错别字纠正数据增强装置,包括:

33、获取单元,用于从预处理后的中文语料中获取待处理句子;

34、id赋予单元,用于为所述待处理句子的每一个汉字赋予一个id,得到id列表;

35、命名实体识别单元,用于通过命名实体模型对所述待处理句子进行命名实体识别,将识别到的实体对应的id加入到实体列表中;

36、打乱单元,用于将所述id列表中的id打乱,得到重新排序后id列表;

37、选择单元,用于从所述重新排序后的id列表中选择第一个id作为待比对id;

38、判断单元,用于判断所述待比对id是否在所述实体列表中;

39、替换处理单元,用于若所述待比对id在所述实体列表中,则不对所述待比对id对应的汉字进行处理;若所述待比对id不在所述实体列表中,则利用汉字混淆集和语言模型对所述待比对id对应的汉字进行替换处理;其中,所述语言模型用于对所述待比对id对应的汉字所在的位置进行遮盖,并预测出所述位置所有可能的汉字;

40、返回单元,用于将下一个id作为待比对id,并返回判断所述待比对id是否在所述实体列表中的步骤,直至满足预设的条件,输出替换后的句子;

41、纠正语料构建单元,用于将所述替换后的句子和所述待处理句子作为错误-正确句子对。

42、第四方面,本技术实施例提供一种文本错别字纠正装置,包括:

43、纠正文本获取单元,用于获取待纠正文本;

44、输入单元,用于将所述待纠正文本输入到训练好的文本错别字纠正模型中进行纠正,输出纠正后的文本;其中,所述训练好的文本错别字纠正模型以上述任一项所述的错误句子作为输入、以所述错误句子对应的正确句子作为输出,对待训练模型进行训练得到。

45、第五方面,本技术实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

46、第六方面,本技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

47、本技术实施例提供的一种中文错别字纠正数据增强方法,包括:从预处理后的中文语料中获取待处理句子;为所述待处理句子的每一个汉字赋予一个id,得到id列表;通过命名实体模型对所述待处理句子进行命名实体识别,将识别到的实体对应的id加入到实体列表中;将所述id列表中的id打乱,得到重新排序后id列表;从所述重新排序后的id列表中选择第一个id作为待比对id;判断所述待比对id是否在所述实体列表中;若所述待比对id在所述实体列表中,则不对所述待比对id对应的汉字进行处理;若所述待比对id不在所述实体列表中,则利用汉字混淆集和语言模型对所述待比对id对应的汉字进行替换处理;其中,所述语言模型用于对所述待比对id对应的汉字所在的位置进行遮盖,并预测出所述位置所有可能的汉字;将下一个id作为待比对id,并返回判断所述待比对id是否在所述实体列表中的步骤,直至满足预设的条件,得到替换后的句子;将所述替换后的句子和所述待处理句子作为错误-正确句子对。由于本技术实施例在构造错误-正确句子对之前,首先对句子中的实体进行识别,在构造错误-正确句子对时,对属于实体的汉字不做处理,从而避免了实体被改错的问题。对于不在混淆集中的汉字,采用遮盖预测的方式来引入与前后汉字成词,并且和原汉字存在混淆关系的汉字错误,增加了错误的难度,因此本技术实施例能够构造更加复杂多样、丰富的训练语料,这样基于这些训练语料训练得到的模型会得到一个更好的效果,能够纠正复杂的错误。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1