本发明涉及自然语言处理,尤其涉及一种术语纠错方法、装置、电子设备和存储介质。
背景技术:
1、随着自然语言处理技术的发展,基于神经网络模型的文本纠错方法逐步成为文本纠错的主流技术。
2、通过大量语料训练,模型能够具备良好的纠错能力,这使得基于神经网络的文本纠错方法在通用领域的文本上拥有出色的表现。而由于专业领域中特定的专业术语在通用语料库中出现的频率较低,而模型训练又过度依赖通用语料库,导致现有的方法在专业领域的术语纠错上表现不佳。
技术实现思路
1、本发明提供一种术语纠错方法、装置、电子设备和存储介质,用以解决现有技术中针对专业领域的术语纠错表现不佳的缺陷。
2、本发明提供一种术语纠错方法,包括:
3、确定目标领域下的待纠错文本;
4、将所述待纠错文本输入至错误实体识别模型中,得到所述错误实体识别模型输出的所述待纠错文本中的错误实体;
5、将所述错误实体与所述目标领域下的术语库进行匹配,基于与所述错误实体相匹配的正确术语,对所述待纠错文本进行纠错。
6、根据本发明提供的一种术语纠错方法,所述错误实体识别模型的训练步骤包括:
7、获取所述目标领域下的样本文本,以及所述样本文本的错误实体标签;
8、将样本文本输入至序列标注模型,得到所述序列标注模型输出的所述样本文本的错误实体预测结果;
9、基于所述错误识别预测结果以及所述错误实体标签,对所述序列标注模型进行参数迭代,得到所述错误实体识别模型。
10、根据本发明提供的一种术语纠错方法,所述获取所述目标领域下的样本文本,以及所述样本文本的错误实体标签,包括:
11、获取所述目标领域的原始文本;
12、基于所述目标领域的术语库,将所述原始文本中的正确术语替换为错误术语,得到所述样本文本,并基于替换所用的错误术语确定所述样本文本的错误实体标签。
13、根据本发明提供的一种术语纠错方法,所述将所述错误实体与所述目标领域下的术语库进行匹配,包括:
14、将所述错误实体与所述术语库中的候选错误术语进行匹配;
15、在匹配到所述候选错误术语的情况下,将所述术语库中与匹配到的候选错误术语相对应的正确术语,作为与所述错误实体相匹配的正确术语。
16、根据本发明提供的一种术语纠错方法,所述将所述错误实体与所述术语库中的候选错误术语进行匹配,之后还包括:
17、在未匹配到所述候选错误术语的情况下,将所述错误实体转换为第一拼音序列,将所述第一拼音序列与所述术语库中各正确术语的第二拼音序列进行匹配;
18、在匹配到所述第二拼音序列的情况下,将所述第二拼音序列对应的正确术语,作为与所述错误实体相匹配的正确术语。
19、根据本发明提供的一种术语纠错方法,所述将所述错误实体转换为第一拼音序列,包括:
20、将所述错误实体转换为拼音序列,并对所述错误实体的拼音序列进行模糊处理,得到所述第一拼音序列;
21、所述第二拼音序列是将所述正确术语装换为拼音序列并进行模糊处理得到的。
22、根据本发明提供的一种术语纠错方法,所述将所述第一拼音序列与所述术语库中各正确术语的第二拼音序列进行匹配,之后还包括:
23、在未匹配到所述第二拼音序列的情况下,对所述错误实体进行形近字替换,得到形近实体,将所述形近实体与所述术语库中的正确术语进行匹配;
24、在匹配到所述正确术语的情况下,将匹配到的正确术语作为与所述错误实体相匹配的正确术语。
25、本发明还提供一种术语纠错装置,包括:
26、文本获取单元,用于确定目标领域下的待纠错文本;
27、实体识别单元,用于将所述待纠错文本输入至错误实体识别模型中,得到所述错误实体识别模型输出的所述待纠错文本中的错误实体;
28、术语匹配单元,用于将所述错误实体与所述目标领域下的术语库进行匹配,基于与所述错误实体相匹配的正确术语,对所述待纠错文本进行纠错。
29、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述术语纠错方法。
30、本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述术语纠错方法。
31、本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述术语纠错方法。
32、本发明提供的术语纠错方法、装置、电子设备和存储介质,基于错误实体识别模型和术语库匹配的方式,实现针对目标领域的术语纠错,保证了术语纠错的领域针对性,提高了术语纠错的准确率。
1.一种术语纠错方法,其特征在于,包括:
2.根据权利要求1所述的术语纠错方法,其特征在于,所述错误实体识别模型的训练步骤包括:
3.根据权利要求2所述的术语纠错方法,其特征在于,所述获取所述目标领域下的样本文本,以及所述样本文本的错误实体标签,包括:
4.根据权利要求1至3中任一项所述的术语纠错方法,其特征在于,所述将所述错误实体与所述目标领域下的术语库进行匹配,包括:
5.根据权利要求4所述的术语纠错方法,其特征在于,所述将所述错误实体与所述术语库中的候选错误术语进行匹配,之后还包括:
6.根据权利要求5所述的术语纠错方法,其特征在于,所述将所述错误实体转换为第一拼音序列,包括:
7.根据权利要求5所述的术语纠错方法,其特征在于,所述将所述第一拼音序列与所述术语库中各正确术语的第二拼音序列进行匹配,之后还包括:
8.一种术语纠错装置,其特征在于,包括:
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述术语纠错方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述术语纠错方法。