一种基于语音识别结果的文本纠错方法及系统与流程

文档序号:27375729发布日期:2021-11-15 17:50阅读:168来源:国知局
一种基于语音识别结果的文本纠错方法及系统与流程

1.本发明涉及自然语言处理技术领域,尤其涉及一种基于语音识别结果的文本纠错方法及系统。


背景技术:

2.目前,越来越多的人有购车需求,为了保障消费者的合法权益,提高汽车4s店销售人员的服务质量,需要对销售过程的话术进行语音识别,然后通过自然语言处理技术对文本进行分析。但是,目前的语音识别技术无法达到良好的识别效果,尤其是在汽车行业的一些专业术语和谐音词等。此外,由于语音数据的来源不同,导致由语音数据所转化后的文本数据的质量参差不齐,这给后续的数据挖掘、数据分析带来巨大的困难。


技术实现要素:

3.本发明提供一种基于语音识别结果的文本纠错方法及系统,以解决现有技术中语音识别的识别效果较差问题。
4.本发明提供的基于语音识别结果的文本纠错方法,包括:
5.采集样本数据,并对所述样本数据进行预处理,所述预处理包括将语音数据转换为文本数据;
6.对经过所述预处理后的样本数据进行标注,形成第一样本数据集,并根据所述第一样本数据集建立第一模型,所述第一模型用于文本数据故障诊断分类;
7.获取所述第一模型的输出结果,并将其作为第二样本数据集,根据所述第二样本数据集构建第二模型,所述第二模型用于根据第一模型的输出结果的正确概率进行文本纠错;
8.获取目标语音数据,将所述目标语音数据依次经过所述预处理、第一模型和第二模型处理后,获取正确文本数据。
9.可选的,所述第一模型为文本分类器,所述对经过所述预处理后的样本数据进行标注,形成第一样本数据集,并根据所述第一样本数据集建立第一模型,具体包括:
10.对所述预处理后的样本数据进行标注形成第一样本数据集;
11.采用所述第一样本数据集训练所述文本分类器;
12.将所述第一样本数据集输入所述文本分类器,输出所述第一样本数据集中各数据到各类别的概率,所述类别包括正确和错误。
13.可选的,所述采用所述第一样本数据集训练所述文本分类器,具体包括:
14.采用深度神经网络对所述第一样本数据集进行特征提取,获取特征数据集;
15.采用所述特征数据集训练所述文本分类器。
16.可选的,所述第二模型为文本纠错模型,所述获取所述第一模型的输出结果,将其作为第二样本数据集,并根据所述第二样本数据集构建第二模型,具体包括:
17.获取所述第一模型的输出结果,并根据所述第一模型的输出结果获取所述输出结
果的正确概率;
18.根据所述输出结果的正确概率和概率阈值获取第二样本数据集;
19.采用所述第二样本数据集训练所述文本纠错模型。
20.可选的,所述采用所述第二样本数据集训练所述文本纠错模型,具体包括:
21.将所述第二样本数据集输入所述文本纠错模型,对所述第二样本数据集进行掩码处理,对掩码处理后的第二样本数据集进行预测,输出预测文本。
22.可选的,所述将所述目标语音数据依次经过所述预处理、第一模型和第二模型处理后,获取正确文本数据,具体包括:
23.对所述目标语音数据进行所述预处理;
24.将所述经过预处理后的目标语音数据输入所述第一模型,获取目标分类结果;
25.根据所述目标分类结果获取待纠错文本数据;
26.将所述待纠错文本数据输入所述第二模型,获取正确文本数据。
27.可选的,所述语音数据为汽车销售所产生的语音数据,所述方法,还包括:
28.根据所述正确文本数据获取目标用户的汽车偏好;
29.根据所述目标用户的汽车偏好获取目标汽车推荐方案。
30.本发明还提供了一种基于语音识别结果的文本纠错系统,包括:
31.数据采集模块,用于采集样本数据,并对所述样本数据进行预处理,所述预处理包括将语音数据转换为文本数据;
32.第一模型建立模块,用于对经过所述预处理后的样本数据进行标注,形成第一样本数据集,并根据所述第一样本数据集建立第一模型,所述第一模型用于文本数据故障诊断分类;
33.第二模型建立模块,用于获取所述第一模型的输出结果,将其作为第二样本数据集,并根据所述第二样本数据集构建第二模型,所述第二模型用于根据第一模型的输出结果的正确概率进行文本纠错;
34.目标数据获取模块,用于获取目标语音数据,将所述目标语音数据依次经过所述预处理、第一模型和第二模型处理后,获取正确的文本数据。
35.本发明还提供一种电子设备,包括:处理器及存储器;
36.所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行所述基于语音识别结果的文本纠错方法。
37.本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述基于语音识别结果的文本纠错方法。
38.本发明的有益效果:本发明的基于语音识别结果的文本纠错方法,通过采集语音数据,将语音数据转换为文本数据,对文本数据进行标注,形成第一样本数据集,并根据第一样本数据集建立用于文本数据故障诊断分类的第一模型;然后获取第一模型的输出结果,并将其作为第二样本数据集,构建用于根据第一模型的输出结果的正确概率进行文本纠错的第二模型;获取目标语音数据,将目标语音数据依次经过预处理、第一模型和第二模型处理后,获取正确文本数据,从而实现了对目标语音的准确识别,提高了目标领域的语音识别的准确性,便于后续的数据分析与挖掘。
附图说明
39.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
40.图1是本发明实施例中基于语音识别结果的文本纠错方法的流程示意图;
41.图2是本发明实施例中正确文本数据的获取方法的流程示意图;
42.图3是本发明实施例中基于语音识别结果的文本纠错系统的结构示意图。
具体实施方式
43.以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
44.需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
45.为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
46.第一实施例
47.图1是本发明在一实施例中提供的基于语音识别结果的文本纠错方法的流程示意图。
48.如图1所示,所述基于语音识别结果的文本纠错方法,包括步骤s110

s140:
49.s110,采集样本数据,并对样本数据进行预处理,预处理包括将语音数据转换为文本数据;
50.s120,对经过预处理后的样本数据进行标注,形成第一样本数据集,并根据第一样本数据集建立用于文本数据故障诊断分类的第一模型;
51.s130,获取第一模型的输出结果,将其作为第二样本数据集,并根据第二样本数据集构建用于根据第一模型的输出结果的正确概率进行文本纠错的第二模型;
52.s140,获取目标语音数据,将目标语音数据依次经过预处理、第一模型和第二模型处理后,获取正确文本数据。
53.在本实施例的步骤s110中,样本数据为语音数据,语音数据可以为汽车领域的语音数据,语音数据还可以具体为汽车销售过程中所产生的历史对话语音。将语音数据转换为文本数据具体包括:采用训练好的声学模型将语音数据识别为中文拼音序列,然后采用训练好的语言模型将中文拼音序列识别为中文字符序列,从而得到文本数据。声学模型的获取方式包括:对语音数据进行特征提取得到时频图,并根据时频图获取时频数据集,采用时频数据集训练声学模型,从而得到训练好的声学模型。语音数据为中文语音数据,语音数据可以是已标注好的语音数据,也可以是未标注的语音数据。对语音数据进行特征提取得
到时频图具体包括:对历史语音进行预加重、分帧、加窗和傅里叶变换处理后得到时频图。通过预加重可以减小口唇辐射的影响,提高高频语音的分辨率,从而提高识别准确度。声学模型可以为深度卷积神经网络模型,在声学模型训练过程中采用ctc作为损失函数。语言模型的获取方式包括:获取现有语料库中的拼音序列和文字序列,采用获取到的拼音序列和文字序列训练语言模型,从而得到训练好的语言模型。现有语料库可以为thchs

30语料库,语言模型可以为n

gram模型、前馈神经网络模型、rnn模型等。
54.在本实施例中的步骤s120中,对预处理后的样本数据进行标注可以只对预处理后的样本数据中的一部分数据进行标注,以此来形成第一样本数据集。第一模型可以是文本分类器;根据第一样本数据集建立用于文本故障诊断分类的第一模型具体包括:采用第一样本数据集训练文本分类器建立用于文本故障诊断分类的第一模型;将第一样本数据集输入文本分类器,输出第一样本数据集中各数据到各类别的概率,类别包括正确和错误。
55.在一实施例中,采用第一样本数据集训练文本分类器建立用于文本故障诊断分类的第一模型的实现方法可以为:采用深度神经网络对第一样本数据集进行特征提取,获取特征数据集;采用特征数据集训练文本分类器建立用于文本故障诊断分类的第一模型。具体地,深度神经网络层包括albert层,也叫向量层,采用训练好的albert预训练模型对第一样本数据集进行向量化处理后获取向量数据集;再将向量层的输出传入dropout层,该层按照一定的比例随机保留一定的特征;然后将dropout层保留的特征输入到激活层中,并通过relu函数产生激活状态;最后通过全连接层,并通过softmax函数得出各类别的概率。
56.在本实施例的步骤s130中,获取第二样本数据集的具体包括:将获取到的历史语音数据通过语音识别转换为历史文本数据,将历史文本数据输入第一模型,获取历史文本数据的分类结果;根据历史文数据的分类结果和概率阈值获取待处理文本数据,形成第二样本数据集。具体地,若历史文本数据的正确类别概率值大于或等于概率阈值,则该历史文本数据为待处理文本数据,集合多个待处理文本数据形成第二样本数据集。概率阈值可以根据通过对历史语音数据进行语音识别获取历史文本数据的准确率来确定,若语音识别的准确率高,例如准确率为88%、90%等,则将概率阈值设置为较高值,例如可以为90%、95%等;若语音识别的准确率低,则将概率阈值设置为较低值,例如可以为60%、65%等。历史语音数据可以是汽车领域的历史语音数据。
57.在一实施例中,第二模型为文本纠错模型,根据第二样本数据集建立用于根据第一模型的输出结果的正确概率进行文本纠错的第二模型具体包括:采用第二样本数据集训练文本纠错模型;将第二样本数据集输入文本纠错模型,对第二样本数据集进行掩码处理,对掩码处理后的第二样本数据集进行预测,输出预测文本。对第二样本数据集进行掩码处理具体包括:获取第二样本数据集中待处理文本数据的错误字符,对错误字符进行掩码处理;然后学习恢复被掩盖的字符,从而实现对掩码处理后的第二样本数据集进行预测,输出预测文本。文本纠错模型在训练阶段采用unilm中的masked lm模型,根据预训练目标对编码过程执行约束条件,从而实现了对错误文本数据的纠错,提高了语音识别的准确性。
58.在本实施例的步骤s140中,将目标语音数据依次经过预处理、第一模型和第二模型处理后,获取正确文本数据请参见图2,图2是本发明在一实施例中正确文本数据的获取方法的流程示意图。
59.如图2所示,正确文本数据的获取方法可以包括以下步骤s210

s240:
60.s210,对目标语音数据进行预处理;
61.s220,将经过预处理后的目标语音数据输入第一模型,获取目标分类结果;
62.s230,根据目标分类结果获取待纠错文本数据;
63.s240,将待纠错文本数据输入第二模型,获取正确文本数据。
64.在一实施例中,目标语音数据可以根据汽车领域的语音沟通内容获取目标语音,具体地,目标语音数据可以根据汽车销售过程中销售人员与客户的语音沟通内容来获取,对目标语音进行语音识别的过程与对样本数据的语音识别过程一致,采用训练好的声学模型将目标语音数据识别为中文拼音序列,然后采用训练好的语言模型将中文拼音序列识别为中文字符序列,从而得到目标文本数据。
65.将目标文本输入分类模型,获取目标分类结果,其中,目标分类结果目标文本的正确类别概率和错误类别概率。
66.在一实施例中,概率阈值的确定方式与步骤s130中概率阈值的确定方式一致,在此不再赘述。对目标语音数据进行预处理即是将目标语音数据转换为目标文本数据,然后将目标文本数据输入第一模型获取目标分类结果。当目标文本数据的正确类别概率大于或等于概率阈值,表明在对目标语音的语音识别过程中的识别准确率高,因此将这类文本数据确定为正确文本数据,不再进行后续的纠错处理;当目标文本数据的正确类别概率小于概率阈值,表明在对目标语音进行语音识别过程中的识别准确率较低,因此将这类文本数据确定为待纠错文本数据,然后将待纠错文本数据进行纠错处理获取正确文本数据。通过采用将目标文本数据输入第一模型,获取目标文本数据的正确类别概率,从而将目标文本数据确定为正确文本数据或者待纠错文本数据,提高了对目标语音的识别准确率和处理效率。
67.在一实施例中,若目标文本数据为待纠错文本数据,则将待纠错文本数据输入步骤s130中建立的第二模型中,对待纠错文本数据进行纠错处理,从而获取正确文本数据。通过获取汽车销售过程中所产生的历史对话语音,对历史对话语音数据进行语音识别后获取历史文本数据,在此历史文本数据的基础上建立用于故障诊断分类的第一模型和用于根据第一模型的输出结果的正确概率进行文本纠错的第二模型;然后根据汽车领域的语音沟通内容获取目标语音数据,对目标语音数据进行语音识别后获取目标文本数据,将目标文本数据输入第一模型,获取目标分类结果;根据目标分类结果获取待纠错文本数据,将待纠错文本数据输入第二模型,获取正确文本数据,从而实现了对目标语音数据的准确识别,提高了对目标语音中汽车领域的专业术语的识别准确性,便于后续的数据分析与挖掘。
68.在一实施例中,样本数据中的语音数据为汽车销售所产生的历史对话语音,并在此基础上建立用于故障诊断分类的第一模型和用于根据第一模型的输出结果的正确概率进行文本纠错的第二模型,将获取到的目标语音数据转化为目标文本数据,然后将目标文本数据输入到第一模型,或者将目标文本数据输入到第一模型和第二模型后,获取正确文本数据。然后可以根据正确文本数据获取目标用户的汽车偏好,再根据目标用户的汽车偏好获取目标汽车推荐方案。通过对正确文本数据中目标用户信息的提取从而获取到目标用户的汽车偏好,汽车销售人员根据目标用户的汽车偏好获取汽车推荐方案,根据汽车推荐方案对目标用户进行个性化推荐,在此基础上更易与目标用户达成交易,从而提高了汽车销售人员的服务质量以及提高了汽车销售的成交率。
69.第二实施例
70.基于与第一实施例中方法相同的发明构思,相应的,本实施例还提供了一种基于语音识别结果的文本纠错系统。
71.图3为本发明提供的基于语音识别结果的文本纠错系统的结构示意图。
72.如图3所示,所示系统3包括:31数据采集模块、32第一模型建立模块、33第二模型建立模块以及34目标数据获取模块。
73.其中,数据采集模块,用于采集样本数据,并对所述样本数据进行预处理,所述预处理包括将语音数据转换为文本数据;
74.第一模型建立模块,用于对经过所述预处理后的样本数据进行标注,形成第一样本数据集,并根据所述第一样本数据集建立第一模型,所述第一模型用于文本数据故障诊断分类;
75.第二模型建立模块,用于获取所述第一模型的输出结果,并将其作为第二样本数据集,构建第二模型,所述第二模型用于根据第一模型的输出结果的正确概率进行文本纠错;
76.目标数据获取模块,用于获取目标语音数据,将所述目标语音数据依次经过所述预处理、第一模型和第二模型处理后,获取正确的文本数据。
77.在一些示例性实施例中,第一模型建立模块包括:
78.第一样本数据集获取单元,用于对预处理后的样本数据进行标注形成第一样本数据集;
79.第一训练单元,用于采用第一样本数据集训练第一模型,其中,分类模型为文本分类器;
80.第一模型建立单元,用于将第一样本数据集输入文本分类器,输出第一样本数据集中各数据到各类别的概率,类别包括正确和错误。
81.在一些示例性实施例中,第一训练单元包括:
82.特征提取子单元,用于采用深度神经网络对第一样本数据集进行特征提取,获取特征数据集;
83.第一训练子单元,用于采用特征数据集训练文本分类器。
84.在一些示例性实施例中,第二模型建立模块包括:
85.输出结果获取单元,用于获取第一模型的输出结果,并根据第一模型的输出结果获取输出结果的正确概率;
86.第二样本数据集获取单元,用于根据输出结果的正确概率和概率阈值获取第二样本数据集;
87.第二训练单元,用于采用第二样本数据集训练第二模型,其中,第二模型为文本纠错模型。
88.在一些示例性实施例中,第二训练单元包括:
89.第二训练子单元,用于将第二样本数据集输入所述文本纠错模型,对第二样本数据集进行掩码处理,对掩码处理后的第二样本数据集进行预测,输出预测文本。
90.在一些示例性实施例中,目标数据获取模块包括:
91.预处理单元,用于获取目标语音数据,对目标语音数据进行预处理;
92.目标分类结果获取单元,用于将经过预处理后的目标语音数据输入第一模型,获取目标分类结果;
93.待纠错数据获取单元,用于根据所述目标分类结果获取待纠错文本数据;
94.正确文本数据获取单元,用于将所述待纠错文本数据输入所述第二模型,获取正确文本数据。
95.在一些示例性实施例中,基于语音识别结果的文本纠错系统还包括:
96.汽车偏好获取模块,用于根据正确文本数据获取目标用户的汽车偏好;
97.推荐方案获取模块,用于根据目标用户的汽车偏好获取目标汽车推荐方案。
98.本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本实施例中的任一项方法。
99.本实施例还提供一种电子设备,包括:处理器及存储器;
100.所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行本实施例中任一项方法。
101.本实施例中的计算机可读存储介质,本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
102.本实施例提供的电子设备,包括处理器、存储器、收发器和通信接口,存储器和通信接口与处理器和收发器连接并完成相互间的通信,存储器用于存储计算机程序,通信接口用于进行通信,处理器和收发器用于运行计算机程序,使电子设备执行如上方法的各个步骤。
103.在本实施例中,存储器可能包含随机存取存储器(random access memory,简称ram),也可能还包括非易失性存储器(non

volatile memory),例如至少一个磁盘存储器。
104.上述的处理器可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(digital signal processing,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现场可编程门阵列(field-programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
105.在上述实施例中,说明书对“本实施例”、“一实施例”、“另一实施例”、“在一些示例性实施例”或“其他实施例”的提及表示结合实施例说明的特定特征、结构或特性包括在至少一些实施例中,但不必是全部实施例。“本实施例”、“一实施例”、“另一实施例”的多次出现不一定全部都指代相同的实施例。
106.在上述实施例中,尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变形对本领域普通技术人员来说将是显而易见的。例如,其他存储结构(例如,动态ram(dram))可以使用所讨论的实施例。本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。
107.本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例
的部分说明即可。
108.本发明可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
109.本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
110.上述实施例仅示例性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,但凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1