语音识别的后处理方法、装置、设备及存储介质与流程

文档序号:33160085发布日期:2023-02-04 00:27阅读:50来源:国知局
语音识别的后处理方法、装置、设备及存储介质与流程

1.本发明涉及计算机技术领域,尤其涉及一种语音识别的后处理方法、装置、设备及存储介质。


背景技术:

2.语音识别是计算机科学和计算语言学的一个跨学科子领域,它能够通过深度学习等技术将语音识别为文本,广泛应用于智能客服、车载导航、智能家居、同声传译等场景。但现有的大部分语音识别模型都只是识别为字符序列,为了提高可读性,优化用户体验,提高识别文本在下游任务的准确性,还需要对语音识别输出的文本进行口语顺滑、标点恢复、逆文本标准化、修改错误词等后处理。当前的后处理方式存在以下问题:针对后处理分为多步骤进行,耗时较多,且会进行误差传递;当前的逆文本标准化、纠错模型等都需要收集或标注训练数据,标注数据成本昂贵,且不利于拓展到新领域;当前的后处理方式大多是针对整句进行建模,当模型运用于流式识别的不完整句子时候,效果较差,影响用户体验与下游任务的准确性。
3.上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。


技术实现要素:

4.本发明的主要目的在于提供一种语音识别的后处理方法、装置、设备及存储介质,旨在解决当前的后处理方式分多步骤进行,耗时较多的技术问题。
5.为实现上述目的,本发明提供了一种语音识别的后处理方法,所述方法包括以下步骤:通过多种方式分别对语料库中的文本数据进行数据构造,生成多样化训练数据,所述多种方式包括标点删除方式、标准化处理方式、文本内容纠正方式以及文本片段截断方式中的至少两种方式;根据所述多样化训练数据对初始模型进行训练,得到后处理模型;获取语音识别后的初始文本数据;利用训练好的所述后处理模型对所述初始文本数据进行后处理,得到目标文本数据。
6.可选地,所述通过多种方式分别对语料库中的文本数据进行数据构造,生成多样化训练数据,包括:对语料库中的文本数据进行标点符号删除处理,得到第一文本数据;根据所述第一文本数据和所述语料库中的文本数据生成第一训练数据;对所述第一训练数据和其他方式生成的训练数据进行混合,得到多样化训练数据。
7.可选地,所述通过多种方式分别对语料库中的文本数据进行数据构造,生成多样
化训练数据,包括:对语料库中的文本数据进行标准化处理,得到第二文本数据;根据所述第二文本数据和所述语料库中的文本数据生成第二训练数据;对所述第二训练数据和其他方式生成的训练数据进行混合,得到多样化训练数据。
8.可选地,所述通过多种方式分别对语料库中的文本数据进行数据构造,生成多样化训练数据,包括:对语料库中的文本数据进行语音合成,得到语音数据;利用语音识别模型对所述语音数据进行识别,得到第三文本数据;根据所述第三文本数据和所述语料库中的文本数据生成第三训练数据;对所述第三训练数据和其他方式生成的训练数据进行混合,得到多样化训练数据。
9.可选地,所述根据所述第三文本数据和所述语料库中的文本数据生成第三训练数据之后,所述方法还包括:对所述第三文本数据进行截断处理,得到第四文本数据;对所述语料库中的文本数据进行截断处理,得到第五文本数据;根据所述第四文本数据和所述第五文本数据生成第四训练数据;对所述第三训练数据、所述第四训练数据以及其他方式生成的训练数据进行混合,得到多样化训练数据。
10.可选地,所述对所述语料库中的文本数据进行截断处理,得到第五文本数据,包括:对所述语料库中的文本数据进行多次截断处理,得到多个待选文本数据;确定各个所述待选文本数据与所述第四文本数据之间的相似度;选取与所述第四文本数据之间的相似度最高的待选文本数据作为第五文本数据。
11.可选地,所述通过多种方式分别对语料库中的文本数据进行数据构造,生成多样化训练数据之前,所述方法还包括:收集大量的已知文本内容;对所述已知文本内容进行断句处理,得到多条句子文本;将所述多条句子文本存储为语料库。
12.此外,为实现上述目的,本发明还提出一种语音识别的后处理装置,所述语音识别的后处理装置包括:数据构造模块,用于通过多种方式分别对语料库中的文本数据进行数据构造,生成多样化训练数据,所述多种方式包括标点删除方式、标准化处理方式、文本内容纠正方式以及文本片段截断方式中的至少两种方式;训练模块,用于根据所述多样化训练数据对初始模型进行训练,得到后处理模型;获取模块,用于获取语音识别后的初始文本数据;后处理模块,用于利用训练好的所述后处理模型对所述初始文本数据进行后处理,得到目标文本数据。
13.此外,为实现上述目的,本发明还提出一种语音识别的后处理设备,所述语音识别
的后处理设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音识别的后处理程序,所述语音识别的后处理程序配置为实现如上文所述的语音识别的后处理方法。
14.此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有语音识别的后处理程序,所述语音识别的后处理程序被处理器执行时实现如上文所述的语音识别的后处理方法。
15.本发明通过多种方式分别对语料库中的文本数据进行数据构造,生成多样化训练数据,多种方式包括标点删除方式、标准化处理方式、文本内容纠正方式以及文本片段截断方式中的至少两种方式;根据多样化训练数据对初始模型进行训练,得到后处理模型;获取语音识别后的初始文本数据;利用训练好的后处理模型对初始文本数据进行后处理,得到目标文本数据。通过上述方式,采用单一模型即可实现标点恢复、逆文本标准化、修改错误词等后处理步骤,无需针对口语顺滑、标点恢复、逆文本标准化、修正错误词等任务做独立处理,解决了分多步骤进行造成的耗时问题,无需标注数据,构造多样化训练数据,降低了标注成本,并且本发明中针对语音流式识别过程中的中间文本进行建模优化,提高对不完整句子后处理的鲁棒性。
附图说明
16.图1是本发明实施例方案涉及的硬件运行环境的语音识别的后处理设备的结构示意图;图2为本发明语音识别的后处理方法第一实施例的流程示意图;图3为本发明语音识别的后处理方法第二实施例的流程示意图;图4为本发明一实例的处理方式示意图;图5为本发明一实例的端对端后处理流程示例图;图6为本发明语音识别的后处理装置第一实施例的结构框图。
17.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
18.应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
19.参照图1,图1为本发明实施例方案涉及的硬件运行环境的语音识别的后处理设备结构示意图。
20.如图1所示,该语音识别的后处理设备可以包括:处理器1001,例如中央处理器(central processing unit,cpu),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(wireless-fidelity,wi-fi)接口)。存储器1005可以是高速的随机存取存储器(random access memory,ram),也可以是稳定的非易失性存储器(non-volatile memory,nvm),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
21.本领域技术人员可以理解,图1中示出的结构并不构成对语音识别的后处理设备
的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
22.如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语音识别的后处理程序。
23.在图1所示的语音识别的后处理设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明语音识别的后处理设备中的处理器1001、存储器1005可以设置在语音识别的后处理设备中,所述语音识别的后处理设备通过处理器1001调用存储器1005中存储的语音识别的后处理程序,并执行本发明实施例提供的语音识别的后处理方法。
24.本发明实施例提供了一种语音识别的后处理方法,参照图2,图2为本发明语音识别的后处理方法第一实施例的流程示意图。
25.本实施例中,所述语音识别的后处理方法包括以下步骤:步骤s10:通过多种方式分别对语料库中的文本数据进行数据构造,生成多样化训练数据,所述多种方式包括标点删除方式、标准化处理方式、文本内容纠正方式以及文本片段截断方式中的至少两种方式。
26.可以理解的是,本实施例的执行主体为语音识别的后处理设备,所述语音识别的后处理设备可以为计算机、服务器等设备,还可以为其他具备人工智能推理能力的设备,本实施例对此不加以限制。
27.需要说明的是,语音识别的后处理过程为口语顺滑、标点恢复、逆文本标准化、修改错误词等中的至少一种,其中,口语顺滑是指将口语化文本转换为书面语文本,包括去除语气词、重复内容等;标点恢复是指对识别文本进行断句,并增加相应的标点符号;逆文本标准化是指对日期、数字等转换为书面语表达,如百分之三十三转换为33%;修改错误词是指对识别结果中的错误词进行纠正,比如同音词纠正等。现有的方式中大多是针对以上的各点进行针对性的分步骤处理,例如,在逆文本标准化中,wetextprocessing基于语法规则的wfst方法,实现包括tagger、reorder和verbalizer三部分,分别对文本进行解析转换为结构化信息,对结构化信息进行顺序调整以及重排序后的信息拼接;收集和标注广泛的数据,采用神经网络训练逆文本标准化模型;将标点恢复转换任务为序列标注任务,如distilbert-punctuator,采用bert预训练模型对文本打标签,预测是否要增加句号等标点符号。当前方式针对后处理分为多步骤进行,耗时较多,且会进行误差传递。
28.应当理解的是,语料库中包含大量的书面文本数据,利用语料库中的文本数据进行训练数据的构造,具体地,将处理后和处理前的文本数据对应存储为训练数据,例如,语料库中存储的文本数据c_1,经标点删除方式处理后为c_11,构造训练数据为(c_11、c_1),其中,c_11为训练数据的样本数据,c_1为标注数据。
29.需要说明的是,标点删除方式是指对语料库中的文本数据进行标点删除处理,标准化处理方式是指对语料库中的文本数据进行拼写校正处理、数字和缩写转单词处理、大小写转换处理等等标准化处理;文本内容纠正方式是指对语料库中的文本数据进行错误纠正;文本片段截断方式是指对语料库中的文本数据进行截断处理,构造不完整句子对应的训练数据。采用标点删除方式、标准化处理方式、文本内容纠正方式以及文本片段截断方式中的至少两种方式构造多样化训练数据,以便后处理模型学习训练数据中标点恢复和/或逆文本标准化和/或修改错误词的信息,从而对语音识别输出的文本数据同步进行标点恢
复和/或逆文本标准化和/或修改错误词。
30.进一步地,所述步骤s10之前,所述方法还包括:收集大量的已知文本内容;对所述已知文本内容进行断句处理,得到多条句子文本;将所述多条句子文本存储为语料库。
31.在具体实现中,从新闻、小说、网页等收集大量的已知文本内容,为书面文本内容,便于对语音识别输出的文本数据进行口语顺滑处理,可选地,采用stanza开源库对文本进行断句,以一句为一行保存为txt文本,记为语料库,假设语料库中文本数据记为c_i,语料库中包括c_1、c_2、

、c_i、

、c_n等。
32.步骤s20:根据所述多样化训练数据对初始模型进行训练,得到后处理模型。
33.应当理解的是,针对多步骤繁琐问题,本实施例中初始模型可选地采用端对端生成式预训练模型作为骨干网络,学习训练数据所携带的信息,得到后处理模型,基于后处理模型生成带有标点符号、逆文本标准化的文本。
34.可选地,本实施例中采用的端对端生成式预训练模型为t5,t5模型基于multi-head attention与feed forward neural network组成每个block,将每个block进行堆叠分别形成编码器与解码器,本实施例中采用编码器和解码器各6层。其中multi-head attention相当于h个不同的self-attention的集成,本实施例中采用的8个heads。同时t5模型采用自监督策略,对语料掩码后进行预训练,有着比较充分的语言建模能力。此外,后处理训练其他参数为文本最大长度取256,优化算法选择adam,学习率为1e-5,批处理大小为16,训练2个轮次(epoch)。在具体实现中,多样化训练数据中包括处理后的文本数据和处理前的文本数据,初始模型的输入为处理后的文本数据,并以处理前的文本数据为预测目标进行模型训练。
35.步骤s30:获取语音识别后的初始文本数据。
36.需要说明的是,初始文本数据可以为语音识别输出的粗糙文本,粗糙文本中可能存在词错误、无标点符号等,造成可读性较差。
37.步骤s40:利用训练好的所述后处理模型对所述初始文本数据进行后处理,得到目标文本数据。
38.应当理解的是,训练好的后处理模型学习了标点恢复和/或逆文本标准化和/或修改错误词的信息,利用训练好的所述后处理模型对语音识别除数的初始文本数据进行后处理,实现标点恢复和/或逆文本标准化和/或修改错误词,摒弃了传统的多步骤繁琐后处理,提升了处理效率。
39.需要说明的是,本实施例中采用端对端生成式预训练模型t5作为骨干网络,输入语音识别的粗糙文本(没有标点符号等),端对端输出可读、纠正错误后的文本,同时完成多种后处理任务。一般采用模型进行后处理时需要用到训练数据进行训练,而训练数据的标注成本昂贵,而本实施例中从新闻、小说等书面文本出发,采用以下至少两种方式构造数据,产生多样化训练数据,无需标注便可产生大量的训练数据。构造数据的方式包括:1、将采集到的文本删除标点,解决标点恢复数据的标注问题;2、将采集到的文本标准化,解决文本逆标准化的标注问题;3、将采集到的文本语音合成后再语音识别模拟真实语音识别输出文本,解决语音识别错误词纠正的标注问题;4、对3中得到的输出文本进行随机截断,模拟语音流式识别,解决流式识别中间不完整句子的标注问题。
40.本实施例通过多种方式分别对语料库中的文本数据进行数据构造,生成多样化训
练数据,多种方式包括标点删除方式、标准化处理方式、文本内容纠正方式以及文本片段截断方式中的至少两种方式;根据多样化训练数据对初始模型进行训练,得到后处理模型;获取语音识别后的初始文本数据;利用训练好的后处理模型对初始文本数据进行后处理,得到目标文本数据。通过上述方式,采用单一模型即可实现标点恢复、逆文本标准化、修改错误词等后处理步骤,无需针对口语顺滑、标点恢复、逆文本标准化、修正错误词等任务做独立处理,解决了分多步骤进行造成的耗时问题,无需标注数据,构造多样化训练数据,降低了标注成本,并且本实施中针对语音流式识别过程中的中间文本进行建模优化,提高对不完整句子后处理的鲁棒性。
41.参考图3,图3为本发明语音识别的后处理方法第二实施例的流程示意图。
42.基于上述第一实施例,本实施例语音识别的后处理方法在第一种实现方式中,所述步骤s10,包括:步骤s101:对语料库中的文本数据进行标点符号删除处理,得到第一文本数据。
43.应当理解的是,针对采集到的语料库中的每条文本数据c_i,删除掉其中的标点符号,删除的标点符号例如“#$%&'()*+,-/:;<=>@[\]^_{|}~
“”…
。”等等,还可以包括例如问号、感叹号、特殊符号等等,得到没有标点符号的文本数据c_i1,参照图4,图4为本发明一实例的处理方式示意图,例如,针对文本数据“其次,结果显示是70后占比33%。”删除标点符号后得到“其次结果显示是70后占比33%”。
44.步骤s102:根据所述第一文本数据和所述语料库中的文本数据生成第一训练数据。
45.需要说明的是,根据第一文本数据c_i1和语料库中的文本数据c_i生成第一训练数据(c_i1、c_i),其中,c_i1为第一训练数据的样本数据,c_i为第一训练数据的标注数据。进一步形成训练集t1。
46.对所述第一训练数据和其他方式生成的训练数据进行混合,得到多样化训练数据。
47.应当理解的是,其他方式是指标准化处理方式、文本内容纠正方式以及文本片段截断方式中的至少一种方式,将至少两种方式生成的训练数据进行混合,得到多样化训练数据。
48.在第二种实现方式中,本实施例语音识别的后处理方法的所述步骤s10,包括:步骤s103:对语料库中的文本数据进行标准化处理,得到第二文本数据。
49.在具体实现中,可选地,对语料库中的文本数据进行拼写校正处理、数字和缩写转单词处理、大小写转换处理,得到第二文本数据。可选地,采用wetextprocessing的normalizer类对句子进行标准化(normalize)。参照图4,例如,针对文本数据“其次,结果显示是70后占比33%。”标准化后可得“其次,结果显示是七零后占比百分之三十三。”。
50.步骤s104:根据所述第二文本数据和所述语料库中的文本数据生成第二训练数据。
51.应当理解的是,根据第二文本数据c_i2和语料库中的文本数据c_i生成第二训练数据(c_i1、c_i),其中,c_i2为第二训练数据的样本数据,c_i为第二训练数据的标注数据。进一步形成训练集t2。
52.对所述第二训练数据和其他方式生成的训练数据进行混合,得到多样化训练数
据。
53.需要说明的是,其他方式是指标点删除方式、文本内容纠正方式以及文本片段截断方式中的至少一种方式,将至少两种方式生成的训练数据进行混合,得到多样化训练数据。
54.在第三种实现方式中,本实施例语音识别的后处理方法的所述步骤s10,包括:步骤s105:对语料库中的文本数据进行语音合成,得到语音数据。
55.步骤s106:利用语音识别模型对所述语音数据进行识别,得到第三文本数据。
56.应当理解的是,本实施不对语音合成方式和语音合成方式进行限定。示例性地,采用fastspeech框架基于aishell等数据集训练语音合成模型,基于训练好的语音合成模型将c_i合成音频speech_i。示例性地,采用wenet框架基于wenetspeech开源数据训练语音识别模型,基于训练好的语音识别模型将语音数据speech_i识别为文本c_i3。参照图4,例如,将文本数据“其次,结果显示是70后占比33%。”合成为语音数据,而后语音识别为“其次结果显示是七零后占比百分之三十三”。
57.步骤s107:根据所述第三文本数据和所述语料库中的文本数据生成第三训练数据。
58.需要说明的是,根据第三文本数据c_i3和语料库中的文本数据c_i生成第三训练数据(c_i3、c_i),其中,c_i3为第三训练数据的样本数据,c_i为第三训练数据的标注数据。进一步形成训练集t3。
59.对所述第三训练数据和其他方式生成的训练数据进行混合,得到多样化训练数据。
60.应当理解的是,其他方式是指标点删除方式、标准化处理方式以及文本片段截断方式中的至少一种方式,将至少两种方式生成的训练数据进行混合,得到多样化训练数据。
61.在第四种实现方式中,本实施例语音识别的后处理方法在所述步骤s107之后,还包括:步骤s108:对所述第三文本数据进行截断处理,得到第四文本数据。
62.步骤s109:对所述语料库中的文本数据进行截断处理,得到第五文本数据。
63.需要说明的是,上述三种实现方式中,训练数据中均为整句文本数据,而语音流式识别过程中会产生不完整句子,如“其次结果显”,为解决不完整句子的后处理问题,本实施例中对文本纠错生成的第三文本数据c_i3、语料库中的文本数据c_i进行截断处理,得到第四文本数据c_i3`和第五文本数据c_i`,模拟不完整句子,以便后处理模型学习不完整句子所携带的信息,提升不完整句子的后处理效率。可选地,本实施例中第三文本数据的截断处理和语料库中的文本数据的截断处理为相同的固定截断方式,例如,从头部开始截取k个字符、从尾部开始截取p个字符等等。参照图4,例如,将“其次,结果显示是70后占比33%。”截断处理为“其次,结果显示是70后占比”,将“其次结果显示是七零后占比百分之三十三”截断处理为“其次结果显示是七零后占比”。
64.步骤s110:根据所述第四文本数据和所述第五文本数据生成第四训练数据。
65.应当理解的是,根据第四文本数据c_i3`和第五文本数据c_i`生成第四训练数据(c_i3`、c_i`),其中,c_i3`为第四训练数据的样本数据,c_i`为第四训练数据的标注数据。进一步形成训练集t4。
66.对所述第三训练数据、所述第四训练数据以及其他方式生成的训练数据进行混合,得到多样化训练数据。
67.需要说明的是,其他方式是指标点删除方式、标准化处理方式以及文本内容纠正方式中的至少一种方式,将至少两种方式生成的训练数据进行混合,得到多样化训练数据。
68.进一步地,所述步骤s109,包括:对所述语料库中的文本数据进行多次截断处理,得到多个待选文本数据;确定各个所述待选文本数据与所述第四文本数据之间的相似度;选取与所述第四文本数据之间的相似度最高的待选文本数据作为第五文本数据。
69.应当理解的是,多次截断处理用于获得语料库中的文本数据的所有可能性截断结果。第三文本数据可选地采用随机截断方式,如果语料库中的文本数据也采用随机截断方式,获得的第四文本数据c_i3`和第五文本数据c_i`极大概率不匹配。因此本实施例中基于相似度算法求取c_i的全部截断结果与c_i3`之间的相似度,取最相似的截断结果数据。可选地,求取相似度采用cer(字错率)算法,计算公式为:1-cer,其中,cer=(替换的字符数目+删除的字符数目+插入的字符数目)/字符总数。
70.可选地,将t1、t2、t3、t4训练集中的任意两个训练集混合形成训练集t,训练集t中包括多样化训练数据。优选地,将t1、t2、t3、t4训练集混合形成训练集t,训练集t中包括多样化训练数据,保证了训练数据样本的多样性,同时以上步骤均可以采用脚本完成,节省了大量的人力物力。
71.参照图5,图5为本发明一实例的端对端后处理流程示例图;本实施例的后处理模型,能够实现增加标点、文本逆标准化处理,例如,语音识别输出“其次结果显示是七零后占比百分之三十三”,后处理模型处理后输出“其次,结果显示是70后占比33%。”;本实施例的后处理模型,能够实现对未完整句子的后处理,例如,语音识别输出“其次结果显示是七零”,后处理模型处理后输出“其次,结果显示是70”;本实施例的后处理模型,能够实现错误纠正,例如,语音识别输出“结构面积只墙体住所占的面积”,后处理模型处理后输出“结构面积指墙体住所占的面积。”。
72.本实施例通过标点删除方式、标准化处理方式、文本内容纠正方式以及文本片段截断方式中的至少两种方式对语料库中的文本数据进行数据构造,生成多样化训练数据,以便后处理模型学习训练数据中携带的信息,从而对语音识别输出的文本数据同步进行标点恢复和/或逆文本标准化和/或修改错误词,并且能够实现对不完整句子的后处理,解决了分多步骤进行造成的耗时问题,提升了语音识别后处理的效率,无需标注数据,构造多样化训练数据,降低了标注成本。
73.此外,本发明实施例还提出一种存储介质,所述存储介质上存储有语音识别的后处理程序,所述语音识别的后处理程序被处理器执行时实现如上文所述的语音识别的后处理方法。
74.由于本存储介质采用了上述所有实施例的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再一一赘述。
75.参照图6,图6为本发明语音识别的后处理装置第一实施例的结构框图。
76.如图6所示,本发明实施例提出的语音识别的后处理装置包括:数据构造模块10,用于通过多种方式分别对语料库中的文本数据进行数据构造,生成多样化训练数据,所述多种方式包括标点删除方式、标准化处理方式、文本内容纠正方
式以及文本片段截断方式中的至少两种方式。
77.训练模块20,用于根据所述多样化训练数据对初始模型进行训练,得到后处理模型。
78.获取模块30,用于获取语音识别后的初始文本数据。
79.后处理模块40,用于利用训练好的所述后处理模型对所述初始文本数据进行后处理,得到目标文本数据。
80.应当理解的是,以上仅为举例说明,对本发明的技术方案并不构成任何限定,在具体应用中,本领域的技术人员可以根据需要进行设置,本发明对此不做限制。
81.本实施例通过多种方式分别对语料库中的文本数据进行数据构造,生成多样化训练数据,多种方式包括标点删除方式、标准化处理方式、文本内容纠正方式以及文本片段截断方式中的至少两种方式;根据多样化训练数据对初始模型进行训练,得到后处理模型;获取语音识别后的初始文本数据;利用训练好的后处理模型对初始文本数据进行后处理,得到目标文本数据。通过上述方式,采用单一模型即可实现标点恢复、逆文本标准化、修改错误词等后处理步骤,无需针对口语顺滑、标点恢复、逆文本标准化、修正错误词等任务做独立处理,解决了分多步骤进行造成的耗时问题,无需标注数据,构造多样化训练数据,降低了标注成本,并且本实施中针对语音流式识别过程中的中间文本进行建模优化,提高对不完整句子后处理的鲁棒性。
82.需要说明的是,以上所描述的工作流程仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的,此处不做限制。
83.另外,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的语音识别的后处理方法,此处不再赘述。
84.在一实施例中,所述数据构造模块10,还用于对语料库中的文本数据进行标点符号删除处理,得到第一文本数据;根据所述第一文本数据和所述语料库中的文本数据生成第一训练数据;对所述第一训练数据和其他方式生成的训练数据进行混合,得到多样化训练数据。
85.在一实施例中,所述数据构造模块10,还用于对语料库中的文本数据进行标准化处理,得到第二文本数据;根据所述第二文本数据和所述语料库中的文本数据生成第二训练数据;对所述第二训练数据和其他方式生成的训练数据进行混合,得到多样化训练数据。
86.在一实施例中,所述数据构造模块10,还用于对语料库中的文本数据进行语音合成,得到语音数据;利用语音识别模型对所述语音数据进行识别,得到第三文本数据;根据所述第三文本数据和所述语料库中的文本数据生成第三训练数据;对所述第三训练数据和其他方式生成的训练数据进行混合,得到多样化训练数据。
87.在一实施例中,所述数据构造模块10,还用于对所述第三文本数据进行截断处理,得到第四文本数据;对所述语料库中的文本数据进行截断处理,得到第五文本数据;根据所述第四文本数据和所述第五文本数据生成第四训练数据;对所述第三训练数据、所述第四训练数据以及其他方式生成的训练数据进行混合,得到多样化训练数据。
88.在一实施例中,所述数据构造模块10,还用于对所述语料库中的文本数据进行多次截断处理,得到多个待选文本数据;确定各个所述待选文本数据与所述第四文本数据之
间的相似度;选取与所述第四文本数据之间的相似度最高的待选文本数据作为第五文本数据。
89.在一实施例中,所述语音识别的后处理装置还包括收集模块;所述收集模块,用于收集大量的已知文本内容;对所述已知文本内容进行断句处理,得到多条句子文本;将所述多条句子文本存储为语料库。
90.此外,需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
91.上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
92.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器(read only memory,rom)/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
93.以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1