基于ASR信息的多语种识别方法及系统与流程

文档序号:31532643发布日期:2022-09-16 20:58阅读:208来源:国知局
基于ASR信息的多语种识别方法及系统与流程
基于asr信息的多语种识别方法及系统
技术领域
1.本发明涉及语种识别技术领域,具体涉及一种基于asr信息的多语种识别方法及系统。


背景技术:

2.近年来,小语种语音识别受到越来越多的关注。据统计,世界范围内,小于百万人群使用的小语种占据世界所有语种的80%。但是,当下成熟的语音识别产品中,仅仅覆盖了世界所有语种的4%。作为多语种语音识别的前处理模块,语种识别的性能直接影响到语音识别结果,小语种识别对于下游语音识别任务起着关键性作用。因此,对小语种的研究显得尤为重要。
3.在传统语种分类方法中,通常采用mfcc、fbank等特征来表征输入音频的信息,或者直接对原始音频进行卷积操作获取特征,这些方法提取音频分类信息有限,限制了分类模型性能的上限。在实际生产中,我们通常可以获取到多语种音频的asr(自动语音识别技术,能够将人的语音转换为文本)文本标注信息,如何利用这些有效信息来提升语种分类准确率,是具有现实意义的事情。


技术实现要素:

4.为此,本发明提供一种基于asr信息的多语种识别方法及系统,解决语种识别在实际应用场景中经常面临的数据稀缺、易混淆,提取音频分类信息有限,限制分类模型性能,导致的语种分类准确率低的问题。
5.为了实现上述目的,本发明提供如下技术方案:基于asr信息的多语种识别方法,包括:
6.对测试数据进行静音检测,去掉静音片段后,得到非静音数据;
7.将得到的非静音数据进行fbank特征和pitch特征提取,将提取的fbank特征和pitch特征输送到多语种混合asr模型,通过所述多语种混合asr模型得到encoder输出信息;
8.将得到的encoder输出信息输送到多语种分类模型,通过所述多语种分类模型得到语种预测结果。
9.作为基于asr信息的多语种识别方法优选方案,所述多语种混合asr模型的训练步骤包括:
10.处理asr多语种数据,将各语种音频文件等比例混合得到训练数据;
11.采用字符颗粒度构建各个语种发音词典,然后将多语种发音词典合并构建统一发音词典;
12.对训练数据提取fbank特征和pitch特征;构建端到端多语种混合asr模型,送入数据进行训练。
13.作为基于asr信息的多语种识别方法优选方案,所述多语种分类模型的训练步骤
包括:
14.对原始多语种训练数据进行静音检测,去除掉静音片段;
15.进行数据增强处理,扩充训练数据;提取fbank特征和pitch特征,送入训练好的所述多语种混合asr模型中,得到encoder输出信息;
16.将encoder输出信息作为特征,送入多语种分类模型进行训练。
17.作为基于asr信息的多语种识别方法优选方案,数据增强处理包括速度扰动、音量扰动、加高斯噪声和谱增强;
18.fbank特征包含音频频谱特征之间的相关性信息;pitch特征包含说话人的基频特征。
19.作为基于asr信息的多语种识别方法优选方案,所述多语种混合asr模型采用conformer结构,所述多语种混合asr模型包括12层encoder和6层decoder,训练时采用ctc+attention decoder loss联合训练方式;
20.所述多语种分类模型采用7层tdnn结构,前5层为帧级别计算,后2层为段级别计算,经过softmax输出得到预测的各个语种类别结果。
21.本发明还提供一种基于asr信息的多语种识别系统,包括识别单元,所述识别单元包括:
22.测试数据静音检测模块,用于对测试数据进行静音检测,去掉静音片段后,得到非静音数据;
23.特征提取模块,用于将得到的非静音数据进行fbank特征和pitch特征提取;
24.asr模块,用于将提取的fbank特征和pitch特征输送到多语种混合asr模型,通过所述多语种混合asr模型得到encoder输出信息;
25.语种识别模块,用于将得到的encoder输出信息输送到多语种分类模型,通过所述多语种分类模型得到语种预测结果。
26.作为基于asr信息的多语种识别系统优选方案,还包括asr模型训练单元,所述asr模型训练单元用于所述多语种混合asr模型的训练,包括:
27.训练数据处理模块,用于处理asr多语种数据,将各语种音频文件等比例混合得到训练数据;
28.发音词典构建模块,用于采用字符颗粒度构建各个语种发音词典,然后将多语种发音词典合并构建统一发音词典;
29.第一训练模块,用于对训练数据提取fbank特征和pitch特征;构建端到端多语种混合asr模型,送入数据进行训练。
30.作为基于asr信息的多语种识别系统优选方案,还包括分类模型训练单元,所述分类模型训练单元用于多语种分类模型的训练,包括:
31.训练数据静音检测模块,用于对原始多语种训练数据进行静音检测,去除掉静音片段;
32.数据增强模块,用于进行数据增强处理,扩充训练数据;
33.encoder处理模块,用于提取fbank特征和pitch特征,送入训练好的所述多语种混合asr模型中,得到encoder输出信息;
34.第二训练模块,用于将encoder输出信息作为特征,送入多语种分类模型进行训
练。
35.作为基于asr信息的多语种识别系统优选方案,所述数据增强模块对数据增强处理包括速度扰动、音量扰动、加高斯噪声和谱增强;
36.所述特征提取模块、所述第一训练模块和所述第二训练模块中,fbank特征包含音频频谱特征之间的相关性信息;pitch特征包含说话人的基频特征。
37.作为基于asr信息的多语种识别系统优选方案,所述多语种混合asr模型采用conformer结构,所述多语种混合asr模型包括12层encoder和6层decoder,训练时采用ctc+attention decoder loss联合训练方式;
38.所述多语种分类模型采用7层tdnn结构,前5层为帧级别计算,后2层为段级别计算,经过softmax输出得到预测的各个语种类别结果。
39.本发明具有如下优点:对测试数据进行静音检测,去掉静音片段后,得到非静音数据;将得到的非静音数据进行fbank特征和pitch特征提取,将提取的fbank特征和pitch特征输送到多语种混合asr模型,通过所述多语种混合asr模型得到encoder输出信息;将得到的encoder输出信息输送到多语种分类模型,通过所述多语种分类模型得到语种预测结果。本发明提升了模型语种识别性能;在资源稀缺、高混淆任务中同样能达到较高性能,提高了现有通用技术下的识别准确率。
附图说明
40.为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引申获得其他的实施附图。
41.本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。
42.图1为本发明实施例1提供的基于asr信息的多语种识别方法流程示意图;
43.图2为本发明实施例1提供的基于asr信息的多语种识别方法中多语种混合asr模型训练流程图;
44.图3为本发明实施例1提供的基于asr信息的多语种识别方法中多语种分类模型训练流程图;
45.图4本发明实施例2提供的基于asr信息的多语种识别系统示意图。
具体实施方式
46.以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
47.语种识别是自动识别输入语音信号的语言种类的技术,在实际的应用中有不可替
代的作用。语种识别可以作为多语种语音识别的前处理模块,直接影响到语音识别的最终效果。
48.语种识别属于人工智能领域模式识别的一项技术,主要包括模型训练和模型判决两部分。在语种识别实际应用场景中,存在某几个语种之间相似度较高的问题,传统的识别方法提取的特征未考虑不同语种之间的差异性,在高混淆任务中表现较差,无法实现令人满意的结果。
49.有鉴于此,本发明提出基于asr信息的多语种识别技术方案,以充分利用asr信息,对原始特征进行细化,进一步挖掘出不同语种之间的差异性,从而提高模型的判别能力。
50.实施例1
51.参见图1,本发明实施例1提供基于asr信息的多语种识别方法,包括:
52.s11、对测试数据进行静音检测,去掉静音片段后,得到非静音数据;
53.s12、将得到的非静音数据进行fbank特征和pitch特征提取;
54.s13、将提取的fbank特征和pitch特征输送到多语种混合asr模型,通过所述多语种混合asr模型得到encoder输出信息;
55.s14、将得到的encoder输出信息输送到多语种分类模型,通过所述多语种分类模型得到语种预测结果。
56.本实施例中,静音检测采用nn-vad的方法,训练数据基于语音识别模型强制对齐得到的帧级别标注信息,采用4层tdnn结构训练人声和静音分类模型。多语种训练、测试数据经过vad检测,排除非人声数据对系统的影响。
57.本实施例中,所述多语种混合asr模型采用conformer结构,所述多语种混合asr模型包括12层encoder和6层decoder,训练时采用ctc+attention decoder loss联合训练方式。
58.本实施例中,特征提取采用80维fbank+3维pitch的组合方法。实验证明,pitch特征在多语种语音识别中具有重要作用,去掉pitch特征,模型训练不易收敛。
59.本实施例中,所述多语种分类模型采用7层tdnn结构,前5层为帧级别计算,后2层为段级别计算,经过softmax输出得到预测的各个语种类别结果。其中,分片大小设置为300,即3s音频作为一个片段进行分类。
60.参见图2,本实施例中,所述多语种混合asr模型的训练步骤包括:
61.s21、处理asr多语种数据,将各语种音频文件等比例混合得到训练数据;
62.s22、采用字符颗粒度构建各个语种发音词典,然后将多语种发音词典合并构建统一发音词典;
63.s23、对训练数据提取fbank特征和pitch特征;
64.s24、构建端到端多语种混合asr模型,送入数据进行训练。
65.具体的,训练多语种混合asr模型过程,首先对训练数据提取特征,具体包括fbank特征和pitch特征两部分,其中fbank特征包含了音频频谱特征之间的相关性信息,pitch特征包含了说话人的基频特征;然后搭建conformer结构的端到端框架,包括encoder和decoder两部分,送入特征进行训练,采用ctc+attention decoder loss联合训练方法。
66.参见图3,本实施例中,所述多语种分类模型的训练步骤包括:
67.s31、对原始多语种训练数据进行静音检测,去除掉静音片段;
68.s32、进行数据增强处理,扩充训练数据;
69.s33、提取fbank特征和pitch特征,送入训练好的所述多语种混合asr模型中,得到encoder输出信息;
70.s34、将encoder输出信息作为特征,送入多语种分类模型进行训练。
71.具体的,训练多语种分类模型过程中,首先将数据进行vad静音检测,将纯静音片段过滤掉,保留有说话声片段;考虑到模型训练数据稀缺问题,进行数据增强处理,包括变速、调幅、加噪、谱增强等方法,缓解了训练数据不足的问题;然后进行特征提取,此处特征提取和训练多语种混合asr模型相同;接着将提取的fbank特征和pitch特征送入多语种混合asr模型,获取encoder输出结果;最后将多语种混合asr模型的encoder输出作为特征(起到了特征细化的作用),送入多语种分类模型进行分类训练。
72.具体的,数据增强处理过程中,首先进行速度扰动,扰动参数在0.9和1.1两者间随机选取,即对原始数据进行0.9或1.1倍变速处理。其次是音量扰动,扰动参数从-12db~12db随机选取。然后加高斯噪声,信噪比从10~30随机选取。最后是谱增强,先将时域信号进行fft处理,得到时频域信号;然后分别对时域和频域进行随机mask,最后再进行ifft处理得到时域信号。通过以上增强方法,可以扩充得到4倍增强数据。实验证明,从增强数据中随机选取原始数据的2倍数据量,再加上原始数据的组合方法性能最优,增加更多的扰动数据,性能会下降。
73.综上所述,本发明对测试数据进行静音检测,去掉静音片段后,得到非静音数据;将得到的非静音数据进行fbank特征和pitch特征提取,将提取的fbank特征和pitch特征输送到多语种混合asr模型,通过所述多语种混合asr模型得到encoder输出信息;将得到的encoder输出信息输送到多语种分类模型,通过所述多语种分类模型得到语种预测结果。本发明在静音检测方面,采用基于nn的vad方法,解决噪声环境下静音检测不准确的问题;在数据处理方面,采用加噪、变速、调幅、谱增强等方法,有效缓解了实际任务中训练数据稀缺的问题;采用多语种混合asr模型作为特征提取器,将原始特征进一步细化为更有利于语种分类的信息,进一步提升了模型识别性能;在资源稀缺、高混淆任务中同样能达到较高性能,提高了现有通用技术下的识别准确率。
74.需要说明的是,本公开实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本公开实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
75.需要说明的是,上述对本公开的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
76.实施例2
77.参见图4,本发明实施例2提供一种基于asr信息的多语种识别系统,包括识别单元1,所述识别单元1包括:
78.测试数据静音检测模块11,用于对测试数据进行静音检测,去掉静音片段后,得到
非静音数据;
79.特征提取模块12,用于将得到的非静音数据进行fbank特征和pitch特征提取;
80.asr模块13,用于将提取的fbank特征和pitch特征输送到多语种混合asr模型,通过所述多语种混合asr模型得到encoder输出信息;
81.语种识别模块14,用于将得到的encoder输出信息输送到多语种分类模型,通过所述多语种分类模型得到语种预测结果。
82.本实施例中,还包括asr模型训练单元2,所述asr模型训练单元2用于所述多语种混合asr模型的训练,包括:
83.训练数据处理模块21,用于处理asr多语种数据,将各语种音频文件等比例混合得到训练数据;
84.发音词典构建模块22,用于采用字符颗粒度构建各个语种发音词典,然后将多语种发音词典合并构建统一发音词典;
85.第一训练模块23,用于对训练数据提取fbank特征和pitch特征;构建端到端多语种混合asr模型,送入数据进行训练。
86.本实施例中,还包括分类模型训练单元3,所述分类模型训练单元3用于多语种分类模型的训练,包括:
87.训练数据静音检测模块31,用于对原始多语种训练数据进行静音检测,去除掉静音片段;
88.数据增强模块32,用于进行数据增强处理,扩充训练数据;
89.encoder处理模块33,用于提取fbank特征和pitch特征,送入训练好的所述多语种混合asr模型中,得到encoder输出信息;
90.第二训练模块34,用于将encoder输出信息作为特征,送入多语种分类模型进行训练。
91.本实施例中,所述数据增强模块32对数据增强处理包括速度扰动、音量扰动、加高斯噪声和谱增强;
92.所述特征提取模块12、所述第一训练模块23和所述第二训练模块34中,fbank特征包含音频频谱特征之间的相关性信息;pitch特征包含说话人的基频特征。
93.本实施例中,所述多语种混合asr模型采用conformer结构,所述多语种混合asr模型包括12层encoder和6层decoder,训练时采用ctc+attention decoder loss联合训练方式;
94.所述多语种分类模型采用7层tdnn结构,前5层为帧级别计算,后2层为段级别计算,经过softmax输出得到预测的各个语种类别结果。
95.需要说明的是,上述系统各模块/单元之间的信息交互、执行过程等内容,由于与本技术实施例1中的方法实施例基于同一构思,其带来的技术效果与本技术方法实施例相同,具体内容可参见本技术前述所示的方法实施例中的叙述,此处不再赘述。
96.实施例3
97.本发明实施例3提供一种非暂态计算机可读存储介质,所述计算机可读存储介质中存储有基于asr信息的多语种识别方法的程序代码,所述程序代码包括用于执行实施例1或其任意可能实现方式的基于asr信息的多语种识别方法的指令。
98.计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘(solid state disk、ssd))等。
99.实施例4
100.本发明实施例4提供一种电子设备,包括:存储器和处理器;
101.所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行实施例1或其任意可能实现方式的基于asr信息的多语种识别方法。
102.具体的,处理器可以通过硬件来实现也可以通过软件来实现,当通过硬件实现时,该处理器可以是逻辑电路、集成电路等;当通过软件来实现时,该处理器可以是一个通用处理器,通过读取存储器中存储的软件代码来实现,该存储器可以集成在处理器中,可以位于所述处理器之外,独立存在。
103.在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。
104.显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
105.虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1