本发明属于语音处理,更具体地,涉及一种多说话人重叠语音检测方法及系统。
背景技术:
1、随着信息技术的飞速发展,人工智能技术也在各个领域得到提升,最近对于说话人日志(分割聚类)的研究也十分的火热。但对于音频中出现的重叠音频大多研究都会进行忽略,不考虑重叠音频的影响,但是在日常的会议或者是课堂中,有很多发言人音频重叠的情况。而且很多研究也发现,重叠语音检测可以很大程度的提高说话人日志的准确率。
2、现有的重叠语音检测研究通常是对音频进行重叠和非重叠的判断,无法判断出重叠音频中有多少人同时在说话,具有一定局限性。而多少人同时说话的判断对于分析课堂和会议中的混乱程度、说话人日志以及重叠感知的研究等都有着很大的帮助。
技术实现思路
1、针对现有技术的缺陷,本发明的目的在于提供一种多说话人重叠语音检测方法及系统,旨在解决现有重叠语音检测方法无法检测重叠语音中同时说话的人数的问题。
2、为实现上述目的,第一方面,本发明提供了一种多说话人重叠语音检测方法,包括:
3、s101获取待检测语音,并对待检测语音进行静音去除;
4、s102对静音去除后的待检测语音进行特征提取,获得待检测语音的语音特征;
5、s103将所述语音特征输入至重叠语音检测模型,获得重叠语音检测模型输出的待检测语音对应的重叠说话人数量;所述重叠说话人数量表征待检测语音中同时说话的说话人数量;
6、其中,所述重叠语音检测模型基于样本语音的语音特征及其对应的重叠说话人数量标签进行有监督训练得到;重叠语音检测模型对语音特征进行嵌入提取,并基于提取的说话人嵌入进行重叠说话人数量分类,获得待检测语音的重叠说话人数量。
7、在一个可选的示例中,所述重叠语音检测模型包括嵌入提取模型和重叠说话人数量分类模型;
8、所述嵌入提取模型基于如下步骤训练得到:
9、基于样本语音的语音特征及其对应的重叠说话人数量标签,训练第一分类模型;所述第一分类模型包括嵌入提取部分和分类部分;
10、将训练完成的第一分类模型中的嵌入提取部分,作为所述嵌入提取模型;
11、所述重叠说话人数量分类模型基于如下步骤训练得到:
12、将样本语音的语音特征输入至所述嵌入提取模型,获得样本说话人嵌入;
13、基于样本说话人嵌入及其对应的重叠说话人数量标签,训练第二分类模型,获得重叠说话人数量分类模型。
14、在一个可选的示例中,第一分类模型依次包括五层时延神经网络,一层统计池化层,两层全连接层以及一层激活函数层;其中五层时延神经网络,一层统计池化层和第一层全连接层为嵌入提取部分,其余为分类部分。
15、在一个可选的示例中,第二分类模型依次包括四层一维卷积神经网络,两层长短期记忆递归神经网络、一层全连接层以及一层激活函数层。
16、在一个可选的示例中,样本语音包括单个说话人的样本单独语音和多个说话人的样本重叠语音;
17、样本单独语音和样本重叠语音基于如下步骤获取:
18、将任一说话人的单独语音分成各个子带,并基于各个子带的能量以及预设的能量阈值,对所述任一说话人的单独语音进行静音去除;
19、基于静音去除后的各个说话人的单独语音,构建数据集;
20、从所述数据集中选取单个说话人的单独语音作为样本单独语音;
21、从所述数据集中随机选取多个说话人的单独语音进行叠加,获得多个说话人的样本重叠语音。
22、第二方面,本发明提供了一种多说话人重叠语音检测系统,包括:
23、语音处理模块,用于获取待检测语音,并对待检测语音进行静音去除;
24、特征提取模块,用于对静音去除后的待检测语音进行特征提取,获得待检测语音的语音特征;
25、重叠语音检测模块,用于将所述语音特征输入至重叠语音检测模型,获得重叠语音检测模型输出的待检测语音对应的重叠说话人数量;所述重叠说话人数量表征待检测语音中同时说话的说话人数量;
26、其中,所述重叠语音检测模型基于样本语音的语音特征及其对应的重叠说话人数量标签进行有监督训练得到;重叠语音检测模型对语音特征进行嵌入提取,并基于提取的说话人嵌入进行重叠说话人数量分类,获得待检测语音的重叠说话人数量。
27、在一个可选的示例中,所述重叠语音检测模型包括嵌入提取模型和重叠说话人数量分类模型;对应地,所述系统还包括嵌入提取训练模块和分类训练模块;
28、所述嵌入提取训练模块用于:
29、基于样本语音的语音特征及其对应的重叠说话人数量标签,训练第一分类模型;所述第一分类模型包括嵌入提取部分和分类部分;
30、将训练完成的第一分类模型中的嵌入提取部分,作为所述嵌入提取模型;
31、所述分类训练模块用于:
32、将样本语音的语音特征输入至所述嵌入提取模型,获得样本说话人嵌入;
33、基于样本说话人嵌入及其对应的重叠说话人数量标签,训练第二分类模型,获得重叠说话人数量分类模型。
34、在一个可选的示例中,所述嵌入提取训练模块中第一分类模型依次包括五层时延神经网络,一层统计池化层,两层全连接层以及一层激活函数层;其中五层时延神经网络,一层统计池化层和第一层全连接层为嵌入提取部分,其余为分类部分。
35、在一个可选的示例中,所述分类训练模块中第二分类模型依次包括四层一维卷积神经网络,两层长短期记忆递归神经网络、一层全连接层以及一层激活函数层。
36、在一个可选的示例中,样本语音包括单个说话人的样本单独语音和多个说话人的样本重叠语音;
37、所述系统还包括样本语音获取模块,用于:
38、将任一说话人的单独语音分成各个子带,并基于各个子带的能量以及预设的能量阈值,对所述任一说话人的单独语音进行静音去除;
39、基于静音去除后的各个说话人的单独语音,构建数据集;
40、从所述数据集中选取单个说话人的单独语音作为样本单独语音;
41、从所述数据集中随机选取多个说话人的单独语音进行叠加,获得多个说话人的样本重叠语音。
42、总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
43、本发明提供一种多说话人重叠语音检测方法及系统,通过对待检测语音进行静音去除和特征提取,获得语音特征,再通过重叠语音检测模型对语音特征进行嵌入提取,并基于提取的说话人嵌入进行重叠说话人数量分类,获得待检测语音的重叠说话人数量,实现了检测重叠语音中同时说话的人数,并由于对语音进行了说话人嵌入的提取,提高了重叠语音检测的准确率,对于说话人日志和重叠感知任务的准确率都有一定的积极影响。
1.一种多说话人重叠语音检测方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述重叠语音检测模型包括嵌入提取模型和重叠说话人数量分类模型;
3.根据权利要求2所述的方法,其特征在于,第一分类模型依次包括五层时延神经网络,一层统计池化层,两层全连接层以及一层激活函数层;其中五层时延神经网络,一层统计池化层和第一层全连接层为嵌入提取部分,其余为分类部分。
4.根据权利要求2所述的方法,其特征在于,第二分类模型依次包括四层一维卷积神经网络,两层长短期记忆递归神经网络、一层全连接层以及一层激活函数层。
5.根据权利要求1至4中任一项所述的方法,其特征在于,样本语音包括单个说话人的样本单独语音和多个说话人的样本重叠语音;
6.一种多说话人重叠语音检测系统,其特征在于,包括:
7.根据权利要求6所述的系统,其特征在于,所述重叠语音检测模型包括嵌入提取模型和重叠说话人数量分类模型;对应地,所述系统还包括嵌入提取训练模块和分类训练模块;
8.根据权利要求7所述的系统,其特征在于,所述嵌入提取训练模块中第一分类模型依次包括五层时延神经网络,一层统计池化层,两层全连接层以及一层激活函数层;其中五层时延神经网络,一层统计池化层和第一层全连接层为嵌入提取部分,其余为分类部分。
9.根据权利要求7所述的系统,其特征在于,所述分类训练模块中第二分类模型依次包括四层一维卷积神经网络,两层长短期记忆递归神经网络、一层全连接层以及一层激活函数层。
10.根据权利要求6至9中任一项所述的系统,其特征在于,样本语音包括单个说话人的样本单独语音和多个说话人的样本重叠语音;