一种语音过滤方法和过滤系统与流程

文档序号：24740642发布日期：2021-04-20 21:26阅读：338来源：国知局

1.本发明涉及语音识别技术领域，具体涉及一种语音过滤方法和过滤系统。

背景技术：

2.近些年，语音识别技术得到了显著进步，开始进入工业、家电、通信、医疗、汽车电子、家庭服务、消费电子产品等各个领域。在一些具有挑战性的应用场景，比如从环境嘈杂的噪声中识别出语音都有了很大进展，但在人群环境下识别出某个目标说话者的声音还是存在难度，识别效果不够理想。
3.为了解决这个问题，现阶段学者主要提出了以下两个方案：
4.一是将拥有n个说话人的语料过滤成n个对应的输出。但是，这个方法存在两个难点，一个是说话场景中人数的确定；另一个是只能对特定说话人的音频进行识别。针对这两个难点，目前已经有一些较好地解决方法被提出了，例如通过深度学习技术学习每个说话人的音频特征并训练形成语音识别模型，然后通过该语音识别模型识别出输入语料中某个特定说话人的声音以及语料中说话者的人数。但类似的解决方法需要进行大量的匹配运算，以匹配出最接近感兴趣的人的声音，耗时一般较长。
5.二是将识别目标说话者声音的过程当成是一个二分类问题，即将感兴趣的人作为正类，其他音频为负类。然后通过现有的端到端技术从混合音频中识别出感兴趣的人的声音，但这种方法通常识别效果较差，在背景嘈杂或者说话场景中人数较多时难以准确识别出目标说话者的声音。

技术实现要素：

6.本发明的目的在于提供一种语音过滤方法和过滤系统，只需要给定目标说话者的参考音频，即可从带噪声的多人对话音频中识别并过滤出某个目标说话者的声音，不需要大量的音频特征匹配过程，识别速度得到了大幅提升。而且当需要提取多个不同人的音频时，只需要轮换参考音频即可，操作非常方便。
7.为达此目的，本发明采用以下技术方案：
8.提供一种语音过滤方法，具体步骤包括：
9.1)给定目标说话者的参考音频，并将所述参考音频输入到声纹识别网络，输出所述目标说话者的声纹特征；
10.2)将带噪声的多人对话音频转换为多人音频幅度谱；
11.3)将所述声纹特征和所述多人音频幅度谱输入到声音过滤网络中，生成一谱掩码；
12.4)将所述谱掩码和所述多人音频幅度谱相乘以生成一增强幅度谱；
13.5)将所述多人对话音频的相位增加到所述增强幅度谱上，然后将所述增强幅度谱转换为增强音频，所述增强音频为从所述多人对话音频中过滤得到的具有所述目标说话者的声纹特征的说话音频。
14.优选地，所述步骤1)中，所述声纹识别网络为lstm长短期记忆网络，所述声纹识别网络的输入为所述目标说话者的音频mel谱图，输出的所述声纹特征用音频特征向量表示，所述音频特征向量的宽度为256。
15.优选地，所述音频特征向量的向量值的计算方法为：
16.1.1)通过一大小为所述参考音频长度的50％的滑动窗口对所述参考音频进行声纹特征提取，输出至少3个所述声纹特征；
17.1.2)对3个所述声纹特征分别进行l2正则化，并以3个l2正则化结果的平均值作为所述音频特征向量最终的向量值。
18.优选地，所述步骤2)中，通过短时傅里叶变换法将所述多人对话音频变换为所述多人音频幅度谱。
19.优选地，所述步骤3)中，所述声音过滤网络包括8个卷积层、一lstm层和两个全连接层，第一至第八卷积层依序连接，所述多人音频幅度谱输入到第一卷积层，每一卷积层的输出作为下一卷积层的输入，所述第八卷积层的输出和所述声纹识别网络的输出同时作为所述lstm层的输入，所述lstm层的输出连接第一全连接层的输入，所述第一全连接层的输出连接第二全连接层的输入，所述第二全连接层输出所述谱掩码。
20.本发明还提供了一种语音过滤系统，可实现所述的语音过滤方法，所述语音过滤系统包括：
21.参考音频输入模块，用于提供给用户输入给定目标说话者的参考音频；
22.声纹特征识别模块，连接所述参考音频输入模块，用于获取输入的所述参考音频，并通过声纹识别网络提取并输出所述目标说话者的声纹特征；
23.多人对话音频输入模块，用于提供给所述用户输入需要进行语音过滤的带噪声的多人对话音频；
24.多人对话音频转换模块，连接所述多人对话音频输入模块，用于将输入的所述对人对话音频转换为多人音频幅度谱并输出；
25.声纹特征谱掩码生成模块，分别连接所述声纹特征识别模块和所述多人对话音频转换模块，用于将所述声纹特征和所述多人音频幅度谱输入到声音过滤网络，以生成所述声纹特征对应的谱掩码并输出；
26.增强幅度谱生成模块，分别连接所述声纹特征谱掩码生成模块和所述多人对话音频转换模块，用于将所述谱掩码和所述多人音频幅度谱相乘以生成一增强幅度谱；
27.增强音频生成模块，连接所述增强幅度谱生成模块，用于将所述多人对话音频的相位增加到所述增强幅度谱上，然后将所述增强幅度谱转换为增强音频，所述增强音频为从所述噪声音频中过滤得到的具有所述目标说话者的声纹特征的说话音频。
28.优选地，所述参考音频输入模块中具体包括：
29.参考音频输入单元，用于提供给所述用户输入给定的所述目标说话者的所述参考音频；
30.音频转换单元，连接所述参考音频输入单元，用于将输入的所述参考音频转换为音频mel谱图，所述音频mel谱图作为所述声纹识别网络的输入。
31.优选地，所述声纹识别网络输出的所述声纹特征用音频特征向量表示。
32.优选地，所述声音过滤网络包括8个卷积层、一lstm层和两个全连接层，第一至第
八卷积层依序连接，所述多人音频幅度谱输入到第一卷积层，每一卷积层的输出作为下一卷积层的输入，所述第八卷积层的输出和所述声纹识别网络的输出同时作为所述lstm层的输入，所述lstm层的输出连接第一全连接层的输入，所述第一全连接层的输出连接第二全连接层的输入，所述第二全连接层输出所述谱掩码。
33.本发明只需要给定目标说话者的参考音频，即可从带噪声的多人对话音频中识别并过滤出某个目标说话者的声音，不需要大量的音频特征匹配过程，识别速度得到了大幅提升。而且当需要提取多个不同人的音频时，只需要轮换参考音频即可，操作非常方便。另外，本发明改进的声音过滤网络以其内部卷积层的输出和声纹识别网络的输出同时作为其内部lstm层的输入，提高了音频识别的速度和准确度。
附图说明
34.为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
35.图1是本发明一实施例提供的语音过滤方法的步骤图；
36.图2是计算所述音频特征向量的向量值的方法步骤图；
37.图3是本发明一实施例提供的语音过滤系统的结构示意图；
38.图4是所述语音过滤系统中的所述参考音频输入模块的结构示意图；
39.图5是本发明实现语音过滤的原理图。
具体实施方式
40.下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
41.其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本专利的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。
42.本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若出现术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。
43.在本发明的描述中，除非另有明确的规定和限定，若出现术语“连接”等指示部件之间的连接关系，该术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个部件内部的连通或两个部件的相互作用关系。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。
44.如图1和图5所示，本发明一实施例提供的语音过滤方法，具体包括：
45.步骤1)给定目标说话者的参考音频，并将参考音频输入到声纹识别网络，输出目标说话者的声纹特征；声纹识别网络可以为lstm长短期记忆网络，声纹识别网络的输入为目标说话者的音频mel(梅尔)谱图，声纹识别网络输出的声纹特征用音频特征向量表示，如图5所示，表示为d
‑
vector。音频特征向量的宽度为256。音频特征向量的向量值的计算方法如图2所示，具体步骤包括：
46.步骤1.1)通过一大小为参考音频长度的50％的滑动窗口以50％重叠方式对参考音频进行声纹特征提取，输出至少3个声纹特征；
47.步骤1.2)对3个声纹特征分别进行l2正则化，并以3个l2正则化结果的平均值作为音频特征向量最终的向量值。
48.为了便于输出声纹特征，本发明对参考音频的长度进行了限制，参考音频的长度为3秒，并将其转化为16khz单声道，然后再进行转频谱操作，这样可以提高声纹特征识别的速度。
49.步骤2)，将带噪声的多人对话音频转换为多人音频幅度谱；本发明优选采用短时傅里叶变换法(stft算法)将多人对话音频转换为多人音频幅度谱；
50.步骤3)将声纹特征和多人音频幅度谱输入到声音过滤网络中，生成一谱掩码；谱掩码将多人对话音频中除目标说话者之外的音频信息“遮盖”住，仅保留了目标说话者的隐藏音频信息；
51.步骤4)将谱掩码和多人音频幅度谱相乘以生成一增强幅度谱；对谱掩码进行增强的目的是将谱掩码隐藏的音频信息(也就是目标说话者的音频信息)“显示”出来；
52.步骤5)将多人对话音频的相位增加到增强幅度谱上，然后通过istft算法将增强幅度谱转换为增强音频，增强音频即为最终从多人对话音频中过滤得到的具有目标说话者的声纹特征的说话音频。将多人对话音频的相位增加到增强幅度谱，以及通过istft算法将增强幅度谱转换为增强音频的具体过程并非本发明要求权利保护的范围，所以在此不做具体说明。
53.本发明的技术核心在于步骤3)中的使用声音过滤网络生成谱掩码的过程。首先对本发明创新提出的声音过滤网络的网络结构进行说明：
54.声音过滤网络包括8个卷积层、一个lstm层和两个全连接层，第一到第八卷积层依序连接，多人音频幅度谱输入到第一卷积层，每一卷积层的输出作为下一卷积层的输入，如图5所示，第八卷积层的输出和声纹识别网络的输出同时作为lstm层的输入，lstm层的输出连接第一全连接层的输入，第一全连接层的输出连接第二全连接层的输入，第二全连接层输出谱掩码。
55.这里需要特别说明的是，把声纹识别网络的输出直接作为lstm层的输入而不输入到卷积层有两个原因，第一，声纹识别网络的输出(d
‑
vector)已经具有很好地鲁棒性去表达一个说话人的说话风格，没有必要再进行卷积特征提取去改变它。第二，不能把两个完全不同的信号量同时作为卷积层的输入，即声纹特征d
‑
vector和多人音频幅度谱不能同时作为卷积层的输入。
56.关于声音过滤网络的网络参数请参见下表a：
[0057][0058]
表a
[0059]
上表a中的cnn1
‑
cnn8表示第一到第八卷积层；lstm表示lstm层；fc1和fc2分别表示第一全连接层和第二全连接层。
[0060]
本发明还提供了一种语音过滤系统，如图3所示，该语音过滤系统包括：
[0061]
参考音频输入模块，用于提供给用户输入给定目标说话者的参考音频；
[0062]
声纹特征识别模块，连接参考音频输入模块，用于获取输入的参考音频，并通过声纹识别网络提取并输出目标说话者的声纹特征；具体提取方法在上述的语音过滤方法中作了说明，在此不再赘述；
[0063]
多人对话音频输入模块，用于提供给用户输入需要进行语音过滤的带噪声的多人对话音频；
[0064]
多人对话音频转换模块，连接所述多人对话音频输入模块，用于将输入的所述多人对话音频转换为多人音频幅度谱并输出；
[0065]
声纹特征谱掩码生成模块，分别连接所述声纹特征识别模块和所述多人对话音频转换模块，用于将所述声纹特征和所述多人音频幅度谱输入到声音过滤网络，以生成所述声纹特征对应的谱掩码并输出；
[0066]
增强幅度谱生成模块，分别连接所述声纹特征谱掩码生成模块和所述多人对话音频转换模块，用于将所述谱掩码和所述多人音频幅度谱相乘以生成一增强幅度谱；
[0067]
增强音频生成模块，连接所述增强幅度谱生成模块，用于将所述多人对话音频的相位增加到所述增强幅度谱上，然后将所述增强幅度谱转换为增强音频，增强音频为从多人对话音频中过滤得到的具有目标说话者的声纹特征的说话音频。
[0068]
具体地，参考音频输入模块中包括：
[0069]
参考音频输入单元，用于提供给用户输入给定的目标说话者的参考音频；
[0070]
音频转换单元，连接参考音频输入单元，用于将输入的参考音频转换为音频mel谱图，音频mel谱图作为声纹识别网络的输入。
[0071]
需要声明的是，上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白，还可以对本发明做各种修改、等同替换、变化等等。但是，这些变换只要未背离本发明的精神，都应在本发明的保护范围之内。另外，本申请说明书和权利要求书所使用的一些术语并不是限制，仅仅是为了便于描述。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：ꢀ(51)Int.Cl.G10L17/00
技术所有人：北京中科深智科技有限公司
我是此专利的发明人

上一篇：一种收入预测方法、装置、设备和介质与流程
上一篇：导向头的制作方法