说话人语音增强方法、电子设备和存储介质与流程

文档序号：29438317发布日期：2022-03-30 09:35阅读：151来源：国知局

1.本发明属于语音数据处理技术领域，尤其涉及说话人语音增强方法、电子设备和存储介质。

背景技术：

2.实时带注册的说话人语音增强，即在实时语音传播的过程中，如果提前注册说话人的声纹信息，就可以只保留该说话人的音频，过滤掉其他说话人的语音。该技术在实际生产生活中有非常广泛的应用范围。
3.例如，设备定制：在语音交互的过程中，只有注册声纹信息的人，该设备才能对其响应。
4.通话场景：注册说话人的通话设备，另一端可以清晰的听到注册说话人的声音，不受其他人的人声干扰。
5.会议转录：在多人会议的情况下，可以根据注册说话人的信息分离出该说话人的语音进行文字转录。
6.由于该技术尚未成熟，目前可以拿来体验的设备不多且性能不好，该技术作为新兴的语音信号和声纹相结合的技术，2019年首次提出，后得到广泛的关注。目前落地的产品较少，主要的缺陷有两点：对注册说话人的声音抑制；通常表现在音频的刚开始阶段，会出现信息保留不全，丢字现象。对干扰人声抑制不完全，会出现音频的残留，甚至不能消掉干扰人声等。

技术实现要素：

7.本发明实施例提供一种说话人语音增强方法和装置，用于至少解决上述技术问题之一。
8.第一方面，本发明实施例提供一种说话人语音增强方法，包括：从注册音频中提取说话人特征，对所述说话人特征进行第一处理得到处理后的说话人特征；对待增强的带噪语音进行第二处理得到处理后的带噪语音；将所述处理后的说话人特征和所述处理后的带噪语音拼接后输入至说话人语音增强模型中进行说话人语音增强。
9.第二方面，本发明实施例提供一种说话人语音增强模型改进方法，包括：将说话人特征向量提取模型结合至所述说话人语音增强模型中形成改进后的说话人语音增强模型，其中，将所述说话人特征向量提取模型提取的特征与所述说话人语音增强模型的原始输入拼接作为新的输入特征输入所述说话人语音增强模型
10.第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的说话人语音增强方法的步骤。
11.第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括
存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的说话人语音增强方法的步骤。
12.本技术的方法、电子设备和存储介质通过将处理后的说话人特征和处理后的带噪语音拼接后输入至说话人语音增强模型中进行说话人语音增强，从而可以实现将低纬度的说话人特征信息得到充分的使用，进一步地将说话人的语音进行增强。
附图说明
13.为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
14.图1为本发明一实施例提供的一种说话人语音增强方法的流程图；
15.图2为本发明一实施例提供的另一种说话人语音增强方法的流程图；
16.图3为本发明一实施例提供的又一种说话人语音增强方法的流程图；
17.图4为本发明一实施例提供的再一种说话人语音增强方法的流程图；
18.图5为本发明一实施例提供的说话人语音增强方法的一个具体示例的现有技术缺陷图；
19.图6为本发明一实施例提供的说话人语音增强方法的另一个具体示例的现有技术缺陷图；
20.图7为本发明一实施例提供的说话人语音增强方法的一个具体示例的说话人语音增强图；
21.图8为本发明一实施例提供的说话人语音增强方法的一个具体示例的流程图；
22.图9为本发明一实施例提供的说话人语音增强方法的一个具体示例的降噪增强前后的对比图；
23.图10是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
24.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
25.请参考图1，其示出了本技术的说话人语音增强方法一实施例的流程图。
26.如图1所示，在步骤101中，从注册音频中提取说话人特征，对所述说话人特征进行第一处理得到处理后的说话人特征；
27.在步骤102中，对待增强的带噪语音进行第二处理得到处理后的带噪语音；
28.在步骤103中，将所述处理后的说话人特征和所述处理后的带噪语音拼接后输入至说话人语音增强模型中进行说话人语音增强。
29.在本实施例中，对于步骤101，说话人语音增强装置从注册音频中提取说话人特
征，对说话人特征进行第一处理得到处理后的说话人特征，例如，说话人的语音中蕴含着丰富的说话人特征信息，说话人在注册时提供一个预设时间的音频，之后将这一音频经过特征提取后输入gru(门控循环单元，gate recurrent unit)网络，然后在时间维度取均值。
30.对于步骤102，说话人语音增强装置对待增强的带噪语音进行第二处理得到处理后的带噪语音，例如，将带噪语音进行conv-stft(卷积-短时傅里叶变换，short time fourier transform，stft)后再进行融合编码等处理。
31.对于步骤103，说话人语音增强装置将处理后的说话人特征和处理后的带噪语音拼接后输入至说话人语音增强模型中进行说话人语音增强，例如，当获取到混合人声之后，在混合人声中提取注册说话人特征的人声，将注册说话人特征的人声增强和将未注册说话人特征的人声作为噪音进行降噪处理，其中，输出后的说话人语音能够传输播放给远端的人听，也能够进行语音识别转换成文字信息。
32.本实施例的方法通过将处理后的说话人特征和处理后的带噪语音拼接后输入至说话人语音增强模型中进行说话人语音增强，从而可以实现将低纬度的说话人特征信息得到充分的使用，进一步地将说话人的语音进行增强。
33.进一步参考图2，其示出了本技术一实施例提供的另一种说话人语音增强方法的流程图。该流程图主要是对流程图1“说话人语音增强网络”的训练方式进一步限定的步骤的流程图。
34.如图2所示，在步骤201中，获取不同说话人的不同信噪比的音频数据，其中，所述音频数据包括干净音频、注册音频或混合音频；
35.在步骤202中，从某一说话人的注册音频中提取说话人特征，对所述某一说话人的说话人特征进行第一处理得到处理后的某一说话人特征；
36.在步骤203中，将所述某一说话人的混合音频与其他说话人的音频数据混合后进行第二处理得到处理后的带噪混合音频；
37.在步骤204中，将所述带噪混合音频输入至所述说话人语音增强模型，计算所述说话人语音增强模型输出的音频的信噪比；
38.在步骤205中，通过控制所述输出的音频的信噪比和所述某一说话人的干净音频的信噪比训练所述说话人语音增强模型。
39.在本实施例中，对于步骤201，说话人语音增强装置获取不同说话人的不同信噪比的音频数据，例如，每一个说话人的干净音频、注册音频或混合音频。
40.对于步骤202，说话人语音增强装置从某一说话人的注册音频中提取说话人特征，对某一说话人的说话人特征进行第一处理得到处理后的某一说话人特征，例如，将说话人特征输入门控循环单元网络中，然后在时间维度取均值。
41.对于步骤203，说话人语音增强装置将某一说话人的混合音频与其他说话人的音频数据混合后进行第二处理得到处理后的带噪混合音频，例如，例如，将每一个说话人的音频数据拼接成一条较长的音频。
42.对于步骤204，说话人语音增强装置将带噪混合音频输入至说话人语音增强模型，计算说话人语音增强模型输出的音频的信噪比，例如，在训练的过程中随机挑选出一个说话人，并选择5s的注册音频和其他5s的干净音频，然后从其他说话人中选择5s的干净音频进行不同信噪比的叠加。
43.对于步骤205，说话人语音增强装置通过控制说话人语音增强模型输出的音频的信噪比和某一说话人的干净音频的信噪比训练说话人语音增强模型。
44.本实施例的方法通过将某一说话人的混合音频与其他说话人的音频数据混合后进行第二处理得到处理后的带噪混合音频，之后将带噪混合音频输入至说话人语音增强模型，计算说话人语音增强模型输出的音频的信噪比，从而可以实现充分随机选择不同的说话人，更好的模拟真实的场景。
45.进一步参考图3，其示出了本技术一实施例提供的又一种说话人语音增强方法的流程图。该流程图主要是对上述实施例“第一处理”的流程进一步限定的步骤的流程图。
46.如图3所示，在步骤301中，将所述说话人特征输入门控循环单元网络中输出第一结果；
47.在步骤302中，对所述第一结果在时间维度上取均值得到所述处理后的说话人特征。
48.在本实施例中，对于步骤301，说话人语音增强装置将说话人特征输入门控循环单元网络中输出第一结果，其中，门控循环单元网络中包括更新门和重置门，更新门用于控制前一时刻的状态信息被带入到当前状态中的程度，更新门的值越大说明前一时刻的状态信息带入越多，重置门用于控制忽略前一时刻的状态信息的程度，重置门的值越小说明忽略得越多。
49.对于步骤302，说话人语音增强装置对第一结果在时间维度上取均值得到处理后的说话人特征。
50.本实施例的方法通过将说话人特征输入门控循环单元网络中输出第一结果，之后对第一结果在时间维度上取均值得到处理后的说话人特征，从而可以实现与带噪音频进行拼接。
51.在一些可选的实施例中，所述第二处理包括：
52.对带噪语音进行短时傅里叶变换并编码得到处理后的带噪语音。
53.在一些可选的实施例中，所述干净音频还包括叠加不同房间的冲击响应。
54.本实施例方法通过叠加不同房间的冲击响应，从而可以实现更好的模拟真实场景。
55.在一些可选的实施例中，所述音频数据采集自办公室场景、会议场景、地铁场景和/或家居场景，例如，在会议时，能够根据不同的说话人记录会议内容，并根据不同的说话人进行说话人分类等。
56.一种说话人语音增强模型改进方法，包括：
57.将说话人特征向量提取模型结合至说话人语音增强模型中形成改进后的说话人语音增强模型，其中，将说话人特征向量提取模型提取的特征与说话人语音增强模型的原始输入拼接作为新的输入特征输入说话人语音增强模型。
58.本实施例的方法通过将说话人特征向量提取模型结合至说话人语音增强模型中形成改进后的说话人语音增强模型，从而可以实现将低纬度的说话人特征信息得到充分的使用。
59.进一步参考图4，其示出了本技术一实施例提供的再一种说话人语音增强方法的流程图。该流程图主要是对上述实施例“改进后的说话人语音增强模型的训练方法”的流程
进一步限定的步骤的流程图。
60.如图4所示，在步骤401中，获取不同说话人的不同信噪比的音频数据，其中，所述音频数据包括干净音频、注册音频或混合音频；
61.在步骤402中，将某一说话人的注册音频作为所述改进后的说话人语音增强模型中的说话人特征向量提取模型的输入；
62.在步骤403中，将所述某一说话人的混合音频与其他说话人的音频数据混合后的带噪混合音频作为所述改进后的说话人语音增强模型的原始输入；
63.在步骤404中，计算所述改进后的说话人语音增强模型输出的音频的信噪比；
64.在步骤405中，通过控制所述输出的音频的信噪比和所述某一说话人的干净音频的信噪比训练所述说话人语音增强模型。
65.在本实施例中，对于步骤401，获取不同说话人的不同信噪比的音频数据，其中，不同说话人的音频数据包括干净音频、注册音频或混合音频，
66.对于步骤402，将某一说话人的注册音频作为改进后的说话人语音增强模型中的说话人特征向量提取模型的输入，例如，将说话人特征输入门控循环单元网络中，然后在时间维度取均值。
67.对于步骤403，将某一说话人的混合音频与其他说话人的音频数据混合后的带噪混合音频作为改进后的说话人语音增强模型的原始输入，例如，将不同说话人的注册音频、干净音频和混合音频拼接成一条较长的音频作为原始输入。
68.对于步骤404，计算改进后的说话人语音增强模型输出的音频的信噪比，例如，选择一个说话人5s的注册音频和其他5s的干净音频，然后从其他说话人中选择5s的干净音频进行不同信噪比的叠加，例如，信噪比的范围可以是是-5至20db。
69.对于步骤405，通过控制输出的音频的信噪比和某一说话人的干净音频的信噪比训练说话人语音增强模型，之后，再选择另一个说话人5s的注册音频和其他5s的干净音频，然后从其他说话人中选择5s的干净音频进行不同信噪比的叠加，直至完成说话人语音增强模型的训练。
70.本实施例的方法通过将某一说话人的混合音频与其他说话人的音频数据混合后的带噪混合音频作为改进后的说话人语音增强模型的原始输入，之后计算改进后的说话人语音增强模型输出的音频的信噪比，从而可以充分随机选择不同的说话人，更好的模拟真实的场景。
71.需要说明的是，上述方法步骤并不用于限制各步骤的执行顺序，实际上，某些步骤可能会同时执行或者以与步骤限定的相反的顺序执行，本技术在此没有限制。
72.下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本技术的方案。
73.发明人在实现本技术的过程中发现现有技术中存在的缺陷主要是由以下原因导致的：
74.请参考图5，其示出了本发明一实施例提供的说话人语音增强方法的一个具体示例的现有技术缺陷图。
75.如图5所示，对注册说话人的声音抑制；通常表现在音频的刚开始阶段，会出现信息保留不全，丢字现象。
76.请参考图6，其示出了本发明一实施例提供的说话人语音增强方法的另一个具体示例的现有技术缺陷图。
77.如图6所示，对干扰人声抑制不完全，会出现音频的残留，甚至不能消掉干扰人声等。
78.这些缺陷是用深度神经网络解决该问题必不可避免的问题，由于网络的性能与模型的大小和数据量多少有直接的关系。所以在模型设计的过程中要充分考虑结构的合理性，尽可能多的用到注册说话人信息。此外，在数据收集的过程中要尽可能多的收集真实用户能用到的场景，例如办公室场景，会议场景，地铁场景，家居场景等。
79.发明人还发现，本方案结合了目前性能较好的降噪网络和声纹提取网络，在网络训练的过程中并未添加说话人相关的损失函数，目的是想让该网络只具备消掉干扰人声的功能，我们的使用也验证了这种想法是可行的。
80.其他方案使用固定说话人向量，在模型的训练过程中不对该模块更新，这种方案的结果噪声的结果是其他人的人声消除的不够彻底；而且说话人模型和语音增强模型联合训练，该方法在模型训练的过程中较为复杂，并且未能考虑在真实场景使用中实时性的问题。
81.本技术的方案主要从以下几个方面入手进行设计和优化：
82.我们在训练的过程中，将每个说话人的数据拼接成一条较长的音频，在训练的过程中首先随机挑选出一个说话人，并选择5s的注册音频和其他5s的干净音频，然后从其他说话人中选择5s的干净音频进行不同信噪比的叠加，我们这里信噪比的范围是-5至20db。训练集的音频时长大概1000小时，开发集时长10小时。这样做的目的是能够充分随机的选择不同的说话人，并且不同说话人以不同的信噪比叠加。为了更好的模拟真实场景，我们会将干净音频叠加不同房间的冲击响应。
83.请参考图7，其示出了本发明一实施例提供的说话人语音增强方法的一个具体示例的说话人语音增强图，其中，conv-stft是一维卷积进行傅里叶变换，gru是门控循环单元，mean是时间维度取均值，complex-encoder是复数编码网络，complex-decoder是复数解码网络，complex-lstm是复数长短时记忆网络。
84.如图7所示，单通道实时语音分离和声纹特征向量相结合，步骤一：将准备好的数据，注册音频、干净音频、混合音频均转换成频域，我们这里才用的是汉宁窗、帧长400ms帧移100ms，fft(快速傅里叶变换，fast fourier transform)的长度为512。
85.步骤二：将带噪音频按照图7所操作，计算网络的输出与干净音频的sisnr loss(scale-invariant source-to-noise ratio，尺度不变的信噪比)。
86.步骤三：将注册音频经过特征提取后，输入gru(门控循环单元，gate recurrent unit)网络然后在时间维度取均值，然后经过和带噪音频相同的操作，并且注册音频经过网络的输出拼接在带噪音频输入网络之后。
87.优点是现有技术缺陷是深度学习用在语音增强上无法避免的缺陷，因此用在说话人的人声分离亦然，结合国内外科研机构的结果，我们提出了一种在编码的过程中融合声纹信息，从而将低维度的声纹信息得到充分使用。
88.请参考图8，其示出了本发明一实施例提供的说话人语音增强方法的一个具体示例的流程图。
89.如图8所示，步骤1：声纹注册阶段，用户提前注册10s左右的音频。
90.步骤2：当声纹注册完成后，该说话人的声纹特征随即提取并保存在设备中。
91.步骤3：用户选择人声分离模式后，该设备会对麦克风录到的混合人声提取注册声纹的人声。
92.步骤4：输出后的音频可以给远端人听，亦可以送进语音识别引擎等。
93.请参考图9，其示出了本发明一实施例提供的说话人语音增强方法的一个具体示例的降噪增强前后的对比图。
94.如图9所示，降噪增强前后的频谱图有很强的效果。
95.在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的说话人语音增强方法；
96.作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：
97.从注册音频中提取说话人特征，对所述说话人特征进行第一处理得到处理后的说话人特征；
98.对待增强的带噪语音进行第二处理得到处理后的带噪语音；
99.将所述处理后的说话人特征和所述处理后的带噪语音拼接后输入至说话人语音增强模型中进行说话人语音增强。
100.非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据说话人语音增强装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至说话人语音增强装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
101.本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项说话人语音增强方法。
102.图10是本发明实施例提供的电子设备的结构示意图，如图10所示，该设备包括：一个或多个处理器1010以及存储器1020，图10中以一个处理器1010为例。说话人语音增强方法的设备还可以包括：输入装置1030和输出装置1040。处理器1010、存储器1020、输入装置1030和输出装置1040可以通过总线或者其他方式连接，图10中以通过总线连接为例。存储器1020为上述的非易失性计算机可读存储介质。处理器1010通过运行存储在存储器1020中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例说话人语音增强方法。输入装置1030可接收输入的数字或字符信息，以及产生与通讯补偿装置的用户设置以及功能控制有关的键信号输入。输出装置1040可包括显示屏等显示设备。
103.上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。
104.作为一种实施方式，上述电子设备应用于说话人语音增强装置中，用于客户端，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：
105.从注册音频中提取说话人特征，对所述说话人特征进行第一处理得到处理后的说话人特征；
106.对待增强的带噪语音进行第二处理得到处理后的带噪语音；
107.将所述处理后的说话人特征和所述处理后的带噪语音拼接后输入至说话人语音增强模型中进行说话人语音增强。
108.本技术实施例的电子设备以多种形式存在，包括但不限于：
109.(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iphone)、多媒体手机、功能性手机，以及低端手机等。
110.(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：pda、mid和umpc设备等，例如ipad。
111.(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如ipod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。
112.(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
113.(5)其他具有数据交互功能的电子装置。
114.以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
115.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
116.最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵飞黄厚军项煦钱彦旻
技术所有人：思必驰科技股份有限公司
我是此专利的发明人

上一篇：一种具有防护功能的帽子的制作方法
上一篇：一种热点数据确定方法、装置、设备和存储介质与流程