一种基于约束朴素生成对抗网络的语音增强方法与流程

文档序号：19949196发布日期：2020-02-18 10:04阅读：来源：国知局

技术特征：

1.一种基于约束朴素生成对抗网络的语音增强方法，其特征在于：所述方法包括以下步骤，

(1)、噪声数据收集和标记；

(2)、语音分帧加窗；

(3)、幅度压缩；

(4)、输入约束朴素生成对抗网络训练；

(5)、幅度解压缩；

(6)、逆短时傅里叶变换，生成增强语音。

2.根据权利要求1所述的一种基于约束朴素生成对抗网络的语音增强方法，其特征在于：所述步骤(1)中噪声数据收集和标记具体包括以下步骤：

(1.1)数据收集：采用noizeus库的语音作为纯净语音，采用noisex～92噪声库中的噪声作为噪声信号，采样频率均为8khz；

(1.2)数据标记：每种噪声分别以-5db，0db，5db，10db和15db的信噪比叠加到纯净语音，以此作为含噪语音数据集。

3.根据权利要求1所述的一种基于约束朴素生成对抗网络的语音增强方法，其特征在于：所述步骤(2)中语音分帧加窗是指采用长度为512，帧移为50％的汉明窗对含噪语音分帧，短时傅里叶变换的点数为1024。

4.根据权利要求1所述的一种基于约束朴素生成对抗网络的语音增强方法，其特征在于：所述步骤(3)中幅度压缩是指使用双曲正切函数对复数谱串接向量进行幅度压缩，把取值范围限制在[-1,1]，双曲正切函数定义为

5.根据权利要求1所述的一种基于约束朴素生成对抗网络的语音增强方法，其特征在于：所述步骤(4)中输入约束朴素生成对抗网络训练可分为网络模型初始化、训练判别器、训练生成器及输出训练模型，具体如下：

(4.1)、网络模型初始化：初始化生成器和判别器；生成器g通过卷积层和反卷积层实现，激活函数选择prelu；判别器d通过卷积层实现，激活函数选择leakyrelu；采用“same”的补零策略，并采用batchnormalization对每一层进行归一化；优化器选择rmsprop，学习率为0.0002；

(4.2)、训练判别器：对步骤3)得到的纯净语音样本压缩复数谱训练，使得趋近1；对步骤3)得到的含噪语音样本压缩复数谱训练，使得增强语音复数谱且趋近0；

(4.3)、训练生成器：对步骤3)得到的纯净语音样本和含噪语音样本压缩复数谱训练，冻结判别器，训练生成器，使得判别器d对增强语音复数谱且趋近1；

(4.4)、输出训练模型：重复步骤(4.1)～(4.3)，直到模型收敛为止，输出生成器g和判别器d。

6.根据权利要求1所述的一种基于约束朴素生成对抗网络的语音增强方法，其特征在于：所述步骤(5)中幅度解压缩是指使用反双曲正切函数对增强复数谱串接向量进行幅度解压缩，反双曲正切函数定义为：

完整全部详细技术资料下载

当前第2页1 2 3