本发明涉及一种音频信号的多尺度判别方法及多尺度判别器,属于音频处理。
背景技术:
1、声码器作为语音合成系统中的一个重要模块,用于将文本语言学特征/声学特征转换为音频波形信号。近年来,随着深度学习技术在语音合成中的应用,基于神经网络的声码器被广泛使用。
2、基于神经网络的声码器包含生成器和判别器两个关键组件。其中,生成器用于生成与真实样本相似的生成样本,判别器用于对接收的样本数据进行分类,判断样本数据是真实样本还是生成样本,并将判断结果反馈给生成器。目前判别器主要分为时域判别器和时频域判别器。
3、时频域判别器大多都基于短时傅里叶变换,由于短时傅里叶变换得到的频谱的时频域分辨率不变,因此对于某些特定音频信号,例如歌声,该变换无法在不同的频段上使用不同的时频域分辨率来捕捉重点不同的信息。因而这种基于短时傅里叶变换的时频域判别器无法有效地对此类信号进行建模。
技术实现思路
1、本发明提供了一种音频信号的多尺度判别方法及多尺度判别器,能够解决现有判别器无法在不同的频段上拥有不同的时频域分辨率来捕捉重点不同的信息的问题。
2、一方面,本发明提供了一种音频信号的多尺度判别方法,所述方法包括:
3、s1、基于不同的频点个数对音频信号分别进行多次常数q变换,得到多个频谱;
4、s2、对所述多个频谱分别进行概率预测,得到多个预测概率;
5、s3、根据所述多个预测概率对所述音频信号进行判别,得到所述音频信号的判别结果。
6、可选的,所述s2具体包括:
7、对所述多个频谱分别进行特征提取,得到每个频谱的隐式表征;
8、对所述每个频谱的隐式表征分别进行概率预测,得到多个预测概率。
9、可选的,对所述多个频谱分别进行特征提取,得到每个频谱的隐式表征,具体包括:
10、对每个频谱的实部和虚部分别进行特征提取,得到实部特征和虚部特征;
11、将每个频谱的实部特征和对应的虚部特征进行拼接,得到每个频谱的隐式表征。
12、可选的,对每个频谱的实部和虚部分别进行特征提取,得到实部特征和虚部特征,具体包括:
13、将每个频谱的实部和虚部分别按八度分成多个子带,并分别对每个子带进行特征提取,得到每个子带的隐式表征;
14、将所述频谱的实部对应子带的隐式表征进行拼接,得到所述频谱的实部特征,并将所述频谱的虚部对应子带的隐式表征进行拼接,得到所述频谱的虚部特征。
15、可选的,对每个子带进行特征提取,得到每个子带的隐式表征,具体为:
16、将每个子带分别输入卷积层,得到每个子带的隐式表征;
17、其中,所述卷积层的卷积核为3×9。
18、可选的,所述s2具体包括:
19、将所述多个频谱分别输入卷积模块中,得到多个预测概率;其中,所述卷积模块包含多个2d卷积层。
20、另一方面,本发明提供了一种音频信号的多尺度判别器,所述判别器包括:
21、多个子判别器;所述子判别器包括变换模块和预测模块,所述变换模块用于对音频信号进行常数q变换,得到频谱;所述预测模块用于对所述频谱进行概率预测,得到预测概率;多个所述子判别器的变换模块在进行常数q变换时的频点个数不同;
22、整合模型,用于对多个所述预测概率进行整合,得到所述音频信号的判别结果。
23、可选的,所述预测模块包括:
24、特征提取子模块,用于对所述频谱进行特征提取,得到所述频谱的隐式表征;
25、卷积子模块,用于对所述频谱的隐式表征进行概率预测,得到预测概率。
26、可选的,所述特征提取子模块具体包括:
27、子带处理单元,用于对所述频谱的实部和虚部分别进行特征提取,得到实部特征和虚部特征;
28、拼接单元,用于将所述频谱的实部特征和对应的虚部特征进行拼接,得到所述频谱的隐式表征。
29、可选的,所述子带处理单元具体包括:
30、划分子单元,用于将所述频谱的实部和虚部分别按八度分成多个子带;
31、卷积子单元,用于对每个子带分别进行特征提取,得到每个子带的隐式表征;
32、拼接子单元,用于将所述频谱的实部对应子带的隐式表征进行拼接,得到所述频谱的实部特征,并将所述频谱的虚部对应子带的隐式表征进行拼接,得到所述频谱的虚部特征。
33、本发明能产生的有益效果包括:
34、(1)本发明提供的音频信号的多尺度判别方法及多尺度判别器,通过使用常数q变换(constant q transform,cqt)得到的频谱作为特征。该特征在低频区域拥有更高的频域分辨率,从而可以更好地追踪基频的变化;在高频区域拥有更好的时域分辨率,从而可以追踪快速变化的泛音。相比于短时傅里叶变换得到的频谱,该特征对歌声、音乐等信号拥有更好的表征能力。与目前常用的多尺度短时傅里叶变换判别器相比,本发明训练出来的多尺度判别器,在频谱恢复质量与基频的稳定性上都取得了更好的效果,从而获得了更高的音质。
35、(2)本发明提供的音频信号的多尺度判别方法及多尺度判别器,利用子带处理单元获得一个时域信息对齐的隐式表征,并将该隐式表征作为判别器使用的表征,能够解决现有的cqt谱算法具有不同八度间时域信息不对齐(即每一个时间帧下,频率上对应不同八度的bin所包含的时域信息量不一致)的问题。
1.一种音频信号的多尺度判别方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述s2具体包括:
3.根据权利要求2所述的方法,其特征在于,对所述多个频谱分别进行特征提取,得到每个频谱的隐式表征,具体包括:
4.根据权利要求3所述的方法,其特征在于,对每个频谱的实部和虚部分别进行特征提取,得到实部特征和虚部特征,具体包括:
5.根据权利要求4所述的方法,其特征在于,对每个子带进行特征提取,得到每个子带的隐式表征,具体为:
6.根据权利要求1所述的方法,其特征在于,所述s2具体包括:
7.一种音频信号的多尺度判别器,其特征在于,所述判别器包括:
8.根据权利要求7所述的判别器,其特征在于,所述预测模块包括:
9.根据权利要求8所述的判别器,其特征在于,所述特征提取子模块具体包括:
10.根据权利要求9所述的判别器,其特征在于,所述子带处理单元具体包括: