本发明涉及虚假音频检测领域,特别是涉及基于数据引导特征蒸馏的虚假音频检测方法及其系统。
背景技术:
1、随着deepfake技术的兴起,各种假新闻、骗局和其他恶意事件变得越来越普遍。语音重放、语音转换和语音合成严重威胁了说话人验证系统的安全性,增大了虚假语音检测(fake speech detection,fsd)的难度。目前,对fsd的研究主要集中在两个方面,一是对未知攻击的泛化能力,二是在低质量场景下的鲁棒性。
2、之前的工作主要集中在对未知攻击的泛化能力上。为了提高fsd的泛化能力,研究人员围绕前端特征和后端分类器提出了许多方法,主要分为基于原始波形的端到端结构和基于人工特征的非端到端结构,这两种结构在泛化能力和模型规模方面各有优势。然而,上述方法在面对具有通信干扰的数据集时性能急剧下降。
3、因此亟需提供一种新型的虚假音频检测方法来解决上述低质量场景下的鲁棒性问题。
技术实现思路
1、本发明所要解决的技术问题是提供一种基于数据引导特征蒸馏的虚假音频检测方法和系统,能够显著提高虚假音频检测的准确率。
2、为解决上述技术问题,本发明采用的一个技术方案是:提供一种基于数据引导特征蒸馏的虚假音频检测方法,包括以下步骤:
3、s1:对原始音频进行短时傅里叶变换,提取出对数功率谱,使用其f0子带作为网络的输入特征;
4、s2:对原始数据进行数据增强,并预训练得到教师模型,教师模型在经过数据增强的训练集数据上学习并输出预测结果和不同深度的特征;
5、s3:用原始数据训练的模型作为学生模型,计算预测值与标签的损失,在教师模型和学生模型相同深度的特征学习中,计算教师模型和学生模型各级特征之间的差异,以使学生模型学习到教师模型基于数据增强的特征分布;
6、s4:教师模型在预测维度进一步进行指导并平衡损失,防止学生模型过度拟合原始数据;
7、s5:设置训练轮次对学生模型进行训练,选取在验证集上损失最小的学生模型进行测试,最深层网络输出作为预测结果。
8、在本发明一个较佳实施例中,步骤s1的具体步骤包括:
9、s101:利用短时傅里叶变换stft将时域语音信号转换为时频域语音信号:
10、xr[t,f]+i*xi[t,f]=stft(x[k]) (1)
11、其中,x[k]表示时域中的语音信号,k是语音信号的时间索引,和是stft的相应实部和虚部,t是时间帧数的索引,f是频率单元的索引;
12、s102:对stft的实部和虚部进行以下操作得到对数功率谱特征:
13、
14、其中,log代表取对数操作,lpsfull即为需要的对数功率谱的全频段特征;
15、s103:应用对数功率谱的0-400hz频段作为所需的f0子带:
16、lpsf0=lps0-400hz (3)
17、在本发明一个较佳实施例中,在步骤s2中,让教师模型在经过rawboost增强的训练集数据上进行预训练,在训练过程中需要保留不同深度的特征权重,即:
18、
19、其中,nn代表深度神经网络模型,da表示经过rawboost方法增强过的数据,predictt表示教师模型的预测结果,表示教师模型在不同网络深度训练出的特征。
20、在本发明一个较佳实施例中,在步骤s3中,采用mse函数计算教师模型和学生模型之间每一层网络特征的特征映射的损失:
21、
22、其中mse表示均方误差函数,和分别是学生网络和教师网络的每一层的特征,为教师模型和学生模型每一层特征的损失函数的结果。
23、在本发明一个较佳实施例中,在步骤s3中,还包括使用a-softmax函数计算预测值与标签之间的损失:
24、
25、其中a_softmax表示是a_softmax函数,predicts和label分别表示学生模型的预测值和标签,表示学生模型的预测值与标签之间的损失。
26、在本发明一个较佳实施例中,步骤s4的具体步骤包括:
27、s401:在预测维度上进行指导,对教师模型和学生模型的预测结果用kl散度计算教师预测和学生预测之间的差异:
28、
29、其中kl表示kullback-leibler divergence函数,predicts是学生模型的预测结果,predictt是教师模型的预测结果;为教师模型在预测维度上指导学生模型的损失;
30、s402:通过设置两个超参数α和β来平衡特征损失、预测损失和标签损失三种损失:
31、
32、α和β分别是损失的平衡系数,为最终损失。
33、在本发明一个较佳实施例中,所述教师模型和学生模型使用res2net作为骨干网络,并引入全局注意力和局部注意力两种注意机制。
34、为解决上述技术问题,本发明采用的另一个技术方案是:提供一种基于数据引导特征蒸馏的虚假音频检测系统,其特征在于,包括:
35、语音特征输入模块,用于对原始音频进行短时傅里叶变换,提取出对数功率谱,使用其f0子带作为网络的输入特征;
36、预训练教师模块,用于对原始数据进行数据增强,并预训练得到教师模型,教师模型在经过数据增强的训练集数据上学习并输出预测结果和不同深度的特征;
37、特征蒸馏模块,用于在教师模型和以原始数据训练的学生模型相同深度的特征学习中,计算教师模型和学生模型各级特征之间的差异,以使学生模型学习到教师模型基于数据增强的特征分布;
38、预测蒸馏模块,用于指导学生模型的预测,防止学生模型过拟合,并结合所述特征蒸馏模块与本模块产生的损失,用以平衡各级网络之间的特征差异;
39、预测结果输出模块,用于设置训练轮次对学生模型进行训练,选取在验证集上损失最小的学生模型进行测试,最深层网络输出作为预测结果。
40、在本发明一个较佳实施例中,所述特征蒸馏模块让教师模型的浅层和深层的特征用来指导学生模型浅层和深层特征的生成,并使用均方误差函数计算教师模型和学生模型各层特征的差别,以使学生模型学习到教师模型基于数据增强得出的特征分布。
41、在本发明一个较佳实施例中,所述预测蒸馏模块指导学生模型的预测,防止学生模型过拟合,并结合各模块产生的损失,用以平衡各级网络之间的特征差异的具体步骤包括:
42、(1)在预测维度上进行指导,用kl散度计算教师预测和学生预测之间的差异:
43、
44、其中kl表示kullback-leibler divergence函数,predicts是学生模型的预测结果,predictt是教师模型的预测结果;为教师模型在预测维度上指导学生模型的损失;
45、(2)通过设置两个超参数α和β来平衡特征损失、预测损失和标签损失三种损失:
46、
47、α和β分别是损失的平衡系数,为最终损失。
48、本发明的有益效果是:
49、本发明所述方法首次将基于数据引导的特征蒸馏用于虚假音频检测,通过蒸馏方法,学生模型通过对教师模型不同深度的特征进行学习,并在预测维度使用教师模型对学生模型的预测进行指导,防止过拟合,使得学生模型可以在原始数据集上得到超过教师模型性能的结果,从而提高了虚假音频检测的准确率及在低质量场景下的鲁棒性。