一种基于关联特征判别性融合网络的伪造语音检测方法及系统

文档序号:38981231发布日期:2024-08-16 13:37阅读:59来源:国知局
一种基于关联特征判别性融合网络的伪造语音检测方法及系统

本发明属于语音处理及生物识别,具体涉及一种基于关联特征判别性融合网络的伪造语音检测方法及系统。


背景技术:

1、语音处理技术使声音变得“可读”,让计算机能够“听懂”人类的语言并做出反应,是人工智能实现人机交互的关键技术之一。其中,机器合成语音欺诈检测已经逐渐成为语音处理领域重要的科学问题,有着广阔的应用前景。语音欺诈是指通过录音、语音合成、语音转换等手段,将一段非法、未经过自动说话人验证(asv)系统认证的声音进行“修改仿冒”,以达到通过asv系统检测的目的。在各类攻击手段中,语音合成与转换攻击对asv系统产生的威胁更大。其能够利用语音处理技术,将任意文本或他人语音转换为目标说话人语音。且由于深度学习的出现,将语音合成技术带到了新的高度,使人工合成的语音几乎与人类真实的语音一样自然。

2、与常规的说话人确认和语音处理所使用的声学特征有所区别,当对合成语音进行检测时,通常需要专门的声学特征,从而更好地区分真实语音与合成语音。为了对合成语音中的“欺诈特征”进行更好地辨认,需要选取合适的前端特征提取方法。其中,常数q变换(cqt)是重要的时频分析方法,其能够以对数为标度来表示时频间的关系,且在高频区域具有更高的分辨率,从而能够更好地区分伪造语音与真实语音。近年来,随着深度学习的快速发展,图像处理、语音识别等领域都在基于深度神经网络的框架下大放异彩。由于其能够区分复杂的非线性特征,极大地提高了对复杂样本的分类准确性,在语音欺诈检测领域中也取得了不错的成果。常见的深度神经网络有卷积神经网络、循环神经网络、生成对抗网络等,然而使用单一的深度神经网络提取语音特征进行识别时,无法具有较高的准确度。

3、针对这一问题,本发明从cqt前端特征出发,在后端模型方面提出一种关联特征判别性融合网络方法(correlation feature discriminative fusion network,cfdfn)。此网络首先利用双向注意力网络和scg-res2net50提取两种前端声学特征的高级表示,然后通过关联特征判别性融合方法(cfdfn)进行网络参数初始化,将初始化投影矩阵参数与原特征相乘得出转换后的新特征,再将两个特征拼接,以综合两个特征中不同维度的重要程度进行融合,从而得到区分性更强的特征表示,进而可以建立它们之间的关系特征,然后将此融合的特征输入全连接层分类,最后利用梯度下降算法进行网络参数更新。此网络能够有效提升伪造语音检测系统的识别性能,具有重要的研究意义与应用价值。


技术实现思路

1、本发明的目的是为了提高识别伪造语音与真实语音的准确率,从而提出了一种基于关联特征判别性融合网络的伪造语音检测方法及系统。

2、一种基于关联特征判别性融合网络的伪造语音检测方法,包括:

3、对语音数据提取cqt特征矩阵,并将cqt矩阵输入判识模型,判识模型的处理过程包括:

4、首先将cqt矩阵输入双向注意力网络和scg-res2net50这个两个双并行网络,通过双并行网络得到两个高级表示特征矩阵,表示为x和y;

5、所述双向注意力网络处理过程如下:

6、首先通过第一特征提取网络进行特征提取,得到语音的嵌入特征;然后将语音的嵌入特征转换为一维序列,分别输入到正向gru和反向gru网络中提取时序特征,gru为门控制循环单元;将正向gru网络、反向gru网络得到的时序特征分别通过自注意力网络,然后将输出进行拼接,再通过一个全连接层得到双向注意力网络输出的特征;

7、针对特征矩阵x和y,分别求出两个特征矩阵的类间散度矩阵sbx、sby和两个类内散度矩阵swx、swx;然后将类内散度矩阵的逆和类间散度矩阵相乘swx-1sbx,将其称为联合类内间散度矩阵,对联合类内间散度矩阵进行特征分解,求出特征向量p和特征值λ;利用将特征矩阵x进行投影得到对应的投影矩阵x′=wbxx;采用相同的方式得到并将特征矩阵y的投影矩阵进行投影,得到对应的投影矩阵y'=wbyy;

8、将得到x′和y'作相关性变换,确定集间协方差矩阵s′xy=x′y′t,然后利用奇异值分解对s′xy进行对角化,得到s′xy=u∑vt,其中u和v是奇异值分解后的正交矩阵,∑是一个对角矩阵,对角元素为奇异值;令wcx=u∑-1/2,wcy=v∑-1/2,将wcx和wcy作为x′和y′的投影矩阵进行投影得到x*=wcxx'和y*=wcyy';

9、再将x*和y*拼接起来得到特征融合后特征,再通过一个全连接层,全连接层输出维度是2,分别是表示裁定样本是伪造语音的节点数值和裁定样本是真实语音的节点数值,即判识模型最终输出out={neg_score,pos_score},其中neg_score为裁定伪造语音节点数值,pos_score为裁定真实语音节点数值;

10、最后根据判识模型最终输出out中的两个数值相减的结果进行真实语音与伪造语音的分类。

11、进一步地,根据判识模型最终输出out中的两个数值相减的结果进行真实语音与伪造语音的分类的过程中,neg_score-pos_score>0判定为伪造语音,pos_score-neg_score≥0判定为真实语音。

12、进一步地,在对语音数据提取cqt特征矩阵之前,需要对语音数据进行预处理,对语音进行预处理的过程中,首先对输入的语音信号采样量化,然后对量化后的语音长度进行裁剪填补。

13、进一步地,所述第一特征提取网络为resnet18网络。

14、进一步地,所述scg-res2net50包括1个卷积层、4个残差层、1个均值池化层和一个flatten层,4个残差层分别包括3、4、6、3个res2net块。

15、进一步地,所述判识模型是预先训练好的,训练过程包括以下步骤:

16、基于用于训练的真实语音与伪造语音构建训练集,然后将训练集的训练样本输入判识模型进行处理,每个样本在输出维度是2的全连接层都会得到在这两个节点有相应的数值,根据输出out中的两个数值相减的结果进行真实语音与伪造语音的分类;通过交叉熵损失函数对网络两个维度的节点数值相减而判定样本为真实或伪造语音的结果和样本是真实或伪造语音的确切标签作对比,最后利用梯度下降算法对投影矩阵网络参数更新;

17、经过训练集的训练,得到训练好的网络模型。

18、一种基于关联特征判别性融合网络的伪造语音检测系统,包括:

19、cqt特征矩阵提取单元:对语音数据提取cqt特征矩阵;

20、语音判识单元:将cqt矩阵输入判识模型进,最后根据判识模型最终输出out中的两个数值相减的结果进行真实语音与伪造语音的分类;

21、所述判识模型的处理过程包括:

22、首先将cqt矩阵输入双向注意力网络和scg-res2net50这个两个双并行网络,通过双并行网络得到两个高级表示特征矩阵,表示为x和y;

23、所述双向注意力网络处理过程如下:

24、首先通过第一特征提取网络进行特征提取,得到语音的嵌入特征;然后将语音的嵌入特征转换为一维序列,分别输入到正向gru和反向gru网络中提取时序特征,gru为门控制循环单元;将正向gru网络、反向gru网络得到的时序特征分别通过自注意力网络,然后将输出进行拼接,再通过一个全连接层得到双向注意力网络输出的特征;

25、针对特征矩阵x和y,分别求出两个特征矩阵的类间散度矩阵sbx、sby和两个类内散度矩阵swx、swx;然后将类内散度矩阵的逆和类间散度矩阵相乘swx-1sbx,将其称为联合类内间散度矩阵,对联合类内间散度矩阵进行特征分解,求出特征向量p和特征值λ;利用将特征矩阵x进行投影得到对应的投影矩阵x′=wbxx;采用相同的方式得到并将特征矩阵y的投影矩阵进行投影,得到对应的投影矩阵y'=wbyy;

26、将得到x′和y'作相关性变换,确定集间协方差矩阵s′xy=x′y′t,然后利用奇异值分解对s′xy进行对角化,得到s′xy=u∑vt,其中u和v是奇异值分解后的正交矩阵,∑是一个对角矩阵,对角元素为奇异值;令wcx=u∑-1/2,wcy=v∑-1/2,将wcx和wcy作为x′和y′的投影矩阵进行投影得到x*=wcxx'和y*=wcyy';

27、再将x*和y*拼接起来得到特征融合后特征,再通过一个全连接层,全连接层输出维度是2,分别是表示裁定样本是伪造语音的节点数值和裁定样本是真实语音的节点数值,即判识模型最终输出out={neg_score,pos_score},其中neg_score为裁定伪造语音节点数值,pos_score为裁定真实语音节点数值。

28、进一步地,根据判识模型最终输出out中的两个数值相减的结果进行真实语音与伪造语音的分类的过程中,neg_score-pos_score>0判定为伪造语音,pos_score-neg_score≥0判定为真实语音。

29、进一步地,所述的一种基于关联特征判别性融合网络的伪造语音检测系统还包括语音预处理模块;

30、语音预处理模块:在cqt特征矩阵提取单元对语音数据提取cqt特征矩阵之前,对语音数据进行预处理,对语音进行预处理的过程中,首先对输入的语音信号采样量化,然后对量化后的语音长度进行裁剪填补。

31、进一步地,所述第一特征提取网络为resnet18网络;所述scg-res2net50包括1个卷积层、4个残差层、1个均值池化层和一个flatten层,4个残差层分别包括3、4、6、3个res2net块。

32、本发明的有益效果:

33、本发明的有益效果在于:本发明提出了一种基于关联特征判别性融合网络的伪造语音检测方法及系统,能够有效利用双向注意力网络和scg-res2net50这两个平行网络的特点,得到区分性更强的特征,通过关联特征判别性融合方法进行网络参数初始化,将初始化投影矩阵参数与原特征相乘得出转换后的新特征,再连接这两个高级表示特征来提高系统识别性能。对比实验在数据集asvspoof2019上进行验证,与普通的特征拼接特征方法相比,本发明方法明显提升了欺诈检测系统的性能。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1