本发明属于欺骗语音识别检测,具体是涉及一种基于时域合成语音检测网络的欺骗语音检测方法。
背景技术:
1、近二十多年来,自动语音识别(automatic speech recognition,asr)技术日益成熟,比如智能手机上的语音助手(如siri、google assistant、alexa)、医疗记录文本化、语音搜索引擎、智能家居控制、汽车中的语音导航和娱乐系统等逐渐出现在人们的视野并被广泛应用于生活中。伴随着语音识别的发展,语音欺骗的方式也层出不穷。
2、欺骗语音检测(voice deception detection)是指识别语音中是否经历了声音变换或改变的过程。声音变换是指通过声音处理技术改变语音信号的特征,使其听起来像不同的说话者、性别、年龄或其他声音特征。变形语音检测的任务是确定一个语音片段是否受到了声音变换的影响,以识别可能的欺骗或虚假信息。目前,即使asv系统的安全性越来越得到重视,预防措施也在逐步加进。但是,由于变形语音的技术多种多样,难以捕捉到所有可能的变形模式,而且一下高级声音变换技术由于能够模仿真实的声音,很难被检测到。
3、变形语音(voice transformation)是指通过声音处理技术,改变原始语音信号的声音特征,使其听起来像不同的说话者、性别、年龄或其他声音特征。这种技术可以用于多种目的,包括语音合成、音频处理、匿名化等。本发明所解决的问题就是判断输入语音是真是语音还是变形语音。
4、在现有技术中,(1)chen等人使用具有更复杂功能的递归神经网络涉及门控机制的重复单元,例如长短期记忆(lstm)单元和门控递归单元(gru)进行自动重放欺骗攻击检测。asvspoof2017数据集上的结果表明,神经网络显著优于高斯混合模型(gmm)。(chen,z.,zhang,w.,xie,z.,xu,x.,&chen,d.(2018,april).recurrent neural networks forautomatic replay spoofing attack detection.in 2018ieee internationalconference on acoustics,speech and signal processing(icassp)(pp.2052–2056).ieee.);(2)dinkel等人提出了一种端到端的rnn网络训练方法来检测欺骗语音。(dinkel,h.,qian,y.,&yu,k.(2018).investigating raw wave deep neural networks for end-to-end speaker spoofing detection.ieee/acm transactions on audio,speech,andlanguage processing,26(11),2002–2014.);(3)dua提出了一种时间分布密集层和长短期记忆组合的卷积神经网络集成模型。(dua,m.,jain,c.,&kumar,s.(2021).lstm and cnnbased ensemble approach for spoof detection task in automatic speakerverification systems.journal of ambient intelligence and humanizedcomputing);(4)jelil等人提出了一种基于源特征、瞬时频率余弦系数特征和倒频谱特征的提取算法来欺骗检测算法。(jelil,s.,das,r.k.,prasanna,s.m.,&sinha,r.(2017,august).spoof detection using source,instantaneous frequency and cepstralfeatures.in interspeech(pp.22–26).)(5)dinkel等人提出了一种基于原始波形的欺骗检测深度模型,它不需要对数据进行任何预处理或后处理,使训练和评估成为一个精简的过程,比其他基于神经网络的方法消耗更少的时间。(dinkel h,chen n,qian y,etal.end-to-end spoofing detection with raw waveformcldnns[c]//2017ieeeinternational conference on acoustics,speech and signalprocessing.ieee。
5、本发明变形语音检测的主要目标是检测语音片段是否经历了声音变换或改变。这种变换可以是通过计算机生成的声音合成技术(如声码器、深度伪造)或声音特效(如改变声音的音调、速度、重声等)实现的。
6、asv(automatic speaker verification),即自动说话人验证,是一种语音生物识别技术,用于验证说话者的身份。asv的工作原理基于声纹识别技术,这是一种利用个体声音特征来辨识说话者身份的方法。声音信号中的语音特征包括音调、音频频率、语音质量等。asv系统通过采集和分析说话者的语音样本,提取声纹特征,并将其存储为模型。在后续的验证阶段,系统会将输入的语音与存储的模型进行比较,从而判断说话者是否为已注册的合法用户。
7、asv广泛应用于各种领域,包括:语音识别系统、电话银行和客户服务、访问控制和物理安全和法律和司法领域等。因此对于asv系统的安全性提出了巨大的挑战。所以对变形语音的检测变得尤为重要。
技术实现思路
1、本发明针对现有技术的问题,提供一种基于时域合成语音检测网络的欺骗语音检测方法。本发明通过对语音提取mfcc特征之后,将数据输入到一个时域合成语音残差网络结构。这不仅贴合语音信号的特点,还能更好地处理语音数;而且在深度的网络中,保证更好的学习收敛的同时,避免了梯度消失或爆炸的问题。
2、为了达到上述目的,本发明一种基于时域合成语音检测网络的欺骗语音检测方法,主要包括以下步骤:
3、第一、数据预处理,将采集好的语音数据进行预加重、分帧、加窗、傅里叶变换和离散余弦变换等处理,以对语音数据进行提取mfcc特征;
4、第二、选定时域合成语音残差网络结构作为基准网络;
5、第三、将经过预处理的语音数据并输入到选定好的时域合成语音残差网络结构中进行训练,从而得到最终的欺骗语音检测模型;
6、第四、将待检测的语音数据输入到欺骗语音检测模型中,从而输出语音的检测结果。
7、进一步地,所述时域合成语音残差网络结构为一个20层结构的时域合成语音残差网络结构,该时域合成语音残差网络结构的输入尺寸为(2*1*95680);当语音数据输入到该网络结构中时,首先进行第一层的卷积,其中输入通道为1,kernel_size=7,输出通道为16,经过批归一化后接着进入连续的四个残差块,每个残差块前都跟一个最大池化层进行下采样,并且在最后一个残差块后通过全局平均池化将特征汇总成一个向量后,最后经过全连接层进行分类,从而输出最终结果。
8、作为上述方案的进一步改进,所述残差块的结构为三个用于特征提取的卷积层,并且每个卷积层后面都跟着一个批归一化层和relu激活函数。