本发明属于人工智能,涉及一种声纹识别模型的训练方法、声纹识别方法,具体是一种基于非稳态音频增强和多尺度注意力的声纹识别方法及系统。
背景技术:
1、在人工智能时代的身份认证与安全验证的应用场景下,高精度的声纹识别技术场景有巨大需求,而声纹识别技术的核心为声纹建模技术。现有的声纹建模受录音的环境、收音的设施、说话人的生理状态和建模方法制约,无法达到此项技术的鲁棒性、规模可用性、低耦合性和安全性要求。因此,如何实现在有背景音、白噪声、信号干扰等非稳态的环境下对声纹的准确提取、建模是当前声纹识别领域亟需解决的难题。基于此,本发明提出了一种基于非稳态音频增强和多尺度注意力的声纹识别方法及系统。
技术实现思路
1、由于现有声纹系统在非稳态环境下采样失效或误判概率较高,存在低采样率与低码率的问题,基于现有技术的痛点,本发明构建以实时因果语音增强网络为主,频谱门控为辅的语音增强模型,实现在非稳态环境下的人声增强;在进行声纹特征提取时,本发明采用多尺度注意力的声纹识别模型,创新性地结合注意力机制,帮助模型更加关注说话人的关键特征,从而提高声纹识别的准确率。
2、本发明基于多尺度注意力网络的高精度声纹建模模型,实现非稳态环境下对声纹的准确提取和精准建模,为声纹领域下游任务提供重要基础。
3、本发明采取如下技术方案:
4、基于非稳态音频增强和多尺度注意力的声纹识别方法,其具体步骤如下:
5、步骤s1、将输入的语音信号进行基于频谱门控的非平稳降噪;
6、步骤s2、经非平稳降噪后的语音信号输入基于卷积与长短期记忆的实时因果语音增强模型;
7、步骤s3、将经过语音增强后的语音信号进行训练,得到分类文本结果;将文本结果和对应标签计算,得到损失;根据损失得到调节模型参数;直到训练结果准确性收敛,结束训练;剔除最后一层分类层,将模型的多维特征向量取出;
8、步骤s4、取出最后一层的特征向量,分别对不同的特征向量进行余弦相似度的计算和指数型权重的划分,获得无学习样本下的声纹识别准确率。
9、优选的,步骤s1具体如下:
10、将输入的语音信号分割为长度为n的窗口,并对每个窗口应用离散傅里叶变换,使用汉宁窗口加窗:
11、
12、通过短时傅里叶变换,得到时域转频域后的信号,通过经验估计的噪声能量谱d和平滑系数α的设立,控制噪声能量谱的自适应更新速度;据此,得到自适应的门限值信号g,以适应噪声的变化;
13、
14、
15、
16、得到音频数据x。
17、优选的,步骤s2中,所述的实时因果语音增强网络包含一个带有跳跃连接的多层卷积编码器和解码器,以及一个用于编码器输出的序列建模网络;具体如下:
18、(i)编码器-解码器架构:
19、编码器将音频信号压缩到一个低维表示中,解码器将该表示扩展回原始音频信号,实现从波形到波形的分层生成;编码器网络e获得原始波形作为输入,并输出一个潜在表示e(x)=z;编码器e的特征是层数l,每层包含一个卷积层,其内核大小为k,步幅为s,具有2i-1h输出通道,重采样因子u;将结果输出经过卷积后再用线性修正单元激活,具有2ih输出通道的1x1卷积,最后用高斯修正单元激活,将通道数转换回到wi-1h;解码器网络d,接受潜在表示z作为输入,并将其映射回原始波形的空间表示,d(z)=x,解码器d的特征是层数l,与编码器相对应,每层包含一个反卷积层,内核大小为k,步幅为s,具有2i-1h输出通道,每一层使用与编码器相对应的重采样因子u,以恢复特征图的尺寸与输入波形的匹配,将结果输出放到2i-1h输入通道,2ih输出通道的卷积层中,经过高斯修正单元激活,再将其通过卷积层用线性修正单元激活,其中,相对应的编码器层和解码器层之间有跳跃连接。
20、(ii)深度可分离卷积:
21、使用深度可分离卷积,该卷积类型将卷积操作分解为两个步骤:深度卷积和逐点卷积;深度可分离卷积的公式表示为:
22、
23、先只对单通道的输入进行卷积操作,再将所有通道一起进行卷积操作;
24、(iii)lstm:
25、序列模型r网络将潜在表示z作为输入,并输出相同大小的非线性变换r(z)=lstm(z)+z,表示为;lstm网络由2层和隐藏单元2l-1h组成;对于因果关系预测,使用单向lstm,而对于非因果关系模型,使用双向lstm;使用线性层将两个输出合并将其输出到解码器网络中。
26、优选的,步骤s3具体如下:
27、通过梅尔频谱方法得到梅尔频率:
28、
29、通过一组三角梅尔滤波器来模拟人耳对不同频率的响应,每个三角形滤波器的中心频率对应一个梅尔频率,其余频率按照梅尔刻度进行映射:
30、
31、(i)将得到的n×t大小的特征向量放入5×5大小的普通的卷积,经过线性修正单元(rectified linear unit)+批归一化(batch normalization)的基本操作,输出一个c×t大小的张量,c为设定的通道数,也代表特征的维度,进行特征嵌入:
32、
33、y=max(0,x)
34、
35、上式卷积公式y(i,c):表示在位置(i,c)处的输出特征值;
36、其中,x(i+p.n)表示在位置(i+p.n)处的输入特征值,p是卷积核的水平索引,n是输入特征图的通道索引;
37、w(p,n,c)表示在位置(p,n,c)处的卷积核权重,其中p是卷积核的水平索引,n是输入特征图的通道索引,c是输出特征图的通道索引;
38、y=max(0,x),relu,y表示relu激活后的特征,x是输入特征值;
39、y表示归一化后的输出特征,x表示输入特征,μ表示输入特征的均值,σ2表示输入特征的方差,ε是一个小的正数,用于避免方差为零的情况,γ表示缩放参数,β表示偏移参数;
40、(ii)中间叠加三层不同卷积核的压缩和激励的残差模块,卷积核大小由大到小,代表信息的挖掘范围逐步缩小,控制卷积核的膨胀系数,保持输出和输入张量大小的一致;内部由残差块和拆分-融合-选择模块组成;
41、残差块由多个跳跃连接结构构成,将张量拆分成四份,分别进行卷积后残差连接,进一步获得更多的信息,结束后再将四份张量拼凑,得到一个跟原来大小一致的张量,输送到split-fuse-select模块中;
42、在空间方面增加注意力,即划分不同时间段的重要性:
43、f=σ(w2δ(w1(aavg⊕amax))
44、aa=f⊙ain
45、(iii)进行扩张通道,得到特征后,进行特征细化,对张量进行稀疏化采样,并将此特征进行全局统计注意力池化,以捕捉特征中的关键信息:
46、
47、最终通过一个分类器,得到预测的文本结果,进行不断的迭代训练,直至收敛。
48、优选的,步骤s4具体如下:去掉分类器,取出最后一层的特征向量,分别对不同的特征向量进行余弦相似度的计算:
49、
50、将数据库设计为个体拥有多条音频数据作为依据,在计算过程中,对相似度靠前的一部分音频都纳入考量范围,并根据排名进行权重的划分,再进行准确率的计算,以此得到正确数据:
51、
52、wi=αn-i。
53、本发明还公开了一种基于非稳态音频增强和多尺度注意力的声纹识别系统,其包括如下模块:
54、自适应降噪模块:对输入的语音信号进行基于频谱门控的非平稳降噪处理;
55、语音增强模块:通过非平稳降噪处理后的语音信号输入基于卷积与长短时记忆的实时因果语音增强网络;
56、声纹特征提取模块:将经过语音增强后的语音信号进行训练,得到分类文本结果;将文本结果和对应标签计算,得到损失;根据损失得到调节模型参数;直到训练结果准确性收敛,结束训练;将模型的最后一层多维特征向量取出,输入声纹特征分类模块;
57、声纹特征分类模块:根据余弦相似度的计算和指数型权重的划分,获得无学习样本下的声纹识别准确率。
58、本发明将时间延迟卷积神经网络作为骨干,使用自适应注意的上下文扩展和多感知颗粒度的端到端的框架,有效利用音频时域和频域两种模态中的互补特征,构建split-fuse-select架构,以提高识别算法的鲁棒性和准确性。同时,本发明在声纹识别算法中引入基于卷积与lstms等的语音增强技术,使系统在有背景音、白噪声、信号干扰等非稳态的环境下能对不同人的声纹进行准确建模。