一种基于WT的声纹识别方法及系统与流程

文档序号：23007877发布日期：2020-11-20 12:02阅读：363来源：国知局

本发明涉及声纹识别的技术领域，尤其涉及一种基于wt的声纹识别方法及系统。

背景技术：

语音作为人与人之间实现信息交互的最直接的、最常用的和最便捷的载体，承载和传达着各种信息资源，在人机交互和信息传递中发挥着重大作用。但由于现实生活中有太多噪声的干扰，利用声纹识别出来的语音质量比较差，不容易被人们理解，也会使得人机设备难以获得准确的信息，如何有效完成声纹识别任务成为当前研究的热门话题。

在现有声纹识别技术中，只注重于去噪后语音的信噪比，而没有注意去噪语音的整体质量。这些声纹识别技术有可能把语音信号较弱部分当作噪声去除了，使得在去除背景噪声同时，有用语音信号的成分也受到了损伤。这样一来，去噪处理后的语音信号与去噪前的信号相比较，听觉质量可能没有本质上的提升，甚至出现倒退。

同时在语音特征参数领域中，被广泛使用的特征有：mfcc、感知线性预测系数和感知对数面积比系数。这些特征在纯净环境下可以取得良好的识别准确率，但并不能有效地适应噪声环境，尤其是10db以下的噪音条件下，它们的性能会随着信噪比的降低而降低。

鉴于此，如何有效地对声纹进行去噪，并提取能适应噪声环境的声纹特征以进行声纹识别，成为本领域技术人员亟待解决的问题。

技术实现要素：

本发明提供一种基于wt(wavelettransform，小波变换)的声纹识别方法，通过利用基于小波变换的去噪算法对声纹进行降噪处理，并对现有声纹特征提取算法进行改进，利用改进的声纹特征提取算法进行声纹特征的提取和增强，最终实现对声纹的识别。

为实现上述目的，本发明提供的一种基于wt的声纹识别方法，包括：

采用麦克风阵列对待识别声纹信号进行采集；

利用基于相位变换的声源分离算法对待识别声纹信号进行滤波处理；

利用基于小波阈值的去噪算法对经滤波处理的声纹信号进行降噪处理，得到降噪后的声纹信号；

对降噪后的待识别声纹信号进行预加重和加窗的预处理；

利用基于毛细胞函数的声纹特征提取算法提取经预处理的声纹信号的声纹特征，得到待识别声纹信号的声纹特征；

利用能量算子提取声纹特征中的能量参数，并利用对数似然比算法进行声纹的识别。

可选地，所述采用麦克风阵列对声纹信号进行采集，包括：

采用麦克风阵列对待识别声纹信号进行采集，其中所采集到的第i个通道信号为xi(t)，它是由j个未知信号源sj(t)卷积混合而成的带噪语音信号，所述卷积混合公式为：

其中：

a(t)为冲激响应；

sj(t)表示第j个未知信号源；

j为未知信号源的个数；

bi(t)为噪音信号；

xi(t)为所采集到的第i个通道信号；

t表示离散时间。

可选地，所述利用基于相位变换的声源分离算法对待识别声纹信号进行滤波处理，包括：

1)计算任意两个待识别声纹信号的互相关关系：

其中：

x1(t)，x2(t)为所采集的任意两个待识别声纹信号；

α表示声音从声源传播到麦克风的衰减；

s表示未知信号源发出的信号；

τ表示声音从声源传播到两个麦克风的时间；

2)由互相关关系与互频率谱的关系可知：

其中：

为麦克风接收信号x1(t)和x2(t)的互功率谱；

ω表示功率相位；

3)在频域对功率谱进行加权处理，实现对待识别声纹信号的滤波处理，所述加权公式为：

其中：

表示相位加权函数；

x1(ω)，x2(ω)表示由傅里叶变换得到的两麦克风接收信号的功率谱；

为麦克风接收信号x1(t)和x2(t)的互功率谱；

ω表示功率相位。

可选地，所述利用基于小波阈值的去噪算法对经滤波处理的声纹信号进行降噪处理，包括：

1)利用低通/高通滤波器，将待识别的声纹信号按尺度因子为2^b的方式进行基于小波变换的向上/向下采样，其中b表示小波变换的变换级数，本发明将其设为2，所述采样表达式为：

其中：

a为尺度因子；

c为位移因子；

f(t)为待识别的声纹信号；

t为声纹信号的时刻；

l表示小波变换的子带个数；

根据上述采样表达式，本发明首先将待识别声纹信号f(t)分解为两个相等长度且各自携带低频和高频信息分量的子带信号，然后再次应用该分解操作将每个子带的信号分解为下一级子带信号，即四个子带信号；

2)设定小波阈值λ：

其中：

y为可变参数，当噪声为白噪声时，y为1；

n为待识别声纹信号的信号长度；

σ为小波子带信号的标准差；

j为小波子带的数量；

3)利用基于阈值的降噪函数对达到小波阈值的小波子带进行降噪处理，所述基于阈值的降噪函数为：

其中：

λ为小波阈值；

p为小于小波阈值的正实数；

a为小波参数，本发明将其设为0.01；

b表示小波变换的变换级数，本发明将其设为2；

l表示小波变换的子带个数；

为基于小波变换的采样信号；

wl为第l个小波子带的降噪信号。

可选地，所述对降噪后的声纹信号进行预加重和加窗的预处理，包括：

1)利用预加重的函数式提高声纹信号：

h(z)＝1-az^-1

其中：

z为待识别的声纹信号；

a为预加重系数，本发明将其设为0.912；

2)利用汉明窗对所述声纹信号进行加窗处理，所述汉明窗的时域表达式为：

其中：

n为待识别声纹信号的帧数；

n为待识别声纹信号的总帧数。

可选地，所述利用基于毛细胞函数的声纹特征提取算法提取经预处理的声纹信号的声纹特征，包括：

1)利用毛细胞函数对经预处理的声纹信号进行处理：

h(a，b)＝[h(a，b)]²

其中：

h(a，b)为经预处理的声纹信号；

2)利用滤波器对毛细胞函数进行响应，得到每个毛细胞的输出：

其中：

d表示第i频带毛细胞函数的窗长；

τi为第i个滤波器中心频率的时间长度；

l为帧移；

3)将毛细胞函数的输出进行基于响度函数的立方根尺度变换，由能量值变为感知响度，其计算公式为：

y(i，j)＝[s(i，j)]^1/3

4)采用离散余弦变换进行去相关处理，得到声纹特征为：

其中：

m表示滤波器的个数；

i表示第i频带；

n表示声纹信号在n点的采样。

所述利用能量算子提取声纹特征中的能量参数，包括：

利用能量算子提取声纹特征中的能量参数，所述能量参数的提取公式为：

ψ[f(i，n)]＝[f(i，n)]²-f(i，n+1)f(i，n-1)

其中：

i表示声纹信号的第i频带；

n表示声纹信号在n点的采样；

对所述能量参数进行归一化处理并取对数：

其中：

ψ[f(i，n)]表示第i频带的声纹信号，在n点的能量参数。

此外，为实现上述目的，本发明还提供一种基于wt的声纹识别系统，所述系统包括：

声纹获取装置，用于采集待识别的声纹；

声纹处理器，用于利用基于相位变换的声源分离算法对待识别声纹信号进行滤波处理，并利用基于小波阈值的去噪算法对经滤波处理的声纹信号进行降噪处理；

声纹识别装置，用于利用基于毛细胞函数的声纹特征提取算法提取经预处理的声纹信号的声纹特征，得到待识别声纹信号的声纹特征，并利用能量算子提取声纹特征中的能量参数，同时利用对数似然比算法进行声纹的识别。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有声纹识别程序指令，所述声纹识别程序指令可被一个或者多个处理器执行，以实现如上所述的基于wt的声纹识别的实现方法的步骤。

相对于现有技术，本发明提出一种基于wt的声纹识别方法，该技术具有以下优势：

首先，针对声纹中存在的噪音信号，本发明提出一种基于相位变换的声源分离算法对待识别声纹信号进行滤波处理，通过计算两个麦克风所接收信号之间的互相关关系其中x1(t)，x2(t)为所采集的任意两个待识别声纹信号，α表示声音从声源传播到麦克风的衰减，s表示未知信号源发出的信号，τ表示声音从声源传播到两个麦克风的时间，由互相关关系与互频率谱的关系得到声纹信号的互频率谱其中为麦克风接收信号x1(t)和x2(t)的互频率谱，由于在实际中，麦克风阵列信号处理模型存在混响和噪声的影响，会导致的峰值不明显，降低延时估计的精度，为了锐化峰值，本发明在频域对互功率谱进行加权处理，其中表示相位加权函数，等效于对数据进行滤波处理，加强了接收信号中源信号的谱分量，从而能抑制噪声和混响干扰，获取更高的延时估计精度。

同时针对传统阈值去噪算法中，经硬阈值去噪算法处理后的语音会产生振荡，而经软阈值去噪处理后的语音失真较大的缺陷。本发明提出如下一种基于小波阈值的阈值函数：

其中λ为小波阈值，p为小于小波阈值的正实数，a为小波参数，本发明将其设为0.01，b表示小波变换的变换级数，l表示小波变换的子带个数，为基于小波变换的采样信号，wl为第l个小波子带的降噪信号，新的阈值函数算法考虑了噪声小波变换模值的衰减符合指数这一规律，在阈值处不仅连续，而且还可以调节参数，这样就能更适应于不同的噪声强度，从而进一步降低了噪声信号的系数，避免了传统阈值函数直接在小波系数小于阈值时进行置零的处理方法，从而有效增强了去噪效果。

最后，由于某一类特征一般只包含了部分语音信息，而且原始特征参数反映的是语音信号的静态特性，由于动态特征参数能反映语音信号的动态特性。因此，本发明采用动静态特征参数的组合，使得动态信息和静态信息形成互补，从而更好地描述语音的动静态特性，在所述基于毛细胞函数的声纹特征的基础上，加入了反映能量变换的能量算子，得到的能量既表征了人耳听觉感知特性，又结合了语音瞬时能量的特性，还在一定程度上抑制了零均值噪声对声纹信号的影响，因此更能完整地描述声纹的特性。

附图说明

图1为本发明一实施例提供的一种基于wt的声纹识别方法的流程示意图；

图2为本发明一实施例提供的一种基于wt的声纹识别系统的结构示意图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

通过利用基于小波变换的去噪算法对声纹进行降噪处理，并对现有声纹特征提取算法进行改进，利用改进的声纹特征提取算法进行声纹特征的提取和增强，最终实现对声纹的识别。参照图1所示，为本发明一实施例提供的基于wt的声纹识别方法示意图。

在本实施例中，基于wt的声纹识别方法包括：

s1、采用麦克风阵列对待识别声纹信号进行采集，并利用基于相位变换的声源分离算法对待识别声纹信号进行滤波处理。

首先，本发明采用麦克风阵列对待识别声纹信号进行采集，其中所采集到的第i个通道信号为xi(t)，它是由j个未知信号源sj(t)卷积混合而成的带噪语音信号，所述卷积混合公式为：

其中：

a(t)为冲激响应；

sj(t)表示第j个未知信号源；

j为未知信号源的个数；

bi(t)为噪音信号；

xi(t)为所采集到的第i个通道信号；

t表示离散时间；

进一步地，利用基于相位变换的声源分离算法对待识别声纹信号进行滤波处理，其滤波处理过程为：

1)计算任意两个待识别声纹信号的互相关关系：

其中：

x1(t)，x2(t)为所采集的任意两个待识别声纹信号；

α表示声音从声源传播到麦克风的衰减；

s表示未知信号源发出的信号；

τ表示声音从声源传播到两个麦克风的时间；

2)由互相关关系与互频率谱的关系可知：

其中：

为麦克风接收信号x1(t)和x2(t)的互功率谱；

ω表示功率相位；

3)在频域对功率谱进行加权处理，实现对待识别声纹信号的滤波处理，所述加权公式为：

其中：

表示相位加权函数；

x香(ω)，x2(ω)表示由傅里叶变换得到的两麦克风接收信号的功率谱；

为麦克风接收信号x1(t)和x2(t)的互功率谱；

ω表示功率相位。

s2、利用基于小波阈值的去噪算法对经滤波处理的声纹信号进行降噪处理，得到降噪后的声纹信号。

首先，本发明获取经滤波去除的声纹信号，并利用基于小波阈值的去噪算法对声纹信号进行降噪处理，所述基于小波阈值的去噪算法的算法流程为：

其中：

a为尺度因子；

c为位移因子；

f(t)为待识别的声纹信号；

t为声纹信号的时刻；

l表示小波变换的子带个数；

2)设定小波阈值λ：

其中：

y为可变参数，当噪声为白噪声时，y为1；

n为待识别声纹信号的信号长度；

σ为小波子带信号的标准差；

j为小波子带的数量；

3)利用基于阈值的降噪函数对达到小波阈值的小波子带进行降噪处理，所述基于阈值的降噪函数为：

其中：

λ为小波阈值；

p为小于小波阈值的正实数；

a为小波参数，本发明将其设为0.01；

b表示小波变换的变换级数，本发明将其设为2；

l表示小波变换的子带个数；

为基于小波变换的采样信号；

wl为第l个小波子带的降噪信号。

s3、对降噪后的待识别声纹信号进行预加重和加窗的预处理。

进一步地，本发明对降噪后的待识别声纹信号进行预加重和加窗处理，所述预加重和加窗处理的过程为：

1)利用预加重的函数式提高声纹信号：

h(z)＝1-az^-1

其中：

z为待识别的声纹信号；

a为预加重系数，本发明将其设为0.912；

2)利用汉明窗对所述声纹信号进行加窗处理，所述汉明窗的时域表达式为：

其中：

n为待识别声纹信号的帧数；

n为待识别声纹信号的总帧数。

s4、利用基于毛细胞函数的声纹特征提取算法提取经预处理的声纹信号的声纹特征，得到待识别声纹信号的声纹特征。

进一步地，本发明利用基于毛细胞函数的声纹特征提取算法提取待识别声纹信号的特征，所述基于毛细胞函数的声纹特征提取算法流程为：

1)利用毛细胞函数对经预处理的声纹信号进行处理：

h(a，b)＝[h(a，b)]²

其中：

h(a，b)为经预处理的声纹信号；

2)利用滤波器对毛细胞函数进行响应，得到每个毛细胞的输出：

其中：

d表示第i频带毛细胞函数的窗长；

τi为第i个滤波器中心频率的时间长度；

l为帧移；

3)将毛细胞函数的输出进行基于响度函数的立方根尺度变换，由能量值变为感知响度，其计算公式为：

y(i，j)＝[s(i，j)]^1/3

4)采用离散余弦变换进行去相关处理，得到声纹特征为：

其中：

m表示滤波器的个数；

i表示第i频带；

n表示声纹信号在n点的采样。

s5、利用能量算子提取声纹特征中的能量参数，并利用对数似然比算法进行声纹的识别。

进一步地，对于上述声纹特征f(i，n)，本发明利用能量算子提取声纹特征中的能量参数，所述能量参数的提取公式为：

ψ[f(i，n)]＝[f(i，n)]²-f(i，n+1)f(i，n-1)

其中：

i表示声纹信号的第i频带；

n表示声纹信号在n点的采样；

进一步地，本发明对所述能量参数进行归一化处理并取对数：

其中：

ψ[f(i，n)]表示第i频带的声纹信号，在n点的能量参数。

进一步地，本发明利用对数似然比算法进行能量参数相似度的比较，所述对数似然比的公式为：

其中：

hs，hd分别为本发明计算得到的声纹特征，以及系统数据存储的说话人的声纹特征；

为待识别声纹的能量参数；

y为待识别声纹的声纹信号；

将得到的能量参数与系统数据存储中说话人的声纹特征进行相似度的计算，选择相似度最高说话人信息的作为返回的结果，最后如果相似度小于预设的预定值，那么就判定此人的语音不在事先存储的数据中。

下面通过一个算法实验来说明本发明的具体实施方式，并对发明的处理方法进行测试。本发明算法的硬件测试环境如下：处理器为intel(r)core(tm)i5-8700cpu8核，显卡为geforcegtx1060，显存8g，开发环境为matlab；对比算法为mfcc、gmm和dfcnn算法。

在本发明所述算法实验中，实验选择由2个麦克风实际采集的混合语音信号，采样频率为16khz，麦克间距为10cm，各声源距离麦克风约1m～2m间不同位置，选择6名说话人(3名男性和3名女性)，并随机构成2名或3名说话人的混合语音，从中选择5个混合语音作为实验语音。本发明将对比算法以及本发明所提出的算法对实验语音进行识别，并将识别准确率作为算法的评价标准。

根据实验结果，mfcc算法的声纹识别结果正确率为86.18％，gmm算法的声纹识别结果正确率为75.61％，dfcnn算法的声纹识别结果正确率为90.03％，本发明所述算法的声纹识别结果正确率为93.12％，相较于对比算法，本发明所提出的语音识别方法具有更高的语音识别正确率。

发明还提供一种基于wt的声纹识别系统。参照图2所示，为本发明一实施例提供的基于wt的声纹识别系统的内部结构示意图。

在本实施例中，所述基于wt的声纹识别系统1至少包括声纹获取装置11、声纹处理器12、声纹识别装置13，通信总线14，以及网络接口15。

其中，声纹获取装置11可以是pc(personalcomputer，个人电脑)，或者是智能手机、平板电脑、便携计算机等终端设备，也可以是一种服务器等。

声纹处理器12至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，sd或dx存储器等)、磁性存储器、磁盘、光盘等。声纹处理器12在一些实施例中可以是基于wt的声纹识别系统1的内部存储单元，例如该基于wt的声纹识别系统1的硬盘。声纹处理器12在另一些实施例中也可以是基于wt的声纹识别系统1的外部存储设备，例如基于wt的声纹识别系统1上配备的插接式硬盘，智能存储卡(smartmediacard,smc)，安全数字(securedigital,sd)卡，闪存卡(flashcard)等。进一步地，声纹处理器12还可以既包括基于wt的声纹识别系统1的内部存储单元也包括外部存储设备。声纹处理器12不仅可以用于存储安装于基于wt的声纹识别系统1的应用软件及各类数据，还可以用于暂时地存储已经输出或者将要输出的数据。

声纹识别装置13在一些实施例中可以是一中央处理器(centralprocessingunit,cpu)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行声纹处理器12中存储的程序代码或处理数据，例如声纹识别程序指令等。

通信总线14用于实现这些组件之间的连接通信。

网络接口15可选的可以包括标准的有线接口、无线接口(如wi-fi接口)，通常用于在该系统1与其他电子设备之间建立通信连接。

可选地，该系统1还可以包括用户接口，用户接口可以包括显示器(display)、输入单元比如键盘(keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organiclight-emittingdiode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在基于wt的声纹识别系统1中处理的信息以及用于显示可视化的用户界面。

图2仅示出了具有组件11-15以及基于wt的声纹识别系统1，本领域技术人员可以理解的是，图1示出的结构并不构成对基于wt的声纹识别系统1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在图2所示的装置1实施例中，声纹处理器12中存储有基于wt的声纹识别程序指令；声纹识别装置13执行声纹处理器12中存储的声纹识别程序指令的步骤，与基于wt的声纹识别方法的实现方法相同，在此不作类述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有声纹识别程序指令，所述声纹识别程序指令可被一个或多个处理器执行，以实现如下操作：

采用麦克风阵列对待识别声纹信号进行采集；

利用基于相位变换的声源分离算法对待识别声纹信号进行滤波处理；

利用基于小波阈值的去噪算法对经滤波处理的声纹信号进行降噪处理，得到降噪后的声纹信号；

对降噪后的待识别声纹信号进行预加重和加窗的预处理；

利用基于毛细胞函数的声纹特征提取算法提取经预处理的声纹信号的声纹特征，得到待识别声纹信号的声纹特征；

利用能量算子提取声纹特征中的能量参数，并利用对数似然比算法进行声纹的识别。

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：汪金玲
技术所有人：汪金玲
我是此专利的发明人