一种基于相关系数的动态分割逆离散余弦变换倒谱系数的音声特征提取算法的制作方法

文档序号：18089141发布日期：2019-07-06 10:40阅读：314来源：国知局

本发明属于音声特征提取技术领域，将无监督聚类分析算法运用到音声特征提取方向，特别涉及一种基于相关系数的动态分割逆离散余弦变换倒谱系数的音声特征提取算法。

背景技术：

说话人识别技术包括特征提取和建模识别两部分。特征提取是说话人识别技术中的关键步骤，将直接影响到语音识别系统的整体性能。一般情况，语音信号经过分帧和加窗预处理过后，会产生大量高维度的数据，在提取说话人特征时，就需要通过去除原来语音中的冗余信息来降低数据维度。现有方法会使用mel尺度的三角形滤波器组滤波，将语音信号转换为满足特征参数要求的语音特征向量、并能够符合近似人耳听觉感知特性以及在一定程度上能够增强语音信号和抑制非语音信号。常用的特征参数有：

线性预测分析系数是模拟人类的发声原理，通过分析声道短管级联的模型而得到的特征参数；感知线性预测系数是基于听觉模型通过计算应用到频谱分析中，将输入语音信号经过人耳听觉模型处理，替代线性预测编码lpc所用的时域信号的等效于lpc的全极点模型预测多项式的特征参数；tandem特征和bottleneck特征是利用神经网络提取的两类特征；基于滤波器组的fbank特征相当于mfcc去掉最后一步的离散余弦变换，跟mfcc特征相比保留了更多的原始语音数据；线性预测倒谱系数是基于声道模型丢弃了信号生成过程中的语音激励信息而用十多个倒谱系数代表共振峰的特性的重要特征参数；语音特征参数mfcc作为最广泛的语音特征参数，该提取过程为首先对语音进行预加重、分帧、加窗、加速傅里叶变换等预处理，然后将能量谱通过一组mel尺度的三角形滤波器组进行滤波，计算每个滤波器组输出的对数能量经离散余弦变换(dct)得到mfcc系数，求出mel-scalecepstrum参数再提取动态差分参数即梅尔倒谱系数。2012年s.al-rawahya等人参考mfcc特征提取方法，对语音预处理后得到的dct倒谱系数进行等频域分割，提出histogramdct倒谱系数的方法。

我们发现等频域分割倒谱系数会忽略音声数据本身相邻列之间的动态特性，因此本发明在此基础上提出一种新的音声特征提取算法即基于相关系数的动态分割逆离散余弦变换倒谱系数的方法，结合无监督学习利用层次聚类方法将音声数据根据其动态特征的相似性进行聚类分析，从而提取出更能描述音声特性的动态特征向量。

s.al-rawahya等人在2012年研究发现了dctcepstrum这个新的特征，他们提出的基于等频域dctcepstrum系数的音声特征提取算法。将预处理后的音声信号转换成频域，即将预处理后的音声信号从时域卷积转换为频域谱乘法形式，对其取对数，得到的分量以相加形式表示，得到离散余弦变换倒谱系数(dctcepstrum系数)。dct倒谱系数以非线性增量记录频率范围的周期性，在0hz-600hz频域间以每50hz分割频域特征区间，在600hz-1000hz频域间以每100hz分割频域特征区间该过程可以看作是给定语音信号中频率范围周期数的计数。比mfcc特征提取方法更简单、更快捷。

皮尔逊相关系数(pearsoncorrelationcoefficient)，又称皮尔逊积矩相关系数(pearsonproduct-momentcorrelationcoefficient，简称ppmcc或pccs)，是用于度量两个变量x和y之间的相关性，其值介于-1与1之间。

技术实现要素：

本发明的目的主要是针对基于等频域分割逆离散余弦变换倒谱系数的音声特征提取算法中分割频率的不准确性，提出一种基于相关系数的动态分割逆离散余弦变换倒谱系数的音声特征提取算法。本发明采用的技术手段如下：

一种基于相关系数的动态分割逆离散余弦变换倒谱系数的音声特征提取算法，具有如下步骤：

s1、对音声信号进行预处理：

对音声信号依次进行预加重、分帧和加窗处理；

通过预处理来消除因为人类发声器官本身和由于采集音声信号的设备带来的混叠、高次谐波失真、高频等因素对音声信号质量的影响来保证后续处理得到的信号更均匀、平滑，为音声特征提取提供优质的参数，提高后续处理质量。

s2、对预处理后的音声信号进行从时域到频域的变换形式处理：

预处理后的音声信号转换成频域，即将预处理后的音声信号从时域卷积转换为频域谱乘法形式，对其取对数，得到的分量以相加形式表示，得到逆离散余弦变换倒谱系数(idctcepstrum系数)，具体过程通过以下公式进行：

c(q)＝idct{log|dct{x(k)}|}

其中，dct和idct分别是离散余弦变换和逆离散余弦变换，x(k)为经过预处理后的音声信号，c(q)为变换后的输出信号，即逆离散余弦变换倒谱系数；

逆离散余弦变换倒谱系数是一个数据矩阵，由于音声固有的频率属性，在进行层次聚类的时候所有列属性是相同的，各列之间的相对位置是不能改变的，所以我们通过计算各相邻列属性的相似度并对相似最高的相邻两列合并，进行依次聚类。

s3、利用聚类分析算法，计算步骤s2得到的逆离散余弦变换倒谱系数矩阵相邻列之间的相似度，并把相关系数向量求和最大的相邻列合并；迭代以上过程，直至合并至14列即得到14类，得到的基于相关系数的动态分割逆离散余弦变换倒谱系数即为音声特征。

所述预加重通过数字滤波器实现，具体过程通过以下公式进行：

y(n)＝x(n)-ax(n-1)；

其中，y(n)是预加重后的输出信号，x(n)输入的音声信号，a为预加重系数，n为时刻。

音声信号的平均功率谱受声门激励和口鼻辐射的影响，高频端大约在800hz以上按6db/oct(倍频程)衰减，频率越高相应的成分越小，为此要在对音声信号进行分析之前对其高频部分加以提升。

贯穿于音声分析全过程的是“短时分析技术”。音声信号具有时变特性，但是在一个短时间范围内(一般在10～30ms的短时间内)，其时变特性基本保持不变即相对稳定，因而可以将其看作是一个准稳态过程，即音声信号具有短时平稳性。所以任何音声信号的分析和处理必须建立在“短时”的基础上，即进行“短时分析”，将音声信号分段来分析其特征参数，其中每一段称为一“帧”，帧长一般取10～30ms。这样，对于整体的音声信号来讲，分析出的是由每一帧特征参数组成的特征参数时间序列。

所述分帧为将所述预加重后的输出信号分段为20ms一帧。

分帧处理后还要对其进行加窗处理，加窗的目的可以认为是使语音信号全局更加连续，避免出现吉布斯效应，使原本没有周期性的语音信号呈现出周期函数的部分特征。所述加窗为汉明窗加窗。

所述变换形式为倒谱变换。

所述聚类分析算法为层次分析算法。

所述计算相似度为计算皮尔逊积矩相关系数，则所述步骤s3的具体步骤为：

矩阵a代表步骤s2求得的单个人m*n维的逆离散余弦变换倒谱系数，把逆离散余弦变换倒谱系数的每一维向量v1，v2…vn看成n类，求得vi和vi+1的皮尔逊相关系数为：

下面为聚类分析的具体步骤：

第一次聚类：

l1＝r(v1,v2)

l2＝r(v2,v3)

l3＝r(v3,v4)

…

ln-1＝r(vn-1,vn)

设第一个说话者逆离散余弦变换倒谱系数聚类后各列的相关系数向量表示为p1＝(l1,l2,l3,...,ln-1)，则第m个说话者逆离散余弦变换倒谱系数聚类后各列的相关系数向量表示为pm，对所有说话者的相关系数向量求和：

如果i＝argmin(l1,...,ln-1)，则聚类结果为：

(v1),(v2),...,(vi+vi+1),...,(vn)，即

对所有说话者逆离散余弦变换倒谱系数相关系数向量更新：

li-1＝r(vi-1,(vi+vi+1))

li＝r((vi+vi+1),vi+2)

li+1＝li+2

…

ln-2＝ln-1

deleteln-1

第二次聚类：

如果j＝argmin(l1,...,ln-2)，则聚类结果为：

(v1),(v2),...,(vi+vi+1),...,(vj+vj+1),...,(vn)，即

再次更新：

lj-1＝r(vj-1,(vj+vj+1))

lj＝r((vj+vj+1),vj+2)

lj+1＝lj+2

…

ln-3＝ln-2

deleteln-2

以此类推进行层次聚类直至最后聚类结果为14类，得到的基于相关系数的动态分割逆离散余弦变换倒谱系数即为音声特征，将该音声特征放入gmm模型中进行识别来判断该算法的可行性。。

本发明与现有技术相比有以下优点：

第一，由于本发明通过深入分析的等频域分割dctcepstrum系数的音声特征提取算法的性质，完善了现有技术没有充分利用s2步骤处理后信号本身所具有的类间相似性特征，使本发明具有更广泛的适应性，且在说话人识别上可以获得更高的识别精度。

第二，本发明把无监督聚类分析应用到音声特征提取上，使得本发明具有流程简明，速度快捷，占用计算资源少的优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的具体实施方式中基于相关系数的动态分割逆离散余弦变换倒谱系数的音声特征提取算法的流程图。

图2是本发明的具体实施方式中逆离散余弦变换倒谱系数聚类分析过程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种基于相似性计算的动态分割逆离散余弦变换倒谱系数的音声特征提取算法，具有如下步骤：

s1、对音声信号进行预处理：

对音声信号依次进行预加重、分帧和加窗处理；

所述预加重通过数字滤波器实现，具体过程通过以下公式进行：

y(n)＝x(n)-ax(n-1)；

其中，y(n)是预加重后的输出信号，x(n)为输入的音声信号，a为预加重系数，n为时刻，本文a取值为0.97。

所述分帧为将所述预加重后的输出信号分段为20ms一帧。

所述加窗为汉明窗加窗。

s2、对预处理后的音声信号进行从时域到频域的变换形式处理：

c(q)＝idct{log|dct{x(k)}|}

其中，dct和idct分别是离散余弦变换和逆离散余弦变换，x(k)为经过预处理后的音声信号，c(q)为变换后的输出信号，即逆离散余弦变换倒谱系数；

s3、利用聚类分析算法，计算步骤s2得到的逆离散余弦变换倒谱系数矩阵相邻列之间的相似度，并把相关系数向量求和最大的相邻列合并；迭代以上过程，直至合并至14列即得到14类，得到的基于相关系数的动态分割逆离散余弦变换倒谱系数即为音声特征，具体步骤如下：

矩阵a代表步骤s2求得的单个人m*n维的逆离散余弦变换倒谱系数，如图2所示，把逆离散余弦变换倒谱系数的每一维向量v1，v2…vn看成n类，求得vi和vi+1的皮尔逊相关系数为：

下面为聚类分析的具体步骤：

第一次聚类：

l1＝r(v1,v2)

l2＝r(v2,v3)

l3＝r(v3,v4)

…

ln-1＝r(vn-1,vn)

如果i＝argmin(l1,...,ln-1)，则聚类结果为：

(v1),(v2),...,(vi+vi+1),...,(vn)，即

对所有说话者逆离散余弦变换倒谱系数相关系数向量更新：

li-1＝r(vi-1,(vi+vi+1))

li＝r((vi+vi+1),vi+2)

li+1＝li+2

…

ln-2＝ln-1

deleteln-1

第二次聚类：

如果j＝argmin(l1,...,ln-2)，则聚类结果为：

(v1),(v2),...,(vi+vi+1),...,(vj+vj+1),...,(vn)，即

再次更新：

lj-1＝r(vj-1,(vj+vj+1))

lj＝r((vj+vj+1),vj+2)

lj+1＝lj+2

…

ln-3＝ln-2

deleteln-2

以此类推进行层次聚类直至最后聚类结果为14类，得到的基于相关系数的动态分割逆离散余弦变换倒谱系数即为音声特征，将该音声特征放入gmm模型中进行识别来判断该算法的可行性。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李铁山;贺培超;刘君霞;左毅;陈俊龙;肖杨;马赫;艾佳琪
技术所有人：大连海事大学
我是此专利的发明人

上一篇：一种电动牙刷的制作方法
上一篇：一种牦牛养殖场用清扫装置的制作方法