一种得到具有精细时频结构的声纹图的方法

文档序号：2822365阅读：1285来源：国知局

专利名称：一种得到具有精细时频结构的声纹图的方法
技术领域：
本发明涉及一种语音信号的时频分析方法，尤其是一种得到具有精细时频结构的
声纹图的方法。
背景技术：
声纹图也称为语谱图，简称谱图，1941年由贝尔实验室研究人员发明，它用三维或二维图形方式显示语音频谱特性，纵轴表示频率，横轴表示时间，颜色的深浅表示特定频带的能量大小。最早的模拟语谱图仪器是把声波转换成电信号的强度、波长、频率和节奏，再把这些电信号绘制成波谱图形。目前使用的语谱图分为宽带(短窗)语谱图和窄带(长窗)语谱图两种。这两种语谱图都是基于短时傅立叶变换方法得到的，而短时傅里叶变换假定在分析窗内语音信号是平稳的，通过在时间轴上移动分析窗来得到一组局部时频图。但是对于具有明显时变特性的语音信号来说，取较短的分析窗，即使用宽带语谱图(带宽约为300Hz)较合理，故宽带语谱图具有良好的时间分辨率，但是频率分辨率较差；相反，如果使用较长的分析窗，即窄带语谱图(带宽约为45Hz)，具有良好的频率分辨率，但是时间分辨率较差。所以，受不确定性原理限制，不能同时提高时间分辨率和频率分辨率，目前只能同时使用宽带和窄带语谱图。基于短时傅里叶变换的语谱图，在时频平面对能量分布的描述是粗糙的。非线性时频分析是描述非平稳语音信号的有效方法，其中维格那-威利分布(Wigner-VilleDistribution, WVD)作为典型的时频分布，具有最好时频聚集性，其时间频宽积已达到了不确定性原理的下界，即WVD具有最好的时频分辨率。但由于它是一种双线性变换，多分量信号的WVD中存在交叉项，交叉项干扰了信号原本固有的时频结构。语音是非平稳、多分量的、实值信号，其WVD无法提供反映语音非平稳特征的时频结构，因此，基于非线性时频分析方法也不能提供有效的声纹图。人类的发声系统系统由发声控制器和发声共鸣器等组成，发声控制器官包括声带、软颚、舌头、牙齿、唇等，而发声共鸣器包括咽腔、口腔、鼻腔。由于人的发声器官存在着大小、形态及功能上的差异，这些器官的微小差异都会导致发声气流的改变，从而造成音质和音色的差别。此外，每个人的发声习惯有快有慢，用力有大有小，也会造成音强和音长的差别，所以，语音是人类的生物特征之一。语谱图中每一字的声纹前部是清辅音的频谱，后部是元音频谱；元音频谱由加强的纵线条构成，水平方向的黑带为共振峰，共振峰的数量、走向及其频率是声纹分析的重要特征。因此对语谱图的分析，可以进行声纹鉴定。而声纹鉴定正广泛应用于当今社会的诸多领域。

发明内容
本发明的目的是克服现有技术中存在的不足，提供一种得到具有精细时频结构的声纹图的方法，得到反映语音信号固有的非平稳特征的精细时频结构的声纹图，为后续的声纹识别提供原始的、细腻的、丰富的语音特征。按照本发明提供的技术方案，所述得到具有精细时频结构的声纹图的方法，通过经验模态分解将信号自适应地分解为若干个固有模态函数之和，再对每个固有模态函数进行Hilbert变换得到瞬时幅度和瞬时相位，进而得到反映信号幅值随随时间和频率的变化规律的Hilbert谱；在时频平面将所述Hilbert谱以三维图形画出，得到具有精细时频结构的声纹图。所述经验模态分解的方法为 (1)求原始信号序列x(t)的各个局部极大值，用三阶样条函数进行插值，得到信号x(t)的上包络线序列值e^(t)和下包络线序列值e^(t); (2)对每个时刻的上包络线序列值e,(t)和下包络线序列值e^(t)取平均值，得到包络线的瞬时平均值m(t) 附("-e鹏(0+eminW" 2 (3)对信号x(t)去均值处理，得到去均值曲线h(t)
h(t) = x(t)-m(t) 如果原始数据是对称的那么去均值曲线h(t)是一个常数，否则去均值曲线h(t)是时变的； (4)判断去均值曲线是否为固有模态函数曲线如果去均值曲线h(t)中跨零点的数目和极值点的数目相等或至多相差一个，并且各个瞬时平均值m(t)都等于零，那么均值曲线h(t)就是固有模态函数；否则，均值曲线h(t)就不是固有模态函数，此时需要把均值曲线h(t)当作原始序列，重复步骤l-4直至满足固有模态函数所满足的条件、求出固有模态函数为止； (5)第一个固有模态函数q(t)求出后，用原始信号x(t)减去第一个固有模态函数q(t)可得到剩余值序列巧(t):
巧(t) = x(t)-cjt) 然后，把巧(t)作为一个新的原始序列按照步骤1-4，依次提取直至第n个固有模
态函数 (t)，使rn(t)变成一个单调序列为止。 (6)将信号x(t)表示为一系列固有模态函数与残差之和利用经验模态分解EMD完备性和正交性的特点，将分解后的各分量相加，重构出原始序列x(t) ^)-艺C,々)+r力)
z=i 。所述Hi lbert谱形成方法是 (1)对每个固有模态函数Ci (t)进行Hilbert变换得到 A(,)-丄「逃r (2)构造解析信号为^) = ^)+ ^(r) = a,々yA(() 其中瞬时幅值函数、瞬时相位函数、瞬时频率函数分别为 fl,(0"c,2+^)

6 (。
'" 必
(3)根据固有模态函数的瞬时幅度和瞬时频率，计算信号的Hilbert谱
J"
!■=1 RE代表取信号的实部。本发明的优点是本发明以声纹图(语谱图)形式显示时频分析结果，由于采用自适应信号分解方法，这种声纹图提供反映语音信号非平稳特点的精细时频结构，而现有的语谱图由于存在窗效应，不得不同时使用长窗语谱图和短窗语谱图来描述。具有精细时频结构的声纹图可进一步应用于说话人识别、声纹鉴定等。

图1是本发明整体技术方案流程图。图2是本发明提供的具有精细时频结构的声纹图。图3是宽带语谱图。图4是窄带语谱图。图5是基于WVD的声纹图。
具体实施例方式
下面结合附图和实施例对本发明作进一步说明。本发明采用一种新的具有自适应特性的时频分析方法——Hilbert-Huang变换，该方法包含两大部分，经验模态分解和 Hilbert谱分析。通过经验模态分解来提取语音信号固有的一系列模态函数，再对每个固有模态函数进行Hilbert变换得到瞬时幅度和瞬时相位，进而得到反映信号幅值随随时间和频率的变化规律的Hilbert谱。通过该方法得到的声纹图不含交叉项，也没有窗效应，更主要的是能提供反映语音非平稳特征的、具有精细时频结构的声纹图。通过经验模态分解将信号自适应地分解为若干个固有模态函数之和，由于它是基于信号的局部特征时间尺度的，使得分解得到的瞬时频率具有实际的物理意义，从而可以计算每一个固有模态函数的瞬时频率和瞬时幅值。经验模态分解过程基于如下的假设①
各种复杂的信号都是由一些不同的固有模态函数组成的，任何两个模态函数之间是相互独立的。②每一个固有模态函数的上、下包络线关于时间轴局部对称，在相邻的两个过零点之
间只有一个极值点，任何时刻一个信号可以包含许多的固有模态函数。③特征尺度定义为相邻极值点的时间跨度，经验模态分解本质是通过信号特征尺度来获取固有模态函数。
如图1所示，本发明包括如下步骤。
经验模态分解具体过程是 (1)求原始信号x(t)的各个局部极大值，用三阶样条函数进行插值，得到信号 x(t)的上包络线序列值e,(t)和下包络线序列值e^(t)。(2)对每个时刻的emax(t)和emin(t)取平均值，得到包络线的瞬时平均值m(t)
6
<formula>formula see original document page 7</formula>
(3)对原始信号x(t)去均值处理，得到去均值曲线h(t)
<formula>formula see original document page 7</formula> 传统信号处理中的去均值是将整个数据向下或向上移动一个常数，而在式(2)的均值曲线来源于原始数据的局部特征，因此减去的是一个与原始数据相匹配的均值曲线，如果原始数据是对称的那么该去均值曲线是一个常数，否则该均值曲线是时变的，这也是Hilbert-Huang变换的自适应性、非线性的具体表现。
(4)判断去均值曲线是否为固有模态函数曲线如果h(t)中跨零点的数目和极值点的数目相等或至多相差一个，并且各个瞬时平均值m(t)都等于零，那么h(t)就是固有模态函数。否则，h(t)就不是固有模态函数，此时需要把h(t)当作原始的数据序列，重复以上步骤(l)-步骤(4)，直至满足固有模态函数所满足的条件，求出固有模态函数为止。 (5)第一个固有模态函数q(t)求出后，用原序列减去cjt)可得到剩余值序列巧(t):<formula>formula see original document page 7</formula>
然后，把巧(t)作为一个新的原序列按照以上步骤步骤(l)-步骤(5)，依次提取直至第n个固有模态函数cn(t)，直到rn(t)变成一个单调序列为止。
(6)将信号表示为一系列固有模态函数与残差之和利用经验模态分解过程的完备性和正交性的特点，将分解后的各分量相加就可以重构出原始序列x(t):<formula>formula see original document page 7</formula>Hilbert谱形成过程是
(1)对每个固有模态函数Ci (t)进行Hilbert变换得到
<formula>formula see original document page 7</formula>
(2)构造解析信号为
其中瞬时幅值函数和瞬时相位函数为<formula>formula see original document page 7</formula>
进一步可求得瞬时频率
<formula>formula see original document page 7</formula>
(3)根据固有模态函数的瞬时幅度和瞬时频率，计算信号的Hilbert谱
H( M)= 叫(一
'=i (10) RE代表去信号的实部。Hilbert谱描述了信号幅值在整个频率段上随时间和频率
的变化规律。在时频平面上将Hilbert谱以三维图形画出，就可以得到具有精细时频结构的声纹图。本发明的一个具体实施例如下步骤1 :录制语音信号，必要时进行滤波处理，以WAV格式存放。步骤2 :对录制的语音信号进行固有模态分解，将语音信号表示为一系列固有模态函数之和。
步骤3 :根据固有模态函数求瞬时幅度和瞬时频率。
步骤4 :计算信号的Hilbert谱。步骤5 :在时频平面将Hilbert谱以三维图形画出，得到具有精细时频结构的声纹图。为了比较本发明的实际效果，以成年男声发英语的"five"为实验信号(该语音信号来自公开使用的语音数据库)。通过本发明方法得到具有精细时频结构的声纹图如附图 2所示。为了说明这种声纹图能够提供精细的时频结构，不存在窗效应，没有交叉项干扰，作出了同一信号的宽带语谱图(窗长为55)和窄带语谱图(窗长为115)分别如附图3和附图4所示，以及基于WVD的该信号的语谱图附图5所示，来进行比较。由图2可见，精细时频结构的声纹图提供了语音信号随着频率的瞬时变化过程，它是以一种轮廓或骨架图的形式描述信号能量的时频分布，图中颜色的深浅代表了能量的大小，由该图可知，该语音信号较强能量集中在0.2s-0.3s之间，所对应的频率在 500Hz-700Hz之间，图中每一条声纹表明一个频率分量的变化的信息，反映了信号的时频特征，如信号在时刻点的频率突变位置和主要频率成分等信息。不存在交叉项，具有很好的时频聚集性。使用窗长为55得到的宽带语谱图，时域分辨性好，但频域分辨率较低；而使用窗长为115得到的长窗语谱图，虽然使频率分辨率有所提高，但同时也降低了时间分辨率。这是因为短时傅里叶变换要受不确定原理的限制，时间和频率分辨率不能同时提高，必须同时使用宽带和窄带两个语谱图的原因。基于WVD原理得到的声纹图，其时频聚集性最高，但存在大量的交叉项，这些交叉项的存在干扰了语音信号真实的时频分析。
8
权利要求
一种得到具有精细时频结构的声纹图的方法，其特征是通过经验模态分解将信号自适应地分解为若干个固有模态函数之和，再对每个固有模态函数进行Hilbert变换得到瞬时幅度和瞬时相位，进而得到反映信号幅值随随时间和频率的变化规律的Hilbert谱；在时频平面将所述Hilbert谱以三维图形画出，得到具有精细时频结构的声纹图。
2. 如权利要求1所述的得到具有精细时频结构的声纹图的方法，其特征是所述经验模态分解的方法为(1) 求原始信号序列x(t)的各个局部极大值，用三阶样条函数进行插值，得到信号x(t)的上包络线序列值e,(t)和下包络线序列值e^(t);(2) 对每个时刻的上包络线序列值e^(t)和下包络线序列值e^(t)取平均值，得到包络线的瞬时平均值m(t)<formula>formula see original document page 2</formula>(3) 对信号x(t)去均值处理，得到去均值曲线h(t)<formula>formula see original document page 2</formula>如果原始数据是对称的那么去均值曲线h(t)是一个常数，否则去均值曲线h(t)是时变的；(4) 判断去均值曲线是否为固有模态函数曲线如果去均值曲线h (t)中跨零点的数目和极值点的数目相等或至多相差一个，并且各个瞬时平均值m(t)都等于零，那么均值曲线h(t)就是固有模态函数；否则，均值曲线h(t)就不是固有模态函数，此时需要把均值曲线h(t)当作原始序列，重复步骤l-4直至满足固有模态函数所满足的条件、求出固有模态函数为止；(5) 第一个固有模态函数q(t)求出后，用原始信号x(t)减去第一个固有模态函数Cl(t)可得到剩余值序列巧(t):<formula>formula see original document page 2</formula>然后，把A(t)作为一个新的原始序列按照步骤l-4，依次提取直至第n个固有模态函数 a)，使rn(t)变成一个单调序列为止。(6) 将信号x(t)表示为一系列固有模态函数与残差之和利用经验模态分解EMD完备性和正交性的特点，将分解后的各分量相加，重构出原始序列x a)<formula>formula see original document page 2</formula>
3. 如权利要求2所述的得到具有精细时频结构的声纹图的方法，其特征是所述Hilbert谱形成方法是(1) 对每个固有模态函数Ci(t)进行Hilbert变换得到<formula>formula see original document page 2</formula>(2) 构造解析信号为<formula>formula see original document page 2</formula>其中瞬时幅值函数、瞬时相位函数、瞬时频率函数分别为<formula>formula see original document page 3</formula>(3)根据固有模态函数的瞬时幅度和瞬时频率，计算信号的Hilbert谱<formula>formula see original document page 3</formula>RE代表取信号的实部。
全文摘要
本发明涉及语音信号一种时频分析方法，并以声纹图形式显示分析结果，提出了一种得到具有精细时频结构的声纹图的方法。由于采用自适应信号分解方法，这种声纹图提供反映语音信号非平稳特点的精细时频结构，而现有的语谱图由于存在窗效应，不得不同时使用长窗语谱图和短窗语谱图来描述。具有精细时频结构的声纹图可进一步应用于说话人识别、声纹鉴定等。
文档编号G10L19/00GK101727905SQ200910232048
公开日2010年6月9日申请日期2009年11月27日优先权日2009年11月27日
发明者于凤芹申请人:江南大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：于凤芹
技术所有人：江南大学
我是此专利的发明人

上一篇：10孔20音口琴的制作方法
上一篇：一种由时频原子聚合生成时频分子的方法