针对老年性聋的数字助听器语音时长拉伸方法

文档序号：2820200阅读：418来源：国知局

专利名称：针对老年性聋的数字助听器语音时长拉伸方法
技术领域：
本发明属于语音信号处理领域，涉及一种数字助听设备的语音时长拉伸方法，具体涉及适用于老年性聋的数字助听器语音时长拉伸方法。
背景技术：
言语交流是人类社会的基本交流方式，也是个人基本生活能力之一。然而对于那些耳聋患者，由于听力下降而导致的言语交流障碍严重影响了他们的生活质量。这不仅给其本人和家庭带来了巨大的痛苦，同时也给整个社会增加了负担。在众多的耳聋患者中，老年性听力损失人士为数最多。
随着医疗保健事业的发展和物质文化生活水平的提高，人类的平均寿命不断延长，从而使老龄人口逐渐增多，并以每月100多万的速度增长，目前全世界60岁以上的老龄人口已达到6亿左右。有关统计资料显示，我国60岁以上的老龄人口有1.3亿。随着老龄化社会的到来，老年人的听力健康日益引起全社会的关注。老年性听力损失与耳病已成为影响老年人晚年生活质量的重要因素，根据有关流行病学调查资料，老年性耳聋的发病率很高，美国报告的是30％～40％，国内报告的数据各家不同，约在35.1％至76.6％之间。这些老年人深受听力损失与耳病的困扰。因此，老年性听力障碍是需要我们认真对待的重要社会问题之一。
老年性耳聋是由于年龄增长使听觉器官衰老、退变而出现的双耳对称、缓慢进行性的感音神经性听力减退，它是生理性老化过程。老年性聋患者一般表现为对低声听不清，对高声又耐受不了，对缓慢简单的语言尚能理解，若讲话速度快或环境噪声较强，即感到领会困难。老年性聋患者有一个显著的特征纯音听力与言语听力相关度不高，多数为纯音听力损失轻而言语理解能力差，即言语接受阈比言语区纯音平均听阈要高。引起上述现象发生的原因较为复杂，目前的研究对其了解还不是很多，但是老年人感知能力缓慢已被认为是可能的原因之一。具体表现为，在语音速率较快时，老年人受到的影响比年轻人更大，其语音可懂度下降更加明显，往往听到了声音，却听不懂言语；当说话人减缓语速时，在其它情况不变的情况下，老年听众的语音可懂度就会有所提高。
现有的助听器，多采用自动增益控制或多带动态范围压缩技术来补偿患者的听力损失。这些技术完全从聋人的纯音听阈出发，计算输入信号的增益，放大声音到聋人的可听范围之内，从而让聋人听到声音。这些解决了聋人听阈上升，痛阈变化不大，因而整个听力范围变窄的问题。但是正如前文所述，老年性聋患者纯音听力与言语听力相关度不高，通过自动增益控制或多带动态范围压缩技术弥补了其纯音听力下降的问题，一定程度上也有助于提高其言语听力，但效果有限。
显然，提高聋人的言语可懂度才是助听器设计的最终目的。针对老年人的特殊性，如何设计更为有效的技术提高其语音可懂度，是我们将要解决的问题。另一方面，语音的动态特性决定了助听器中的信号处理技术应该具有实时处理的能力，这也是我们技术设计中需要考虑的问题。

发明内容
本发明提出了一种语音时长拉伸方法，它应用在数字助听器中，解决了老年性聋患者由于感知能力缓慢，导致语音可懂度下降的问题。
本发明采用语音时长拉伸方法，在不改变采样率和基音周期的情况下，通过复制、插入整周期的基音信号，扩展浊音信号的波形，以降低输入语音的速率，提高老年性聋患者的语音可懂度。具体技术包括能量比较，基音周期检测，波形扩展等等，下面将分别介绍各个技术内容。
1.能量比较将输入信号分帧，如每48ms为一帧；通过计算每一帧的能量，并且和不断更新的阈值作比较，确定当前帧信号是浊音、静音还是清音。当帧信号为浊音时，扩展语音波形，达到拉伸语音时长的目的；当帧信号为静音，且连续静音长度超过一定时间长度(如1秒)时，缩短静音长度，弥补由于语音时长拉伸产生的信号延时；当帧信号为清音时，原样输出该帧信号，以避免由于扩展低能量的清音引起额外的信号失真。
2.基音周期检测当输入信号判为浊音时，检测信号的基音周期。基音周期检测是后续波形扩展的必要步骤，波形扩展将根据检测到的浊音信号的基音周期，进行复制、插入、叠加。
基音周期检测采用传统的自相关方法，计算当前帧信号的自相关函数，其最大值所对应的位置即为当前信号的基音周期。为了更加准确的求解基音的周期，信号通过低通FIR滤波器滤除高频成分。
3.波形扩展波形扩展主要是完成基音周期信号的复制、插入和叠加的工作。
波形扩展主要包括三个部分1)原样输出之前的信号波形；2)插入复制的基音周期；3)原样输出之后的信号波形。
为了克服插入周期信号时引入的失真，插入的基音周期和相邻的前后周期信号加三角窗。
以上详细介绍了算法各技术成分的内容，所有算法都在数字助听器的DSP芯片中完成。
本发明中采用的方法有效的解决了老年性聋患者感知能力缓慢，在语音速率较快时，语音可懂度明显下降的问题。其优点体现在拉长了语音信号的持续时间，降低了语音的速率，这些都是在不改变采样率和基音周期的情况下完成的，因而引入的失真较小。这种方法有助于提高老年性聋患者的语音可懂度。

下面结合附图对本发明进一步详细地说明图1是语音时长拉伸方法流程图；图2是原始语音和处理后的语音；图3是数字助听器的开放式DSP平台。
具体实施例方式
下面参照本发明的附图，更详细地描述本发明的最佳实施例。
本发明中实现了一个采用语音时长拉伸方法的数字助听器。该系统构建在通用的DSP平台上，采用TI公司的TMS320VC5509来完成整个算法，系统采样率16kHz，16bit量化，如图3所示。
以下详细介绍设计中所采用的主要技术，包括能量比较，基音周期检测，波形扩展等等。
1.能量比较输入信号每48ms为一帧，通过计算每一帧的能量，并且和阈值作比较，确定当前帧信号是浊音、静音还是清音。当帧信号为浊音时，扩展语音波形，达到拉伸语音时长的目的；当帧信号为静音，且连续静音长度超过1s时，缩短静音长度，弥补由于语音时长拉伸产生的信号延时；当帧信号为清音时，原样输出该帧信号，以避免由于扩展低能量的清音引起额外的信号失真。阈值设定如下Th＝a×|Pmax-Pmin|+Pmin(1)To=a2×|Pmax-Pmin|+Pmin---(2)]]>其中Pmax和Pmin分别是当前帧信号之前3秒语音的最大和最小帧能量，系数a＝0.2，由实验测得。输入帧信号能量大于Th时，判为浊音；小于To时，判为静音；其他情况，判为清音。
2.基音周期检测当输入信号为浊音时，检测信号的基音周期。基音周期检测是后续波形扩展的必要步骤，波形扩展将根据检测到的浊音信号的基音周期，进行复制、插入、叠加。基音周期检测采用了自相关方法Ac(n)=Σj=0LY(n+j)Y(j)---(3)]]>其中Ac(n)为自相关函数，Y(j)为一帧信号各点的值，L为帧长，自相关函数最大值所对应的位置n即为当前信号的基音周期。
为了去除高频信号的干扰，提高基音周期的检测准确度，输入的各帧信号首先经过一个低通的FIR滤波器，其截止频率420Hz，高于可能的基音周期的频率。
Y(j)=Σi=0Lh(i)y(j+i)---(4)]]>h(i)为滤波器系数，y(j+i)为一帧信号各点的值。
3.波形扩展波形扩展主要是完成基音周期信号的复制、插入和叠加的工作，主要包括三个部分1)原样输出插入点之前的信号波形；2)插入复制的基音周期；3)原样输出插入点之后的信号波形。
例如，当插入一个基音周期的信号，扩展原始长度为(2+n)个基音周期的浊音信号，到(3+n)个基音周期的浊音信号时，输出信号Xo(i)如下Xo(i)=x(i)0≤i<Lp1)i-Lp2Lpx(i-Lp)+(1-(i-Lp)2Lp)x(i)Lp≤i<3Lp2)x(i-Lp)3Lp≤i<(3+n)Lp3)---(5)]]>1)、2)、3)分别对应前面的三个部分，为了防止插入整基音周期信号时，引入信号失真，插入的基音周期信号和相邻的前后周期信号需要加三角窗，如(5)式中的2)所示。
尽管为说明目的公开了本发明的具体实施例和附图，其目的在于帮助理解本发明的内容并据以实施，但是本领域的技术人员可以理解在不脱离本发明及所附的权利要求的精神和范围内，各种替换、变化和修改都是可能的。因此，本发明不应局限于最佳实施例和附图所公开的内容。
权利要求
1.一种针对老年性聋的数字助听器语音时长拉伸方法，具体包括以下步骤1)将输入信号分帧，计算每一帧的能量，并且和阈值作比较，确定当前帧信号是浊音、静音还是清音；当帧信号为浊音时，扩展语音波形；当帧信号为静音，且连续静音长度超过一定时间长度时，缩短静音长度；当帧信号为清音时，原样输出该帧信号；2)当输入信号判为浊音时，检测信号的基音周期；3)进行波形扩展，波形扩展主要是完成基音周期信号的复制、插入和叠加的工作。
2.如权利要求1所述的针对老年性聋的数字助听器语音时长拉伸方法，其特征在于基音周期检测采用自相关方法，计算当前帧信号的自相关函数，其最大值所对应的位置即为当前信号的基音周期。
3.如权利要求1所述的针对老年性聋的数字助听器语音时长拉伸方法，其特征在于，波形扩展主要包括三个部分1)原样输出插入点之前的信号波形；2)插入复制的基音周期；3)原样输出插入点之后的信号波形。
4.如权利要求2所述的针对老年性聋的数字助听器语音时长拉伸方法，其特征在于信号在基音周期检测前，通过低通FIR滤波器滤除高频成分。
5.如权利要求3所述的针对老年性聋的数字助听器语音时长拉伸方法，其特征在于插入的基音周期信号和相邻的前后周期信号加三角窗。
6.如权利要求1所述的针对老年性聋的数字助听器语音时长拉伸方法，其特征在于步骤1)中的阈值不断更新。
7.如权利要求1所述的针对老年性聋的数字助听器语音时长拉伸方法，其特征在于步骤1)中的阈值设定如下Th＝a×|Pmax-Pmin|+PminTo=a2×|Pmax-Pmin|+Pmin]]>其中Pmax和Pmin分别是当前帧信号之前3秒语音的最大和最小帧能量，a为系数由实验测得；输入帧信号能量大于Th时，判为浊音；小于To时，判为静音；其他情况，判为清音。
全文摘要
本发明提出了一种语音时长拉伸方法，它应用在数字助听器中，解决了老年性聋患者由于感知能力缓慢，导致语音可懂度下降的问题。本发明采用语音时长拉伸方法，在不改变采样率和基音周期的情况下，通过复制、插入整周期的基音信号，扩展浊音信号的波形，以降低输入语音的速率，提高老年性聋患者的语音可懂度。具体技术包括能量比较，基音周期检测，波形扩展等。本发明中采用的方法有效的解决了老年性聋患者感知能力缓慢，在语音速率较快时，语音可懂度明显下降的问题。其优点体现在拉长了语音信号的持续时间，降低了语音的速率，这些都是在不改变采样率和基音周期的情况下完成的，因而引入的失真较小。
文档编号G10L19/00GK1870134SQ20051001178
公开日2006年11月29日申请日期2005年5月24日优先权日2005年5月24日
发明者迟惠生, 吴玺宏, 罗定生申请人:北京大学科技开发部

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：迟惠生;吴玺宏;罗定生
技术所有人：北京大学科技开发部
我是此专利的发明人

上一篇：基于掩蔽曲线的数字助听器频响补偿方法
上一篇：一种电话连续语音识别系统性能的评测方法及其系统的制作方法