利用信号处理算法改善语音清晰度和听力舒适度的方法、设备和系统的制作方法

文档序号：7638945阅读：347来源：国知局

专利名称：利用信号处理算法改善语音清晰度和听力舒适度的方法、设备和系统的制作方法
技术领域：
本发明主要涉及生物工程学及医学领域，特别是涉及到利用信号处理算法改善听力受损者听力的方法、设备和系统。
关于政府资助的声明
本发明为在NIH/NIDCD津贴号为R01-DC-02267-07的政府资助下所作。政府在本发明中具有一定的权利。
背景技术：
传统助听器的功能为放大听觉信号，以使得听力受损者可听见声音。它的基本结构包括麦克风，放大器，接收器和电源。所述放大器为放大输入语音信号的主要元件。在过去五年里，数字信号处理(DSP)已被引入到助听器的设计中。当模拟语音信号被模数转换器转换为数字形式后，该信号在被转换回进入模拟域前能够被尖端的处理算法所处理。相较于标准模拟助听器，数字助听器在大范围内的参数增益、频响和压缩上提供更多和精确的控制。另外，这些设置能在每个频带单独编程。当前的数字助听器允许在助听功能上提供更详尽的控制，但它的一个也是唯一的功能就是放大信号。
在助听器设计中使用到了两类放大。线性放大器限制最大输出以避免削峰，当电信号超过了助听器电路中某些元件的最大输出，或当数字信号超过一个有限位所能够表示的最大数字时，发生该削峰现象。这种限制产生不同形式的畸变，降低了语音的清晰度和主观品质。当前的助听器使用非线性放大器，当输出或输入接近最大值时，所述非线性放大器降低增益。当输入或输出超过预定电平时，通过模拟电路或数字处理算法实现压缩以减少设备的增益。这种类型的放大导致听力受损患者具有较宽的动态范围，使得不刺耳的声音可以听见，而不让高声令人不适地刺耳。然而，幅值压缩也改变了原始语音信号的时域特性，并且可能会在语音清晰度方面带来副作用。我们将在我们的研究中展开这一点。
传统助听器并不为所有听力受损所用。传统助听器的主要功能为在人的听力阈值和响度容忍水平所约束的范围内放大语音信号，使其可听见。它们仅解决耳朵放大功能有缺陷时的听力损失问题，例如由于外毛细胞丧失和/或受损所导致的感觉神经听力损失。无论该仪器如何尖端，这种类型的助听器无法解决其他类型的听力损失的问题，例如肿瘤治理手术时的神经纤维切除时，为患者留下很少或不留下听力，或内毛细胞受损，神经病患者或脑干，这些类型不仅影响强度辨别，而且会导致声音畸变。
数字信号处理允许更复杂的算法，其可被用于补偿这些类型的听力损失。移频助听器即为这样的一个例子，设计用于帮助在高频下没有剩余听力的患者。高频语音声音被移频，递送至患者可能具有更多剩余听力和更可能能够使用该信息的低频范围。在这个移频流程中，高频辅音被挤压和移频至具有原始低频元音和未改变的辅音的低频范围。虽然原始输入变形了且产生了不自然的声音，但更多信息递送到可听见的频率范围，从而改善了使用者的知觉能力。
对具有听觉神经病变的患者而言，传统助听器和移频助听器都无法获取更多成就，这种最近发现的听觉障碍具有独一无二的病理和知觉上的结果。听觉
神经病变可涉及内毛细胞(IHC)损失，IHC神经突触的功能紊乱，神经中枢
脱髓鞘，轴突受损或以上任何的可能组合。临床上，这些病理可能混有包括外
毛细胞(OHC)的传统中枢系统的受损，和/或涉及脑干和皮层的中枢处理紊乱。由于一种可能的神经机制潜在的听觉神经病变(AN， Auditory Neuropathy)症状为听力神经纤维的失同步解除，听觉神经病变也被冠以术语"听觉神经病变"。听觉神经病变不仅导致听力衰减，而且会导致声音畸变，不能通过传统或移频助听器补偿。必须发展新的处理策略以矫正声音畸变的问题。
为调查声音畸变的根源，对于听觉神经病变者的临床和心理声学测试已展开。听觉神经病变者纯音听力敏度图显示出与正常的听力受损相反的整体趋势
-在低频具有高阈值，但在高频具有低的或相对正常的阈值，这暗示在高频放大能量或递送高频成分至低频范围可能没有帮助。来自时域调制传递函数
(TMTF)的测试结果显示出听觉神经病变患者比正常听觉和其它听力受损者具有较弱的时域调制辨识能力。它再次暗示了由于他们的时域调制退化无法得到补偿，传统助听器无法用于他们。另外，来自间隙检测试验的数据显示听觉神经病变比其它听力损伤具有更低的间隙辨识能力，暗示听觉神经病变患者具有受损的时域处理能力，其不能通过传统和移频助听器得以补偿。基于这些临床和心理声学数据可能发展新的策略，以解决听觉神经病变的声音畸变问题。
为帮助听觉神经病变患者听得更清楚已提出了不同策略。一种策略为在每个不同频带增加调制系数，以补偿由于听觉神经病变中听觉神经纤维的失同步解除所带来的时域调制损失。这可以在每个频带的每个提取出的包络线上实现，且通过在局部时域范围内直接增大波峰的幅值和降低波谷的幅值来实现。这种方法和传统助听器中使用的放大过程明显不同，传统助听器中使用的放大过程中波峰和波谷都被放大了。传统助听器保持了和在线性压缩中的原始信号相同的调制深度，或甚至在非线性压缩中减少了调制深度。在非线性压缩中，波峰的幅度与波谷的幅度不能以相同的比率放大，并且由于传统助听器所带来的时域调制的退化，可预测到更坏的性能。被提出的策略将沿相反方向改变波峰和波谷的幅度，增大每个频带的时域包络线中的起伏。大部分以前的研究证明幅度调制在语音清晰度中的重要性，但是据我们所知，提高调制还没有用于助听器技术和听觉神经病变。
除了补偿时域幅度调制缺陷以外，新策略还补偿听觉神经病变中低频的听力损失。基于心理声学的观察，听觉神经病变患者在低频下有极差的音高知觉，但在高频下具有相对正常的音高知觉，一种策略为滤除所有低频成分。基于这个个体听力敏度图，设置了高通滤波器的截止频率。这种假设为畸变的低频处理会混淆听觉神经病变患者在高频的音高知觉。一旦造成声音畸变的信号部分被移除，就能实现较髙的语音识别能力。
基于个体听力敏度图，另一种策略通过变换低频成分至高频范围来补偿低频听力损失。我们注意到这种频率变换处于与当前的移频助听器所实施的频率变换相反的方向，当前的移频助听器通常变换高频信号至低频范围来解决高频下的听力缺乏问题。所有的低频范围的频率成分，其中即使被最大放大也没有信号可听见，和可听见的较高频范围内的频率成分将被线性或非线性转换到更高频范围。这个过程转换所有的频率成分，包括原始可听见的高频成分，其可能会使得处理后的声音具有不自然的声音品质。

发明内容
本发明提供通过从声音品质承载谱微细结构中分离信息承载谱包络来提高处理后声音的逼真度的方法、设备和系统。所述谱包络(共振峰)被实时估计，并转换至更高频范围，同时所述微细结构保持完整。本发明的这些方法、装置和系统提供例如比线性和非线性频率转换更大的益处。然而在数字信号处理中需要更复杂的计算。用于补偿时域处理缺陷的时域调制策略，可被用于与用来补偿低频下听力丧失和畸变的所述三个策略中的任一个相结合。在本发明的一些实施例中，在改变时域调制前处理低频成分，由此防止在后续处理步骤中时域调制被调和。
依照本发明，提供了一种听力提高系统，其包括(a)幅值调制处理器，(b) 频率高通处理器，(C)频率上移处理器和(d)共振峰上移处理器。所述幅值调制处理器运行以提高时域调制和/或改善语音清晰度。所述频率高通处理器、频率上移处理器和共振峰上移处理器运行以补偿低频听力损失。
更进一步地，依照本发明，提供了一种前述特征的系统，其中所述幅值调制处理器运行以基于主体的时域调制传递函数(TMTF)增加不同频带中的幅
度调制。
更进一步地，依照本发明，提供了一种前述特征的系统，其中所述频率高通处理器运行以移除能有害影响患者在低频下的音高知觉的低频成分。
更进一步地，依照本发明，提供了一种前述特征的系统，其中所述频率上移处理器运行以促使低频向可听见的更高频的线性或非线性转换。
更进一步地，依照本发明，提供了一种前述特征的系统，其中所述上移处理器运行以在不明显改变声音品质的情况下增加共振峰频率。
更进一步地，依照本发明，提供了一种前述特征的系统，其中所述调制处理器运行以改善在有线或无线传输信道上传输的语音信号或其它信号的清晰度。
更进一步地，依照本发明，提供了一种前述特征的系统，其中所述系统包含或被结合进助听器、耳蜗植入设备、神经内电极植入设备或其它被携带、佩戴或植入人或动物主体体内的设备中，用于改善听力或声音识别。
更进一步地，依照本发明，提供了一种利用植入、插入、添加、粘贴或结合前述特征的系统至主体体内，以改善人或动物主体的听力和/或声音(例如语音)识别的方法。

图1为本发明中幅值调制处理器的方框示意图2包含显示图1中调制处理器的调制修正函数细节的图，左上面板显示标度比(r)作为阈值差(c)和前述波形差(d)的函数。右上面板显示幅值输出作为经过标度比r标度后的输入的函数。底面板显示原始包络线(r=l)和处理后的r等于1.5和2的包络线的例子；
图3为频率上移处理器的方框示意图4为共振峰上移处理器的方框示意图。
具体实施例方式
以下详细描述及附图意欲描述本发明的一些而不必是全部的示例或实施例。这些详细描述及附图的内容在任何情况下都不限制本发明的范围。
本发明提供可用于在安静和/或嘈杂环境中为正常听力或听力受损的人改善语音清晰度和听力舒适度的新的信号处理策略(例如方法)、设备和系统。本发明的所述新的信号处理策略(例如方法)可以被用于编程和/或操作设备，例如助听器、耳蜗植入设备和其它听力提高设备和系统中使用的处理器。
依照本发明，提供了听力提高系统，其包括四个处理器，即，l)幅值调制处理器，2)频率高通处理器，3)频率上移处理器和4)共振峰上移处理器。所述幅值调制处理器可被用于提高时域调制和改善语音清晰度。所述频率高通处理器、频率上移处理器和共振峰上移处理器可被用于补偿典型地发生在遭受
听觉神经病变患者身上的低频听力损失。
所述幅值调制处理器被设计为基于主体的时域调制传递函数(TMTF)，增加不同频带的幅值调制。所述频率高通处理器被设计用来移除可能对患者低频的音高知觉造成混淆的低频成分。所述频率上移处理器线性或非线性转换低频至可听见的高频范围，该低频对某些听力受损者而言几乎无法听见。所述共振峰上移处理器在不明显改变声音品质的情况下增加共振峰频率。
这些策略旨在为正常听力或听力受损者改善语音知觉，尤其是为听觉神经病变患者。另外，所述调制处理器能够被用于改善在有线或无线传输信道上传输的语音信号的清晰度。
当前的传统助听器不提供任何一种这些被提出的功能，且主要提供放大。所提出的算法可能或不能放大声音，他们为了语音清晰度和听力舒适度而更强调关键特征。在听觉神经病变的情况下，问题并不仅仅是声音衰减，而且还在于由于神经中枢听力损失造成的声音畸变。临床和精神物理学测试显示，听觉神经病变患者在低频具有较差的音高知觉和受损的时域处理能力。基于这些临床和精神物理学测试数据，已发展了新策略以解决听觉神经病变中的声音畸变合分析方框示意图。原始声音信号分为数目为N的多个子波段，以使用在对数坐标上均匀分布的滤波器组。首先对每个频带的信号进行全波整流，然后通过简单移动平均(SMA)滤波器以产生
缓变或平滑的信号。计算整流波形和其平滑后的形式逐点差值(d),作为幅度调制修正函数(R)的输入。所述调制修正函数也考虑进常数最大值(m)和预期调制补偿(c),并计算比率以确定在实时级上需要将原始信号放大或压缩多少。最后，合成器累加所有子波带的修正信号，以产生包含提高幅值调制的新信号。
图2的左上面板示出了标度比(r)作为阈值差(c)和计算的逐点差值(d) 的函数。正或负的d值与波峰或波谷到来对应，且可以大于或小于1的比率被扩展或压缩以增加调制。该函数的输出实际上为当d大于1时为该输入分贝值的线性映射，当d小于1时其为线性映射的倒数。例如，具有正d的6分贝调制补偿(c)会导致比例值为2以扩展峰值，但具有负d会导致值为1/2以压缩波谷。第二阶段压缩信号以防止输出在波峰时被剪去。图2的右上面板示出了幅值输出作为第一阶段被标度比r标度后的输入的函数。一组具有不同标度比的曲线示出了1=1、 1.5和2时的不同压缩函数。将所有函数的拐点设置为最大值(m)的75%。如果标度后输入的幅值大于拐点的幅值，那么通过从方程 l计算所得的值来压缩输出以防止饱和，否则所述压缩器将被绕过。方程l中， G为压缩增益，x(n)为输入，p为压縮因子，p被设置为1/4,其典型实际值为 1/4到1/2。图2中的底面板示出了比例值为1.5和2的包络线相对于未处理的包络线(r=l)具有较高的波峰和较低的波谷。
图3示出了根据本发明的频率上移处理器的一个数字实施示例。数字波形 X(n),通过快速傅立叶变换(FFT, Fast Fourier Transform )程序转换为频域中的数字信号。然后可以实施线性或非线性频移。线性移动的实施与根据功能性的模拟实施相似，也即是，在频率中简单移动所有频率分量相同的量，该量由
听力敏度图中的"拐点"频率所决定。在现有实施中，这个拐点通常为1到2kHz，而不是以前的模拟频移实施中的12kHz。由于移频A co在窗口 FFT分析中当前帧与后续帧中的每个频率点产生相位差的变化，由此需要重建相位。在移频点重建相位值以匹配A w。这可以通过将频率点乘以方程3中的复数值Zu来完成。 R为跃距，通过将窗口大小N乘以重叠因子K (见方程4)计算得来。例如， 50%的重叠会导致跃距为N/2。依赖于拐点频率，在FFT阵列的开始，当极高频成分被简单地修剪掉时，垫高零点。方程2中，零点数目由拐点频率(Fk)、釆样频率(Fs)和FFT的数目(N)所确定
零点数目=2^^《 (2)
Z,, (3) i = iVx/C (4) 与剪掉极高频成分的线性移动不同，非线性上移通过压缩整个频率范围至位于拐点频率和原始髙频边界之间的一个较窄的范围来保留所有频率成分。在 l-kHz拐点的情况下，原始0-8kHz的范围被压缩至l-8kHz的范围。在实际实
施中，由于映射处理仅能处理实数值，幅度和相位被单独处理。对于幅度，使用重釆样方法来计算映射值。为了非线性移动0-8kHz的频率成分至l-8kHz，首先将0-8kHz的原始幅度值线性转移至l-9kHz，再以8到7的比率降釆样至7 kHz的范围。如前所述重建相位值以匹配每个频率点的移频Aco。通过将修正后的幅度乘以重建的相位的正弦来获取映射复数的实部，乘以佘弦来获取映射复数的虛部。釆用逆FFT来重合成该信号。
图4示出了根据本发明的共振峰上移实施示意图的示例。在此示例中，输入语音通过14阶线性预测编码(LPC)分析器，当来自线性预测编码中误差的余数作为合成器的激励源时，取出14个决定共振峰频率的系数。所述余数保持完整，将所述LPC系数进行校正以转移共振峰，导致合成移动的共振峰，但保持谐振结构完整。所提出的策略能够用于为正常听力和听力受损者都提供改善的语音辨识度和听力舒适度，尤其是那些具有听觉神经病变者。相关的DSP代码可以被集成到通常的为听觉神经病变的助听器中以改善语音知觉。另外，转换的清晰语音能够用于难以听见的环境，以使得语音清晰。
可以理解地，本发明在此描述了本发明的某些示例或实施例，但可在不背离本发明预期精神和范围的情况下，对那些示例和实施例作出增加、删减、更改和修正。例如，实施例或示例的任何要素或特性可合并入或与另一实施例或示例一起使用，除非这样作会使得该实施例或示例不适合于其预期的使用。另外，在方法或过程的步骤以特定次序被描述、列举或主张处，这些步骤可以以任何其他次序实施，除非这样作会使得该实施例或示例不新颖、对相关领域内技术人员而言显而易见或不适合于其预期的使用。所有适当的增加、删减、修正和更改都被认为与所描述的示例和实施例相等同，被纳入了以下权利要求的范围。
权利要求
1、一种听力提高系统，包括幅值调制处理器；频率高通处理器；频率上移处理器；和共振峰上移处理器。
2、根据权利要求l所述的系统，其中，所述幅值调制处理器运行以提高时域调制和/或改善语音清晰度。
3、根据权利要求l所述的系统，其中，所述频率高通处理器、频率上移处理器和共振峰上移处理器运行以补偿低频听力损失。
4、根据权利要求l所述的系统，其中，所述幅值调制处理器基于主体的时域调制传递函数(TMTF),运行以增加在不同频带中的幅度调制。
5、根据权利要求l所述的系统，其中，所述频率高通处理器运行以移除能有害影响患者在低频下的音调知觉的低频成分。
6、根据权利要求l所述的系统，其中，所述频率上移处理器运行以促使低频向可听见的高频的线性或非线性移位。
7、根据权利要求l所述的系统，其中，所述上移处理器运行以在不明显改变声音品质的情况下增加共振峰频率。
8、根据权利要求l所述的系统，其中，所述调制处理器运行以改善语音信号或其它通过有线或无线传输信道传输的信号的清晰度。
9、根据权利要求1所述的系统，其中，所述幅值调制处理器运行以U)将声音分为数目为N的多个子波段，(b)对所述子波段进行全波整流，并将整流后波形通过简单移动平均(SMA)滤波器以产生平滑信号，(c)计算整流波形和其平滑信号之间的逐点偏差及(d)输入上述计算的逐点偏差进幅值调制修正函数。
10、根据权利要求9所述的系统，其中，所述调制修正函数考虑进常数最大值(m)和预期调制补偿(C),并计算那些值的比率以决定原始信号实时放大或压缩多少。
11、根据权利要求1所述的系统，其中，频率上移处理器利用快速傅立叶变换程序将数字波形X(n)转换成频域中的数字信号。
12、根据前述权利要求中任一项所述的系统，其中，所述共振峰上移处理器执行非线性上移，由此频率范围压缩至位于拐点频率和原始高频边界之间的较窄的范围。
13、根据前述权利要求中任一项所述的系统，其中，所述系统包括或合并入助听器。
14、根据前述权利要求中任一项所述的系统，其中，所述系统包括或合并入耳蜗植入设备。
15、一种改善人或动物主体听力和/或语音识别的方法，所述方法包括植入、插入、添加、粘贴或结合根据权利要求1所述的听力提高系统至主体体内的步骤。
16、根据权利要求15所述的方法，其中，实施该方法以治疗由听觉神经病变所导致的听力损伤。
全文摘要
用于改善听力和治疗例如听觉神经病变听力疾病的方法、设备和系统。本发明的听力提高系统一般包括幅值调制处理器、频率高通处理器、频率上移处理器和共振峰上移处理器。
文档编号H04R25/00GK101496420SQ200680028204
公开日2009年7月29日申请日期2006年6月8日优先权日2005年6月8日
发明者胜刘, 曾凡刚申请人:加利福尼亚大学董事会

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：曾凡刚;刘胜
技术所有人：加利福尼亚大学董事会
我是此专利的发明人

上一篇：发信号通知地理限制的方法
上一篇：摄影装置、便携终端装置、摄影方法及程序的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。