专利名称:高级包络编码音调声音处理方法和系统的制作方法
技术领域:
本发明涉及一种用于处理从声音信号中提取出的信号的系统和方法,具体来说, 是涉及一种系统和方法用于处理从声音信号中提取出的信号,以在听觉假体中产生刺激, 包括人工耳蜗植入和其他需要以声码器为基础的声音处理或编码系统。
背景技术:
人工耳蜗植入在临床上已被证明能够有效地向患有严重听力损失的患者提供听觉。这些设备通常包含一系列被置于患者耳蜗内的可植入电极,这些电极可直接将电刺激作用于尚未坏死的听觉神经元,被大脑感知后辨别为声音。作用于患者听觉通路的电刺激来源于一种声波信号,而声音处理器则负责根据各种声音处理方案对此声波信号进行处理。传统上,大多数早期的声音处理方案主要是处理声信号,使接受者能够获得某种程度的开集言语识别。就这一点而论,现有的声音处理方案已经成功地使接受者能够在安静的环境中并且无唇读辅助的情况下理解对话言语。然而,在对比了正常听力和耳蜗植入听力后,研究者发现耳蜗植入使用者几乎感知不到音调以及形成音乐旋律基础的音高信息。音调信息在言语感知中发挥着重要作用。音调信息能够提供重要的言语语言特征的线索,如能够帮助听者辨别说话人提问和陈述之间区别的语调以及说话人加在某个词语或某句话的重音。音调信息也能够提供重要的言语副语言特征的线索以辅助辨识说话人、 确定说话人的情绪状态以及帮助听者隔除其他同时说话人的声音。最重要的是,音调信息对感知如普通话和广东话这样的声调语言至关重要,这一点早已被确定。在这两种语言中,相同音素段内声音基频发生的变化会导致词义发生变化。目前已经研发出多种处理声音信号的声音处理方案为刺激听觉假体所用,如人工耳蜗植入。有一种“多峰方案”主要集中于对言语的信号方式进行编码,如共振峰和声音基频(FO)。在这一方案中,音调信息主要通过电刺激速率的方式进行编码。但是,尽管这一方案的结果显示音高可以被感知到,但是在现实情况下性能会迅速衰退,这一点在有噪音的情况下尤甚。其他方案已经提出,通过幅度调制的方式、以一个等于或与音频相关的频率、 在电刺激信号的包络中对音调信息(音频高达约300赫兹的)进行编码。这些方案包括 “最大谱峰声音处理法”(Spectral Maxima Sound Processor,简称 SMSP)(在 McDermott 和 Vandali, 1991年澳大利亚专利号657959和美国专利号5597380中有更所详细信息),最近实现的被称为“谱峰法” (Spectral Peak,简称为SPEAK) (Skinner等人,1994 ;Whitford等人,1995),及高级组合编码方案(Advanced Combinational Encoder,简称为 ACE) (Vandali 等人,2000 ;Skinner等人,200 。但是,对以上方案的音高感知度进行检验的研究表明,对某些信号以及在现实状况下,音高线索的显著性和准确性很低,并且在噪音中其性能会迅速衰退。一系列对现有声音编码方案的修改浮现出来,试图对声音和(或)音乐音高的编码进行改良。这其中包括由“增强调制深度法”(Modulation Depth Enhancement,简称为 MDE)和“多渠道包络调制”(Multi-channel Envelope Modulation,简称为 MEM) (Vandali 等人,2005,公开于美国专利公开号 20060080087) ; Vandali, Α. E.和 van Hoesel, R.J.的 “±曾强调制深度用于音调感知” (Modulation depth enhancement for tone perception), 美国专利号 7561709 ;以及 Vandali,A. E.、van Hoesel, R. J.和 Seligman,P.M.的“听觉假体中的音高感知” (Pitch perception in an auditory prosthesis),美国专利申请 US 2006/0080087的部分接续专利申请。此外,MeDermott和McKay提出了一种改进人工耳蜗植入系统中音高编码的设备(McDerm0tt,H.,和McKay,C.,“人工耳蜗植入声音处理方法和系统”,美国专利申请号US 2005/0107843)。以上所有文件都通过参考并入本文。尽管在改进声音和(或)音乐音高的编码方面,尤其用于刺激听觉假体的编码方面做了上述努力,但是在一系列听力情况下还存在提高此感知度的需求。基于此,本发明通过在人工耳蜗植入系统内创建一套完整的声音和(或)音乐音调信息编码系统满足了这种需求,并且此方法能有效地抵御噪音及(或)干扰信号的影响。以上对于先前提案或产品的引用和描述并不欲作为或设计为对该领域的一般常识性知识的陈述或坦白。尤其是,以下先前的工艺论述不涉及领域技术人员常用或熟知的内容,但有助于理解本发明的发明步骤,而对先前相关工艺建议的确定只是本发明的一部分。
发明内容
在第一方面,本发明提供了一种用于听力假体内的声音信号处理方法,包括将言语声音信号转换成电信号;将言语电信号处理成多个频道的信号,每个频道的信号含有一个振幅包络可明确至少一组频道输出;获取与电信号基频有关的信息;获取与电信号的谐波性质有关的信息;根据与电信号基频和谐波性质有关的信息调制至少一组频道输出,以产生至少一组改进的频道输出;选择从至少一组改进的频道输出中选择一个或多个频道来明确至少一个或多个频道,以通过听力假体中一个对应的电极进行电刺激以及确定电刺激的幅度。在一个实施方案中,将言语声音信号转换成一个电信号的步骤包括使用一个麦克风来检测并将声音信号转换成一个电信号。电信号可能会被进一步放大,然后电信号会穿过一个模拟数字转换器从而产生一个采样信号。在另一个实施方案中,将电信号转换成多个频道信号的步骤包括使电信号穿过第一组带通滤波器。之后,每个频道信号可能会穿过一个包络检波器,产生一组对应的频道包络信号作为第一组信道输出。第一组信道输出的每个频道包络信号可能会及时被一个信道包络跟踪器变得平缓,而派生出缓慢移动的频道包络信号,作为第二组信道输出。该频道包络跟踪器可能会以一种低通滤波器的形式工作,可使每个频道包络信号中的频率分量平缓至大约70赫兹以上。将电信号处理成多个频道信号的步骤还可能包括使电信号穿过第二组带通滤波器。第二组带通滤波器可能与第一组带通滤波器有大致相同的中心频率,并且每个滤波器可能有足够宽的宽度,可以允许至少两个确定与电频率有关的最高基频谐波通过,以产生多个宽带信道信号。每个宽带信道信号可能会穿过一个包络检波器而产生多个合成宽带信道包络信号作为第三组信道输出。在另一个实施方案中,获取与电信号基频有关的信息的步骤包括是电信号穿过一个基频估值器。该估值器可能是一个相位声码器快速傅里叶变换(FFT)滤波器,可将电信号进行处理后提供存在于频率高达2千赫兹的电信号中的任何正弦频率分量的频率和功率预估值。基频估值器可能会确定在电信号中检测到的最主要谐波信号的基频,并且可能会产生一个表示最主要基频预估的信号。基频估值器可能会进一步产生一个表示在频率高达约2千赫兹的电信号中最主要基频和总信号功率之功率比的信号。在另一个实施方案中,获取与电信号谐波性质有关的信息的步骤包括,将表示电信号中最主要基频和总信号功率之功率比的信号传送到一个周期概率估值器。该周期概率估值器可能会通过压缩限制和使表示电信号中最主要基频和总信号功率之功率比的信号变得平稳,而推导出一个输入信号(高达2千赫兹)的周期概率值。在另一个实施方案中,获取与电信号谐波性质有关的信息的步骤包括,将电信号中和第三组信道输出中的任何正弦频率分量的频率和功率传送到周期概率估值器中。周期频率估值器可能会估计出任何频道的信号与被估计的电信号的最主要基频相关的概率,并且可能为每个信道产生一个信道周期概率信号。在另一个实施方案中,一个信道调制器负责根据有关电信号基频和谐波性质的信息,调制至少一组信道输出以产生至少一组改进的信道输出。该信道调制器可能接收到第二组信道输出并且可能通过一个周期调制函数来调制信号,该函数实质上等于由基频估值器得出的预估的电信号最主要基频。经过调制的第二组信道输出的大小可能会被由周期概率估值器得出的信道周期概率信号改变,从而产生一组大小变化了的并且经过调制的第二组信道输出。信道调制器可能进一步接收第一组信道输出,并且可能通过每个信道的非周期概率信号(如一个负的信道周期概率)来改变每个第一信道输出的大小,从而得出改变大小的第一组信道输出。该组信道输出可能会被信道调制器进一步削弱,尤其是当输入信号周期概率值显示出输入信号为周期性的,从而得出改变大小的并且被削弱的第一组信道输出ο在一个实施方案中,被改变大小并且被调制的第二组信道输出可能会与被改变大小并且被调制的第一组信道输出相混合,以得出改进了的第四组信道输出。在另一个实施方案中,被改变大小并且被调制的第二组信道输出可能会与被改变大小并且被调制的第一组信道输出相混合,以得出一组还原信道包络信号。在另一个实施方案中,从至少一组改进的信道输出中选择一个或多个信道的步骤包括,从具有一个最大频谱幅度的、改进的第四组信道输出中选择信道。选择具有最大频谱幅度的信道可能至少有一部分通过全部帧被多路传输,以增加选定信道的频谱范围并在选定的最大值信道中引发更大的传播。具有最大频谱幅度的选定信道的幅度可能会从那一组还原频道包络信号的幅度还原。根据第二个方面,本发明提供了一种用于听力假体内的声音信号处理方法,包括将言语声音信号转换成电信号;将言语电信号处理成多个频道的信号,每个频道的信号含有一个振幅包络可明确至少一组频道输出;确定电信号是否包含谐波及(或)非谐波信号;对于部分包含谐波信号的电信号,通过一个与谐波信号基频相等的频率周期函数来调制缓慢变化的信道输出包络,以得出一个或多个被调制的信道包络信号;对于部分包含非谐波信号的电信号,得出一个或多个为被调制的信道包络信号;对每个信道,根据事先确定的混合比例将被调制的信道包络信号与未被调制的信道包络信号相混合,以得出每个频道的经混合的信道刺激信号;以及根据经过混合的信道刺激信号,选择一个或多个信道以确定至少一个或多个信道用于电刺激并将刺激作用于对应的听力假体电极上。在本发明这一方面的一个实施案例中,事先确定的混合比例是从频道信号与电信号中最主要基频的相关度而得出的。频道信号和电信号中最主要基频的关系越强,则混合比例越大;反之,频道信号和电信号中最主要基频的关系越弱,则混合比例越小。根据本发明的第三个方面,本发明提供了一种用于听力假体内的声音信号处理系统,该系统包括用于听力假体内的声音信号处理系统,该系统包括一个转换器,用于将声音信号转换成电信号;第一个处理器,负责将言语电信号处理成多个频道信号,每个信道信号含有一个振幅包络以确定至少一组信道输出;第二个处理器,负责获取与电信号的基频相关的信息;第三个处理器,负责获取与电信号的谐波性质相关的信息;一个调制器,负责根据与电信号的基频和谐波性质相关的信息,调制至少一组从第一个处理器接收的信道输出,以产生至少一组改进的信道输出;—个选择器,负责从至少一组改进的信道输出选择一个或多个信道,以确定至少一个或多个信道用于电刺激及言语电信号的幅度并据此产生刺激信号以及一个发送器,负责发送言语听力假体所用的言语刺激信号。根据本发明的第三个方面的一个实施方案,传感器配置有一个麦克风用以检测声音信号并将其转换成电信号。该传感器可能还会包含一个用于放大电信号的放大器和一个用于产生采样信号的模拟数字转换器。第一个处理器可能包含第一组带通滤波器,可以将电信号处理成多个频道信号。 该处理器可能还会包含一个包络检波器,经过配置可能会使每个信道信号进一步穿过该包络检波器,从而产生一组相应的信道包络信号,作为第一组信道输出。该处理器还可能包含一个信道包络跟踪器,经过配置可能会接受第一组信道输出所发出的所有信道包络信号, 从而产生缓慢移动的信道包络信号,作为第二组信道输出。
第一个处理器还可能包含第二组带通滤波器。第二组带通滤波器可能与第一组带通滤波器有大致相同的中心频率,并且每个滤波器可能有足够宽的宽度,可以允许至少两个确定与电频率有关的最高基频谐波通过,以产生多个宽带信道信号。该处理器还可能包含第二个包络检波器,每个宽带信道信号可能会穿过该包络检波器而产生多个合成宽带信道包络信号作为第三组信道输出。第二个处理器可能包含一个基频估值器。该估值器可能是一个相位声码器FFT滤波器,可将电信号进行处理后提供存在于频率高达2千赫兹的电信号中的任何正弦频率分量的频率和功率预估值。基频估值器可能会确定在高达2千赫兹的电信号中检测到的最主要谐波信号的基频,并且可能会产生一个表示最主要基频预估的信号。基频估值器可能会进一步产生一个表示在频率高达约2千赫兹的电信号中最主要基频和总信号功率之功率比的信号。第三个处理器可能包含一个周期概率估值器,该估值器至少会接收表示电信号中最主要基频和总信号功率之功率比的信号。该周期概率估值器可能会通过压缩限制和使表示电信号中最主要基频和总信号功率之功率比的信号变得平稳,而推导出一个输入信号的周期概率值。该周期概率估值器可能会接收到电信号中和第三组信道输出中的任何正弦频率分量的频率和功率。周期频率估值器可能会估计出任何频道的信号与被估计的电信号的最主要基频相关的概率,并且可能为每个在从基频估值器确定的电信号中和从第二组带通滤波器确定的第三组信道输出中使用任何正弦频率分量的频率和功率的信道产生一个信道周期概率信号。调制器可能是一个信道调制器,可能接收到第二组信道输出并且可能通过一个周期调制函数来调制信号,该函数实质上等于由基频估值器得出的预估的电信号最主要基频。经过调制的第二组信道输出的大小可能会被由周期概率估值器得出的信道周期概率信号所改变,从而产生一组大小变化了的并且经过调制的第二组信道输出。信道调制器可能进一步接收第一组信道输出,并且可能通过一个负的信道周期概率来改变每个第一信道输出的大小,从而得出改变大小的第一组信道输出。第一组信道输出可能会被信道调制器进一步削弱,尤其是当输入信号周期概率值显示出输入信号为周期性的,从而得出改变大小的并且被削弱的第一组信道输出。被改变大小并且被调制的第二组信道输出可能会与被改变大小并且被削弱的第一组信道输出相混合,以得出改进了的第四组信道输出。被改变大小并且被调制的第二组信道输出可能会与被改变大小并且被调制的第一组信道输出相混合,以得出一组还原信道包络信号。选择器可能是一个极大值选择器,可根据具有最大频谱幅度的输出,从至少一组改进的信道输出中选择一个或多个信道。极大值选择器还可能包含一个多路复用器,以便对具有最大频谱幅度的信道的选择至少有一部分通过全部帧被多路传输,以增加选定信道的数量。发送器可能包含一个编码器,可对要发送到一个植入刺激器的刺激信号进行编码。该发送器还可能包含一个射频转换器,经过设置后可将经过编码的刺激信号以射频信号的形式发送。
现在,将特别根据附图对本发明的首选功能进行说明。但是,需要明确的是,本发明的功能并不限于图中所说明及描述的功能范围。附图包括图1是一个传统声音处理系统的简单框图;图2是根据本发明的一个实施案例,一个声音处理系统的各个组成部分的示意图;图3是根据本发明的系统,一个带通滤波器组和包络跟踪器各个组成部分的一种实施案例的示意图;图4是图3中的包络跟踪器各个组成部分的一种实施案例的示意图;图5是根据本发明的系统,一个FO估值器各个组成部分的一种实施案例的示意图;图6是图5中的FO估值器的FFT相位声码器各个组成部分的一种实施案例的示意图;图7是图5中的FO估值器产生与输入声音信号的基频相关数值的过程的一种实施案例的流程图;图8是根据本发明的系统,一个周期概率估值器的各个组成部分的一种实施案例的示意图;图9是图8中的周期概率估值器对系统所接收的输入信号是谐波的(或周期的) 概率进行估计过程的一种实施方案的流程图;图10是图8中的周期概率估值器的又一张流程图,显示的是其对每个中心频率小于等于2千赫兹的信道的信道周期概率进行估计过程的一种实施方案;图11是图8中的周期概率估值器的又一张流程图,显示的是其对每个中心频率大于2千赫兹的信道的信道周期概率进行估计过程的一种实施方案;图12是根据本发明的系统,一个信道调制器各个组成部分的一种实施方案的示意图;图13是极大值选择器确定刺激器的刺激信道和刺激幅度过程的一种实施方案的流程图;图14a和14b分别显示了标准CI处理方案和本发明处理方案的电极图。附图详细说明以下将对有关本发明用于如人工耳蜗植入等可植入听力假体的申请进行具体说明。但是,也应注意到本发明可能还应用到其他以声码器为基础的声音处理系统,并且仍然落入本发明的精神。图1显示的是一个用于传统人工耳蜗植入系统的传统声音处理系统20的简化框图。传统人工耳蜗植入系统通常包括一个外部的语音处理器,采用声音处理系统20来检测声音并将声音转换成信号,之后将信号传送到一个植入刺激单元。随后,该植入刺激单元会将接收到的信号转换成电刺激脉冲直接应用到植入患者的听觉通路来复制检测到的声音。目前已有各种声音处理系统20问世并应用到人工耳蜗植入系统中,取得了不同程度的成效。不同类型的系统或方案包括“高级组合编码器”(ACE)、连续交替取样(CIS)及谱峰法(SPEAK)。
一般来说,每个系统或方案20都采用麦克风21探测和接收声音并产生对应的电信号。然后,电信号通常穿过一个前置处理器22,在此信号经过一定的预放大,并且如有需求,信号在穿过一个模拟数字转换器后会被转换成数字信号。然后,经过预处理的信号通常会被一组23带通滤波器分成数个频道,信道的数量可能会因使用的具体方案而有所不同,并且通常每个信道中信号的包络能够估计出来。微处理器或数字信号处理器M通常选择最大信道振幅(在CIS刺激方案中,选择的是所有信道),之后,选定振幅通常被转换成刺激电流水平。刺激电流水平通常会被映射到与选定频道对应的每个电极的听阈和最大舒适水平之间。在这一方面,植入刺激器的电极会以与耳蜗的音质性质相一致的方式被分配到各个频道。刺激电流水平通常会被发送到一个编码器 25,检测到的声音信号中的频谱线索通常会在该编码器中通过电极进行编码,并且时间包络线索会通过刺激信号包络中的幅度波动进行编码。然后,经过编码的信号被发送到发送器沈后通常会以射频信号的形式被发送到植入刺激器单元27。虽然上文所述系统20已经能够有效地使患者获得高水平的言语感知,但是通常系统20所能提供的频谱和时间信息是非常有限的,一般无法满足人工耳蜗植入患者对音乐和音调的感知。为解决这方面的不足,提出了本发明的声音处理系统15,如图2所示。如上所述, 本发明的声音处理系统15采用了上述传统声音处理系统的一些基本原则。在这方面,声音处理系统15包括一个麦克风1,可将输入的声音信号转换成电信号。随后,由此产生的电信号会被前置放大器2放大,并使用一个8千赫兹反走样低通滤波器和一个16位模拟数字转换器3以16千赫兹的速率对其进行采样。随后,采样(宽带) 信号30通过滤波器组4。滤波器组4包括一组带通滤波器43,可将信号30处理成多个间隔排列的频道(通常数量为20个)。滤波器组4包括多个包络估值器或检测器44用于估计每个间隔频道中的信号包络。还有一个最大值选择器8用于根据具有最大振幅的频道随机选择频道子集, 进行进一步处理以产生电刺激信号。另外还配有一个映射编码器9,用于根据人工耳蜗植入用户的频率到电极和输入强度到电刺激水平映射要求,将最大值选择器8所选定的包络信号转换成电刺激信号。另外还配有一个射频发送器,可将电刺激信号传送到一个植入的人工耳蜗植入接收——刺激装置11。但是,与上述系统20不同,本发明的系统15针对的是辅助感知声音信号中的声调和音乐的音调。出于此原因,系统15还包括一个FO估值器5,可接收采样(宽带)信号30 并实时估计信号的最主要基频(FO)以及FO信号和总信号之功率比。另外还配有一个周期概率估值器(PPE)6,用于确定每个频道的信号与预估FO频率之间的相关程度。为达到这一目的,PPE6能够确定每个频道的信号是否包含是预估FO频率整数倍的频率分量或谐音,以及(或)是否包含与预估FO频率相等的包络周期。另外还配有一个信道调制器7,可通过一个与预估FO频率有相同频率的周期函数对每个信道信号的低频包络进行适应性调制。 如下文即将说明,本发明的系统15还提供了一种用于将未经调制的(原始的)信道包络信号与经过信道调制器7调制的信道信号进行适应性结合(混合)的方法,而用于混合信号的增益比是由信道信号与预估FO相关性大小而决定的。如下文即将具体说明,在一个优选实施方案中,本发明系统所提供的额外功能主要通过三个处理阶段来实现,但是某些标准处理阶段还需要一系列细微的改进。图3对滤波器组4做了进一步详述。滤波器组4采用了第一组带通滤波器43 (通过运用一个重叠相加过程和128点带通滤波器BPFl来实现),在此进行复杂的FFT单元矢量加法运算来构建信道信号,从而将采样信号30过滤成多个信道信号。然后,信道信号穿过第一组包络检测器44 (通过将复杂的信道信号进行正交整流,计算开平方的实数值和虚数值总数的平方根来实现),以产生第一组信道输出,简称为信道包络信号40 (ChanMag)。 信道包络信号40会及时被信道包络跟踪器47进一步抚平顺,本文简称为缓慢变化的信道包络信号41 (ChanEnv)。图4更详细地展示了包络跟踪器47。包络跟踪器47可经配置对包络信号的峰值水平进行跟踪并将高于大约70赫兹(每20个样本1455赫兹)以上的调制删除。这一点是通过包络跟踪器47接收全部信道包络信号40并跟踪每个信号的幅度来实现的。包络跟踪器具有一个瞬时启动时间474,以便能够跟踪信道包络信号40(ChanMag)中的所有峰值水平。当检测到一个峰值475时,它会将该峰值水平(或者使用一个非常满得释放时间0.02 赫兹,第一阶低通滤波器LPF) 476保持一个在步骤479中确定的高达20个样本的周期(大约13. 75毫秒)(或者比预估FO周期51稍长的一段时间),以便将包络频率分量抚平至大约70赫兹以上(或大于FO频率)。如果在维持时间内遇到更大的信号,则维持时间被重置,否则当维持时间截止时,要迅速释放时间477 (300赫兹LPF)以便低于大约70赫兹(或预估FO频率)的包络分量能够被追踪。注意,包络跟踪器在信号路径中引入了 13. 75毫秒的额外处理延迟。再一次参考图3,滤波器组4还被用于通过第二组带通滤波器45 (还可通过使用相同的用于生成信道包络信号的重叠相加128点FFT)过滤采样信号30,以确定宽带宽信道包络信号(Wide Bandwidth ChanMag)42。这些信号将会被周期概率估值器(PPE)用于确定信道信号与预估FO之间相关概率。第二组带通滤波器45与第一组带通滤波器43平行,只能用于大于MaxF(大约为2千赫兹)的信道频率。它们与用于得出信道包络信号40 和41的原始组带通滤波器43拥有相同的中心频率,并且其最小带宽足够至少两个最高FO 频率的FO谐波通过以备系统进行分析(即至少大约660赫兹宽,可允许最大FO为大约300 赫兹)。第二组包络估值器46用于得出第三组信道输出,本文称为宽带宽信道包络信号 42 (Wide Bandwidth ChanMag)。因此,对于复杂的谐音,这些信道将对与音调基频相关的包络进行调幅。滤波器分析速度(或FFT窗口重叠)是视要求电刺激速率可在大约1毫秒到0.5 毫秒(或87. 5%到93. 75%)之间进行调节的。通常采用0. 6873毫秒(即每11个样本为 16000赫兹,相除后等于1455赫兹)的速度,这足以对高达约360赫兹的FO频率进行采样。如上所述,FO估值器5是用于对与输入的声音信号30中最主要谐波有关的基频 50进行实时估计的,另外,其还对谐波信号与总信号之功率比,或另称为FO信号与噪音信号之功率比53 (FOSNSR)进行估计。为实现这一目的,FO估值器5结合了多个处理阶段。第一阶段用于估计输入信号中分量的功率和频率;在第二阶段,采用了一系列谐波筛,每个谐波筛会通过带有给定FO的谐波,用于确定存在于(或匹配的)与给定(候选)F0有关的信号中的功率。检测到有一个FO频率范围由一个半音分隔,并发现候补FO经过最高功率。在第三阶段,对于含有最高匹配功率的候补F0,采用了具有更佳频率分辨率的第二组谐波筛。第四阶段用于减少FO倍频程错误。对最高候补FO的匹配功率采用加权函数,以将其在安静和嘈杂环境中的倍频程错误降到最低。具有最高加权匹配功率的候补FO被选为FO估值器目前时间帧的FO估计。最后一个阶段用于通过从持续数个连续时间帧中获得的估计中选择最佳FO估计的方式来减少在嘈杂环境中的寄生FO估计错误。下面将对每个阶段进行具体描述。,图5至图7显示的是FO估值器5的第一阶段。这一阶段采用了快速傅里叶变换 (FFT)相位声码器56来对存在于输入信号30中的正弦分量(或谐音)的频率或功率进行估计。图6详细显示了 FFT相位声码器56的工作方式。在步骤561中,在下降抽样(及时抽取2倍)之前,通常从人工耳蜗植入患者所佩戴的麦克风中接收到的采样信号最初是通过一个低通抗混叠滤波器(截止频率为2200赫兹的4阶无限脉冲响应(IIR)巴特沃斯滤波器)进行低通滤波,在步骤562中被滤为8千赫兹的速率。在步骤563中,下降采样信号的最近的2毫秒,即256个样本随后会在步骤564中被汉宁窗(在频域中提供一个31. 25 赫兹的3分贝带宽)窗口化。在随后的步骤565中,使用一种“堆叠和添加“技术,用于通过在频域抽取2倍的数量将样本数量减少至1 个(于步骤566)。在步骤567中,这些样本以_(kXt)样本适时旋转,在这里,t是分析帧的数量(t
=0,1,2......),k=分析帧频=11个样本(所提供的分析频率=8000赫兹/11 = 727
赫兹),N= 1 个样本。之所以要进行旋转,是要保持连续FFT帧之间一个零相对相移,以备后续的相位声码器进行处理。在步骤568中,采用1 点FFT以获得对输入信号复杂频谱的估计,在这里FFT单元b = 1到32,代表频带被62. 5赫兹所分隔,在62. 5到2000赫兹范围内有中心频率。在步骤569中,使用相位声码器估计在FFT单元b = 1到32范围内信号分量的单元功率值570和单元频率值571。单元功率值是从开平方的FFT实值和虚值总数得出的,而单元频率值则是从连续FFT帧之间的相位差估算出的。计算方法为,从每个FFT单元中的实数项和虚数项计算相位(Ph)(在这里,Ph =反正切(虚/实),并运用连续FFT帧之间的相位差(dPh)来计算单元频率(在这里,单元频率=b X Fs/N+dPh [b] X Fs/ (k X 2 π ),b = FFT 单元数,k=分析跃点=11个样本,Fs = 8000赫兹,N= 1 个样本)。注意,在计算单元频率之前,计算出的相位差要进行“去包裹”。然后,在步骤572中求得单元功率和单元频率在4个FFT帧的平均值,产生FFT单元1到32范围内单元功率平均值57 (AvBinPower [b]或 Pb)和单元频率平均值59 (AvBinFreq [b]或fb)。通过取4个连续帧的单元功率和单元频率的平均值,每5. 5毫秒(182赫兹)会产生平均项。每个单元的平均单元功率的计算公式为 AvBinPower = (P1+P2+P3+P4) X0. 25,在这里Pl到P4为4个连续FFT帧的FFT单元功率。 每个单元的平均单元频率的计算公式为AvBinFreq = (F1 XP1+F2XP2+F3XP3+F4XP4) / (P1+P2+P3+P4),在这里,Fl到F4为4个连续FFT帧的FFT单元频率。因为单元功率和单元频率取的是4个连续FFT帧的平均值(FFT帧频=8000赫兹/11个样本=727赫兹), 所以在FO估值器内的后续处理速率为727、4 = 182赫兹。平均单元频率的允许上限值为 MaxF = (32+0. 5)FFT单元X62. 5赫兹(单元宽度)=2. 031赫兹。频率超过此限值的平均单元功率会被归零。可选择性地对平均单元功率57值进行修改,以说明在步骤565中被256点汉宁窗窗口化并被抽取2倍频率的信号566在复谱幅度响应中的过度波动。频率抽取过程向偏离 FFT单元中心频率的频率分量有效地引入了比在没有进行频率抽取步骤的正常情况下更大的衰减效果。因此,在步骤573中,可通过将窗口(从单元的中心频率开始,正负半个单元宽度之内的单元频率)的逆振幅响应运用到基于平均单元频率的平均单元功率上,将系统的复合振幅响应变平。在步骤574中,对于从麦克风1获得的输入信号,其在0到2000赫兹频率范围内的平均单元功率57也通过一个麦克风频谱振幅响应的反比例函数被均衡。该函数在62赫兹到2000赫兹内有一个-4分贝/倍频程响应。对于直接送入系统的信号(即绕过麦克风), 平均单元功率的均衡过程也被绕过。再一次参考图5,得出的平均单元功率57和平均单元频率59随后被用于FO估值处理58的第二个阶段.图7对详细介绍了 FO估计过程。首先,确定了与候选FO频率有谐波关系的、低于 2000赫兹的采样输入信号30中的功率量。一个半音的步骤中,候选FO频率范围为约82赫兹到约3 赫兹(或更高,如根据系统参数的不同可达到523赫兹),或约等于5. 94% (即
82,87,93,98,101,110,......311,329赫兹),所对应的是西方音阶的E2到E4音符。每个
候补FO频率的总功率或匹配功率是在步骤582中确定的,方法如下如果其平均单元频率 59落在一系列集中在候补FO频率的倍数的矩形谐波筛(即理想带通滤波器)之内,则合计平均单元功率57 Fr[T] = {f :f ^ 2-°'5/12nCF0-Foffset and f ^ 2"0'5/12nCF0+Foffset}for T = 1 to 28 and n_l,2,3____这里,T为候选FO模板数量;Cro为候选FO频率=82X2T/12 ;Fr[T]为筛频率范围, 跨度为+/-O. 5个半音,Cfo的所有整数倍(η)可达到最大谐波频率MaxF ;Foffset = 2赫兹, 用于向相邻候选FO筛之间提供少量重叠。那么,在步骤582中,每个候补FO频率的匹配功率的计算公式为以下等式
权利要求
1.一种用于听力假体内的声音信号处理方法,包括将言语声音信号转换成电信号;将言语电信号处理成多个频道的信号,每个频道的信号含有一个振幅包络可明确至少一组频道输出;获取与电信号基频有关的信息;获取与电信号的谐波性质有关的信息;根据与电信号基频和谐波性质有关的信息调制至少一组频道输出,以产生至少一组改进的频道输出;选择从至少一组改进的频道输出中选择一个或多个频道来明确至少一个或多个频道, 以通过听力假体中一个对应的电极进行电刺激以及确定电刺激的幅度。
2.根据权利要求1的方法,其中将言语信号转换成电信号的步骤包括使用一个麦克风进行检测并将声音信号转换成电信号。
3.根据权利要求2的方法,其中电信号经过放大和采样并通过一个模拟数字转换器产生一个采样信号。
4.根据权利要求1的方法,其中将电信号处理成多个频道信号的步骤包括使电信号通过第一组带通滤波器。
5.根据权利要求4的方法,其中每个频道信号进一步通过一个包络检测器,从而产生一组相应的信道包络信号作为第一组信道输出。
6.根据权利要求5的方法,其中第一组信道输出的每个频道信号被一个信道包络跟踪器及时平顺,从而得到缓慢移动的信道包络信号作为第二组信道输出。
7.根据权利要求4-6中任意一个的方法,其中将电信号处理成多个频道信号的步骤包括使电信号通过第二组带通滤波器。
8.根据权利要求7的方法,其中第二组带通滤波器与第一组带通滤波器有大致相同的中心频率,并且每个滤波器可能有足够宽的宽度,可以允许至少两个确定与电频率有关的最高基频谐波通过,以产生多个宽带信道信号。
9.根据权利要求8的方法,其中每个宽带信道信号会穿过一个包络检波器而产生多个合成宽带信道包络信号作为第三组信道输出。
10.根据前述任何一个权利要求的方法,其中获取与电信号基频有关的信息的步骤包括是电信号穿过一个基频估值器。
11.根据权利要求10的方法,其中该估值器是一个相位声码器FFT滤波器,可将电信号进行处理后提供存在于频率高达2千赫兹的电信号中的任何正弦频率分量的频率和功率预估值。
12.根据权利要求11的方法,其中基频估值器会确定在频率高达约2000赫兹的电信号中检测到的最主要谐波信号的基频并产生一个代表最主要基频估计的信号。
13.根据权利要求12的方法,其中基频估值器会进一步产生一个表示在频率高达约2 千赫兹的电信号中最主要基频和总信号功率之功率比的信号。
14.根据前述任何一个权利要求的方法,其中获取与电信号谐波性质有关的信息的步骤包括,将表示电信号中最主要基频和总信号功率之功率比的信号传送到一个周期概率估值器。
15.根据权利要求14的方法,其中该周期概率估值器会通过压缩限制和使表示电信号中最主要基频和总信号功率之功率比的信号变得平稳。
16.根据权利要求14的方法,其中获取与电信号谐波性质有关的信息的步骤包括,将电信号中和第三组信道输出中的任何正弦频率分量的频率和功率传送到周期概率估值器中。
17.根据权利要求16的方法,其中周期频率估值器会估计出任何频道的信号与被估计的电信号的最主要基频相关的概率,并且通过运用由基频估值器确定的电信号中和由第二组带通滤波器确定的第三组通道输出中任何正弦频率分量的频率和功率为每个信道产生一个信道周期概率信号。
18.根据前述任何一个权利要求的方法,其中一个信道调制器负责根据有关电信号基频和谐波性质的信息,调制至少一组信道输出以产生至少一组改进的信道输出。
19.根据权利要求18的方法,其中该信道调制器接收到第二组信道输出并且通过一个周期调制函数来调制信号,该函数实质上等于由基频估值器得出的预估的电信号最主要基频。
20.根据权利要求19的方法,其中经过调制的第二组信道输出的大小会被由周期概率估值器得出的信道周期概率信号改变,从而产生一组变化了的并且经过调制的第二组信道输出。
21.根据权利要求20的方法,其中信道调制器进一步接收第一组信道输出,并且可能通过每个信道的非周期概率信号(如一个负的信道周期概率)来改变每个第一信道输出的大小,从而得出改变大小的第一组信道输出。
22.根据权利要求21的方法,其中该组信道输出会被信道调制器进一步削弱,尤其是当输入信号周期概率值显示出输入信号为周期性的,从而得出改变大小的并且被削弱的第一组信道输出。
23.根据权利要求20-22中任意一个的方法,其中被改变大小并且被调制的第二组信道输出会与被改变大小并且被调制的第一组信道输出相混合,以得出改进了的第四组信道输出。
24.根据权利要求20或21的方法,其中被改变大小并且被调制的第二组信道输出会与被改变大小并且被调制的第一组信道输出相混合,以得出一组还原信道包络信号。
25.根据前述任何一个权利要求的方法,其中从至少一组改进的信道输出中选择一个或多个信道的步骤包括,从具有一个最大频谱幅度的、改进的第四组信道输出中选择信道。
26.根据权利要求25的方法,其中选择具有最大频谱幅度的信道至少有一部分通过全部帧被多路传输,以增加选定信道的频谱范围并在选定的最大值信道中引发更大的传播。
27.根据权利要求沈的方法,其中具有最大频谱幅度的选定信道的幅度会从那一组还原频道包络信号的幅度还原。
28.一种用于听力假体内的声音信号处理方法,包括将言语声音信号转换成电信号;将言语电信号处理成多个频道的信号,每个频道的信号含有一个振幅包络可明确至少一组频道输出;确定电信号是否包含谐波及(或)非谐波信号;对于部分包含谐波信号的信号,是同频率等于谐波信号基频的周期函数调制信道输出的慢变包络,以产生一个或多个经调制的信道包络信号;对于部分包含非谐波信号的电信号,产生一个或多个非谐波信道包络信号; 对于每个信道,根据一个事先确定的混合比将经调制和未经调制的信道包络信号混合,以产生混合信道刺激信号;以及根据经过混合的信道刺激信号,选择一个或多个信道以确定至少一个或多个信道用于电刺激并将刺激作用于对应的听力假体电极上。
29.根据权利要求观的方法,其中事先确定的混合比例是从频道信号与电信号中最主要基频的相关度而得出的。
30.根据权利要求四的方法,其中频道信号和电信号中最主要基频的关系越强,则混合比例越大。
31.根据权利要求四的方法,其中频道信号和电信号中最主要基频的关系越弱,则混合比例越小。
32.一种用于听力假体内的声音信号处理系统,该系统包括 一个转换器,用于将声音信号转换成电信号;第一个处理器,负责将言语电信号处理成多个频道信号,每个信道信号含有一个振幅包络以确定至少一组信道输出;第二个处理器,负责获取与电信号的基频相关的信息; 第三个处理器,负责获取与电信号的谐波性质相关的信息;一个调制器,负责根据与电信号的基频和谐波性质相关的信息,调制至少一组从第一个处理器接收的信道输出,以产生至少一组改进的信道输出;一个选择器,负责从至少一组改进的信道输出选择一个或多个信道,以确定至少一个或多个信道用于电刺激及言语电信号的幅度并据此产生刺激信号以及一个发送器,负责发送言语听力假体所用的言语刺激信号。
33.根据权利要求32的系统,其中传感器配置有一个麦克风用以检测声音信号并将其转换成电信号。
34.根据权利要求33的系统,其中该传感器还会包含一个用于放大电信号的放大器和一个用于产生采样信号的模拟数字转换器。
35.根据权利要求32的系统,其中第一个处理器包含第一组带通滤波器,可以将电信号处理成多个频道信号。
36.根据权利要求35的系统,其中该处理器还会包含一个包络检波器,经过配置会使每个信道信号进一步穿过该包络检波器,从而产生一组相应的信道包络信号,作为第一组信道输出。
37.根据权利要求36的系统,其中该处理器还包含一个信道包络跟踪器,经过配置会接受第一组信道输出所发出的所有信道包络信号,从而产生缓慢移动的信道包络信号,作为第二组信道输出。
38.根据权利要求35-37中任意一个的系统,其中第一个处理器还包含第二组带通滤波器。
39.根据权利要求38的系统,其中第二组带通滤波器与第一组带通滤波器有大致相同的中心频率,并且每个滤波器可能有足够宽的宽度,可以允许至少两个确定与电频率有关的最高基频谐波通过,以产生多个宽带信道信号。
40.根据权利要求39的系统,其中每个宽带信道信号会穿过该包络检波器而产生多个合成宽带信道包络信号作为第三组信道输出。
41.根据权利要求32的系统,其中第二个处理器包含一个基频估值器。
42.根据权利要求41的系统,其中该估值器是一个相位声码器FFT滤波器,可将电信号进行处理后提供存在于频率高达2千赫兹的电信号中的任何正弦频率分量的频率和功率预估值。
43.根据权利要求42的系统,其中基频估值器会确定在高达2千赫兹的电信号中检测到的最主要谐波信号的基频,并且会产生一个表示最主要基频预估的信号。
44.据权利要求43的系统,其中基频估值器会进一步产生一个表示在频率高达约2千赫兹的电信号中最主要基频和总信号功率之功率比的信号。
45.根据权利要求32-44中任意一个的系统,其中第三个处理器包含一个周期概率估值器,该估值器至少会接收表示电信号中最主要基频和总信号功率之功率比的信号。
46.据权利要求45的系统,其中该周期概率估值器会通过压缩限制和使表示电信号中最主要基频和总信号功率之功率比的信号变得平稳,而推导出一个输入信号的周期概率值。
47.据权利要求45或46的系统,其中该周期概率估值器会接收到电信号中和第三组信道输出中表示任何正弦频率分量的频率和功率的信号。
48.据权利要求16的系统,其中周期频率估值器会估计出任何频道的信号与被估计的电信号的最主要基频相关的概率,并且可能为每个在从基频估值器确定的电信号中和从第二组带通滤波器确定的第三组信道输出中使用任何正弦频率分量的频率和功率的信道产生一个信道周期概率信号。
49.据权利要求32-48中任意一个的系统,其中调制器是一个信道调制器,接收到第二组信道输出并且可能通过一个周期调制函数来调制信号,该函数实质上等于由基频估值器得出的预估的电信号最主要基频。
50.据权利要求49的系统,其中经过调制的第二组信道输出的大小会被由周期概率估值器得出的信道周期概率信号所改变,从而产生一组变化了的并且经过调制的第二组信道输出。
51.据权利要求50的系统,其中信道调制器进一步接收第一组信道输出,并且通过一个负的信道周期概率来改变每个第一信道输出的大小,从而得出改变大小的第一组信道输出ο
52.据权利要求51的系统,其中第一组信道输出会被信道调制器进一步削弱,尤其是当输入信号周期概率值显示出输入信号为周期性的,从而得出改变大小的并且被削弱的第一组信道输出。
53.根据权利要求50-52中任意一个的系统,其中被改变大小并且被调制的第二组信道输出会与被改变大小并且被削弱的第一组信道输出相混合,以得出改进了的第四组信道输出。
54.根据权利要求50或51的系统,其中被改变大小并且被调制的第二组信道输出会与被改变大小并且被调制的第一组信道输出相混合,以得出一组还原信道包络信号。
55.根据权利要求32-54中任意一个的系统,其中选择器是一个极大值选择器,可根据具有最大频谱幅度的输出,从至少一组改进的信道输出中选择一个或多个信道。
56.据权利要求55的系统,其中极大值选择器还包含一个多路复用器,以便对具有最大频谱幅度的信道的选择至少有一部分通过全部帧被多路传输,以增加选定信道的数量。
57.根据权利要求32-56中任意一个的系统,其中发送器包含一个编码器,可对要发送到一个植入刺激器的刺激信号进行编码。
58.据权利要求57的系统,其中该发送器还包含一个射频转换器,经过设置后可将经过编码的刺激信号以射频信号的形式发送。
全文摘要
本发明公开了一种用于听力假体内处理声音信号的系统(20),该系统包括一个传感器(1)用于将声音信号转换成电信号(30)。第一个处理器(4)用于将语言电信号(30)处理成多个频道信号,每个信道信号具有一个振幅包络,可明确至少一组通道输出(40、41)。第二个处理器(5)用于获取与电信号(30)基频相关的信息。第三个处理器(6)用于获取与电信号(30)谐波性质相关的信息。一个调制器(7)用于根据与电信号基频和谐波性质相关的信息,调制从第一个处理器处接收到的至少一组信道输出(40、41),产生至少一组改进的信道输出(70、71)。一个选择器(8)用于从至少一组被改进的信道输出(70、71)中选择一个或多个信道以明确至少一个或多个信道与语言电刺激的幅度一起用于电刺激,并据此产生刺激信号(80、81)。一个发送器用于发送语言刺激信号为听力假体(11)所用。
文档编号A61N1/05GK102318371SQ201080006987
公开日2012年1月11日 申请日期2010年2月3日 优先权日2009年2月3日
发明者A·E·范达利, R·J·M·范赫塞尔 申请人:希尔沃克斯股份有限公司