专利名称:用于扩展窄带滤波的语音信号、特别是由通信设备发送的语音信号的带宽的方法
技术领域:
本发明涉及根据权利要求1的前序部分、权利要求4的前序部分、权利要求7的前序部分、权利要求17的前序部分和权利要求23的前序部分所述的用于扩展窄带滤波的语音信号、特别是扩展由通信设备发送的语音信号的带宽的方法。
语音编码方法的特征在于其不同的带宽。那么比如就存在把处于直到4000Hz频率范围内的语音信号转换为编码语音信号的窄带编码器(英语narrow-band coder),以及把典型地处于在50和7000Hz之间的语音信号转换为编码语音信号的宽带编码器(英语wide-bandcoder)。对此,通常与供给宽带编码器的语音信号相比以更低的采样速率对供给窄带编码器的语音信号进行采样。为此窄带编码器的纯比特率通常低于宽带编码器的纯比特率。
如果在相同的信道模式内部传输不同带宽的编码语音信号,则能够在信道编码时采用不同的速率,这导致不同的差错保护。如此在采用相同信道模式的情况下,当传输条件较差时,在信道编码的过程中对窄带编码的语音信号通过传输信道添加的冗余差错保护位可能多于对宽带编码信号添加的冗余差错保护位。因此在变化的传输条件下通过一个传输信道传输语音信号,其中在该传输信道中根据传输条件在宽带和窄带的语音编码之间转换语音编码[“宽带”转换为“窄带”(“WB/NB”转换)],并且使信道编码、特别是信道编码的速率与之匹配。接收方对编码语音信号进行与编码匹配的解码。
在新的用于无线通信的通信系统UMTS(通用移动电信系统)中例如标准化了宽带编码,以便保证将来的UMTS终端设备有非常好的语音质量。
这种考虑的缺点是,接收的用户特别感觉到从宽带编码到窄带编码的突然转换并且把与此相关联的质量损失感觉为最大干扰。
这种所谓的“WB/NB转换”问题也可能出现在用于无线通信的、具有多个基站和移动部分的通信系统的切换情况中,其中基站分配给不同的通信子系统,并且移动部分在系统内部针对跨越子系统的漫游而形成为双模式移动部分考虑的出发点是在基站和移动部分之间的现有宽带的语音连接。如果现在对于移动部分或者语音用户而实施到另一个基站的切换,则可能发生这样的情况,即接管的基站属于一个不支持宽带语音业务的子系统。由于这种原因然后返回到窄带编码和解码。
在这种情形中,接收的用户特别感觉到宽带编码到窄带编码的突然转换,并把与此相关联的质量损失感觉为最大干扰。
正如上面描述的,不支持宽带语音连接的基站以及仅仅能够在典型的300至3400Hz的范围内实现窄带编码或模拟语音传输的其他通信终端设备还在广泛流行,因为目前已知的通信系统迄今一般以在3400Hz(第一极限频率)和300Hz(第二极限频率)之间的大约3.1kHz的带宽传输语音信号,因为尽管因此给出了语音的带宽限制但也足以满足通信。为此目前已知的通信系统使用不同的数字和模拟编码方法传输语音信号。
为了如此达到质量改善,使得通信系统中的语音质量可以与收音机信号和电视机信号中的语音质量相类似,接收方面必须估测和合成语音的超过从300到3400Hz带宽的频率成分。
在现有技术中已公开了不同的、能够扩展窄带语音信号的带宽的方法。
例如为了在低频率范围(<300Hz)内扩展带宽,在专利文件EP 0 994464中公开了由于高通功能而滤除了低频的语音信号的低频率范围的信号成分的再生方法,其中所述的高通滤波比如是在通过电话在远处用户进行语音传输的情况下实施的(电话机的发送特性)。
所述的再生在此是通过非线性信号处理产生低频率范围的频率来实现的,借助于该非线性信号处理产生信号的子谐波频率并且子谐波频率加到高通信号上。
此外在EP 0 994 464中也公开了一个扩展方案,其中通过信号与信号函数的相乘实施非线性的信号处理。
上述方法的缺点是,已用于对远处用户终端设备上的信号进行滤波的滤波器特性(电话的发送特性)通常是不已知的,并且该滤波器特性对于不同的设备类型是显著不同的。这在图8中描述。如果参与的用户设备的滤波器特性均是已知的或这些设备互相匹配,则因此当然能够再生语音信号。
在许多数字语音编码的方法中,用于进一步处理与传输的数字语音信号分成一些表明信号间隔的频谱粗结构的系数,并且分成为激励信号或者预测差错信号、即所谓的剩余信号,其形成频谱细结构。该剩余信号不再包含语音信号的频谱包络,其中该频谱包络通过描述频谱粗结构的系数来体现。
在解码器方面,描述频谱粗结构和细结构的这两个-大都被量化地传输的-部分再度合并,并形成解码的语音信号。
频谱粗结构的典型代表形成了在线性预测分析中所确定的LPC系数(线性预测编码),该系数描述一个递归滤波器、即所谓的合成滤波器,其转移函数与频谱粗结构一致。该系数以其真正的形式或变化形式用在许多语音编码器中。对此在接收方面接收的剩余信号用作合成滤波器的输入信号,如此在滤波器的输出端上可以提供重现的语音信号。因此LPC系数代表了语音信号段的频谱粗结构并且在使用适当的激励信号的情况下可以用于合成语音信号。
为了在高频率范围内进行频带扩展已公开了基于特别的语音数据手册、即所谓的码本的方法,该码本在窄带语音信号段的LPC系数和宽带语音信号段的LPC系数之间形成一种关系。这使得必须同时以窄带和宽带的语音来训练码本并且码本必须存储在通信终端设备中。
此外从通过窄带语音信号的线性预测分析产生的窄带剩余信号中产生宽带激励信号,其包含在窄带语音信号的带宽之上的频率成分。
由于码本必须存储在通信设备中,所以除了不仅以窄带语音而且也以宽带语音繁复地训练码本外,对存储器的高需求以及独立于说话者和语音而在两种码本之间进行明确分配的这种困难也是不利的。
为了降低在应用码本时的存储空间需求,根据Aachen工学院研制的方法已知,仅仅通过结合隐式Markov(马尔可夫)模型来使用码本,以该模型可以描述实际的语音特性。
实际上在高频率范围内不使用扩展带宽的方法,因为产生的宽带语音信号的质量此外是不足够的并且依赖于各自的语音信号。
本发明基于的任务在于,以简单的并且低成本的方式在没有质量损失的情况下扩展窄带滤波的语音信号的带宽。
以在权利要求1的前序部分中定义的方法为出发点通过在权利要求1的特征中给出的特征,以在权利要求4的前序部分中定义的方法为出发点通过在权利要求4的特征中给出的特征,以在权利要求7的前序部分中定义的方法为出发点通过在权利要求7的特征中给出的特征,以在权利要求17的前序部分中定义的方法为出发点通过在权利要求17的特征中给出的特征,以及以在权利要求23的前序部分中定义的方法为出发点通过在权利要求23的特征中给出的特征解决该任务。
在根据权利要求1的本发明方法中,针对在第一极限频率之上的频率成分和在第二极限频率之下的频率成分而彼此独立地(含义是通过独立的不同方法)估测窄带滤波的语音信号,并在各自估测的基础上扩展该窄带滤波的语音信号。在此主要或者在时域内(权利要求2)或者在频域内(权利要求3)可以实现该估测。
在权利要求4或者5以及权利要求7或8中给出了怎样针对在第一极限频率之上的频率成分在频域内估测窄带滤波的语音信号的两种方法,据此首先窄带的语音信号被分别划分为描述频谱结构的语音信号时隙,每个窄带的语音信号时隙分类为浊音或清音,针对与发音方式有关的分类产生用于扩展窄带语音信号的、描述频谱结构的补充,其中至少对于浊音的情况补充是独立于各自的发音的,根据权利要求6主要通过FFT分析(快速傅立叶变换)计算的窄带语音信号时隙的频谱结构与产生的补充的频谱结构按照时隙进行逻辑连接,使得分别产生一个扩展的频谱结构,并且接下来根据权利要求4从扩展的频谱结构中、特别根据权利要求6通过IFFT分析(快速傅立叶逆变换)分别产生一个宽带扩展的语音信号时隙,或根据权利要求7针对时隙时间而产生宽带预测差错信号的、与窄带语音信号时隙一致的预测差错信号时隙,并且从扩展的频谱结构和各自的宽带预测差错信号时隙中分别产生一个宽带扩展的语音信号时隙,最后从各个宽带扩展的语音信号时隙中产生一个宽带扩展的语音信号。
在权利要求17或者18中给出了针对在第一极限频率之上的频率成分可以在时域内估测窄带滤波的语音信号的一个选择方法,据此首先窄带语音信号被划分为语音信号时隙并且每个窄带的语音信号时隙分类为浊音或清音,接下来如此非线性处理窄带语音信号时隙,使得分别产生一个修改的语音信号时隙,其一方面包含各自基本上没有改变的窄带语音信号时隙并且另一方面包含在第一极限频率之上通过非线性信号处理产生的信号成分,针对与发声方式有关的分类如此不同地对已修改的语音信号时隙进行滤波,使得从修改的语音信号时隙中产生宽带扩展的语音信号时隙并因此产生宽带扩展的语音信号。
在时域内估测在窄带第一极限频率之上的、被滤波的语音信号的频率成分是有益的,因为不必核定频谱并因此不必在频谱范围内进行高强度运算的变换。此外如此对修改的语音信号时隙进行滤波,使得在浊音的语音信号时隙的情况下在第一极限频率-例如4kHz-之上通过较少的能量,在清音的语音信号时隙的情况下在第一极限频率-例如4kHz-之上通过较多的能量。
根据权利要求4、5、7、8、17和18所述的、在高频率范围内用于扩展窄带滤波的语音信号的上述本发明方法与已知方法相比主要优点在于节省存储空间,因为基本上可以放弃耗费存储空间的码本。此外在没有准确了解原始宽带激励信号的情况下允许扩展窄带语音信号。此外根据权利要求7或者8和17或者18的方法的特征在于非常低的计算耗费。最后在整个方法中取消了耗费存储器的码本的训练,其中该训练通常在研制阶段必须由用于语音传输的通信设备来实施。
在根据权利要求9的改进中,对于分类为浊音的窄带语音信号时隙而分别产生的补充被如此产生,使得该补充的能量相对于窄带语音信号时隙的全部能量可以被忽略。
该补充可以始终是相同的,与涉及哪些浊音-例如“a”、“e”或“i”无关,如此使得对于浊音取消了声音的确定以及码本的使用。
通过根据权利要求9的改进保证了宽带扩展的语音信号的质量改善,因为通过这种形式的改进而考虑了在清音的情况下在上限频率范围内使信号能量的主要部分得到持续,如此使得防止忽略这部分的精确变化,其中这种忽略是因始终进行相同的补充并因此歪曲合成的语音信号而产生的。
在根据权利要求10的改进中如此来产生对于分类为清音的窄带语音信号时隙而分别产生的补充,使得该补充的能量相对于窄带语音信号时隙的全部能量而不可被忽略。通过这种方式在没有准确了解清音的情况下可以简单实施窄带滤波的语音信号的扩展。
在根据权利要求11的改进中如此来产生对于分类为清音的窄带语音信号时隙而分别产生的补充,使得在至少一个宽带码本的基础上从窄带语音信号时隙的第一滤波器系数中确定宽带语音信号时隙的第二滤波器系数。由此与没有应用码本的语音信号相比可以改善合成的语音信号的质量。
根据权利要求12的改进允许根据已确定的宽带滤波器系数来再生在高频率范围内扩展的宽带语音信号。
根据权利要求13的改进允许根据已确定的宽带滤波器系数和宽带预测差错信号时隙来再生在高频率范围内扩展的宽带语音信号。
在根据权利要求7和8的方法中,对于合成滤波器的滤波器系数的估测不需要码本,由此以有益的方式可以降低存储器空间需求。当然非常粗地估测在第一极限频率、例如4kHz之上的频率包络,这在某种清音的情况下偶尔导致产生不希望的假象。为了避免这种假象,在根据权利要求14的改进中宽带的滤波器系数与宽带码本中的记录比较,并且在宽带码本中,最适合于宽带滤波器系数的记录作为滤波器系数是合成宽带扩展语音信号的基础。该方法的优点在于,通过使用码本在现有码本比较的基础上找到的滤波器系数不仅在第一极限频率(例如4kHz)之下而且也在第一极限频率(例如4kHz)之上更好地接近真实系数。这表明,在第一极限频率之上的系数估测不再是粗的。此外这是有益的,即一方面仅仅需要宽带的码本并且不再附加需要窄带码本,另一方面同在现有技术(Aachen工学院研制的方法)中一样不再需要隐式Markov模型。
为了改善根据权利要求4至8的宽带扩展的语音信号的质量,有益的是根据权利要求16对从扩展的频谱结构中分别产生的宽带扩展的语音信号时隙进行高通滤波,高通滤波的语音信号时隙与相应的窄带语音信号时隙进行逻辑连接并且从各个逻辑连接的语音信号时隙中产生宽带扩展的语音信号。
在根据权利要求19的改进中,对于分类为浊音的窄带语音信号时隙分别通过非线性信号处理所产生的信号成分如此来产生,使得相对于窄带语音信号时隙的全部能量可以忽略各个语音信号成分的能量。
在根据权利要求20的改进中,对于分类为清音的窄带语音信号段分别通过非线性信号处理所产生的信号成分如此来产生,使得相对于窄带语音信号时隙的全部能量不可以忽略各个信号成分的能量。
根据权利要求21有利的是(因为简单地实现)通过频谱的镜像形成所述的信号成分。
根据权利要求22(在该方法的简化计算与实施的意义上)通过同样长地选择窄带语音信号时隙有益地改进了扩展窄带滤波的语音信号的方法。
在权利要求23或者24中给出一个方法,可以估测关于在第二极限频率之下的信号成分的窄带滤波的语音信号,其方式是首先计算窄带语音信号的预测差错信号,接下来根据预测差错信号估测窄带滤波的语音信号的滤波器特性并在该滤波器特性的基础上如此控制处理窄带语音信号的过程,使得产生宽带扩展的语音信号。
根据权利要求23的方法的主要优点是,在没有了解原始宽带激励信号的情况下并且在没有了解通信终端设备的发送滤波器特性的情况下简单实现了在低频率范围内窄带滤波的语音信号的扩展,其达到了语音信号的质量改善的目的。
根据权利要求25,通过比较在至少两个频率范围内测量的、预测差错信号的部分能量,并从由此引起的能量差中推断出窄带滤波的语音信号的滤波器特性,这样来估测窄带滤波的语音信号的滤波器特性。
根据权利要求26和27的改进,通过匹配地校正窄带滤波的语音信号允许改善语音信号的质量,如果低频的增益不高,则当然可以特别有利地使用该方法。
根据权利要求26的改进,通过简单分析反向滤波器特性实现匹配。
根据权利要求27附加的选择方案,通过再生基频和/或至少一个谐波同样允许匹配地校正并防止互调制。
根据权利要求28的改进,通过去除扩展的语音信号的不希望部分,来防止不希望的谐波同原信号相加,如果扩展的信号有直流成分,则有益地使用该改进方案。
在其余的从属权利要求中给出另外的有益改进。
下面根据在图中描述的实施例详细阐述本发明的另外要素、特征和优点。其中
图1作为第一实施例示出了在频域内在窄带滤波的语音信号的第一极限频率之上用于在高频率的方向上扩展由通信设备发送的语音信号的带宽的流程图,图2作为第二实施例示出了在频域内在窄带滤波的语音信号的第一极限频率之上用于在高频率的方向上扩展由通信设备发送的语音信号的带宽的流程图,图3作为第三实施例示出了在时域内在窄带滤波的语音信号的第一极限频率之上用于在高频率的方向上扩展由通信设备发送的语音信号的带宽的流程图,图4作为第四实施例示出了在窄带滤波的语音信号的第二极限频率之下用于在低频率的方向上扩展由通信设备发送的语音信号的带宽的流程图,图5作为第五实施例示出了在窄带滤波的语音信号的第二极限频率之下用于在低频率的方向上扩展由通信设备发送的语音信号的带宽的流程图,图6a示出了浊音(Vokals)的频谱,图6b示出了清音(Frikattivs)的频谱,图7a示出了浊音频谱的可能扩展,图7b示出了清音频谱的可能扩展,图8示出了不同设备类型的滤波器特性,图9a示出了第一语音信号的曲线,图9b示出了第一个从语音信号中得出的剩余信号的曲线,图9c示出了语音信号的瞬时频谱分析,图9d示出了剩余信号的瞬时频谱分析。
图1根据流程图示出了在频域内在窄带滤波的语音信号的第一极限频率-例如4kHz-之上用于在高频率的方向上扩展由通信设备发送的语音信号的带宽的第一过程(第一方法)。根据所述过程的输出状态AZ,由通信设备发送语音信号。因此存在窄带滤波的语音信号。
在第一过程步骤P0.1中该语音信号优选地划分为同样大小的窄带语音信号时隙。接下来在第二过程步骤P1.1中对于每个语音信号时隙通过“快速傅立叶变换(FFT)”计算频谱结构,在第三过程步骤P2.1中如此实施分类,使得各自语音信号时隙分类或定义为浊音-比如“a”、“e”或“i”,其发音具有在图6a中描述的频谱-,或分类或者定义为清音-比如“s”、“sch”或“f”,其发音具有在图6b中描述的频谱。
例如根据第一基频的位置或根据在确定频率-例如2kHz-之上和之下的频谱部分之比进行区分。根据窄带频谱简单进行区分,因为在图6a中描述的浊音的频谱与在图6b中描述的清音的频谱的比较表明,浊音与清音通常有显著不同的频谱。
作为此处的选择方案,根据另一相随的、同第一信号相关的窄带滤波的语音信号时隙确定第一窄带滤波的语音信号时隙的瞬时信号能量以及长时间信号能量,接下来通过瞬时信号能量同长时间信号能量之比与阈值的比较实现检测。
作为选择方案,通过瞬时信号能量(也就是说在窄带语音信号的短时间内的信号能量)与长时间信号能量(也就是说考虑较长时间的信号能量)的比较和接下来瞬时能量同长时间能量之比与固定阈值的比较可以进行区分。
之后在第四过程步骤P3.1中针对在第三过程步骤P2.1中进行的与发音方式有关的分类通过“快速傅立叶反变换(IFFT)”来扩展在第二过程步骤P1.1中计算的频谱结构。这是如此进行的,即针对在第三过程步骤P2.1中进行的与发音有关的分类按照时隙产生用于扩展语音信号的补充,该补充分别具有一个频谱结构,其中例如(特别)对于浊音的情况该补充独立于各自发音(随着语音方式的确定-浊音/清音-也确定扩展带宽所必需的补充),窄带语音信号时隙的频谱结构与产生的补充的频谱结构按照时隙逻辑连接成为扩展的频谱结构,从扩展的频谱结构中分别产生宽带扩展的语音信号时隙。
接下来存在两种可能性来获得宽带的、在高频率的方向上扩展的语音信号。
为了达到宽带扩展的语音信号的一定质量改善,可以在第五过程步骤P4.1中借助于高通滤波器对各自在第四过程步骤P3.1中产生的宽带扩展的语音信号时隙进行滤波,然后在第六过程步骤P5.1中把已滤波的语音信号时隙与来自第一过程步骤P0.1的相应窄带语音信号时隙进行逻辑连接,在结束之前在第七过程步骤P6.1中从各个逻辑连接的语音信号时隙中通过合并这些时隙产生宽带的、在高频率方向上扩展的语音信号。
如果可以放弃宽带扩展的语音信号的这种质量改善,那么除此之外也能够直接在第四过程步骤P3.1之后,由在第四过程步骤中分别产生的宽带扩展的语音信号时隙、在第七过程步骤P6.1中通过合并这些时隙而产生在高频率的方向上扩展的宽带语音信号。
根据图2首先阐述根据第二过程(第二方法)的窄带滤波语音信号在高频率方向上的根据本发明的扩展。
一般通过线性预测来分析语音信号。在此假设,通过先前的语音采样值的线性组合来近似代替语音采样值,由此来计算线性预测系数、即所谓的描述语音合成滤波器的滤波器系数的LPC系数,以及计算该合成滤波器的激励信号。通过应用属于一个语音信号段的LPC系数在该语音信号段上借助于通过该系数定义的非递归数字滤波器对该部分的滤波产生所谓的预测差错信号。该信号说明在通过线性预测估测的信号值与实际信号值之间的差。同时也描述了通过LPC系数定义的纯递归的合成滤波器的激励信号,借助该合成滤波器通过预测差错信号或者激励信号的滤波来再生原来的语音信号成分。
为了在高频率的方向上扩展语音信号,必须了解宽带激励信号和滤波器系数,该滤波器系数在线性预测的意义上描述(宽带)语音信号。
因为例如在窄带传输的通信系统中语音信号以窄带存在,所以按照本发明根据借助于线性预测从语音信号中计算的窄带激励信号来获得宽带激励信号。
这是例如通过窄带激励信号的频率镜像实现的,其中在0kHz和4kHz之间的频率成分在4kHz频谱线上镜像为4kHz至8kHz的范围。
选择性地也可以通过窄带信号与高斯(白)噪声或限制(彩色)噪声相加实现计算。
图2根据流程图示出了在频域内在窄带滤波的语音信号的第一极限频率-例如4kHz-之上在高频率的方向上用于扩展由通信设备发送的语音信号的带宽的第二过程(第一方法)。根据所述过程的输出状态AZ再度由电信设备发送语音信号。因此再度存在窄带滤波的语音信号。
在第一过程步骤P0.2中语音信号优选地划分为相同大小的窄带语音信号时隙。接下来在第二过程步骤P1.2中以已知的方式对于每个语音信号时隙在预测分析的范围内计算LPC系数和窄带预测差错信号,在第三过程步骤P2.2中在LPC系数和窄带预测差错信号的基础上计算窄带语音信号时隙的频谱结构,在第四过程步骤P3.2中如此实施分类,即各自语音信号时隙分类或定义为浊音-比如“a”、“e”或“i”,其发音具有在图6a中描述的频谱-,或分类或者定义为清音-比如“s”、“sch”或“f”,其发音具有在图6b中描述的频谱。
例如根据第一基频的位置或根据在确定频率-例如2kHz-之上或之下的频谱部分之比进行区分。根据窄带频谱可简单进行区分,因为在图6a中描述的浊音频谱与在图6b中描述的清音频谱的比较表明,浊音与清音通常有显著不同的频谱。
作为选择方案,根据另一相随的、同第一信号相关的窄带滤波的语音信号时隙确定第一窄带滤波的语音信号时隙的瞬时信号能量以及长时间信号能量,接下来通过瞬时信号能量同长时间信号能量之比与阈值的比较实现检测。
作为选择方案,通过瞬时信号能量-也就是说在窄带语音信号的短时间内的信号能量-与长时间信号能量-也就是说考虑较长时间的信号能量-的比较和接下来瞬时能量同长时间能量之比与固定阈值的比较可以进行区分。
之后在第五过程步骤4.2中针对在第三过程步骤P2.1中进行的与发音方式有关的分类来扩展在第三过程步骤P2.2中计算的频谱结构。这是如此实现的,即针对在第四过程步骤P3.2中进行的与发音方式有关的分类按照时隙产生用于扩展语音信号的补充,这些补充分别具有一个频谱结构,其中对于浊音的情况该补充独立于各自的发音(随着语音方式的确定-浊音/清音-也确定用于扩展带宽所必需的补充),窄带语音信号时隙的频谱结构和产生的补充的频谱结构按照时隙逻辑连接为一个扩展的频谱结构。
如果在第五过程步骤P4.2中在检查窄带语音信号时涉及浊音,那么就如图7a中所述如此通过补充来扩展窄带频谱结构,即在4kHz之上扩展的宽带频谱结构的能量显著低于在4kHz之下的频谱结构的能量。例如可以考虑使频谱结构下降、呈指数函数下降、上升、保持同样的零能级或保持同样的能级直至较高的频率。
也可选择性地完全不考虑扩展,因为通常可以忽略在窄带语音信号的上限频率(例如4kHz)之上浊音的信号能量(参见图6a)。对于这种情况所产生的宽带频率特性曲线与基本的窄带语音信号的窄带频率特性曲线一致。
也可以使在检测浊音之后所进行的扩展独立于声音的准确识别而始终不变(仅仅与窄带语音信号的能量相匹配),如此达到了该扩展的简单、低成本并且快速的转换。
如果在第五过程步骤P4.2中在检查窄带语音信号时涉及清音,那么就如图7b中所述如此来扩展窄带频率特性曲线,使得该频率特性曲线-与在浊音情况下的扩展相反-在窄带语音信号的第一极限频率(例如4kHz)之上的范围内具有其全部能量的不可忽略的部分。
在此也可以始终独立于声音的准确识别并通过同样方式的频谱扩展来实现扩展(仅仅与窄带语音信号的能量相匹配),如此同样达到扩展的简单、低成本并且快速的转换。
作为在图2中第一至第五过程步骤P0.2…P4.2的结果,依赖于存在的窄带频谱结构所基于的声音而产生新的、扩展的宽带频谱结构。
作为在第五过程步骤P4.2中实施扩展的一种选择方案也可以使用码本。对此的前提条件是,存在至少一个码本,该码本比如凭借存储在隐式Markov模型(HMM)中的语音统计特性来描述窄带和宽带滤波器系数之间的关系,并根据与在第二过程步骤P1.2中计算出的窄带滤波器系数的统计关系提供宽带的滤波器系数。
在一种通过一个或多个码本再现的从窄带滤波器系数到宽带滤波器系数的选择性分配关系中,从在第二过程步骤P1.2中所计算的窄带滤波器系数中确定所属的宽带滤波器系数。该滤波器系数用于合成在窄带语音信号的上限频率(例如4kHz)之上的频率成分。
可是仅仅对于这种情况才需要码本,即在第四过程步骤P3.2中所获得的窄带频谱包络的检查检测为清音。因此该码本也可以局限于清音的滤波器系数并因而非常小,由此该码本对通信终端设备的存储要求不大。
此外在第六过程步骤P5.2中,在第二过程步骤P1.2中所计算的窄带预测差错信号扩展为宽带预测差错信号,如此使得针对时隙时延产生了宽带预测差错信号的、与窄带语音信号时隙相对应的预测差错信号间隔。
之后,根据在第五过程步骤P4.2中产生的扩展频谱结构并通过在第七过程步骤P6.2中计算宽带滤波器系数,以及根据在第六过程步骤P5.2中分别产生的宽带预测差错信号间隔并在第八过程步骤P7.2中借助于所谓的合成滤波器分别产生一个宽带扩展的语音信号时隙。
之后有两种可能性来获得宽带的、在高频率的方向上扩展的语音信号。
为达到宽带扩展的语音信号的一定质量改善,在第九过程步骤P8.2中借助高通滤波器能够对各个在第八过程步骤P7.2中产生的宽带扩展的语音信号时隙进行滤波,此后在第十过程步骤P9.2中,已滤波的语音信号时隙与第一过程步骤P0.2的相应窄带语音信号时隙进行逻辑连接,最后在第十一过程步骤P10.2中从各个逻辑连接的语音信号时隙中通过合并这些时隙产生宽带的、在高频率方向上扩展的语音信号。
如果可以放弃宽带扩展的语音信号的这种质量改善,那么除此之外也可以直接在第八过程步骤P7.2之后,在第十一过程步骤P10.2中由在第八过程步骤中分别产生的宽带扩展的语音信号时隙并通过合并这些时隙而产生在高频率的方向上扩展的宽带语音信号。
宽带滤波器系数根据从宽带频谱结构的估测中计算的滤波器系数来描述宽带语音信号的频谱结构。
该宽带滤波器系数则用于语音合成,在使用-如前所述-所产生的宽带激励信号或预测信号的情况下通过语音合成产生宽带的语音信号时隙,并因此产生宽带扩展的语音信号,其质量明显好于窄带滤波的语音信号。
根据码本计算的、并且供给合成滤波器的宽带滤波器系数用于合成语音信号的上频带,这导致语音信号通过带宽扩展而改善质量。
根据本发明,从而在没有码本的帮助下或者以非常小的码本确定宽带滤波器系数,其中在以下通信系统中可以应用在高频率范围内扩展语音信号的带宽的本发明方法,即在该通信系统中使用具有可变比特率的语音编码器,其不仅可以宽带编码而且也可以窄带编码,因为可能出现这种情况,即语音编码器在通信期间在窄带(narrow band)和宽带(wide band)之间变换。
对此通过应用在本发明中描述的方法在通信终端设备中防止由此引起的、在通信质量方面的明显恶化。
在比如根据UMTS标准工作的、并出现上述难题的通信系统中,从而可以在窄带传输期间有利地使用宽带语音信号成分的根据本发明的估测,以便保证稳定的质量。
图3根据流程图示出了在时域内在窄带滤波的语音信号的第一极限频率-例如4kHz-之上在高频率的方向上扩展由通信设备发送的语音信号的带宽的第三过程(第三方法)。根据所描述过程的输出状态AZ,再度由通信设备发送语音信号。因此再度存在窄带滤波的语音信号。
在第一过程步骤P0.3中语音信号优选地划分为同样大小的窄带语音信号时隙。接下来在第二过程步骤P1.3中对于每个语音信号时隙如此实施分类,使得各自语音信号时隙分类或定义为浊音-比如“a”、“e”或“i”,其发音具有在图6a中所描述的频谱-,或分类或者定义为清音-比如“s”、“sch”或“f”,其发音具有在图6b中所描述的频谱。
例如根据第一基频的位置或根据在确定频率-例如2kHz-之上和之下的频谱部分之比进行区分。可以根据窄带频谱简单进行区分,因为在图6a中描述的浊音的频谱与在图6b中描述的清音的频谱的比较表明,浊音与清音通常有显著不同的频谱。
为此也可选择性地根据另一相随的、同第一信号相关的窄带滤波的语音信号时隙确定第一窄带滤波的语音信号时隙的瞬时信号能量以及长时间信号能量,接下来通过瞬时信号能量同长时间信号能量之比与阈值的比较实现检测。
为此也可选择性地通过瞬时信号能量-也就是说在窄带语音信号的短时间内的信号能量-与长时间信号能量-也就是说考虑较长时间的信号能量-的比较和接下来瞬时能量同长时间能量之比与固定阈值的比较可以进行区分。
此外在第三过程步骤P2.3中如此非线性地、优选通过频谱镜像来处理窄带语音信号时隙,即分别产生修改的语音信号时隙,其一方面包含各自基本上没有改变的窄带语音信号时隙,另一方面包含在第一极限频率之上通过非线性信号处理所产生的信号成分。
之后在第四过程步骤P3.3中针对进行的与发声方式有关的分类如此不同地对已修改的语音信号时隙进行滤波,使得从已修改的语音信号时隙中产生宽带扩展的语音信号时隙并因此产生宽带扩展的语音信号,其中在浊音的语音信号时隙的情况下在第一极限频率-例如4kHz-之上通过较少能量,在清音语音信号时隙的情况下在第一极限频率-例如4kHz-之上通过较多能量。
以图8为出发点并根据图9a至9d首先阐述在低频率的方向上对于带宽限制的语音信号的根据本发明的扩展或者低频率成分的再生。
正如开始讨论的,从EP 0 994 464中已经公开了由于高通功能而低频受限制的语音信号的低频率成分的信号成分的频谱再生,其中通过非线性信号处理通过产生低频率范围的频率来实现再生,其中为此信号的子谐波频率被生成并且叠加到高通信号上。
在现有的、特别是公开于EP 0 994 464的扩展低频率的方法中必须了解滤波器特性,以该滤波器特性在远端通信终端设备上对信号滤波。一般仅仅在应用具有相同特性的通信设备的情况下、也就是说应用相同类型的通信终端设备可以最佳地使用如此的方法,因为其滤波器特性相同或者匹配。
在不纯的系统中,也即在该系统中使用多种不同的通信设备以及不同类型的通信设备,不可以使用该方法,因为不同类型的通信设备,例如西门子通信设备,象在图8中示出的一样具有不同的滤波器特性。
根据本发明的方法允许在不纯的系统中扩展在低频率范围内的带宽限制的语音信号,因为根据本发明通过估测确定滤波器特性,其中为了上述估测首先从一个比如在图9a中描述的语音信号中通过从文献中已知的线性预测方法来计算比如在图9b中描述的第一剩余信号(第一剩余信号)、也称为预测差错信号,其中如果通过另外的处理步骤已知该剩余信号,则可以取消第一剩余信号的计算。
正如从专业文献(Vary,Heute,Hess“DigitaleSprachsigna1verarbeitung(数字语音信号处理)”,TeubnerStuttgart 1998)中公开的,第一剩余信号的频谱形式特别是通过与在图9c中描述的语音信号的频谱相比较可以看出,象在图9d中可以得出的一样,在传输的频率范围内几乎是平的,仅仅在滤波器的边缘下降,其中该滤波器对在远端通信终端设备中的语音信号进行带宽限制,以这种认识和计算的剩余信号实施滤波器特性的估测,其中在不同频带内剩余信号能量的测量尤其提供了关于滤波器特性的信息。
图4根据流程图示出了在窄带滤波的语音信号的第二极限频率-例如300kz-之下在低频率的方向上扩展由通信设备发送的语音信号的带宽的第四过程(第四方法)。根据所描述过程的输出状态AZ再度由通信设备发送语音信号。因此再度存在窄带滤波的语音信号。
以窄带滤波的语音信号为出发点,在第一过程步骤P0.4中计算相关的预测差错信号或者剩余信号,如此使得在第二过程步骤P1.4中估测滤波器特性以及在第三过程步骤P2.4中根据已估测的滤波器特性计算反向滤波器特性。
接下来在第四过程步骤P3.4中以该反向滤波器特性计算一个相反的滤波器,以该滤波器校正基本的窄带语音信号以及提升低频,其中为此必须不太大地选择低频的必需的增益,因为否则信号与噪声功率之比(一般以信噪比表示)明显恶化。
在遵循该条件的情况下,在实现校正之后存在宽带的、在低频率方向上扩展的语音信号,如此使得在使用该方法的情况下在通信终端设备中达到语音质量改善的目的。
这种校正在此意味着以所估测的反向滤波器特性对窄带语音信号滤波,也就是说放大低频,并且根据反向滤波器特性确定增益。
此外可以由此改善在EP 0 994 464中描述的方法,即用信号的数值形成(全波整流)或用信号的半波整流(其实施可以比已知的窄带语音信号与该信号函数相乘更为简单)代替非线性信号处理,其中在该非线性信号处理中产生语音信号的子谐波频率,这样,避免了在EP 0994 464中描述的非线性信号处理引起的相对高的信号处理耗费。
图5根据流程图示出了在窄带滤波的语音信号的第二极限频率-例如300Hz-之下在低频率的方向上扩展由通信设备发送的语音信号的带宽的第五过程(第五方法)。根据描述过程的输出状态AZ再度由通信设备发送语音信号。因此再度存在窄带滤波的语音信号。
以窄带滤波的语音信号为出发点,在第一过程步骤P0.5中计算相关的预测差错信号或者剩余信号,如此使得在第二过程步骤P1.5中估测滤波器特性以及获得至少一个控制参数。
所获得的控制参数用于控制非线性信号处理。为了非线性信号处理,在第三过程步骤P2.5中对窄带滤波的语音信号滤波,或在没有附加滤波的情况下窄带滤波的语音信号直接作为非线性处理的基础。在第四过程步骤P3.5中进行非线性信号处理。通过所获得的控制参数如此最佳化非线性信号处理,使得依赖于基本的语音信号来匹配基频的幅度和/或缺少的谐波,其中该谐波的再生应当实现非线性信号处理。
如果基本的窄带滤波的语音信号的带宽是如此大,以至存在互调制的危险,则当然仅仅实施在第三过程步骤P2.5中滤波。
在此这种互调制意味着,通过非线性信号处理在谐波之间也可能产生另外所不希望的、不属于原始信号的频率。
在第五过程步骤P4.5中对非线性信号处理的结果进行带通滤波,以便降低不希望的、处于要合成的频率范围之外的信号成分。
作为带通滤波的选择方案,也可以进行低通滤波。如果在必需滤波的信号中始终存在的直流成分较低,则一般当然使用低通滤波。
最后在第六过程步骤P5.5中,如此滤波的信号与基本的语音信号优选地通过相加来逻辑连接,如此使得作为结果而存在宽带的、在低频率的方向上扩展的语音信号。
只要满足在根据图4的实施例中讨论的条件、即必需的增益不是十分大,则同样可以考虑在图4和图5所述方法之中的一个没有描述的组合,也就是说窄带语音信号的非线性信号处理和校正的组合。
对此如此组合这两种方法,即首先以计算的反向滤波器来校正窄带信号,接下来应用非线性信号处理。
此外,用于在高频率范围内扩展窄带语音信号的本发明方法与在低频率范围内扩展窄带语音信号的方法的-同样没有被描述的-可以称为“宽带语音扩展”的组合是特别有益的,因为该组合保证了最接近基本语音信号的宽带语音信号的合成,如此使得使用“宽带语音扩展”的通信终端设备的用户听到可以与在收音机与电视机的语音信号质量相媲美的、高质量的语音信号。
因此“宽带语音扩展”可用在这样的通信设备中以便给用户产生宽带传输的印象,其中在该设备中进行语音信号的带宽限制的传输。
除了用于在高频率范围内扩展窄带语音信号的本发明方法外,在出现“WB/NB转换”问题的通信系统中也可以使用“宽带语音扩展”,如此使得始终保证宽带的语音信号并因此保证连续稳定的质量。
权利要求
1.扩展窄带滤波的语音信号、特别是由通信设备发送的语音信号的带宽的方法,其特征在于,针对在第一极限频率之上和在第二极限频率之下的频率成分分别独立地估测窄带语音信号,并且在各自估测的基础上扩展窄带语音信号。
2.按照权利要求1的方法,其特征在于,在时域内实施估测。
3.按照权利要求1的方法,其特征在于,在频域内实施估测。
4.在窄带语音信号的第一极限频率之上扩展窄带滤波的语音信号、特别是由通信设备发送的语音信号的带宽的方法,在该方法中a)窄带语音信号划分为语音信号时隙(P0.1)并且分别计算语音信号时隙的频谱结构(P1.1),b)每个窄带的语音信号时隙分类为浊音或分类为清音(P2.1),其特征在于,c)针对在b)中所进行的与发音方式有关的分类生成具有频谱结构的补充,以用于扩展窄带语音信号(P3.1),其中特别是至少对于浊音情况该补充独立于各个发音,d)窄带语音信号时隙的频谱结构和所产生的补充的频谱结构按照时隙如此逻辑连接(P3.1),使得分别产生扩展的频谱结构,e)从扩展的频谱结构中分别产生宽带扩展的语音信号时隙(P3.1),f)从各个宽带扩展的语音信号时隙中产生宽带扩展的语音信号(P6.1)。
5.按照权利要求1或3的方法,其特征在于,在窄带语音信号的第一极限频率之上a)窄带语音信号划分为语音信号时隙(P0.1)并且分别计算语音信号时隙的频谱结构(P1.1),b)每个窄带的语音信号时隙分类为浊音或分类为清音(P2.1),c)针对在b)中进行的与发音方式有关的分类生成具有频谱结构的补充,以用于扩展窄带语音信号(P3.1),其中特别是至少对于浊音情况该补充独立于各发音,d)窄带语音信号时隙的频谱结构和所产生的补充的频谱结构按照时隙如此逻辑连接(P3.1),使得分别产生扩展的频谱结构,e)从扩展的频谱结构中分别产生宽带扩展的语音信号时隙(P3.1),f)从各个宽带扩展的语音信号时隙中产生宽带扩展的语音信号(P6.1)。
6.按照权利要求4或5的方法,其特征在于,通过FFT分析计算窄带语音信号时隙的频谱结构并从扩展的频谱结构中通过IFFT分析产生宽带扩展的语音信号时隙。
7.用于在窄带语音信号的第一极限频率之上扩展窄带滤波的语音信号、特别是由通信设备发送的语音信号的带宽的方法,在该方法中a)窄带语音信号划分为语音信号时隙(P0.2)并且分别计算语音信号时隙的频谱结构(P1.2、P2.2),b)每个窄带语音信号时隙分类为浊音或分类为清音(P3.2),其特征在于,c)针对在b)中进行的与发音方式有关的分类生成具有频谱结构的补充,以用于扩展窄带语音信号(P4.2),其中特别是至少对于浊音情况该补充独立于各发音,d)窄带语音信号时隙的频谱结构和所产生的补充的频谱结构按照时隙如此逻辑连接(P4.2),使得分别产生扩展的频谱结构,e)针对时隙时延生成宽带预测差错信号的与窄带语音信号时隙相对应的预测差错信号时隙(P5.2),从扩展的频谱结构和各个宽带的预测差错信号时隙中分别产生宽带扩展的语音信号时隙(P6.2、P7.2),f)从各个宽带扩展的语音信号时隙中产生宽带扩展的语音信号(P10.2)。
8.按照权利要求1或3的方法,其特征在于,在窄带语音信号的第一极限频率之上a)窄带语音信号划分为语音信号时隙(P0.2)并且分别计算语音信号时隙的频谱结构(P1.2、P2.2),b)每个窄带语音信号时隙分类为浊音或分类为清音(P3.2),c)针对在b)中进行的与发音方式有关的分类生成具有频谱结构的补充,以用于扩展窄带语音信号(P4.2),其中特别是至少对于浊音情况该补充独立于各发音,d)窄带语音信号时隙的频谱结构和所产生的补充的频谱结构按照时隙如此逻辑连接(P4.2),使得分别产生扩展的频谱结构,e)针对时隙时延产生宽带预测差错信号的与窄带语音信号时隙相对应的预测差错信号时隙(P5.2),从扩展的频谱结构和各宽带的预测差错信号时隙中分别产生宽带扩展的语音信号时隙(P6.2、P7.2),f)从各个宽带扩展的语音信号时隙中产生宽带扩展的语音信号(P10.2)。
9.按照权利要求7或8的方法,其特征在于,对于分类为浊音的窄带语音信号时隙如此来生成分别生成的补充(P4.2),使得该补充的能量相对于窄带语音信号时隙的全部能量是可以忽略的。
10.按照权利要求7至9之一的方法,其特征在于,对于分类清音的窄带语音信号时隙如此来生成分别生成的补充(P4.2),使得该补充的能量相对于窄带语音信号时隙的全部能量是不可以忽略的。
11.按照权利要求7至9之一的方法,其特征在于,对于分类为清音的窄带语音信号时隙如此来生成分别生成的补充(P4.2),使得在至少一个宽带码本的基础上从窄带语音信号时隙的第一滤波器系数中获得宽带语音信号时隙的第二滤波器系数。
12.按照权利要求7至10之一的方法,其特征在于,从扩展的频谱结构中分别计算第三滤波器系数(P6.2)。
13.按照权利要求11或12的方法,其特征在于,利用第二或第三滤波器系数和宽带预测差错信号时隙合成宽带扩展的语音信号时隙并因此合成宽带扩展的语音信号(P7.2)。
14.按照权利要求12的方法,其特征在于,a)第三滤波器系数与宽带码本中的记录进行比较,并且b)宽带码本中最适合于第三滤波器系数的记录以滤波器系数的形式被作为宽带扩展语音信号合成的基础。
15.按照权利要求4、5、7、8、9或10的方法,其特征在于,所产生的补充下降、呈指数函数下降、上升、具有保持不变的零能级或具有不变的能级。
16.按照权利要求4、5、7或8的方法,其特征在于,对从扩展的频谱结构中分别产生的宽带扩展的语音信号时隙进行高通滤波(P4.1、P8.2),高通滤波的语音信号时隙与相应的窄带语音信号时隙进行逻辑连接(P5.1、P9.2),并且从各个逻辑连接的语音信号时隙中产生宽带扩展的语音信号(P6.1、P10.2)。
17.在窄带语音信号的第一极限频率之上扩展窄带滤波的语音信号、特别是由通信设备发送的语音信号的带宽的方法,在该方法中a)窄带语音信号划分为语音信号时隙(P0.3),b)每个窄带语音信号时隙分类为浊音或分类为清音(P1.3),其特征在于,c)如此来非线性处理窄带语音信号时隙(P2.3),使得分别产生一个修改的语音信号时隙,其一方面包含各自基本上没有改变的窄带语音信号时隙,另一方面包含在第一极限频率之上通过非线性信号处理产生的信号成分,d)针对在b)中进行的与发音方式有关的分类如此不同地对已修改的语音信号时隙进行滤波(P3.3),使得从已修改的语音信号时隙中产生宽带扩展的语音信号时隙并因此产生宽带扩展的语音信号。
18.按照权利要求1或2的方法,其特征在于,在窄带语音信号的第一极限频率之上a)窄带语音信号划分为语音信号时隙(P0.3),b)每个窄带语音信号时隙分类为浊音或分类为清音(P1.3),c)如此来非线性处理窄带语音信号时隙(P2.3),使得分别产生一个修改的语音信号时隙,其一方面包含各自基本上没有改变的窄带语音信号时隙,另一方面包含在第一极限频率之上通过非线性信号处理产生的信号成分,e)针对在b)中进行的与发音方式有关的分类如此不同地对已修改的语音信号时隙进行滤波(P3.3),使得从已修改的语音信号时隙中产生宽带扩展的语音信号时隙并因此产生宽带扩展的语音信号。
19.按照权利要求17或18的方法,其特征在于,对于分类为浊音的窄带语音信号时隙如此来产生分别通过非线性信号处理而产生的信号成分(P2.3),使得相对于窄带语音信号时隙的全部能量可以忽略各自信号成分的能量。
20.按照权利要求17至19之一的方法,其特征在于,对于分类为清音的窄带语音信号时隙如此来产生分别通过非线性信号处理而产生的信号成分(P2.3),使得相对于窄带语音信号时隙的全部能量不可以忽略各自信号成分的能量。
21.按照权利要求17至20之一的方法,其特征在于,通过频谱镜像产生该信号成分。
22.按照权利要求4至21之一的方法,其特征在于,窄带语音信号时隙选择为同样长。
23.在窄带语音信号的第二极限频率之下扩展窄带滤波的语音信号、特别是由通信设备发送的语音信号的带宽的方法,在该方法中,a)计算窄带语音信号的预测差错信号(P0.4、P0.5),其特征在于,b)根据预测差错信号估测窄带滤波的语音信号的滤波器特性(P1.4、P1.5),c)在该滤波器特性的基础上如此控制窄带语音信号的处理过程(P2.4、P2.5、P3.5、P4.5、P5.5),使得产生宽带扩展的语音信号。
24.按照权利要求1至22之一的方法,其特征在于,在窄带语音信号的第二极限频率之下a)计算窄带语音信号的预测差错信号(P0.4、P0.5),b)根据窄带语音信号的预测差错信号估测窄带滤波的语音信号的滤波器特性(P1.4、P1.5),c)在该滤波器特性的基础上如此控制窄带语音信号的处理过程(P2.4、P2.5、P3.5、P4.5、P5.5),使得产生宽带扩展的语音信号。
25.按照权利要求23或24的方法,其特征在于,通过比较在至少两个频率范围内测量的、预测差错信号的分能量并且从由此产生的能量差中推断出窄带滤波的语音信号的滤波器特性,来估测窄带滤波的语音信号的滤波器特性。
26.按照权利要求23至25之一的方法,其特征在于,a)在已估测的滤波器特性的基础上确定与其反向的滤波器特性,b)在处理过程中根据该反向的滤波器特性校正窄带语音信号。
27.按照权利要求23至25之一的方法,其特征在于,在处理过程中a)通过窄带滤波的语音信号的非线性信号处理,并在加入在滤波器特性估测的基础上所获得的控制参数的情况下,再生窄带滤波的语音信号的基频和/或至少一个谐波,b)对针对基频和/或至少一个谐波而再生的语音信号进行带通滤波或低通滤波。c)带通滤波或低通滤波的、已再生的语音信号和窄带滤波的语音信号进行逻辑连接,特别是相加。
28.按照权利要求27的方法,其特征在于,在非线性信号处理之前对窄带滤波的语音信号进行滤波。
全文摘要
为了以简单的并且低成本的方式在没有质量损失的情况下扩展窄带滤波的语音信号的带宽,针对在第一极限频率之上和在第二极限频率之下的频率成分彼此独立地、也即通过独立的不同方法来估测窄带滤波的语音信号,并在各自估测的基础上扩展窄带滤波的语音信号。在此优选地或者在时域内或者在频域内实现该估测。
文档编号G10L21/038GK1529882SQ01823470
公开日2004年9月15日 申请日期2001年5月11日 优先权日2001年5月11日
发明者R·奥保尔, R 奥保尔, S·A·克林克, 克林克, F·罗伦茨, 状 申请人:西门子公司