专利名称:增益调整方法和增益调整装置的制作方法
技术领域:
本发明总体涉及一种增益调整方法和增益调整装置,尤其涉及一种用于调整对其进行了信号处理的语音信号的增益并用于输出经增益调整的信号的增益调整方法和增益调整装置。
背景技术:
包括谈话和音频内容的语音信号常常被压缩编码以减少信息量,从而当将内容存储在记录介质中时可以使用较小的存储容量并且当通过网络(诸如互联网和蜂窝电话系统)发送信号时可以使用较低的传输速度。
此外,IP电话系统和蜂窝电话系统通常使用诸如语音强调法、噪声抵消器法和回声抵消器法的各种信号处理方法,从而增强了语音的清晰度。这些信号处理方法趋向于输出比输入语音信号的功率更大的量的功率。由于此原因,提供增益调整处理以使输出语音信号的增益(电平)得到适当控制。
图1是传统增益调整装置的示例的框图,该装置包括信号处理单元1,用于执行对输入语音信号的信号处理,所述信号处理包括语音强调法、噪声抵消器法和回声抵消器法;和增益控制单元2,用于控制经信号处理的语音信号的增益(电平)以使输出电平等于输入语音信号电平。
此外,专利参考文献1公开了对音频信号的频率特征进行补偿,其中,将音频信号(电信号)转换为语音并使其可听,从音频信号和语音的监控信号中提取噪声,根据基于该噪声的频谱的掩蔽效应(maskingeffect)来确定音频信号的增益。
JPA 8-70228这里,考虑一示例,其中,使用语音强调处理以增加共振峰的功率,共振峰是语音信号的频谱的峰值。即,通过图1的信号处理单元1,共振峰的功率如图2A所示地增加。当将经功率增加的频谱变换到时域时,波幅可能超过限制,导致如图2B所示发生削波(clipping),而削波产生可听到的噪声。
为了防止削波,由图1的增益控制单元2执行增益调整。虽然由过大的波幅产生的噪声可以如图3B所示被抑制,但是由于传统上对整个频谱的功率进行增益调整,所以问题在于语音强调的效果如图3B所示被减弱。
发明内容
本发明提供了一种增益调整方法和增益调整装置,其基本上消除了由现有技术的局限和缺点而导致的一个或更多个问题。
在以下说明中阐述了本发明的实施例的特征,并且这些特征根据说明书和附图将部分地显而易见,或者可以通过根据说明书中提供的教导实践本发明而被了解。通过说明书中具体指出的增益调整方法和增益调整装置将实现和获得本发明的实施例所提供的问题的解决方案,所述说明书完整、清除、简洁并确切,从而使本领域的普通技术人员能够实践本发明。
为了实现这些解决方案并且根据本发明的一方面,如在此实施并广义描述的,本发明的实施例提供了一种能够防止发生削波同时不牺牲信号处理的效果的增益调整方法和增益调整装置。
本发明的一方面提供了一种增益调整方法,其调整对输入语音信号执行信号处理而获得的经处理的语音信号的增益,所述经处理的语音信号被输出到下一级,所述增益调整方法包括以下步骤计算所述经处理的语音信号的掩蔽属性的步骤;和对所述经处理的语音信号的根据所述掩蔽属性被掩蔽的各频率的增益进行调整,使得对于根据所述掩蔽属性被掩蔽的频率之外的频率,所述经处理的语音信号和所述输入语音信号之间的差被抵消的步骤。按此方式,输出信号的波幅未被削减,同时信号处理的效果没有降低。
根据本发明的另一方面,输入语音信号和经处理的语音信号位于频域内。
根据本发明的另一方面,对每个频段(即逐频段地)执行增益调整。
根据本发明的另一方面,对每个频谱(即逐频谱地)执行增益调整。
本发明的另一方面提供了一种增益调整装置,用于调整对输入信号执行信号处理而获得的经处理的语音信号的增益,所述增益调整装置包括掩蔽属性计算单元,用于计算所述经处理的语音信号的掩蔽属性;和调整单元,用于对所述经处理的语音信号的根据所述掩蔽属性被掩蔽的各频率的增益进行调整,使得对于根据所述掩蔽属性而被掩蔽的频率之外的频率,所述经处理的语音信号和所述输入语音信号之间的差被抵消。按此方式,输出信号的波幅未被削减,同时信号处理的效果没有降低。
根据本发明的另一方面,由增益调整装置处理的输入语音信号和经处理的语音信号位于频域内。
根据本发明的另一方面,调整单元调整各频段的增益。
根据本发明的另一方面,调整单元调整各频谱的增益。
发明的另一方面提供了一种增益调整装置,其包括第一正交变换单元,用于执行正交变换,将时域内的输入语音信号变换为频域内的输入语音信号;第二正交变换单元,用于对经处理的语音信号执行正交变换,所述经处理的语音信号是对时域内的输入语音信号执行信号处理而获得的,所述正交变换将其变换为频域内的经处理的语音信号;掩蔽属性计算单元,用于计算频域内的经处理的语音信号的掩蔽属性;频率选择单元,用于从频域内的经处理的语音信号中选出根据所述掩蔽属性而被掩蔽的频率;增益确定单元,用于对由频率选择单元选出的频率中的每一个频率的增益进行确定,使得在根据所述掩蔽属性而被掩蔽的频率之外的频率中,经处理的语音信号和输入语音信号之间的差被抵消;增益调整单元,用于根据由增益确定单元确定的增益对由频率选择单元选择的频率进行增益调整;和第三正交变换单元,用于对由增益调整单元输出的频域内的语音信号执行正交变换,将其变换为时域内的语音信号,并用于输出该时域内的语音信号。按此方式,输出信号的波幅未被削减,同时信号处理的效果没有降低。
根据本发明,输出信号的波幅未被削减,同时保持了信号处理的效果。
图1是传统增益调整装置的一示例的框图;图2是用于解释传统示例的波形图;图3是用于解释传统示例的波形图;图4是示出了根据本发明的实施例1的增益调整装置的原理的框图;图5是根据本发明的实施例1的增益调整装置的框图;图6是用于解释本发明的波形图;图7是用于解释本发明的波形图;图8是用于解释本发明的波形图;以及图9是根据本发明的实施例2的增益调整装置的框图。
具体实施例方式
下面参照附图描述本发明的实施例。
<本发明的原理>
图4示出了根据本发明的实施例1的增益调整装置的原理。向信号处理单元10提供输入语音信号,信号处理单元10将经处理的语音信号输出到增益调整装置。增益调整装置包括增益调整处理单元20,增益调整处理单元20包括正交变换单元22和24,用于分别将输入语音信号和经处理的语音信号正交变换为频谱;听觉感知分析单元26,用于计算听觉不可感知的声音的功率(掩蔽功率);和增益控制单元28,用于考虑到该掩蔽功率来调整增益。
听觉感知分析单元26基于作为功率调整的对象的经处理的语音信号来计算掩蔽功率,掩蔽功率是听觉不可感知的声音的功率。增益控制单元28考虑到掩蔽功率,调整经处理的语音信号的听觉不可感知的频段的增益,从而输出语音信号的功率可变得与输入语音信号的功率几乎相同。
<实施例1>
图5是根据本发明的实施例1的增益调整装置的框图。参照图5,将时域内的输入语音信号X(t)提供给信号处理单元10,在信号处理单元10中执行信号处理,例如执行语音强调处理以使共振峰的功率增加,所述共振峰是输入语音信号的频谱的峰值。经如上处理的语音信号称为经处理的语音信号Y(t),并被提供给增益调整处理单元20。
正交变换单元22的FFT(快速傅立叶变换)22a将经处理的语音信号Y(t)变换为频域中的频谱功率Y(f)。此外,正交变换单元24的FFT 24a将输入语音信号X(t)变换为频域中的频谱功率X(f)。
频段划分单元22b将频谱功率Y(f)分为N个频段,每个频段具有微小的带宽,并且获得频谱能量Py(f),其是这N个频段的频谱功率之和,即,Py(f)={Py(1),Py(2),…,Py(N)}。频段划分单元24b将频谱功率X(f)分为N个频段,每个频段具有微小的带宽,并且获得频谱能量Px(f),其是这N个频段的频谱功率之和,即,Px(f)={Px(1),Px(2),…,Px(N)}。
听觉感知分析单元26基于频谱能量Py(f)计算掩蔽功率My(f)={My(1),My(2),…,My(N)},并将掩蔽功率My(f)提供给增益控制单元28。为了计算掩蔽功率My(f),使用由公知的参考文献(ISO/IEC 13818-72003and Advanced Audio Coding)指出的心理声学模型。
增益控制单元28包括频谱选择单元28a,通过将频谱能量Py(f)与掩蔽功率My(f)相比较而选择频谱能量Py(f)被掩蔽(即低于掩蔽功率My(f))的频段。选择的频段是用于增益调整的频段。
增益控制单元28还包括调整率确定单元28b,其用于确定对N个频段中的每一个的调整率,即,α(f)={α(1),α(2),…,α(N)}。这里,调整率对应于每个频段的增益。
整个输入语音信号的频谱能量和整个经处理的语音信号的频谱能量分别表示为∑Px(f)=Px(1)+Px(2)+…+Px(N)以及∑Py(f)=Py(1)+Py(2)+…+Py(N)。然后,经处理的语音信号的能量和输入语音信号的能量之间的差E由下面的公式(1)表示。
E=∑Py(f)-∑Px(f) --(1)此外,在经处理的语音信号的频谱能量Py(f)和调整率α(f)(其等同于增益)之间存在如下面的公式(2)所表示的关系。
Σ[α(f)Py(f)]=α1Py1+α2Py2+...+αNPyN]]>=α1α2...αNPy1Py2...PyN---(2)]]>E=Σ[α(f)Py(f)]-ΣPx(f)]]>=α1α2...αNPy1Py2...PyN-ΣPx(f)---(3)]]>输入语音信号和经增益调整的语音信号之间的差E由该公式表示。
这里,确定α(f)={α(1),α(2),…,α(N)}以使输入语音信号Px(f)和经增益调整的语音信号的频谱能量α(f)Py(f)之间的差E变为0,如下面的公式(4)所示。
=α1α2...αNPy1Py2...PyN-ΣPx(f)---(4)]]>增益控制单元28包括调整单元28c,用于通过根据由调整率确定单元28b确定的调整率α(f)对每个频段的频谱能量Py(f)进行调整,从而获得频谱能量Pz(f)={Pz(1),Pz(2),…,Pz(N)},如下面的公式(5)所表示的。
Pz(f)=Py(f)×α(f)…(5)正交变换单元30的频谱划分单元30a将频谱能量Pz(f)转换为频谱功率Z(f),并且正交变换单元30的IFFT(逆FFT)单元30b将频谱功率Z(f)转换为语音信号Z(t),语音信号Z(t)被输出。
<当Y(t)大于X(t)时>
描述第一种情况,其中,经处理的信号Y(t)的功率大于输入信号X(t)的功率,调整Y(t)的增益以使输出信号Z(t)的功率下降到与X(t)的功率相同的电平。
参照图6A,从频谱能量Py(f)获得被显示为阴影区的掩蔽功率My(f)。在Py(f)>My(f)的区域中,不进行增益调整,即α(f)=1。在Py(f)<My(f)的区域中,将调整率α(f)设置为小于1以满足公式(4)。按此方式,调整后输出的频谱能量Pz(f)如图7A所示。结果,时域内的输出语音信号Z(t)不超过最大波幅,并且如图7B所示,输出语音信号的波幅未被削减。
<当Y(t)小于X(t)时>
接下来,描述第二种情况,其中,经处理的信号Y(t)的功率小于输入信号X(t)的功率,调整Y(t)的增益以使输出Z(t)的功率增加到与X(t)的功率相同的电平。
从图8A所示的频谱能量Py(f)中获得被显示为图8A中的阴影区的掩蔽功率My(f)。在Py(f)>My(f)的区域中,不进行调整,即调整率α(f)=1。在Py(f)<My(f)时,将调整率α(f)设置为大于1的值,使该值满足公式(4)并且满足α(f)Py(f)<My(f)。按此方式,调整后输出的频谱能量Pz(f)如图8B所示。结果,时域内的输出语音信号Z(t)不超过最大波幅,并且如图8C所示,输出语音信号的波幅不被削减。
如上所述,根据本发明的实施例1,通过调整听觉不可感知的一部分信号的功率,可以在不降低信号处理的效果和话音质量的情况下调整增益。
这里,虽然上述实施例1使用FFT来将时域内的语音信号变换为频域内的语音信号,但是可以使用MDCT(改进的离散余弦变换)来代替FFT。
<实施例2>
图9是根据本发明的实施例2的增益调整装置的框图。根据实施例2,输入频域内的输入语音信号的频谱功率,即,X(f)={X(1),X(2),…,X(N)}。输出频域内的语音信号的频谱功率Z(f)={Z(1),Z(2),…,Z(N)}。信号处理单元35用于例如使用语音强调处理来处理输入语音信号以增加共振峰的功率,共振峰是输入语音信号的频谱的峰值。将由信号处理单元35输出的经处理的语音信号的频谱功率Y(f)={Y(1),Y(2),…,Y(N)}提供给增益调整处理单元40。
基于频谱功率Y(f),增益调整处理单元40的听觉感知分析单元46为每个频谱计算掩蔽功率My(f)={My(1),My(2),…,My(N)},并将该掩蔽功率提供给增益控制单元48。为了计算掩蔽功率My(f),使用由公知的参考文献(ISO/IEC 13818-72003 and Advanced Audio Coding)指出的心理声学模型。
增益控制单元48包括频谱选择单元48a,其通过将频谱功率Y(f)与掩蔽功率My(f)相比较选择频谱功率Y(f)被掩蔽(即低于掩蔽功率My(f))的频谱。选择的频谱是增益调整的对象。
增益控制单元48包括调整率确定单元48b,其用于确定与增益相对应的调整率α(f)={α(1),α(2),…,α(N)}。
整个输入语音信号的能量和整个经处理的语音信号的能量可分别被表示为∑X(f)=X(1)+X(2)+…+X(N)以及∑Y(F)=Y(1)+Y(2)+…+Y(N)。然后,经处理的语音信号的能量和输入语音信号的能量之间的差E由下面的公式(6)表示。
E=∑Y(f)-∑X(f) --(6)此外,在经处理的语音信号的能量Y(f)和与增益相对应的调整率α(f)之间存在如下面的公式(7)所表示的关系。
Σ[α(f)Y(f)]=α1Y1+α2Y2+...+αNYN]]>=α1α2...αNY1Y2...YN---(7)]]>E=Σ[α(f)Y(f)]-ΣX(f)]]>=α1α2...αNY1Y2...YNΣX(f)--(8)]]>输入语音信号和经增益调整的语音信号之间的差E由公式(8)表示。
确定α(f)={α(1),α(2),…,α(N)}以使经增益调整的语音信号的能量和输入语音信号的能量之间的差E变为0,如下面的公式(9)所示。
=α1α2...αNY1Y2...YN-ΣX(f)---(9)]]>增益控制单元48还包括调整单元48c,用于如下面的公式(10)所示地通过根据由调整率确定单元48b确定的相应调整率α(f)对频谱功率Y(f)的每个频谱的增益进行调整,获得频谱功率Z(f)并将其输出。
Z(f)=Y(f)×α(f)…(10)此外,本发明不限于这些实施例,而是在不脱离本发明的范围的情况下,可进行变型和修改。
本发明基于2006年3月9日在日本专利局提交的第2006-064546号日本在先申请,通过引用将其全部内容并入于此。
权利要求
1.一种增益调整方法,其调整对输入语音信号执行信号处理而获得的经处理的语音信号的增益,所述经处理的语音信号被输出到下一级,所述方法包括以下步骤计算所述经处理的语音信号的掩蔽属性的步骤;和对所述经处理的语音信号的根据所述掩蔽属性被掩蔽的各频率的增益进行调整,使得对于根据所述掩蔽属性而被掩蔽的频率之外的频率,所述经处理的语音信号和所述输入语音信号之间的差被抵消的步骤。
2.如权利要求1所述的增益调整方法,其中所述输入语音信号和所述经处理的语音信号位于频域内。
3.如权利要求2所述的增益调整方法,其中调整增益的步骤调整每个频段的增益。
4.如权利要求2所述的增益调整方法,其中调整增益的步骤调整每个频谱的增益。
5.一种增益调整装置,用于调整对输入语音信号执行信号处理而获得的经处理的语音信号的增益,所述经处理的语音信号被输出到下一级,所述装置包括掩蔽属性计算单元,用于计算所述经处理的语音信号的掩蔽属性;和调整单元,用于对所述经处理的语音信号的根据所述掩蔽属性被掩蔽的各频率的增益进行调整,使得对于根据所述掩蔽属性而被掩蔽的频率之外的频率,所述经处理的语音信号和所述输入语音信号之间的差被抵消。
6.如权利要求5所述的增益调整装置,其中所述输入语音信号和所述经处理的语音信号位于频域内。
7.如权利要求6所述的增益调整装置,其中所述增益调整单元调整每个频段的增益。
8.如权利要求6所述的增益调整装置,其中所述增益调整单元调整每个频谱的增益。
9.一种增益调整装置,其包括第一正交变换单元,用于执行正交变换,将时域内的输入语音信号变换为频域内的输入语音信号;第二正交变换单元,用于对经处理的语音信号执行正交变换,所述经处理的语音信号是对时域内的输入语音信号执行信号处理而获得的,所述正交变换将其变换为频域内的经处理的语音信号;掩蔽属性计算单元,用于计算频域内的经处理的语音信号的掩蔽属性;频率选择单元,用于从频域内的经处理的语音信号中选出根据所述掩蔽属性而被掩蔽的频率;增益确定单元,用于对由频率选择单元选出的频率中的每一个频率的增益进行确定,使得对于根据所述掩蔽属性而被掩蔽的频率之外的频率,经处理的语音信号和输入语音信号之间的差被抵消;增益调整单元,用于根据由增益确定单元确定的增益对由频率选择单元选出的频率进行增益调整;和第三正交变换单元,用于对由增益调整单元输出的频域内的语音信号执行正交变换,将其变换为时域内的语音信号,并用于输出该时域内的语音信号。
全文摘要
公开了一种增益调整方法和增益调整装置,用于调整对输入语音信号进行信号处理而获得的经处理的语音信号的增益。根据该增益调整方法,计算所述经处理的语音信号的掩蔽属性,以及如果有频率根据掩蔽属性而被掩蔽,则对每一个这样的频率调整增益,同时在未被掩蔽的频率,抵消所述经处理的语音信号和所述输入语音信号之间的差。
文档编号H03G3/20GK101034878SQ20061010110
公开日2007年9月12日 申请日期2006年6月30日 优先权日2006年3月9日
发明者白川美由纪, 铃木政直, 土永义照, 牧内孝志 申请人:富士通株式会社