声音信号处理装置以及声音信号处理方法

文档序号：2823294阅读：181来源：国知局

专利名称：声音信号处理装置以及声音信号处理方法
技术领域：
本发明公开的实施方式涉及声音信号处理装置以及声音信号处理方法。
背景技术：
近年来，在移动电话机等再生声音的装置中，为了提高再生音的音质，安装有用于抑制接收的声音信号中所包含的噪声的噪声抑制器。为了提高再生音的音质，期望噪声抑制器将讲话者的声音等本应要再生的声音信号与噪声准确地区别。因此，已经开发出一种通过解析声音信号的频谱来辨别声音信号中所包含的音的种类的技术(例如，参照专利文献I 3)。
然而，难以检测出在背景中对话的多人的说话声被合成的噪声、即多路重合噪声(babble noise)。因此,在声音信号中包含多路重合噪声的情况下,存在噪声抑制器无法抑制多路重合噪声的情况。因此，提出了一种将多路重合噪声与其他噪声分开检测的技术(例如，参照专利文献4)。专利文献I :日本特开2004-240214号公报专利文献2 日本特开2004-354589号公报专利文献3 日本特开平9-90974号公报专利文献4 :日本特开平5-291971号公报在检测多路重合噪声的公知的技术中，例如在输入的声音信号的频率分量满足下述的辨别条件的情况下，则判定为输入的声音信号中包含多路重合噪声。该辨别条件为IkHz以下的频率范围内所包含的低频带分量的功率高，高于IkHz的频率范围内所包含的高频带分量的功率不为0，且高频带分量的功率变动比与通常会话关联的比率高。然而，从与多路重合噪声不同的音源产生的音有时会满足上述的辨别条件。例如，在存在如通过使用移动电话机的讲话人的背后的车辆那样，相对于收集声音信号的话筒相对地高速移动的音源的情况下，该音源产生的音的音量在短期间内大幅度地变动。因此，相对于话筒相对地高速移动的音源产生的声音、或者该音源产生的声音与讲话人的声音混合而成的声音会满足上述的辨别条件，存在误判定为多路重合噪声的可能性。并且,若与多路重合噪声不同的声音被误判定为多路重合噪声，则由于噪声抑制器不能恰当地抑制噪声，因此存在再生音的音质降低的可能性。

发明内容
因此，本说明书的目的在于提供一种能够准确地辨别声音信号中是否包含多路重合噪声的声音信号处理装置以及声音信号处理方法。根据一个实施方式，提供一种声音信号处理装置。该声音信号处理装置具有时间频率变换部，其通过对声音信号以帧为单位进行时间频率变换，来计算声音信号的频谱；谱变化量计算部，其根据第I帧的频谱、与第I帧之前的第2帧的频谱，来计算第I帧的频谱与第2帧间的频谱的变化量；判定部，其根据该谱变化量来判定第I帧的声音信号中包含的噪声的种类。根据其他实施方式，提供一种声音信号处理方法。该声音信号处理方法包括下述处理通过对声音信号以帧为单位进行时间频率变换，来计算声音信号的频谱，并根据第I帧的频谱、与第I帧之前的第2帧的频谱来计算第I帧的频谱与第2帧间的频谱的变化量，还根据该谱变化量来判定第I帧的声音信号中包含的噪声的种类。本发明的目的以及优点通过权利要求中特别指出的要素以及组合而实现，并且被达成。上述的一般的记述以及下述的详细的记述均为例示性并且说明性的记述，应该理解其不是如权利要求那样对本发明进行限定的记述。本说明书中公开的声音信号处理装置以及声音信号处理方法能够准确地辨别声音信号中是否包含多路重合噪声。

图I是安装有第I实施方式的声音信号处理装置的电话机的概略结构图。图2(a)是表示针对多路重合噪声的频谱的时间变化的一个例子的图，图2(b)是表示针对稳定噪声的频谱的时间变化的一个例子的图。图3是表示第I实施方式的声音信号处理装置的概略结构图。图4是表示针对输入的声音信号的噪声减少处理的动作流程的图。图5是安装有第2 第4实施方式的声音信号处理装置的电话机的概略结构图。图6是第2实施方式的声音信号处理装置的概略结构图。图7是表示针对输入的声音信号的强调处理的动作流程的图。图8是第3实施方式的声音信号处理装置的概略结构图。图9是第4实施方式的声音信号处理装置的概略结构图。
具体实施例方式以下，参照附图对第I实施方式的声音信号处理装置进行说明。该声音信号处理装置通过调查被输入的声音信号的频谱的波形的时间变化，来判定是否包含多路重合噪声。并且，该声音信号处理装置在判定为包含多路重合噪声的情况下，通过与声音信号中包含其他噪声的情况相比，降低声音信号中包含的噪声的功率，来实现再生首的首质提闻。图I是安装有第I实施方式的声音信号处理装置的电话机的概略结构图。如图I所示那样，电话机I具有呼叫控制部10、通信部11、话筒12、放大器13、17、编码部14、译码部15、声音信号处理装置16、扬声器18。其中，呼叫控制部10、通信部11、编码部14、译码部15以及声音信号处理装置16分别形成为单独的电路。或者使这些各部作为一个集成有与该各部对应的电路的集成电路而被安装于电话机I。并且，这些各部还可以是通过在电话机I具有的处理器上执行的计算机程序而实现的功能模块。当通过借助了电话机I具有的键盘等操作部(未图示)的用户操作而开始通话处理时，呼叫控制部10执行电话机I与交换机、或者Session Initiation Protocol (SIP :会话启动协议)服务器之间的呼叫、应答、切断等呼叫控制处理。并且，呼叫控制部10响应该呼叫控制处理的结果，对通信部11指示动作的开始或者结束。通信部11将由话筒12收音，并被编码部14编码后的声音信号变换成符合规定的通信标准的发送用信号。并且，通信部11将该发送用信号向通信线路输出。另外，通信部11从通信线路接收符合规定的通信形式的信号，并从该接收到的信号中取出被编码的声音信号。并且，通信部11将被编码的声音信号提供给译码部15。其中，规定的通信标准可设为例如网络协议(Internet Protocol, IP)，发送用信号以及接收信号可设为IP组包后的信号。编码部14将由话筒12收音，由放大器13放大，并且由模拟_数字变换器(未图示)进行了模拟-数字变换后的声音信号编码。因此，编码部14可以使用例如，国际电信联盟电信标准化部门(International Telecommunication Union Telecommunication Standardization Sector, ITU-T)的推荐 G. 711、G722. 1，或者 G. 729A 所规定的声音编码技术。编码部14将编码后的声音信号提供给通信部11。译码部15对从通信部11接收的被编码后的声音信号进行译码。并且，译码部15将译码后的声音信号向声音信号处理装置16传送。声音信号处理装置16对从译码部15接收的声音信号进行解析，并对该声音信号中包含的噪声进行抑制。此外，声音信号处理装置16还判定从译码部15接收的声音信号中包含的噪声是否是多路重合噪声。并且，声音信号处理装置16根据声音信号中包含的噪声的种类而执行不同的噪声抑制处理。声音信号处理装置16将被实施了噪声抑制处理后的声音信号向放大器17输出。放大器17将从声音信号处理装置16接收的声音信号放大。并且，从放大器17输出的声音信号由数字-模拟变换器(未图示)进行数字-模拟变换。并且被模拟化的声音信号被输入到扬声器18。扬声器18将从放大器17接收的声音信号再生。这里，对多路重合噪声的特性与其他噪声、例如稳定噪声的特性的不同进行说明。图2 (a)是表示针对多路重合噪声的频谱的时间变化的一个例子的图，图2 (b)表示针对稳定噪声的频谱的时间变化的一个例子的图。在图2(a)以及图2(b)中，横轴表示频率，纵轴表示噪声的频谱的振幅的强度。另夕卜，在图2(a)中，曲线201表示时刻t的多路重合噪声的频谱的波形的一个例子。另一方面，曲线202表示比时刻t早规定时间的时刻(t-Ι)的多路重合噪声的频谱的波形的一个例子。另外，在图2(b)中，曲线211表示时刻t的稳定噪声的频谱的波形的一个例子。另一方面，曲线212表示时刻(t-Ι)的稳定噪声的频谱的波形的一个例子。多路重合噪声由于是多个人的声音合成而得，所以是基音频率(pitchfrequency)不同的多个声音信号重叠而成。因此，频谱在短期间内发生大幅变动。尤其，存在重叠的人的声音越多，频谱变化越大的趋势。因此，如图2(a)所示那样，时刻t的多路重合噪声的频谱的波形201与时刻(t-Ι)的多路重合噪声的频谱的波形202大不相同。与此相对，稳定噪声的波形在短期间内几乎没有变动。因此，如图2(b)所示那样，时刻t的稳定噪声的频谱的波形211与时刻(t-Ι)的稳定噪声的频谱的波形212几乎相同。例如，即使产生噪声的音源与收音的话筒之间的距离在时刻t与时刻(t-Ι)之间发生了变化，尽管频谱的强度在整体上变强或变弱，但是稳定噪声的频谱的波形本身的变化很小。因此，声音信号处理装置16通过调查输入的声音信号的频谱的波形的时间变化，能够判断输入的声音信号中包含的噪声是否是多路重合噪声。图3表不声音信号处理装置16的概略结构图。如图3所不,声音信号处理装置16具有时间频率变换部161、功率谱计算部162、噪声估计部163、声音信号辨别部164、增益计算部165、滤波部166、频率时间变换部167。声音信号处理装置16具有的这些各部分别形成为单独的电路。或者，声音信号处理装置16具有的这些各部可以作为一个集成有与所述各部对应的电路的集成电路被安装于声音信号处理装置16。并且，声音信号处理装置16具有的这些各部还可以是利用在声音信号处理装置16具有的处理器上执行的计算机程序实现的功能模块。
时间频率变换部161通过以帧为单位对输入到声音信号处理装置16的声音信号进行时间频率变换，来将该输入声音信号变换成频谱。时间频率变换部161为了将输入声音信号变换成频谱，可以使用例如高速傅立叶变换、离散余弦变换、修正离散余弦变换等时间频率变换处理。其中，帧长例如可以设为200msec。时间频率变换部161将频谱向功率谱计算部162输出。功率谱计算部162每当从时间频率变换部161接收到频谱时，便计算该频谱的功率谱。其中，功率谱计算部162根据下式来计算功率谱。[数式I]S(f) = IOlog10(IX(f) I2)(I)这里，f为频率，函数X(f)是表示针对频率f的频谱的振幅的函数。此外，函数S(f)是表示针对频率f的功率谱的强度的函数。功率谱计算部162将计算出的功率谱向噪声估计部163、声音信号辨别部164以及增益计算部165输出。噪声估计部163每当接收到各帧的功率谱时，便根据该功率谱计算与声音信号中包含的噪声分量相当的估计噪声谱。一般而言，噪声的音源与对输入到电话机I的声音信号进行收音的话筒之间的距离比话筒与朝向该话筒讲话的讲话人之间的距离远。因此，噪声分量的功率比讲话人的声音的功率小。因此，噪声估计部163针对输入到电话机I的声音信号的各帧中的、功率谱较小的帧，按照将包含输入信号的频带分割成多个而得到的子频带的每个子频带来求出功率的平均值，由此计算估计噪声谱。其中，子频带的范围例如可以为将OHz 8kHz的范围1024等分或者256等分而得到的范围。具体而言，噪声估计部163按照帧的时间顺序，对最新的帧，根据下式计算包含输入到电话机I的声音信号的频带整体的功率谱的平均值P。[数式2]P = -(2)这里M为子频带的数。另外，flOT表示最低的子频带，fhigh表示最高的子频带。接下来，噪声估计部163对最新的帧的功率谱的平均值P、与相当于噪声分量的功率的上限的阈值Thr进行比较。其中，阈值Thr例如被设定为IOdB 20dB的范围内的任意的值。并且，噪声估计部163在平均值P小于阈值Thr的情况下，通过对各子频带，按照下式将功率谱在时间方向进行平均，来计算针对最新的帧的估计噪声谱Nm(f)。[数式3]Nm (f) = a * Nm^1 (f) + (I-α) · S (f)(3)其中，Nnri (f)是针对最新的帧的前一个帧的估计噪声谱，从噪声估计部163具有的缓冲器被读入。另外，系数α例如被设定为O. 9 O. 99中的任意的值。另一方面，当平均值P在阈值Thr以上时，估计为最新的帧中包含噪声以外的分量，因此噪声估计部163不更新估计噪声谱。即，噪声估计部163设定Nm (f) = Nnri (f)。另外，噪声估计部163还可以代替计算功率谱的平均值P,而求出全部的子频带的功率谱中的最大值，并将该最大值与阈值Thr进行比较。噪声估计部163将估计噪声谱向增益计算部165输出。另外，噪声估计部163将针对最新的帧的估计噪声谱存储在噪声估计部163具有的缓冲器中。声音信号辨别部164每当接收到各帧的功率谱时，便对包含在该帧中的噪声的种类进行辨别。因此，声音信号辨别部164具有谱归一化部171、波形变化量计算部172、缓冲器173、判定部174。谱归一化部171将接收到的功率谱归一化。例如，谱归一化部171根据下式，计算归一化功率谱S' (f)，以使得与各子频带中的功率谱的平均值对应的归一化功率谱S' (f)的强度为I。[数式4]
权利要求
1.ー种声音信号处理装置，其特征在于，具有时间频率变换部，其对声音信号以帧为单位进行时间频率变换，由此来计算该声音信号的频谱；谱变化量计算部，其根据第I帧的频谱、和所述第I帧之前的第2帧的频谱，计算所述第I帧的频谱与所述第2帧间的频谱的变化量；和判定部，其根据所述谱变化量来判定所述第I帧的声音信号中包含的噪声的种类。
2.根据权利要求I所述的声音信号处理装置，其特征在干，还具有谱归ー化部，该谱归一化部根据各帧的所述频谱来计算归一化谱，该归ー化谱是被归一化为所述频谱的振幅的最大值或者平均值成为规定值的频谱，所述谱变化量计算部根据所述第I帧的归一化谱和所述第2帧的归ー化谱，来计算所述频谱的变化量。
3.根据权利要求I或者2所述的声音信号处理装置，其特征在干，所述谱变化量计算部按照对频带进行分割而得到的多个子频带的每个子频带来计算所述频谱的变化量。
4.根据权利要求3所述的声音信号处理装置，其特征在干，所述谱变化量计算部根据各子频带的所述第I帧的归一化谱与所述第2帧的归ー化谱之间的差的绝对值的合计值，来计算所述频谱的变化量。
5.根据权利要求4所述的声音信号处理装置，其特征在干，还具有权重决定部，在对频带进行分割而得到的多个子频带中，该权重决定部将所述第I帧的频谱的振幅比所述第2帧的频谱的振幅大的子频带的权重系数设定为大于所述第I帧的频谱的振幅在所述第2帧的频谱的振幅以下的子频带的权重系数，所述波形变化量计算部按照每个所述子频带，对所述权重系数乘以对应的所述差的绝对值而得到的值进行合计，由此来计算所述波形变化量。
6.根据权利要求4所述的声音信号处理装置，其特征在干，还具有权重决定部，在所述第I帧的频谱的振幅的平均值比第I值大的情况下，该权重决定部将各所述子频带的权重系数设定为大于所述第I帧的频谱的振幅的平均值在第2值以下的情况下的各所述子频带的权重系数，其中，所述第2值比所述第I值小，所述波形变化量计算部按照每个所述子频带，对所述权重系数乘以对应的所述差的绝对值而得到的值进行合计，由此来计算所述波形变化量。
7.根据权利要求I至6中的任意一项所述的声音信号处理装置，其特征在干，在所述波形变化量比与ー个人的声音的波形变化量相当的阈值大的情况下，所述判定部判定为所述第I帧的声音信号中包含的噪声的种类是多个人的声音合成而得的噪声。
8.根据权利要求I至7中任意一项所述的声音信号处理装置，其特征在干，该声音信号处理装置还具有噪声估计部，其估计所述声音信号中包含的噪声分量的功率谱；増益计算部，其根据噪声分量的功率谱与所述频谱的功率谱来计算增益；滤波部，其通过对所述频谱乘以所述增益来计算噪声减少谱；和频率时间变换部，其将所述噪声減少谱变换成时间信号，由此来计算输出信号，所述增益计算部使由所述判定部判定为所述第I帧的声音信号中包含的噪声的种类是多个人的声音合成而得的噪声的情况下的増益大于由所述判定部判定为所述第I帧的声音信号中包含的噪声的种类不是多个人的声音合成而得的噪声的情况下的増益。
9.根据权利要求I至7中任意一项所述的声音信号处理装置，其特征在干，该声音信号处理装置还具有噪声估计部，其估计所述声音信号中包含的噪声分量的功率谱；増益计算部，其根据所述频谱的功率谱与噪声分量的功率谱之间的差、和规定的阈值的比较来计算增益；滤波部，其通过对所述频谱乘以所述增益来计算噪声減少谱；和频率时间变换部，其将所述噪声減少谱变换成时间信号，由此来计算输出信号，所述增益计算部使被判定为所述第I帧的声音信号中包含的噪声的种类是多个人的声音合成而得的噪声的情况下的所述阈值大于被判定为所述第I帧的声音信号中包含的噪声的种类不是多个人的声音合成而得的噪声的情况下的所述阈值。
10.根据权利要求I至7中任意一项所述的声音信号处理装置，其特征在干，该声音信号处理装置还具有第2时间频率变换部，其以帧为单位对第2声音信号进行时间频率变换，由此来计算该第2声音信号的频谱；増益计算部，其基于噪声的判定结果，计算对输入信号进行放大的每ー个频带的增益；滤波部，其对第2声音信号的频谱乘以每个频带的増益，由此计算强调谱；和频率时间变换部，其将所述强调谱变换成时间信号，由此计算输出信号，所述增益计算部将由所述判定部判定为所述第I帧的声音信号中包含的噪声的种类是多个人的声音合成而得的噪声的情况下的増益设定为大于由所述判定部判定为所述第I帧的声音信号中含有的噪声的种类不是多个人的声音合成而得的噪声的情况下的増益。
11.根据权利要求I至7中任意一项所述的声音信号处理装置，其特征在干，该声音信号处理装置还具有反相声音生成部，其使用预先设定的滤波器对所述声音信号进行卷积处理，由此生成所述声音信号的反相声音；和滤波部，其将所述反相声音重叠于第2声音信号，所述反相声音生成部保持预先设定的多个滤波器，在由所述判定部判定为所述第I帧的声音信号中包含的噪声的种类是多个人的声音合成而得的噪声的情况下、和除此之外的情况下，对滤波器进行切換来使用。
12.根据权利要求I至7中任意一项所述的声音信号处理装置，其特征在干，该声音信号处理装置还具有反相声音生成部，其使用滤波器对所述声音信号进行卷积处理，由此生成所述声音信号的反相声音；滤波器更新部，其基于误差信号对所述滤波器进行更新；和滤波部，其将所述反相声音重叠于第2声音信号，所述反相声音生成部保持多个滤波器，在由所述判定部判定为所述第I帧的声音信号中包含的噪声的种类是多个人的声音合成而得的噪声的情况下、和除此之外的情况下，对所述滤波器进行切換来使用，所述滤波器更新部对所述反相声音生成部所使用的滤波器进行更新。
13.根据权利要求I所述的声音信号处理装置，其特征在于，还具有増益计算部，所述波形变化量越大，该增益计算部将増益设定得越大；和滤波部，其执行滤波处理，即所述増益越大，则使与所述声音信号分别输入的第2声音信号越大。
14.ー种声音信号处理方法,其特征在于，以帧为单位对声音信号进行时间频率变换，由此来计算该声音信号的频谱，根据第I帧的频谱和所述第I帧之前的第2帧的频谱，来计算所述第I帧的频谱与所述第2帧间的频谱的变化量，根据所述谱变化量来判定所述第I帧的声音信号中包含的噪声的种类。
15.根据权利要求14所述的声音信号处理方法,其特征在于，还包括根据各帧的所述频谱来计算归ー化谱，该归一化谱是被归ー化为所述频谱的振幅的最大值或者平均值成为规定值的频谱，计算所述频谱的变化量是指，根据所述第I帧的归一化谱和所述第2帧的归一化谱来计算所述频谱的变化量。
全文摘要
一种声音信号处理装置，具有对声音信号以帧为单位进行时间频率变换，由此来计算声音信号的频谱的时间频率变换部；根据第1帧的频谱、与第1帧之前的第2帧的频谱，来计算第1帧的频谱与第2帧间的频谱的变化量的谱变化量计算部；和根据该谱变化量，来判定第1帧的声音信号中包含的噪声的种类的判定部。
文档编号G10L21/02GK102804260SQ20098015992
公开日2012年11月28日申请日期2009年6月19日优先权日2009年6月19日
发明者大谷猛, 外川太郎, 铃木政直, 大田恭士申请人:富士通株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：大谷猛;外川太郎;铃木政直;大田恭士
技术所有人：富士通株式会社
我是此专利的发明人

上一篇：声音再生装置和声音再生方法
上一篇：用于音乐弦乐器的共鸣板支柱结构系统的制作方法