声音信号处理装置和语音强度计算方法

文档序号：2822372阅读：315来源：国知局

专利名称：声音信号处理装置和语音强度计算方法
技术领域：
本发明涉及一种声音信号处理装置，该装置用于从一个包含诸如环境噪声、背景噪声等的环境声音以及语音的输入声音信号中分离语音并且用于衰减环境声音以便强调语音，还涉及一种用于该声音信号处理装置的一种语音强度计算方法。
背景技术：
在诸如移动电话和语音识别这样的应用中，需要抑制包含在一个采拾到的声音信号或一个可听见的信号中的诸如环境噪声和背景噪声这样的噪声，以便强调语音成分以及分离噪声和语音。
同样地，已知了例如日本未经审查的专利申请公开号2000-81900和8-79897中公布的一种用于分离语音和噪声的常规技术，一种通过使用多个扩音器、根据由各个扩音器采拾到的声音信号中的差异来分离语音和噪声的方法。此外，如日本未经审查的专利申请公开号2001-42886和2000-222000中所公布的，已知了一种在一个特定时序的时间了解环境声音的方法。在，例如，日本未经审查的专利申请发表号2003-70097中，公布了一种方法，其中在一个固定的时段中的最小平均幅度值被假定为噪声，并且对于环境声音和语音的决定是根据与该值的数量关系做出。
正如本发明者所认识到的，上述常规技术具有以下问题。
在日本未经审查的专利申请公开号2000-81900和8-79897中所公布的使用了多个扩音器的技术的情况下，要求扩音器的间距等于或大于一个最小的固定间距。在定向扩音器的情况下，方向需要根据一个目标的移动而被更改。
在日本未经审查的专利申请公开号2001-42886和2000-222000中公布的环境声音被了解的技术的情况下，了解环境声音需要一个必要且足够长时间的环境声音，并且该技术缺乏一般通用性。
在日本未经审查的专利申请公开号2003-70097中公布的技术的情况下，不可能处理一个大幅度的噪声，并且当一个固定时段整体只是语音或只是环境声音时难以做出决定。

发明内容
考虑到这样的常规系统和方法的局限性而产生了本发明。本发明的一个目的是通过，例如，提供一个声音信号处理装置以解决常规系统和方法的以上标识出的和其他的局限性，并且提供用于声音信号处理装置的一种语音强度计算方法，其中该声音信号处理装置能够通过用被一个扩音器采拾的或从一个记录介质重放的一个声音信号作为一个输入来用一个简单的配置或用少量处理来确定语音可能性或语音的一个强度，并且能够容易地在一个输入声音信号上执行语音分离或噪声抑制和语音强调。
为了实现上述目的，在一方面内容中，本发明提供了一种处理器实现的声音信号处理装置，该装置包括一种由嗓音生成的声音的强度的计算机制，其被配置为计算和输出被输入到其中的一个声音信号中的由嗓音生成的声音的强度的标记，所述声音信号包括一个由嗓音生成的声音和环境声音；以及一个语音处理器，其被配置为根据由所述的由嗓音生成的声音的强度的计算机制输出的由嗓音生成的声音的强度的标记，描述所述输入声音信号的特征，其中所述的由嗓音生成的声音的强度的计算机制被配置为根据所述的输入声音信号的一个波形的波长方向中的特征计算由嗓音生成的声音的强度的标记。(所述波长方向换句话说是时间方向。)所述的由嗓音生成的声音的强度的计算机制可包括一个声音强度计算机制；所述的由嗓音生成的声音是语音；并且所述的语音处理器被配置为根据由所述的由嗓音生成的声音的强度的计算机制所确定的所述声音信号中的语音的强度，来描述所述的输入声音信号的特征。
所述的波长方向中的特征通常是在所述声音信号的波形的周期的持续时间上变化、或者在所述声音信号的波形的水平方向上变化。
所述的语音强度计算机制可被配置为，以按所述声音信号的预定的时间长度单位被切割的帧为单位，计算语音的强度。
所述的语音强度计算机制可包括一个半波长增大和减小重复率计算机制，其被配置为计算所述声音信号的一个波形的半波长的重复率中的增大和减小；被配置为计算所述声音信号的波形的半波长的零交叉率的一个零交叉率计算机制；以及一个由嗓音生成的声音的强度的输出机制，其被配置为根据来自所述的半波长增大和减小重复率计算机制的一个输出和来自所述的零交叉率计算机制的一个输出，输出由嗓音生成的声音的强度的标记。
所述的半波长增大和减小重复率计算机制可被配置为，根据所述声音信号的波形的一个向上的半波长变化以致交替增大和减小、或者变化以致交替减小和增大的波形部分的比率，并且根据所述声音信号的波形的一个向下的半波长变化以致交替增大和减小、或者变化以致交替减小和增大的波形部分的比率，来计算所述的波形的半波长的增大和减小重复率。
所述的半波长增大和减小重复率计算机制可包括，被配置为调整由所述的半波长增大和减小重复率计算机制产生的所述的半波长的重复率的一个第一输出值调整机制。
所述的零交叉率计算机制包括，被配置为调整由所述的零交叉率计算机制产生的所述的零交叉率的一个第二输出值调整机制，并且所述的第一和第二输出值调整机制被配置为调整和提供各自的输出值给所述的由嗓音生成的声音的强度的输出机制。
所述的由处理器实施的声音信号处理装置进一步包括被配置为将所述的声音信号分割成多个频率带的一个带分割机制，其中所述的由嗓音生成的声音的强度的计算机制被配置为，为每个频带计算所述的由嗓音生成的声音的强度的标记，并且所述的语音处理器被配置为根据计算出的每个频带的由嗓音生成的声音的强度来处理每个频带。
在另一方面内容中，本发明提供了一种用于计算由嗓音生成的声音的强度的标记的方法，所述方法包括以下步骤以一个预定长度的帧为单位切割一个输入声音信号的一个波形；计算并输出输入其中的一个声音信号中的由嗓音生成的声音的强度的标记，所述的声音信号包括一个由嗓音生成的声音和环境声音；以及根据所述的由嗓音生成的声音的强度的标记，描述所述的输入声音信号的特征；其中所述的计算步骤包括，根据所述的输入声音信号的一个波形的波长方向中的特征计算所述的由嗓音生成的声音的强度的标记。
在另一方面内容中，本发明提供了一个计算机程序产品，所述计算机程序产品具有在被一个处理器执行时实现包括以下步骤的计算机可读指令以一个预定长度的帧为单位切割一个输入声音信号的一个波形；计算并输出输入其中的一个声音信号中的由嗓音生成的声音的强度的标记，所述的声音信号包括一个由嗓音生成的声音和环境声音；以及根据所述的由嗓音生成的声音的强度的标记，描述所述的输入声音信号的特征；其中所述的计算步骤包括，根据所述的输入声音信号的一个波形的波长方向中的特征计算所述的由嗓音生成的声音的强度的标记。
在另一方面内容中，本发明提供了一个能被一台计算机执行的程序，所述程序包括以下步骤以一个预定长度的帧为单位切割一个输入声音信号的一个波形；计算并输出输入其中的一个声音信号中的由嗓音生成的声音的强度的标记，所述的声音信号包括一个由嗓音生成的声音和环境声音；以及根据所述的由嗓音生成的声音的强度的标记，描述所述的输入声音信号的特征；其中所述的计算步骤包括，根据所述的输入声音信号的一个波形的波长方向中的特征计算所述的由嗓音生成的声音的强度的标记。
在另一方面内容中，本发明提供了一个处理器实现的声音信号处理装置，所述装置包括以一个预定长度的帧为单位切割一个输入声音信号的一个波形的装置；计算并输出所述的切割装置输入其中的一个声音信号中的由嗓音生成的声音的强度的标记的装置，所述的声音信号包括一个由嗓音生成的声音和环境声音；以及根据所述的由嗓音生成的声音的强度的标记描述所述的输入声音信号的特征的装置；其中所述的计算装置包括根据所述的输入声音信号的一个波形的波长方向中的特征计算所述的由嗓音生成的声音的强度的标记的装置。
在本发明中，所述的输入声音信号经历一个以帧为单位的波形切割过程，一帧中的一个半波长的增大和减小率被计算，一帧中的零交叉率被计算，并且利用每个所述的计算出的比率确定所述的由嗓音生成的声音的强度。根据这个确定出的由嗓音生成的声音的强度，用于分离和强调/衰减由嗓音生成的声音和背景噪声的过程被执行。

图1是示意性地显示根据本发明的一个实施例的一个声音信号处理装置的配置的一幅框图；图2是显示用于本发明的实施例中的一个语音的强度的计算部件的配置的一个例子的一幅框图；图3是显示一个声音信号的一个波形的一个例子的一幅波图；图4是为了图解一个半波长的一个增大和减小而显示一个声音信号波形的一个例子的一幅波图；图5是为了图解一个半波长的零交叉而显示一个声音信号波形的一个例子的一幅波图；图6是由显示本发明的实施例的操作的一幅流程图近似的一个图解；图7是为了图解一个半波长的水平方向中的中点的偏离而显示一个波形的一个例子的一幅波图；图8显示了抖动(或变化强度)和语音(或由嗓音生成的声音)可能性之间的关系；图9是显示在只有由嗓音生成的声音(在此例中是语音)的情况下的一个声音信号波形的一个例子的一幅波图；图10是显示其中混合了环境声音的语音的情况下的一个声音信号波形的一个例子的一幅波图；图11是显示当没有一个波形的抖动时一个声音信号波形的一个例子的一幅波图；图12是显示用于本发明的一个实施例中的一个半波长增大和减小重复率计算部件的配置的一个例子的一幅框图；图13是显示根据本发明的一个实施例使用的一个零交叉率计算部件的配置的一个例子的一幅框图；图14是为了图解一个向上的半波长和一个向下的半波长的增大和减小重复率而显示一个声音信号波形的一个例子的一幅波图；图15是显示为了图解另一种计算一个向上的半波长和一个向下的半波长的增大和减小重复率的方法而显示一个声音信号波形的一个例子的一幅波图；图16是显示一个输入声音信号的一个波形的一个例子的一幅波图；图17显示了一个输出值，该输出值是一个向上的半波长重复率计算结果；图18显示了一个输出值，该输出值是一个向下的半波长重复率计算结果；图19显示了一个输出值，该输出值是一个零交叉率计算结果；图20显示了一个输出值，该输出值是一个语音强度计算结果；图21是示意性地显示发明的另一个实施例的一个声音信号处理装置的配置的一幅框图；以及图22是用于实现本发明的一个实施例的一个基于处理器的机制的一幅框图。
具体实施例方式
现在下文中将参考附图详细描述本发明所应用到的特定实施例。
图1是示意性地显示根据本发明的一个实施例具有一个语音分离功能的一个声音信号处理装置的配置的例子的一幅框图。
图1中所示的声音信号处理装置包括一个声音信号输入部件10，被一个扩音器声电转换的一个声音信号、从一个记录介质被重放的一个声音信号等被输入其中；用于以一个预定的时间长度(帧)为单位切割一个输入声音信号的一个波形切割部件20；用于计算被切割的波形是语音(或者更一般性地是由嗓音生成的音频)的强度的一个语音强度计算部件30；以及用于根据从语音强度计算部件30输出的值处理一个输入声音信号的一个语音处理部件40。语音处理部件40，例如，主要执行用于分离输入声音信号的语音和环境声音(噪声，例如环境噪声和背景噪声)以及用于衰减环境声音和强调语音的处理。
图1的语音强度计算部件30根据波形方向中的输入声音信号的波形的特征计算语音的强度。如，例如，图2所示，语音强度计算部件30包括一个半波长增大和减小重复率计算部件31，其用于计算极值(该半波长的最大和最小)间的一个半波长(或半周期，+/-一个预定的量，例如10％、3％、1％，或者几乎准确地)的长度相对于每个被切割的帧的波形重复地增大或减小的一个比率；用于计算被切割的波形中包含的半波长间的零交叉率的一个零交叉率计算部件32；以及用于根据从半波长增大和减小重复率计算部件31和零交叉率计算部件32获得的两个比率计算和输出语音的强度的一个语音强度输出部件33。
接下来，给出对于根据处理程序的图1和图2中所示的配置中的每个部件的操作的描述。
首先，图1所示的声音信号输入部件10接收一个声音信号。这个输入的声音信号可以是任何信号。其例子包括被一个扩音器采拾到的一个声音信号，通过接收一个电视广播、一个无线电广播等获得的一个声音信号，以及通过重放一个记录介质，例如一张CD、一张DVD、一盘磁带、一盘录像带和一个半导体存储卡，获得的一个声音信号。来自声音信号输入部件10的声音信号是，例如，一个数字信号，以便适应后续阶段中一个电路部件处的数字处理。
接下来，波形切割部件20将声音信号切割成一个特定的长度。这里，被切割的周期被称为一“帧”。帧长度为，例如，1000个采样点。但是，帧长度不限于此采样数并且也不需要是固定的。此外，前一帧和后一帧的部分可彼此交迭。就周期数而论，首选地，2个周期是对于检测信号特征(例如一个目标语音的音调)有效的最小值。当使用根据本发明的半波长处理时，至少3个波长(周期)是首选的，以便可靠地将由嗓音生成的声音从混合的信号中分离出来。
被波形切割部件20切割的帧的声音信号的语音强度被语音强度计算部件30所确定。语音强度计算部件30具有例如图2所示的一个配置，并且对于每一帧、为极值间的每个半波长执行处理，如图3所示。在图3中，从相对最小值到相对最大值的周期被表示为一个向上的半波长UH，而从相对最大值到相对最小值的周期被表示为一个向下的半波长DH。
在图2的半波长增大和减小重复率计算部件31中，通过只查看帧中的向上的半波长UH或者只查看帧中的向下的半波长，半波长的长度变化重复地交替增大或减小的比率被计算。即，检查当前感兴趣的第n个向上的半波长UHn的长度(按时间)与之前的第n-1个向上的半波长UHn-1相比是否增大或减小。帧中的此增大和减小像“增大、减小、增大和减小”这样交替，其比率被确定。至于向下的半波长，类似地，帧中的此增大和减小像“增大、减小、增大和减小”这样交替，其比率被确定。根据两个比率，帧中的半波长增大和减小重复率被确定。
例如，在图4中，对于向上的半波长UH的每个长度，UH2比UH1增大，UH3比UH2减小，UH4比UH3增大，UH5比UH4减小。对于向下的半波长DH中的每个波长，DH2比DH1增大，DH3比DH2减小，DH4比DH3增大，UH5比UH4减小。半波长增大和减小重复率计算部件31对向上的半波长UH和向下的半波长DH确定在帧中这样的增大和减小的部分重复地交替出现的比率，根据两个比率的平均、乘积和加权平均等确定帧中的半波长增大和减小重复率，并且将比率发送给语音强度输出部件33。稍后将参考附图描述半波长增大和减小重复率计算部件31的一个更特定的配置和操作。
在图2的零交叉率计算部件32中，帧中的半波长内具有一个零交叉的半波长的比率被确定。例如，在图5中，向上的和向下的半波长UH1、DH1、UH2、DH2、UH3和DH5中的每一个具有一个零交叉，而DH3、UH4、DH4、UH5不具有零交叉。在图5的情况中，10个半波长内具有一个零交叉的半波长(6)的比率本身被确定为6/10＝0.6。这在帧中的所有半波长上被执行，并且正如稍后将描述的那样，输出调整在必要时被执行，以便确定帧中的半波长内具有一个零交叉的半波长的比率。该比率被发送给语音强度输出部件33。
在图2的语音强度输出部件33中，根据来自半波长增大和减小重复率计算部件31的比率和来自零交叉率计算部件32的比率确定语音强度。例如，每个输出的平均、乘积、加权和等被考虑。来自语音强度输出部件33的输出(语音强度)作为来自图1中的语音强度计算部件30的输出被发送给语音处理部件40。
在语音处理部件40中，在来自波形切割部件20的每个帧的语音波形上，利用从语音强度计算部件30输出的语音强度执行分离或强调/衰减语音和背景噪声的一个处理，形成一个输出波形。例如，可执行通过用语音强度作为一个放大倍率来输出与帧的语音波形的乘积的处理。
上述程序被一幅流程图近似的显示在图6中。在图6中，在步骤S1中，输入的声音信号经历一个以帧为单位的波形切割过程。在步骤S2中，帧中的半波长增大和减小率被计算。在步骤S3中，帧中的零交叉率被计算。在步骤S4中，利用以上步骤S2和S3中计算的每个比率确定语音的强度。在步骤S5中，对于步骤S1中切割的每帧，在声音信号上根据步骤S4中获得的语音的强度进行分离或强调/衰减语音和背景噪声的语音处理。
本发明的实施例的要点是输入声音信号的波形是“语音”还是“环境声音(一辆车辆的行进声音、风声、噪声)”被辨别。即，正如在常规情况中那样，在用于根据水平大小简单辨别语音和环境声音的一种技术中，有这样一个缺点甚至高水平的噪声也被视为语音。因此，在本发明的实施例中，在每个时间，波形是“语音”还是“环境声音”被转换成作为“语音可能性”的数字。其原因是环境声音和语音都可能被包含，并且通过它们任一个的二进制值来确定是困难的。“语音可能性”这个词是用来指一个固定的周期中的波形是语音的可能性、或者用来指波形中包含的语音波形的比率。
用于本发明的实施例中的技术专用于元音部分。由于语音的元音部分是由一个基频及其谐音成分组成的，因此波长变得稳定。在本发明的实施例中，一个波长是从一个相对最大值点到下一个相对最大值点或从一个相对最小值点到下一个相对最小值点。由于此原因，一般地，如果波长的抖动的特征被正确地描述，则波长总是变成“总是一个固定的值-＞没有抖动”或“在一个固定的范围中变化-＞抖动存在”。在本发明的实施例中，“抖动”意味着此半波长“增大、减小、增大和减小”的部分中的变化量或波动，并且在作为对语音可能性的一个参考的一个例子中，还意味着在零交叉基础上波形在水平方向的变化(或中点的偏离)。
更具体地，在本发明的实施例中，两种类型的抖动，即“波长的抖动”(增大/减小变化的量)和“水平方向的抖动”(零交叉的量)被定义。在每种情况中，抖动发生在下列情况中。
首先，“波长的抖动”这个短语表示向上的半波长或向下的半波长的长度的交替变化，例如“增大、减小、增大和减小”。接下来，“水平方向的抖动”这个短语表示半波长不零交叉的一种情况。这里，正如“水平方向中的抖动”那样，半波长的水平方向中的中点偏离零交叉一个预定的量的一种情况可被使用。在此情况中，如图7所示，作为一个例子，通过在半波长的幅度方向中偏离中点的强度A/B确定“水平方向中的抖动”。
在每个抖动和语音可能性之间的关系中，就“波长的抖动”而言，抖动越多，即半波长的长度变化为“增大、减小、增大和减小”的波长越多，则是语音的可能性越高。就“水平方向中的抖动”而言，抖动越小，即不零交叉的半波长的比率越小或者半波长的水平方向中的中点离零交叉越近，则是语音的可能性越高。作为更特定的尽管非限制性的例子，以下重复率(例如增大、减小、增大)被显示来对应以下可能性等级。
约40％或更小-没有由嗓音生成的声音(VSG)约40％至60％-低语音/VGS可能性约60％至80％-高语音/VGS可能性约80％或更多-很高的语音/VGS可能性对零交叉率而言，以下非限制性的例子描述了相关的可能性等级。
约50％或更小-没有由嗓音生成的声音约50％至70％-低语音/VGS可能性约70％至85％-高语音/VGS可能性约85％或更多-很高的语音/VGS可能性已知如果声音信号波形的频谱被获得，则有一个特定基频的谐波结构。一般地，基频对应于表示声音的高度的一个音调，并且也被称为一个“音调频率”。例如，一个峰出现在是音调频率的一个整数倍那么高的位置处。此外，至于对应于声音信号波形中的相邻峰的音调周期，一个实际波形信号包含比音调频率长的波长成分。特别地，两倍那么高的音调周期的成分相对垄断地出现。所述两倍那么高的音调周期的成分对应于以下事实当被向上的半波长或向下的半波长所查看时，长度变化中的增大和减小重复地交替出现。使得半波长的长度的变化为“增大、减小、增大和减小”这样的波长越多，是语音的可能性越高。这不仅在人嗓音的情况下在一定程度上成立，而且在包含乐器音质的一个所谓的音乐声音信号的情况中也是这样。在本发明的实施例中，包含音乐声音和环境声音(噪声)的一个语音信号可被分离或强调/衰减。
以上所描述的抖动和语音可能性的关系被总结在图8中，并且被用涉及图17至21的例子进一步讨论。当输入声音信号只是语音时的一个波形的例子被显示在图9中。其中混合了环境声音的一个声音信号的波形的例子被显示在图10中。其中没有波长抖动的波形的例子被显示在图11中。
正如从图8可见的，在波长的抖动大处，它对应于语音，而在波长抖动小处，它对应于环境声音。在水平方向的抖动大处，它对应于环境声音，而在水平方向抖动小处，它对应于语音。
图9显示了一个输入声音信号的波形的波长的抖动交替出现为“增大、减小、增大和减小”并且只有语音存在的情况。图10显示了有许多非零交叉部分并且水平方向的抖动大的一种情况，并且显示了输入声音信号被混合了环境声音(噪声)。
图11显示了半波长只增大并且波长无抖动因此语音/VGS的可能性非常低的一个波形的例子。
接下来，参考附图，给出对用于确定语音可能性或一个语音强度的半波长增大和减小重复率计算和零交叉率计算的一个更特定的例子的描述。
图12是显示图2的半波长增大和减小重复率计算部件31的配置的一个特定例子的一幅框图。图13是显示图2的零交叉率计算部件32的配置的一个特定例子的一幅框图。
图12中所示的半波长增大和减小重复率计算部件31包括一个向上的半波长增大和减小重复率计算部件51、一个向下的半波长增大和减小重复率计算部件52，在图1的波长切割部件20中被以帧为单位切割的一个声音信号的波形被输入到部件51和52，一个用于对从向上的半波长增大和减小重复率计算部件51和向下的半波长增大和减小重复率计算部件52输出的比率积分的半波长增大和减小重复率积分部件53，以及用于调整和输出来自半波长增大和减小重复率积分部件53的输出值的一个输出值调整部件54。来自输出值调整部件54的输出被发送到语音强度输出部件33。输出值调整部件54可被省略。
接下来，参考图14，给出对图12的向上的半波长增大和减小重复率计算部件51和向下的半波长增大和减小重复率计算部件52的操作的一个描述。在此情况中，对于向上的半波长和向下的半波长执行相同的处理。
在向上的半波长增大和减小重复率计算部件51中，首先，帧中的三个相邻半波长的长度的变化交替为“增大和减小”或“减小和增大”的集合的数目被表示为Aup。当帧中的所有向上的半波长的数目被表示为Nup时，向上的半波长增大和减小重复率Rup由Rup＝Aup/(Nup-2)定义。至于向下的半波长增大和减小重复率计算部件52的向下的半波长，Rdown由Rdown＝Adown/(Ndown-2)定义。
在图14的例子中，UH2比向上的半波长的UH1增大，UH3比UH2减小，UH4比UH3增大。DH2比向下的半波长DH1减小，DH3比DH2增大，DH4比DH3增大，DH5比DH4增大。即，UH1到UH3的集合是“增大和减小”，UH2到UH4的集合是“减小和增大”，UH3到UH5的集合是“增大和减小”，UH1到UH3的集合是“减小和增大”。因此，在图14的例子中，Rup和Rdown被计算如下Rup＝Aup/(Nup-2)＝2/(5-2)＝0.67Rdown＝Adown/(Ndown-2)＝1/(5-2)＝0.33.
分别由向上的半波长增大和减小重复率计算部件51和向下的半波长增大和减小重复率计算部件52按上述方式确定的向上的和向下的半波长增大和减小重复率Rup和Rdown被发送到半波长增大和减小重复率积分部件53，藉此他们被积分。在此积分方法的一个例子中，Rup和Rdown的乘积、平均、较大值和较小值被确定。来自半波长增大和减小重复率积分部件53的输出被发送到输出值调整部件54，用于调整一个值范围。例如，输出值被更改到从0.0至1.0的范围，并且被输出。在此处理的一个例子中，当到输出值调整部件54的一个输出被表示为“in”，并且来自输出值调整部件54的一个输出被表示为“out”时，以下成立out=0if(in<TH)(in-TH)/(1.0-TH)else---(1)]]>其中TH是大于或等于0并且小于1的一个阈值(0≤TH＜1.0)。由于“增大和减小”交替的比率的期望值是0.5，因此TH最好是一个大于该值的值。输出值调整部件54可以被省略。
作为向上的半波长增大和减小重复率计算部件51和向下的半波长增大和减小重复率计算部件52中的一种计算方法，除了以上描述的对切割后的帧中的三个半波长的长度的变化是“增大和减小”或“减小和增大”的情况计数的方法外，不同的方法可被使用。其例子包括一种确定“增大和减小”或“减小和增大”交替继续的长度的最大值的方法，以及确定“增大和减小”或“减小和增大”交替继续的长度的变化的方法。以下参考图15描述这些方法。在图15的波形的例子中，“增大和减小”或“减小和增大”交替继续的长度的数目就向上的半波长而言是在一个部分“a”中是“3”，在一个部分“b”中是“2”，在一个部分c中是“2”，而就向下的半波长而言该数目是在一个部分d中是“1”，在一个部分e中是“4”，在一个部分f中是“1”。
确定“增大和减小”或“减小和增大”交替继续的长度的最大值的方法是使得“增大和减小”或“减小和增大”交替继续的长度的数目的最大值对于切割后的帧中的每个向上的半波长以及对于每个向下的半波长被确定。例如，在图15的波形的例子中，“增大和减小”交替继续的长度的数目对于向上的半波长是“3”，对于向下的半波长是“4”。
作为确定“增大和减小”或“减小和增大”交替继续的长度的变化的方法的一个例子，如果要对向上的半波长和向下的半波长确定的变化分别被表示为Vup和Vdown，则这些变化由以下方程来定义。
vup＝(Aveup/Varup)/(Nup-2)vdown＝(Avedown/Vardown)/(Ndown-2)其中Aveup和Avedown分别是向上的和向下的半波长的增大和减小重复长度的平均值，Var是增大和减小重复长度的一个方差，Nup和Ndown分别是向上的和向下的半波长的数目。
在图15的例子中，Vup和Vdown被计算如下。
vup＝(2.33/0.22)/(9-2)＝1.5vdown＝(2/2)/(9-2)＝0.14但是，如果让这些值保持现在的样子，则输出值未落进0到1的范围内。因此，Vup和Vdown需要被输出值调整部件54所调整。更具体的，下面的方程(2)中所示的一个S形函数被用作一个例子。
out=11+e-in/α---(2)]]>其中“in”是到输出值调整部件54的一个输入，“out”是来自输出值调整部件64的一个输出，α是一个参数。
接下来，图13中所示的零交叉率计算部件32包括一个零交叉率计算部件56，被图1的波形切割部件20以帧为单位切割的一个声音信号的波形被输入到其中，以及用于调整和输出来自零交叉率计算部件56的输出值的一个输出值调整部件57。来自输出值调整部件57的输出作为零交叉率计算部件32的输出被发送到图2的语音强度输出部件33。输出值调整部件57可被省略。
在零交叉率计算部件32中，(具有一个零交叉的半波长的数目)/(所有半波长的数目)被确定为零交叉率，并且作为一个零交叉率输出值被发送到输出值调整部件57。例如，在图5中的波形的例子中，向上的和向下的半波长UH1、DH1、UH2、DH2、UH3和DH5具有一个零交叉，而DH3、UH4、DH4和UH5不具有一个零交叉。因此，(具有一个零交叉的半波长的数目)/(所有半波长的数目)被计算为6/10＝0.6。对帧中的所有半波长都计算这个。
在输出值调整部件57中，通过执行以上计算由零交叉率计算部件56确定的零交叉率的输出值被调整到，例如，0.0到1.0的范围，并且被输出。在此处理的一个例子中，与输出值调整部件64类似，方程(1)或方程(2)的计算被执行。在方程(1)和(2)中，“in”是到输出值调整部件57的一个输入，“out”是来自输出值调整部件57的一个输出，方程(2)的α是一个参数。
接下来，将参考图16至20就一个声音信号的波形的特定例子而言给出对来自图1、2、12和13中所示的配置中的每个部件的一个输出波形或一个输出值的一个描述。
图16显示了800至2000Hz频带的一个波形，它是由一个滤波器从一个输入声音信号中提取出的。图16中的x轴的单位是[秒］([sec])。关于图16中所示的声音信号的波形，来自每个部件的输出值被显示在图17至20中。图17至20显示了通过设置帧长度为1000采样(约21毫秒)并且通过每100个采样(约2.1毫秒)移动帧而获得的输出值。
图17显示了由图12的向上的半波长增大和减小重复率计算部件51确定的向上的半波长增大和减小重复率的一个输出结果(输出值)。图18显示了由图12的向下的半波长增大和减小重复率计算部件52确定的向下的半波长增大和减小重复率的一个输出结果(输出值)。图19显示了由图13的零交叉率计算部件56确定的零交叉率的一个输出结果(输出值)。在图17和18的特定例子中，在向上的半波长增大和减小重复率计算部件51和向下的半波长增大和减小重复率计算部件52中，结果被显示，其中，例如，切割后的帧中的三个半波长的长度的变化是“增大和减小”或“减小和增大”的部分的数目被计数，并且其比率被计算。此外，如上所述，“增大和减小”或“减小和增大”交替继续的长度数目的最大值可被确定，或者“增大和减小”或“减小和增大”交替继续的长度的变化可被确定。
图20显示了来自图1和2所示的语音强度计算部件30的一个输出结果(输出值)。在此情况中，在图12的半波长增大和减小重复率积分部件53中，来自图17和18所示的向上的半波长增大和减小重复率计算部件51和向下的半波长增大和减小重复率计算部件52的输出值的较大值被输出。在输出值调整部件54中，用方程(1)中的TH＝0.6做出一个调整，并且使得该值成为来自半波长增大和减小重复率计算部件31的一个输出值。在图13的输出值调整部件57中，通过用方程(1)中的TH＝0.7调整来自零交叉率计算部件56的图19中显示的输出值，并且使得该值成为来自零交叉率计算部件32的一个输出值。在图2的语音强度输出部件33中，计算来自半波长增大和减小重复率计算部件31的输出值与来自零交叉率计算部件32的输出值的乘积，并且使得该乘积成为来自图20中所示的语音强度计算部件30的一个输出值。
根据本发明的上述实施例，即使包含环境声音噪声，也只有语音能被分离。由于甚至能从单声道的声音中去除环境声音，因此本发明可应用于任何声音信号。此外，由于使用了简单特征，因此要求少量处理，并且可能进行实时处理。
接下来将参考图21描述本发明的另一个实施例。在图21的一个例子中，从声音信号输入部件10输入的一个声音信号被波形切割部件20按一个预定的时间长度(帧)为单位切割，然后，该声音信号被一个带分割部件60分割成多个带，并且对于每个带进行处理。即，在带分割部件60中，来自波形切割部件20的声音信号被分割成多个频率带FB0至FBn。在一个语音强度计算部件70中，对于每个频率带FB0至FBn，语音强度被计算。根据每个频率带FB0至FBn的语音强度，一个语音处理部件80在每个频率带FB0至FBn的一个信号上执行处理，以便分离或强调/衰减语音和环境声音(噪声)、合并每个频率带的信号，并且输出合并后的信号。至于语音强度计算部件70中的每个频率带的处理，与参考图2、12和13描述的处理相同的处理被执行。在语音强度计算部件70中，为每个频率带提供与图2、12和13的配置相同的一个配置。
图22图示了一个计算机系统1201，本发明的一个实施例可以在其上实现。并非图22中显示的所有特征都是实现本发明所必要的，因为本发明也可以以包括在一个嵌入的处理器应用程序中的多种其他方式实现。然而为了进行例证，现在参考图22描述用于宿留本发明的一个装置的一个示例实施例。
计算机系统1201包括一条总线1202或其他用于通信信息通信机制，以及连接到总线1202用于处理信息的一个处理器1203。计算机系统1201还包括连接到总线1202用于储存信息以及要被处理器1203执行的指令的一个主存储器1204，例如一个随机访问存储器(RAM)或其他动态储存设备(例如动态RAM(DRAM)、静态RAM(SRAM)，和同步DRAM(SDRAM))。此外，主存储器1204可用于在通过处理器1203执行指令期间储存临时变量或其他中间信息。计算机系统1201进一步包括连接到总线1202用于为处理器1203储存静态信息和指令的一个只读存储器(ROM)1205或其他静态储存设备(例如，可编程ROM(PROM)、可擦除PROM(EPROM)和电可擦除PROM(EEPROM))。这样的存储器(或其他外围设备)可经由一个外围接口例如一个USB端口连接。
计算机系统1201还包括一个磁盘控制器1206，该磁盘控制器被连接到总线1202以控制一个或多个储存信息和指令的储存设备，例如一个磁硬盘1207，以及一个可移动媒体驱动器1208(例如，USB闪存、软盘驱动、只读光盘驱动、读/写光盘驱动、光盘自动点唱机、磁带驱动和可移动磁光驱动)。可使用一个适当的设备接口(例如，小计算机系统接口(SCSI)、集成设备电子(IDE)、增强的IDE(E-IDE)、直接存储器访问(DMA)或超DMA)将储存设备添加到计算机系统1201。
计算机系统1201还可包括专用逻辑器件(例如，专用集成电路(ASIC))或可配置逻辑器件(例如，简单可编程逻辑器件(SPLD)，复杂可编程逻辑器件(CPLD)和现场可编程门阵列(FPGA))。
计算机系统1201还可包括一个显示控制器1209，该显示控制器被连接到总线1202以控制用于向一名计算机用户显示信息的一个显示器1210，例如一个阴极射线管(CRT)。计算机系统包括用于与一名计算机用户接口并且向处理器1203提供信息的输入设备，例如一个键盘1211以及一个指针设备1212。指针设备1212，例如，可以是用于向处理器1203通信方向信息和命令选择并且控制显示器1210上的光标移动的一个鼠标、一个跟踪球或一个指向杆。此外，一台打印机可提供打印出的由计算机系统1201储存和/或生成的数据的列表。
计算机系统1201响应处理器1203执行一个存储器(例如主存储器1204)中包含的一条或多条指令的一个或多个序列，执行本发明的一部分或所有处理步骤。这样的指令可被从另一个计算机可读介质(例如一个硬盘1207或一个可移动媒体驱动1208)读入到主存储器1204中。在一个多处理配置中的一个或多个处理器也可被用来执行主存储器1204中包含的指令序列。在替换实施例中，硬线电路可取代或结合软件指令被使用。从而，实施例不限于硬件电路和软件的任何特定组合。
如上所述，计算机系统1201包括至少一个计算机可读介质或存储器，用于保存根据本发明的教义编程的指令，以及用于包含数据结构、表、记录或这里描述的其他数据。计算机可读媒体的例子为光盘、硬盘、软盘、磁带、磁光盘、PROM(EPROM、EEPROM、闪速EPROM)、DRAM、SRAM、SDRAM、或任何其他磁介质、光盘(例如CD-ROM)，或任何其他光介质、打孔卡、纸带、或带有孔图案的其他物理介质、一个载波(以下描述)，或一台计算机可读的任何其他介质。
储存在计算机可读媒体的任何一种之上或其一个组合之上，本发明包括用于控制计算机系统1201、用于驱动一个或多个实现本发明的设备以及用于使得计算机系统1201能够与一名人类用户(例如打印产品人员)交互的软件。这样的软件可包括，但不限于，设备驱动器、操作系统、开发工具和应用软件。这样的计算机可读媒体进一步包括用于执行实现本发明时执行的所有或一部分(如果处理是分布式的)处理的本发明的计算机程序产品。
本发明的计算机代码设备可以是任何可解译或可执行的代码机制，包括但不限于脚本、可解译的程序、动态链接库(DLL)、Java类和完整的可执行程序。但是，为了更佳的性能、可靠度和/或成本，本发明的部分处理可为分布式的。
“计算机可读介质”这个词在这里是用来指参与向处理器1203提供指令用于执行的任何介质。一个计算机可读介质可采取任何形式，包括但不限于，非挥发性媒体、挥发性媒体和传输媒体。非挥发性媒体包括，例如，光、磁盘和磁光盘，例如硬盘1207或可移动媒体驱动1208。挥发性媒体包括动态存储器，例如主存储器1204。传输媒体包括同轴电缆、铜线和光纤，包括构成总线1202的线。传输媒体还可采取声或光波的形式，例如在无线电波和红外数据通信过程中生成的波。
在运送一个或多个指令的一个或多个序列到处理器1203用于执行时可能涉及多种形式的计算机可读媒体。例如，指令可能最初被携带在一台远程计算机的一个磁盘上。远程计算机可将用于远程实现本发明的所有或一部分的指令下载到一个动态存储器中，并且用一个调制解调器在一根电话线上发送指令。对计算机系统1201本地的一个调制解调器可接收电话线上的数据并且用一个红外发射器将数据转换成一个红外信号。连接到总线1202的一个红外检测器可接收在红外信号中携带的数据，并且将数据放在总线1202上。总线1202将数据运送到主存储器1204，处理器1203从中取出和执行指令。可选地，由主存储器接收到的指令在被处理器1203执行之前或之后可被储存在储存设备1207或1208上。
计算机系统1201还包括连接到总线1202的一个通信接口1213。通信接口1213提供连接到一个网络链接1214的一个双向数据通信，其中该网络链接被连接到，例如一个局域网(LAN)1215，或另一个通信网络1216，例如互联网。例如，通信接口1213可以是一个网络接口卡，以连到任何分组交换LAN。作为另一个例子，通信接口1213可以是一个非对称数字用户线(ADSL)卡，一个综合业务数字网络(ISDN)卡或一个调制解调器，以提供到一个相应类型的通信线的数据通信连接。无线链接也可被实现。在任何这样的实施方式中，通信接口1213发送和接收携带表示不同类型的信息的数字数据流的电、电磁或光信号。
网络链接1214通常通过一个或多个网络向其他数据设备提供数据通信。例如，网络链接1214可通过一个本地网络1215(例如一个LAN)或通过由一个服务提供者操作的设备提供对另一个计算机的一个连接，其中该服务提供者通过一个通信网络1216提供通信服务。本地网络1214和通信网络1216使用，例如，携带数字数据流的电、电磁或光信号，以及相关的物理层(例如，CAT 5电缆、同轴电缆、光纤等)。运送数字数据到计算机系统1201或从计算机系统1201运送出数字数据的经过各种网络的信号和网络链接1214上的经过通信接口1213的信号，可在一个基带信号或基于载波的信号上实现。基带信号将数字数据做为是对一个数字数据比特流的描述的未经调制的电脉冲来传送，其中“比特”这个词将被广义解释为表示符号，其中每个符号传送至少一个或多个信息比特。数字数据也可被用于例如以在一个传导媒体上传播的或作为电磁波经过一个传播介质传输的幅度、相位和/或频移键控信号调制一个载波。从而，数字数据可以作为未经调制的基带数据经过一个“有线”通信信道被发送，和/或通过调制一个载波在一个不同于基带的预定的频率带内被发送。计算机系统1201可通过网络1215和1216、网络链接1214和通信接口1213发送和接收数据，包括程序代码。此外，网络链接1214可通过一个LAN 1215提供到一个移动设备1217，例如一个个人数字助手(PDA)、笔记本电脑或移动电话，的一个连接。
本发明包含涉及以下日本专利文档的主题2004年2月20日在JPO中提交的JP2004-045237、JP2004-045238、2005年2月17日在JPO中提交的JP2005-041169和2004年6月30日在JPO中提交的JP2004-194646，在这里通过引用将每个文档的全部内容整体包含进来。
权利要求
1.一种处理器实现的声音信号处理设备，该设备包括一个由嗓音生成的声音的强度的计算机制，其被配置为计算和输出被输入到其中的一个声音信号中的由嗓音生成的声音的强度的标记，所述声音信号包括一个由嗓音生成的声音和环境声音；以及一个语音处理器，其被配置为根据由所述的由嗓音生成的声音的强度的计算机制输出的由嗓音生成的声音的强度的标记，描述所述输入声音信号的特征，其中所述的由嗓音生成的声音的强度的计算机制被配置为，根据所述的输入声音信号的一个波形的波长方向中的特征计算由嗓音生成的声音的强度的标记。
2.权利要求1所述的设备，其中所述的由嗓音生成的声音的强度的计算机制包括一个语音强度计算机制；所述的由嗓音生成的声音是语音；并且所述的语音处理器被配置为，根据由所述的由嗓音生成的声音的强度的计算机制所确定的所述声音信号中的语音的强度来描述所述的输入声音信号的特征。
3.根据权利要求2所述的声音信号处理设备，其中所述的波长方向中的特征在所述声音信号的波形的周期的持续时间中变化。
4.根据权利要求2所述的声音信号处理装置，其中所述的波长方向中的特征在所述声音信号的波形的水平方向上变化。
5.根据权利要求2所述的声音信号处理设备，其中所述的语音强度计算机制被配置为，以按所述声音信号的预定时间长度单位切割的帧为单位计算语音的强度。
6.根据权利要求2所述的声音信号处理设备，其中所述的语音强度计算机制包括一个半波长增大和减小重复率计算机制，其被配置为计算所述声音信号的一个波形的半波长的重复率中的增大和减小；被配置为计算所述声音信号的所述波形的半波长的零交叉率的一个零交叉率计算机制；以及一个由嗓音生成的声音的强度的输出机制，其被配置为根据来自所述的半波长增大和减小重复率计算机制的一个输出和来自所述的零交叉率计算机制的一个输出，输出由嗓音生成的声音的强度的标记。
7.根据权利要求6所述的声音信号处理设备，其中所述的半波长增大和减小重复率计算机制被配置为，根据所述声音信号的波形的一个向上的半波长变化以致交替增大和减小、或者变化以致交替减小和增大的波形部分的比率，并且根据所述声音信号的波形的一个向下的半波长变化以致交替增大和减小、或者变化以致交替减小和增大的波形部分的比率，来计算所述的波形的半波长的增大和减小重复率。
8.根据权利要求6所述的声音信号处理设备，其中所述的半波长增大和减小重复率计算机制包括，被配置为调整由所述的半波长增大和减小重复率计算机制产生的所述的半波长的重复率的一个第一输出值调整机制，所述的零交叉率计算机制包括，被配置为调整由所述的零交叉率计算机制产生的所述的零交叉率的一个第二输出值调整机制，并且所述的第一和第二输出值调整机制被配置为调整和提供各自的输出值给所述的由嗓音生成的声音的强度的输出机制。
9.根据权利要求2所述的声音信号处理设备，进一步包括被配置为将所述的声音信号分割成多个频率带的一个频带分割机制，其中所述的由嗓音生成的声音的强度的计算机制被配置为，为每个频带计算所述的由嗓音生成的声音的强度的标记，并且所述的语音处理器被配置为根据计算出的每个频带的由嗓音生成的声音的强度来处理每个频带。
10.一种用于计算由嗓音生成的声音的强度的标记的方法，所述方法包括以下步骤以一个预定长度的帧为单位切割一个输入声音信号的波形；计算并输出输入其中的一个声音信号中的由嗓音生成的声音的强度的标记，所述的声音信号包括一个由嗓音生成的声音和环境声音；以及根据所述的由嗓音生成的声音的强度的标记，描述所述的输入声音信号的特征；其中所述的计算步骤包括，根据所述的输入声音信号的一个波形的波长方向中的特征计算所述的由嗓音生成的声音的强度的标记。
11.权利要求10所述的方法进一步包括以下步骤计算在所述切割步骤中被切割的波形的半波长的一个增大和减小重复率；计算在所述切割步骤中被切割的波形的半波长的一个零交叉率；以及根据来自所述的计算一个增大和减小重复率的步骤和计算一个零交叉率的步骤的输出，确定和输出所述的由嗓音生成的声音的强度的标记。
12.权利要求11所述的方法，其中在所述的计算一个增大和减小的步骤中，根据所述波形的一个向上的半波长变化以致交替增大和减小、或者变化以致交替减小和增大的信号部分的比率，并且根据所述波形的一个向下的半波长变化以致交替增大和减小、或者变化以致交替减小和增大的信号部分的比率，来计算所述的半波长的增大和减小重复率。
13.权利要求11所述的方法，其中所述的计算一个增大和减小的步骤包括调整所述的半波长重复率，以及所述的计算一个零交叉率的步骤包括调整所述的零交叉率。
14.权利要求10所述的方法，进一步包括将所述的声音信号分割成多个频率带，以及为每个频率带计算所述的由嗓音生成的声音的强度的标记。
15.一个计算机程序产品，所述计算机程序产品具有在被一个处理器执行时实现包括以下步骤的计算机可读指令以一个预定长度的帧为单位切割一个输入声音信号的一个波形；计算并输出输入其中的一个声音信号中的由嗓音生成的声音的强度的标记，所述的声音信号包括一个由嗓音生成的声音和环境声音；以及根据所述的由嗓音生成的声音的强度的标记，描述所述的输入声音信号的特征；其中所述的计算步骤包括根据所述的输入声音信号的一个波形的波长方向中的特征计算所述的由嗓音生成的声音的强度的标记。
16.权利要求15所述的计算机程序产品，进一步包括计算在所述切割步骤中被切割的波形的半波长的一个增大和减小重复率；计算在所述切割步骤中被切割的波形的半波长的一个零交叉率；以及根据来自所述的计算一个增大和减小重复率步骤和计算一个零交叉率步骤的输出，确定和输出所述的由嗓音生成的声音的强度的标记。
17.权利要求16所述的计算机程序产品，其中在所述的计算一个增大和减小的步骤中，根据所述波形的一个向上的半波长变化以致交替增大和减小、或者变化以致交替减小和增大的信号部分的比率，并且根据所述波形的一个向下的半波长变化以致交替增大和减小、或者变化以致交替减小和增大的信号部分的比率，来计算所述的半波长的增大和减小重复率。
18.权利要求16所述的计算机程序产品，其中所述的计算一个增大和减小的步骤包括调整所述的半波长重复率，以及所述的计算一个零交叉率的步骤包括调整所述的零交叉率。
19.权利要求15所述的计算机程序产品，进一步包括将所述的声音信号分割成多个频率带，以及为每个频率带计算所述的由嗓音生成的声音的强度的标记。
20.一个能被一台计算机执行的程序，所述程序包括以下步骤以一个预定长度的帧为单位切割一个输入声音信号的波形；计算并输出输入其中的一个声音信号中的由嗓音生成的声音的强度的标记，所述的声音信号包括一个由嗓音生成的声音和环境声音；以及根据所述的由嗓音生成的声音的强度的标记，描述所述的输入声音信号的特征；其中所述的计算步骤包括根据所述的输入声音信号的一个波形的波长方向中的特征计算所述的由嗓音生成的声音的强度的标记。
21.一个处理器实现的声音信号处理装置，所述装置包括以一个预定长度的帧为单位切割一个输入声音信号的波形的装置；计算并输出从所述的切割装置输入其中的一个声音信号中的由嗓音生成的声音的强度的标记的装置，所述的声音信号包括一个由嗓音生成的声音和环境声音；以及根据所述的由嗓音生成的声音的强度的标记描述所述的输入声音信号的特征的装置；其中所述的计算装置包括，根据所述的输入声音信号的一个波形的波长方向中的特征计算所述的由嗓音生成的声音的强度的标记的装置。
全文摘要
语音可能性或一个语音强度被用一种简单配置或用少量处理确定，并且语音部分被从一个输入声音信号中分离出来。输入声音信号经历一个以帧为单位的波形切割过程。帧中的一个半波长的增大和减小率被计算。帧中的一个零交叉的比率被计算。通过确定输入声音信号的波形的向上的半波长或向下的半波长变化成为交替增大和减小或交替减小和增大的部分的比率，一个半波长的增大和减小率被计算。对于每一帧，根据语音强度，分离或强调/衰减语音和背景噪声的语音处理被执行在声音信号上。
文档编号G10L15/00GK1716382SQ20051008183
公开日2006年1月4日申请日期2005年6月30日优先权日2004年6月30日
发明者近藤哲二郎, 岛淳一, 一木洋, 有光哲彦申请人:索尼株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：近藤哲二郎;岛淳一;一木洋;有光哲彦
技术所有人：索尼株式会社
我是此专利的发明人

上一篇：用于测量语调相似性的方法
上一篇：内容存储设备和方法、以及内容存储系统的制作方法