用于语音活动检测的检测器和方法

文档序号：2828932阅读：272来源：国知局

用于语音活动检测的检测器和方法
【专利摘要】本发明的实施例涉及语音活动检测器及其方法。所述语音活动检测器被配置为在接收到的输入信号中检测语音活动，所述语音活动检测器包括：输入部，被配置为接收来自所述VAD的初级语音检测器的指示初级VAD判决的信号以及来自至少一个外部VAD的指示来自所述至少一个外部VAD的语音活动判决的至少一个信号；处理器，被配置为将接收到的信号中指示的语音活动判决进行组合，以产生修改后的初级VAD判决；以及输出部，被配置为将修改后的初级VAD判决发送至所述VAD的尾响添加单元。
【专利说明】用于语音活动检测的检测器和方法
[0001] 分案申请说明
[0002] 本申请是申请日为2010年10月18日、申请号为201080047231.8(国际申请号 PCT/SE2010/051118)的、题为"用于语音活动检测的检测器和方法"的发明专利申请的分案申请。

【技术领域】
[0003] 本发明涉及语音活动检测方法和语音活动检测器，且更具体地涉及用于处理例如非平稳背景噪声的增强语音活动检测器。

【背景技术】
[0004] 在用于对话语音的语音编码系统中，通常使用非连续发送（DTX)来增加编码的效率。原因是对话语音包含了大量被嵌入语音中的停顿，例如当一个人在说话而另一个人在聆听时。因此在DTX的情况下，语音编码器平均仅在大约50%的时间上是活动的，且可以使用舒适噪声对其余时间进行编码。具有该特征的一些示例编解码是AMRNB(自适应多速率窄带）。
[0005] 对于高质量DTX操作，S卩，在没有劣化的语音质量的情况下，在输入信号中检测到语音的周期是重要的。这是通过语音活动检测器（VAD)来实现的。图1示出了一般VAD180 的整体框图，其获取根据具体实现被分为5至30ms的数据帧的输入信号100作为输入，并产生VAD判决作为输出160。即，VAD判决160是针对每帧的该帧是包含语音还是噪声的判决。
[0006] 通用VAD180包括提供子带能量估计的背景估计器130以及提供特征子带能量的特征提取器120。对于每一帧，通用VAD计算特征，且为了识别活动帧，将当前帧的特征与该特征对于背景信号的"表现"的估计进行比较。
[0007] 由初级语音活动检测器140来作出初级判决"vad_prim" 150,且初级判决"vad_ prim" 150基本上就是对当前帧的特征与（根据之前的输入帧估计出的）背景特征的比较，其中，大于阈值的差异引起活动初级判决。尾响添加（hangoveraddition)块170用于基于过去的初级判决对来自初级VAD的VAD判决进行扩展，以形成最终VAD判决"vad_ flag" 160,即也将较早的VAD判决考虑在内。使用尾响的原因主要是为了减少/消除"讲到一半"（midspeech)的风险以及"突发语音"（speechburst)的后端截断（backend clipping)。然而，该尾响也可以用于避免音乐段落的截断。操作控制器110可以根据输入信号的特性来调整初级检测器的阈值以及尾响添加的长度。
[0008] 存在可以用于VAD检测的大量不同的特征，一个特征是只查看帧能量，并将其与阈值进行比较，以判决该帧是否包括语音。该方案在SNR良好的条件下正常工作，但是在低 SNR情况下则不能正常工作。在低SNR下，其代之以要求使用对语音和噪声信号的特性进行比较的其它度量。对于实时实现而言，VAD功能的附加要求在计算上是复杂的，且这在标准编解码（例如AMRNB、AMRWB(自适应多速率宽带）以及G. 718 (ITU-T建议嵌入式可扩缩语音和音频编解码））中反映为对子带SNRVAD的频繁表示上。
[0009] 尽管基于子带SNR的VAD将不同子带的SNR组合为与用于初级判决的阈值进行比较的度量。在基于子带的VAD中，针对每个子带确定SNR，且基于这些SNR来确定组合SNR。组合SNR可以是在不同子带上的所有SNR的和。还存在已知的解决方案，其中，将具有不同特性的多个特征用于初级判决。然而，在这两种情况下，都只存在一个初级判决，用于添加适应于输入信号条件的尾响，以形成最终判决。此外，很多VAD具有用于静默检测的输入能量阈值，即，针对足够低的输入电平，强制初级判决为不活动状态。
[0010] 对于基于子带SNR原则的VAD，已经表明：在子带SNR计算中引入非线性（所谓重要性阈值）可以增强对于非平稳噪声条件（嘈杂声、办公室）下的VAD性能。非平稳噪声对于所有VAD而言都是困难的，特别是在低SNR条件下，导致相比于实际语音的更高VAD活动，且从系统角度讲导致了减小的容量。在非平稳噪声中，最困难的是嘈杂噪声，且原因是其特性与VAD被设计用来检测的语音信号相对接近。嘈杂噪声的特性通常在于与前景说话者的语音强度相对的SNR和背景说话者的数目，其中，常见定义（如在主观评估中使用的）是嘈杂声应当具有40个或更多的背景说话者，其基本出发点是：对于嘈杂声，应当不可能听出嘈杂噪声中包括的任何说话者所说的内容（不应当有任何嘈杂声说话者是能被理解的）。还应当注意到随着嘈杂噪声中说话者数目的增加，其变得更为平稳。在只有1个（或较少）说话者在背景中的情况下，通常将他们称为干扰说话者。另一问题是嘈杂噪声可以具有VAD算法不会抑制的与一些音乐片段非常相似的频谱变化特性。
[0011] 在之前提到的VAD解决方案AMRNB/WB和G. 718中，在合理的SNR(20dB)上，在一些情况下已存在对于嘈杂噪声的不同程度的问题。结果是不能实现假设的通过使用DTX来获得的容量增益。在实际的移动电话系统中，已经注意到：要求在15至20dBSNR下的合理的DTX操作可能是不够的。如果有可能，取决于噪声类型，将需要低至5dB甚至OdB的合理的DTX操作。对于低频背景噪声，仅通过在VAD分析之前对信号进行高通滤波，就可以针对 VAD功能实现10至15dB的SNR增益。由于嘈杂声与语音的相似性，通过对输入信号进行高通滤波所获得的增益是非常低的。
[0012] 从质量的角度讲，使用故障防护（failsafe)VAD是更好的，这意味着当有疑问时，让VAD传输语音输入并考虑大量的额外活动是更好的。从系统容量角度讲，只要仅少数用户处于非平稳背景噪声的情况下，这就是可接受的。然而，随着在非平稳环境下的用户数目的增加，故障防护VAD的使用可能引起系统容量的大量损失。因此，推动在故障防护和普通VAD操作之间的边界使得使用普通VAD操作来处理更大的非平稳环境类别就变得重要起来。
[0013] 尽管使用了增强VAD性能的重要性阈值，已注意到其还可以引起偶尔的语音截断，主要是低SNR非语音声音的前端截断。
[0014] 对于现有的解决方案，当识别出新的问题区域时，难以找到对现有VAD的新的调整，而不改变VAD对于已运行条件的行为。即，尽管将有可能改变调整来处理新问题，但是不可能使该调整不改变在已知条件下的行为。

【发明内容】

[0015] 本发明的实施例提供了一种用于重新调整现有VAD来处理非平稳背景噪声或其它发现的问题区域的解决方案。
[0016] 从而通过允许多个VAD并行工作，然后将输出相组合，有可能利用不同VAD的能力，同时不因每个VAD的限制受到过多影响。
[0017] 在希望减少过度活动的情况下使用的一个实施例中，将第一VAD的初级判决与来自外部VAD的最终判决通过逻辑"与"相组合。外部VAD优选地比第一VAD更激进。激进VAD意味着被调整/构造为相比于"普通"VAD产生更低的活动的VAD。激进VAD的主要目的是其应当相比于普通/原始VAD减少过度活动的量。应注意的是：该激进性仅可以应用于一些特定的（或有限数目的）条件，例如，涉及噪声类型或SNR的条件。
[0018] 在希望增加活动而不引起过度活动的情况下可以使用另一实施例，在该实施例中可以将第一VAD的初级判决与来自外部VAD的初级判决通过逻辑"或"进行组合。
[0019] 从而根据本发明的实施例的第一方面，提供了语音活动检测器（VAD)中的用于在接收到的输入信号中检测语音活动的方法。在该方法中，从所述VAD的初级语音检测器接收指示初级VAD判决的信号，以及从至少一个外部VAD接收指示来自所述至少一个外部VAD 的语音活动判决的至少一个信号。将在接收到的信号中指示的语音活动判决进行组合，以产生修改后的初级VAD判决，且将修改后的初级VAD判决发送至所述VAD的尾响添加单元。
[0020] 根据本发明的实施例的第二方面，提供一种语音活动检测器（VAD)。所述VAD被配置为在接收到的输入信号中检测语音活动，包括：输入部，被配置为从所述VAD的初级语音检测器接收指示初级VAD判决的信号，以及从至少一个外部VAD接收指示来自所述至少一个外部VAD的语音活动判决的至少一个信号。所述VAD还包括：处理器，被配置为将在接收到的信号中指示的语音活动判决进行组合，以产生修改后的初级VAD判决；以及输出部，被配置为将修改后的初级VAD判决发送至所述VAD的尾响添加单元。
[0021] 通过将现有VAD与一个或多个外部VAD进行组合，有可能增强整体VAD性能，且仅对原始VAD的内部状态产生轻微影响-该影响可以是对其它编解码功能的要求，例如帧分类和编解码模式选择。
[0022] 本发明的实施例另一优点是多个VAD的使用不影响普通操作，S卩，当输入信号的 SNR良好时的操作。仅当普通VAD功能不够好时，外部VAD才应当使得扩展VAD的工作范围成为可能。
[0023] 如果外部VAD对于引起问题的噪声正确工作，则实施例的方案允许外部VAD覆盖来自第一VAD的初级判决，S卩，避免仅与背景噪声相关的错误的活动。
[0024] 此外，更多外部VAD的添加使得有可能减小过度活动的量，或允许对附加的之前截断的语音（或音频）进行检测。可能需要让组合逻辑适应当前输入条件，以避免外部VAD 增加过度活动，或引入附加语音截断。组合逻辑的适配可以使得：仅在已识别出普通VAD不能正确工作的输入条件（噪声电平、SNR、或噪声特性[平稳/非平稳])期间，才使用外部 VAD0

【专利附图】

【附图说明】
[0025] 图1示出了根据现有技术的具有背景估计的通用VAD。
[0026] 图2至5示出了根据本发明的实施例的包括多VAD组合逻辑在内的具有背景估计的通用VAD。
[0027] 图6公开了根据本发明的实施例的组合逻辑。
[0028] 图7是根据本发明的实施例的方法的流程图。

【具体实施方式】
[0029] 下文中将参照示出了本发明的优选实施例的附图，来更完全地描述本发明的实施例。然而，可以用很多不同形式来体现实施例，且这些实施例不应当被理解为对本文所阐述的实施例的限制；而是提供这些实施例使得本公开将是全面且完整的，且将向本领域技术人员完全地传达本发明的范围。在附图中，相似的应用符号指代相似的单元。
[0030] 此外，本领域技术人员将意识到可以使用软件功能结合编程微处理器或通用计算机和/或使用专用集成电路（ASIC)来实现本文下面解释的装置和功能。还将意识到尽管主要以方法和设备的形式来描述当前实施例，还可以用计算机程序产品的形式以及包括计算机处理器和耦合到处理器的存储器在内的系统的形式来体现这些实施例，其中，使用可以执行本文公开的功能的一个或多个程序对存储器进行编码。
[0031] 图2示出了如图1所示的具有背景估计的第一VAD199。区别在于该VAD还包括根据本发明的第一实施例的组合逻辑145。在本实施例中，通过将来自外部VAD198的外部 vad_fIagJffi190引入组合逻辑145 (在尾响添加170之前引入了组合逻辑145)，增强了第一VAD的性能。应当注意到：使用外部VAD198的方式将不影响在良好SNR条件期间初级语音活动检测器140和VAD的一般行为。通过在来自第一VAD的初级判决vad_prim和来自外部VAD198的被称为vad_flag_he190的最终判决之间的逻辑"与"，在组合逻辑145 中形成被称为vad_prim' 155的新的初级判决，从而导致可以避免在VAD的过度活动。在图3中也示出了第一实施例，图3还示意性地示出了外部VADVAD2。下面进一步解释图3。
[0032] 在使用根据上述实施例的外部VAD的情况下，有可能减少针对附加噪声类型的过度的活动。由于外部VAD可以避免来自原始VAD的错误的活动信号，因此这是可以实现的。过度活动意味着VAD针对仅包括背景噪声的帧而指示了活动语音。该过度活动通常是以下各项的结果：1)类似于噪声（嘈杂声）的非平稳语音，或2)由于非平稳噪声或其它误检测到的类似语音的输入信号而导致背景噪声估计未正确工作。
[0033] 根据第二实施例，通过在来自第一VAD的初级判决vad_prim和来自外部VAD的被称为vad_prim_HE的初级判决之间的逻辑"或"，组合逻辑形成被称为vad_prim'的新的初级判决。这样，有可能增加活动，以校正由第一VAD执行的非期望截断。
[0034] 在图4中示出了第二实施例，图4还示出了外部VAD198。通过在第一VAD199的初级VAD140的初级判决vad_prim150与来自外部VAD198的被称为vad_prim_he的初级判决之间的逻辑"或"，组合逻辑145形成被称为vad_prim' 155的初级判决。这导致了外部VAD198可以用于避免由第一VAD199引起的截断。因此，外部VAD198能够校正由第一VAD199引起的错误，这意味着可以由外部VAD198来检测第一VAD199漏检的活动。为了避免增加过度活动，使用外部VAD的初级判决是有利的。
[0035] 现在参见与图2相对应的示出了第三实施例的图5。在第三实施例中，通过来自第一VAD140的初级判决vad_prim和来自外部VAD的最终判决190a和初级判决190b的组合，组合逻辑145形成被称为vad_prim' 155的初级判决。在图5中示出了该点。可以通过在组合逻辑145中使用"与"和/或"或"的任意组合来组合这三个判决。作为一个示例，有可能使用在通过使用逻辑"与"和外部VAD的最终判决相组合之前要通过逻辑"或"相组合的第一和外部VAD的初级判决。然后，将有可能还检测到之前截断的片段。
[0036] 根据第四实施例，组合逻辑使用来自多于一个外部VAD的VAD判决来形成新的 VacLprin^。这些VAD判决可以是初级VAD判决和/或最终VAD判决。如果使用多于一个外部VAD，可以在与第一VAD组合之前，将这些外部VAD相组合。例如Vad_prim&(external vad_l&external_vad_2)〇
[0037] 在本说明书中，VAD的初级判决意味着由初级语音活动检测器作出的判决。将该判决称为Vad_prim或本地VAD。VAD的最终判决意味着在尾响添加之后由VAD作出的判决。在VAD中引入了根据本发明的实施例的组合逻辑，且该组合逻辑基于VAD的VacLprim和来自外部VAD的外部VAD判决来产生VacLprin^。外部VAD判决可以是一个或多个外部VAD 的初级判决和/或最终判决。组合逻辑被配置为通过对第一VAD的Vad_prim和来自外部 VAD的一个或多个VAD判决应用逻辑"与"或逻辑"或"来产生VacLprin^。
[0038] 参见作为第一VAD和外部VAD的框图的图3和4。框图示出了由原始VAD(VAD1) 和外部VAD(VAD2)构成的2个VAD以及用于在根据实施例的原始VAD中产生增强的vad_ prim的组合逻辑。
[0039] 如图3和4所示，2个VAD共享特征提取器。外部VAD可以使用修改后的背景更新以及初级语音活动检测器。修改后的背景更新包括背景噪声更新策略的修改，其中，将普通噪声更新死锁恢复进行减速，并添加了针对噪声更新的备选可能性，以允许噪声估计更好的跟踪噪声。修改后的初级语音活动检测器可以添加重要性阈值以及基于输入的能量变化的更新阈值适配。可以并行地使用这2个修改。
[0040] 为了作出第一VAD(被称为VAD1)的初级判决，将可变SNR和（snr_sum)与计算出的阈值（thrl)进行比较，以在如下所示现有技术中确定输入信号是活动语音（IocalVAD =1，对应于Vad_prim= 1)还是噪声（IocalVAD= 0,对应于Vad_prim= 0):
[0041] IocalVAD= 0 ；
[0042] if(snr_sum >thrl) {
[0043] IocalVAD= I；
[0044] }
[0045] 使用根据本发明的实施例的组合逻辑，对来自第一VAD的IocalVAD和来自外部 VAD的被称为vad_flag_he最终判决应用逻辑"与"。即，通过使用组合逻辑，仅允许初级语音活动检测器在来自第一VAD的IocalVAD和来自外部VAD的vad_fIagJie都活动时才变得活动。即
[0046] IocalVAD= 0 ；
[0047] if(snr_sum>thrl&&vadflaghe) {
[0048] IocalVAD= I；
[0049] }
[0050] 为了容易识别将修改加以下划线。由于需要vad_flag_he的值，因此需要在可以产生修改后的VAD1判决之前执行使外部VAD包括其尾响的代码。
[0051] 在第五实施例中，组合逻辑被配置为是信号自适应的，即，根据当前输入信号属性来改变组合逻辑。组合逻辑可以取决于估计出的SNR，例如，如果组合逻辑被配置为使得仅在良好条件下才使用原始VAD，则可以使用更激进的第二VAD。当在吵闹的条件时，如实施例1 一样使用该激进的VAD。使用该适配，激进的VAD在良好的SNR条件下不会引入语音截断，同时在吵闹的条件下，假定被截断的语音帧被噪声遮蔽。
[0052] 本发明的一些实施例的一个目的是减小针对非平稳背景噪声的过度活动。可以通过比较已编码的混合的活动来使用客观度量对此进行测量。然而，该度量并不指示活动的减少何时开始影响语音，即，语音帧何时由背景噪声所取代。应当注意到：在具有背景噪声的语音中，不是所有的语音帧都是可听到的。在一些情况下，语音帧可能实际上被噪声所取代，而未引入可听出的劣化。因此，使用对一些修改后的片段的主观评估也是重要的。
[0053] 下面呈现的客观报告基于语音与背景噪声在变化条件下的混合，与不同噪声环境和信噪比（SNR)的若干种语言的不同语音采样相关。
[0054] 使用不同噪声采样和不同的SNR条件来创建混合。将噪声分类为展会噪声、办公室噪声、以及大堂噪声，作为非平稳背景噪声的代表。将语音和噪声文件混合，且将语音强度设置为-26dBov以及在范围10至30dB中的4个不同的SNR。
[0055] 然后通过使用具有根据现有技术的原始VAD以及根据本发明的实施例的组合VAD 方案（表示为双VAD)的编解码来处理准备好的采样。
[0056] 对于客观结果，将比较使用不同的VAD方案的不同编解码所产生的语音活动，并且可以在下面的表中找到结果。注意到：针对各自为120秒的完整采样来测量表中的活动数值。用于语音片段的强度调整的工具指示了纯净的语音文件的语音活动被估计为 21. 9%〇
[0057] 活动结果的表格总结：全部、噪声类型和SNR

【权利要求】
1. 一种在语音活动检测器VAD(199)中的用于在接收到的输入信号中检测语音活动的方法，包括： -接收（1101)来自所述VAD的初级语音检测器的、指示由所述初级语音检测器做出的初级语音活动判决的信号，其中，所述初级语音活动判决是所述VAD的中间语音活动判决， -接收来自至少一个外部VAD的、指示由所述至少一个外部VAD做出的语音活动判决的至少一个信号， -对从所述初级语音活动检测器和所述至少一个外部VAD接收到的信号中指示的语音活动判决进行组合（1102)，以产生修改后的初级语音活动判决，以及 _将修改后的初级语音活动判决发送（1103)至所述VAD的尾响添加单元，所述尾响添加单元被配置为做出所述VAD的最终语音活动判决。
2. 根据权利要求1所述的方法，其中，通过逻辑"与"来组合接收到的信号中的语音活动判决，使得仅在来自初级语音活动检测器的信号和来自至少一个外部VAD的信号都指示语音的情况下，所述VAD的修改后的初级语音活动判决才指示语音。
3. 根据权利要求1所述的方法，其中，通过逻辑"或"来组合接收到的信号中的语音活动判决，使得如果来自初级语音活动检测器的信号和来自至少一个外部VAD的信号中的至少一个信号指示语音，则所述VAD的修改后的初级语音活动判决就指示语音。
4. 根据权利要求1至3中任一项所述的方法，其中，来自至少一个外部VAD的指示来自所述外部VAD的语音活动判决的至少一个信号是最终VAD判决。
5. 根据权利要求1至3中任一项所述的方法，其中，来自至少一个外部VAD的指示来自所述外部VAD的语音活动判决的至少一个信号是初级语音活动判决。
6. 根据权利要求1至5中任一项所述的方法，其中，所述至少一个外部VAD是单个VAD。
7. 根据权利要求1至5中任一项所述的方法，其中，所述至少一个外部VAD是多个VAD。
8. 根据权利要求1至7中任一项所述的方法，其中，根据输入信号属性来组合语音活动判决。
9. 根据权利要求8所述的方法，其中，所述输入信号属性包括以下至少一项：估计出的信噪比；以及背景特性。
10. -种被配置为在接收到的输入信号中检测语音活动的语音活动检测器VAD(199)，包括：输入部（502)，被配置为接收来自所述VAD的初级语音检测器的、指示由所述初级语音检测器做出的初级语音活动判决的信号（150)，其中，所述初级语音活动判决是所述VAD的中间语音活动判决，所述输入部还被配置为接收来自至少一个外部VAD(198)的、指示由所述至少一个外部VAD (198)做出的语音活动判决的至少一个信号（190)，处理器（503)，被配置为对从所述初级语音活动检测器和所述至少一个外部VAD接收到的信号（150、190)中指示的语音活动判决进行组合，以产生修改后的初级语音活动判决 (155)，以及输出部（505)，被配置为将修改后的初级语音活动判决（155)发送至所述VAD (199)的尾响添加单元，所述尾响添加单元被配置为做出所述VAD的最终语音活动判决。
11. 根据权利要求10所述的VAD(199)，其中，所述处理器（503)被配置为：通过逻辑 "与"来组合接收到的信号中的语音活动判决，使得仅在来自初级语音活动检测器的信号和来自至少一个外部VAD的信号都指示语音的情况下，所述VAD的修改后的初级语音活动判决才指不语音。
12. 根据权利要求10所述的VAD(199)，其中，所述处理器（503)被配置为：通过逻辑 "或"来组合接收到的信号中的语音活动判决，使得如果来自初级语音活动检测器的信号和来自至少一个外部VAD的信号中的至少一个信号指示语音，则所述VAD的修改后的初级语音活动判决就指不语音。
13. 根据权利要求10至12中任一项所述的VAD (199)，其中，来自至少一个外部VAD的指示来自所述外部VAD的语音活动判决的至少一个信号是最终VAD判决。
14. 根据权利要求10至12中任一项所述的VAD (199)，其中，来自至少一个外部VAD的指示来自所述外部VAD的语音活动判决的至少一个信号是初级语音活动判决。
15. 根据权利要求10至14中任一项所述的VAD (199)，其中，所述至少一个外部VAD是单个VAD。
16. 根据权利要求10至14中任一项所述的VAD (199)，其中，所述至少一个外部VAD是多个VAD。
17. 根据权利要求10至16中任一项所述的VAD (199)，其中，根据输入信号属性来组合语音活动判决。
18. 根据权利要求17所述的VAD (199)，其中，所述输入信号属性包括以下至少一项：估计出的信噪比；以及背景特性。
【文档编号】G10L25/78GK104485118SQ201510006946
【公开日】2015年4月1日申请日期:2010年10月18日优先权日:2009年10月19日
【发明者】马丁·绍尔斯戴德申请人:瑞典爱立信有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马丁·绍尔斯戴德;
技术所有人：瑞典爱立信有限公司;
我是此专利的发明人