估计音频信号中的背景噪声的制作方法

文档序号:10475981阅读:396来源:国知局
估计音频信号中的背景噪声的制作方法
【专利摘要】本发明涉及一种背景噪声估计器及其中的方法,用于支持在音频信号分段中进行声音活动检测。所述方法包括:当确定音频信号分段包括音乐并且当前背景噪声估计超过最小值时,减小当前背景噪声估计。以上操作在以下情况下执行:当音频信号分段的能量水平比高于长期最小能量水平lt_min的阈值大时,或者当音频信号分段的能量水平比高于lt_min的阈值小,但是在音频信号分段中没有检测到停顿时,其中,所述lt_min是多个在先音频信号分段所确定的。执行所述方法与现有技术相比实现基于背景噪声估计的更准确的声音活动检测。
【专利说明】
估计音频信号中的背景噪声
技术领域
[0001 ]本发明的实施例设及音频编码,具体地,设及估计背景噪声W用于支持声音活动 判断。
【背景技术】
[0002] 在利用不连续传输(DTX)的通信系统中,找到效率和不降低质量之间的平衡是重 要的。在运种系统中,活动检测器用于指示要被活动编码的活动信号(例如语音或音乐)、W 及具有可W用在接收机侧产生的舒适噪声所替代的背景信号的分段。如果活动检测器在检 测非活动时效率太高,则它将会在活动信号中引入削波(clipping),当削波后的活动分段 被舒适噪声替代时其将被感知为主观上的质量劣化。同时,如果活动检测器的效率不够并 且将背景噪声分段分类为活动并对背景噪声进行活动编码而不是利用舒适噪声进入DTX模 式,贝化TX的效率降低。在多数情况下,削波问题被视为更严重。
[0003] 图1示出了总体的声音活动检测器(SAD)或语音活动检测器(VAD)的框图,其采用 音频信号作为输入并且产生活动判断作为输出。取决于实施方式,输出信号被划分为数据 帖(即,例如5-30ms的音频信号分段),并且每帖产生一个活动判断作为输出。
[0004] 由图1中示出的主检测器进行主判断"prim"。主判断基本上只是当前帖的特征与 从先前输入帖估计的背景特征之间的比较。当前帖的特征与背景特征之间的差异比阔值大 导致活动主判断。延迟化angover)加法块用于基于过去的主判断扩展主判断W形成最终判 断"flag"。使用延迟的原因主要是为了减小/移除在活动突发的中间和后端削波的风险。如 图所示,操作控制器可W根据输入信号的特性调整延迟加法的长度和主检测器的阔值。使 用背景估计器块来估计输入信号中的背景噪声。在本文中,背景噪声还可W被称为"背景" 或者"背景特征"。
[0005] 可W根据两个基本不同的原理来进行背景特征的估计:通过使用如图1中的虚线 所示的主判断(即利用判断或判断度量反馈),或者通过使用输入信号的一些其它特性(即 不使用判断反馈)。还可W使用运两种策略的组合。
[0006] 使用用于背景估计的判断反馈的编解码器的示例是AMR-NB(自适应多速率窄带), 并且不使用判断反馈的编解码器的示例是EVRC(增强可变速率CODEC)和G.718。
[0007] 可W使用多种不同的信号特征或特性,但是在VAD中使用的一个公共特征是输入 信号的频率特性。通常使用的频率特性的类型是子带帖能量,由于其低复杂度和在低SRN中 的可靠操作。因此假设输入信号被分割为不同频率子带,并且针对每个子带估计背景水平。 通过运种方式,背景噪声特征之一是具有针对每个子带的能量值的矢量,运些值用于在频 域中表征输入信号中的背景噪声。
[000引为了实现对背景噪声的跟踪,可至少Ξ种不同方式来进行实际背景噪声估计 更新。一种方式是针对每个频率点(frequency bin)使用自动回归(AR)处理来处理更新。运 种编解码器的示例是AMR-NB和G. 718。基本上,对于运种类型的更新,更新的步长与观察到 的当前输入和当前背景估计之间的差成正比。另一种方式是使用当前估计的乘法缩放,其 限制是所述估计不能大于当前输入或者小于最小值。运意味着估计随着每帖增加,直到其 高于当前输入。在此情况下,当前输入被用作估计。EVRC是使用该技术来对VAD功能的背景 估计进行更新的编解码器的示例。应注意,EVRC针对VAD和噪声抑制使用不同的背景估计。 应当注意的是,可W在除DTXW外的其它情境中使用VAD。例如,在可变速率编解码器(例如 EVRC)中,VAD可W用作速率确定功能的一部分。
[0009] 第Ξ种方式是使用所谓的最小技术,其中,估计是在先前帖的滑动时间窗口期间 的最小值。运基本上给出了使用补偿因子被缩放的最小估计,W达到或近似针对静止噪声 的平均估计。
[0010] 在高SNR情况下(其中活动信号的信号水平比背景信号的信号水平高得多),很容 易就能判断输入音频信号是活动还是非活动。然而,很难在低SNR情况下分出活动信号和非 活动信号,尤其是在背景非静止或者甚至在其特性上与活动信号相似的情况下。

【发明内容】

[0011] 希望更准确地判断音频信号是否包括活动语音或音乐。本文提供了一种用于产生 背景噪声估计的改进方法,其能够使声音活动检测器做出更准确的判断。
[0012] 根据第一方面,提供了一种背景噪声估计方法,用于支持在音频信号分段中进行 声音活动检测。意在由背景噪声估计器来执行所述方法。所述方法包括:当确定音频信号分 段包括音乐并且当前背景噪声估计超过最小值时,减小当前背景噪声估计。W上操作在W 下情况下执行:当音频信号分段的能量水平比高于长期最小能量水平的阔值大时, 或者当音频信号分段的能量水平比高于的阔值小,但是在音频信号分段中没有检测 到停顿时,其中,所述通过多个在先音频信号分段来确定。
[0013] 根据第二方面,提供了一种背景噪声估计器,用于支持在音频信号分段中进行声 音检测。背景噪声估计器被配置为:当音频信号分段的能量水平比高于长期最小能量水平 的阔值大时,或者当音频信号分段的能量水平比高于的阔值小,但是在音频 信号分段中没有检测到停顿时:当确定音频信号分段包括音乐并且当前背景噪声估计超过 最小值时,减小当前背景噪声估计。
[0014] 根据第Ξ方面,提供了一种SAD,其包括根据第二方面的背景噪声估计器。
[001引根据第四方面,提供了一种编解码器,其包括根据第二方面的背景噪声估计器。
[0016] 根据第五方面,提供了一种通信设备,其包括根据第二方面的背景噪声估计器。
[0017] 根据第六方面,提供了一种网络节点,其包括根据第二方面的背景噪声估计器。
[0018] 根据第屯方面,提供了一种计算机程序,包括指令,所述指令当在至少一个处理器 上执行时使所述至少一个处理器执行根据第一方面的方法。
[0019] 根据第八方面,提供了一种载体,其包含根据第屯方面的计算机程序。
【附图说明】
[0020] 根据W下对附图中示出的实施例更具体的描述,本文公开的技术的W上或其他目 的、特征、优点将显而易见。附图不一定按比例绘制,相反重点在于示意此处公开的技术的 原理。
[0021 ]图1是示出了活动性检测器和延迟确定逻辑的框图。
[0022] 图2是示出了根据示例性实施例的背景更新判断逻辑的流程图。
[0023] 图3和图4示出了根据不同示例性实施例的背景估计器。
[0024] 图5是示出了子带能量背景估计器的框图。
[0025] 图6至图9是示出了实施例如何实现对音频信号中的背景噪声的更好跟踪的示图。
【具体实施方式】
[0026] 本文公开的方案设及估计音频信号中的背景噪声。在图1中所示的总体活动性检 测器中,由被表示为"背景估计器"的块来执行估计背景噪声的功能。可W在之前公开的 W02011/049514和W02011/049515的方案中找到与本方案相关的一些实施例,其通过引用合 并于此。本文公开的方案将与运些之前公开的申请的实施方式进行比较。即使W02011/ 049514和W02011/049515中公开的方案是优良的方案,但是本文呈现的方案仍然具有相对 于运些方案的优点。例如,本文呈现的方案具有更低复杂度的实施方式,并且其在跟踪背景 噪声的操作中更准确。
[0027] VAD的性能取决于背景噪声估计器跟踪背景特性的能力,尤其是在其遇到非静止 背景的情况下。通过更好的跟踪,可W使得VAD更高效,同时也不会增加语音削波的风险。
[0028] 当前噪声估计方法的一个问题在于为了实现在低SNR中对背景噪声进行良好跟 踪,需要可靠的停顿检测器。对于只有语音的输入,可W利用音节速率或者人不可能一直说 话的事实来找到语音中的停顿。运种方案可W设及在不进行背景更新的足够时间之后,"放 松"对停顿检测的需要,从而更可能检测语音中的停顿。运允许对噪声特性或水平中的突然 改变进行响应。运种噪声恢复逻辑的一些示例是:1)由于语音话语包含具有高相关性的分 段,因此在没有相关性的足够帖数之后,通常可W假设在语音中存在停顿。2)当信噪比SNR >0时,语音能量高于背景噪声,所W如果帖能量在长时间(例如1-5秒)内接近最小能量,也 可W假设运在语音停顿中。虽然之前的技术在只有语音的输入的情况下工作良好,但是它 们在音乐被视为活动输入的情况下是不够的。在音乐中,可能存在具有低相关性的长分段, 但是其仍是音乐。此外,音乐中能量的动态特性还可W触发错误的停顿检测,运会导致对背 景噪声估计的不期望的、错误的更新。
[0029] 理想地,会需要活动检测器的逆功能(或者被称为"停顿发生检测器")来控制噪声 估计。运将确保仅在当前帖中不存在活动信号时进行对背景噪声特性的更新。然而,如上所 述,不易于确定音频信号分段是否包括活动信号。
[0030] 传统上,当已知活动信号是语音信号时,活动检测器被称为语音活动检测器 (VAD)。还在输入信号可能包括音乐时经常使用针对活动检测器的术语VAD。然而,在现代编 解码器中,当音乐也被检测为活动信号时,还通常将活动检测器称为声音活动检测器 (SAD)。
[0031] 图1中示出的背景估计器利用来自主检测器和/或延迟块的反馈来定位非活动音 频信号分段。当开发本文所述的技术时,期望移除或者至少减少对运种反馈的依赖性。对于 本文公开的背景估计,发明人认为,当只有包括活动信号和背景信号的未知混合在内的输 入信号可用时,能够找到可靠特征来识别背景信号特性是重要的。发明人还认识到,不能假 设输入信号开始于噪声分段,甚至也不能假设该输入信号是混合有噪声的语音,因为活动 信号也可能是音乐。
[0032] 本文实施例的优于现有技术的一个贡献在于对要使用的特征的选择,甚至于如何 对选择的特征进行组合W实现针对不同类型的输入都能可靠地工作的噪声估计逻辑。
[0033] 从上文我们已经知道,存在针对特定条件工作良好的若干特征。困难在于W对噪 声估计和背景跟踪有益的方式来对运些特征进行组合。尤其是在想要避免关于初始条件的 假设而仅依赖于目前为止的信号的特性,并且能够处理语音和音乐都被视为活动输入的条 件的情况下。
[0034] 图2是示出了根据本文提出的技术的用于背景噪声估计的方法的示例性实施例的 流程图。该方法意在由作为SAD的一部分的背景噪声估计器来执行。背景噪声估计器和SAD 还可W包括在音频编码器中,进而包括在无线设备或网络节点中。对于描述的背景噪声估 计器,不限制将噪声估计向下调节。对于每帖,计算可能的新子带噪声估计,而不管帖是背 景还是活动内容,如果新值比当前值低,则其被直接用作最可能来自于背景帖。W下的噪声 估计逻辑是第二步骤,其中判断子带噪声估计是否可W增加并且如果可W增加的话可W增 加多少,所述增加基于之前计算的可能的新子带噪声估计。基本上,该逻辑导致将当前帖确 定为背景帖,并且如果其不确定的话,则可W允许比原始所估计的更小的增加。
[0035] 图2所示的方法包括:当音频信号分段的能量水平比高于(202:1)长期最小能量水 平的阔值大时,或者当音频信号分段的能量水平比高于(202:2)lt_min的阔值小,但 是在音频信号分段中没有检测到停顿(204:1)时:
[0036] -当音频信号分段被确定(203:2)为包括音乐,并且当前背景噪声估计超过最小值 (在图2中被表示为?',并且在下面的代码中还被示例化为例如2地_1^)(205:1)时,减少 (206)当前背景噪声估计。
[0037] 通过执行W上操作并且向SAD提供背景噪声估计,SAD能够执行更准确的声音活动 检测。此外,还能够从错误背景噪声估计更新中恢复。
[0038] 在上述方法中使用的音频信号分段的能量水平可W备选地称为例如当前帖能量 化tot),或者被称为信号分段或帖的能量,其可W通过对当前信号分段的子带能量进行求 和来计算。
[0039] 在上述方法中使用的其它能量特征(即长期最小能量水平是一种估计,其 通过多个在先音频信号分段或帖来确定。可W备选地表示为例如化ot_l_lp。推导 的一个基本方式是使用若干过去帖的当前帖能量的历史的最小值。如果值被计算 为:"当前帖能量-长期最小估计"低于阔值(被表示为例如THR1),则当前帖能量在此被视为 接近长期最小能量,或者在长期最小能量附近。也就是说,当化tot-lt_min)<THRl时,当前 帖能量化tot)可W被确定(202)为在长期最小能量附近。取决于实施方式,当化tot- 1*_111111)=^1?1时的情况可^被称为判断202:1或202:2。图2中是序号202:1指示当前帖能 量不在附近的判断,而序号202:2指示当前帖能量在11:_1]1;[]1附近的判断。图2中的关 于形式XXX: Y的其它序号指示相应判断。将在下文进一步描述特征
[0040] 当前背景噪声估计要超过的W便被减小的最小值可W被假设为零或小的正值。例 如,如将在下面的代码中所解释的,背景估计的当前总能量(可W被表示为"totalNoise"并 被确定为例如10*l〇gl0 I^backdi])需要超过最小值零W在后续讨论中减小。备选地或者 附加地,在包括子带背景估计的矢量backr[i]中的每个条目可W与最小值巧_MIN)相比较, 用于要被执行的减小。在下文的代码示例中,E_MIN是小的正值。
[0041] 应注意的是,根据本文建议的方案的优选实施例,确定音频信号分段的能量水平 是否比高于的阔值大仅基于从输入音频信号得到的信息,也就是说,其不基于来自 声音活动检测器判断的反馈。
[0042] 可W基于一个或多个准则按照不同方式来确定(204)当前帖是否包括停顿。停顿 准则还可W被称为停顿检测器。可W应用单个停顿检测器或不同停顿检测器的组合。在停 顿检测器的组合的情况下,每个停顿检测器可W用于检测不同条件下的停顿。当前帖可能 包括停顿(或非活动)的一个指示符是该帖的相关性特征低,并且多个在先帖也具有低相关 性特征。如果当前能量接近长期最小能量,并且检测到停顿,则可W根据当前输入来更新背 景噪声,如图2中所示。除了音频信号分段的能量水平比高于的阔值小之外,可W在 W下情况中视为检测到停顿:预定义数目的连续在先音频信号分段已被确定为不包括活动 信号和/或音频信号的动态特性超过阔值。运还示出在下文的代码示例中。
[0043] 背景噪声估计的减小(206)使得能够处理背景噪声估计变得"太高"(即与真实背 景噪声相关)的情况。运还可W被表达为背景噪声估计偏离了实际背景噪声。太高的背景噪 声估计可能会导致SAD的不准确的判断,其中,即使包括活动语音或音乐,当前信号分段也 被确定为非活动的。背景噪声估计变得太高的原因在于例如在音乐中的错误的或不期望的 背景噪声更新,其中噪声估计将音乐误认为背景并且允许噪声估计增加。公开的方法允许 例如在输入信号的后续帖被确定为包括音乐时对错误更新的背景噪声估计进行调整。通过 背景噪声估计的强制减小(其中噪声估计被缩减)来进行该调整,即使当前输入信号分段能 量高于例如子带中的当前背景噪声估计。应注意的是,上述用于背景噪声估计的逻辑用于 控制背景子带能量的增加。在当前帖子带能量低于背景噪声估计时,始终允许降低子带能 量。该功能没有在图2中明确地示出。运种下降通常具有针对步长的固定设置。然而,根据上 述方法,背景噪声估计应该仅被允许与判断逻辑相关联地增加。当检测到停顿时,还可W使 用能量和相关性特征来决定(207)在进行实际背景噪声更新之前,背景估计增加的调整步 长应该多大。
[0044] 如前所述,一些音乐分段可能由于与噪声很像而难W从背景噪声中分离出来。因 此,噪声更新逻辑可能会意外地允许增加子带能量估计,即使输入信号是活动信号。运会造 成问题,因为噪声估计可能变得比它们所应该的高。
[0045] 在现有技术的背景噪声估计器中,仅在输入子带能量低于当前噪声估计时,子带 能量估计才能减小。然而,由于一些音乐分段可能由于很像噪声而难W从背景噪声中分离 出来,发明人认识到需要针对音乐的恢复策略。在本文描述的实施例中,可W通过在输入信 号回到类似音乐的特性时强制进行噪声估计减小来进行运种恢复。也就是说,当上文所述 的能量和停顿逻辑防止(202:1、204:1)噪声估计增加时,测试(203)输入是否被怀疑是音 乐,如果是(203: 2),则逐帖将子带能量减小(206)小的量,直到噪声估计达到最低水平(205 :2)。
[0046] 本文公开的方案还设及一种在硬件和/或软件中实施的背景估计器。在图3中示意 性地示出了根据示例性实施例的背景估计器500。背景估计器500可W被假设为包括:输入 单元502,用于接收能量测量W及可能的相关性测量;W及输出单元505,用于提供更新的背 景噪声估计。背景估计器500还包括处理器503和存储器504,所述存储器包含可W由所述处 理器504执行的指令507。指令507的执行使得所述背景估计器500可操作为执行用于上述背 景噪声估计的方法的至少一个实施例。换言之,由处理装置503执行指令507使得背景估计 器500操作为:当音频信号分段的能量水平比高于长期最小能量水平其通过多个在 先音频信号分段来确定)的阔值大时,或者当音频信号分段的能量水平比高于的阔 值小,但是在音频信号分段中没有检测到停顿时:
[0047] -当确定音频信号分段包括音乐并且当前背景噪声估计超过最小值时,减小当前 背景噪声估计;指令507可W存储为计算机代码(例如在本公开的下文中呈现的代码)的形 式。在被背景估计器存储和/或执行之前,指令或计算机程序可W由载体承载。运种载体可 W是例如电子信号、光信号、无线电信号或者计算机可读存储介质。
[0048] 图4示出了背景估计器的备选实施。背景估计器400包括输入/输出单元401;能量 确定装置402,被配置为确定当前帖能量是否接近长期最小能量估计;停顿检测器403,被配 置为确定当前帖是否包括停顿;音乐检测器,被配置为确定当前帖是否包括音乐。背景估计 器400还包括背景估计器调整器405,被配置为:当音频信号分段的能量水平比高于长期最 小能量水平的阔值大时,或者当音频信号分段的能量水平比高于的阔值小, 但是在音频信号分段中没有检测到停顿时当确定音频信号分段包括音乐并且当前背景 噪声估计超过最小值时,减小当前背景噪声估计。背景估计器调整器405还可W配置为执行 例如规则调整,如图3中的208所示。
[0049] 如上所述的背景估计器可W包括或者实施在VAD或SAD和/或编码器和/或解码器 中,其中,编码器和/或解码器可W被实施在用户设备(例如移动电话、膝上型计算机、平板 计算机等)中。背景估计器还可W包括在网络节点(例如媒体网关)中,例如作为编解码器的 一部分。
[0050] 图5是示意性示出了根据示例性实施例的背景估计器的实施的框图。输入成帖块 51首先将输入信号划分为合适长度(例如5-30ms)的帖。对于每帖,特征提取器52从输入中 计算至少W下特征:1)特征提取器在频域中分析帖,并且计算针对子带集合的能量。子带是 要用于背景估计的相同子带。2)特征提取器还在时域中分析帖,并且计算相关性(被表示为 co;r_est和/或lt_co;r_est),其用于确定帖是否包括活动内容。3)特征提取器还利用当前帖 总能量(例如被表示为化ot)来更新当前和更早的输入帖的能量历史的特征,例如长期最小 能量相关性和能量特征随后被馈送给更新判断逻辑块53。
[0051] 运里,根据本文公开方案的判断逻辑被实施在更新判断逻辑块53中,其中,相关性 和能量特征被用于确定当前帖能量是否接近长期最小能量;确定当前帖是否是停顿(非活 动信号)的一部分;W及确定当前帖是否是音乐的一部分。根据本文描述的实施例的方案设 及如何使用运些特征和判断来W鲁棒方式更新背景噪声估计。
[0052] 在下文中,将描述本文公开的方案的实施例的实施细节。下文的实施细节来自于 基于G.718的编码器中的实施例。本实施例使用在W02011/049514和W02011/049515中描述 与的一些特征,运些部分被附进本公开。
[0化3] 在W02011/049514中描述的修改的G.718中定义了 W下特征:
[0054] Etot;当前输入帖的总能量 [0化日]化ot_l跟踪最小能量包络 [0056] 最小能量包络E:tot_l的平滑版本
[0化7] totalNoise;背景估计的当前总能量
[0058] bckr[ i ];具有子带背景估计的矢量;
[0059] tmpN[i];预计算的潜在新背景估计
[0060] aEn;使用多个特征的背景检测器(计数器)
[0061 ] ha;rm_co;r_cnt对从具有相关性或谐波事件的最后帖开始的帖计数
[0062] act_pred对仅来自于输入帖特征的活动的估计
[0063] Cor[i]具有相关性估计的矢量,其中i = 0是当前帖的结束,
[0064] i = 1是当前帖的开始,i = 2是前一帖的结束
[00化]在W02011/049515中描述的修改的G.718中定义了 W下特征:
[0066] 化ot_h跟踪最大能量包络
[0067] S ign_dyn_lp;平滑后的输入信号动态特性
[0068] 在W02011/049514中还定义了特征化ot_v_h,但是在本实施例中其被修改并且现 在被实施为W下:
[0069]
[0070] Etot_v测量帖之间的绝对能量变化,即,帖之间的瞬时能量变化的绝对值。在W上 示例中,当最后帖能量和当前帖能量之间的差小于7个单位时,运两个帖之间的能量变化被 确定为"低"。运被用作表明当前帖(和先前帖)可能是停顿的一部分(即,仅包括背景噪声) 的指示符。然而,运种低变化还可W在例如突发语音的中间找到。变量Etot_last是先前帖 的能量水平。
[0071] W上在代码中描述的步骤可W被执行为图2中的流程图的"计算/更新相关性和能 量"步骤的一部分,即,动作201的一部分。在W02011/049514实施中,VAD标记被用于确定当 前音频信号分段是否包括背景噪声。发明人认识到依赖于反馈信息可能会有问题。在本文 公开的方案中,确定是否更新背景噪声估计不依赖于VAD(或SAD)判断。
[0072] 此外,在本文公开的方案中,不是W02011/049514实施的一部分的W下特征可W被 计算/更新为相同步骤的一部分,即,在图2中示出的计算/更新相关性和能量步骤。运些特 征还被判断逻辑用于确定是否更新背景估计。
[0073] 为了实现更准确的背景噪声估计,W下定义多个特征。例如,定义了新的关于相关 性的特征co;r_est和It_co;r_est。特征co;r_est是当前帖中的相关性的估计,并且co;r_est还 用于产生It_cor_est,It_cor_est是对相关性的平滑后的长期估计。
[0074] cor_est = (cor[0]+cor[1]+cor[2])/3. Of;
[00巧]st-> lt_co;r_est = 0.01f*co;r_est+0.99f*st-> lt_co;r_est;
[0076] 如上所述,cor[i]是包括相关性估计的矢量,cor[0]表示当前帖的结束,cor[l]表 示当前帖的开始,并且cor[2]表示先前帖的结束。
[0077] 此外,计算新特征It_tn_hack,其给出关于背景估计有多频繁地接近当前帖能量 的长期估计。在当前帖足够接近当前背景估计时,其被登记为用信号(1/0)通知是否接近背 景的条件。该信号用于形成长期测量It_tn_track。
[0078] st->lt_tn_track = 0,03f*(Etot-s t->totalNoise< 10)+0.97f*st->lt_tn_ track;
[0079] 在该示例中,在当前帖能量接近背景噪声估计时添加0.03,否则剩下的项只有 0.97乘W先前值。在该示例中,"接近"被定义为当前帖能量Etot和背景噪声估计 totalNoise之间的差小于10个单位。"接近"的其它定义也是可行的。
[0080]此外,当前帖能量化ot和当前背景估计to化INoise之间的差被用于确定给出对该 距离的长期估计的特征lt_tn_dist。创建类似的特征lt_Ellp_dist用于长期最小能量 Etot_l_lp和当前帖能量化ot之间的距离。
[0081 ] st-> lt_tn_dist = 0.03f* 化 tot-st-> totalNoise)+0.97f*st-> lt_tn_dist; [0082] st->lt_Ellp_dist = 0.03f*(Etot-st->Etot_l_lp)+0.97f*st-> lt_El lp_ dist;
[0083]上文引入的特征ha;rm_co;r_cnt用于对从具有相关性或谐波事件的最近帖开始 (即,从满足与活动相关的特定准则的帖开始)的帖的数目进行计数。也就是说,当条件 ha;rm_co;r_cnt = =0,则其暗示当前帖很可能是活动帖,因为其显示了相关性或谐波事件。 运用于形成对运种事件多频繁发生的长期平滑估计lt_haco_ev。在此情况下,更新不对称, 也就是说,在增加或降低估计的情况下使用不同时间常数,如下文所述。
[0084]
[0085] 上文引入的特征It_tn_hack的低值指示针对一些帖,输入帖能量没有接近背景 能量。运是由于在当前帖能量不接近背景能量估计的情况下,It_tn_track针对每个帖而降 低。It_tn_track仅在当前帖能量接近背景能量估计时增加,如上所示。为了得到对该"不跟 踪"(即,帖能量远离背景估计)持续了多久的更好估计,用于不存在跟踪的帖的数目的计数 器 low_tn_track_cnt 被形成为:
[0086]
[0087] 在W上示例中,"低"被定义为低于值0.05。运应该被视为示例性值,其可W被不同 地选择。
[0088] 对于在图2中示出的步骤"形成停顿和音乐判断",使用W下Ξ个代码表达来形成 停顿检测(还被表示为背景检测)。在其它实施例和实施方式中,还可W添加其它准则来进 行停顿检测。使用相关性和能量特征来在代码中形成实际音乐判断。
[0089] 1 :bg_bgd = litot<litot_l_lp+0.6f*st->E;tot_v_h;
[0090] 当Etot接近背景噪声估计时bg_bgd将变为"Γ或"真"。bg_bgd用作针对其它背景 检测器的掩码。也就是说,如果bg_bgd不为"真",则不需要评估下面的背景检测器2和3。 化〇t_V_h是噪声变化估计,其可W备选地表示为Nvar。使用化0*_乂从(对数域中的)输入总能 量得到Etot_v_h,其中,Etot_v现慢帖之间的绝对能量变化。应注意,特征化ot_v_h被限制 为只针对每帖将最大值增加小的常数值(例如0.2)eEtot_l_lp是最小能量包络化ot_l的平 滑版本。
[0091] 2 :aE_bgd = st->aEn= =0;
[0092] 当aEn为零时,址_bgd变为"Γ或"真"。址η是如下计数器:当活动信号被确定为存 在于当前帖中时递增,当当前帖被确定为不包括活动信号时递减。aEn可W不递增多于特定 数目(例如6),并且不减小到小于零。在多个(例如6个)连续帖之后,在不存在活动信号的情 况下,a化将等于零。
[0093] 3. sdl_bgd= (31:->3;[即_(17]1_相> 15)&&化tot-st->E;tot_l_lp) <st->E;tot_ v_h&&st->harm_cor_cnt>20 ;
[0094] 在^下;个不同情况是真的情况下,sdl_bgd将为"Γ或"真":信号动态特性31即_ dyn_lp高,在此示例中多于15;当前帖能量接近背景估计;W及:通过了不具有相关性或谐 波事件的特定数目的帖,在该示例中为20帖。
[00M] bg_bgd的功能是用作用于检测当前帖能量接近长期最小能量的标记。后两者址_ bgd和sdl_bgd表示不同条件下的停顿或背景检测。aE_bgd是运两者中最常用的检测器,而 sdl_bgd主要检测高SNR中的语音停顿。
[0096] 根据本文公开的技术的实施例的新判断逻辑被构建在下面的代码中。判断逻辑包 括掩码条件bg_bgdW及两个停顿检测器aE_bgd和sdl_bgd。还可存在第Ξ停顿检测器,其评 估关于totalNoise跟踪最小能量估计的性能的长期统计量。在第一行是真的情况下评估的 条件是关于步长应该为多大的判断逻辑,updt_step和实际噪声估计更新是将值指派给 "st->bck;r[i]=-"。应注意,tmpN[i]是之前计算的根据在W02011/049514中描述的方案所 计算的潜在新噪声水平。下文的判断逻辑遵循图2的部分209,其被与下文的代码相关联地 部分指示
[0097]
[009引
[0099]
[0100] in music…*/开始的最后代码块中的代码分段包含对背景估计的强制 缩减,其在怀疑当前输入是音乐的情况下被使用。运被判断为函数:长期的与最小能量估计 相比的不良跟踪背景噪声AND(与)经常发生谐波或相关性事件AND最后条件"to化lNoise> 0"检查到背景估计的当前总能量大于零,其暗示可W考虑背景估计的减小。此外,确定 "6〇吐[。>2地_11矿是否成立,其中,E_MIN是较小的正值。运是为了检查包括子带背景估 计在内的矢量中的每个条目,从而条目需要超过E_MINW被减小(在该示例中乘W0.98)。进 行运些检查W避免将背景估计减小为太小的值。
[0101] 实施例改善了背景噪声估计,其使得SAD/VAD能够W更好的性能实现高效DTX方 案,并且避免由于削波而引起的语音质量或音乐的劣化。
[0102] 通过从化ot_v_h移除在W02011/049514中描述的判断反馈,可W更好地分离噪声 估计和SAD。运在如果/当SAD功能/调谐改变时而噪声估计不变的情况下是有益的。也就是 说,背景噪声估计的确定变得独立于SAD的功能。此外,噪声估计逻辑的调谐也变得更简单, 因为其不受当背景估计改变时来自于SAD的次生效应的影响。
[0103] 下文是对示出了利用本文公开的实施例解决的问题的附图的描述。
[0104] 图6是示出了音频信号的多个帖的能量化ot(点)的示图。示图示出了利用现有技 术方案估计的背景(靠下的较细的曲线V')、W及根据建议方案的实施例估计的背景(靠上 的较粗的曲线"+")。该示图示出了实施例如何通过将总能量估计保持在较高的水平,并且 通过在例如帖2510(与原始方案中的帖2610相比)附近更快地反应,来实现对背景噪声的更 好跟踪。
[0105] 图7也是示出了音频信号的多个帖的能量化ot(点)的示图。示图示出了利用现有 技术方案估计的背景(靠下的较细的曲线V')、W及根据建议方案的实施例估计的背景(靠 上的较粗的曲线V')。可W看出,根据本文建议的方案的估计更高效地跟踪背景噪声(例如 话语之间的背景噪声),尤其是在帖数范围1600-1700中。
[0106] 图8也是示出了音频信号的多个帖的能量化ot(点)的示图。示图示出了利用现有 技术方案估计的背景(靠上的较细的曲线V')、W及根据建议方案的实施例估计的背景(靠 下的较粗的曲线V')。示图还示出了建议的方案与(现有技术)跟踪背景太高效时相比的优 势。当在帖2300和2400之间在背景中存在能量突发时,话语的前端削波在帖2400处开始的 风险增加。
[0107] 图9也是示出了音频信号(在此情况下为音乐信号)的多个帖的能量化ot(点)的示 图。该示图中的音乐文件具有很像噪声的开始,并且其导致噪声估计做出了错误的判断,并 且允许对文件(在帖200附近)进行一点更新。然而,利用强制背景减小,其开始在帖1700恢 复,并且在帖2100,噪声估计下降到强制减小的最低水平。从附图中可W看出,由于针对多 数帖而言输入高于背景估计,利用普通更新逻辑不能具有相同的背景水平减小。
[0…引结论陈述
[0109] 上述背景估计器可W包括在SAD、编解码器和/或诸如通信设备的设备中。通信设 备可W是用户设备(UE),其形式为移动电话、视频相机、录音机、平板电脑、台式电脑、膝上 型电脑、TV机顶盒或家庭服务器/家庭网关/家庭接入点/家庭路由器。在一些实施例中,通 信设备可W是适于编码和/或转码的通信网络设备。运种通信网络设备的示例是服务器,例 如媒体服务器、应用服务器、网关和无线电基站。通信设备还可W适于布置在(即嵌入在)诸 如轮船之类的船舰、无人飞机、飞机和诸如汽车、己±或火车之类的道路车辆中。运种嵌入 式设备通常属于车辆信息设备单元或车辆信息娱乐系统。
[0110] 本文所述的步骤、功能、过程、模块、单元和/或块可W使用任何常规技术实现在硬 件中,例如分立式电路或集成电路技术,包括通用电子电路和专用电路二者。
[0111] 特定示例包括一个或多个合适配置的数字信号处理器和其他已知电子电路,例如 用于专用特别功能的互连的分立逻辑口、或者应用专用集成电路(ASIC)。
[0112] 备选地,上述步骤、功能、过程、模块、单元和/或块的至少一部分可W实现在软件 中,例如由包括一个或多个处理单元的合适处理电路来执行的计算机程序。在被网络节点 中的计算机程序使用之前或期间,软件可W由载体(例如电子信号、光信号、无线电信号或 计算机可读存储介质)承载。
[0113] 当由一个或多个处理器执行时,本文提出的流程图(一个或多个)可被认为是计算 机流程图(一个或多个)。对应的装置可定义为一组功能模块,其中由处理器执行的每个步 骤对应于功能模块。在运种情况下,功能模块实现为在处理器上运行的计算机程序。
[0114] 处理电路的示例包括但不限于,一个或多个微处理器、一个或多个数字信号处理 器化SP)、一个或多个中央处理单元(CPU)和/或任意合适的可编程逻辑电路,例如一个或多 个现场可编程口阵列(FPGA)或者一个或多个可编程逻辑控制器(PLC)。也就是说,在上述不 同节点中的布置中的单元或模块可W被实施为模拟或数字电路的组合、和/或由存储在存 储器中的软件和/或固件配置的一个或多个处理器。运些处理器中的一个或多个W及其它 数字硬件可W包括在单个专用集成电路(ASIC)中,或者若干个处理器和各种数字硬件可W 分布在若干个分离的组件上,不论单独封装还是组装为片上系统(SoC)。
[0115] 也应当理解,可W重用其中实现了所提出的技术的任意传统设备或单元的通用处 理能力。还可W例如通过重新编程现有的软件或者通过添加新的软件组件来重新使用现有 的软件。
[0116] 仅作为示例,提出上述实施例,并且应当理解,所提出的技术不限于此。本领域技 术人员将会理解,在不背离本发明范围的情况下,可W对该实施例进行各种修改、合并和改 变。尤其是,不同实施例中的不同部分的方案可在其他技术上可行配置中进行组合。
[0117] 当使用词语"包括"或"包括……"时,应当被理解为非限制性的,即意味着"至少包 括"。
[0118] 应该注意的是,在一些备选实施例中,在块中标记的功能/动作可W不W流程图中 标记的顺序发生。例如依赖于所设及的功能/动作,连续示出的两个块实际上可W实质上同 时执行,或者块有时候可W按照相反的顺序执行。此外,可W将流程图和/或方框图中的给 定模块的功能分离成多个块和/或流程图的两个或更多块的功能和/或可w至少部分地集 成方框图。最后,可W在不脱离本发明构思的情况下,在示出的块之间添加/插入其它块, 和/或可W删除块/操作。
[0119] 应当理解,在本公开内对交互单元的选择W及单元的命名仅用于示例目的,并且 可通过多个备选方式来配置适合于执行上述任何方法的节点,从而能够执行所公开的处理 动作。
[0120] 还应当注意,本公开中描述的单元应被认为是逻辑实体,并且不必是分离的物理 实体。
[0121] 除非明确地阐述,对单数形式的元件的引用不意图表示"一个且仅一个",而是"一 个或更多个"。上述优选元素实施例的元素的对于本领域的普通技术人员已知的所有结构 和功能等同物明确通过引用并入本文,并旨在由本权利要求所涵盖。此外,设备或方法不必 须解决本文公开的技术所要解决的每个问题,其用于被包含于此。
[0122] 在本文的一些实例中,省略众所周知的设备、电路和方法的详细说明,W免不必要 的细节模糊所公开技术的说明。本文中列出所公开技术的原理、方面和实施例,W及其具体 实例的所有陈述旨在包括其结构和功能等同物。此外,不考虑结构,希望运种等价形式既包 括当前已知的等价形式,也包括未来发展的等价形式,例如执行相同功能的发展的单元。
[0123] 缩写
[0124] AMR自适应多速率 [01巧]DTX不连续传输 [01%] VAD语音活动检测器
[0127] 3GPP第Ξ代合作伙伴计划
[0128] SID静音插入描述符
[0129] SAD语音活动检测器
[0130] SNR信噪比
[0131] WB 宽带
【主权项】
1. 一种用于支持在音频信号分段中进行声音活动检测的背景噪声估计方法,所述方法 包括: 当音频信号分段的能量水平比高于(202:1)长期最小能量水平lt_min的阈值大时,或 者当音频信号分段的能量水平比高于(202:2)lt_min的阈值小,但是在音频信号分段中没 有检测(204:1)到停顿时,其中,所述lt_min是对多个在先音频信号分段所确定的: -当确定(203:2)音频信号分段包括音乐并且当前背景噪声估计超过最小值(205:1) 时,减小(206)当前背景噪声估计; 从而基于背景噪声估计实现更准确的声音活动检测。2. 根据权利要求1所述的方法,其中,判断音频信号分段的能量水平是否比高于lt_min 的阈值大是基于从输入音频信号得到的信息,而不是基于来自声音活动检测器的反馈。3. 根据权利要求1或2所述的方法,其中,除了音频信号分段的能量水平比高于lt_min 的阈值小之外,当还满足以下条件之一或两者时认为检测到停顿: -预定义数目的连续在先音频信号分段已被确定为不包括活动信号; -音频信号的动态特性超过阈值。4. 一种背景噪声估计器(500),用于支持在音频信号分段中进行声音检测,所述背景噪 声估计器被配置为: 当音频信号分段的能量水平比高于长期最小能量水平lt_min的阈值大时,或者当音频 信号分段的能量水平比高于lt_min的阈值小,但是在音频信号分段中没有检测到停顿时, 其中,所述lt_min是对多个在先音频信号分段所确定的: -当确定音频信号分段包括音乐并且当前背景噪声估计超过最小值时,减小当前背景 噪声估计。5. 根据权利要求4所述的背景噪声估计器,被配置为基于从输入音频信号得到的信息 而不是基于来自声音活动检测器的反馈,来判断音频信号分段的能量水平是否比高于lt_ min的阈值大。6. 根据权利要求4或5所述的背景噪声估计器,被配置为除了音频信号分段的能量水平 比高于lt_min的阈值小之外,当还满足以下条件之一或两者时检测到停顿: -预定义数目的连续在先音频信号分段已被确定为不包括活动信号; -音频信号的动态特性超过阈值。7. -种声音活动检测器SAD,包括根据权利要求4-6中任一项所述的背景噪声估计器。8. -种编解码器,包括根据权利要求4-6中任一项所述的背景噪声估计器。9. 一种无线设备,包括根据权利要求4-6中任一项所述的背景噪声估计器。10. -种网络节点,包括根据权利要求4-6中任一项所述的背景噪声估计器。11. 一种计算机程序,包括指令,所述指令当在至少一个处理器上执行时使所述至少一 个处理器执行根据权利要求1-3中任一项所述的方法。12. -种包含前述权利要求所述的计算机程序的载体,其中,所述载体是电子信号、光 信号、无线电信号或计算机可读存储介质中的一种。
【文档编号】G10L25/84GK105830154SQ201480067985
【公开日】2016年8月3日
【申请日】2014年12月1日
【发明人】马丁·绍尔斯戴德
【申请人】瑞典爱立信有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1