用于语音活动性检测的方法和设备的制造方法_3

文档序号:8287966阅读:来源:国知局
D判决等于初级VAD判决。如果确定要执行尾响添加,则最终VAD判决等于语音活动 性判决。因为添加了尾响,则语音活动性判决被设为指示活动帧(即包含话音而不是包含 噪声的帧)。根据N_st个最新的初级VAD判决340来推导短期活动性测量,和/或根据N_ It个最新的最终VAD判决来推导342长期活动性测量。根据短期活动性测量和/或长期活 动性测量,作出是否要执行尾响添加的确定。即使图3被示出为单个事件流程,实际系统将 一帧接一帧地进行处理。虚线箭头指示取决于短期活动性测量和/或长期活动性测量对于 后续帧是有效的。
[0052] 应当理解的是,图3未示出信号流程,而是要根据本发明的实施例执行的方法步 骤。即,创建最终VAD判决330可以包括:基于短期活动性测量和/或长期活动性测量,创 建替换的最终判决(例如vad_flag_dtx 217)。然而,替换的最终判决不用作对长期活动性 估计器204的输入,因为其将引入活动性的反馈环路(由于调整的尾响添加修改了要测量 的特征)。因此,创建最终VAD判决330还可以包括:基于传统的尾响技术和/或短期活动 性测量而不是长期活动性测量来创建最终判决(例如vad_f lag 215),最终判决然后用作 针对长期活动性估计器204的输入,如图2所示。
[0053] 在图4A中示意性地示出的一个实施例中,语音活动性检测器400包括:输入部 412、初级语音检测器装置401和尾响添加单元402。输入部被配置为:接收输入信号。初级 语音检测器装置401连接到输入部412。初级语音检测器装置401被配置为:检测所接收 的输入信号中的语音活动性,并创建指示与所接收的输入信号相关联的初级VAD判决的信 号。尾响添加单元402连接到初级语音检测器装置401。尾响添加单元402被配置为:确定 是否要执行所述初级VAD判决的尾响添加,并创建指示最终VAD判决的信号。如果确定不 执行尾响添加,则最终VAD判决等于初级VAD判决。如果确定要执行尾响添加,则最终VAD 判决等于语音活动性判决。语音活动检测器400还包括:短期活动性估计器403和/或长 期活动性估计器404。短期活动性估计器403连接到尾响添加单元402的输入。短期活动 性估计器403被配置为:根据【^个最新的初级VAD判决来推导短期活动性测量。长期活 动性估计器404连接到尾响添加单元402的输出。长期活动性估计器404被配置为:根据 N_lt个最新的最终VAD判决来推导长期活动性测量。尾响添加单元402连接到短期活动性 估计器403和/或长期活动性估计器404的输出。尾响添加单元402还被配置为:根据短 期活动性测量和/或长期活动性测量来执行尾响确定。然后可以使用根据短期活动性测量 和/或长期活动性测量的尾响确定来调整尾响添加,以通过创建替换的最终判决来改进用 在DTX中的VAD性能。
[0054] 一般在语音或声音编解码器中提供语音活动检测器。一般在例如电信网络中的不 同端设备中提供这些编解码器。非限制性示例是执行声音的检测或记录的电话、计算机等。
[0055] 在一个实施例中,除了不使用短期活动性测量或长期活动性测量作出的最终VAD 判决之外,给出最终VAD判决作为附加标记410 ( -般作为用于DTX的最终VAD判决),如图 4B所示。然后,不同单元或功能可以并行地使用两个版本的最终判决。在另一备选实施例 中,可以根据要使用VAD判决的上下文,开启和关闭短期活动性测量和长期活动性测量的 使用。
[0056] 在另一实施例中,如果最终VAD判决不可用或不适于作出任何长期活动性分析, 则可以代之以对初级VAD判决执行长期活动分析。在这种实施例中,长期活动性估计器404 取而代之地连接到尾响添加单元402的输入(如图4C所示),并且根据N_lt个最新的初级 VAD判决推导长期活动性测量。
[0057] 在又一实施例中,可以对与要执行尾响添加调整的初级VAD判决和/或最终VAD 判决不同的初级VAD判决和/或最终VAD判决执行短期活动性和长期活动性的估计。一个 可能是让简单VAD产生初级VAD判决,并且简单尾响单元将其修改为最终VAD判决。然后, 可以对这些初级VAD判决和/或最终VAD判决的短期活动性行为和长期活动性行为进行分 析。然而,可以使用另一 VAD设置(例如更复杂的VAD设置)来提供感兴趣的初级VAD判 决用于尾响添加的调整。来自简单系统的所分析的活动性然后可以用于控制更精心设计的 VAD系统的尾响添加单元402的操作,给出可靠的最终VAD判决。
[0058] 在下文中,将参考图5描述语音活动检测器500的实施例的示例。该实施例基于 处理器510 (例如微处理器),处理器510执行:用于创建指示初级VAD判决的信号的软件组 件501、用于确定是否要执行初级VAD判决的尾响添加的软件组件502、和用于创建指示最 终VAD判决的信号的软件组件503。在本实施例中,处理器510执行:用于根据N_st个最 新的初级VAD判决来推导短期活动性测量的软件组件504和/或用于根据N_lt个最新的 最终VAD判决来推导长期活动性测量的软件组件505。这些软件组件存储在存储器520中。 处理器510通过系统总线515与存储器520进行通信。控制输入/输出(I/O)总线516的 I/O控制器530接收音频信号,处理器510和存储器520连接到输入/输出(I/O)总线516。 在本实施例中,由I/O控制器530接收的信号被存储到存储器520中,并在存储器520中由 软件组件进行处理。软件组件501可以实现以上参考图3所描述的实施例中的步骤310的 功能。软件组件502可以实现以上参考图3所描述的实施例中的步骤320的功能。软件组 件503可以实现以上参考图3所描述的实施例中的步骤330的功能。软件组件504可以实 现以上参考图3所描述的实施例中的步骤340的功能。软件组件505可以实现以上参考图 3所描述的实施例中的步骤342的功能。
[0059] I/O单元530可以经由I/O总线516与处理器510和/或存储器520互联,以能够 实现相关数据(例如输入信号和/或最终VAD判决)的输入和/或输出。
[0060] 在一个实施例中,如上所述使用初级判决和最终判决的存储器中活动帧的计数 器。在备选实施例中,还可以使用取决于存储器中活动帧的生存期的权重。这对于短期初 级活动性和长期最终判决活动性两者均是可能的。在其他实施例中,可以取决于其他输入 信号特性(例如估计的话音电平、噪声电平和/或SNR),使用不同的附加尾响。
[0061] 在其他实施例中,可能有兴趣来使用多于两个时间特性以更好地定位活动话音突 发的开始、中间和末尾。
[0062] 在其他实施例中,上述尾响判决原理还可以与其他VAD改进方案(例如 W02011/049516中介绍的多VAD组合器的原理)进行组合。在这种情况下,可以使用修改的 初级VAD判决作为向短期活动性估计器和尾响添加块的输入。于是,多VAD组合器可以被 认为是初级语音检测器装置的一部分。
[0063] 类似地,用于估计背景的不同附加方案可以有利地和容易地与本发明构思集成。
[0064] 根据3GPP2标准的A G. 718编解码可以用作以下所介绍的实施例的基础。有关部 分的详细描述可以在例如公开的国际专利申请W02009/000073 Al中找到。
[0065] 图6示出了 W02009/000073 Al的声音通信系统的框图,该声音通信系统包括:预 处理器601、谱分析器602、声音活动性检测器603、噪声估计器604、可选噪声消减器605、LP 分析器和音高跟踪器606、噪声能量估计更新模块607、信号分类器608和声音编码器609。 在声音活动性检测器603中使用根据在先前帧中计算的噪声能量估计来执行声音活动性 检测(信号分类的第一阶段)。声音活动性检测器603的输出是二进制变量,该输出进一步 被编码器609使用并确定当前帧被编码为活动的还是非活动的。
[0066] 模块"基于SNR的SAD"603是可以实现本公开的实施例的模块。当前,所公开的 实施例仅涵盖宽带信号链(以16kHz采样),但类似的修改还将对窄带信号链(以SkHz或 任意其他采样速率采样)有益。
[0067] 在基于W02011/049516 Al中介绍的原理的一个实施例中,来自W02009/000073 Al的原始VAD(VAD 1)用作第一 VAD,生成信号IocalVAD和vad_flag。在本公开中,该 IocalVAD用作对其进行短期活动性估计的VAD_prim 213。<
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1