用于语音和音乐录音的嗡嗡噪声检测和去除的制作方法

文档序号:34056190发布日期:2023-05-05 16:53阅读:66来源:国知局
用于语音和音乐录音的嗡嗡噪声检测和去除的制作方法

本公开涉及用于处理音频数据的方法和装置。本公开进一步描述了用于音频录音(包括语音和音乐录音)的去嗡嗡声处理(例如,嗡嗡噪声(hum noise)检测和/或去除)的技术。这些技术可以适用于例如对音乐和语音录音的(基于云的)流式传输服务、在线处理和后处理。


背景技术:

1、嗡嗡噪声经常存在于音频录音中。所述嗡嗡噪声可能源自接地回路、ac线路噪声、电缆、rf干扰、计算机主板、麦克风反馈、如冰箱等家用电器、霓虹灯蜂鸣等。用于处理嗡嗡噪声的软件解决方案通常是必要的,因为录音环境并不总能得到保证。

2、嗡嗡噪声通常表现为非常类似于一组固定频率的“音(tone)”。嗡嗡音(hum tone)通常间隔开固定的频率间隔,从而导致谐波声音。然而,“谐波”可能仅出现于部分频带中,并且基音(例如,感知上占主导的音)可能并不与其基本频率相对应。

3、为了增强包含嗡嗡噪声的语音/音乐录音,至关重要的是识别感知上占主导的嗡嗡音并且将其与语音/音乐谐波区分开。通常,需要用于进行嗡嗡噪声检测和/或去除的改进的技术。


技术实现思路

1、鉴于以上,本公开提供了处理音频数据的方法以及对应装置、计算机程序和计算机可读存储介质,其具有相应独立权利要求的特征。

2、根据本公开的一方面,提供了一种处理音频数据的方法。方法可以是检测和/或去除嗡嗡噪声的方法。例如,音频数据可以涉及音频文件、包括音频的视频文件、音频信号或包括音频的视频信号。音频数据可以包括多个帧。帧可以是重叠帧。因此,音频数据可以包括(或表示)一系列(重叠)帧。方法可以包括使用一个或多个内容活动检测器将音频数据的帧分类为内容帧或噪声帧。内容帧可以是音频数据的包含内容(如音乐和/或语音)的帧。因此,内容帧可以是在感知上由内容主导的帧。噪声帧可以是音频数据的在感知上由噪声主导的帧(例如,不包含内容的帧、可能不包含内容的帧或主要包含噪声的帧)。帧的分类可以涉及将相应内容类型的一个或多个可能性与相应阈值进行比较。可能性可能已经由一个或多个内容活动检测器确定。内容活动检测器也可以被称为内容分类器。进一步地,内容活动检测器可以通过适当训练的深度神经网络来实施。方法可以进一步包括根据音频数据的被分类为噪声帧的一个或多个帧确定噪声频谱。噪声频谱可以基于被分类为噪声帧的一个或多个帧的频谱确定。所确定的噪声频谱可以被称为聚集噪声频谱或关键噪声频谱。方法可以进一步包括基于所确定的噪声频谱确定一个或多个嗡嗡噪声频率。方法可以进一步包括基于一个或多个嗡嗡噪声频率生成估计的嗡嗡噪声信号。方法可以又进一步包括基于估计的嗡嗡噪声信号从音频数据的至少一个帧中去除嗡嗡噪声。

3、如上进行配置,所提出的方法在噪声帧与内容帧之间进行区分。然后仅噪声帧用于确定噪声频谱(例如,关键噪声频谱),并且基于此确定嗡嗡噪声频率。这允许可靠并且准确地评估嗡嗡噪声频率,并且因此用于高效去除嗡嗡噪声。所确定的嗡嗡噪声频率的高准确度大大降低了去噪输出音频数据中可感知的伪像的可能性。

4、在一些实施例中,一个或多个嗡嗡噪声频率可以被确定为噪声频谱的异常峰。如果噪声频谱的峰的幅度超出依赖于频率的阈值,则峰可以被确定/判定为与异常峰相关。这允许高效并且自动化检测嗡嗡噪声频率,并且进一步提供了控制嗡嗡噪声去除的激进性的易于实施的控制参数(例如,阈值)。此外,使用这种依赖于频率的阈值导致易于实施的嗡嗡噪声去除,但同时,通过适当选择依赖于频率的阈值,允许自动化对特定应用程序定制的更先进的去除过程。

5、在一些实施例中,确定一个或多个嗡嗡噪声频率可以涉及确定噪声频谱的平滑包络。例如,平滑包络可以是倒谱包络。替代性地,平滑包络可以基于跨频率的移动平均值确定。通常,平滑包络可以指示噪声频谱的预期值。确定一个或多个嗡嗡噪声频率可以进一步涉及将一个或多个嗡嗡噪声频率确定为与平滑包络相比较的噪声频谱的异常峰。

6、在一些实施例中,平滑包络可以在感知上弯曲的标度上确定。例如,感知上弯曲的标度可以是梅尔标度(mel scale)或巴克标度(bark scale)。这允许更好地处理低频中的近嗡嗡音,并补偿当在线性标度上计算包络时可能发生的可能过度估计。

7、在一些实施例中,如果噪声频谱的峰的幅度超出平滑包络大于阈值,则峰可以被判定为异常峰。例如,阈值可以是幅度阈值。

8、在一些实施例中,阈值可以是依赖于频率的阈值。对于较低频率,依赖于频率的(幅度)阈值可以较低。例如,依赖于频率的(幅度)阈值可以被定义为针对低频带具有第一值(例如,3db)并且针对高频带具有大于第一值的第二值(例如,6db)。因此,阈值适应于包络估计偏差和频率接近的底层正弦分量产生的分辨率限制。

9、在一些实施例中,噪声频谱可以基于被分类为噪声帧的一个或多个帧的频谱的平均而确定。在这种情况下,噪声频谱将是被分类为噪声帧的一个或多个帧的均值噪声频谱。

10、在一些实施例中,噪声频谱可以基于在被分类为噪声帧的一个或多个帧之一的频谱之中包括最大能量的频谱确定。例如,噪声频谱可以基于平均频谱(例如,均值噪声频谱)和包括最大能量的频谱的加权和。因此,可以获得具有较少平滑频率峰并且因此可以更准确地检测嗡嗡噪声频率的噪声频谱。

11、在一些实施例中,生成估计的嗡嗡噪声信号可以涉及为一个或多个嗡嗡噪声频率中的每个嗡嗡噪声频率合成相应的嗡嗡音。例如,合成的嗡嗡音可以是正弦音。估计的嗡嗡噪声信号可以是单个嗡嗡音的总和(叠加)。

12、在一些实施例中,生成估计的嗡嗡噪声信号可以涉及对于每个嗡嗡噪声频率,基于相应的嗡嗡噪声频率和至少一个帧中的音频数据来确定相应的嗡嗡噪声相位。以这种方式确定的嗡嗡噪声相位可以被称为瞬时嗡嗡噪声相位。例如,嗡嗡噪声相位可以使用最小二乘法确定。每个嗡嗡噪声频率可以具有各自相关的嗡嗡噪声相位。生成估计的嗡嗡噪声信号可以进一步涉及基于嗡嗡噪声频率和相应的嗡嗡噪声相位,为一个或多个嗡嗡噪声频率中的每个嗡嗡噪声频率合成相应的嗡嗡音。

13、在一些实施例中,生成估计的嗡嗡噪声信号可以涉及对于每个嗡嗡噪声频率,基于相应嗡嗡噪声频率和至少一个帧中的音频数据来确定相应的(瞬时)嗡嗡噪声振幅。生成估计的嗡嗡噪声信号可以进一步涉及对于每个嗡嗡噪声频率,基于噪声频谱确定相应的平均嗡嗡噪声振幅。生成估计的嗡嗡噪声信号可以又进一步涉及基于相应的嗡嗡噪声频率、相应的嗡嗡噪声相位以及相应的嗡嗡噪声振幅与相应的平均嗡嗡噪声振幅中的较小者,为一个或多个嗡嗡噪声频率中的每个嗡嗡噪声频率合成相应的嗡嗡音。通过选择瞬时嗡嗡噪声振幅与平均嗡嗡声振幅中的较小者,可以避免可能导致可听伪像的过度激进的嗡嗡噪声去除,如引入额外的嗡嗡噪声。此外,所提出的技术可以类似地应用于所有帧,无论其为内容帧(例如,语音、音乐)还是噪声帧。

14、在一些实施例中,当至少一个帧被分类为噪声帧时,生成估计的嗡嗡噪声信号可以涉及对于每个嗡嗡噪声频率,基于相应的嗡嗡噪声频率和至少一个帧中的音频数据来确定相应的嗡嗡噪声振幅。以这种方式确定的嗡嗡噪声振幅可以被称为瞬时嗡嗡噪声振幅。例如,嗡嗡噪声振幅可以使用最小二乘法确定。每个嗡嗡噪声频率可以具有各自相关的嗡嗡噪声振幅。在这种情况下生成估计的嗡嗡噪声信号可以进一步涉及基于相应的嗡嗡噪声频率、相应的(瞬时)嗡嗡噪声相位和相应的(瞬时)嗡嗡噪声振幅,为一个或多个嗡嗡噪声频率中的每个嗡嗡噪声频率合成相应的嗡嗡音。

15、在一些实施例中,当至少一个帧被分类为内容帧时,生成估计的嗡嗡噪声信号可以涉及对于每个嗡嗡噪声频率,基于噪声频谱确定相应的平均嗡嗡噪声振幅。每个嗡嗡噪声频率可以具有各自相关的平均嗡嗡噪声振幅。在这种情况下生成估计的嗡嗡噪声信号可以进一步涉及基于相应的嗡嗡噪声频率、相应的(瞬时)嗡嗡噪声相位和相应的平均嗡嗡噪声振幅,为一个或多个嗡嗡噪声频率中的每个嗡嗡噪声频率合成相应的嗡嗡音。替代性地,可以使用先前(例如,直接先前)噪声帧的瞬时嗡嗡噪声振幅,而非使用平均嗡嗡噪声振幅。

16、在一些实施例中,生成估计的嗡嗡噪声信号可以涉及对于每个嗡嗡噪声频率,基于噪声频谱确定相应的平均嗡嗡噪声振幅。每个嗡嗡噪声频率可以具有各自相关的平均嗡嗡噪声振幅。生成估计的嗡嗡噪声信号可以进一步涉及基于相应的嗡嗡噪声频率和相应的平均嗡嗡噪声振幅,为一个或多个嗡嗡噪声频率中的每个嗡嗡噪声频率合成相应的嗡嗡音。

17、在一些实施例中,从至少一个帧中去除嗡嗡噪声可以涉及从至少一个帧中减去估计的嗡嗡噪声信号。

18、在一些实施例中,噪声频谱可以基于音频数据的被分类为噪声帧的所有帧的频谱确定。这假定了音频数据的所有帧同时可用并且可以被称为离线处理。

19、在一些实施例中,方法可以包括顺序接收和处理音频数据的帧。方法可以进一步包括对于当前帧,如果当前帧被分类为噪声帧,则基于当前帧的频谱更新噪声频谱。此场景可以被称为在线处理。对于在线处理,方法可以进一步包括:根据更新的噪声频谱确定一个或多个更新的嗡嗡噪声频率;基于一个或多个更新的嗡嗡噪声频率生成更新的估计的嗡嗡噪声信号;和/或基于更新的估计的嗡嗡噪声信号从当前帧中去除嗡嗡噪声。

20、在一些实施例中,噪声频谱可以根据被分类为噪声帧的多个帧确定。方法可以进一步包括基于被分类为噪声帧的多个帧的频谱确定一个或多个嗡嗡噪声频率随时间的变化。方法可以又进一步包括根据随时间的变化,对音频数据的帧应用带通滤波。其中,带通滤波器可以被设计为使得阻带包括一个或多个嗡嗡噪声频率。例如,如果随时间的变化指示非平稳嗡嗡噪声,即如果嗡嗡噪声频率以超过特定速率进行调制,则可以应用带通滤波。如果随时间的变化超出随时间变化的特定阈值,则可以判定非平稳嗡嗡噪声的存在,并且可以相应地应用带通滤波。这使得避免了可听伪像,如引入额外的嗡嗡噪声,伪像可能由于当应用于(高度)非稳定嗡嗡噪声时进行嗡嗡噪声去除而产生。

21、在一些实施例中,阻带的宽度可以基于相应的嗡嗡噪声频率随时间的变化确定。

22、在一些实施例中,方法可以包括对于一个或多个嗡嗡噪声频率中的至少一个嗡嗡噪声频率,确定至少一个嗡嗡噪声频率是否作为音频数据的所有帧的频谱中的峰存在。方法可以进一步包括如果至少一个嗡嗡噪声频率不作为音频数据的所有帧的频谱中的峰存在,则在去除嗡嗡噪声时,忽略至少一个嗡嗡噪声频率。换句话说,如果根据噪声频谱确定的嗡嗡噪声频率贯穿整个音频数据(例如从第一帧至最后一帧)存在,则可以考虑仅将嗡嗡噪声频率用于嗡嗡噪声去除。因此,假定仅嗡嗡噪声贯穿整个音频录音存在,就可以将内容相关的谐波(例如,如音乐中的那些谐波)与嗡嗡噪声区分开。

23、根据另一方面,提供了一种计算机程序。计算机程序可以包括指令,指令当由处理器(例如,计算机处理器、服务器处理器)执行时使处理器执行贯穿本公开描述的方法的所有步骤。

24、根据另一方面,提供了一种计算机可读存储介质。计算机可读存储介质可以存储上述计算机程序。

25、根据又另一方面,提供了一种装置,装置包括处理器和耦接到处理器的存储器。处理器可以适应于执行贯穿本公开描述的方法的所有步骤。例如,此装置可以与服务器(例如,基于云的服务器)或与服务器系统(例如,基于云的服务器的系统)相关。

26、将理解,装置特征和方法步骤可以以多种方式互换。特别地,如技术人员所理解的,所公开的(多种)方法的细节可以由对应装置实施,并且反之亦然。此外,上述关于(多种)方法(以及,例如其步骤)的任何陈述均应理解为同样适用于对应装置(以及,例如,其框、阶段、单元),并且反之亦然。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1