确定混响对信号的感知质量的感知影响的方法，以及计算机程序产品与流程

文档序号：34177557发布日期：2023-05-17 06:07阅读：75来源：国知局

本发明涉及一种确定劣化音频信号中的回声量或混响量对劣化音频信号的感知质量的感知影响的方法，其中，劣化音频信号是从音频传输系统接收到的，通过由音频传输系统传递参考音频信号以提供劣化音频信号而获得劣化音频信号，以及在计算机程序产品处获得劣化音频信号。

背景技术：

1、在过去的几十年中，已经使用感知测量方法开发和部署了客观的语音质量测量方法。在该方法中，基于感知的算法模拟受测者的行为，该受测者在听音测试中对音频片段的质量进行评级。对于语音质量，人们主要使用所谓的绝对分类评级听音测试，其中受测者在没有获知(access to)清晰的参考语音片段的情况下判断劣化语音片段的质量。国际电信联盟(international telecommunication union，itu)所进行的听音测试主要使用绝对分类评级(absolute category rating，acr)5分评价尺度(5point opinion scale)，因此也用在客观语音质量测量方法中，客观语音质量测量方法被itu的以下算法所标准化：感知语音质量测量(perceptual speech quality measure，psqm(itu-t推荐p.861,1996))及其后续语音质量感知评估(perceptual evaluation of speech quality，pesq(itu-t推荐p.862,2000))。这些测量标准的重点是窄带语音质量(音频带宽100-3500hz)，尽管在2005年还设计出了宽带扩展(50-7000hz)。对于窄带语音数据而言，pesq和主观听音测试具有较好的相关性，并且对于宽带数据而言，pesq和主观听音测试具有可接受的相关性。

2、随着电信行业推出新的宽带语音服务，需要一种性能得到验证且能够适应更大音频带宽的先进测量标准。因此，itu-t(itu-telecom，itu-电信分部)研究组12提出了作为pesq的技术更新的一种新的语音质量评估算法的标准化。新的第三代测量标准polqa(perceptual objective listening quality assessment，感知客观听音质量评估)克服了pesq p.862标准的缺陷，例如对线性频率响应失真的影响的不正确评估、在网络语音电话业务(voice-over-ip)中所发现的时间扩展/压缩(time stretching/compression)、某些类型的编解码器失真和混响。

3、相对于先前的质量评估算法psqm(p.861)和pesq(p.862)，polqa(p.863)提供了大量的改进，并且当前版本的polqa也提出了大量的改进，例如正确评估线性频率响应失真的影响、网络语音电话业务(voice-over-ip)中所发现的时间扩展/压缩(time stretching/compression)、某些类型的编解码器失真、混响和回放水平。

4、影响感知语音和声音质量的因素之一是音频信号中回声和混响的存在，后者是回声的叠加。混响量或回声量的确定可以例如通过执行数字化音频信号的自相关以估计能量时间曲线来实现。当参考信号和劣化信号都可用时，如polqa的情况，可以根据被测系统的估计传递函数来确定能量时间曲线。polqa中使用后一种方法，然而，所获得的估计的准确性受到信号长度以及某些类型的噪声、脉冲或时移失真的存在的影响，导致混响量对感知音频质量的感知影响的确定不准确。

技术实现思路

1、本发明的目的是消除上述缺陷，并提供一种用于准确估计音频信号中混响对该音频信号的感知质量的感知影响的方法。

2、为此，本文提供了一种确定劣化音频信号中的回声量或混响量对劣化音频信号的感知质量的感知影响的方法，其中，从音频传输系统接收劣化音频信号，通过由音频传输系统传递参考音频信号以提供劣化音频信号而获得劣化音频信号。该方法包括：由控制器从劣化音频信号获得至少一个劣化数字音频样本，以及从参考音频信号获得至少一个参考数字音频样本；由控制器基于至少一个劣化音频样本和至少一个参考音频样本确定局部脉冲响应信号；由控制器基于脉冲响应信号确定能量时间曲线，其中，能量时间曲线与脉冲响应信号的绝对值的平方根成比例；以及基于脉冲响应识别能量时间曲线中的一个或多个峰值，一个或多个峰值在时间上发生在能量时间曲线开始之后的能量时间曲线中的延迟处，并且基于一个或多个峰值中的能量的量确定回声量或混响量的估计；其中，获得至少一个劣化数字音频样本包括：在时域片段中对劣化音频信号进行采样，采样包括通过将劣化音频信号与窗函数相乘来对劣化音频信号执行加窗操作，以产生劣化数字音频样本；以及其中，获得至少一个参考数字音频样本包括：在时域片段中对参考音频信号进行采样，采样包括通过将参考音频信号与窗函数相乘来对参考音频信号执行加窗操作，以产生参考数字音频样本；其中，用于获得至少一个参考数字音频样本和至少一个劣化数字音频样本的窗函数在待采样的时域片段中具有非零值，并且在时域片段之外具有零值。

3、本发明基于这样的认知，即信号中的许多干扰对混响量的感知影响的正确确定或估计有影响。这些干扰包括不同类型的噪声、不同类型的脉冲失真和不同类型的时移失真，其中一些干扰在总体或全局水平上损害混响量的确定，以及其中一些干扰主要是在局部水平上有害的或存在的。本发明通过在确定混响量之前执行劣化信号和参考信号的加窗，能够克服这个问题。例如，可以根据单个帧或一组连续的帧计算一组感知混响影响参数，单个帧或一组连续的帧可以(通过加窗)构成劣化音频信号和参考音频信号的音频样本。首先，使用加窗能够计算混响的位置估计，并在最终混响估计中考虑这些位置估计。其次，使用加窗能够实现处理参数的局部补偿和局部优化。后者甚至可以根据样本的时域片段的持续时间或样本在完整信号(或相关部分)中的相对位置来完成。因此，由于加窗操作，本发明的方法提供了对混响量或回声量的更准确的估计。这可以应用于许多不同种类的声音处理和评估方法。然而，本发明的方法在劣化语音信号的质量或可懂度的评估中具有显著的相关性，例如上面描述的polqa方法，因此该应用提供了该方法的优选实施例。

4、获得至少一个数字音频样本的步骤优选地包括：通过使用执行上述加窗操作在时域片段中对音频信号进行采样，从音频信号获得多个数字音频样本。在这种情况下，多个数字音频样本中的至少两个连续数字音频样本的时域片段可以是重叠的。例如，至少两个连续数字音频样本之间的重叠在时域片段之间的10％至90％重叠的范围内，优选地在25％至75％重叠的范围内，更优选地在40％至60％重叠的范围内，例如50％重叠。这可能取决于所应用的窗函数的类型，例如作为优化的一部分。

5、在一些实施例中，窗函数是包括以下的组中的至少一个：汉明窗(hammingwindow)、冯·汉恩窗(von hann window)、图基窗(tukey window)、余弦窗(cosinewindow)、矩形窗(rectangular window)、b样条窗(b-spline window)、三角形窗(triangular window)、巴特利特窗(bartlett window)、帕岑窗(parzen window)、韦尔奇窗(welch window)、余弦的n次方窗(nth power-of-cosine window)、凯泽窗(kaiserwindow)、纳托尔窗(nuttall window)、布莱克曼窗(blackman window)、布莱克曼·哈里斯窗(blackman harris window)、布莱克曼·纳托尔窗(blackman nuttall window)或平顶窗(flattop window)，其中，n>1。本发明不限于特定类型的窗函数，并且可以使用不同于本文提到的窗函数的窗函数来应用。甚至，在不脱离本发明的发明概念的情况下，可以开发可用于本发明的方法的新的优化的窗函数。

6、为了确定混响量的估计，在一些实施例中，本发明可以包括基于每个峰值的幅度和/或每个峰值沿时间轴的(相对)延迟位置来加权能量时间曲线的每个峰值中的能量的量。这是基于这样的认知，即具有最大幅度的峰值通常对混响的感知水平有显著影响，以及具有最大幅度的峰值可能如何妨碍语音或声音的可懂度或质量。

7、在一些优选实施例中，该方法还包括：由控制器获得数字信号，数字信号表示音频信号的至少一部分，并且具有比至少一个数字音频样本的时域片段长的持续时间；由控制器对数字信号执行自相关运算，以产生总体脉冲响应信号；由控制器基于脉冲响应信号确定总体能量时间曲线，其中，能量时间曲线与总体脉冲响应信号的平方根成比例；以及基于总体脉冲响应信号来确定能量时间曲线中的一个或多个峰值，一个或多个进一步峰值在时间上发生在能量时间曲线开始之后的能量时间曲线中的延迟处，并且基于一个或多个进一步峰值中的能量的量来确定回声量或混响量的进一步估计。

8、上述优选实施例提供了一种正确地包括和补偿局部干扰和全局干扰(即对混响水平具有局部影响的干扰和对声音信号(或信号部分)的更全局总体水平的估计造成损害的干扰)的方式。此外，类似于上述局部应用的混响估计方法，确定全局或总体水平上混响量的进一步估计同样可以包括基于每个峰值的幅度来加权每个峰值中的能量的量。

9、在其他或进一步实施例中，方法还可以包括以下步骤中的至少一个：由控制器基于所估计的回声量或混响量来计算部分混响指示符值；由控制器基于所进一步估计的回声量或混响量来计算全局混响指示符值；或者由控制器基于所估计的回声量或混响量和所进一步估计的回声量或混响量来计算最终混响指示符值。

10、此外，在上述方法中，基于音频样本或如所述的数字信号确定(局部或全局)脉冲响应信号包括以下步骤：由控制器通过对音频样本或数字信号应用傅立叶变换，将音频样本或数字信号从时域转换到频域；由控制器根据来自音频样本的功率谱信号或频域中的数字信号确定传递函数；以及由控制器将功率谱信号从频域转换到时域，以产生局部脉冲响应信号或全局脉冲响应信号。

11、在优选实施例中，本发明提供了一种评估从音频传输系统接收的劣化语音信号的质量或可懂度的方法，通过音频传输系统传递参考语音信号以提供劣化语音信号，其中，方法包括：-将参考语音信号采样为多个参考信号帧，将劣化语音信号采样为多个劣化信号帧，并通过将参考信号帧和劣化信号帧彼此关联来形成帧对；-为每个帧对提供差函数，差函数表示劣化信号帧和相关联的参考信号帧的差；-针对一个或多个干扰类型补偿差函数，从而为每个帧对提供干扰密度函数，干扰密度函数适用于人类听觉感知模型；-根据多个帧对的干扰密度函数得到总体质量参数，质量参数至少指示劣化语音信号的质量或可懂度；其中，方法还包括：-确定劣化语音信号和参考语音信号中的至少一个中的混响量，其中，混响量是通过应用根据上述任一实施例所述的方法来确定的。

12、在上述类别的实施例中，根据本发明的方法已经应用于用于确定劣化语音信号的质量或可懂度的方法中。由于混响的存在显著地影响感知的质量或可懂度，根据本发明的确定混响量的估计的方法在这种评估质量或可懂度的方法中特别有用。

13、在上述实施例中的一些实施例中，由控制器获得至少一个数字音频样本的步骤是可以通过从多个连续信号帧形成音频样本来执行的，信号帧包括劣化信号帧中的一个或多个、或参考信号帧中的一个或多个。例如，待包括在多个信号帧中的信号帧的数量可以取决于至少一个数字音频样本的时域片段的持续时间，其中，持续时间大于0.3秒，优选地在0.4秒和5.0秒之间，例如持续时间为以下至少之一：0.5秒、1.0秒、1.5秒、2.0秒、2.5秒、3.0秒、3.5秒、4.0秒、4.5秒或5.0秒。在一些应用中，例如polqa，单个帧通常太短而不足以确定混响量，但是短于一秒的音频信号片段可能足够长以被分析以提供混响量的局部估计。

14、因此，在一些实施例中，通过使用例如0.5秒的数字音频样本执行局部估计来获得混响量的第一估计。其中，对于由提供更长持续时间音频信号的多个连续信号帧形成的多个数字音频样本中的每一个获得一个或多个第二估计，并且其中基于第二估计中的至少一个和第一估计来计算混响指示符值。

15、在一些实施例中，对于每个帧对，补偿的步骤是通过以下来执行的：将劣化语音信号和参考语音信号中的至少一个中的所确定的混响量设置为一个或多个干扰类型中的一个，并根据数字音频样本的形成来为每个帧对补偿与相应帧对相关联的混响量。在本文中，可以在与帧对相关联的局部水平上考虑混响估计。这些是构成劣化信号样本的那些帧的帧对。

16、在一些实施例中，在确定脉冲响应信号的步骤之前，方法还包括噪声抑制的步骤，噪声抑制包括：对劣化语音信号或参考语音信号中的至少一个进行第一缩放，以获得类似的平均音量；处理劣化语音信号以从劣化语音信号中移除局部信号峰值；对劣化语音信号或参考语音信号中的至少一个进行第二缩放，以获得类似的平均音量。

17、此外，在上文中，为了评估语音或声音信号的质量或可懂度，该方法可以很好地限制在较低的频率范围，即与语音或声音信号相关的感兴趣的范围。例如，方法可以在预定频率范围内的音频信号上执行，例如频率范围低于阈值频率或与语音信号相对应的频率范围，例如频率范围低于5千赫。优选地，对于语音信号，频率范围在200赫兹和4千赫兹之间，或者对于其他声音信号，频率高达20千赫。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：尼尔斯
技术所有人：荷兰应用自然科学研究组织TNO
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。