用于评估退化语音信号的可理解性的方法和装置的制造方法
【技术领域】
[0001] 本发明涉及通过将参考语音信号传送通过音频传输系统来提供退化语音信号,评 估从音频传输系统接收的退化语音信号的可理解性的方法,其中该方法包括:将所述参考 语音信号采样成多个参考信号帧,并且针对每个帧,确定参考信号表现;将所述退化语音信 号采样成多个退化信号帧,并且针对每个帧,确定退化信号表现;通过将每个参考信号帧与 对应的退化信号帧相关联,形成帧对,并且针对每个帧对,提供表示所述退化信号帧和关联 的所述参考信号帧之间的差的差分函数。
[0002] 本发明还涉及一种用于执行上面描述的方法的装置和一种计算机程序产品。
【背景技术】
[0003] 在过去数十年间,已经使用感知测量方法开发和展开多种客观的语音质量测量方 法。在该方法中,基于感知的算法模拟在听音测试中对音频片段的质量进行定级的对象的 行为。对于语音质量,最可能使用所谓的绝对种类定级听音测试,在该测试中对象在不访问 纯净的参考语音片段的情况下判断退化语音片段的质量。在国际电信联盟(ITU)内执行的 听音测试主要使用绝对种类定级(ACR)5点意见等级,其因此还被用于由ITU标准化的客观 语音质量测量方法,感知语音质量测量(PSQM(ITU-T Rec. P. 861,1996))以及其随后的语音 质量的感知评估(PESQ (ITU-T Rec. P. 862, 2000))。这些测量标准的焦点在于窄带语音质量 (音频带宽10-3500HZ),尽管在2005年构想出宽带扩展(50-7000HZ)。PESQ提供与窄带语 音数据的主观听音测试十分好的相关性以及对宽带数据可接受的相关性。
[0004] 随着电信业推出新的宽带语音服务,出现了对经验证的性能的高级测量标准以及 支持较高的音频带宽的需求。因此,ITU-T (ITU-电信部)12研宄组发起了新的语音质量评 价算法的标准化作为PESQ的技术更新。新的第三代测量标准POLQA(感知客观听音质量评 价)克服了 PESQ P. 862标准的不足,如线性频率响应失真、在IP电话中发现的时间伸展/ 压缩、特定类型的编解码失真以及回声的影响的错误的评价。
[0005] 尽管POLQA (P. 863)提供相对于之前的质量评估算法PSQM (P. 861)和PESQ (P. 862) 的诸多改进,但是目前的POLQA版本(如PSQM和PESQ)不能解决基本的主观感知质量情况, 即可理解性。尽管可理解性还依赖于诸多音频质量参数,但是可理解性比声音质量与信息 传递更加相关。就这些质量评价算法而言,可理解性与声音质量截然相反的本质使得这些 算法产生与在由人或听众评估语音信号时会被分配的分数不匹配的评估分数。将焦点保持 在信息共享的目标,人们会认为在声音质量上相似的可理解的语音信号比不太好理解的信 号更重要。
[0006] 尽管取得了许多进展,但是在诸多情况下当前模型仍意料之外地不能正确地预测 人可理解性的评估分数。
【发明内容】
[0007] 本发明的目的是寻求一种上述现有技术不足的解决方案以及提供一种评估(退 化)语音信号的质量评估算法,该质量评估算法适合于考虑语音信号的可理解性以便以最 接近于人评估的方式评估该语音信号。
[0008] 本发明实现这个目的和其它目的,因为提供一种通过将参考语音信号传送通过所 述音频传输系统以提供退化语音信号,评估从所述音频传输系统接收的退化语音信号的可 理解性的方法。参考语音信号至少表示(表达)由辅音和元音的组合组成的一个或多个 词。参考语音信号被采样成多个参考信号帧,并且退化语音信号被采样成多个退化信号帧。 通过将参考信号帧和退化信号帧彼此关联,形成帧对。根据该方法,向每个帧对提供表示所 述退化信号帧和关联的所述参考信号帧之间的差的差分函数。针对一个或多个干扰类型补 偿差分函数,以向每个帧对提供适合于人听觉感知模型的干扰密度函数。根据多个帧对的 干扰密度函数,导出总体质量参数。总体质量参数至少指示所述退化语音信号的可理解性。 特别地,所述方法还包括:针对由参考语音信号表达的词中的至少一个词,识别与至少一个 词的至少一个辅音关联的参考信号部分和退化信号部分。根据所识别的参考信号部分和退 化信号部分,基于退化信号部分的信号功率与参考信号部分的信号功率的比较,确定退化 语音信号的干扰的程度。然后,依据所确定的与至少一个辅音关联的退化语音信号的干扰 的程度,补偿总体质量参数。
[0009] 本发明通过认识到与语音信号中词的辅音一致的噪声和其它干扰被认为相比于 与元音一致的类似干扰更恼人且对信息传递更有破坏性。这与元音通常比辅音讲的更大声 的事实有关。此外,大多数类型的干扰平均起来的感知似乎与辅音的感知更类似,而元音则 更加突出。因此,在存在相对响的干扰时,元音经常被正确地感知,而辅音则更经常被错误 感知,导致信息传递失败。本发明的方法通过针对与退化语音信号中的辅音一致的退化语 音信号中体验到的干扰的量而补偿所获得的总体质量参数(即,模拟的人评估分数),正确 地考虑该方面。
[0010] 根据本发明的实施例,识别步骤包括:将多个退化信号帧和参考信号帧中每个帧 的信号功率与第一阈值和第二阈值相比较,并且如果所述信号功率大于第一阈值且小于第 二阈值,则认为退化信号帧或参考信号帧与至少一个辅音关联。
[0011] 与参考语音信号或退化语音信号中的辅音相关的信号部分可以基于该信号中的 信号功率来认识。特别地,考虑(纯净的,即优化的)参考信号,由于元音通常比辅音讲的更 大声,所以将参考信号与较高的阈值相比较使得能够从待分析的信号部分中排除元音。此 外,通过将参考语音信号中的信号功率与较低的阈值相比较,还可以排除不携带语音信息 的寂静部分。因此,通过将参考语音信号的信号功率与较高阈值和较低阈值相比较,使得能 够识别与语音信号中的辅音关联的信号部分。
[0012] 通过对与退化信号部分的信号帧对应的参考信号帧进行识别的时间对齐过程,发 现与退化语音信号中的辅音关联的对应信号部分。退化语音信号帧还可以从与所识别的参 考信号部分关联的帧对中获得。
[0013] 根据本发明的另一实施例,在第一频域中计算每个退化信号帧的信号功率,并且 在第二频域内计算每个参考信号帧的信号功率。第一频域包括说话声音和可听噪声的第一 频率范围,而第二频域包括(至少)说话声音的第二频率范围。特别地,根据另一实施例, 第一频率范围可以在300赫兹至8000赫兹之间,并且第二频率范围可以在300赫兹至3500 赫兹之间。用于分别计算退化信号帧的信号功率和参考信号帧的信号功率的频域之间的此 差分,允许通过将任何频率分量排除在语音范围以外而理想化参考信号帧,而与此同时,用 于退化信号帧的更宽频率范围可以考虑退化语音信号中可听见的干扰。
[0014] 根据本发明的另一实施例,识别步骤包括:针对参考语音信号,识别信号功率在第 一阈值和第二阈值之间的活跃语音信号帧以及信号功率在第三阈值和第四阈值之间的轻 柔语音信号帧,并且将所述活跃语音信号帧和所述轻柔语音信号帧与退化信号帧关联,以 产生活跃语音参考信号帧、轻柔语音参考信号帧以及其关联的活跃语音退化信号帧和轻柔 语音退化信号帧,并且其中信号功率的所述比较包括将所述活跃语音参考信号帧的信号功 率、所述轻柔语音参考信号帧的信号功率、所述活跃语音退化信号帧的信号功率和所述轻 柔语音退化信号帧的信号功率彼此比较。
[0015] 上面的优选实施例允许更准确地考虑在语音信号中的辅音期间干扰的影响,因为 这使得能够针对在相比于不太重要的活跃语音信号部分更重要的轻柔语音信号部分期间 发生的干扰,不同地补偿总体质量参数。
[0016] 根据本发明的另一实施例,第一阈值小于所述第三阈值,第三阈值小于所述第四 阈值,并且所述第四阈值小于所述第二阈值。根据该实施例,活跃语音信号部分比轻柔语音 信号部分对应于信号功率的更宽功率范围。特别地,可以选择第二阈值,使得排除与语音信 号表示的词中一个或多个元音关联的参考信号部分和其关联的退化信号部分。如这里和上 面解释的,在语音信号中元音一般比辅音讲的更大声。
[0017] 根据本发明的优选实施例,信号功率的比较包括:计算平均活跃语音参考信号部 分信号功率partiTC#favOTage;计算平均轻柔语音参考信号部分信号功率P s()ft#f,avOTage;计算平 均活跃语音退化信号部分信号功率Pac;tive>gMd4av" age;计算平均轻柔语音退化信号部分信 号功率 Psoft,degraded, average, 并且通过如下计算辅音-元音-辅音信噪比补偿参数CVC SNR-factor? 确定退化语音信号的干扰的程度:
[0019] 其中Ajp Λ 2是常数。
[0020] 使用这里和上面定义的CVCsnk fac;tOT,对在辅音期间考虑的干扰,获得与退化语音信 号中一般体验到的这种干扰的人评估最密切接近的非常准确的参数。对于上面,注意添加 常数Λ JP Λ 2以防止除以零以及将该模型的行为适应于对象的行为。
[0021] 这种总体质量参数补偿可以以若干个不同方式执行。特别地,并且有利地,使用 上面描述的干扰密度函数计算的总体质量参数可以乘以补偿因子。根据特定实施例,在辅 音-元音-辅音信噪比补偿参数CVC sm fartOT大于0, 75的情况下,补偿因子可以是1. 0,而 在辅音-元音-辅音信噪比补偿参数CVCsnk fac;tOT小于0, 75的情况下,补偿因子是(CVC SNK fartOT+0, 25)1/2。在该实施例中,仅在辅音的重要部分期间相对响的干扰的情况下补偿总体质 量参数。不考虑语音信号中的元音期间体验的任何干扰。此外,还从补偿中排除小干扰。
[0022] 本发明不局限于方法步骤的特定顺序。尽管可以在该方法中的任何位置实现总体 质量参数的补偿,但是补偿可以在该方法就要结束时(例如,在该方法的输出处提供总体 可理解性参数以前)容易地执行。此外,在不将该方法局限于特定步骤顺序的情况下,可以 有利地在帧采样之后并且在提供差分函数之前执行识别参考信号部分和/或退化信号部 分的步骤。
[0023] 根据第二方面,本发明针对一种计算机程序产品,所述计算机程序产品包括计算 机可执行代码,所述计算机可执行代码用于在由计算机执行时执行上面描述的方法。
[0024] 根据第三方面,本发明针对一种用于执行根据第一方面的方法的用于评估退化语 音信号的可理解性的装置,所述装置包括:接收单元,用于从传送参考语音信号的音频传输 系统接收所述退化语音信号,参考语音信号至少表示由辅音和元音的组合构成的一个或多 个词,并且接收单元进一步被布置用于接收参考