客观音质评价中基于噪声掩蔽门限算法的巴克谱失真测度方法

文档序号：2820207阅读：529来源：国知局

专利名称：客观音质评价中基于噪声掩蔽门限算法的巴克谱失真测度方法
技术领域：
本发明涉及客观音质评价中的失真测度方法，具体涉及基于噪声掩蔽门限算法的巴克谱失真测度方法背景技术目前国内外对客观音质评价方法的研究主要集中在各种测度的研究上，最终目的是研究和寻求到与主观评价特性曲线最为一致的计算测度，即主客观相关度最高的评价测度。目前较为成熟的有巴克谱失真BSD测度、对数谱距离测度LSD、MEL倒谱距离测度MEL-CD、LPC倒谱系数距离测度LPC-CD和基于瞬时掩蔽效应的改进的巴克谱测度MBSD等等。

发明内容
本发明的目的是提出了一种基于噪声掩蔽门限(NMT)算法的扩展的巴克谱失真(EBSD)测度方法，该测度依据人耳听觉系统的同时性掩蔽特性，在听觉响度域内动态地确定原始语音信号和失真语音信号的响度差掩蔽阈，对不同的语音失真条件，选取不同的掩蔽阈，以此来提高和改善测度的一致性和相关性。
本发明的测度方法分以下三步实现(1)计算输入信号和输出信号的响度差；1)将输入信号和输出信号作FFT变换后得到功率谱P(k)(P(k)＝Re2(k)+Im2(k))，再求得各个临界频带内的巴克谱功率能量，然后对每个巴克带抽一次样，得到临界带能量Bij(Bij=Σk=bjlbjhPi(k));]]>2)应用扩展函数，扩展函数矩阵为S(j,j′)=15.81+7.5·(j-j′+0.474)-17.51+(j-j′+0.474)2]]>对步骤1)中得到的临界带能量Bij用扩展函数进行滤波卷积C(j)=Σj′=117S(j,j′)B(j′),]]>得到第j个Bark带的扩展巴克谱C(j)；3)然后将扩展巴克谱C(j)在话音频带内应用等响度曲线预加重得到信号的响度级，最后将响度级转换为输入信号和输出信号的响度，最后得到输入信号与输出信号的响度差dxy(i)；(2)确定输入信号的噪声掩蔽门限值(NMT)；1)将输入信号作FFT变换后得到功率谱P(k)(P(k)＝Re2(k)+Im2(k))，再求得各个临界频带内的巴克谱功率能量，然后对每个巴克带抽一次样，得到临界带能量Bij(Bij=Σk=bjlbjhPi(k));]]>2)应用扩展函数扩展函数矩阵为S(j,j′)=15.81+7.5·(j-j′+0.474)-17.51+(j-j′+0.474)2]]>对步骤1)中得到的临界带能量Bij用扩展函数进行滤波卷积C(j)=Σj′=117S(j,j′)B(j′),]]>得到第j个Bark带的扩展巴克谱C(j)；3)计算NMT谱平坦度量度(SFM)定义为信号功率谱的几何平均Gm与算术平均Am的比值(SFM=10logGmAm),]]>定义一个音调因子α作为信号音调特性的判断α=min(SFMSFMmax,1)]]>根据音调因子α的值可以确定一个对扩展巴克谱C(j)的修正值Qj＝α(14.5+j)+5.5(1-α)然后得到巴克带噪声掩蔽门限NMTj=10logC(j)-0.1·Oj]]>4)听阈比较，最后把得到的每个临界频带NMT与听阈比较，如果某临界频带的NMT小于听阈，则实际的掩蔽门限以听阈代替，听阈的计算公式为 (3)巴克谱失真(EBSD)计算定义一个掩蔽矩阵符号M(i，j)(其中j表示第i帧的第j个Bark带)，M(i，j)的取值由输入信号与输出信号的响度差dxy(i)与NMT比较得来M(i，j)＝1 dxy(i，j)＞NMT(i，j)M(i，j)＝0 dxy(i，j)≤NMT(i，j)计算出第i帧的巴克谱失真距离EBSD(i)=Σj=115dxy2(i,j)·M(i,j)]]>最后计算出整个信号总的失真距离为EBSD=1NΣi=1NΣj=115dxy2(i,j)·M(i,j)]]>(其中N为总帧数)。
在BSD测度用于语音SSB调制经过不同干扰失真都已达到主客观评价高度相关的情况下，对同样的实验条件EBSD得到的结果还是进一步提高了主客观评价的相关系数百分之一到百分之三左右，标准偏差得到减小，表明这种测度是一种与主观音质评价一致性更好的语音测度。同时，基于扩展函数的EBSD测度相对于MBSD具有更好的普适性。

图1是基于噪声掩蔽门限算法的巴克谱失真(EBSD)测度方法工作框2是18个扩展函数临界带滤波器组图3是SSB调制失真条件BSD测度归一化主客观评价二次拟合曲线图4是SSB调制失真条件EBSD测度归一化主客观评价二次拟合曲线具体实施方式
下面结合附图详细说明本发明的实现方法EBSD测度主要分为三步，即听觉响度计算、噪声掩蔽门限NMT估计和EBSD计算，其工作原理框图见图1。
本发明的独创性在于将NMT算法引入广泛使用的BSD失真测度，采用SFM方法来度量噪声对纯音的掩蔽和纯音对噪声的掩蔽，比较语音信号的响度差与NMT的值作为失真距离计算的判决准则，即在失真距离的计算中考虑NMT是否掩蔽信号的响度差。其中确定输入语音的噪声掩蔽门限值NMT是计算EBSD测度的关键步骤，符合人耳听觉掩蔽特性的NMT由信号临界频带分析、对巴克谱应用谱扩展函数、计算NMT和听阈比较四步来完成。
如图1所示，要对输入语音信号和输出语音信号分别进行预处理，预处理包括将输入语音信号和输出语音信号作FFT变换后得到功率谱P(k)(P(k)＝Re2(k)+Im2(k))，接着按照下面表1中的临界频带划分，

表1(临界频带的划分)求得各个临界频带(只取前面17个)内的巴克谱功率能量，然后对每个Bark带抽一次样，即求得每个Bark带在一帧信号中的能量分布，得到临界带能量得到Bij后再应用扩展函数，扩展函数矩阵为S(j,j′)=15.81+7.5·(j-j′+0.474)-17.51+(j-j′+0.474)2]]>图2为扩展函数滤波器组。
对Bij用扩展函数进行滤波卷积C(j)=Σj′=117S(j,j′)B(j′)]]>这样得到的C(j)值就是第j个Bark带的扩展巴克谱，意味着其它各临界带对这一频带的综合影响作用。然后将扩展巴克谱C(j)在话音频带内应用等响度曲线预加重得到信号的响度级，将响度级转换为语音信号的响度，分别得到输入语音信号和输出语音信号第i帧的响度Lx(i)与Ly(i)。
然后根据Lx(i)和Ly(i)计算出输入语音信号和输出语音信号之间的响度差dxy(i)。
同时要确定输入语音信号的噪声掩蔽门限，将输入语音信号作FFT变换后得到功率谱P(k)(P(k)＝Re2(k)+Im2(k))，接着按照上面表1中的临界频带划分，求得各个临界频带(只取前面17个)内的巴克谱功率能量，然后对每个Bark带抽一次样，即求得每个Bark带在一帧信号中的能量分布，得到临界带能量Bij=Σk=bjlbjhPi(k)]]>得到Bij后再应用扩展函数，估计临界频带之间的相互影响。扩展函数用来描述各个临界带的信号对其它临界带信号的掩蔽特性。实际应用中，可以用两条线段来保守地逼近实验中得出的掩蔽曲线。扩展函数矩阵为S(j,j′)=15.81+7.5·(j-j′+0.474)-17.51+(j-j′+0.474)2]]>
对Bij用扩展函数进行滤波卷积C(j)=Σj′=117S(j,j′)B(j′)]]>这样得到的C(j)值就是第j个Bark带的扩展巴克谱，意味着其它各临界带对这一频带的综合影响作用。语音信号的音调特性决定了掩蔽程度的大小。同时性掩蔽效应包括纯音掩蔽噪声和噪声掩蔽纯音两种情况，因此各部分的贡献大小与信号的音调特性(似噪性)有关。谱平坦度量度SFM(Spectral FlatnessMeasure)定义为信号功率谱的几何平均Gm与算术平均Am的比值SFM=10logGmAm]]>接着定义一个音调因子α作为信号音调特性的判断α=min(SFMSFMmax,1)]]>其中SFMmax＝-60dB时设定信号是完全纯音特性，如果SFM＝0dB，则信号几乎为完全噪声特性。
当纯音掩蔽噪声时，掩蔽值为扩展谱C(j)减去(14.5+j)，即低于C(j)-(14.5+j)dB的噪声是听不见的；反之，噪声掩蔽纯音时，C(j)-5.5dB以下的语音也是听不见的。根据音调因子α的值可以确定一个对C(j)的修正值Oj＝α(14.5+j)+5.5(1-α)然后得到Bark带噪声掩蔽门限NMTj=10logC(j)-0.1·Oj]]>最后把得到的每个临界频带NMT与听阈比较，如果某临界频带的NMT小于听阈，则实际的掩蔽门限以听阈代替，听阈的计算公式为最后得到输入语音信号的噪声掩蔽门限(NMT)。
最后根据求得语音信号响度差和输入语音信号的噪声掩蔽门限(NMT)来进行EBSD计算。为了确定某一临界带是否可以感知，定义一个掩蔽矩阵符号M(i，j)，j表示第i帧的第j个Bark带。当失真可以被感知，M(i，j)为1，反之M(i，j)为0，它也是一个只包含0和1元素的矩阵。而M(i，j)的取值由dxy(i)与NMT比较得来M(i，j)＝1 dxy(i，j)＞NMT(i，j)M(i，j)＝0 dxy(i，j)≤NMT(i，j)下面把所有听觉能感知的响度差求和得到一帧信号的失真距离，即计算巴克谱失真时不考虑被掩蔽的距离EBSD(i)=Σj=115dxy2(i,j)·M(i,j)]]>这里EBSD(i)为第i帧的失真距离，在300-3400Hz的话音频带取15Bark。最后整个测试信号总的失真距离为EBSD=1NΣi=1NΣj=115dxy2(i,j)·M(i,j)]]>(其中N为总帧数)通过比较语音信号的响度差与NMT的值，在失真距离的计算中排除被NMT掩蔽的临界频带，得出语音信号的失真曲线。
本发明依据人耳听觉系统的同时性掩蔽特性，在听觉响度域内动态地确定原始语音信号和失真语音信号的响度差掩蔽阈，该掩蔽阈主要由信号的音调性修正得来，对不同的语音失真条件，选取不同的掩蔽阈能够得到各自最好的相关性，从客观评价与主观评价的统计相关性上表明，使用本发明EBSD测度后客观评价与主观评价结果之间具有相对其他测度更好的一致性。
在BSD测度用于语音SSB调制经过不同干扰失真都已达到主客观评价高度相关的情况下，对同样的实验条件EBSD得到的结果还是进一步提高了主客观评价的相关系数百分之一到百分之三左右，标准偏差得到减小(见表2、图3和图4)，表明这种测度是一种与主观音质评价一致性更好的语音测度。同时，基于扩展函数的EBSD测度相对于MBSD具有更好的普适性。三种BSD测度的相关系数比较见下表(表2)

表2三种BSD测度的相关系数
权利要求
1.一种客观音质评价中基于噪声掩蔽门限算法的巴克谱失真测度方法，包括以下三步(1)计算输入信号和输出信号的响度差；(2)确定输入信号的噪声掩蔽门限值(NMT)；(3)通过比较信号的响度差与噪声掩蔽门限(NMT)的值进行巴克谱失真(EBSD)计算。
2.根据权利要求1所述的基于噪声掩蔽门限算法的巴克谱失真测度方法，其步骤(1)中的计算信号的响度差由以下三步完成1)将输入信号和输出信号作FFT变换后得到功率谱P(k)(P(k)＝Re2(k)+Im2(k))，再求得各个临界频带内的巴克谱功率能量，然后对每个巴克带抽一次样，得到临界带能量Bij(Bij=Σk=bjlbjhPi(k));]]>2)应用扩展函数，扩展函数矩阵为S(j,j′)=15.81+7.5·(j-j′+0.474)-17.51+(j-j′+0.474)2]]>对步骤1)中得到的临界带能量Bij用扩展函数进行滤波卷积C(j)=Σj′=117S(j,j′)B(j′),]]>得到第j个Bark带的扩展巴克谱C(j)；3)然后将扩展巴克谱C(j)在话音频带内应用等响度曲线预加重得到信号的响度级，最后将响度级转换为输入信号和输出信号的响度，最后得到输入信号与输出信号的响度差dxy(i)；
3.根据权利要求1所述的基于噪声掩蔽门限算法的巴克谱失真测度方法，其步骤(2)中的确定输入信号的噪声掩蔽门限值(NMT)由以下四步完成1)将输入信号作FFT变换后得到功率谱P(k)(P(k)＝Re2(k)+Im2(k))，再求得各个临界频带内的巴克谱功率能量，然后对每个巴克带抽一次样，得到临界带能量Bij(Bij=Σk=bjlbjhPi(k));]]>2)应用扩展函数扩展函数矩阵为S(j,j′)=15.81+7.5·(j-j′+0.474)-17.51+(j-j′+0.474)2]]>对步骤1)中得到的临界带能量Bij用扩展函数进行滤波卷积C(j)=Σj′=117S(j,j′)B(j′),]]>得到第j个Bark带的扩展巴克谱C(j)；3)计算NMT谱平坦度量度(SFM)定义为信号功率谱的几何平均Gm与算术平均Am的比值(SFM=10logGmAm),]]>定义一个音调因子α作为信号音调特性的判断α=min(SFMSFMmax,1)]]>根据音调因子α的值可以确定一个对扩展巴克谱C(j)的修正值Oj＝α(14.5+j)+5.5(1-α)然后得到巴克带噪声掩蔽门限NMTj=10logC(j)-0.1·Oj]]>4)听阈比较，最后把得到的每个临界频带NMT与听阈比较，如果某临界频带的NMT小于听阈，则实际的掩蔽门限以听阈代替，听阈的计算公式为
4.根据权利要求1所述的基于噪声掩蔽门限算法的巴克谱失真测度方法，其步骤(3)中的巴克谱失真(EBSD)计算方法如下定义一个掩蔽矩阵符号M(i，j)(其中j表示第i帧的第j个Bark带)，M(i，j)的取值由输入信号与输出信号的响度差dxy(i)与NMT比较得来M(i，j)＝1 dxy(i，j)＞NMT(i，j)M(i，j)＝0 dxy(i，j)≤ NMT(i，j)计算出第i帧的巴克谱失真距离EBSD(i)=Σj=115dxy2(i,j)·M(i,j)]]>最后计算出整个信号总的失真距离为EBSD=1NΣi=1NΣj=115dxy2(i,j)·M(i,j)]]>(其中N为总帧数)。
全文摘要
客观音质评价中基于噪声掩蔽门限算法的巴克谱失真测度方法，提供了一种基于听觉同时性掩蔽效应的原理的扩展巴克谱失真(EBSD)测度方法，包括听觉响度计算，噪声掩蔽门限(NMT)计算和扩展巴克谱失真(EBSD)计算，在失真距离的计算中排除被噪声掩蔽门限(NMT)掩蔽的临界频带，使用EBSD测度后客观评价与主观评价结果之间具有相对其他测度更好的一致性。
文档编号G10L15/00GK1655230SQ20051002020
公开日2005年8月17日申请日期2005年1月18日优先权日2005年1月18日
发明者吴江滨, 杨波, 张知易申请人:中国电子科技集团公司第三十研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴江滨;杨波;张知易
技术所有人：中国电子科技集团公司第三十研究所
我是此专利的发明人

上一篇：客观音质评价归一化主客观统计相关模型的建立方法
上一篇：文字语音互转装置的制作方法