一种基于时域掩蔽的瞬态判决方法及设备的制作方法

文档序号：2832218阅读：351来源：国知局

专利名称：：一种基于时域掩蔽的瞬态判决方法及设备的制作方法
技术领域：
：本发明涉及语音频编解码领域，特别涉及一种基于时域掩蔽的瞬态判决方法及设备。
背景技术：
：前回声失真是音频编解码领域一个突出问题，特别在低码率的语音频感知编码器中，前回声失真更为严重，产生前回声最重要的原因是由于时域分辨率的不足造成量化噪声在时域的扩散，如果该时域的量化噪声无法被信号掩蔽，就产生恼人的前回声效应。目前已经有相关方法解决前回声问题，如比特池方法、时域噪声整形(TNS)、混合滤波器组、增益控制、长短窗切换等方法，而这些方法多数都是基于准确的瞬态判决这一前提，这就使得瞬态判决变得十分重要。目前瞬态判决方法主要有时域能量方法和频域能量方法，时域能量方法主要计算了信号能量的时域幅值包络，根据幅值包络的瞬态特性判别瞬态信号；频域能量方法之一是通过计算频域的能量谱包络判别瞬态信号，另外AAC的感知熵(PE)方法也可属于一种频域能量方法，该方法通过分析由于音频出现瞬态信号后将产生大量高频信号，从而使得信号感知熵明显增大，所以可以通过比较判断感知熵和某个阈值(例如是否大于1800)来确定是否出现瞬态信号。但是，这些方法都存在一定的不足，例如，时域能量方法虽然运算简单，但瞬态判决的准确性不够高；而频域能量方法，例如感知熵方法则存在运算复杂度高、瞬态判决时间分辨率低等问题，则不适用于低延迟低复杂度的语音频编解码器。
发明内容本发明所要解决的技术问题是，提供一种基于时域掩蔽的瞬态判决方法及设备，从而使瞬态判决方法即简单，又具有较高的准确性。为了解决上述问题，本发明公开了一种基于时域掩蔽的瞬态判决方法，包括将当前帧时域信号分块处理后，根据时域前掩蔽衰减系数、时域后掩蔽衰减系数、各分块时域滤波信号的能量以及前一帧的帧总能量计算各分块的短时分块时域掩蔽能量，根据所述短时分块时域掩蔽能量和历史的短时分块时域掩蔽能量计算各分块的长时分块时域掩蔽能量，当所述分块中一个或多个分块的短时和长时分块时域掩蔽能量比值达到第一设定值，且所述分块中一个或多个分块的短时分块时域掩蔽能量达到第二设定值时，则判断当前帧为瞬态信号。进一步地，上述方法中，按照如下公式计算分块的短时分块时域掩蔽能量Tmaski(m)<formula>formulaseeoriginaldocumentpage4</formula>mEi(k)^posMaskRate{z-m+k)A=I其中，I^preMaski(m)为分块时域前掩蔽能量，^posMaski(m)为分块时域后掩蔽能量，Ei(Hi)为分块时域滤波信号的能量，m为整数，表示帧信号分块序号，i为整数，表示帧序号，ζ为整数，表示帧时域信号分块处理中分块总数目，Emg(i-1)为前一帧的帧总能量，preMaskRate(k-m)为时域前掩蔽衰减系数，posMaskRate(z_m+k)为时域后掩蔽衰减系数。所述时域前掩蔽衰减系数preMaskRate(j)由时域前掩蔽衰减曲线及时域信号分块处理中的分块数目ζ确定。所述时域后掩蔽衰减系数posMaskRate(j)由时域后掩蔽衰减曲线及时域信号分块处理中的分块数目ζ确定。进一步地，上述方法中，当满足如下一个或两个条件时，进一步判断若前一帧的瞬态判断附加标志有效，则设置当前帧的瞬态标志有效，设置当前帧的瞬态判断附加标志无效，前述条件如下所述各分块的短时和长时分块时域掩蔽能量的比值均未达到所述第一设定值，所述各分块的短时分块时域掩蔽能量均未达到第二设定值。本发明还公开了一种基于时域掩蔽的瞬态判决设备，包括彼此连接的计算模块及判断模块，其中所述计算模块，用于在帧时域信号分块处理后，根据时域前掩蔽衰减系数、时域后掩蔽衰减系数、各分块时域滤波信号的能量以及前一帧的帧总能量计算各分块的短时分块时域掩蔽能量值，根据所述短时分块时域掩蔽能量和历史的短时分块时域掩蔽能量计算各分块的长时分块时域掩蔽能量值，并计算各分块的短时和长时分块时域掩蔽能量比值，将计算得到的各分块的短时分块时域掩蔽能量值和短时和长时分块时域掩蔽能量比值分别发送到所述判断模块；所述判断模块，用于判断所接收的各分块的短时和长时分块时域掩蔽能量比值中是否有一个或多个比值达到第一设定值，以及所接收的各分块的短时分块时域掩蔽能量值中是否有一个或多个能量值达到第二设定值，如果判断结果均为是，则当前帧为瞬态信号。进一步地，上述设备中，所述计算模块按照如下公式计算分块的短时分块时域掩蔽能量Tmaski(m)Tmaski(m)=LpreMaski(m)+LposMaski(m)-Ei(m)ZT_PreMaski(m)=^Ej(k)*preMaskRate(k-m)k-mT—PosMaski(m)-----Eeng(i一1)*posMaskRate{z-m)m+^Ei(k)^posMaskRateiz-m+k)k=l其中，I^preMaski(m)为分块时域前掩蔽能量，^posMaski(m)为分块时域后掩蔽能量，Ei(Hi)为分块时域滤波信号的能量，m为整数，表示帧信号分块序号，i为整数，表示帧序号，ζ为整数，表示帧时域信号分块处理中分块总数目，Emg(i-1)为前一帧的帧总能量，preMaskRate(k-m)为时域前掩蔽衰减系数，posMaskRate(z_m+k)为时域后掩蔽衰减系数。所述时域前掩蔽衰减系数preMaskRate(j)由时域前掩蔽衰减曲线及时域信号分块处理中的分块数目Z确定。所述时域后掩蔽衰减系数posMaskRateG)由时域后掩蔽衰减曲线及时域信号分块处理中的分块数目ζ确定。进一步地，上述设备中，当满足如下一个或两个条件时，所述判断模块进一步判断若前一帧的瞬态判断附加标志有效，则设置当前帧的瞬态标志有效，设置当前帧的瞬态判断附加标志无效，前述条件如下所述各分块的短时和长时分块时域掩蔽能量的比值均未达到所述第一设定值，所述各分块的短时分块时域掩蔽能量均未达到第二设定值。本发明技术方案使得通过简单运算进行的瞬态判决也具有较高的准确性，从而大大减少了语音频编解码的前回声失真。本发明技术方案可以用于实时双向通信如无线、IP会议电视和实时广播业务的IPTV、移动流媒体、手机电视等语音频编解码领域的瞬态信号判决。图1是用于语音频编码器的时域掩蔽瞬态判决应用框图；图2是人耳的时域掩蔽效应示意图；图3是基于时域掩蔽的瞬态判决设备的结构框图；图4是本实施例中基于时域掩蔽的瞬态判决过程的流程图；图5是瞬态判决示意图(部分A)；图6是瞬态判决示意图(部分B)。具体实施例方式本发明的主要构思是，对于低延迟低复杂度的语音频编解码器可以采用运算简单的时域能量方法进行瞬态判决(如图1所示)，而在此基础上考虑到人耳会产生时域掩蔽效应(如图2所示)，故可以在现有的根据时域能量进行瞬态判决的方法中，综合考虑时域信号的时域前掩蔽和后掩蔽效应，以提高瞬态判决的准确性，具体过程如下步骤1、信号滤波，即将输入的时域信号先经过高通滤波，以滤除不必要的低频信号，得到信号细节部分，也就是瞬态信号的主要成分；步骤2、帧时域信号分块处理，其中，分块处理长度与人耳的时域掩蔽分辨率相关，并计算信号时域分块能量及其帧总能量；步骤3、通过时域前掩蔽和后掩蔽衰减系数修正分块时域能量，得到分块时域掩蔽能量值；步骤4、计算各分块的短时和长时分块时域掩蔽能量比值，当所述分块中一个或多个分块的短时和长时分块时域掩蔽能量比值达到第一设定值，且所述分块中一个或多个分块的短时分块时域掩蔽能量达到第二设定值时，则判断当前帧为瞬态信号。下面结合附图及实施例对本发明技术方案作进一步详细说明。一种基于时域掩蔽的瞬态判决设备，如图3所示，包括彼此连接的信号滤波及帧时域信号分块处理单元、计算模块和判断模块。下面介绍各模块的功能。信号滤波及帧时域信号分块处理单元，用于对采样的信号进行滤波及帧时域信号分块处理；该单元可以按照现有技术实现对采样的信号进行滤波及帧时域信号分块处理。计算模块，用于在帧时域信号分块处理后，通过时域前掩蔽衰减系数、时域后掩蔽衰减系数、分块时域滤波信号的能量以及前一帧的帧总能量计算各分块的短时分块时域掩蔽能量值，通过所述短时分块时域掩蔽能量和历史的短时分块时域掩蔽能量计算各分块的长时分块时域掩蔽能量值，并计算各分块的短时和长时分块时域掩蔽能量比值，将计算得到的各分块的短时分块时域掩蔽能量值和短时和长时分块时域掩蔽能量比值分别发送到所述判断模块，其中具体的计算公式参见下文的流程描述；判断模块，用于判断所接收的各分块的短时和长时分块时域掩蔽能量比值中是否有一个或多个比值达到第一设定值，以及所接收的各分块的短时分块时域掩蔽能量值中是否有一个或多个能量值达到第二设定值，如果上述两个判断条件均满足，则认为当前帧为瞬态信号，如果至少有一个判断条件未满足，则认为当前帧不是瞬态信号，其中，第一设定值的优选值为3.5dB。在其它优选的实施例中，当判断模块判断出，至少有一个判断条件未满足时，判断模块可以进一步判断前一帧的瞬态判断附加标志是否有效，如果有效，也可以将当前帧作为瞬态信号，此时设置当前帧的瞬态标志有效，设置当前帧的瞬态判断附加标志无效。下面将以时域信号分为20ms的信号分帧为例，说明上述判决设备基于时域掩蔽的瞬态判决过程，如图4所示，包括以下步骤步骤401对时域分帧信号进行高通滤波，滤除不必要的低频成分，得到信号的细节部分；该步骤中，对高通滤波器要求不高，可选择一阶的IIR滤波器，其滤波器特征为^^0-7466(1-,-')1-0.493Iz"1经过高通滤波的信号为xf(η)=0.4931*xf(η-1)+0·7466*χ(η)_0·7466*χ(η_1)(公式2)公式2中，Xf为滤波后信号，χ为输入原始音频信号，η为每帧时域信号的数字采样点位置，η的取值范围为1到20ms*采样率。步骤402计算滤波信号分块时域能量及其帧总能量，其中，帧总能量是通过求分块能量的平方和再开方得到的；本实施例中，考虑到信号分帧为20ms，因此可以将一帧时域滤波信号分成4块，每块长5ms，基本符合信号的短时平稳特性，然后按照如下公式计算每一块时域滤波信号的能量<formula>formulaseeoriginaldocumentpage7</formula>帧总能量如下<formula>formulaseeoriginaldocumentpage7</formula>上述公式3和4中，i表示帧序号，m表示分块序号，m为整数,Ei(Hi)表示第i帧第m块的时域能量，本实施例中m的取值为14，K可取任意正实数，其中，K的优选取值为1或2，本实施例中取K=1。L表示每帧的采样点数，Eeng(i)表示第i帧的总能量，其中，公式3中η的取值范围(即η=(m-l)L/4+l)中涉及到L/4是由于本实施例中信号帧的分块总数目为4，在其它实施例中，若信号帧的分块总数目为z，则每一块时域滤波信号的能量的计算如下<formula>formulaseeoriginaldocumentpage8</formula>步骤403根据时域前掩蔽和后掩蔽衰减系数计算分块时域掩蔽能量；按照以下的公式5、公式6和公式7分别计算分块时域前掩蔽能量I^preMaski(m)、后掩蔽能量I^p0sMaski(m)及其总时域掩蔽能量Tmaski(m)(下文也称为短时分块时域掩蔽能量)<formula>formulaseeoriginaldocumentpage8</formula>其中preMaskRate和posMaskRate分别为时域前、后掩蔽衰减系数<formula>formulaseeoriginaldocumentpage8</formula><formula>formulaseeoriginaldocumentpage8</formula>在本实施例中，取D1=7，D2=2.75。上述公式5、公式6和公式7中，i表示帧序号，m表示分块序号，m为整数，本实施例中m的取值为14，Ei(m)表示第i帧第m块的时域能量。上述公式8和公式9所表示的时域前、后掩蔽衰减系数的计算方法，在其他实施例中，也可用其他方式根据对如图2所示的人耳时域前、后掩蔽衰减曲线的逼近得到。即可以对公式8和公式9的参数进行修改，也可以用不同形式的公式，比如preMaskRateU)=10孖洲)posMaskRate(j)=10Mexp(-(4勹)/C2)其中，C1W2都是正的常数；或者直接从如图2所示的人耳时域前、后掩蔽衰减曲线上取值。上述公式5、6、8和9中所涉及的数值4是由于本实施例中信号帧分块的总数目为4，在其它实施例中若信号帧分块的总数目为ζ时，公式5、6、8和9如下<formula>formulaseeoriginaldocumentpage8</formula>preMaskRate(j)=e'Dl<z~iVi,j=0”..,ζ步骤404计算各分块的长时掩蔽能量；第i帧第m块的长时掩蔽能量LI^Tmaski(m)可以由以下公式表示LTJmaski(Hi)=(1-a)^TJmaski(m_l)+a*Tmaski(m)(公式10)<formula>formulaseeoriginaldocumentpage9</formula>其中，a为平滑因子，本实施例中根据经验统计选择0.25，m表示分块序号，m为整数，本实施例中m的取值为14。在其它实施例中，也可用其它方式根据所述短时分块时域掩蔽能量以及历史的短时分块时域掩蔽能量来计算各分块的长时分块时域掩蔽能量。即可以简单地对多个历史的短时分块时域掩蔽能量求平均值，再结合当前分块的短时分块时域掩蔽能量来计算当前分块的长时分块时域掩蔽能量；或者，用不同的加权系数对一个或多个历史的短时分块时域掩蔽能量进行计算，再结合当前分块的短时分块时域掩蔽能量来计算当前分块的长时分块时域掩蔽能量。其中，历史的短时分块时域掩蔽能量是指，当前分块之前的任一或多个分块的短时分块时域掩蔽能量。当前分块之前的任一或多个分块可以是本信号帧中的，也可以是之前的信号帧中的。步骤405计算本信号帧中各分块的短时和长时分块时域掩蔽能量比值Rate，并判断是否max(Rate)>ratio，且max(Tmask)>thr。如果这两个不等式都成立，则进入步骤406，否则进入步骤407。其中，第一设定值是阈值ratio，第二设定值是阈值thr，这两个值是事先给定的。在本实施例中取ratio=4.OdB,thr=40000。在其它实施例中也可以根据实际应用场景设置为其它值；该步骤中，按照如下的公式11计算各分块的短时和长时分块时域掩蔽能量比值Rate(m)=20*logl0(Tmaski(m)/LTJmaski(m))(公式11)其中，m表示分块序号，m为整数，本实施例中m的取值为14。步骤406判定该帧的瞬态标志T_Flag为1(即判定该帧即为瞬态信号)，同时将Pre_T_Flag置为1，直接输出瞬态判断的结果标志位T_Flag，结束本次瞬态判决流程。步骤407判定该帧的瞬态标志T_Flag为0(即判定该帧不是瞬态信号)，但如果进一步判断前一帧的瞬态判断附加标志Pre_T_Flag为1，则将T_Flag修改为1，同时将Pre_T_Flag重置为0，输出瞬态信号判断标志T_Flag，结束本次瞬态判决流程；如果前一帧的瞬态判断附加标志Pre_T_Flag不为1，则T_Flag即为0，输出瞬态判断的结果标志位T_Flag,结束本次瞬态判决流程。该步骤中，主要考虑到本帧的T_Flag为0时，如果前一帧为瞬态信号，那么一般情况下也认为本帧的瞬态特性也是比较强的，因此将本帧的T_Flag置为1，而将本帧的Pre_T_Flag重置为0即可。下面对本发明技术方案的判决效果进行评估。本次效果评估对两种瞬态信号判决方式的判决结果进行比较，其中一种瞬态判断方式为G.719声码器标准的时域幅值包络判决方式，另外一种即为本发明的时域掩蔽方式。测试音频文件为女性德语语音，采样率为48kHz。评估结果见图5、图6和表1、表2。表1瞬态判决结果(部分A)<table>tableseeoriginaldocumentpage10</column></row><table>表2瞬态判决结果(部分B)<table>tableseeoriginaldocumentpage10</column></row><table>表1和表2给出了从测试文件中选取的部分帧的瞬态判决结果，其中黑体部分表征了本发明与G.719两者的判决结果不一致的情形，非黑体部分表征了两者结果一致的情形。如图5所示，测试文件的前3帧属于静音段，不应判为瞬态，但G.719将前3帧判为瞬态，而本发明判为非瞬态(见表1)。对于表1、表2中黑体部分除了前3帧以外的那些帧，从图5、图6可以看出这些帧都是瞬态信号，但G.719将这些帧都判为非瞬态，而本发明都判为瞬态(见表1、表2)。由此可见，本发明技术方案的判决结果更合理有效，错判和漏判的情形也更少。从上述实施例可以看出，本发明技术方案在现有的时域能量方法的过程中，考虑到了时域信号的前掩蔽和后掩蔽效应，使得通过简单运算进行的瞬态判决也具有较高的准确性，从而大大减少了语音频编解码的前回声失真。本发明技术方案可以用于实时双向通信如无线、IP会议电视和实时广播业务的IPTV、移动流媒体、手机电视等语音频编解码领域的瞬态信号判决。当然，本发明还可以有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。权利要求一种基于时域掩蔽的瞬态判决方法，其特征在于，包括将当前帧时域信号分块处理后，根据时域前掩蔽衰减系数、时域后掩蔽衰减系数、各分块时域滤波信号的能量以及前一帧的帧总能量计算各分块的短时分块时域掩蔽能量，根据所述短时分块时域掩蔽能量和历史的短时分块时域掩蔽能量计算各分块的长时分块时域掩蔽能量，当所述分块中一个或多个分块的短时和长时分块时域掩蔽能量比值达到第一设定值，且所述分块中一个或多个分块的短时分块时域掩蔽能量达到第二设定值时，则判断当前帧为瞬态信号。2.如权利要求1所述的方法，其特征在于，按照如下公式计算分块的短时分块时域掩蔽能量Tmaski(m)<formula>formulaseeoriginaldocumentpage2</formula>其中，I_preMaski(m)为分块时域前掩蔽能量，T_posMaski(m)为分块时域后掩蔽能量，Ei(Hi)为分块时域滤波信号的能量，m为整数，表示帧信号分块序号，i为整数，表示帧序号，ζ为整数，表示帧时域信号分块处理中分块总数目，Emg(i-1)为前一帧的帧总能量，preMaskRate(k-m)为时域前掩蔽衰减系数，posMaskRate(z_m+k)为时域后掩蔽衰减系数。3.如权利要求2所述的方法，其特征在于，所述时域前掩蔽衰减系数preMaskRate(j)由时域前掩蔽衰减曲线及时域信号分块处理中的分块数目ζ确定。4.如权利要求2或3所述的方法，其特征在于，所述时域后掩蔽衰减系数posMaskRate(j)由时域后掩蔽衰减曲线及时域信号分块处理中的分块数目ζ确定。5.如权利要求1所述的方法，其特征在于，当满足如下一个或两个条件时，进一步判断若前一帧的瞬态判断附加标志有效，则设置当前帧的瞬态标志有效，设置当前帧的瞬态判断附加标志无效，前述条件如下所述各分块的短时和长时分块时域掩蔽能量的比值均未达到所述第一设定值，所述各分块的短时分块时域掩蔽能量均未达到第二设定值。6.如权利要求1或5所述的方法，其特征在于，所述第一设定值和第二设定值是给定的阈值。7.一种基于时域掩蔽的瞬态判决设备，其特征在于，该设备包括彼此连接的计算模块及判断模块，其中所述计算模块，用于在帧时域信号分块处理后，根据时域前掩蔽衰减系数、时域后掩蔽衰减系数、各分块时域滤波信号的能量以及前一帧的帧总能量计算各分块的短时分块时域掩蔽能量值，根据所述短时分块时域掩蔽能量和历史的短时分块时域掩蔽能量计算各分块的长时分块时域掩蔽能量值，并计算各分块的短时和长时分块时域掩蔽能量比值，将计算得到的各分块的短时分块时域掩蔽能量值和短时和长时分块时域掩蔽能量比值分别发送到所述判断模块；所述判断模块，用于判断所接收的各分块的短时和长时分块时域掩蔽能量比值中是否有一个或多个比值达到第一设定值，以及所接收的各分块的短时分块时域掩蔽能量值中是否有一个或多个能量值达到第二设定值，如果判断结果均为是，则当前帧为瞬态信号。8.如权利要求7所述的设备，其特征在于，所述计算模块按照如下公式计算分块的短时分块时域掩蔽能量Tmaski(m)<formula>formulaseeoriginaldocumentpage3</formula>其中，I^preMaski(m)为分块时域前掩蔽能量，^posMaski(m)为分块时域后掩蔽能量，Ei(Hi)为分块时域滤波信号的能量，m为整数，表示帧信号分块序号，i为整数，表示帧序号，ζ为整数，表示帧时域信号分块处理中分块总数目，Emg(i-1)为前一帧的帧总能量，preMaskRate(k-m)为时域前掩蔽衰减系数，posMaskRate(z_m+k)为时域后掩蔽衰减系数。9.如权利要求8所述的设备，其特征在于，所述时域前掩蔽衰减系数preMaskRate(j)由时域前掩蔽衰减曲线及时域信号分块处理中的分块数目ζ确定。10.如权利要求8或9所述的设备，其特征在于，所述时域后掩蔽衰减系数posMaskRate(j)由时域后掩蔽衰减曲线及时域信号分块处理中的分块数目ζ确定。11.如权利要求7所述的设备，其特征在于，当满足如下一个或两个条件时，所述判断模块进一步判断若前一帧的瞬态判断附加标志有效，则设置当前帧的瞬态标志有效，设置当前帧的瞬态判断附加标志无效，前述条件如下所述各分块的短时和长时分块时域掩蔽能量的比值均未达到所述第一设定值，所述各分块的短时分块时域掩蔽能量均未达到第二设定值。12.如权利要求7或11所述的设备，其特征在于，所述第一设定值和第二设定值是给定的阈值。全文摘要本发明公开了一种基于时域掩蔽的瞬态判决方法及设备，涉及语音频编解码领域。本发明公开的瞬态判决方法包括将当前帧时域信号分块处理后，根据时域前掩蔽衰减系数、时域后掩蔽衰减系数、各分块时域滤波信号的能量以及前一帧的帧总能量计算各分块的短时分块时域掩蔽能量，根据短时分块时域掩蔽能量和历史的短时分块时域掩蔽能量计算各分块的长时分块时域掩蔽能量，当所述分块中一个或多个分块的短时和长时分块时域掩蔽能量比值达到第一设定值，且所述分块中一个或多个分块的短时分块时域掩蔽能量达到第二设定值时，则判断当前帧为瞬态信号。本发明使得通过简单运算进行的瞬态判决也具有较高的准确性。文档编号G10L19/02GK101826327SQ200910129289公开日2010年9月8日申请日期2009年4月9日优先权日2009年3月3日发明者刘开文,卢晶,彭科,林志斌,袁浩,邓峥,邱小军,陈国明,黎家力申请人:中兴通讯股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：林志斌;邓峥;彭科;卢晶;邱小军;黎家力;陈国明;袁浩;刘开文
技术所有人：中兴通讯股份有限公司
我是此专利的发明人

上一篇：电子乐器用键盘装置的制作方法
上一篇：音频信号的分类方法及装置的制作方法