专利名称::语音与音频信号的改进的变换编码的制作方法
技术领域:
:本发明总体上涉及诸如信号压縮和音频编码之类的信号处理,更特别地涉及改进的变换语音与音频编码以及相应的设备。
背景技术:
:编码器是一种能够分析诸如音频信号之类的信号并以编码的形式输出信号的设备、电路或计算机程序。所得到的信号通常用于传输、存储和/加密的目的。另一方面,解码器是一种能够反转编码器操作的设备、电路或计算机程序,因为其接收编码的信号并输出解码的信号。在大多数现有技术的编码器(例如音频编码器)中,分析输入信号的每个帧并且将其从时域变换到频域。这一分析的结果被量化和编码,并且然后根据应用进行传输或存储。在接收侧(或者当使用所存储的编码信号时),后面是合成过程的相应解码过程使得有可能在时域中恢复信号。编解码器(编码器_解码器)通常用于压縮/解压縮信息(例如音频和视频数据)以便通过带宽受限的通信信道进行高效的传输。所谓的变换编码器或更一般而言变换编解码器通常基于时域到频域的变换,例如DCT(离散余弦变换)、改进的离散余弦变换(MDCT)或相对于听觉系统特性允许更好编码效率的某种其他重叠变换。变换编解码器的共同特性是,它们对重叠采样块(即重叠帧)进行操作。由每个帧的变换分析或等效子带分析所产生的编码系数通常被量化和存储或者作为比特流传输到接收侧。解码器一接收到比特流就执行解量化和逆变换以便重构信号帧。所谓的感知(perc印tual)编码器使用接收目的地(即人类听觉系统)的有损编码模型,而不是源信号的模型。因此,感知音频编码需要编码音频信号、结合听觉系统的心理声学知识,以便优化/减少忠实再现原始音频信号所必需的比特数量。另外,感知编码试图除去即不传输或近似人类接收者不能感知的信号部分,即与源信号的无损编码相对的有损编码。该模型通常被称为心理声学模型。一般来说,感知编码器将具有比波形编码器更低的信噪比(SNR),并且具有比以相等比特率操作的无损编码器更高的感知质量。感知编码器在不引入听得到的量化噪声的情况下使用剌激的掩蔽模式(maskingpattern)来确定编码即量化每个频率子带所必需的最少比特数。操作在频域中的现有感知编码器通常使用所谓的绝对听觉阈值(ATH)与掩蔽的音调和类噪声扩散二者的组合,以便计算所谓的掩蔽阈值(MT)[1]。基于这样的瞬时掩蔽阈值,现有的心理声学模型计算被用来定形原始频谱的标度因子,以使编码噪声被高能量级分量掩蔽,例如听不到由编码器引入的噪声[2]。感知建模已被广泛地用于高比特率音频编码中。标准化的编码器(例如MPEG-1层III[3]、MPEG-2高级音频编码[4])以128kbps的速率并且对于宽带音频相应地以64kbps的速率来实现"CD质量"。不过,这些编解码器根据定义被强制低估掩蔽的量以确保仍然听不到失真。而且,宽带音频编码器通常使用高复杂性的听觉(心理声学)模型,其在低比特率(低于64kbps)下不是非常可靠的。
发明内容由于前面提到的问题,所以需要在保持低复杂性功能的同时在低比特率下可靠的改进的心理声学模型。本发明克服了现有技术方案的这些和其他缺点。基本上,在对电信系统中的音频信号进行感知变换编码的方法中,最初确定表示时间分段的输入音频信号的时间到频率的变换的变换系数,基于所确定的变换系数来确定输入音频信号的感知子带的频谱。随后,基于所述确定的频谱来确定每个子带的掩蔽阈值,对于所确定的其各自的掩蔽阈值来计算每个子带的标度因子。最后,适配每个子带的所计算的标度因子以防止由于用于感知上相关的子带的编码而产生的能量损失,即以便达到高质量的低比特率编码。当阅读下面对本发明实施例的描述时,将会认识到由本发明提供的更多优点。通过参考与附图一起得到的下面的描述,可以最好地理解本发明连同其更多的目的和优点,其中图1示出适合于全带音频编码的示例性编码器;图2示出适合于全带音频解码的示例性解码器;图3示出通用的感知变换编码器;图4示出通用的感知变换解码器;图5示出根据本发明的心理声学模型中的方法的一个流程图;图6示出在根据本发明的方法的情况下的实施例的另一流程图;图7示出在根据本发明的方法的情况下的实施例的又一流程图。縮写ATH绝对听觉阈值BS巴克谱DCT离散余弦变换DFT离散傅里叶变换ERB等效矩形带宽MDCT改进的离散余弦逆变换MT掩蔽阈值MDCT改进的离散余弦变换SF标度因子具体实施例方式本发明主要涉及变换编码,具体涉及子带编码。为了简化对本发明实施例的下面描述的理解,下面将描述一些关键的定义。电信中的信号处理有时利用"压扩"来作为利用有限的动态范围改善信号表示的一种方法。该术语是压縮和扩展的结合,由此指示信号的动态范围在传输之前被压縮并且在接收机处被扩展到原始值。这允许具有大动态范围的信号通过具有较小动态范围能力的设施来传输。在下文中,将关于适合于ITU-TG.722.1全带编解码器扩展(现在被重新命名为ITU-TG.719)的特定示例性且非限制性编解码器实现来描述本发明。在该特定实例中,编解码器被呈现为低复杂性基于变换的音频编解码器,其优选地以48kHz的采样率操作,并且提供范围从20Hz—直到20kHz的全音频带宽。编码器处理20ms帧上的输入16比特线性PCM信号,并且编解码器具有40ms的总延迟。编码算法优选地是基于具有自适应时间分辨率、自适应比特分配和低复杂性格型矢量量化的变换编码。另外,解码器可以通过信号自适应噪声填充或者带宽扩展来代替非编码的频谱分量。图1是适合于全带音频编码的示例性编码器的框图。通过瞬态检测器来处理以48kHz采样的输入信号。根据对瞬态的检测,对输入信号帧应用高频率分辨率或低频率分辨率(高时间分辨率)变换。在稳态帧的情况下,自适应变换优选地是基于改进的离散余弦变换(MDCT)。对于非稳态帧,使用更高时间分辨率变换,而不需要附加延迟并且在复杂性方面具有非常小的开销。非稳态帧优选地具有等同于5ms帧的时间分辨率(尽管可以选择任一任意的分辨率)。将所获得的频谱系数分组成不等长度的频带会是有益的。可以估计每个频带的范数(norm),并且所得到的包括所有频带的范数的频谱包络被量化和编码。然后通过量化的范数来归一化(normalize)所述系数。量化的范数被进一步基于自适应频谱加权而调整并且被用作比特分配的输入。基于为每个频带分配的比特来对归一化的频谱系数进行格型矢量量化和编码。非编码的频谱系数的大小被估计、编码并且传输到解码器。优选地,对编码的频谱系数以及编码的范数二者的量化指数应用霍夫曼编码。图2是适合于全带音频解码的示例性解码器的框图。用于指示帧配置(即稳态或瞬态)的瞬态标志被首先解码。频谱包络被解码,并且在解码器处使用相同的比特精确的范数调整和比特分配算法以便重新计算比特分配,这对解码归一化的变换系数的量化指数来说是必需的。在解量化之后,优选地通过使用根据所接收的频谱系数(具有非零比特分配的频谱系数)而建立的频谱填充码本来重新生成低频非编码的频谱系数(分配的零比特)。噪声级调整指数可以被用来调整重新生成的系数的大小。优选地使用带宽扩展来重新生成高频非编码的频谱系数。解码的频谱系数和重新生成的频谱系数被混合并且产生归一化的频谱。应用解码的频谱包络,从而产生解码的全带频谱。最后,应用逆变换以恢复时域解码信号。这优选地通过对于稳态模式应用改进的离散余弦逆变换(頂DCT)或者对于瞬态模式应用更高时间分辨率变换的逆变换来执行。适于全带扩展的算法基于自适应变换编码技术。它对输入和输出音频的20ms帧进行操作。因为变换窗(基本函数长度)是40ms并且在连续输入帧和输出帧之间使用50%的重叠,所以有效先行缓冲器大小是20ms。因此,整个算法延迟是40ms,其是帧大小加上先行大小的和。在使用G.722.1全带编解码器(ITU-TG.719)中经历的所有其他附加延迟归因于计算和/或网络传输延迟。5将参考图3来描述关于感知变换编码器的一般且典型的编码方案。将参考图4呈现相应的解码方案。编码方案或过程的第一步包括通常被称为信号的加窗的时域处理,这导致输入音频信号的时间分段。编解码器(编码器和解码器二者)使用的时域到频域的变换可以是例如-根据等式1的离散傅里叶变换(DFT),W-J乂2ff^w=0o,.2-1C1)其中X[k]是加窗的输入信号x[n]的DFT。N是窗w[n]的大小,n是时间索弓l,以及k是频率仓(bin)索引,-离散余弦变换(DCT),-根据等式2的改进的离散余弦变换(MDCT),2W-1广11,Ae[O,...,iV-l(2),n是时间索引其中X[k]是加窗的输入信号x[n]的MDCT。N是窗w[n]的大小以及k是频率仓索引。基于输入音频信号的这些频率表示中的任何一个,感知音频编解码器旨在分解频谱、或其关于听觉系统的临界频带(例如所谓的巴克标度)的近似值、或巴克标度的近似值、或者某一其他频率标度。为了进一步的理解,巴克标度是标准化的频率标度,其中每个"巴克"(以巴克豪森命名)组成一个临界带宽。这一步可以通过根据感知标度来对变换系数进行频率分组而实现,参见等式3,所述感知标度是根据临界频带来建立的。Xb[k]={X[k]},kG[kb,...,kb+「l],bG[1,...,Nb],(3)其中Nb是频率或心理声学频带的数目,k是频率仓索引,以及b是相对索引。如先前所述,感知变换编解码器依赖于掩蔽阈值MT[b]的估计,以便导出应用于心理声学子带域中的变换系数Xb[k]的频率成形函数,例如标度因子SF[b]。根据下面的等式4可以定义定标的频谱Xsb[k],Xsb[k]=Xb[k]XMT[b],kG[kb,...,kb+「l],bG[1,…,Nb](4)其中Nb是频率或心理声学频带的数目,k是频率仓索引,以及b是相对索引。最后,为了编码目的,感知编码器然后可以采用在感知上定标的频谱。如在图3中示出的那样,量化和编码过程可以执行冗余度縮减,其将能够通过使用定标的频谱来将原始频谱的在感知上最相关的系数作为重点。在解码阶段(见图4),通过使用所接收的二进制流量(例如比特流)的解量化和解码来实现逆操作。这一步之后是逆变换(逆MDCT即MDCT或者逆DFT即IDFT等等)以便使信号返回到时域。最后,使用重叠相加方法来生成在感知上重构的音频信号(即有损编码),因为仅解码了在感知上相关的系数。为了考虑到听觉系统限制,本发明执行合适的频率处理,其允许变换系数的定标,以使编码不会改变最终的感知。因此,本发明使心理声学建模能够满足非常低复杂性应用的需求。这通过使用标度因子的直接和简化的计算来实现。随后,标度因子的自适应压扩/扩展允许具有高感知音频质量的低比特率全带音频编码。总之,本发明的技术能够在感知上优化量化器的比特分配,以使所有在感知上的相关系数独立于原始信号或频谱动态范围而被量化。在下面将描述根据本发明的用于心理声学模型改进的方法和设备的实施例。在下文中将描述被用来导出可用于高效感知编码的标度因子的心理声学建模的细节。参考图5,将描述根据本发明的方法的一般实施例。基本上,音频信号例如语音信号被提供以用于编码。如先前所述,该信号根据标准过程来处理,因此导致加窗的和时间分段的输入音频信号。最初在步骤210中确定用于如此的时间分段的输入音频信号的变换系数。随后,在步骤212中例如根据巴克标度或某一其他标度来确定感知上分组的系数或感知频率子带。对于每个这样确定的系数或子带,在步骤214中确定掩蔽阈值。另外,在步骤216中为每个子带或系数计算标度因子。最后,在步骤218中适配如此计算的标度因子,以防止由于用于在感知上相关的子带(即实际上影响在接收的人或装置处的收听体验的子带)的编码而产生的能量损失。该适配将因此保持相关子带的能量,并且因此将最大化解码的音频信号的感知质参考图6,将描述根据本发明的心理声学模型的另一个特定实施例。该实施例使得能够计算由模型限定的每个心理声学子带b的标度因子SF[b]。尽管所描述的实施例的重点在于所谓的巴克标度,但是其仅通过较少的调整就同样适用于任何合适的感知标度。在不失一般性的情况下,考虑用于低频(很少变换系数的组)的高频率分辨率以及相反地用于高频的低频率分辨率。每个子带的系数的数目可以由感知标度(例如被认为是所谓的巴克标度的好的近似的等效矩形带宽(ERB))来限定,或者由之后所使用的量化器的频率分辨率来限定。可替换的解决方案可以是使用这两个的组合,这取决于所使用的编码方案。通过将变换系数X[k]作为输入,心理声学分析首先计算根据下面的等式5所定义的巴克谱BS[b](单位是dB):、乂(5)其中Nb是心理声学子带的数目,k是频率仓索引,以及b是相对索引。基于对感知系数或临界子带(例如巴克谱)的确定,根据本发明的心理声学模型执行前述的掩蔽阈值MT的低复杂性计算。第一步包括通过考虑平均掩蔽来从巴克谱中导出掩蔽阈值MT。在音频信号中的音调和噪声分量之间不产生差异。参见下面的等式6,这通过对于每个子带b能量减少29dB来实现MT[b]=BS[b]-29,bG[1,...,Nb](6)第二步依赖于在[2]中描述的频率掩蔽的扩散效应。由此呈现的心理声学模型考虑了由下式定义的简化的等式内的前向扩散和后向扩散二者7|MT[6]=raax(MT[4,[6-1]-12.5),"[2,…,乂]{,^=max(Mrf4"6+lj-25),&E[UA—1]("最后一步通过利用所谓的绝对听觉阈值ATH使先前的值达到饱和(saturate)来产生每个子带的掩蔽阈值,如由等式8所定义的那样MT[b]=max(ATH[b],MT[b]),bG[1,...,Nb](8)ATH通常被定义为音量级,主体可以以该音量级来检测50%的时间的特定声音。根据所计算的掩蔽阈值MT,本发明所提出的低复杂性模型旨在为每个心理声学子带计算标度因子SF[b]。SF的计算依赖于归一化步骤和自适应压扩/扩展步骤二者。基于变换系数根据非线性标度(较大的带宽用于高频)而分组这一事实,可以在应用掩蔽的扩散之后归一化在所有子带中对于MT计算而累积的能量。归一化步骤可以被写为等式9:MT加r迈[b]=MT[b]-10Xlogl。(L[Nb]),bG[1,...,Nb](9)其中L[l,,Nb]是每个心理声学子带b的长度(变换系数的数目)。然后通过假设对于编码噪声级来说归一化的MT即MT旨m是相等的来从归一化的掩蔽阈值导出标度因子SF,其中所述编码噪声级可以由所考虑的编码方案来引入。然后我们根据下面的等式10来将标度因子SF[b]定义为MTnOTm值的反(o卯osite),SF[b]=—MT加r迈[b],bG[1,...,Nb](10)然后,减小标度因子的值,以使掩蔽效应被限制到预定的量。该模型可以预知标度因子的可变的(自适应于比特率)或固定的动态范围为a=20dB:(in还有可能将该动态值链接到可用的数据速率。然后,为了使量化器将低频分量作为重点,可以调整标度因子以使在感知上的相关子带上不会出现能量损失。典型地,增加用于最低子带(500Hz以下的频率)的低SF值(低于6dB),以使它们将被编码方案认为是感知上相关的。参考图7,将描述又一个实施例。存在与参考图5所述的相同的步骤。另外,在由步骤210确定的变换系数被用于在步骤212中确定感知系数或者子带之前,在步骤211中对其进行归一化。此外,适配标度因子的步骤218还包括自适应地压扩标度因子的步骤219以及自适应地平滑标度因子的步骤220。这两个步骤219、220也可以被自然地包括在图5和图6的实施例中。根据该实施例,根据本发明的方法附加地执行频谱信息到由变换域编解码器所使用的量化器范围的合适的映射。输入频谱范数的动态变化被自适应地映射到量化器范围,以便优化信号主要部分的编码。这通过计算加权函数来实现,所述加权函数能够将原始频谱范数压扩或扩展到量化器范围。这使得能够在几个数据速率(中间和低速率)下以高音频质量进行全带音频编码,而不改变最终的感知。本发明的一个强大的优点还是加权函数的低复杂性计算,以便满足非常低复杂性(以及低延迟)应用的需求。根据该实施例,映射到量化器的信号对应于在变换的谱域(例如频域)中的输入信号的范数(均方根)。这些范数(具有索引P的子带)的子带频率分解(子带边界)必须映射到量化器频率分辨率(具有索引b的子带)。然后,对范数进行大小调整,并且根据(前向和后向平滑的)相邻范数和绝对最小能量来计算用于每个子带b的主要范数。下面描述操作的细节。最初,将范数(Spe(p))映射到谱域。这根据下面的线性操作来执行,参见等式12:<formula>formulaseeoriginaldocumentpage9</formula>其中BM是子带的最大数目(对于该特定实施方式是20)。在基于使用了44个频谱子带的量化器的表1中定义了Hb、Tb和Jb的值。Jb是对应于变换域子带数目的总和间隔。表1频谱映射常数<table>tableseeoriginaldocumentpage9</column></row><table><table>tableseeoriginaldocumentpage10</column></row><table>映射的频谱BSpe(b)根据等式13来前向平滑BSpe(b)=max(BSpe(b),BSpe(b_l)_4),b=1.,B磁,(13)并且根据下面的等式14来后向平滑BSpe(b)=max(BSpe(b),BSpe(b+l)-4),b=Bmx_l,.,0(14)根据等式15来阈值化并且再次归一化所得到的函数BSpe(b)=T(b)—max(BSpe(b),A(b)),b=0,,BMX_1(15)其中A(b)由表1给出。根据频谱的动态范围(在该特定实施方式中3=4),进一步由下面的等式16来自适应地压扩或扩展所得到的函数卿,=腿(卿,}:—稀)(16)根据信号的动态变化(最小值和最大值),计算加权函数,以使它在其动态变化超过量化器范围的情况下压扩该信号,并且在其动态变化不能覆盖量化器的全范围的情况下扩展该信号。最后,通过(基于变换域的原始边界)使用逆子带域映射,将加权函数应用于原始范数以生成将馈给量化器的加权的范数。将参考图8来描述用于实现本发明的方法的实施例的设备的实施例。该设备包括用于传送和接收用于处理的音频信号或音频信号的表示的输入/输出单元I/O。另外,该设备包括变换确定装置310,其适于确定表示所接收的时间分段的输入音频信号(或者这样的音频信号的表示)的时间到频率的变换的变换系数。根据另一个实施例,变换确定单元可以适于或者连接到适于归一化所确定的系数的范数单元311。这由图8中的虚线指示。另外,该设备包括用于基于所确定的变换系数或归一化的变换系数来确定输入音频信号或其表示的感知子带的频谱的单元312。掩蔽单元314被提供用来基于所述确定的频谱来确定每个所述子带的掩蔽阈值MT。最后,该设备包括用于基于所述确定的掩蔽阈值来计算每个所述子带的标度因子的单元316。该单元316可以被提供有或连接到适配装置318,其用于适配每个所述子带的所述计算的标度因子以防止在感知上相关的子带的能量损失。对于一个特定的实施例来说,适配单元318包括用于自适应地压扩所确定的标度因子的单元319、以及用于自适应地平滑所确定的标度因子的单元320。上述设备可以被包括在或者可连接到电信系统中的编码器或编码器设备。本发明的优点包括具有高质量全带音频的低复杂性计算,适于量化器的灵活频率分辨率,标度因子的自适应压扩/扩展。本领域技术人员将会理解,在不偏离本发明范围的情况下可以对本发明进行各种修改和改变,其中本发明的范围由所附的权利要求来限定。参考文献[1]J.D.Johnston,〃EstimationofPerceptualEntropyUsingNoiseMaskingCriteria〃,Proc.ICASSP,pp.2524-2527,Mai1988.[2]J.D.Johnston,"Transformcodingofaudiosignalsusingperc印tualnoisecriteria",IEEEJ.Select.AreasComm皿.,vol.6,pp.314-323,1988.[3]IS0/IECJTC/SC29/WG11,CD11172-3,"CodingofMovingPicturesandAssociatedAudioforDigitalStorageMediaatuptoabout1.5MBIT/s,Part3AUDI0",1993.[4]IS0/IEC13818-7,"MPEG-2AdvancedAudioCoding,AAC",1997.1权利要求一种对电信系统中的音频信号进行感知变换编码的方法,其特征在于以下步骤确定表示时间分段的输入音频信号的时间到频率的变换的变换系数;基于所述确定的变换系数来确定所述输入音频信号的感知子带的频谱;基于所述确定的频谱来确定每个所述子带的掩蔽阈值;基于所述确定的掩蔽阈值来计算每个所述子带的标度因子;适配每个所述子带的所述计算的标度因子以防止由于用于在感知上相关的子带的编码而产生的能量损失。2.根据权利要求1所述的方法,其特征在于,所述适配步骤包括对每个所述子带的所述计算的标度因子执行自适应的压扩、扩展和平滑。3.根据权利要求2所述的方法,其特征在于,基于预定的量化器范围来执行所述适配步骤以实现编码过程中高效的比特分配,这将允许在几个数据速率下以高音频质量进行全带音频编码。4.根据权利要求1所述的方法,其特征在于,所述掩蔽阈值确定步骤还包括归一化所述确定的掩蔽阈值,并且随后基于所述归一化的掩蔽阈值来计算所述标度因子。5.根据权利要求2所述的方法,其特征在于归一化所确定的变换系数并且基于所述归一化的变换系数来执行所有步骤的另一初始步骤。6.根据权利要求1所述的方法,其特征在于,所述频谱至少部分地基于巴克谱。7.根据权利要求6所述的方法,其特征在于,所述频谱进一步基于所述信号中频率的总数。8.根据权利要求4所述的方法,其特征在于,所述归一化步骤包括计算变换的谱域中的所述输入音频信号的均方根。9.一种用于对电信系统中的音频信号进行感知变换编码的设备,其特征在于变换确定装置,用于确定表示时间分段的输入音频信号的时间到频率的变换的变换系数;频谱装置,用于基于所述确定的变换系数来确定用于所述输入音频信号的感知子带的频谱;掩蔽装置,用于基于所述确定的频谱来确定每个所述子带的掩蔽阈值;标度因子装置,用于基于所述确定的掩蔽阈值来计算每个所述子带的标度因子;适配装置,用于适配每个所述子带的所述计算的标度因子以防止在感知上相关的子带的能量损失。10.根据权利要求9所述的设备,其特征在于,所述适配装置还包括用于执行所述计算的标度因子的自适应的压扩、扩展和平滑的装置。11.根据权利要求9所述的设备,其特征在于用于归一化所述确定的变换系数的另一装置。12.—种包括根据权利要求9所述的设备的编码器。全文摘要在对电信系统中的音频信号进行感知变换编码的方法中,执行以下步骤确定表示时间分段的输入音频信号的时间到频率的变换的变换系数;基于所述确定的变换系数来确定所述输入音频信号的感知子带的频谱;基于所述确定的频谱来确定每个所述子带的掩蔽阈值;基于所述确定的掩蔽阈值来计算每个所述子带的标度因子;以及最后,适配每个所述子带的所述计算的标度因子以防止在感知上相关的子带的能量损失。文档编号H04B1/66GK101790757SQ200880104834公开日2010年7月28日申请日期2008年8月26日优先权日2007年8月27日发明者A·塔莱布,M·布赖恩德申请人:爱立信电话股份有限公司