具有带有能量调整模块的频宽扩展模块的音频解码器的制造方法
【专利说明】具有带有能量调整模块的频宽扩展模块的音频解码器
【背景技术】
[0001] 类似于其他频宽扩展技术的谱带复制(SpectralBandReplication,SBR)意在核 心编码器级之上对音频信号的频谱高频带部分进行编码和解码。SBR在[IS009]中标准化, 并与MPEG-4档次HE-AAC中的AAC联合使用,AAC用于各种应用标准中,如3GPP[3GP12a]、 DAB+[EBU10]和DRM[EBU12]。
[0002] 在[IS009, 4. 6. 18节]中描述了结合AAC解码的现有技术水平的SBR。
[0003] 图1说明包括分析和合成滤波器组、SBR数据解码、HF生成器以及HF调整器的现 有技术水平的SBR解码器:
[0004] ?在现有技术水平的SBR解码中,核心编码器的输出为原始信号的低通滤波表示。 其为SBR解码器的QMF分析滤波器组的输入Χραη_ιη。
[0005] ?此滤波器组的输出X_FanJ^传递至HF生成器,在该HF生成器处发生修补。修 补基本上是低频带频谱向上至高频带的复制。
[0006] ?现在,将修补的频谱XHFpatey与从SBR数据解码中获得的高频带(包络)的频谱 信息一起提供至HF调整器。对包络信息进行哈夫曼(Huffman)解码,然后进行差分解码且 最终进行解量化以获得包络数据(参见图2)。获得的包络数据为覆盖特定时间量(如,全 帧或其部分)的比例因子的集合。HF调整器适当地调整修补的高频带的能量以在编码器侧 针对每个频带k尽可能好地与原始高频带能量相匹配。方程式1和图2阐明此:
[0007]gsbr[k] =ERef[k]/EEstAvg[l]
[0008]EAdj[k]=EEst[k] Xgsbr[k] (1)
[0009] 其中
[0010] ERef[k]表示在SBR比特流中以编码的形式传输的针对一个频带k的能量;
[0011] EEst[k]表示由HF生成器修补的来自一个高频带k的能量;
[0012]EEstAvg[l]表示被定义为开始频带和停止频带之间的频带范围的一个比例 因子频带1内部的平均高频带能量:
[0013]
[0014] 表示由HF调整器使用增益sbr调整的来自一个高频带k的能量;
[0015] g*.!表示从方程式(1)中所示出的除法产生的一个增益因子。
[0016] ?合成QMF滤波器组将处理的QMF样本於便、、:_解码为PCM音频_^.、、、〇@。:
[0017] 如果重建的频谱缺少噪声(该噪声存在于原始高频带中而未由HF生成器修补), 则存在针对每个频带k添加具有特定噪声底限Q的某个额外噪声的可能性。
[0018]
[0019] 此外,现有技术水平的SBR允许在每个帧的特定限制和多个包络内移动SBR帧边 界。
[0020] 在[EBU12, 5· 6· 2· 2 节]中描述 了结合CELP/HVXC的SBR解码。DRM中的CELP/ HVXC+SBR解码器与1. 1. 1节中所描述的HEAAC中的现有技术水平的SBR解码紧密相关。基 本上,图1适用。
[0021] 包络信息的解码适于类语音信号的频谱特性,如[EBU12, 5. 6. 2. 2. 4节]中所描 述。
[0022] 在规则的AMR-WB解码中,通过生成白噪声uHB1 (η)获得高频带激励。设定高频带 激励的功率等于低频带激励u2 (η)的功率,
[0023] 意味着
[0024]
[0025] 最后由下式发现高频带激励
[0026] .錢C炫I I:賴.>贿徽_) (5)
[0027] 其中細^为增益因子。
[0028] 在23. 85kbit/s的模式中,从接收的增益索引(旁侧信息)中解码in
[0029]在 6· 60、8· 85、12· 65、14· 25、15· 85、18· 25、19· 85 和 23. 05kbit/s的模式中,使用 边界为[0. 1,1. 0]的声音信息估计gHB。首先,发现合成的倾斜etilt
[0030]
[0031] 其中、为高通滤波低频带语音合成%似命):,截止频率为400Hz。然后发现gHB
[0032] gHB= ω sp · gSP+(l-〇sp) · gBG (7)
[0033] 其中gSP=l_etllt为用于语音信号的增益,gBS= 1. 25gSP为用于背景噪声信号的 增益,wSP为加权函数,其在声音活动检测(VAD)为0N时被设定为1,在VAD为OFF时被设定 为0。gHB边界在[0. 1,1. 0]之间。在较少能量存在于高频处的有声区段的情况下,e^近 似1,致使较低增益gHB。此减少了在有声区段的情况下所生成的噪声的能量。
[0034] 然后,从加权的低频带LP合成滤波器得到高频带LP合成滤波器Ahb(Z)
[0035]
[0036] 其中初玲为内插LP合成滤波器。已经通过以12. 8KHz的取样速率(但现在其用于 16KHz信号)分析信号而计算祕:)。这意味着12. 8KHz域中的频带5. 1-5. 6KHz将被映射至 16KHz域中的 6. 4-7.OKHz。
[0037] 然后通过AHB(z)对uHB(n)进行滤波。通过带通FIR滤波器Hhb(z)对此高频带合成 的输出sHB(η)进行滤波,该带通FIR滤波器Hhb(z)具有从6至7KHz的通带。最终,sHB被添 加至合成的语音以产生合成的输出语音信号。
[0038] 在AMR-WB+中,HF信号由输入信号的(fs/4)以上的频率分量构成。为了以低速 率表示HF信号,应用频宽扩展(BWE)方法。在BWE中,以频谱包络和帧能量的形式将能量 信息发送至解码器,但在解码器处从LF信号中所接收(解码)的激励信号对信号的精细结 构外插。
[0039] 可将减少取样的信号的频谱sHF视作在减少取样之前的高频带的折叠版本 (foldedversion)。对sHF (η)执行LP分析以获得系数集合,该系数集合对此信号的频谱包 络进行模型化。通常,需要比在LF信号中较少的参数。此处,使用8阶滤波器。然后将LP 系数变换至ISP表示并对其量化以进行传输。
[0040] HF信号的合成实施一种频宽扩展(BWE)机制,并使用来自LF解码器的某些数据。 它是在AMR-WB语音解码器(参见上文)中使用的BWE机制的演进。图3中详细地描述HF 解码器。
[0041] 在以下两个步骤中合成HF信号:
[0042] 1.HF激励的计算;
[0043] 2.来自HF激励的HF信号的计算。
[0044] 通过基于64样本子帧利用比例因子(或增益)在时域中成形LF激励信号而获得 HF激励。对此HF激励进行后处理以减少输出的"嗡嗡声(buzziness)",然后通过HF线性 预测性合成滤波器l/AHF(z)进行滤波。进一步对结果进行后处理以平滑能量变化。对进一 步的信息,请参考[3GP09]。
[0045] 结合AAC的SBR中的封包丢失隐藏在3GPPTS26.402[3GP12a,5.2节]中被指定, 并随后在DRM[EBU12,5.6.3. 1节]和DAB[EBU10,A2节]中被重新使用。
[0046] 在帧丢失的情况下,设定每个帧的包络的数目为1,并重新使用最后有效接收的包 络数据,并针对每个隐藏帧以恒定的比降低其能量。
[0047] 然后将得到的包络数据提供至正常解码过程,在该过程中HF调整器使用这些包 络数据以计算增益,该增益用于调整出自HF生成器的修补的高频带。剩余的SBR解码照常 发生。
[0048] 此外,编码的噪声底限差量值被设定为0,其使得差量解码的噪声底限保持稳定。 在解码过程的末尾,这意味着噪声底限的能量跟随HF信号的能量。
[0049] 此外,将用于添加正弦的旗标清零。
[0050] 现有技术水平的SBR隐藏还处理恢复。其预期在可由失配的帧边界引起的能量间 隙方面从隐藏的信号平滑过渡至正确解码的信号。
[0051] [EBU12, 5. 6. 3. 2节]中描述了结合CELP/HVXC的现有技术水平的SBR隐藏,并在 下文中间要概述:
[0052] 每当检测到损毁的帧时,将数据值的预定集合应用至SBR解码器。此产生"在低的 相对重放水平处的静态高频带频谱包络,呈现朝向较高频率的滚降" [EBU12, 5. 6. 3. 2节]。 此处,SBR隐藏插入某种舒缓噪声,其在SBR域中没有专用衰落。此防止听者的耳朵受到潜 在的大声音突发的影响并保持恒定频宽的印象。
[0053] 在[ITU08, 7. 11. 1. 7. 1]中描述了现有技术水平的G. 718的BWE的隐藏,并简要概 述如下:
[0054] 在低延迟模式中,其仅仅在层1和2中可用,正好以与未发生帧擦除时的相同方式 执行高频带6000-7000HZ的隐藏。对于层1、2和3,干净频道解码器操作如下:应用盲频道 扩展。在6400-7000HZ的范围中的频谱填满在激励域(高频带的能量必须与低频带能量相 匹配)中适当地按比例调整的白噪声信号。然后,与通过自和在12. 8kHz域中使用的相同 的LP合成滤波器的加权得到的滤波器合成。对于层4和5,不执行频宽扩展,因为这些层覆 盖高达8kHz的全频带。
[0055] 在默认操作中,执行低复杂性处理以在16kHz采样频率处重建合成的信号的高频 带。首先,按比例调整的高频带激励u"HB(n)在整个帧中线性地衰减如:
[0056]
[0057] 其中帧长度为320个样本,gatt (η)为衰减因子,由下式给定
[0058]
[0059]在以上方程式中,知.为平均音高增益(pitchgain),其是与在自适应码本的隐藏 期间使用的相同增益。然后,使用如在