对音频信号的时间伸缩改进变换编码的制作方法

文档序号:2837001阅读:373来源:国知局
专利名称:对音频信号的时间伸缩改进变换编码的制作方法
技术领域
本发明涉及音频源编码系统,特别涉及使用基于块的变换的音频编码方案。
背景技术
本领域内公知用于对音频和视频内容进行编码的若干方式。当然,通 常目的是以比特节省的方式对内容进行编码,且不降低信号的重建质量。
最近,开发出对音频和视频内容进行编码的新方法,其中基于变换的 感知音频编码实现了对于静止信号的最大编码增益,即当变换大小较大时
可应用(譬如,见T. Painter禾卩A. Spanias: "Perceptual coding of digital audio", Proceedings of the IEEE, Vol. 88, No. 4, April 2000, pages 451-513)。音频的
静止部分经常由固定的有限个静止正弦曲线来充分模拟。 一旦变换大小足 够大而能够分解这些分量,对于给定的失真目标就需要固定数量的比特。 通过进一步增大变换大小,可描述音频信号的越来越大的分段,且不增加 比特需求。然而对于非静止信号,必须减小变换大小,因此编码增益会很 快下降。为了克服此问题,对于急剧的变化和瞬时事件,可应用变换大小 开关,且不显著提高平均编码成本。即,当检测到瞬时事件时,将要一起 进行编码的样本的块大小(帧大小)减小。对于持久瞬时信号,比特率自 然会极大地增加。
用于持久瞬时行为的特别令人感兴趣的示例是局部谐波信号的基音 (pitch)变化,这主要在语音和歌唱的声部中会遇到,但也可能源自某些 乐器的颤音和滑奏。关于谐波信号,即具有沿时间轴等间隔分布的信号峰 值的信号,术语基音描述信号的相邻峰值之间的时间的倒数。所以这种信 号具有理想的谐波谱,其由与所述基音相等的基频和更高阶谐波组成。在 更一般的情况下,基音可定义为局部谐波信号内的两个相邻的对应信号部 分之间的时间的倒数。然而,如果基音和基频随时间变化,如浊音(voicedsound)中的情况,则频谱会变得越来越复杂,从而编码效率更差。
与信号基音密切相关的参数是信号的伸缩(warp)。假定时间/处的信 号具有与;^j相等的基音且此基音值随时间平滑变化,则时间f处的信号 的伸缩由对数导数来定义
对于谐波信号,就多个基音或多个部分基音而言,对伸縮的这种定义 不受谐波分量和系统误差的特定选择所影响。伸缩测量对数域中频率的变 化。伸缩的自然单位是赫兹[Hz],但在音乐方面,带有恒定伸縮"(/)=。。的 信号是带有每秒"。/log2个八度音(octave倍频程)[oct/s]的扫描速率的扫 描。语音信号表现出至多10 oct/s的伸缩和大约2 oct/s的平均伸縮。
由于变换编码器的典型帧长度(块长度)非常大,以至于相关基音变 化在帧内显著,所以这种大小的伸缩或基音变化导致这些编码器的频率分 析的不规则(scrambling)。由于对于所需的恒定比特率,这一点只可通过 增加量化的粗糙度来克服,所以此效应导致量化噪声的引入,这经常被感 知为混响。
用来克服此问题的一种可能的技术是时间伸縮。时间伸縮编码的概念 可通过设想带有可变速度的磁带录音机来作最佳解释。当记录音频信号 时,动态调节速度以便实现整个话音分段上恒定的基音。所得到的局部静 止音频信号随所应用的磁带速度变化一起被编码。在解码器中,以相反的 速度变化来执行重放。然而,应用以上描述的简单时间伸縮具有一些显著 的缺点。首先,绝对磁带速度以不受控制的方式结束,导致违反整个被编 码信号的持续时间和带宽限制。对于重建,必须发送关于磁带速度的(或 等效地关于信号基音的)附加辅助信息,这引入了相当大的比特率开销, 尤其在低比特率情况下。
用来克服时间伸缩信号的不可控制持续时间这个问题的现有方法的 一般途径是通过时间伸縮独立地对信号的连续非重叠分段(即各个帧)进 行处理,以便每分段的持续时间都被保留。譬如在Yang et. al. "Pitch synchronous modulated lapped transform of the linear prediction residual of speech", Proceedings of ICSP ,98, pages 591-594中描述了这个方法。这种处
理的巨大优势是虽然所处理信号在分段内是静止的,但基音会在每个分 段边界表现出跳跃。这些跳跃会明显地导致后续音频编码器的编码效率的 损失,并在解码信号中引入可听到的不连续。
时间伸縮也在若干其他编码方案中实现。譬如,美国专利
US-2002/0120445描述了一种方案,其中,在基于块的变换编码之前,对 信号分段的持续时间进行细微修改。这将避免在块的边界处的大信号分 量,接受在单个分段的持续时间中有细微变化。
在美国专利US6,169,970中描述了利用时间伸縮的另一项技术,其中 应用时间伸縮以提高语音编码器的长期预测器的性能。同样,在美国专利 US 2005/0131681中,描述了一种用于对语音信号进行CELP编码的预处 理单元,其在非重叠区间之间施加分段线性伸縮,所述非重叠区间每个都 包含一个白化(whitened)基音脉冲。最后,在(R. J. Sluijter and A. J. E. M. Janssen, "A time warper for speech signals" IEEE workshop on Speech Coding,99, June 1999, pages 150-152)中描述了如何通过将二次时间伸縮函 数应用到语音帧来改进语音基音估计。
综上所述,现有技术的伸縮技术都存在以下问题在帧边界引入了不 连续以及需要大量的附加比特率以用于传输描述信号的基音变化的参数。

发明内容
本发明的目的是提供一种梗用时间伸缩对音频信号进行更有效编码 的概念。
根据本发明的第一个方面,此目的由一种用于推导音频信号表示的编 码器来实现,所述音频信号具有第一帧、跟在第一帧之后的第二帧和跟在
第二帧之后的第三帧,所述编码器包括伸縮估计器,用于估计第一和第 二帧的第一伸缩信息以及用于估计第二帧和第三帧的第二伸縮信息,所述
伸縮信息描述音频信号的基音;频谱分析器,使用第一伸縮信息来推导第
一和第二帧的第一频谱系数以及使用第二伸縮信息来推导第二和第三帧
的第二频谱系数;以及输出接口,用于输出包含第一和第二频谱系数的音 频信号的表示。
根据本发明的第二个方面,此目的由一种解码器实现,该解码器使用
第一伸縮信息、第二伸縮信息、第一频谱系数和第二频谱系数来重建音频 信号,所述音频信号具有第一帧、跟在第一帧之后的第二帧和跟在第二帧 之后的第三帧,所述第一伸縮信息描述第一和第二帧的音频信号的基音, 所述第二伸縮信息描述第二和第三帧的音频信号的基音,所述第一频谱系 数针对第一和第二帧,所述第二频谱系数针对第二和第三帧,所述解码器 包括谱值处理器,使用第一频谱系数和第一伸縮信息来推导第一组合帧, 所述第一组合帧具有关于第一和第二帧的信息,使用第二频谱系数和第二 伸縮信息来推导第二组合帧,所述第二组合帧具有关于第二和第三帧的信 息;以及合成器,使用第一组合帧和第二组合帧来重建第二帧。
根据本发明的第三个方面,此目的由一种推导音频信号表示的方法来 实现,所述音频信号具有第一帧、跟在第一帧之后的第二帧和跟在第二帧 之后的第三帧,所述方法包括估计针对第一和第二帧的第一伸縮信息以 及估计针对第二和第三帧的第二伸縮信息,所述伸缩信息描述音频信号的 基音;使用第一伸缩信息来推导针对第一和第二帧的第一频谱系数以及使
用第二伸縮信息来推导针对第二和第三帧的第二频谱系数;以及输出包含
第一和第二频谱系数的音频信号表示。
根据本发明的第四个方面,此目的由一种方法实现,该方法使用第一 伸縮信息、第二伸縮信息、第一频谱系数和第二频谱系数来重建音频信号, 所述音频信号具有第一帧、跟在第一帧之后的第二帧和跟在第二帧之后的 第三帧,所述第一伸缩信息描述针对第一和第二帧的音频信号的基音,所 述第二伸縮信息描述针对第二和第三帧的音频信号的基音,所述第一频谱 系数针对第一和第二帧,所述第二频谱系数针对第二和第三帧,所述方法
包括使用第一频谱系数和第一伸縮信息来推导第一组合帧,所述第一组
合帧具有关于第一和第二帧的信息;以及使用第二频谱系数和第二伸縮信 息来推导第二组合帧,所述第二组合帧具有关于第二和第三帧的信息;以 及使用第一组合帧和第二组合帧来重建第二帧。
根据本发明的第五个方面,此目的由一种音频信号表示来实现,所述 音频信号具有第一帧、跟在第一帧之后的第二帧和跟在第二帧之后的第三
帧,所述表示包括针对第一和第二帧的第一频谱系数,所述第一频谱系 数描述第一和第二帧的伸缩表示的频谱构成;以及描述第二和第三帧的伸 縮表示的频谱构成的第二频谱系数。
根据本发明的第六个方面,此目的由一种具有程序代码的计算机程序 来实现,所述程序代码用于当运行在计算机上时实现任意以上方法。
本发明基于以下发现当对于任何两个相邻帧估计出共同时间伸縮 时,可更有效地推导出具有连续音频帧的音频信号的频谱表示,因此后面 的块变换也可使用伸缩信息。
因此,由于已经预计到由时间伸缩会引起对信号的重新采样,可导出 并应用在重建过程中成功应用重叠和相加过程所需的窗口函数。所以,可 以使用效率提高的对时间伸縮信号的基于块的变换编码,且不会引入可听 见的不连续。
因而,本发明提出一种对现有技术的问题的引人注意的解决方案。一 方面,与音频信号分段有关的问题由特定的重叠和相加技术来克服,所述
技术将时间伸縮运算与窗口运算结合起来并引入块变换的时间偏移量。所 产生的连续时间变换具有理想的重建能力,它们的离散时间变换只受到重 建过程中解码器所应用的重新采样技术的质量的限制。此性质导致所产生 的音频编码方案具有高比特率收敛性。理论上,通过降低量化的粗糙度, 即通过提高传输比特率,可以实现信号的无损传输。譬如,这不能利用纯 参数编码方法来实现。
本发明的又一个优势是极大地降低了对需要发送以反转时间伸縮的 附加信息的比特率需求。这可通过发送伸缩参数辅助信息而不是基音辅助 信息来实现。它具有另一个优势相对于许多基于基音参数的音频编码方 法对正确基音检测的严重依赖性,本发明只表现出轻度的参数依赖性。这 是因为基音参数的发送需要对局部谐波信号的基频进行检测,而这并不总 是简单易行的。本发明的方案因此非常鲁棒,因为很明显,在给定以上伸 縮参数的定义的情况下,对更高谐波进行的检测并不会篡改待发送的伸縮 参数。
在本发明的一个实施例中,应用编码方案以对设置在连续帧中的音频 信号进行编码,特别是彼此紧接的第一、第二、第三帧。关于第二帧的信 号的全部信息由第一和第二帧的组合的频谱表示、针对第一和第二帧的伸 縮参数序列、以及针对第二和第三帧的组合的频谱表示和针对第二和第三
12
帧的伸缩参数序列来提供。使用本发明的时间伸縮概念可以对信号进行重 叠和相加重建,而不必在帧边界处引入快速基音变化,并且不会引入附加 的可听见的不连续。
在本发明的又一个实施例中,使用公知的基音跟踪算法来导出伸縮参 数序列,使得可以使用这些公知算法,并因而在现有的编码方案中简单实 现本发明。
在本发明的又一个实施例中,实现伸縮,以便当音频信号如伸縮系数 所指示的那样形成时间伸縮时,帧内的音频信号的基音会尽可能恒定。
在本发明的又一个实施例中,当选择伸縮参数序列以便频谱系数的编 码表示的大小最小化时,在编码过程中以更高计算复杂性为代价甚至可进 一步降低比特率。
在本发明的又一个实施例中,本发明的编码和解码分解为对窗口函数 的应用(加窗)、重新采样和块变换。所述分解具有巨大的优势尤其对 于所述变换而言,现有的软件和硬件实施方式可用于有效地实现本发明的 编码概念。在解码器端,引入重叠和相加的又一个独立步骤以用于重建信 号。
在本发明解码器的可替换实施例中,在变换到时域之前,将额外的频 谱权重施加于信号的频谱系数。这么做具有如下优势,即进一步降低了解 码器端的计算复杂性,因为可降低信号的重新采样的计算复杂性。
术语"基音(pitch)"应以一般意义进行解释。此术语也涵盖基音变化 (pitch variation)以及涉及伸縮信息的位置。在某种情况中,伸缩信息不提 出绝对基音,而提出相对或归一化基音信息。所以在给定伸縮信息的情况 下,当接收得到正确基音曲线形状但没有在y轴上的值时,可得到对信号 基音的描述。


通过参照附图,随后续描述本发明的优选实施例,其中
图1 示出了本发明的伸縮映射的示例; 图2-2b 示出了本发明的伸縮有关窗口的应用; 图3a,3b示出了本发明的重新采样的示例;
图4a,4b示出了在解码器端本发明信号合成的示例;
图5a, 5b示出了在解码器端本发明加窗的示例;
图6a,6b示出了在解码器端本发明时间伸縮的示例;
图7 示出了在解码器端本发明重叠和相加过程的示例;
图8 示出了本发明音频编码器的示例;
图9 示出了本发明音频解码器的示例;
图10 示出了本发明解码器的又一个示例;
图11 示出了本发明概念的后向兼容实施方式的示例;
图12 示出了本发明编码的实施方式的框图13 示出了本发明解码的示例的框图14 示出了本发明解码的又一个实施例的框图15a, 15b示出了实现本发明概念的可实现编码效率的图解说明。
具体实施例方式
以下描述的实施例仅用于说明本发明的针对音频信号的时间伸縮变 换编码的原理。需要理解,这里描述的布置和细节的修改和变化对于本领 域技术人员而言是显而易见的。所以,本发明仅由所附权利要求的范围所 限制,而不被通过这里对实施例的描述和解释所呈现的具体细节所限制。
在下文中,简要回顾伸缩和块变换的基本思想和概念,以促进对本概 念的理解,这将在以下参考附图更详细地进行讨论。
一般地,时间伸缩变换的细节最容易在连续时间信号域中推导出。以 下段落描述一般理论,并将在随后对该理论进行特别说明并转化为对离散 时间信号的本发明应用。此转化中的主要步骤是用离散时间信号的非均匀 重新采样替换对连续时间信号执行的坐标变化,保留平均釆样密度,即不 改变音频信号的持续时间。
令^ = ^,)描述时间坐标的变化,其由连续可微严格递增函数W将^轴 区间/映射到s轴区间/上。
所以y(/)是可用于对时间有关量值的时间轴进行变换的函数,这等效 于离散时间情况下的重新采样。应该注意,在以下讨论中,t轴区间I是 正常时域中的区间,x轴区间J是伸縮时域中的区间。
给定区间/上的有限能量信号的标准正交基fe卜可根据以下法则来
得到区间/上的有限能量信号的标准正交基KJ
(1)
给定无限时间区间/,时间伸縮的局部说明可通过对I分段并构造^来 实现,构造^是将归一化伸縮映射的缩放片段粘合起来。
归一化伸缩映射("o/7^feedw^/7W"; )是连续可微严格递增函数, 其将单位区间
映射到自身。从分段点 4 (々+1>《)的序列和归一化伸
縮映射n的对应序列开始,可构造
,w 、
:~~^ +、^ (2)
'fc+l — " 乂
其中调节《=&+1-^和序列《以便"0变为连续可微。这就根据妇一化伸縮 映射^的序列以及类型^^)+S的缩放的仿射(affine)变化定义了",)。
令k」为区间 /上的有限能量信号的标准正交基,适配于所述分段 &=V^),以便当"^或"^+&时、(》=0,其中整数尺是重叠因子。
本发明关注于K》2的情况,因为尺=1的情况与无重叠的现有技术的 方法相对应。应该注意,对于尺23,并不是很多构造目前公知。以下针对 尺=2的情况详述本发明概念的特定示例,所述特定示例包括局部三角基, 所述局部三角基同样用于改进离散余弦变换(MDCT)和其他离散时间重叠变换。
在存在整数p的情况下,令来自所述分段的h.j的构造是局部的,以 便对于/ < 或/ 〉 A+K+j9,、》)不取决于& 。最后,令所述构造使得对 于A + S的分段的仿射变化引起对于,2vM(G-5)A4)的基的变化。贝U
(3)
是区间/上的有限能量信号的时间伸縮标准正交基,其由分段点^和归一 化伸缩映射^序列充分限定,且与(2)中的参数序列&和《的初始化无关。 由于当"^或"时有"M(0= 0 ,所以所述标准正交基适配于给定分段, 由于 ^)既不取决于6 (/<&卞或/〉^:+^+^),又不取决于归一化伸缩映 射W (/<^-/7或/^^+尺+;;),所以所述标准正交基是局部定义的。
由于雅可比因子(一(Or,合成波形(3)是连续的但不必须是可微的。由 于这个缘故,为了在离散时间情况下减少计算负荷,也可构造导出的双正3C
系统。假定有常:
:0<0<^使得
(4)
序列74>0。那么
定义了用于区间/上有限能量信号空间的Riesz基的双正交对。
因此,力,"(0以及&,"W可用于分析,而使用A,j)作为合成波形并使用 gb(,)作为分析波形是特别有优势的。
基于以上一般考虑,对于均匀分段"=^和重叠因子《=2的情况,本 发明概念的示例将通过使用适配到所产生的s轴上的分段的局部余弦基在 后续段落中导出。
应该注意,对处理非均匀分段而言必要的修改是明显的,以便本发明 的概念也可应用于这种非均匀分段。对于由M. W. Wickerhauser提出的示 例,"Adapted wavelet analysis from theory to software", A. K. Peters, 1994, Chapter 4,构建局部余弦基的出发点是上升截止函数^ ,以使得对于^<-1 有p(r卜0,对于^l有;^)^,并且在作用区-BW1中,P2(r)+P2(-r) = l。
给定分段^ ,每个区间& ^ ^&2上的窗口就可以根据下式来构造
(5)
, 、广 、
s - q
l & 」k 」
(6)
其中截止中点^=(^+^+,)/2,截止半径^=(^-^+1)/2。这与Wickerhauser 的中点构造相对应。
在/t = q+1 - q = ^ +』的情况下,标准正交基由下式得到
|2
;r(" + 士)
(7)
其中,频率索引《=0,1,2-。很容易验证,此构造遵循以上描述的/ =0的 局部性条件以及仿射不变性。所产生的/轴上的伸縮基(3)可在此情况下以 下式的形式重写
(,)=&")cos [tt(" + 士)" (") - w)], (8) 对于A^^/t + 2,其中A通过将^与^+,粘合在一起来定义,以在其自身上 形成区间
的连续可微映射,
1<formula>formula see original document page 17</formula>^的构造在图1中示出了,图l示出了x轴上的归一化时间和y轴上 的伸縮时间。对于k^O的情况来特别讨论图1,即用于构建^U,)并从而导 出伸缩函数,对于第一帧,从归一化时间O持续到归一化时间1,对于第 二帧,从归一化时间1持续到归一化时间2。进一步假定,当如伸縮函数 14和16所指示那样变换时间轴时,第一帧10具有伸缩函数14并且第二 帧12具有伸缩函数16,所述伸縮函数14和16是以在各自帧内实现相同 基音这一目的导出的。应该注意,伸縮函数14对应于w伸縮函数16对 应于^。根据方程式9,通过将伸縮映射14与16粘合在一起来构造组合 伸縮函数A(,) 18,以在其自身上形成区间
的连续可微映射。结果,点 (l,l)变换为(l,a),其中a对应于方程式9中的2^。
由于本发明的概念涉及在重叠和相加场景中应用时间伸縮,所以在图 1中也给出了构建帧12和后面的帧20的下一组合伸縮函数的示例。应该 注意,遵循重叠和相加法则,对于帧12的完全重建,需要伸縮函数18和 22的有关知识。
应该进一步注意,将两个独立导出的伸縮函数粘合在一起不必然是导 出合适的组合伸缩函数0的唯一方法。^的(18,22)也完全可以通过直接使合
适的伸縮函数与两个连续帧相符合来导出。优选地,在两个伸縮函数的定 义域的重叠上具有这两个伸縮函数的仿射一致性。
根据方程式6,方程式8中的窗口函数由下式定义
<formula>formula see original document page 17</formula>其在区间
中从1减小到0。
如果有常量(Kd《2,则也可导出(8)式的双正交形式,以使得对于所 有A有
C<formula>formula see original document page 17</formula>
在(4)式中选择^ = 4得出专门化的(5)式
<formula>formula see original document page 18</formula>因此,对于连续时间的情况,导出合成和分析函数(方程式12),其 依赖于组合伸縮函数。这种依赖性使得可以在不损失有关原始信号的信息 的情况下在重叠和相加的场景中进行时间伸縮,即可以对信号进行理想重建。
要注意,对于实施目的,在方程式12内实现的运算可分解为一系列
连续的单独的步骤。这么做的特别引人注意的方式是首先执行信号的加 窗,然后对加窗信号进行重新采样,最后进行变换。
照常地,音频信号作为以给定采样频率进行采样的离散采样值被数字 地存储和发送,用于实现本发明概念的给定示例将在以下被进一步开发以 用于离散情况中的应用。
可通过对分析积分和合成波形进行离散化,从时间局部余弦基中获得
时间伸縮改进离散余弦变换(TWMDCT)。以下描述基于双正交基(见方程
式12)。处理正交情况(8)所需的变化包括雅克比因子VSF可的额外时域 加权。在不应用伸缩的特殊情况下,两种构造都变为普通MDCT。令丄为 变换大小,并假定将要分析的信号々)以^r丄(rad/s沐限制带宽,《<1。这 允许该信号由采样周期1/丄的采样来描述。 分析系数由下式给出
<formula>formula see original document page 18</formula>定义加窗信号部分A(z^x(r +丰^(r》并在积分式(13)中执行替换 "n禾口r《(r),从而得出
<formula>formula see original document page 18</formula>
对本发明所教导的此积分式进行离散化的特别引人注意的方式是选
择采样点"。=^+(^ + 1/2)/丄,其中v是整数值。假定有以上描述的稍微的
伸縮和带限,则给出近似值<formula>formula see original document page 19</formula>(15)式中的求和区间由0^<2所限定。它包括^ = 0,1,...,£-1并在每一端 扩展到此区间之外,以便点的总数量为2L。注意,由于所述加窗,结果不 受对边缘情况的处理所影响,对边缘情况的处理可在对于某整数v。有 二(v。+l/2)/Z时出现。
由于公知所述和(方程式15)可通过初等折叠运算后跟IV类DCT 来进行计算,所以合适的做法是将方程式15的运算分解为一系列后续 运算和变换,以利用己存在的有效硬件和软件实施方式,特别是离散余弦 变换(DCT)。根据已离散化的积分式,给定的离散时间信号可被解释为以 x(t)的采样周期1/丄为周期的等间距样本。因此加窗的第一步将得出<formula>formula see original document page 19</formula>。在方程式15所描述的块变换之前(引入取决于^的额外
偏禾多
:),需要重新采样,映射为<formula>formula see original document page 19</formula>重新采样运算可由用于非等间距重新采样的任何合适的方法来实现。 综上所述,本发明的时间伸縮MDCD可分解为加窗运算、重新采样 和块变换。
以下将参考图2至3b来简要描述各个步骤。图2至3b示出了时间伸 縮MDCT编码的步骤,所述时间伸縮MDCT编码只考虑合成地生成的基 音信号的两个加窗信号块。每个帧都包含1024个采样,因此两个所考虑 的组合帧24和26 (原始帧30和32以及原始帧32和34)每个都由2048 个采样组成,因此两个加窗组合帧具有1024个采样的重叠。图2至2b在 x轴上示出了将要处理的3帧的归一化时间。在时间轴上,第一帧30的范 围从0到1,第二帧32的范围从1到2,第三帧的范围从2到3。因此在
归一化时域中,每个时间单元对应于具有1024个信号采样的一个完整的
帧。归一化分析窗口跨越归一化时间区间
和[1,3]。以下考虑的目的是 恢复信号的中间帧32。由于对外部信号帧(30,34)的重建需要来自相邻加窗 信号分段的数据,所以不在这里考虑此重建。要注意,图1中所示的组合 伸縮映射是从图2的信号导出的伸缩映射,图2示出了本发明将三个后续 归一化伸縮映射(虚曲线)组合到两个重叠的伸縮映射(实曲线)。如以 上所解释的,本发明的组合伸缩映射18和22被导出用于信号分析。此外, 要注意,由于伸缩的放射不变性,此曲线表示带有与原始两个分段中相同 伸縮的伸縮映射。
图2通过实线图来示出原始信号。其程式化的脉冲序列具有随时间线 性变化的基音,因此,考虑到伸缩被定义为基音的对数导数,所以它具有 正的且递减的伸縮。在图2中,使用方程式17推导出的本发明的分析窗 口作为虚曲线叠加。应该注意,在所述伸縮最大之处,即在第一段
中, 偏离标准对称窗口 (如在MDCT中)也最大。窗口的数学定义只通过对 方程式11的窗口进行重新采样来给出,所实现的重新采样如方程式17的 右手边第二个因子所表示。
图2a和2b说明了本发明加窗的结果,即将图2的窗口应用到各个信 号分段的结果。
图3a和3b说明了对图2a和2b的加窗信号块所进行的依赖于伸缩参 数的重新采样的结果,所执行的重新采样如图1的实曲线给出的伸缩映射 所指示。归一化时间区间[O,l]映射到伸缩时间区间[O,a],与对加窗信号块
的左半部进行的压縮是等价的。因此,执行对加窗信号块右半部的扩展, 将区间[l,2]映射到[a,2]。由于伸縮映射是以导出带有恒定基音的伸缩信号 的目的从信号中进行推导的,所以伸缩(根据方程式18的重新采样)的 结果是具有恒定基音的加窗信号块。应该注意,伸缩映射与信号之间的失 配将导致在这个点上仍然带有可变基音的信号块,这不会扰乱最终的重 建。
以下块变换的偏移量由圆圈来标记,以便区间[m,m+l]对应方程式15 中的离散釆样v-0,l,…,丄-1,其中£=1024。这就等价地意味着块变换的 调制波形在m处享有偶对称,在m+l处享有奇对称。另外要重点注意的
是,a等于2m以使得m是0与a之间的中点且m+l是a与2之间的中点。 综上所述,图3a和3b描述了由方程式18所描述的本发明重新采样之后 的情况,该情况当然依赖于伸缩参数。
图3a和3b的信号的时间伸缩变换域样本而后被量化并编码,并可与 描述归一化伸缩映射n的伸縮辅助信息一起被发送到解码器。由于量化是 公知技术,所以在以下附图中未对使用特定量化准则的量化进行说明,而 集中于解码器端上对信号所进行的重建。
在本发明的一个实施例中,解码器接收伸縮映射序列与已解码的时间 伸縮变换域样本《,其中由于假定信号有带宽限制,可以假定《2丄时 《 =0。如在编码器端,用于实现离散时间合成的出发点是使用方程式12 的合成波形来考虑连续时间重建
<formula>formula see original document page 21</formula> (19)
其中
且有<formula>formula see original document page 21</formula>(20)
<formula>formula see original document page 21</formula>(21)
方程式(19)是加窗变换合成的通常的重叠和相加过程。如在分析级中, 在点m = ^ + (v + l/2)/L处对方程式(21)进行釆样是有优势的,引出
<formula>formula see original document page 21</formula>
(22)其通过以下步骤容易计算首先是IV类的DCT,接着根据准则(^^2, 依赖于偏移量参数^,以2£对样本进行扩展。其次,执行窗口&(U的加 窗。 一旦找到^0;),重新釆样
<formula>formula see original document page 21</formula>(23)
在等距采样点(;7 + l/2)/Z处给出信号分段^,以为方程式(19)中所描述的重 叠和相加运算作准备。
可再次很自由地选择重新采样方法,且不必与编码器中的重新采样方 法相同。在本发明的一个实施例中,使用基于样条内插的方法,其中根据 带限参数q的函数来调节样条函数的顺序,以实现计算复杂性与重建质量 之间的折衷。参数q的常用值是q4/3,在这种情况下二次样条通常就足 够了。
以下将通过图4a至7来说明针对图3a和3b所示的信号的解码。应 再次强调,不在这里描述块变换和对变换参数的发送,因为这是公知技术。 作为解码过程的起点,图4a和4b示出了一种配置,其中已执行了反块变 换,得到图4a和4b中所示的信号。反块变换的一个重要的特性是增加了 图3a和3b的原始信号中不存在的信号分量,这是由于以上已解释的合成 函数的对称性质所导致的。特别地,合成函数具有关于m的偶对称性和关 于m+l的奇对称性。所以,在区间
中,在反块变换中增加了正信号分 量,而在区间[a,2]中,增加了负信号分量。另外,用于合成加窗操作的本 发明的窗口函数作为图4a和4b中的虚曲线叠加。
伸縮时域中的此合成窗口的数学定义由方程式11给出,图5a和5b 示出了在应用本发明的加窗之后仍在伸缩时域中的信号。
图6a和6b最终示出了对图5a和5b的信号的依赖于伸缩参数所进行 的重新采样的结果。
最后,图7示出了重叠和相加运算的结果,作为信号合成中的最终步 骤。(见方程式19)。重叠和相加运算是图6a和6b的波形的叠加。如以上 己提到的,仅有的要完全重建的帧是中间帧32,与图2的原始情况的比较 示出了中间帧32以高保真被重建。精确抵消在反块变换过程中所引入的 干扰附加信号分量只是可能的,因为本发明的关键性质是图l中的两个 组合伸縮映射14和22只相差重叠归一化时间区间[1,2]内的仿射映射。其 结果就是在伸縮时间分段[a,2]和[l,b]上在信号部分与窗口之间形成对应关 系。当考虑图4a和4b时,分段[l,b]向[a,2]的线性延伸将使得信号图表和 半窗口描述了标准MDCT的时域混淆抵消的众所周知的原理。已进行混 淆抵消的信号而后可通过一般反伸縮映射简单映射到归一化时间区间[1,2] 上。
要注意,根据本发明的又一个实施例,可通过在频域中应用预滤波步
骤来实现计算复杂性的额外减小。这可通过对已发送采样值《,"进行简单
预加权来实现。譬如在M. Unser, A. Aldroubi和M. Eden, "B-spline signal processing part II-efficient design and applications"中描述了这禾中预滤波。实 施方式需要在加窗操作之前向反块变换的输出应用B样条重新釆样。在此 实施例内,所述重新采样作用于由修改了《 的方程式22所推导的信号上。 同样不执行窗口函数&(A;)的施加。所以,在信号分段的每一端,所述重新 采样必须照顾到与由块变换的选择所引起的周期性和对称性方面有关的 边缘条件。在所述重新采样之后使用窗口 &4^(07 + 1/2)/£》来执行所需的加 窗。
综上所述,根据本发明解码器的第一实施例,反时间伸縮MDCT包 括分解的以下单独步骤 反变换 *加窗 重新采样 *重叠和相加
根据本发明的第二实施例,反时间伸縮MDCT包括 *频谱加权 反变换 重新采样 *加窗 *重叠和相加
要注意,在不应用伸縮的情况下,即所有归一化伸縮映射都无关紧要 (trivia)的情况下,(^(/)-0,以上详述的本发明的实施例与通常的MDCT 精确吻合。
现将参照图8至15来描述包括以上所提到的特性的本发明的其它实 施例。
图8示出了本发明的音频编码器的示例,所述音频编码器用于接收数 字音频信号100作为输入,并生成要发送到解码器的比特流,所述解码器 包括本发明的时间伸縮变换编码概念。数字音频输入信号ioo可以是自然
音频信号或预处理音频信号,其中譬如所述预处理可以是用于对输入信号 频谱进行白化的白化操作。本发明的编码器包括伸縮参数提取器101、伸
縮变换器102、感知模型计算器103、伸縮编码器104、编码器105和多路 复用器106。所述伸縮参数提取器101估计出伸缩参数序列,其输入到所 述伸縮变换器102并输入到所述伸縮编码器104。所述伸缩变换器102推 导出数字音频输入信号100的时间伸縮频谱表示。所述时间伸縮频谱表示 被输入到所述编码器105,以用于量化及可能的其他编码,譬如差分编码。 所述编码器105还被所述感知模型计算器103控制。譬如,当将要编码的 信号分量主要由其他信号分量所遮盖时,量化的粗糙度可增大。所述伸縮 编码器104对所述伸縮参数序列进行编码,以减小在发送的过程中其在比 特流内的大小。这可包含譬如参数的量化,或譬如差分编码或熵编码技术 以及算术编码方案。
所述多路复用器106从所述伸縮编码器104接收已编码伸縮参数序列 并接收所述数字音频输入信号IOO的已编码时间伸縮频谱表示,以将两个 数据复用成为编码器的比特流输出。
图9说明了时间伸缩变换解码器的示例,所述解码器接收兼容比特流 200以用于推导重建音频信号作为输出。所述解码器包括多路信号分离器 201、伸縮解码器202、解码器203和反伸縮变换器204。所述多路信号分 离器将比特流分离成为已编码伸缩参数序列,该序列被输入到所述伸縮解 码器202。所述多路信号分离器进一步分离音频信号的时间伸縮频谱表示 的已编码表示,该表示被输入到所述解码器203,所述编码器203与图8 的音频编码器的对应编码器105相反。伸缩解码器202推导出对伸縮参数 序列的重建,解码器203推导出原始音频信号的时间伸缩频谱表示。伸缩 参数序列的表示以及时间伸縮频谱表示都被输入到所述反伸縮变换器 204,所述反伸縮变换器204推导出数字音频输出信号,所述数字音频输
出信号用于实现音频信号的时间伸縮重叠变换编码这一本发明概念。
图IO示出了时间伸缩变换解码器的又一个实施例,其中在解码器自 身中推导出伸缩参数序列。图10中所示的可替换实施例包括解码器203、
伸缩估计器301和反伸縮变换器204。解码器203和反伸缩变换器204享 有与前述实施例的对应设备相同的功能,所以不同实施例内的这些设备的 描述完全可互换。伸缩估计器301通过将较早的频域基音估计与当前的频 域基音估计组合来推导出由解码器203输出的时间伸缩频谱表示的实际伸 缩。因此,隐式地表示了伸缩参数序列,这具有如下巨大优势由于不必 在输入到解码器的比特流中发送额外的伸缩参数信息,所以可进一步节省 比特率。然而,伸縮数据的隐式表示受到该变换的时间分辨率所限制。
图11说明了当使用不能利用本发明时间伸缩解码概念的现有技术解 码器时本发明概念的后向兼容性。这种解码器会忽略额外的伸縮参数信 息,因此将比特流解码为馈入反变换器401的频域信号,不实现任何伸缩。 由于由本发明编码器中的时间伸缩变换所执行的频率分析与不包括任何 时间伸縮的变换完全匹配,所以忽略伸縮数据的解码器仍会生成有意义的 音频输出。这样做是以由于在现有技术解码器内不对时间伸縮进行反变换 所引起的音频质量下降为代价的。
图12示出了时间伸缩变换这一本发明方法的框图。本发明的时间伸 缩变换包括加窗501、重新采样502和块变换503。首先,利用依赖于伸 縮参数序列的重叠窗口序列来对输入信号加窗,所述伸縮参数序列作为各 编码步骤501至503中每个的额外输入。每个已加窗输入信号分段随后在 所述重新釆样步骤502中被重新采样,其中所述重新采样如所述伸缩参数
序列所指示的那样来执行。
在块变换步骤503内,通常使用众所周知的离散三角变换来导出块变 换。这样执行的变换是对加窗并重新采样过的信号分段执行的。需要注意, 块变换也依赖于偏移量值,所述偏移量值是根据所述伸缩参数序列导出 的。因此,所述输出由变换域的帧的序列所组成。
图13示出了反时间伸縮变换方法的流程图。该方法包括以下步骤-反块变换601、加窗602、重新采样603以及重叠和相加604。变换域信号 的每个帧都被反块变换601转换为时域信号。对应于编码步骤,块变换依 赖于从所接收参数序列导出的偏移量值,所接收参数序列用作所述反块变 换601、所述加窗602和所述重新采样603的额外输入。随后使用伸缩参 数序列在加窗步骤602中对由块变换601导出的信号分段加窗并在重新采 样603中重新采样。最后,在重叠和相加604中,以通常的重叠和相加运 算将加窗和重新采样的分段与之前反变换过的分段相加,得到时域输出信
号的重建。
图M示出了本发明反时间伸縮变换器的可替换实施例,该反时间伸 缩变换器被实现用于进一步减小计算复杂性。该解码器部分地享有与图13 的解码器相同的功能。所以两实施例中相同功能方框的描述是完全可互换 的。该可替换实施例与图13的实施例不同在于,它在所述反块变换601 之前实现频谱预加权701。此固定频谱预加权等价于带有周期性和对称性 的时域滤波,所述周期性和对称性是由对块变换的选择所引起的。这种滤 波操作是基于特定样条的重新采样方法的一部分,可以减小后续改进重新
采样702的计算复杂性。这种重新采样现将在带有周期性和对称性的信号
域中实现,所述周期性和对称性是由对块变换的选择所引起的。所以,在
重新釆样702后执行改进加窗步骤703。最后,在重叠和相加604中,以 通常的重叠和相加方式将加窗和重新采样的分段与之前的反变换分段相 加,给出了重建的时域输出信号。
图15a和15b示出了时间伸缩编码这一本发明概念的长处,示出了应 用和不应用时间伸缩时相同信号频谱表示。图15a示出了源自改进离散余 弦变换的谱线的帧,所述改进离散余弦变换是对以16kHz采样的男性话 音信号分段进行的大小为1024的变换。所得到的频率分辨率是7.8 Hz且 只有前600条线画出以用于此图示说明,对应于4.7kHz带宽。可从基频 和图中看出,所述分段是具有大约155Hz平均基音的话音信号。可进一 步从图15a中看出,基音频率的少数前几个谐波清晰可辨,但到高频,分 析变得逐渐密集和杂乱。这是由要分析的信号分段长度内的基音变化引起 的。所以,中间到高频范围的编码需要大量的比特以便不在解码时引入可 听到的假象。相反地,当固定了比特率时,由于需要增大量化粗糙度将不 可避免地产生大量的失真。
图15b说明了源自根据本发明的时间伸缩改进离散余弦变换的谱线的 帧。很明显,使用与图15a中相同的原始的男性音频信号。变换参数与图 15a中的相同,但对适配于该信号的时间伸縮变换的使用对频谱表示具有 可见的戏剧性效果。时间伸缩变换域中信号的稀疏和有组织的性质产生以 好得多的速率失真性能进行的编码,即使在考虑对额外伸缩数据进行编码 的成本时。
如已提到的,伸縮参数的发送而不是基音或速度信息的发送具有戏剧 性地降低额外需要的比特率这一巨大优势。所以,在以下段落中详述发送 所需伸缩参数信息的若干本发明方案。
对于在时间^处带有伸縮^)的信号,局部余弦基(见(S)、 (12))的归 一化伸縮映射序列^的最佳选择通过解下式来获得<formula>formula see original document page 27</formula> (24)
然而,描述此伸縮映射序列所需的信息量太大,"(0的逐点值的定义 和测量是困难的。出于实际考虑,确定伸缩更新区间",并且每个伸缩映 射n由A^lM/参数来描述。大约10-20 ms的伸缩更新区间一般对于语音 信号而言是足够的。与根据^和^+,得到的^的(9)式中的构造相似,连续 可微的归一化伸縮映射可由W个归一化伸缩映射通过合适的仿射重新缩 放操作来拼凑在一起。归一化伸縮映射的原型示例包括
<formula>formula see original document page 27</formula>(25)
<formula>formula see original document page 27</formula>其中"是伸縮参数。通过^A'来定义映射的伸縮A(0,所有三个映射实现 了在^1/2处与a相等的伸縮。指数映射在整个区间W1中具有恒定伸 缩,并且对于小值",其他两个映射显示出与此恒定值非常小的偏离。对 于在解码器中针对所述重新采样(23)式应用给定的伸縮映射而言,在编码 器中对于所述重新采样(方程式18)需要其逆运算。用于求逆的作用的主 要部分来自归一化伸缩映射的求逆。二次映射的求逆需要平方根运算,指 数映射的求逆需要对数,有理Moebius映射是带有否定伸缩参数的 Moebius映射。由于指数函数和除法花费相当大,集中于最大简化解码器 中的计算会得到逐段二次伸縮映射序列^的优选。
归一化伸缩映射^由AA个伸缩参数A(O),"力)…"4OV-l)通过以下需求来
完全定义,所述需求是它 *是归一化伸縮映射;
由光滑的原型伸缩映射(25)式中的一个的重新缩放的拷贝拼凑在一起;
是连续可微的;
满足
"7^ = ,, / = 0,1,.J —1 (26)
呵fj
本发明教导了伸缩参数可被线性地量化, 一般以大约0.5 Hz的步长。
所得整数值而后被编码。或者,导数w可解释为归一化基音曲线,其中值
^^-1, /",2,…,iV, (27)
以一般为0.005的固定步长来量化。在这种情况下,所得整数值被顺序地 或以等级方式进一步差分编码。在两种情况下,所得辅助信息比特率一般 都是每秒几百比特,这只是在语音编解码器中描述基音数据所需的速率的 一小部分。
带有较大计算资源的编码器可确定伸縮数据序列,所述伸縮数据序列 最优地降低编码成本或最大化谱线的稀疏程度。较不昂贵的方式是使用众 所周知的方法用于基音跟踪,得到测定的基音函数p(0并在以下区间中以 逐段线性函数p々)来近似基音曲线,在所述这些区间中,基音跟踪存在并 且并不表现出基音值中较大的跳跃。所估计的伸縮序列在基音跟踪区间内 由下式给出
在这些区间外,伸縮设置为0。注意,诸如基音周期倍数的这种基音估计 中的系统误差对伸縮估计具有非常小的影响。
如图10中所示,在本发明的可替换实施例中,伸縮参数序列可由伸 缩估计器从解码变换域数据中推导出。原理是计算变换数据的每一帧的或 者来自后续解码信号块的基音的频域基音估计。而后根据与公式28相似 的公式推导出伸缩信息。
己主要通过在单个音频信道情形中应用本发明的时间伸缩来描述了 本发明概念的应用。本发明的概念自然决不局限于这种单频道情形内的使
用。此外,在多信道编码应用中使用可由本发明概念实现的高编码增益可 能是非常有优势的,在所述多信道编码应用中,可使用本发明概念对必须 被发送的单个或多个信号进行编码。
此外,伸縮一般可被定义为取决于X的任意函数的X轴变换。所以, 本发明概念也可应用于以下情形其中对信号的函数或表示进行不明显地 依赖于时间的伸缩。譬如,也可实现信号的频率表示的伸縮。
此外,本发明的概念也可有利地应用于以下信号所述信号以任意分 段长度被分段而不是以与之前段落中描述的相等长度被分段。
此外,对之前段落中呈现的基函数和离散化的使用应被理解为应用本 发明概念的一个有利示例。对于其他应用,也可使用不同基函数以及不同 离散化。取决于本发明方法的特定实施方式的需要,本发明方法可在硬件 或软件中实现。所述实施方式可使用数字存储媒介来实现,特别是其上存 储有电子可读控制信号的磁盘、DVD或CD,其与可编程计算机系统协作 以执行本发明方法。所以一般来说,本发明是带有存储在计算机可读载体 上的程序代码的计算机程序产品,当计算机程序产品在计算机上运行时, 所述程序代码操作用于执行本发明方法。所以换句话说,本发明方法是具 有程序代码的计算机程序,该程序代码用于在所述计算机程序运行于计算 机上时实现本发明方法中的至少一个。
虽然前面已参考本发明特定实施例而具体地说明和描述了本发明,但 本领域技术人员应该理解可做出形式上和细节上的各种其他变化而不背 离本发明的精神和范围。需要理解,可做出各种变化以适配于不同实施例 而不背离由所附权利要求在这里所公开并包含的更宽的概念。
权利要求
1.一种用于推导音频信号的表示的编码器,所述音频信号具有第一帧、跟在所述第一帧之后的第二帧和跟在所述第二帧之后的第三帧,所述编码器包括伸缩估计器,用于估计所述第一帧和所述第二帧的第一伸缩信息以及用于估计所述第二帧和所述第三帧的第二伸缩信息,所述伸缩信息描述所述音频信号的基音信息;频谱分析器,使用所述第一伸缩信息来推导所述第一帧和所述第二帧的第一频谱系数以及使用所述第二伸缩信息来推导所述第二帧和所述第三帧的第二频谱系数;以及输出接口,用于输出包括所述第一和第二频谱系数的所述音频信号的表示。
2. 根据权利要求1所述的编码器,其中所述伸縮估计器操作用于估 计所述伸缩信息,以便帧的伸縮表示内的基音比所述帧内的基音更加恒 定,所述伸缩表示是从对所述帧内的音频信号的时间轴进行由所述伸缩信 息所指示的帧变换中推导出的。
3. 根据权利要求1所述的编码器,其中所述伸缩估计器操作用于使 用与所述帧内的所述基音的变化有关的信息来估计所述伸缩信息。
4. 根据权利要求3所述的编码器,其中所述伸缩估计器操作用于估 计所述伸缩信息,以便只在所述基音变化小于预定最大基音变化时,使用 与所述基音的变化有关的信息。
5. 根据权利要求1所述的编码器,其中所述伸缩估计器操作用于估 计所述伸缩信息,以便帧的伸縮表示的频谱表示比所述帧的频谱表示更稀 疏地排列,所述伸縮表示是从对所述帧内的音频信号的时间轴进行由所述 伸縮信息所指示的帧变换中推导出的。
6. 根据权利要求1所述的编码器,其中所述伸缩估计器操作用于估 计所述伸缩信息,以便当使用相同的编码规则来推导以下两种表示时,由 帧的伸縮表示的频谱系数的编码表示所耗费的比特数少于所述帧的频谱 系数的编码表示。
7. 根据权利要求1所述的编码器,其适用于推导由离散釆样值序列 给定的音频信号的表示。
8. 根据权利要求1所述的编码器,其中所述伸縮估计器操作用于估计所述伸缩信息,以便帧的伸缩表示描述与对应帧相同长度的音频信号,所述伸縮表示是从对所述帧内的音频信号的时间轴进行由所述伸缩信息所指示的帧变换中推导出的。
9. 根据权利要求1所述的编码器,其中所述伸缩估计器操作用于估 计所述伸縮信息,以便使用组合规则来组合第一对应帧的第一中间伸縮信 息和第二对应帧的第二中间伸縮信息。
10. 根据权利要求9所述的编码器,其中所述组合规则使得所述第一 中间伸缩信息的重新缩放的伸縮参数序列与所述第二中间伸縮信息的重 新缩放的伸縮参数序列相连接。
11. 根据权利要求IO所述的编码器,其中所述组合规则使得所得伸 缩信息包括连续可微伸缩参数序列。
12. 根据权利要求1所述的编码器,其中所述伸縮估计器操作用于估 计所述伸縮信息,以便所述伸缩信息包括伸缩参数的递增序列。
13. 根据权利要求1所述的编码器,其中所述伸缩估计器操作用于估 计所述伸缩信息,以便所述伸縮信息描述将区间
映射到自身的连续可 微重新采样规则。
14. 根据权利要求1所述的编码器,其中所述频谱分析器适用于使用 基于所述伸縮信息的余弦基来推导所述频谱系数。
15. 根据权利要求1所述的编码器,其中所述频谱分析器适用于使用 两个帧的加权表示来推导所述频谱系数。
16. 根据权利要求15所述的编码器,其中所述频谱分析器操作用于 通过将窗口函数应用到两个帧来获得两个帧的加权表示,来推导所述频谱 系数,其中所述窗口函数取决于所述伸縮信息。
17. 根据权利要求1所述的编码器,其中所述频谱分析器操作用于使 用所述帧的重新采样表示来推导所述频谱系数。
18. 根据权利要求17所述的编码器,其中所述频谱分析器进一步适 用于推导重新采样表示,所述重新采样表示对帧的时间轴进行由所述伸缩信息所指示的变换。
19. 根据权利要求1所述的编码器,其中所推导出的伸縮信息描述归 一化到所述音频信号基音的音频信号的基音变化。
20. 根据权利要求1所述的编码器,其中所述伸缩估计器操作用于估 计所述伸縮信息,以便所述伸縮信息包括伸縮参数序列,其中每个伸縮参 数描述所述音频的有限长度区间。
21. 根据权利要求1所述的编码器,其中所述输出接口进一步包括所 述伸縮信息。
22. 根据权利要求1所述的编码器,其中所述输出接口进一步包括所述伸缩信息的量化表示。
23. —种解码器,使用第一伸縮信息、第二伸縮信息、第一频谱系数 和第二频谱系数来重建音频信号,所述音频信号具有第一帧、跟在所述第 一帧之后的第二帧和跟在所述第二帧之后的第三帧,所述第一伸縮信息描 述第一帧和所述第二帧的音频信号的基音信息,所述第二伸縮信息描述所 述第二帧和所述第三帧的音频信号的基音信息,所述第一频谱系数针对所 述第一帧和所述第二帧,所述第二频谱系数针对所述第二帧和所述第三帧,所述解码器包括谱值处理器,使用所述第一频谱系数和所述第一伸縮信息来推导第一组合帧,所述第一组合帧具有关于所述第一帧和所述第二帧的信息;以及使用所述第二频谱系数和所述第二伸縮信息来推导第二组合帧,所述第二组合帧具有关于所述第二帧和所述第三帧的信息;以及合成器,使用所述第一组合帧和所述第二组合帧来重建所述第二帧。
24. 根据权利要求23所述的解码器,其中所述谱值处理器操作用于使用余弦基函数来推导所述组合帧,所述余弦基函数取决于所述伸缩信 自
25. 根据权利要求24所述的解码器,其中所述谱值处理器操作用于 使用余弦基函数,其中针对所述频谱系数使用余弦基函数产生了组合帧的 时间伸縮非加权表示。
26. 根据权利要求23所述的解码器,其中所述谱值处理器操作用于 使用窗口函数以对所述组合帧的采样值应用加权,所述窗口函数取决于所 述伸缩信息。
27. 根据权利要求25所述的解码器,其中所述谱值处理器操作用于 使用窗口函数,所述窗口函数在应用到组合帧的所述时间伸縮非加权表示 时,产生组合帧的时间伸縮表示。
28. 根据权利要求23所述的解码器,其中所述谱值处理器操作用于 通过对组合帧的表示的时间轴进行由所述伸缩信息所指示的变换,使用伸 縮信息,来推导组合帧。
29. 根据权利要求23所述的解码器,其中所述合成器操作用于通过 将所述第一组合帧与所述第二组合帧相加来重建所述第二帧。
30. 根据权利要求23所述的解码器,适用于重建由离散采样值序列 表示的音频信号。
31. 根据权利要求23所述的解码器,进一步包括用于从所述第一和 所述第二频谱系数中推导所述第一和第二伸縮信息的伸缩估计器。
32. 根据权利要求23所述的解码器,其中所述谱值处理器操作用于 通过将预定加权因子应用到所述频谱系数,来执行对所述频谱系数的加 权。
33. —种用于推导音频信号表示的方法,所述音频信号具有第一帧、 跟在所述第一帧之后的第二帧和跟在所述第二帧之后的第三帧,所述方法 包括估计针对所述第一帧和所述第二帧的第一伸缩信息以及估计针对所 述第二帧和所述第三帧的第二伸縮信息,所述伸缩信息描述所述音频信号 的基音信息;使用所述第一伸缩信息来推导针对所述第一帧和所述第二帧的第一 频谱系数以及使用所述第二伸縮信息来推导针对所述第二帧和所述第三 帧的第二频谱系数;以及输出包括所述第一和所述第二频谱系数的音频信号表示。
34. —种使用第一伸缩信息、第二伸缩信息、第一频谱系数和第二频 谱系数来重建音频信号的方法,所述音频信号具有第一帧、跟在所述第一 帧之后的第二帧和跟在所述第二帧之后的第三帧,所述第一伸縮信息描述 所述第一帧和所述第二帧的音频信号的基音信息,所述第二伸缩信息描述所述第二帧和所述第三帧的音频信号的基音信息,所述第一频谱系数针对 所述第一帧和所述第二帧,所述第二频谱系数针对所述第二帧和所述第三 帧,所述方法包括使用所述第一频谱系数和所述第一伸缩信息来推导第一组合帧,所述 第一组合帧具有关于所述第一帧和所述第二帧的信息;以及使用所述第二频谱系数和所述第二伸缩信息来推导第二组合帧,所述 第二组合帧具有关于所述第二帧和所述第三帧的信息;以及使用所述第一组合帧和所述第二组合帧来重建所述第二帧。
35. —种具有程序代码的计算机程序,所述程序代码用于当运行在计 算机上时执行用于推导音频信号表示的方法,所述音频信号具有第一帧、 跟在所述第一帧之后的第二帧和跟在所述第二帧之后的第三帧,所述方法 包括估计所述第一帧和所述第二帧的第一伸縮信息以及估计所述第二帧 和所述第三帧的第二伸縮信息,所述伸縮信息描述所述音频信号的基音信 息;使用所述第一伸縮信息来推导所述第一帧和所述第二帧的第一频谱 系数以及使用所述第二伸縮信息来推导所述第二帧和所述第三帧的第二 频谱系数;以及输出包括所述第一和所述第二频谱系数的音频信号表示。
36. —种具有程序代码的计算机程序,所述程序代码用于当运行在计 算机上时执行使用第一伸縮信息、第二伸缩信息、第一频谱系数和第二频 谱系数来重建音频信号的方法,所述音频信号具有第一帧、跟在所述第一 帧之后的第二帧和跟在所述第二帧之后的第三帧,所述第一伸縮信息描述 所述第一帧和所述第二帧的音频信号的基音信息,所述第二伸縮信息描述 所述第二帧和所述第三帧的音频信号的基音信息,所述第一频谱系数针对 所述第一帧和所述第二帧,所述第二频谱系数针对所述第二帧和所述第三 帧,所述方法包括使用所述第一频谱系数和所述第一伸缩信息来推导第一组合帧,所述第一组合帧具有关于所述第一帧和所述第二帧的信息;以及使用所述第二频谱系数和所述第二伸縮信息来推导第二组合帧,所述 第二组合帧具有关于所述第二帧和所述第三帧的信息;以及使用所述第一组合帧和所述第二组合帧来重建所述第二帧。
37. —种音频信号的表示,所述音频信号具有第一帧、跟在所述第一帧之后的第二帧和跟在所述第二帧之后的第三帧,所述表示包括针对所 述第一帧和所述第二帧的第一频谱系数,所述第一频谱系数用于描述所述第一帧和所述第二帧的伸缩表示的频谱组成;以及第二频谱系数,用于描述所述第二帧和所述第三帧的伸縮表示的频谱组成。
全文摘要
当针对任何两个相邻帧估计出共同时间伸缩时,可以更有效地推导具有连续音频帧的音频信号的频谱表示,以便后面的块变换可附加地使用伸缩信息。因此,可推导并应用在重建过程中成功应用重叠和相加方式所需的窗口函数,所述窗口函数已预计到由时间伸缩所引起的对信号的重新采样。所以,可以提高对时间伸缩信号的基于块的变换编码的效率,且不会引入可听到的不连续。
文档编号G10L19/02GK101351840SQ200680049867
公开日2009年1月21日 申请日期2006年10月24日 优先权日2005年11月3日
发明者拉斯·维尔莫斯 申请人:科丁技术公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1