专利名称:正弦波音频编码的制作方法
技术领域:
本发明涉及编码和解码音频信号。
背景技术:
在WO00/79519-A1(律师案卷编号PHN017502)以及PCT专利申请第IB02/01297(律师案卷编号PHNL010252)中描述了一种参数编码方案,特别是一种正弦波编码器。在该正弦波编码器中,利用由幅度、频率和相位参数所表示的大量正弦波通过正弦波编码器以模型化音频分段或帧。一旦估计了分段的正弦波,就开始跟踪(tracking)算法。这种算法试图根据一个一个的分段将正弦波相互链接起来。因此,根据连续分段链接合适正弦波的正弦波参数以获得所谓的音轨(track)。链接原则基于两个连续分段的频率,而且还能够使用幅度和/或相位信息。在确定将要被链接的正弦波的成本函数中合并该信息。从而,这种跟踪算法产生了在特定时间场合开始的正弦波音轨,在多个时间分段上发展一定的时间量,然后停止。
在该方案中,对于正弦波音轨来说,发送初始相位,以及从该初始相位提取音轨的其他正弦波的相位以及其他正弦波的频率。还能够相对于先前的正弦波,以不同的方式来编码正弦波的幅度和频率。而且,能够删除非常短的音轨。这样,由于这种跟踪,从而能够显著降低正弦波编码器的比特率。
发明内容
根据本发明,提供了一种如权利要求1所述的编码音频信号的方法。
附图简述
图1所示为根据本发明的音频编码器的实施例;图2所示为根据本发明的音频播放器的实施例;以及图3所示为根据本发明的包括音频编码器和音频播放器的系统。
优选实施例描述在本发明的优选实施例中,图1所示的编码器为WO01/69593-A1(律师案卷编号PHNL000120)中所描述类型的正弦波编码器。该编码器的操作及其相应的解码器已经被具体地描述,因此这里只提供与本发明相关的描述。
在先前的例子和优选实施例中,音频编码器1以一定的采样频率采样输入音频信号,并产生音频信号的数字表示x(t)。然后,编码器1将采样的输入信号分割为三个分量瞬变信号分量、持续确定的分量和持续随机的分量。音频编码器1包括一个瞬变编码器11、正弦波编码器13和噪声编码器14。音频编码器还可选地包括一个增益压缩机制(GC)12。
瞬变编码器11包括一个瞬变检测器(TD)110、瞬变分析器(TA)111和瞬变合成器(TS)112。首先,信号x(t)输入到瞬变检测器110中。该检测器110估计是否存在一个瞬变信号分量及其位置。馈送该信息到瞬变分析器111。如果确定瞬变信号分量的位置,瞬变分析器111则试图提取瞬变信号分量(的主要部分)。该编码器优选在估计的起始位置开始匹配形状函数与信号分段,并例如,通过使用(小)量的正弦波分量确定形状函数潜在的内容。这种信息包含在瞬变代码CT中,并且在WO01/69593-A1中提供了有关产生瞬变代码CT的更多的细节信息。
瞬变代码CT提供给瞬变合成器112。在减法器16中从输入信号x(t)中减去合成的瞬变信号分量,从而产生信号x1。如果省略了GC12,则x1=x2。
信号x2提供给正弦波编码器13,其中在正弦波分析器(SA)130中分析该信号,并确定(确定性的)正弦波分量。所以,将会明白,尽管期望一个瞬变分析器存在,但是这却没有必要,而且不利用这种分析器就能够实现本发明。无论如何,正弦波编码的最终结果为正弦波代码CS,并且在WO00/79519-A1中提供了更详细的实例,该实例示例了传统的产生示例性的正弦波代码CS。
但是,简而言之,这种正弦波编码器将输入信号x2编码为正弦波分量的音轨,该正弦波分量从一个帧段到下一个帧段被链接。在现有技术中,该音轨初始通过用于在给定分段-产生位置开始的正弦波的起始频率、起始幅度和起始相位来表示。
在本发明的优选实施例中,选择性地针对音轨将起始相位编码为音轨长度的函数。更具体而言,起始相位仅仅用于很长持续时间的音轨。这是因为假设长持续时间的音轨可能编码音调信息,因此在这种情况下,通过发送音轨的起始相位以尽可能地保存音轨的音调特征十分重要。假设短持续时间的音轨将用于编码非音调信息,因此利用这种音轨发送一个起始相位可能实际上添加了一个音调特征到一个音轨中,因此当重放编码的比特流时,再现了失真的感觉。
将会明白,通过不发送用于短音轨的起始相位,在比特率中可能存在显著的保留,该起始相位作为短音轨的起始相位数据的开销,并成比例地高于较长的音轨。
存在大量的可替换原则用于确定是否一个音轨足够长以至需要一个起始相位,或相应地足够短而不需要一个起始相位。
最简单的原则是采取绝对音轨长度-已经实验发现小于40ms的音轨不需要起始相位,而较长的音轨有利地利用一个起始相位发送。在具有8ms更新间隔的编码器中,这意味着长度小于5分段的音轨不包括起始相位,而是包括一个指示符,其指示该音轨不能应用起始相位。(假设通过比较起始相位值,可更有效地编码这种指示符。)可替换地,如果编码器假设它产生的编码信号将由一个兼容的解码器进行解码,那么该编码器不需要包括一个不应用起始相位的指示,并且能够留给解码器来确定如何处理没有起始相位的音轨。
一种替换的原则基于确定是否在音轨所处的时间间隔内有声音还是无声音。其中确定将会有声音的时间间隔,假设该时间间隔本质上为非音调的,因此音轨不应该包括一个起始相位,对于非声音的时间间隔来说反过来也成立。在L.R.Rabiner,M.J.Cheng,A.E.Rosenberg,C.A.McGonegal所著的“A Comparative PerformanceStudy of Several Pitch Detection Algorithms(若干音调检测算法的对比性能研究)”,(IEEE Transaction on Acoustics,Speech andsignal Processing,卷ASSP-24,第399-417页,1976年10月)公开了一种实现这种确定的方法,并通过在跟踪算法中包括实现这种方法的一个分量,跟踪算法将包括用于存在于音调时间间隔内的音轨的起始相位信息,而对于存在于非音调时间间隔内的音轨而言,在编码的比特流中包含了非起始相位。这种原则假设在音调时间间隔中,音轨将趋于比在非音调时间间隔中更长,因此确定是否音轨应该包括一个起始相位与否之前,不需要知道音轨的最终长度。
一种用于确定时间间隔是表示音调还是非音调音频信号的替换方法是,着眼于以下所讨论的信号噪声分量的能量电平。如果发现噪声能量与正弦波分量能量之比超出给定的时间间隔的给定门限,然后以如上所述的相同方式,能够假设音频信号为非音调的并且起始相位信息不需要被包括在音轨中,当噪声能量与正弦波分量能量之比低于给定的门限时,反过来也是成立的。再次,假设当确定信号为音调信号时,对于非音调信号而言,音轨将会趋于更长。
在优选实施例和现有技术中,在连续的分段中通过频率差、幅度差,对于长音轨来说还通过相位差(连续性)来表示音轨,一直到音轨结束(灭亡)的分段。实际上,有可能确定在编码相位差甚至是长音轨时存在很小的增益。因此,对于连续性而言完全不需要编码相位信息,并使用连续的相位重构重新产生用于长音轨的相位信息。
如在现有技术中所述,根据利用本发明改进的正弦波编码器产生的正弦波代码CS,通过一个正弦波合成器(SS)131重构正弦波信号分量。在减法器17中从输入到正弦波编码器13的信号x2中减去该信号,以产生余下的缺少(大的)瞬变信号分量和(主要)确定正弦波分量的信号x3。
假设余下的信号x3主要包括噪声,优选实施例的噪声分析器14产生表示这种噪声的噪声代码CN,例如正如在WO01/89086-A1(律师案卷编号PHNL000287)所述的。再次,将会明白,使用这种分析器不是实现本发明的必要特征,但是它作为这种使用的补充。
最后,在多路复用器15中,构造一种包括代码CT、CS和CN的音频流AS。然后将音频流AS提供给例如数据总线、天线系统、存储介质等等。
图2所示为根据本发明的音频播放器3。例如,从数据总线、天线系统、存储介质等等获得例如通过根据图1的编码器产生的音频流AS`。在解多路复用器30中解多路复用音频流AS以获得代码CT、CS和CN。这些代码被分别提供给瞬变合成器31、正弦波合成器32和噪声合成器33。根据瞬变代码CT,在瞬变合成器31中计算瞬变信号分量。在瞬变代码指示形状函数的情况下,根据所接收的参数计算该形状。而且,根据正弦波分量的频率和幅度计算形状内容。如果瞬变代码CT指示一个步骤,则不计算瞬变。总计的瞬变信号yT为所有瞬变之和。
正弦波代码CS用于产生信号yS,该信号被描述为给定分段上的正弦波之和。在解码器中,以两种方式中的其中一种来确定正弦波音轨的正弦波相位。如现有技术所述,这里音轨包括一个起始相位,并根据原始正弦波的相位和中间正弦波的频率计算该相位。在优选实施例中,在提供包括指示没有起始相位的音轨时,解码器产生一个用于该音轨中所有正弦波的随机起始相位,然后如前所述合成该音轨。(解码器可替换地只计算用于原始正弦波的随机起始相位以及如现有技术中一样计算剩余的相位。)在不提供这种指示或起始相位的地方,解码器则假设需要产生一个用于音轨的正弦波的随机起始相位。
将会明白,本发明的一个方面是保留非音调音频片段中的非音调。因此,当本发明应用于编码器时可能期望保留用于非音调音频片段的非常短的音轨,以及当应用于解码器时,期望重放这些具有随机起始相位的短音轨,而不象现有技术中那样,其中非常短的音轨不包括在比特流的任何地方。
同时,将噪声代码CN馈送给噪声分析器NS33,该噪声合成器主要为一个滤波器,其频率响应近似于噪声的频谱。NS33利用噪声代码CN通过滤波白噪声信号以产生重构噪声yN。
总信号y(t)包括瞬变信号yT以及任何幅度解压缩(g)乘积之和,以及正弦波信号yS和噪声yN之和。音频播放器包括两个加法器36和37以对各自的信号求和。然后将总信号提供给输出单元35,输出单元例如为一个扬声器。
图3所示为根据本发明的音频系统,该系统包括如图1所示的音频编码器1和如图2所示的音频播放器3。这种系统提供播放和记录特征。音频流AS通过通信信道2从音频编码器提供给音频播放器,该信道可能为无线连接、数据20总线或存储介质。在通信信道2为存储介质的情况下,存储介质可能固定于系统中或它还可能为可移动盘、记忆棒等等。通信信道2可以为音频系统的一部分,但是它通常位于音频系统之外。
本发明能够用于任何的正弦波音频编码器中。这样,本发明可应用于应用这种编码器的任何地方。
应该注意到上述的实施例示例而并非限制了本发明,本领域的普通技术人员将能够设计出许多替换的实施例而不背离附属权利要求书的范围。在权利要求书中,在圆括号之间的任何参考标记都不应该作为对权利要求书的限制。单词“包括”并不排除存在除了权利要求中所列元件或步骤之外的其他元件或步骤。本发明能够通过包括若干独立元件的硬件,和适当编程的计算机的方式而实现。在一个设备权利要求中列举了若干的装置,若干的这些装置能够通过同一个硬件予以实施。唯一的事实是,在相互不同的从属权利要求中列举的特定措施并不表示不能够有利地使用这些措施的组合。
权利要求
1.一种编码音频信号(x)的方法,该方法包括以下步骤为多个顺序分段中的每一个提供相应的一组采样的信号值;分析该采样的信号值以便为多个顺序分段中的每一个产生一个或多个正弦波分量;跨越多个顺序分段链接该正弦波分量;产生正弦波代码,该正弦波代码包括用于多个顺序分段中的每一个的链接正弦波分量的音轨,其中每个音轨包括用于音轨起始分段中正弦波分量的频率和幅度,以及其中所选择的音轨不包括用于所述起始分段的相位;以及产生包括所述正弦波代码的编码音频流。
2.根据权利要求1所述的方法,其中,所述选择的音轨包括一个指示对于所述起始分段没有相位被包括的指示符。
3.根据权利要求1所述的方法,其中,所述选择的音轨的长度小于5个分段。
4.根据权利要求1所述的方法,其中,所述选择的音轨的长度小于40ms。
5.根据权利要求1所述的方法,其中,所述选择的音轨表示音频信号的非音调分量。
6.根据权利要求1所述的方法,其中,所述选择的音轨表示所述音频信号中的有声音时间间隔的分量。
7.根据权利要求1所述的方法,其中,所述选择的音轨表示所述音频信号中的噪声间隔的分量。
8.根据权利要求1所述的方法,其中,对于每个音轨的随后连续分段中的每个正弦波分量来说,所述音轨包括一个频率和幅度差。
9.一种解码音频流的方法,该方法包括以下步骤读取包括正弦波代码的编码音频流,所述正弦波代码包括多个顺序分段中每一个分段的被链接的正弦波分量的音轨,其中每个音轨包括音轨的起始分段中正弦波分量的频率和幅度,并且其中所选择的音轨不包括所述起始分段的相位;为所述选择的音轨产生随机的起始相位;以及应用所述正弦波代码来合成所述音频信号,该音频信号包括跨越多个顺序分段的重构的正弦波分量。
10.根据权利要求9所述的方法,其中,所述产生步骤包括为所述选择的音轨的每个正弦波分量产生一个随机相位。
11.一种被安排用来处理音频信号(x)的多个顺序分段中每一个分段的相应的一组采样信号值的音频编码器,所述编码器包括分析器,其被安排用于分析采样的信号值,以便为多个顺序分段中的每一个产生一个或多个正弦波分量;链接器,其被安排用于跨越多个顺序分段链接正弦波分量;被安排用于产生正弦波代码的部件,该正弦波代码包括多个顺序分段中每一个分段的被链接的正弦波分量的音轨,其中每个音轨包括音轨起始分段中正弦波分量的频率和幅度,并且其中所选择的音轨不包括所述起始分段的相位;以及比特流发生器,用于产生包括所述正弦波代码的编码音频流。
12.一种音频播放器,包括用于读取包括正弦波代码的编码音频流的装置,所述正弦波代码包括多个顺序分段中每一个分段的被链接的正弦波分量的音轨,其中每个音轨包括音轨起始分段中正弦波分量的频率和幅度,并且其中所选择的音轨不包括所述起始分段的相位;相位发生器,被安排来为所述选择的音轨产生随机的起始相位;以及合成器,其应用所述正弦波代码来合成所述音频信号,该音频信号包括跨越多个顺序分段重构的正弦波分量。
13.一种音频系统,包括如权利要求11所述的音频编码器和如权利要求12所述的音频播放器。
14.一种包括正弦波代码的音频流,该正弦波代码表示音频信号的至少一个分量,所述代码包括跨越所述多个顺序分段链接的正弦波分量的音轨,其中每个音轨包括音轨起始分段中正弦波分量的频率和幅度,并且其中所选择的音轨不包括所述起始分段的相位。
15.在其上面已存储有如权利要求14所述的音频流的存储介质。
全文摘要
编码(1)音频信号(x)包括为多个顺序分段中的每一个提供相应的一组采样的信号值。分析(130)该采样的信号值以为多个顺序分段中的每一个产生一个或多个正弦波分量。跨越多个顺序分段链接该正弦波分量。正弦波代码(CS)包括多个顺序分段中的每一个的链接正弦波分量的音轨。每个音轨包括音轨起始分段中正弦波分量的频率和幅度,而所选择的音轨包括一个指示所述起始分段没有包括相位的指示符。
文档编号G10L19/093GK1666256SQ03816170
公开日2005年9月7日 申请日期2003年6月18日 优先权日2002年7月8日
发明者R·J·斯鲁特, A·J·格里特斯, G·H·霍托, A·C·登布林克 申请人:皇家飞利浦电子股份有限公司