专利名称:使用相位更新进行正弦音频编码的制作方法
技术领域:
本发明涉及音频信号编码和解码。
背景技术:
PCT专利申请No.WO00/79519-A1(律师案卷号PHN 017502)和2001年4月18日提交的PCT专利申请No.IB/02/01297(律师案卷号PHNL010252)中描述了一种参数编码方案、尤其是一种正弦编码器。在该编码器中,音频片断或帧是由正弦编码器使用用振幅、频率和相位参数表示的许多正弦波来模拟。一旦表示片断的正弦波被估计,那么就开始跟踪算法。该算法试图在逐片断的基础上将正弦波互相链接起来。从来自连续片断的合适正弦波得到的正弦参数因此被链接起来从而获得所谓的音轨。链接标准是基于两个连续片断的频率,也可以使用振幅和/或相位信息。该信息被结合到确定要链接的正弦波的成本函数中。因此该跟踪算法导致开始于特定时间点、在多个时间段上发展一定时间、然后停止的正弦音轨。
在这样的现有技术的编码器的实际实施中,对于正弦音轨,只有初始相位通过编码器传送并且在解码器中,根据始发正弦波的相位和中间正弦波的频率计算正弦音轨中的正弦波的连续相位。因此,例如,音轨中正弦波k的连续相位 可以由下式计算φ~k=mod2π(φ~k-1+L2(fk+fk-1))]]>等式1其中L是频率的更新间隔(以秒为单位),典型地是以10毫秒的数量级,fk和fk-1分别是帧k和k-1的量化频率(以rad/s为单位)。函数mod表示映射到-π和π之间的区间上的模运算。另外,初始相位(k=1)是φ~1=φ1]]>,其中φ1是音轨中的始发正弦波的测量的和量化的相位。也可以是像在2001年10月26日提交的欧洲专利申请NO.01204062.2(律师案卷号PHNL010787)所显示的其他相位连续函数,其中卷积因子可以由编码器确定并且在链接音轨时使用以及在解码器中在连续相位的计算中使用。
但是,尤其对于长的音轨,很可能连续相位 会偏离所测量的相位φk直到它们彼此不再相像的程度。该偏离可能是由频率估计、频率量化和初始相位或者相位的线性连续的不精确而引入的。对于独立的正弦音轨,该偏离或许听不见。然而,在自然音频中,正弦音轨之间的相位关系可能是非常重要的。同样,音轨之间相位同步的丢失会引入如双扬声器效应、金属声音等等人工噪声。
音轨之间相位同步的丢失在图4中进行了定量的显示。在读图中,上面的记录线表示了德国男性说话者产生的波形的一部分。中间的记录线表示了使用现有技术的编/解码器产生的相应正弦信号的波形,而最底下的一条记录线表示原始信号和正弦信号之间的差值。正如从误差信号可以看到,正弦信号与原始信号不匹配。
本发明目的在于缓解该问题。
发明内容
根据本发明提供一种根据权利要求1的方法。
在现有技术中,尤其在只使用连续相位信息解码的长音轨情况下,连续相位和最初测量的相位之间的偏离将很大。根据本发明的相位更新方法大大消除了由使用连续相位进行编码和解码的音轨所引入的人工噪声。
图1显示了根据本发明的音频编码器的一个实施例;图2显示了根据本发明的音频播放器的一个实施例;图3显示了根据本发明的包括音频编码器和音频播放器的系统;图4显示了与利用现有技术的编/解码器产生的具有连续相位的正弦信号(中间的记录线)相比的原始波形(最上面的记录线)和误差信号(最底下的记录线);图5显示了与利用本发明优选实施例的编/解码器产生的具有相位更新的正弦信号(中间的记录线)相比的原始波形(最上面的记录线)和误差信号(最底下的记录线);和图6显示了德国男性说话者语音片断的相位差(Δ)的分布。
优选实施例详述在本发明的一个优选实施例、即图1中,编码器是WO01/69593-A1(律师案卷号PH-NL000120)中描述的那种类型的正弦编码器。该编码器的运行和它的相应的解码器已经有详细的描述,这里仅仅提供与本发明有关的描述。
在之前的情况下和在该优选实施例中,音频编码器1以某一采样率对输入音频信号进行采样,结果产生音频信号的数字表示法x(t)。然后编码器1将采样后的输入信号分为3个分量瞬时信号分量、持续的确定性分量,和持续的随机分量。音频编码器1包括瞬时编码器11、正弦编码器13和噪声编码器14。音频编码器任选地包括一个增益压缩机制(GC)12。
瞬时编码器11包括瞬时检测器(TD)110,瞬时分析器(TA)111和瞬时合成器(TS)112。首先,信号x(t)进入瞬时检测器110。该检测器110估计是否有瞬时信号分量及其位置。该信息被馈送到瞬时分析器111。如果确定了瞬时信号分量的位置,那么瞬时分析器111试图提取瞬时信号分量(的主要部分)。瞬时分析器111使形状函数与优选地开始于所估计的起始位置的信号片断相匹配,并通过使用诸如(少量)许多正弦分量来确定在形状函数形式下的内容。该信息被包含在瞬时编码CT中,关于产生瞬时编码CT的更详细内容在WO01/69593-A1中提供。
瞬时编码CT被提供到瞬时合成器112。合成的瞬时信号分量在减法器16中从输入信号x(t)中减去,结果产生信号x1。在省略GC12的情况下,x1=x2。
信号x2被提供到正弦编码器13,在正弦编码器13处信号在正弦分析器(SA)130中被分析,该正弦分析器确定(确定性的)正弦分量。因此可以看到虽然希望存在瞬时分析器,但这并不是必须的,而且本发明能够在没有这样的分析器的情况下实现。在任何情况下,正弦编码的最终结果是正弦代码CS,说明示例性正弦代码CS的传统产生方法的更加详细的例子在PCT专利申请NO.WO00/79519-A1(律师案卷号PHN 017502)中提供。
然而,简而言之,这样的正弦编码器对作为从一个帧片断链接到下一个帧片断的正弦分量的音轨的输入信号x2进行编码。从利用正弦编码器产生的正弦代码CS,该正弦信号分量通过正弦合成器(SS)131被重建。该信号在减法器17中从到正弦编码器13的输入x2中被减去,结果产生没有(大的)瞬时信号分量和(主要的)确定性正弦分量的剩余信号x3。
音轨最初由在给定的片断中开始的正弦波的起始频率、起始振幅和起始相位表示(产生(birth))。如在2002年7月8日提交的欧洲专利申请NO.02077727.2(律师案卷号PHNL020598)中所公开的,起始相位对于非常短的音轨来说可能下降。在这种情况下,当合成短音轨的开始片断时,解码器使用随机起始相位。
在任何情况下,在产生之后,音轨在连续片断中由频率差和振幅差(连续)表示,直到音轨结束(消灭)的片断。在现有技术的编码器的实际实施中,对于长的或短的音轨,相位信息根本不被编码成连续的,并且使用连续相位重建重新产生相位信息。因为相位信息的传输大大地增加比特率,所以这能够实现。
根据本发明,为了限制当分析信号时由正弦分析器130测量的相位(φk)和当合成信号时由编码合成器131和相应的解码合成器32产生的连续相位 之间的偏离,对于音轨中的每第n个帧,正弦分析器130产生相位更新。在该优选实施例中,n是4。(如果音轨短于n帧,就不应用相位更新并且只可以发送第一相位。)因此,在合成器131、32中,相位只能够在这n个帧中偏离,之后相位又被恢复。
在第一实施例中,在音轨的生存期中,分析器130周期地量化所测量的相位(φk)并在传送给解码器的正弦代码(CS)中包括该值。典型地,相位能够用5比特被精确地和均匀地量化。公认的,相位更新需要附加的信息来传送给解码器。对于典型的一组测试信号(音频和语音),根据语音片断,对于24kbit/s正弦编码器来说,具有n=4的相位更新的比特率将增加1-3kbit/s。
将可以看到,有几种方法能够发送信息更新到解码器。在第一实施例中,以和用来确定音轨中第一正弦波的相位相同的方式量化所测量的相位。对于发生相位更新的正弦波,即每n个帧,该量化后的相位(φk)被传送。
发送相位更新到编码器的第二种方法是为每个更新点量化相位差。这样,用Δk表示的所测量的相位和连续相位之间的差值由下式计算Δk=mod2π(φk-φ~k)]]>等式(2)其中 由等式1定义,k是音轨中的帧号,φk表示量化后的相位。例如,当k-1是n的倍数时,计算差值Δk。对于n=4,这就表示相位更新发生在相位差Δk被发送到解码器的帧1,5,9等等。
在图6中,显示了德国男性说话者的第二实施例的Δ的分布。由于峰值分布在Δ值的小范围附近,所以可以使用非均匀量化(熵编码),这样每次更新小于5bit能够被用来提供与第一实施例相同的精确性。另外,可以使用与那些在自适应差分脉冲编码调制(PCM)中使用的方法相似的量化方法。在ADPCM中,代替在每一个采样点上对绝对测量值进行编码,而对样值之间的差值进行编码并且能动态地切换编码范围来补偿振幅和频率的变化。这样,在该情况下,自适应预测器(基于相位连续)能够用来改变相位或相位差量化范围。此外,也能够使由n表示的相位的更新率依赖于频率。对于高频,与较低频率(较高的n)相比,能够使用更高的所更新的相位(较小的n)。
在任何情况下,假设在包括考虑到相位更新的正弦分析后剩余的信号x3主要包括噪声,并且优选实施例的噪声分析器14产生代表该噪声的噪声编码CN,诸如在PCT专利申请WO01/89086-A1(律师案卷号PHNL000287)中所描述的。另外,可以看到这种分析器的使用对于实现本发明来说不是必要的,但仍然是该使用的补充。
最后,在复用器15中,组成包括编码CT、CS和CN的音频流AS。音频流AS被提供到诸如数据总线、天线系统、存储介质等等。
图2显示了根据本发明的音频播放器3。音频流AS′,诸如由图1的编码器产生的,从数据总线、天线系统、存储媒介等等获得。音频流AS在解复用器30中被解复用以获得编码CT、CS和CN。这些编码被分别提供到瞬时合成器31、正弦合成器32和噪声合成器33。根据瞬时编码CT,瞬时信号分量在瞬时合成器31中被计算。如果瞬时编码显示形状函数,那么基于接收到的参数计算形状。另外,基于正弦分量的频率和振幅计算形状内容。如果瞬时编码CT显示了一个步骤,那么不计算瞬时值。总瞬时信号yT是所有瞬时值的总和。
正弦代码CS用来产生信号yS,该信号被描述为给定片断上的正弦波的总和。在现有技术的解码器中,为了解码频率,正弦音轨中的正弦波的连续相位仅仅从始发正弦波的相位和中间正弦波的频率中被计算。
在优选实施例的解码器中,或者使用发送的量化后的相位φk来计算相位差Δk,或者从比特流中直接获得相位差Δk。
优选实施例的合成器131,32也考虑了“相位跳变”的可能性。如果音轨中的两个连续的相位之间的差值很大,那么就发生相位跳变。这可能会导致例如滴答声的人工噪声。因此,在优选实施例中,合成器131,32在n帧上分配所测量的相位和连续相位之间的差值,因此在这种情况下,只进行每个正弦波的小相位校正,这样可以避免大的相位跳变。
因此,然后Δk在当前帧和n-1个以前的帧上展开。这可以用例如线性的方式完成Δk′=ΔKn]]>等式3其中,K-n<k≤K。其中,K是发生相位更新的音轨中帧的数量。其他方法也是可能的。例如Δk′=(K-k+n)·ΔK(n+1)·n/2]]>等式4其中,K-n<k≤K。在这种情况下,更多相位校正被应用在更靠近于相位更新点的正弦波上。
因此,当根据本发明的优选实施例合成信号的正弦分量时,通过考虑来自更新相位所需的等式4或5的插值后的相位差Δ′来计算连续相位φ~k-1=φ~k-1+L2(fk+fk-1)+Δk′]]>等式5通过在规则基础上更新相位和对音轨中的正弦波进行相位差插值,原始信号和带有相位更新(这里n=4)的正弦信号之间的匹配被改善了。这在图5中有所显示,在图5中可以看到相对于图4,原始信号(最上面的记录线)和正弦信号(中间的记录线)之间的误差信号(最底下的记录线)被大大地减小。
同时,当信号的正弦分量正被合成时,噪声编码CN被馈送到噪声合成器NS33,该噪声合成器NS33主要是滤波器,其具有近似于噪声频谱的频率响应。NS33通过使用噪声编码CN滤波白噪声信号来产生重建后的噪声yN。
总信号y(t)包括瞬时信号yT的总和和任何幅度解压的产物(product)(g),以及正弦信号yS和噪声信号yN的总和。音频播放器包括2个加法器36和37,用来将相应的信号相加。总信号被提供到输出单元35,该输出单元例如是扬声器。
在上述优选实施例中,相位更新被描述为应用到在更新之前所接收的n个帧上。然而,可以看到,本发明可以同样地应用到在n个帧的开始处包括相位更新信息,其中更新应用于这n个帧。以这种方式,由于接收到该帧的信息,所以可以使用与等式5相似的等式确定相位。
进一步的变化也可能包括,例如,发送关于绝对相位值或相位差是否将被作为相位更新信息来发送的指示符。以相似的方法,自适应更新(变化的n)的使用可以在比特流中用信号通知。另外,可能希望在比特流中指示对于某些频率范围来说将不提供相位更新信息,因为可能会发现使用相位更新信息只有益于特定频率范围的声音质量。
图3显示了根据本发明的音频系统,该系统包括如图1所示的音频编码器1和如图2所示的音频播放器3。这样的系统提供播放和记录特征。音频流AS被从音频编码器通过通信信道2提供到音频播放器,该通信信道2可以是无线连接、数据20总线或者存储介质。如果通信信道2是存储介质,那么存储介质可以被固定在系统中或者也可以是可移动的磁盘、记忆棒等等。通信信道2可以是音频系统的一部分,但通常在音频系统之外。
本发明可以用在任何使用连续相位的正弦音频编码器中。同样地,本发明可以用在任何使用该编码器的地方。
应当指出,上述实施例是为了解释本发明而不是为了限制本发明,本领域的普通技术人员将能够设计出许多不偏离附带的权利要求的范围的替换实施例。在权利要求中,任何放置在圆括号中的参考符号不应被理解为限制权利要求。单词“包括”不排除权利要求中所列的那些之外的其他元件或步骤。本发明可以通过包括几个不同元件的硬件以及通过适当编程的计算机来实现。在列举了几个装置的装置权利要求中,这些装置中的几个可以通过同一个硬件被实现。起码的事实就是在相互不同的独立权利要求中所引用的装置没有显示这些装置的组合不能用来产生良好的效果。
权利要求
1.一种对音频信号进行编码的方法,该方法包括以下步骤为多个连续的片断中的每一个提供相应的一组采样信号值;分析该采样信号值从而为多个连续的片断中的每一个产生一个或更多正弦分量;产生包括所链接的正弦分量的音轨的正弦代码;确定相位更新信息,该相位更新信息指示音轨中所选择的正弦分量的相位值;和产生编码音频流,该音频流包括所述正弦代码和所述相位更新信息。
2.如权利要求1所述的方法,其中,所述相位更新信息包括所选正弦分量的相位值。
3.如权利要求1所述的方法,其中,所述相位更新信息包括所选正弦分量的相位值和通过音轨中所链接的正弦分量从前面的相位信息中外推的所述所选正弦分量的连续相位值之间的差值。
4.如权利要求1所述的方法,其中,所述相位更新信息提供给音轨中的每个第n片断。
5.如权利要求4所述的方法,其中,n=4。
6.如权利要求4所述的方法,其中,n按照所述链接的正弦分量的频率变化。
7.如权利要求1所述的方法,其中,所述相位更新信息是根据均匀或非均匀比例被量化的。
8.如权利要求1所述的方法,其中,每个音轨包括音轨起始片断中的正弦分量的频率、振幅和相位,和所述音轨的接下来的连续片断中的每个正弦分量的频率和振幅差值。
9.如权利要求1所述的方法,进一步包括,使用所述正弦代码和所述相位更新信息合成所述正弦分量;从所述采样信号值减去所述合成信号值以便提供一组代表所述音频信号的剩余分量的值;通过确定参数和估计剩余分量来模拟音频信号的剩余分量;和在所述音频流中包括所述参数。
10.如权利要求1所述的方法,其中,所述采样信号值代表瞬时分量已经被去除的音频信号。
11.一种对音频流进行解码的方法,该方法包括以下步骤读取包括正弦代码的编码音频流,该正弦代码包括所链接的正弦分量的音轨和指示音轨中所选正弦分量的相位值的相位更新信息;和使用所述正弦代码来合成所述音频信号,包括在多个连续片断上重建正弦分量作为连续相位信息的函数,该连续相位信息通过音轨中的所链接的正弦分量和所述相位更新信息从前面的相位信息中外推得知。
12.如权利要求11的方法,其中,片断k中的所述正弦分量的相位按照下式重建φ~k=φ~k+1+L2(fk+fk+1)+Δk′]]>其中L是频率的更新间隔,Δ′k是从所选正弦分量之间的所述相位更新信息插值得到的。
13.如权利要求12的方法,其中,Δk′=Δkn]]>或Δk′=(K-k+n)·Δk(n+1)·n/2,]]>其中n是所选片断之间的片断的数量,其中K-n<k≤K,K是被提供相位更新信息的音轨中的所选片断的数量,以及其中Δk包括所选正弦分量的所测量的相位值和通过音轨中所链接的正弦分量从前面的相位信息外推得到的所选正弦分量的连续相位值之间的差值。
14.一种用来为音频信号(x)的多个连续片断中的每一个处理相应的一组采样信号值的音频编码器,所述编码器包括用来分析采样信号值从而为多个连续片断中的每一个产生一个或多个正弦分量的分析器;用来产生包括所链接的正弦分量的音轨的正弦代码的元件;用来确定指示音轨中所选正弦分量的相位值的相位更新信息的装置;用来产生包括所述正弦代码和所述相位更新信息的编码音频流的比特流产生器。
15.一种音频播放器,包括用来读取包括正弦代码的编码音频流的装置,该正弦代码含有所链接的正弦分量的音轨和指示音轨中所选正弦分量的相位值的相位更新信息;和用来使用所述正弦代码来合成所述音频信号的合成器,合成该音频信号包括在多个连续的片断上重建正弦分量,该正弦分量作为从前面的相位信息通过音轨的所链接的正弦分量和所述相位更新信息外推得到的连续相位信息的函数。
16.一种音频系统,包括如权利要求14所述的音频编码器和如权利要求15所述的音频播放器。
17.一种音频流,该音频流包括代表音频信号的至少一个分量的正弦代码,所述编码包括所链接的正弦分量的音轨和指示音轨中所选正弦分量的相位值的相位更新信息。
18.一种存储介质,其上已存储了如权利要求17所述的音频流。
全文摘要
本发明公开了一种由多个连续片断中的每一个的相应的一组采样信号值表示的音频信号(x)的编码。分析(130)该采样信号值,从而为多个连续片断中的每一个产生一个或多个正弦分量(f
文档编号G10L19/02GK1689071SQ03824254
公开日2005年10月26日 申请日期2003年9月19日 优先权日2002年10月17日
发明者A·J·格里特斯, A·C·登布林克, G·H·霍索 申请人:皇家飞利浦电子股份有限公司