专利名称:声音编码装置和解码装置、光记录介质及声音传输方法
技术领域:
本发明涉及用于以可变长来压缩多声道的声音信号的声音编码装置、光记录介质和声音解码装置及声音传输方法。
作为以可变长来压缩声音信号的方法,本发明人在以前的申请(日本专利申请特愿平9-289159号)中提出了一种预测编码方法,对于一个声道的原数字声音信号,通过特性不同的多个预测器从时间区域中的过去的信号算出现在的信号的多个线性预测值,从原数字声音信号和该多个线性预测值算出每个预测器的预测残留误差,选择预测残留误差的最小值。
在上述方法中,原数字声音信号能够得到处于取样频率=96kHz、量化位数=20比特的情况下的压缩效果,但是,在近年来的DVD唱盘中具有这样的倾向使用其2倍的取样频率(=192kHz),而且,使用量化位数为24比特。而且,多声道中的取样频率和量化位数在每个声道中是不同的。
因此,由于预测编码方式这样的压缩方式中的压缩率是可变的(VBR可变比特率),当对多声道的声音信号进行预测编码时,每个声道的数据量随时间出现较大的变化。在传输这样的数据的情况下,每个声道中不是并行的而是作为数据流进行传输。因此,在重放部分(解码部分),在每个声道中必须能够同步重放这样的可变长数据量。
因此,本发明的目的是提供声音编码装置、光记录介质和声音解码装置及声音传输方法在以可变长的压缩率对多声道的声音信号进行编码时,能够改善重放部分的解码效率。
为了实现上述目的,本发明的方案是格式化为具有包含压缩数据的子数据包和包含其取样频率和量化位数的同步信息部分的数据结构。
即,根据本发明,提供一种声音编码装置,包括压缩装置,在每个声道中以可变长压缩某个取样频率和量化位数的多声道的声音信号;格式化装置,格式化成具有包含由上述压缩装置所压缩的每个声道的数据的子数据包和同步信息部分的数据结构,所述同步信息部分含有所述声音信号的取样频率和量化位数。
根据本发明,提供一种光记录介质,具有某个取样频率和量化位数的多声道的声音信号在每个声道中以可变长方式被压缩,格式化为具有包含上述所压缩的每个声道的数据的子数据包和包含其取样频率和量化位数的同步信息部分的数据结构,并进行记录。
根据本发明,提供一种声音解码装置,在对具有某个取样频率和量化位数的多声道的声音信号在每个声道中以可变长被压缩后,对这样的数据结构进行解码,该数据结构为具有包含上述所压缩的每个声道数据的子数据包和包含其取样频率和量化位数的同步信息部分,其特征在于,该声音解码装置包括把上述数据结构分离成子数据包和同步信息部分的装置;在每个声道内扩展上述子数据包内的压缩数据的扩展装置;根据上述同步信息部分内的取样频率和量化位数而把上述所扩展的音频数据变换为模拟音频信号的装置。
为了实现上述目的,本发明的方案是格式化成具有子数据包和同步信息部分的数据结构,其中子数据包包含压缩数据,同步信息部分包含了识别符,该识别符表示子数据包内数据是压缩数据。
即,根据本发明,提供一种声音编码装置,包括压缩装置,在每个声道中以可变长压缩多声道的声音信号;格式化装置,格式化成具有子数据包和同步信息部分的数据结构,其中子数据包包含由上述压缩装置所压缩的每个声道数据,同步信息部分包含表示上述子数据包内数据是压缩数据的识别符。
根据本发明,提供一种光记录介质,多声道的声音信号在每个声道中以可变长被压缩,格式化为具有包含上述所压缩的每个声道的数据的子数据包和包含表示上述子数据包内的数据是压缩数据的识别符的同步信息部分的数据结构,并进行记录。
根据本发明,提供一种声音解码装置,在多声道的声音信号在每个声道中以可变长被压缩后,对所形成的数据结构进行解码,该数据结构为具有子数据包和同步信息部分,所述子数据包包含上述所压缩的每个声道的数据,所述同步信息部分包含表示上述子数据包内数据是压缩数据的识别符,其特征在于,该声音解码装置包括把上述数据结构分离成子数据包和同步信息部分的装置;根据上述同步信息部分内的识别符,在每个声道内扩展上述子数据包内的压缩数据的扩展装置。
本发明还提供一种声音传输方法,其特征在于,从根据本发明的声音编码装置通过通信线路传输格式化的数据结构的数据包。
本发明的这些和其他的目的、优点及特征将通过结合附图对本发明的实施例的描述而得到进一步说明。在这些附图中
图1是表示本发明所涉及的声音编码装置和声音解码装置的第一实施例的方框图;图2是详细表示图1的编码部分的方框图3是表示由图1、图2的编码部分所编码的比特流的示意图;图4是表示DVD的包的格式的示意图;图5是表示DVD的音频包的格式的示意图;图6是详细说明图5的音频数据区域的格式的示意图;图7是详细表示图1的解码部分的方框图;图8是表示图7的输入缓冲器的写入/读出定时的时序图;图9是表示每个存取单元的压缩数据量的示意图;图10是表示存取单元和表示单元的示意图;图11是表示声音传输方法的流程图;图12是表示声音传输方法的流程图;图13是表示第三实施例的声音编码装置和声音解码装置的方框图;图14是表示第四实施例的声音编码装置的方框图;图15是表示第四实施例的声音解码装置的方框图。
下面参照附图来说明本发明的实施例。
其中,作为多声道方式,知道下面这样的4种方式(1)4声道方式如杜比环绕方式那样,前方L、C、R的3声道+后方的S的1声道的合计4声道(2)5声道方式如杜比AC-3方式的没有SW声道那样,前方L、C、R的3声道+后方的SL、SR的2声道的合计5声道(3)6声道方式如DTS(Digital Theater System,数字剧场系统)方式和杜比AC-3方式那样,6声道(L、C、R、SW(Lfe)、SL、SR)(4)8声道方式如SDDS(Sony Dynamic Digital Sound)方式那样,前方L、LC、C、RC、R、SW的6声道+后方的SL、SR的2声道的合计8声道。
图1所示编码部分的6声道(ch)混合及矩阵电路1’按下式(1)把作为多声道信号的一个例子的左前(Lf)、中央(C)、右前(Rf)、左环绕(Ls)、右环绕(Rs)和Lfe(Low Frequency Effect,低频效果)的6ch的PCM数据分类变换为与前方组相关的2ch「1」、「2」和与其他的组相关的4ch「3」~「6」,把2ch「1」、「2」输出给第一编码部分2’-1,把4ch「3」~「6」输出给第二编码部分2’-2。
「1」=Lf+Rf「2」=Lf-Rf「3」=C-(Ls+Rs)/2「4」=Ls+Rs「5」=Ls-Rs「6」=Lfe-a×C …(1)其中,0≤a≤1构成编码部分2’的第一和第二编码部分2’-1、2’-2分别如图2详细表示的那样预测编码4ch「3」~「6」的PCM数据,把预测编码数据用图3所示那样的比特流通过记录媒体5和通信媒体6传输到解码部分。在解码部分,通过构成解码部分3’的第一和第二解码部分3’-1、3’-2,如图7详细表示的那样,分别把前方组相关的2ch「1」、「2」和与其他的组相关的4ch「3」~「6」的预测编码数据解码为PCM数据。
接着,通过混合及矩阵电路4’,根据式(1),恢复为原来的6ch(Lf、C、Rf、Ls、Rs、Lfe),同时,由这些原来的6ch和系数mij(i=1,2,j=1,2~6)按下式(2)那样生成2ch数据(L、R)。
L=m11·Lf+m12·Rf+m13·C+m14·Ls+m15·Rs+m16·LfeR=m21·Lf+m22·Rf+m23·C+m24·Ls+m25·Rs+m26·Lfe (2)下面参照图2对编码部分2’-1、2’-2进行详细说明。各个ch「1」~「6」的PCM数据的每1帧存储在1帧缓冲器10中。接着,1帧的各ch「1」~「6」的取样数据分别施加给预测电路13D1、13D2、15D1~15D4,同时,各ch「1」~「6」的各帧的开头取样数据施加给格式化电路19。PCM数据被进行A/D变换时的取样频率(fs)和量化位数(Qb)被施加给格式化电路19。预测电路13D1、13D2、15D1~15D4分别对各ch「1」~「6」通过特性不同的多个预测器(未图示)从时间域中的过去的信号算出现在的信号的多个线性预测值,接着,从原来的PCM数据和该多个线性预测值算出每个预测器的预测残留误差。接着,缓冲器·选择器14D1、14D2、16D1~16D4分别暂时存储由预测电路13D1、13D2、15D1~15D4所算出的各预测残留误差,对由选择信号/DTS(解码时间标签)生成器17所指定的每个子帧选择预测残留误差的最小值。
选择信号/DTS生成器17给打包电路18和格式化电路19施加预测残留误差的比特数标志,并且,给格式化电路19施加表示预测残留误差最小的预测器的预测器选择标志、式(1)中的相关系数a、表示解码部分从输入缓冲器22a(图7)取出流数据的时间的DTS。打包电路18根据由选择信号/DTS生成器17所指定的比特数标志来以指定的比特数对由缓冲器·选择器14D1、14D2、16D1~16D4所选择的6ch的预测残留误差进行打包。PTS生成器17c生成表示解码部分从输出缓冲器110(图7)取出PCM数据的时间的PTS(播出时间标签),输出给格式化电路19。
接着,格式化电路19格式化为图3~图6所示的用户数据。图3所示的用户数据(子数据包)由包含与前方组相关的2ch「1」、「2」的预测编码数据的可变速率比特流(子流)BS0、包含与其他的组相关的4ch「3」~「6」的预测编码数据的可变速率比特流(子流)BS1、设在子流BS0、BS1的前面的比特流首部(重新开始首部)所构成。子流BS0、BS1的1帧复用了·帧首部
·各ch「1」~「6」的1帧的开头取样数据·各ch「1」~「6」的每子帧的预测器选择标志·各ch「1」~「6」的每子帧的比特数标志·各ch「1」~「6」的预测残留误差数据串(可变比特数)·ch「6」的系数a。
根据这样的预测编码,原信号在例如取样频率(fs)=96Hkz,量化位数(Qb)=24位,6声道的情况下,能够实现71%的压缩率。
当把由图2所示的编码部分2’-1、2’-2所预测编码的可变速率比特流数据记录到作为记录媒体的一个例子的DVD唱盘中时,被打包为图4所示的音频(A)包。该包的构成是在2034字节的用户数据(A数据包、V数据包)上附加4字节的包开始信息、6字节的SCR(System Clock Refernce系统时间基准参考值)信息、3字节的Mux率(rate)信息和1字节的填充物的合计14字节的包首部(1包=合计2048字节)。在此情况下,使作为时间标签的SCR信息在开头包中为「1」并在同一标题内为连续的,由此能够管理同一标题内的A包的时间。
压缩PCM的A数据包,如图5详细表示的那样,由19或者14字节的数据包首部、压缩PCM的专用首部、图3所示的格式的1至2011字节的音频数据(压缩PCM)所构成。这样,DTS和PTS被设置在图5的数据包首部内(具体地说,PTS设置在数据包首部的第10~14字节中,DTS设置在第15~19字节中)。压缩PCM的专用首部由下列部分构成·1字节的子流ID·2字节的UPC/EAN-ISRC(Universal Product Code/EuropeanArticle Number-International Standard Recording Code)编号和UPC/EAN-ISRC数据·1字节的专用首部长度
·2字节的第一存取单元指针·8字节的音频数据信息(ADI)·0~7字节的填充字节。
而且,在ADI内都是用1字节设置了用于搜索1秒后的存取单元的前方存取单元搜索指针和用于用于搜索1秒前的存取单元的后方存取单元搜索指针。具体地说,在ADI的第7字节中设置了前方存取单元搜索指针,在第8字节中设置了后方存取单元搜索指针。
图5所示的压缩PCM(PPCM)的音频数据包中的音频数据区域如图6所示的那样由子数据包和多个PPCM存取单元所构成,PPCM存取单元由PPCM同步信息和子数据包所构成。最初的PPCM存取单元内的子数据包由目录、子流「0」、CRC、子流「1」、CRC和附加信息所构成,子流「0」、「1」仅由PPCM块所构成。第二以后的PPCM存取单元内的子数据包除目录之外由子流「0」、CRC、子流「1」、CRC和附加信息所构成,子流「0」、「1」由重新开始首部和PPCM块所构成。
PPCM同步信息(以下称为同步信息)包含以下信息·每一数据包的取样数根据取样频率fs选择40、80或者160。
·数据速率在VBR的情况下,「0」(表示子数据包内的数据是压缩数据的识别符)·取样频率fs和量化位数Qb·声道分配信息下面参照图7来对解码部分3’-1、3’-2进行说明。上述格式的可变速率比特流数据BS0、BS1由去格式化电路21进行分离。接着,各ch「1」~「6」的1帧的开头取样数据和预测器选择标志分别施加给预测电路24D1、24D2、23D1~23D4,各ch「1」~「6」的比特数标志施加给拆包电路22。SCR、DTS和预测残留误差数据串施加给输入缓冲器22a,PTS施加给输出缓冲器110。而且,数据速率(识别符)施加给控制部分100,取样频率fs和量化位数Qb施加给D/A变换器102。其中,预测电路24D1、24D2、23D1~23D4内的多个预测器(未图示)分别具有与编码部分的预测电路13D1、13D2、15D1~15D4内的多个预测器相同的特性,由预测器选择标志选择同一特性的。
由去格式化电路21所分离的流数据(预测残留误差数据串),如图8所示的那样,由SCR在每个存取单元中取入输入缓冲器22a中进行存储。其中,一个存取单元的数据量,例如在fs=96kHz的情况下,为(1/96kHz)秒,但是,如图9、图10(a)详细表示的那样,为可变长的。而且,存储在输入缓冲器22a中的流数据根据DTS以FIFO方式被读出并施加给拆包电路22。
拆包电路22根据每个比特数标志分离各ch「1」~「6」的预测残留误差数据,分别输出给预测电路24D1、24D2、23D1~23D4。在预测电路24D1、24D2、23D1~23D4中,分别把来自拆包电路22的各ch「1」~「6」的此次的预测残留误差数据与在内部多个预测器内通过由预测器选择标志所选择的一个所预测的前次预测值相加,来算出此次的预测值,接着,把1帧的开头取样数据作为基准来算出各取样的PCM数据,并存储在输出缓冲器110中。在输出缓冲器110中所存储的PCM数据根据PTS而读出并输出,因此,图10(a)所示的可变长的存取单元被扩展,图10(b)所示的那样一定长的表示单元被输出。
并且,根据PPCM同步信息内的取样频率fs和量化位数Qb,PCM数据由D/A变换器102变换为模拟信号。其中,在通过操作部分101而指示搜索重放的情况下,由控制部分100根据图5所示的前方存取单元搜索指针(1秒前)和后方存取单元搜索指针(1秒后)来重放存取单元。作为该搜索指针可以是取代1秒前、1秒后的2秒前、2秒后的。
在经过网络传输由图2所示的编码部分2’-1、2’-2所预测编码的可变速率比特流数据的情况下,在编码部分,如图11所示的那样,进行分组供传输用(步骤S41),接着,添加数据包首部(步骤S42),然后把该数据包送到网络上(步骤S43)。
在解码部分,如图12(A)所示的那样,除去首部(步骤S51),接着,复原数据(步骤S52),接着,把该数据存储到存储器中而等待解码(步骤S53)。而且,当进行解码时,如图12(B)所示的那样,进行去格式化(步骤S61),接着,进行拆包(步骤S63)。此时,在存在搜索重放指示时,对搜索指针进行解码。接着,根据标志选择预测器来进行解码(步骤S64),接着,进行输出缓冲器110的输入输出控制(步骤S65),接着,复原出原来的多声道(步骤S66),然后将其输出(步骤S67),以下重复进行上述过程。
在上述实施例中,把与前方组相关的2ch「1」、「2」通过「1」=Lf+Rf「2」=Lf-Rf进行变换来进行预测编码,但是,作为取代其的方案,可以通过式(2)来对多声道进行相减混合而生成双声道2ch数据(L,R),接着,通过下式(1)’「1」=L+R「2」=L-R「3」~「5」相同「6」=Lfe-C …(1)’进行变换来进行预测编码(第二实施例)。在此情况下,解码部分的混合及矩阵电路4’可以通过把声道「1」、「2」相加来生成声道L,通过把声道「1」、「2」相减生成声道R。
作为第三实施例,如图13所示的那样,作为取代2ch「1」、「2」的方案,通过式(2)对多声道进行相减混合(down-mix),生成双声道2ch数据(L,R),对该双声道2ch数据(L,R)和4ch「3」~「6」进行预测编码。在第2、第3实施例中,由于在解码部分不传输左前(Lf)和右前(Rf),则在解码部分由式(1)、(2)生成它们。
下面参照图14、图15来对第四实施例进行说明。在上述实施例中,构成1组的相关性的信号「1」~「6」以进行预测编码,但是,在该第四实施例中,生成多组的相关性的某个信号来进行预测编码,选择压缩率最高的组的预测编码数据。因此,在图14所示的编码部分中,设置第一~第n相关电路1-1~1-n,该n个相关电路1-1~1-n把例如6ch(Lf、C、Rr、Ls、Rs、Lfe)的PCM数据变换为相关性不同的n种的6ch信号「1」~「6」。
例如,第一相关电路1-1进行以下这样的变换「1」=Lf「2」=C-(Ls+Rs)/2「3」=Rf-Lf「4」=Ls-a×Lfe「5」=Rs-b×Rf「6」=Lfe并且,第n相关电路1-n进行以下这样的变换「1」=Lf+Rf「2」=C-Lf「3」=Rf-Lf「4」=Ls-Lf「5」=Rs-Lf「6」=Lfe-C
在每个相关电路1-1~1-n中设置预测电路15和缓冲器·选择器16,由相关选择信号生成器17b根据每组的预测残留误差的最小值的数据量来选择出压缩率最高的组。此时,格式化电路19增加了该选择标志(相关电路选择标志、该相关电路的相关系数a、b),并进行复用。
在图15所示的解码部分,相对于编码部分的相关电路1-1~1-n而设置n个相关电路4-1~4-n(或者系数a、b可变更的省略了图示的一个相关电路)。当图14所示的n组的预测电路具有相同构成时,在解码部分,如图15所示的那样,就没有必要设置n组的预测电路,可以设置一组的预测电路。而且,根据从编码装置所传输的选择标志,选择相关电路4-1~4-n之一,或者设定系数a、b,来复原出原来的6ch(Lf、C、Rf、Ls、Rs、Lfe),而且,通过式(2)对多声道进行减少混合,而生成双声道2ch数据(L,R)。
而且,在上述第一实施例中,构成1种相关性的信号「1」~「6」以进行预测编码,但是,也可以对该信号「1」~「6」的组和原信号(Lf、C、Rf、Ls、Rs、Lfe)的组进行预测编码,来选择压缩率高的一组。
如上述那样,根据本发明,由于格式化为具有包含压缩数据的子数据包和包含其取样频率和量化位数的同步信息部分的数据结构,则在以可变压缩率对多声道的声音信号进行编码时,能够改善重放部分的解码效率。
而且,根据本发明,由于格式化为具有包含压缩数据的子数据包和包含表示子数据包内的数据是压缩数据的识别符的同步信息部分的数据结构,则在以可变压缩率对多声道的声音信号进行编码时,能够改善重放部分的解码效率。
权利要求
1.一种声音编码装置,包括压缩装置,在每个声道中以可变长压缩具有某个取样频率和量化位数的多声道的声音信号;格式化装置,格式化成具有包含由上述压缩装置所压缩的每个声道的数据的子数据包和同步信息部分的数据结构,所述同步信息部分含有所述声音信号的取样频率和量化位数。
2.一种光记录介质,其中具有某个取样频率和量化位数的多声道的声音信号在每个声道中以可变长方式被压缩,格式化为具有包含上述所压缩的每个声道数据的子数据包和包含其取样频率和量化位数的同步信息部分的数据结构,并进行记录。
3.一种声音解码装置,在对具有某个取样频率和量化位数的多声道的声音信号在每个声道中以可变长被压缩后,对这样的数据结构进行解码,该数据结构为具有包含上述所压缩的每个声道数据的子数据包和包含其取样频率和量化位数的同步信息部分,其特征在于,该声音解码装置包括把上述数据结构分离成子数据包和同步信息部分的装置;在每个声道内扩展上述子数据包内的压缩数据的扩展装置;根据上述同步信息部分内的取样频率和量化位数而把上述所扩展的音频数据变换为模拟音频信号的装置。
4.一种声音编码装置,包括压缩装置,在每个声道中以可变长压缩多声道的声音信号;格式化装置,格式化成具有子数据包和同步信息部分的数据结构,其中所述子数据包包含由上述压缩装置所压缩的每个声道数据,所述同步信息部分包含表示上述子数据包内数据是压缩数据的识别符。
5.一种光记录介质,其中多声道的声音信号在每个声道中以可变长被压缩,格式化成具有子数据包和同步信息部分的数据结构,并进行记录,其中所述子数据包包含由上述压缩装置所压缩的每个声道数据,所述同步信息部分包含表示上述子数据包内数据是压缩数据的识别符。
6.一种声音解码装置,在多声道的声音信号在每个声道中以可变长被压缩后,对所形成的数据结构进行解码,该数据结构为具有子数据包和同步信息部分,所述子数据包包含上述所压缩的每个声道的数据,所述同步信息部分包含表示上述子数据包内数据是压缩数据的识别符,其特征在于,所述声音解码装置包括把上述数据结构分离成子数据包和同步信息部分的装置;根据上述同步信息部分内的识别符,在每个声道内扩展上述子数据包内的压缩数据的扩展装置。
7.一种声音传输方法,其特征在于,从权利要求1或4的声音编码装置通过通信线路来传输格式化的数据结构的数据包。
全文摘要
本发明提供一种声音编码装置、光记录介质和声音解码装置及声音传输方法,在以可变压缩率对多声道的声音信号进行编码时,可改善重放部分的解码效率。音频数据包中的音频数据区由子数据包和多个PPCM存取单元所构成,PPCM存取单元由PPCM同步信息和子数据包所构成。PPCM同步信息包含每一数据包的取样数、数据速率(在VBR情况下,「0」:表示子数据包内的数据是压缩数据中的识别符)、取样频率fs和量化位数Qb,声道分配信息等。
文档编号G11B20/10GK1259800SQ9912385
公开日2000年7月12日 申请日期1999年11月12日 优先权日1998年11月16日
发明者田中美昭, 植野昭治, 渕上德彦 申请人:日本胜利株式会社