用于产生音频片段或音频数据流的已编码立体声信号的装置及方法

文档序号：2830015阅读：277来源：国知局

专利名称：用于产生音频片段或音频数据流的已编码立体声信号的装置及方法
技术领域：
本发明涉及多声道音频技术，特别涉及与耳机技术相关的多声道音频应用。
背景技术：
国际专利申请WO 99/49574及WO 99/14983公开了用于驱动一对相对设置的耳机扬声器的音频信号处理技术，使得使用者能够经由两只耳机获得音频场景的空间感觉，其不仅是立体声表示而且是多声道表示。因此，收听者将经由他或她的耳机获得音频片段的空间感觉，在最佳状况下所述空间感觉等效于使用者坐在例如配置了 5.1音频系统的再现室中时他或她的空间感觉。为此，对于每个耳机扬声器来说，如图2所示，多声道音频片段或多声道音频数据流的每个声道被提供给分离的滤波器，于是如下文所述，原本在一起的各个滤波声道被求和。在图2的左侧，有多声道输入20，其共同表示了音频片段或音频数据流的多声道表示。图10示意性地举例示出了这样的场景。图10 示出了再现空间200，其中配置了所谓的5.1音频系统。5.1音频系统包括中央扬声器201、左前扬声器202、右前扬声器203、左后扬声器 204以及右后扬声器205。 5.1音频系统包括附加的重低音扬声器206，其通常被称为低频增强声道。在再现空间200的所谓"甜蜜点(sweet spot)"上，存在收听者207，其戴着包括左耳机扬声器209及右耳机扬声器210的耳机208。形成图2所示的处理装置，以通过滤波器HjL对多声道输入20的每个声道1、 2、 3进行滤波，其描述了图10中从扬声器至左扬声器 209的声音声道，并另外通过滤波器H^对同一个声道进行滤波，其表
示从五个扬声器之一至右耳或耳机208的右扬声器210的声音。例如，如果图2中的声道1是图10中的扬声器202所发出的左前声道，则滤波器HiL表示虛线212所指示的声道，而滤波器H化表示虚线213所指示的声道。如图10中虚线214所示例性指示的，左耳机扬声器209不仅接收直达声音，还接收在再现空间的边缘处的早期反射，当然也会接收表示为扩散混响(diffuse reverberation)的晚期反射。图11中描述了这样的滤波器表示。特别是，图11示出了诸如图 2中的滤波器H^的滤波器的冲激响应的示意示例，图11中线212所描述的直达或原始声音由滤波器起始处的峰值表示，而图10中214 所示例性描述的早期反射则以图11中具有多个(离散的)小峰值的中央区域所重现。一般不再针对个别峰值分解扩散混响，因为扬声器202 的声音原则上被任意地、频繁地反射，其中能量当然会随着每次反射及额外的传播距离而减少，如同图11中称为"扩散混响"的后段部份中的减少的能量所描述的。-图2所示的每个滤波器因此包括滤波器冲激响应，其粗略地具有如图11所示意性描述的冲激响应所示出的曲线。显然，各个滤波器冲激响应将取决于再现空间、扬声器的位置、诸如现场的人员或是再现空间中的家具所导致的再现空间中可能的衰减特性、以及理想情况下各个扬声器201 206的特性。图2中的加法器22、 23描述了所有扬声器的信号在收听者207 的耳中被叠加的事实。因此，每个声道被左耳的对应滤波器所滤波，接着简单地求和预定用于左耳的滤波器输出的信号，以获得左耳L的耳机输出信号。以此类推，由用于右耳的加法器23或图IO中的右耳机扬声器210执行加法，用于通过对右耳的对应滤波器所滤波的所有扬声器信号进行叠加而获得右耳的耳机输出信号。由于除了直达声音之外还存在早期反射特别是扩散混响，其对于空间感觉来说是特别重要的，为了要让声调听起来不会过于虚假或是" 怪异"，而是要向收听者提供他或她实际上坐在具有音响特性的音乐厅之中的感觉，因此各个滤波器21的冲激响应将都具有相当大的长度。具有两个滤波器的多声道表示的每个单个多声道的巻积己导致了大量的计算工作。由于每个单个多声道需要两个滤波器，也即一个用于左耳而另一个用于右耳，因此当重低音扬声器声道也以分离方式设置时，5.1多声道表示的耳机再现需要总量为12个的完全不同的滤波器。由图11可明显获知，所有滤波器具有非常长的冲激响应，其不仅能够考虑直达声音，还包括了早期反射以及扩散混响，其实际上只是给音频片段提供了适当的声音再现以及良好的空间感受。为了实施众所周知的概念，除了如图10所示的多声道播放器220 之外，还需要非常复杂的虚拟声音处理222，其将信号提供给两个扬声器209和210，在图10中以线224和226表示。用于产生多声道耳机声音的耳机系统是复杂、笨重、且昂贵的，这是由于高计算功率、髙计算功率所需的高电流需求、以及将要执行的对冲激响应的估计的高工作内存需求和与之相连的播放器的大体积或昂贵的组件。这种应用因此常用于家用个人计算机声卡或笔记型计算机声卡或家用立体声系统。特别地，对于市场持续增长的例如移动CD播放器的移动播放器、或特别是硬件播放器来说，多声道耳机声音是难以达到的，这是因为在这种价格区间中不能实现通过例如12个不同的滤波器对多声道进行滤波的计算需求，其既与处理器资源无关也与传统电池驱动装置的电流需求无关。这涉及阶层底端(较低端)的价格区间。然而，恰好这种价格区间会因为数量庞大而在经济上倍受关注。发明内容本发明的目的是提供一种有效的信号处理构思，允许在简单再现装置上耳机再现多声道质量。上述目的可通过根据权利要求l的用于产生已编码立体声信号的装置、或者根据权利要求11的用于产生已编码立体声信号的方法、或者根据权利要求12的计算机程序来实现。本发明基于以下发现通过使音频片段或音频数据流的多声道表示(例如音频片段的5.1表示)经过硬件播放器外部(例如在提供商的具有高计算功率的计算机中)的耳机信号处理，可获得适用于所有可用的播放器(例如CD播放器或硬件播放器)的高质量且有吸引力的多声道耳机声音。然而，根据本发明，不是简单地播放耳机信号处理的结果，而是将其提供给传统的音频立体声编码器，该音频立体声编码器接着从左耳机声道和右耳机声道产生已编码立体声信号。如同任何其它不包括多声道表示的已编码立体声信号一样，接着将该己编码立体声信号提供给硬件播放器或诸如CD形式的移动CD 播放器。再现或重放装置接着将耳机多声道声音提供给使用者，不必向现有装置添加任何额外的资源或装置。创造性在于，耳机信号处理的结果，也即左耳机信号及右耳机信号，不会如同现有技术般在耳机中被再现，而是被编码并作为已编码立体声数据输出。这样的输出可以是储存、传输等。接着便可容易地将这样的具有已编码立体声数据的文件提供给任何设计用于立体声再现的再现装置，而无须使用者对其装置执行任何改变。因此，从耳机信号处理结果中产生已编码立体声信号的发明构思允许多声道表示向使用者提供极大地改善了的且更为真实的质量，其也应用于所有简单且广泛使用的、特别是在未来更为广泛使用的硬件播放器中。在本发明的优选实施例中，起点为已编码多声道表示，也即包括一个或典型的两个基本声道、还包括参数数据的参数表示，用于基于基本声道及参数数据来产生多声道表示的多声道。由于用于多声道译码的基于频域的方法是优选的，因此根据本发明，耳机信号处理并非通过冲激响应对时间信号进行巻积而在时域中执行，而是通过滤波器的传输函数进行乘法操作而在频域中执行。这可以节约在耳机信号处理之前的至少一个再转换，这在随后的立体声编码器也工作在频域中时是特别有益的，以便以前未进入时域的耳机立体声信号的立体声编码也可在不进入时域的情况下进行。在无须时域参与或通过至少减少转换数量的情况之下，从多声道表示至已编码立体声信号的处理不仅在计算时间效率方面令人关注，还可限制质量损耗，这是因为更少的处理阶段将更少的失真引入音频信号。特别是在执行对于立体声编码器是优选的考虑心理声学掩蔽阈值的量化的基于块的方法中，重要的是尽可能地防止串连的编码失真。在本发明的特别的优选实施例中，具有一个或优选为两个的基本声道的BCC (技术心理声学编码，Binaural Cue Coding)表示用作多声道表示。由于技术心理声学编码方法工作于频域，因此在合成之后多声道不会如同通常在BCC解码器中所做的一样被转换至时域。相反地，使用块形式的多声道的频谱表示并经过耳机信号处理。为此，滤波器的转换函数(也即冲激响应的傅立叶转换)用于通过滤波器转换函数来执行与多声道的频谱表示的相乘。当滤波器的冲激响应在时间上大于在BCC解码器的输出处的频谱分量的块时，逐块的滤波器处理是优选的，其中，在时域中分离滤波器的冲激响应，且逐块地将其转换，以便接着执行这种措施所需要的相应的频谱加权，如同例如WO 94/01933所公开的一样。

下面参照附图详细说明本发明的优选实施例，其中图1示出了本发明的用于产生已编码立体声信号的装置的电路框图；图2是图1的耳机信号处理的实施的详细示意图；图3示出了现有的用于产生声道数据及参数多声道信息的联合立体声编码器的示意图；图4是用于确定BCC编码/译码的ICLD、 ICTD及ICC参数的方案的示意图；图5是BCC编码/译码链路的框图；图6示出了图5的BCC合成模块的实现的框图；图7示出了多声道解码器与耳机信号处理之间无须任何到时域的转换的串联示意图；图8示出了耳机信号处理与立体声编码器之间无须任何到时域的转换的串联示意图；图9示出了优选的立体声编码器的原理框图；图10是用于确定图2的滤波器函数的再现场景的原理示意图；以及图11是根据图10所确定的滤波器的预期冲激响应的原理示意图。
具体实施方式
图1示出了本发明的用于产生音频片段或音频数据流的已编码立体声信号的装置的原理电路框图。未编码形式的立体声信号包括未编码的第一立体声信道10a以及未编码的第二立体声信道10b，其产生自音频片段或音频数据流的多声道表示，其中多声道表示包括与超过两个的多声道有关的信息。如将随后描述的，多声道表示可以是未编码或已编码形式。如果多声道表示是未编码形式，它将包括三个或更多的多声道。在优选的应用场景中，多声道表示包括五个声道以及一个重低音声道。然而，如果多声道表示是已编码形式，该已编码形式一般将包括一个或多个基本声道以及用于根据一个或两个基本声道来合成三个或更多的多声道的参数。因此，多声道解码器11是用于从多声道表示中提供多于两个的多声道的装置的例子。然而，如果多声道表示已经处于未编码形式，也即例如处于5+1脉冲编码调制(PCM)声道的形式，则提供装置对应于装置12的输入端，装置12用于执行耳机信号处理，以产生具有未编码的第一立体声信道10a及未编码的第二立体声信道 10b的未编码立体声信号。优选地，用于执行耳机信号处理的装置12形成用于评估多声道表示的多声道，每一声道的评估是通过第一立体声通道的第一滤波器功能及第二立体声通道的第二滤波器功能进行的，并且对各个已评估的多声道求和以获得未编码的第一立体声信道以及未编码的第二立体声信道，如图2所示。用于执行耳机信号处理的装置12的下游是立体声编码器13，立体声编码器13形成用于对未编码的第一立体声信道 10a及未编码的第二立体声信道10b进行编码，以在立体声编码器13 的输出14处获得已编码立体声信号。立体声编码器执行数据速率的降低，从而用于传输已编码立体声信号所需的数据速率小于用于传输未编码立体声信号所需的数据速率。根据本发明，所达成的概念允许经由简单播放器(例如硬件播放器)给立体声耳机提供多声道声调(也被称为"环绕")。某些声道的求和可以示例性地被形成为简单的耳机信号处理，以获得用于立体声数据的输出声道。改进的方法通过更为复杂的算法来操作，其相应地获得改善的再现质量。将要提及的是，本发明构思允许用于多声道译码以及用于执行耳机信号处理的计算集中步骤无须在播放器本身中执行，而是在外部执行。本发明构思的结果是已编码立体声文件，其可以是MP3文件、 AAC文件、HE-AAC文件或是某些其它的立体声文件。在其它实施例中，多声道译码、耳机信号处理及立体声编码可以在不同的装置上执行，这是因为各个块的输出数据及输入数据分别可以容易地进出，并且以标准方式产生和储存。接着，请参考图7，图7示出了本发明的优选实施例，其中，多声道解码器11包括滤波器组或快速傅里叶变换(FFT)函数，从而在频域中提供多声道表示。特别是，单独的多声道被作为每个声道的频谱值的块而产生。创造性地，耳机信号处理并非在时域中通过滤波器冲激响应对时间声道进行巻积而执行，而是通过滤波器冲激响应的频谱表示与多声道的频域表示相乘来执行。在耳机信号处理的输出处获得未编码立体声信号，然而该信号并非位于时域中，而是包括左立体声声道和右立体声声道，其中，这样的立体声声道被提供作为频谱值的块序列，每个频谱值的块表示立体声通道的短期(short term)频谱。在图8所示的实施例中，在耳机信号处理模块12的输入侧提供时域或频域数据。在输出侧处，在频域中产生未编码立体声信道，也即也作为频谱值的块序列。在这种情况下优选地以基于转换的立体声编码器作为立体声编码器13，也即在不需要耳机信号处理12以及立体声编码器13之间的频率/时间转换以及后续的频率/时间转换的情况下处理频谱值的立体声编码器。在输出侧处，立体声编码器13接着输出具有已编码立体声信号的文件，除了辅助信息之外，所述文件还包括已编码形式的频谱值。在本发明的特别的优选实施例中，在从图1的模块11的输入处的多声道表示至图1的装置的输出14处的已编码立体声文件的路径上执行连续频域处理，不需要转换到时域以及可能的再转换到频域。当MP3编码器或是AAC编码器用作立体声编码器时，优选地将耳机信号处理模块的输出处的傅立叶频谱转换为MDCT频谱。因此，根据本发明可以确保耳机信号处理模块中声道的巻积/评估所需的精确的相位信息被转换为MDCT表示，而不按照这样一种相位修正方式工作，也即，与正常MP3编码器或是正常AAC编码器相反，立体声编码器不需要从时域转换为频域(即MDCT频谱)的装置。图9示出了优选的立体声编码器的概括的电路框图。在立体声编码器的输入侧包括联合立体声模块(joint stereo module)15，模块15优选地以适应性方式决定(例如以中央/辅助编码形式的)普通立体声编码是否可与分离处理左声道和右声道相比提供更高的编码增益。联合立体声模块15还可形成用于执行强度立体声编码(Intensity stereo encoding),其中特别是具有较高频率的强度立体声编码提供相当大的编码增益而不会出现听得到的失真。然后进一步使用其它不同的冗余减少措施，例如时域噪声整形(TNS)滤波、噪声代替等，处理联合立体声模块15的输出，接着将结果提供给量化器16，量化器16使用心理声学掩蔽(masking)阈值来实现频谱值的量化。这里选择量化器步长的大小，以便通过量化所引入的噪声保持低于心理声学掩蔽阈值，以实现数据速率降低而不会听到由有损量化所引入的失真。量化器16 的下游具有熵编码器17，用于执行量化频谱值的无损熵编码。在熵编码器的输出处是已编码立体声信号，除了熵编码频谱值之外，已编码立体声信号还包括用于译码所需的辅助信息。接着，参照图3至图6来说明多声道解码器的优选实施方式以及优选的多声道。有数种技术可用于减少传输多声道音频信号所需的数据量。这些技术也被称为联合立体声技术。为此，参考图3，图3示出了联合立体声装置60。例如，该装置可以是实施强度立体声(IS)技术或技术心
理声学编码(BCC)的装置，这样的装置一般接收至少两个声道CH1、 CH2、……、CHn作为输入信号，并输出单个载波声道和参数多声道信息。定义参数数据，以便可以在解码器中计算原始声道(CH1、 CH2、 ......、 CHn)的近似。一般地，载波声道包括子频带采样、频谱系数、时域采样等等，其提供根本信号的相对好的表示，而参数数据不包括这些采样或频谱系数，而是包括用于控制某重建算法的控制参数，例如乘法的权重、时间推移、频率推移等。因此，参数多声道信息包括信号或相关声道的相对粗略的表示。以数量来表示，载波声道所需的数据量在60至 70kbits/s的范围内，而声道的参数辅助信息所需的数据量在1.5至 2.5kbits/sec的范围内。需要注意的是，上述数量适用于压縮数据。非压缩CD声道当然需要大约十倍的数据速率。参数数据的一个例子是公知的縮放因子、强度立体声信息或如下文所述的BCC参数。在J. Herre， K.H. Brandenburg, D. Lederer于1994年2月在 Amsterdam的AES Preprint 3799的题为"Intensity Stereo Coding"中描述了强度立体声编码技术。一般地，强度立体声的概念基于应用于两个立体声效果音频声道的数据的主轴转换。如果大部份的数据点集中于第一主轴附近，便可以在进行编码之前通过将两个信号旋转某一角度而实现编码增益。然而，这并总适用于实际立体声效果的再现技术。因此，这种技术可修改为排除第二正交分量在比特流中的传输。因此，用于左声道及右声道的重建信号包括相同传输信号的不同加权或缩放的版本。但是，重建信号振幅不同，但其相位信息是相同的。然而，通过一般以频率选择方式操作的选择性縮放操作，保持两个原始音频声道的能量时间包络。这对应于人类在高频处的声音感觉，其中主要的空间信息由能量包络所确定。此外，在实际实现方式中，传输信号(也即载波声道)产生自左声道及右声道的和信号，而非对两个分量的旋转。此外，这种处理(也即产生于执行縮放操作的强度立体声参数)是以频率选择性方式执行的，也即对于每个縮放因子频带(对于每个编码器频率划分)独立地执行。优选地，组合两个声道，以形成组合的或"载波"声道、以及除了组合的声道之外的强度立体声信息。强度立体声信息取决于第一声道的能量、第二声道的能量或组合声道的能量。T. Faller, F. Baumgarte于2002年05月在Munich在AES Convention Paper 5574的题为"Binaural Cue Coding applied to stereo and multichannel audio compression"中描述了 BCC技术。在BCC编码中，使用基于DFT的转换，利用重迭窗，将多个音频输入声道转换成频谱表示。将所产生的频谱分成非重迭部份，其中每个重迭部份具有索引。每个划分具有与等效右角带宽(ERB)成比例的带宽。针对每个划分及每个帧k，确定声道间电平差(ICLD)及声道间时间差(ICTD)。 ICLD及ICTD被量化和编码，以最终实现作为辅助信息的BCC比特流。针对每个声道，关于参考声道，提供声道间电平差及声道间时间差。然后，根据预定公式，基于待处理的信号的特定划分，来计算参" 在解码器侧，解码器一般接收单声道信号和BCC比特流。单声道信号被转换至频域且被输入空间合成模块，空间合成模块也接收己解码的ICLD和ICTD值。在空间合成模块中，ICLD及ICTD用于执行单声道信号的加权操作，以合成多声道信号，多声道信号在频率/ 时间转换之后表示原始多声道音频信号的重建。在BCC的情况下，联合立体声模块60可操作用于输出声道辅助信息，从而参数声道数据是量化且编码的ICLD或ICTD参数，其中原始声道之一用作用于对声道辅助信息进行编码的参考声道。一般地，载波信号由参与的原始声道的之和形成。上述的技术当然仅提供用于解码器的单声道表示，该解码器仅能够处理载波声道而无法处理用于产生超过一个输入声道的一个或多个近似的参数数据。在美国专利公开号US 2003/0219130 Al、 US 2003/0026441 Al以及US 2003/0035553 Al中也描述了 BCC技术。此外，还可参考T. Faller 及F. Baumgarte于2003年11月出版在IEEE Trans. On Audio and Speech Proc., Vol. 11, No. 6的专家刊物"Binaural Cue Coding. Part II: Schemes and Applications"。
接着，参照图4至图6更为详细地描述用于多声道音频编码的典型BCC方案。图5示出了用于编码/传输多声道音频信号的BCC方案。在所谓的下混模块114中下混在BCC编码器112的输入110处的多声道音频输入信号。对于此实施例，在输入110处的原始多声道信号是具有左前声道、右前声道、左环绕声道、右环绕声道以及中央声道的5声道环绕信号。在本发明的优选实施例中，下混模块114通过将这5个声道简单求和为单声道信号，而产生和信号。其它的下混方案在现有技术中是已知的，因此，通过使用多声道输入信号，可获得具有单声道的下混声道。在和信号线115上输出单声道。在辅助信息线117上输出从BCC 分析模块116获得的辅助信息。如上文所述，在BCC分析模块中计算声道间电平差(ICLD)及声道间时间差(ICTD)。现在，BCC分析模块116还能够计算声道间关联值(ICC值)。以量化且已编码的形式将和信号及辅助信息传输至BCC 解码器120。 BCC解码器将所传输的和信号划分为多个子频带，并执行縮放、延迟及更进一步的处理步骤，以提供待输出的多声道音频声道的子频带。执行这种处理，以便输出121处的重建多声道信号的 ICLD、 LCTD及ICC参数(提示(cue))与BCC编码器112的输入110 处的原始多声道信号的对应提示匹配。为此，BCC解码器120包括 BCC合成模块122以及辅助信息处理模块123。接着，参照图6描述BCC合成模块122的内部设置。线115上的和信号被提供给时间/频率转换单元或滤波器组FB 125。在模块125 的输出处具有N个子频带信号，或是(在极端情形下的)频谱系数块，此时，音频滤波器组125执行1:1转换，也即从N个时域采样中产生 N个频谱系数的转换。BCC合成模块122还包括延迟级126、电平修正级127、关联处理级128以及反向滤波器组级IFB 129。如图5或图4所示，在级129 的输出处，在5声道环绕系统的情况下，具有五个声道的重建多声道音频信号可被输出至一组扬声器124。输入信号sn被组件125转换至频域或滤波器组域。组件125所输出的信号被复制，以获得相同信号的多个版本，如复制节点130所示。原始信号的版本数目等于输出信号中输出声道的数目。然后，节点130 处原始信号的每个版本经过某一延迟dl、 d2、…、di、…dN。延迟参数由图5的辅助信息处理模块123计算，且可从图5的BCC分析模块 116所计算的声道间时间差中导出。这同样应用于乘法参数a" a2、…、ai、…、aN，它们由辅助信息处理模块123基于BCC分析模块116所计算的声道间电平差进行计算。由BCC分析模块116所计算的ICC参数用于控制模块128的功能，使得在模块128的输出处获得己延迟的且经过电平操作的信号之间的某些关联。这里需要注意的是，126、 127、 128各级的次序可不同于图6所示的次序。还需要注意的是，在音频信号的逐帧处理中，也可逐帧地执行 BCC分析，也即在时间上可变，此外，如同可从图6的滤波器组划分所看出的，还获得逐频率的BCC分析。这意味着对于每个频带，获得 BCC参数。这也意味着，在音频滤波器组125将输入信号分解成诸如 32个带通信号的情况下，针对32个频带中的每个，BCC分析模块可获得一组BCC参数。当然，图5中的BCC合成模块122 (在图6中更详细地描述了)也同样基于所提及的示例性的32个频带，执行重建。接着，参照图4描述用于确定各个BCC参数的场景。一般地，在声道对之间定义ICLD、 ICTD以及ICC参数。然而，优选地是在参考声道以及每个其它的声道之间定义ICLD及ICTD参数。这在图4A 中描述了。ICC参数也可以以不同的方式定义。一般地，可以在编码器中在所有可能的声道对之间确定ICC参数，如图4B所示。已存在的构想是在任何时刻仅计算两个最强的声道之间的ICC参数，如图4C所示，图4C示出了在任何时刻下计算声道1及2之间的ICC参数以及在另一时刻下计算声道1及5之间的ICC参数的例子。接着解码器合成解码器中最强声道之间的声道间关联，并使用某种启发式规则，计算并
合成剩余声道对的声道间统一性。关于诸如基于所传输的ICLD参数的乘法参数a" aw的计算，请参阅AES Convention Paper No. 5574。 ICLD参数表示原始多声道信号的能量分配。在不丧失一般性的情况下，如图4A所示，优选地采用表示各个声道与左前声道之间的能量差的4个ICLD参数。在辅助信息处理模块122中，乘法参数a,、、 aN从ICLD参数中导出，以使所有重建输出声道的总能量相等(或是与所传输的和信号的能量成比例)。在图7所示的实施例中，省略了由图6的反向滤波器组IFB129 所获得的频率/时间转换。取而代之的，使用在这些反向滤波器组的输入处的各个声道的频谱表示，并将其提供给图7中的耳机信号处理装置，以便在不进行额外频率/时间转换的情况下，通过每个多声道两个滤波器，执行各个多声道的评估。关于发生于频域中的完全处理，需要注意的是，在这种情况下，多声道解码器(也即例如图6的滤波器组125)以及立体声编码器应具有相同的时间/频率分辨率。此外，优选地使用同一个滤波器组，这对于如图1所示的整个处理仅需要单个滤波器组的情况特别有益。在这种情况下，其结果是处理特别有效，这是因为不再需要计算多声道解码器及立体声编码器中的转换。因此，在本发明构思中，输入数据及输出数据优选地通过转换/ 滤波器组而在频域中被编码，并且在心理声学指导方针下使用掩蔽效应被编码，其中特别地，在解码器中应该是信号的频谱表示。其示例为MP3文件、AAC文件、或AC3文件。然而，输入数据及输出数据也可分别通过形成和值以及差值而被编码，如同所谓矩阵处理的情况。其示例是Dolby ProLogic、 Logic7或是Circle Surround。特别地，多声道表示还可以通过参数方法被编码，如同在MP3环绕的情况下，其中该方法基于BCC技术。取决于情况，本发明的生成方法可以以硬件或软件来实施。可在数字储存介质中实施，特别是在具有可通过电子方式读取的控制信号的光盘或CD中，其可与可编程计算机系统协作以执行该方法。一般
地，本发明也可在具有储存在机器可读介质中的程序代码的计算机程序产品中，用于当在计算机上执行该计算机程序产品时执行本发明的方法。换言之，本发明也可实现为具有程序代码的计算机程序，用于当在计算机上运行该计算机程序时执行该方法。
权利要求
1、一种装置，用于根据包括与两个以上多声道有关的信息的音频片段或音频数据流的多声道表示，产生具有第一立体声声道及第二立体声声道的音频片段或音频数据流的已编码立体声信号，该装置包括用于根据所述多声道表示来提供两个以上多声道的装置(11)；用于执行耳机信号处理以产生具有未编码的第一立体声声道(10a)及未编码的第二立体声声道(10b)的未编码立体声信号的装置(12)；以及立体声编码器(13)，用于对未编码的第一立体声声道(10a)及未编码的第二立体声声道(10b)编码，以获得已编码立体声信号(14)，所述立体声编码器形成使得用于发送已编码立体声信号所需的数据速率小于用于发送未编码立体声信号所需的数据速率。
2、如权利要求l所述的装置，其中执行装置(12)形成用于针对每个多声道，通过用于第一立体声声道的第一滤波器功能(HiO以及用于第二立体声声道的第二滤波器功能(Hij0来评估每个多声道，以产生第一已评估声道以及第二已评估声道；对所有已评估的第一声道求和(22)以获得未编码的第一立体声声道(10a);以及对所有已评估的第二声道求和(23)以获得未编码的第二立体声声道(10b)。
3、如权利要求2所述的装置，其中一对分离的第一及第二滤波器功能与每个多声道相关其中第一滤波器功能是从用于再现多声道的扬声器的虚拟位置以及聆听者的虚拟第一耳朵位置导出的；以及其中第二滤波器功能是从扬声器的虚拟位置以及聆听者的虚拟第二耳朵位置导出的，该聆听者的两个虚拟耳朵位置不同。
4、如前述权利要求之一所述的装置，其中多声道表示包括一个或多个基本声道以及用于根据一个或多个基本声道来计算多声道的参数信息；以及其中提供装置(ll)形成用于根据一个或多个基本声道以及所述参数信息来计算至少三个多声道。
5、如权利要求4所述的装置，其中提供装置(1)形成用于在输出侧提供每个多声道的块形式的频域表示；以及其中执行装置(12)形成用于通过第一和第二滤波器功能的频域表示来评估块形式的频域表示。
6、如前述权利要求之一所述的装置，其中执行装置(12)形成用于提供未编码的第一立体声声道及未编码的第二立体声声道的块形式的频域表示；以及其中立体声编码器(13)是基于转换的编码器，并且还形成用于处理未编码的第一立体声声道及未编码的第二立体声声道的块形式的频域表示，而不需要由频域表示转换为时间表示。
7、如前述权利要求之一的装置，其中立体声编码器(13)用于执行第一及第二立体声声道的共同立体声编码(15)。
8、如前述权利要求之一所述的装置，其中立体声编码器(13)形成用于使用心理声学掩蔽阈值，对频谱值的块进行量化(16)，并使其经过熵编码(17)，以获得已编码立体声信号
9、如前述权利要求之一所述的装置，其中提供装置(11)形成为技术心理声学BCC译码器。
10、如前述权利要求之一所述的装置，其中提供装置(ll)形成为包括具有多个输出的滤波器组的多声道译码器；其中执行装置(12)形成用于通过第一及第二滤波器功能来评估滤波器组输出处的信号；以及其中立体声编码器(13)形成用于对频域中的未编码的第一立体声声道以及频域中的未编码的第二立体声声道进行量化(16)，并使其经过熵编码(17)以获得已编码立体声信号。
11、一种方法，用于根据包括与两个以上多声道有关的信息的音频片段或音频数据流的多声道表示，产生具有第一立体声声道及第二立体声声道的音频片段或音频数据流的已编码立体声信号，该方法包括如下步骤根据多声道表示来提供(ll)两个以上多声道；执行(12)耳机信号处理，以产生具有未编码的第一立体声声道(10a)及未编码的第二立体声声道(10b)的未编码立体声信号；以及对未编码的第一立体声声道(10a)及未编码的第二立体声声道 (10b)进行立体声编码(13)，以获得已编码立体声信号(14)，执行该立体声编码步骤，使得发送己编码立体声信号所需的数据速率小于发送未编码立体声信号所需的数据速率。
12、一种计算机程序，具有程序代码，该程序代码用于当在计算机上运行该计算机程序时，执行根据权利要求11的用于产生已编码立体声信号的方法。
全文摘要
一种根据多声道表示来产生已编码立体声信号的装置，包括多声道解码器(11)，用于根据至少一个基本声道和参数信息来产生三个或更多个多声道。使所述三个或更多个多声道经过耳机信号处理(12)，以产生未编码的第一立体声声道和未编码的第二立体声声道，未编码的第一及第二立体声声道接着被提供给立体声编码器(13)，以在输出侧产生已编码的立体声文件。已编码的立体声文件可被提供给任何适用的具有CD播放器或硬件播放器形式的播放器，使得播放器的使用者不仅得到正常的立体声效果，还得到多声道效果。
文档编号G10L19/00GK101133680SQ200680007035
公开日2008年2月27日申请日期2006年2月22日优先权日2005年3月4日
发明者哈拉德·波普, 哈拉德·蒙特, 珍·普洛斯提斯申请人:弗劳恩霍夫应用研究促进协会

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：珍.普洛斯提斯;哈拉德.蒙特;哈拉德.波普
技术所有人：弗劳恩霍夫应用研究促进协会
我是此专利的发明人