使用频道间振幅谱的音频频道提取的制作方法

文档序号：6569907阅读：337来源：国知局

专利名称：使用频道间振幅谱的音频频道提取的制作方法
技术领域：
本发明涉及从包括音频源的混合的、两个或多个音频输yV频道中提取多个音频频道，更具体地，涉及使用频道间振幅镨来执行提取。
背景技术：
盲源分离(Blind Source Separation, BSS)是这样一类方法，其被广泛使用于需要从传送各个源的线性混合的立体声频道中估计各个原先的音频源的领域。从各个原先的源的线性混合中分离出各个原先的源的困难在于，在许多实际的应用中，对于原先的信号或混合它们的方式知道得很少。为了实现盲去混合，通常作出关于信号的统计特性的某些假设。独立分量分析(ICA)是一种方法，或许是最广泛地用于执行盲源分离的方法。ICA假设，音频源是统计独立的，并具有非高斯分布。另夕卜，音频输入频道的数目至少必须和要被分离的音频源的数目一样大。而且，输入频道必须是线性独立的；不是它们自身的线性組合。换句话说，如果目标是要例如，从立体声混合中提取，诸如话音、弦乐声、打击乐声等那样的三个或许四个音频源，则形成第三或第四频道作为左和右频道的线性组合还不够。ICA算法在技术上是^^知的，如Aapo Hyvarinen 和 Erkki Oja 在"Independent Component Analysis: Algorithms and Applications", Neural Networks, April 1999中描述的，该论文在此引用以供参考。不幸的是，在许多现实世界情形下，仅仅立体声混合是可得到的。这将基于ICA的BSS算法严格限制于至多分离来自混合的两个音频源。在许多应用中，音频混合和重放远离传统的立体声而进步到具有 5.1、 6.1的多频道音频或甚至更高的频道配置。强烈需要能够重新混合多频道音频的立体声音乐的大量目录(catalog)。为了有效地做到这一点，如果不是必需的话，常常非常希望从立体声混合中分离三个或多个源。当前的ICA技术不能支持这一点。发明内容以下是本发明的概要，以便提供对本发明的某些方面的基本了解。本概要不打算识别本发明的重要或关键的单元或限制本发明的范围。它的唯一目的是以简化的形式给出本发明的某些概念，作为在后面给出的更详细的说明和定义权利要求的前序。本发明提供一种用于从两个或多个音频输入频道中提取不仅仅是那些输入频道的线性组合的多个音频输出频道的方法。然后，这样的输出频道例如可以与盲源分离(BSS)算法相组合地使用，其中所述盲源分离(BSS)算法需要至少与要被分离的或直接用于重新混合应用，例如 2.0到5.1，的源一样多的线性独立输入频道。这是通过为传送音频源的混合的各对M帧(framed)的音频输入频道创建至少一个频道间振幅谱而实现的。这些振幅谱例如可以代表各对输入镨的线性、对数、或范数差值(normdifference)或和值。然后，在M-l维频道提取空间中适当地将频道间振幅谱的每个谱线映射成N 个定义的输出中的一个输出。来自M个输入频道的数据按照谱映射被组合，以形成N个音频输出频道。在一个实施例中，输入谱按照映射被组合，以及组合后的傳被逆变换，并且帧被重新组合以形成N个音频输出频道。在另一个实施例中，通过使用相应的谱映射图(spectral map),构建用于N个输出中的每个输出的巻积滤波器.输入频道通过 N个滤波器，并被重新组合，以形成N个音频输出频道。通过结合附图作出的优选实施例的以下详细说明，本领域技术人员将明白本发明的这些和其它特征和优点。

图1是包括用于从音频混合中分离多个音频源的频道提取器和源分离器的框图；图2是按照本发明的、用于通过使用频道间振幅镨来提取附加的音频频道的框图；图3a到3c是描绘从频道间振幅镨到频道提取空间的各种映射的图；图4是用于通过按照语映射使用输入频道的语合成来从立体声混合中提取三个输出频道的示例性实施例的框图；图5a到5c是显示出给音频频道加窗口以形成输入音频帧序列的图；图6是立体声音频信号的频镨的图；图7是不同镨的图；图8是显示出组合输入镨的两个不同方法的表；图9a到9c是三个输出音频频道的组合镨的图；和图10是使用巻积滤波器来按照谱映射执行输入频道的时域合成的替换实施例的框图。
具体实施方式
本发明提供用于从包括音频源的混合的、两个或多个音频输入频道中提取多个音频频道的方法，更具体地，涉及使用频道间振幅镨来执行提取。这个方法产生不仅仅是输入频道的线性组合的多个音频频道，因此例如可以与盲源分离(BSS)算法相组合地使用或用来提供直接用于各种重新混合应用的附加频道。仅仅作为示例性实施例，在它使用BSS算法的情况下描述提取技术。如上所述，对于用来从这些源的混合中提取Q个原先的音频源的 BSS算法，它必须接收传送该混合的至少Q个线性独立的音频频道作为输入。如图1所示，M个音频输入频道10被输入到频道提取器12，频道提取器12按照本发明使用输入频道的频道间振幅i普来生成N>M 个音频输出频道14。源分离器16实施基于ICA的BSS算法，来把Q 个原先的音频源18与N个音频输出频道分离开，其中Q^V。例如，当一起被使用时，频道提取器和源分离器可以从传统的立体声混合中提取三个、四个、或多个音频源。这将在把现在仅仅存在于立体声中的音乐目录重新混合成多频道配置方面找到很大的应用。如图2所示，频道提取器实施使用频道间振幅镨的算法。频道提取器把M个音频输入频道10中的每个音频输入频道变换成各个输入谱(步骤20),其中M至少为2。快速傅立叶变换(FFT)或DCT， MDCT 或小波变换，例如可被使用来生成频镨。然后，频道提取器根据至少一对输入频道的输入镨来创建至少一个频道间振幅语(步骤22)。这些频道间振幅镨例如可以代表各对输入镨的i脊线的线性、对数、或范数差值或和值。更具体地，如果'A，和'B，是第一和第二频道的谙线的振幅，则A-B是线性差值，Log(A)-Log(B)是对数差值，(A2-B2)A L2范数差值，以及A+B是和值。本领域技术人员将会看到，可以使用A 和B的许多其它函数f(A，B)来比较两个频道的频道间振幅关系。频道提取器在M-l维频道提取空间中把频道间振幅谱的每个谱线适当地映射成N个定义的输出中的一个输出(步骤24)。如图3a所示，输入频道对(L/R)的对数差值的阈值被设定为-3dB和+3dB，以定义在一维空间26中的输出S"國oo ，-3dB)， S2(-3dB ，+3dB)，和S3(+3dB，oo)。如果特定谱线的振幅比如说是OdB，则它被映射到输出S2等等。该映射可以通过定义附加的阈值而被容易地扩展到N>3。如图3b所示，三个输入频道L，R和C被映射成在二维频道提取空间28中的13个输出频道Sb S2，... S13。 L/C的对数差值对照R/C的对数差值被画出，并且阈值被设定，以定义16个单元。在这个具体的例子中，尽头的拐角单元都被映射成同一个输出Sl。单元的其它组合也是可能的，这例如取决于想要的输出数目或对于输入频道的声场关系的先验知识。对于每个 i普线，R/C和L/C的对数差值的振幅被映射到空间，以及被分配以适当的输出。这样，每个镨线仅仅被映射成单个输出。替换地，R/C和 L/C频道间振幅镨在一维空间中可以分开设定阈值，如图3a所示。在图3c上画出三个输入频道L，R和C到在另一个二维频道提取空间30 中的9个输出的替换映射。这3个例子只打算显示，频道间振幅镨可以以许多不同的方式被映射到N个输出，而且，还打算显示，该原理扩展到任何数目的输入和输出频道。每个镨线可被映射到M-l维提取空间中的唯一输出。一旦每条谱线被映射到N个输出中的一个输出，频道提取器就按照映射组合M个输入频道的数据用于N个输出中的每个输出(步骤 32)。例如，假设图3a所示的情形立体声频道L和R被映射到输出 S1，S2和S3，以及还假设输入镨具有8条镨线。如果根据频道间振幅谱，线1-3被映射到Sl， 4-6映射到S2，和7-8映射到S2，则频道提取器组合线1， 2和3中的每条线的输入数据，以及把该组合后的数据引导到音频输出频道1等等。通常，这个输入数据被组合为加权平均值。权重可以是相等的或改变的。例如，如果知道关于输入频道，例如L，R，和C，的声场关系的特定信息，则它可以实施权重的选择。例如，如果I^R，则可以在組合中选择L频道,皮更多地加权的权重。而且，处于相同或其它的原因，权重对于所有的输出可以是相同的，或可以是改变的。输入数据可以通过使用频域或时域合成而被组合。如图4-9所示，输入镨按照映射被组合，以及组合后的i普被逆变换，并且帧被重新组合，以形成N个音频输出频道。如图IO所示，通过使用相应的谱映射图，构建用于N个输出中的每个输出的巻积滤波器。输入频道经过 N个滤波器，并被重新组合，以形成N个音频输出频道。图4到10更详细地显示了在从输入频道的立体声(M-2)对中提取 N=3输出频道的情形下频道提取算法的示例性实施例。频道提取器把窗口 38，例如，升余弦、Hamming或Haiming窗，应用(步骤40, 42) 到左和右音频输入信号44， 46上，以创建各个适当重叠帧序列48(左帧)。每帧通过使用FFT被频率变换(步骤50， 52)，以生成左输入镨 54和右输入谱56。在本实施例中，计算输入谱54, 56的每条谱线的对数差值，以创建频道间振幅谱58(步骤60)。 l-D频道提取空间62, 例如限制输出SI, S2和S3的-3dB和+3dB阈值，被定义(步猓64)，并且在频道间振幅镨58中的每条镨线被映射成适当的输出(步骤66)。一旦映射被完成，频道提取器就按照该映射组合输入镨54和56，例如镨线的振幅系数，用于三个输出中的每个输出(步骤67)。如图8 和9a-9c所示，在情形1，频道被相等地加权，权重是相同的，以生成每个音频输出频道谱68， 70和72。如图所示，对于给定的镨线，仅仅组合输入谱用于一个输出。在情形2，或许具有L/R声场的先验知识，如果镨线被映射到输出1(L R)，则仅仅L输入频道可通过。如果L和R是近似相等的，则它们被相同地加权，以及如果11>>1^则仅仅R输入频道可通过。每个输出镨的接连的帧被逆变换(步骤74， 76, 78)，并且通过使用标准重叠-相加重建而重新组合帧(步骤80， 82， 84)，以生成三个音频输出频道86， 88和90。
图10显示使用时域合成来从立体声对提取三个音频输出频道的替换实施例，其中使用诸如Hanning窗的窗把左和右输入频道再划分成帧(步骤100),通过使用FFT进行变换以形成输入谱(步骤102)，和通过形成差值镨和把每个i普线与阈值(-3dB和+3dB)相比较以构建三个'映射图，106a, 106b和106c，将其分离成谱线(步骤104)，其中每个输出频道一个映射图。如果谱线差值属于相应的分类，映射图的单元被设置为l，否则为O。这些步骤等价于图4所示的步骤40-66。
输入频道经过使用相应的镨映射图构建的用于N个输出中的每个输出的巻积滤波器，以及MxN个局部结果被相加在一起，帧被重新组合，以形成N个音频输出频道(步骤108)。为了减小伪像，可以在相乘之前对映射图应用平滑。平滑可以通过以下公式完成
Ai，=(Aw+2Ai+ Ai+1)/4 其它平滑方法也是可能的。正如在图上显示的，输入频道的和值(步骤 110)可以在滤波前完成，如果不需要加权的话。
虽然显示和描述本发明的几个说明性实施例，但对于本领域技术人员将出现许多变例和替换实施例。可以预期和作出这样的变例和替换实施例，而不背离如在从属权利要求中规定的本发明的精神和范围，
权利要求
1.一种从M＜＝N个音频输入频道中提取N个音频输出频道的方法，包括把M个音频输入频道中的每个音频输入频道变换成各个输入谱；根据M个音频输入频道的各对音频输入频道的输入谱，创建至少一个频道间振幅谱；把频道间振幅谱的每条谱线映射到N个输出中的一个输出；以及按照谱映射来组合来自M个输入频道的数据以形成N个音频输出频道。
2. 权利要求l的方法，其中将重叠窗口应用于音频输入频道的预变换以形成帧序列，并且将重叠逆窗口应用于帧的后逆变换以把帧重新组合成N个音频输出频道。
3. 权利要求1的方法，其中频道间振幅谱被创建为输入谱的线性、对数或范数差值或和值。
4. 权利要求1的方法，其中镨线被映射成M-l维空间，其中轴相应于各个频道间振幅镨。
5. 权利要求4的方法，其中每条谱线被映射成单个输出。
6. 权利要求1的方法，其中给镨线设定阈值以把谱线映射成N 个输出中的一个输出.
7. 权利要求l的方法，其中来自输入频道的数据被组合为加权平均值。
8. 权利要求7的方法，其中权重至少部分地由音频输入频道的声场关系来确定。
9. 权利要求l的方法，其中来自输入频道的数据通过以下步骤被组合对于被映射到N个输出中的每个输出的每条谱线，组合M个输入频道的输入i普；以及逆变换每个组合后的谱以形成N个音频输出频道。
10. 权利要求l的方法，其中来自输入频道的数据通过以下步骤被组合使用相应的映射图，构建用于N个输出中的每个输出的滤波器；使M个输入频道中的每个输入频道经过N个滤波器；以及组合滤波器输出，以形成N个输出频道帧。
11. 权利要求l的方法，其中N个音频输出频道是线性独立的。
12. 权利要求l的方法，其中音频输入频道包括音频源的混合，还包括使用源分离算法把N个音频输出频道分离成相等的或较少的多个所述音频源。
13. —种从包括音频源的混合的M个音频输入频道中分离出Q 个音频源的方法，包括把M个音频输入频道中的每个音频输入频道变换成各个输入镨；根据M个音频输入频道的各对音频输入频道的输入镨创建至少一个频道间振幅i普；把频道间振幅镨的每条镨线映射到N二Q个输出中的一个输出，以创建每个输出的映射图；按照映射图组合来自M个输入频道的数据，以形成N个音频输出频道；以及使用源分离算法把N个音频输出频道分离成Q个音频源。
14. 权利要求13的方法，其中N个音频输出频道是线性独立的。
15. —种从两个音频输入频道中提取N个音频输出频道的方法，包括把每个音频输入频道变换成各个输入镨；根据输入镨创建频道间振幅镨；把频道间振幅镨的每条镨线按阈值分到N个输出中的一个输出；以及按照镨映射来组合来自M个输入频道的数据，以形成N个音频输出频道。
16. 权利要求15的方法，其中频道间振幅镨被创建为输入镨的线性、对数或范数差值或和值。
17. 权利要求15的方法，其中音频输出频道的数目N是3。
18. 权利要求15的方法，其中音频输入频道通过使用快速傅立叶变换(FFT)被变换。
19. 一种用于从1VK-N个音频输入频道中提取N个音频输出频道的频道提取器，包括用于把M个音频输入频道中的每个输入频道变换成各个输入i普的装置；用于根据M个音频输入频道的各对音频输入频道的输入谱来创建至少一个频道间振幅镨的装置；用于把频道间振幅谱的每条谱线映射到N个输出中的一个输出的装置；以及用于按照镨映射来组合来自M个输入频道的数据以形成N个音频输出频道的装置。
20. 权利要求19的频道提取器，其中用于组合数据的装置包括用于对于被映射到N个输出中的每个输出的每条镨线，组合M个输入频道的输入镨的装置；以及用于逆变换每个组合后的谱以形成N个音频输出频道的装置。
21. 权利要求19的频道提取器，其中用于组合数据的装置包括用于使用相应的映射图来构建用于N个输出中的每个输出的滤波器的装置；用于使M个输入频道中的每个输入频道经过N个滤波器的装置；以及用于组合滤波器输出以形成N个输出频道帧的装置。
全文摘要
频道间振幅谱被使用来从包括音频源的混合的、两个或多个音频输入频道中提取多个音频频道。这个方法产生不仅仅是输入频道的线性组合的多个音频频道，因此，例如，可以与盲源分离(BSS)算法相组合地使用。
文档编号G06F17/00GK101405717SQ200680045993
公开日2009年4月8日申请日期2006年12月1日优先权日2005年12月6日
发明者P·丘巴列夫申请人:Dts(英属维尔京群岛)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：Ｐ.丘巴列夫
技术所有人：ＤＴＳ（英属维尔京群岛）有限公司
我是此专利的发明人

上一篇：紧急数据保存服务的制作方法
上一篇：再生用于乙醇脱水的分子筛吸收剂的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。