音频信号的自适应主体-环境分解的制作方法

文档序号：7537314阅读：220来源：国知局

专利名称：音频信号的自适应主体-环境分解的制作方法
技术领域：
本发明涉及音频信号处理技术。更具体地，本发明涉及用于将音频信号分解成主体组分和环境组分的方法。
背景技术：
主体-环境分解算法将混响(以及扩散的，不聚焦的源)从立体声或者多声道音频信号的主相干源分离。这有益于音频增强(诸如增加或减少乐曲的“鲜明感(liveliness)”)，上混(upmix)(例如，其中环境信息被用来产生合成环绕声信号 (synthetic surround signals))，以及空间音频编码(其中对于主体信号内容和环境信号内容需要不同的方法)。目前的方法通过把实值乘数应用到原始声道信号来确定每个音频声道的环境组分，使得产生的每个声道的主体组分和环境组分同相。遗憾的是，这些技术在音频重现中有时会导致假象。这些假象包括主体组分进入环境组分的“泄露”等。需要改进的主体-环境分解技术。

发明内容
本发明描述了如下技术该技术可用于避免如相干源进入估计的环境组分的“泄露”这样的假象。本发明提供了用于将立体声音频信号或者多声道音频信号分解成主体组分和环境组分的方法。还描述了用于增强分解的后处理方法。本发明提供了用于把立体声音频信号分成主体组分和环境组分的方法。根据一些实施例，执行了向量空间主体_环境分解。得到了主体组分和环境组分，使得主体组分和环境组分的和等于原始信号并且组分之间满足不同的预期的正交条件。在优选的实施例中，输入音频信号被过滤成子带；这些子带信号然后被作为向量处理并且利用向量空间方法被分解成主体组分和环境组分。这些实施例的优势是与先前描述的方法相比，要求更少的算法参数的调谐。当前发明的实施例可以在时域音频信号上直接操作。然而，在优选的实施例中，进入的立体声音频信号首先被从时域表示变换为频域表示或者子带表示。用来变换到频域的一种方法，一般称为短时傅里叶变换(STFT)，立体声信号的每个声道被窗口框起来以产生声音的帧或段，并且在窗口信号帧上执行傅里叶变换以产生每一帧中信号内容的频域表示。窗函数从集中于全部时域信号的当前处理中撤出而针对时域信号的短时区间。帧以固定的偏移量(称为间隔(hop size))隔开。间隔确定了帧之间的交叠。STFT的应用产生经变换的信号在多个频率点或子带上的分配。对每个信号窗口或帧，每个点包含该帧中的声道信号的幅度和相位值；分析每个具体点的时间序列(对应于先前的信号窗口的序列)，以将针对当前时间的各个点的信号内容分离成主体组分和环境组分。这种主体组分和环境组分的比例分配基于向量空间操作。逆变换被应用于主体和环境信号内容以产生各个主体和环境时域信号。在一些实施例中，各个声道信号被分解成主体组分和环境组分以满足经选择的正交约束。音频信号和信号组分被作为向量处理以使能向量和矩阵数学的应用以及便于说明不同实施例的操作的图示的使用。根据不同的实施例，主要成分分析(PCA)，其可以等同地被称为“主成分分析”(其中“成分”是单数)，提供了新的封闭形式解以使得不要求迭代而得到主体组分和环境组分。优选地通过首先确定声道信号的相关矩阵的主要特征值，然后将对应的特征向量标识为主方向来建立主体组分的主方向。该主方向向量被认为是右声道和左声道向量的重量平均值。主体组分被认为是到主方向向量上的正交投影，并且环境组成被认为是相应的投影残差。得到的主体组分是完全相关的(在信号空间中共线)。得到的环境组分也是共线的但跨声道不正交。本发明的一个方面提供了用于处理多声道音频信号以确定信号的主体组分和环境组分的方法。该方法包括将多声道音频信号的每个声道变换为相应的子带向量，其中所述向量包括在相应子带中的声道信号行为的时间序列或历程；确定每个子带的主体组分单位向量；通过作声道子带向量到主体组分单位向量上的投影图，确定每个子带中每个音频声道的主体组分向量；将每个频率子带中的每个声道的环境组分向量确定为投影残差；以及调整主体向量和环境向量之间的差额以产生修正的主体组分和环境组分。本发明的另一方面提供了一种用于处理多声道音频信号以确定所述信号的主体组分和环境组分的方法。该方法包括将多声道音频信号的每个声道变换为相应的子带向量，其中所述向量包括在相应子带中的声道信号行为的时间序列或历程；在形成由相应的声道子带向量界定的信号子空间的正交基之后，确定每个子带中每个声道的环境单位向量；确定每个子带的主体组分单位向量；以及利用相应的环境单位向量和主体单位向量分解每个声道的子带向量。下面将参考附图描述本发明的这些和其他特征和优势。

图1是根据本发明的不同实施例用于主体-环境分解和后处理的方法的流程图。
图2是描述了根据本发明的一个实施例利用主成分分析的音频信号到主体组分和环境组分的分解的图示。图3是根据本发明的一个实施例用于多声道音频信号的主体-环境分解的方法的流程图。图4是根据本发明的一个实施例用于双声道音频的主体-环境分解的方法的流程图。图5是描述了根据本发明的一个实施例向量空间分解的图示。图6是描述了根据本发明的一个实施例利用信号自适应正交环境基音频信号以及由主成分分析得到的主体单位向量，音频信号到主体组分和环境组分的分解的图示。
具体实施例方式将详细介绍本发明的优选实施例。在附图中说明了优选实施例的示例。虽然将结合这些优选实施例描述本发明，但将理解，不希望将本发明限制于这些优选实施例。相反，希望覆盖可能包含在如所附的权利要求所界定的本发明的精神和范围内的替代，修改和等同物。在下面的描述中，阐述了很多具体细节，以提供对本发明的深入理解。可能在没有一些或所有这些具体细节的情况下实践本发明。在其他情况下，为避免不必要的模糊本发明，未详细描述众所周知的机制。这里应该注意，在所有不同的附图中类似的编码指代类似的部件。这里说明和描述的不同的附图用来说明本发明的不同的特征。在此意义上，特定的特征在一个附图而不是另一个附图中描述，除了另外指明或者结构本质上禁止特征的结合的情况，可以理解那些特征可能适应于被包含在其他附图所表现的实施例中，如同他们在那些附图中被完全说明一样。除非另外指明，附图不必要测量。附图中提供的任何尺寸不希望限制本发明的范围而仅是说明性的。本发明提供了改进的立体声音频信号或者多声道信号的主体-环境分集。提出的方法提供了比先前传统的方法更有效的主体_环境分解。可以用很多方式使用本发明来处理音频信号。目标是将混合的音乐，例如双通道 (立体声)信号，分成主体组分和环境组分。环境组分是指代表诸如混响和掌声之类的录音环境的自然背景音效。主体组分是指离散的，相干的源；例如，歌声可能构成主体信号。音频信号的主体-环境分解有益于双声道到多声道的上混 (stereo-to-multichannel upmix)。立体声扬声器再现格式包括左前方扬声器和右前方扬声器，然而标准多声道格式还包括正前方以及多个周围和后方的声道；双声道到多声道的上混是指如下任何处理通过该处理，用于多声道再现的这些额外的声道的信号内容从输入的立体声信号产生。一般地，环境组分被用在双声道到多声道的上混中以合成环绕声信号，该环绕声信号将为听众产生增加的包络感(sense of envelopment) 0主体组分一般用来产生中央声道(center-channel)内容以稳定正面音频形象(frontal audio image)并扩大聆听甜蜜点(listening sweet spot)。中央声道合成的一种方法是识别仅中央对称的 (center-panned)(即，两个输入声道中等重并且意图使其听起来像源自两个扬声器之间，如同典型的音乐曲目中的歌声)在原来的左声道和右声道的信号内容，以从左声道和右声道提取内容，然后将其重定向到中央声道；这种方法被称为中央声道提取(center-channel
6extraction) 0另一种方法是识别针对所有两个输入声道中的内容的平移方向(panning direction)，并且基于内容的平移方向改变内容的路线以使其由最近的扬声器对渲染在原立体声中向左平移的内容在多声道装置中使用左前方和正前方的扬声器渲染；原来向右平移的内容在多声道装置中使用右前方和正前方的扬声器渲染(以及原向中央平移的内容使用中央扬声器渲染)；这种方法被称为成对平移(pairwise panning) 0提供了向量主体_环境分解模型作为框架以得到改进的主体_环境信号分解。相比于以前的方法本发明的优点产生于信号模型的单位向量的选择(例如，如下所示 (3)_(4))。本发明的实施例提供了针对单位向量的更有力的选择。单位向量更适合于输入信号的特征。本发明的第一实施例，即修正的PCA主体_环境分解，提供了比以前的方法所描述的分解更适合于输入信号特征的分解。该方法通过利用下面描述的基于相关的淡入淡出 (crossfade)，产生了与PCA相比适于不相关或弱相关输入信号的改进的分解。本发明的第二实施例，S卩“正交环境基展开”(“orthogonal ambience basis expansion")方法，从输入信号自适应地得到正交基，使得声道间的环境组分一直是正交的。结合由PCA得到的主体单位向量使用该基，以得到每个声道信号的主体-环境分解。该方法保留了适于高相关性信号的PCA方法的特性，同时改进了适于弱相关信号的性能。本发明的实施例提供了改进的性能，例如，与先前的方法相比，主体组分进入估算环境的更少泄露。虽然不需要，但优选的实施例包括频域/子带(subband)实现方式。在优选实施例中，利用自相关和互相关/内积计算来计算分解。
数学基础
以下方程定义了在下面的分析方法中使用的参数之间的关系
XM y
L A i
rt.L
fRR — ^ R A
R
(自相关) (自相关) rLE(t) = Xruj(t-l) + (l-X)XL(t)%(t)(滑动相关，其中 Xi(t)是向量在时间 t处的新样本)
.LR
RR
\
(相关系数)
'ff… V rm J
X
上的投影
i. x
R
\
V
r,
X
在上的投影
J
a ^ L
当信号被变换时(例如，用STFT)，存在组分\ [k，m]或者每个变换系数k和时间
系数m ；在STFT的情况下，系数m指示应用傅里叶变换的窗口的时间位置。对于每个给出
7的k，变换被作为时间上的向量处理，即，在给出的k处和m值的范围内的& [k，m]的样本被连接成向量表示。原则上，任何信号分解或者时频变换都可以用来产生这些子带向量。优选地时频表示被用于子带向量。然而，本发明的范围不限于此。可以使用其他形式的信号表示，包括但不限于信号的时域表示。向量长度是设计参数向量可以是瞬时值(标量)，在这种情况下，向量幅度对应于样本的绝对值；或者，向量可以具有静态或动态长度。替代地，向量和向量统计量可以由递归形成，在这种情况下，信号作为向量的处理在方法中不明显这种情况下，信号向量不是明显地由连续样本的连接集合而成；而是(对于每个子带中的每个声道)仅需要当前的输入样本(结合递归计算关系)来计算当前的输出样本。相关领域的技术人员将认识到在没有信号向量的明确形式的情况下本发明的一些实施例可以用这种方式实现；这些实现在本发明的范围之内，其中向量空间方法被暗示性地使用。应该注意，递归形式，如在上面的滑动相关中，有益于高效地内积计算(例如计算相关性所需要的内积计算)，还有益于使能不要求信号向量的明确形式的实现方式。此外，应该注意，信号空间的正交向量等同于不相关的对应的时间序列。图1是描述了根据本发明的一些实施例基于向量空间方法的主体-环境分解的流程图。处理开始于步骤101，其中接收了多声道音频信号。在步骤103，将每个声道信号转换为时频表示，在优选的实施例中使用STFT。虽然STFT是优选的，但本发明不限于这一方面。即，其他时频变换和表示的使用包括在本发明的范围内。在步骤105中，通过将子带声道信号的连续样本连接成向量，对于时域表示的每个声道和每个频带(frequency band)形成声道信号向量。这样，声道信号向量代表时频表示的频带或子带内的声道信号在时间上的演变。在步骤107中，利用诸如主成分分析或者相关的修改(例如，修正的PCA主体-环境分解；正交环境基展开)之类的向量空间方法，确定针对每个声道向量的主体组分向量。在步骤109中，每个声道向量的环境组分向量被确定为声道向量和主体组分向量之间的差，使得主体组分向量(在步骤107中所确定的)与环境组分向量(在步骤109中所确定的)的和等于原始的信号向量。数学上，该分解可表示为
权利要求
一种用于处理多声道音频信号以确定所述信号的主体组分和环境组分的方法，该方法包括将所述多声道音频信号的每个声道变换为相应的子带向量，其中所述向量包括在相应子带中的声道信号行为的时间序列或历程；确定每个子带的主体组分单位向量；通过作所述声道子带向量到所述主体组分单位向量上的投影图，确定每个子带中每个音频声道的主体组分向量；将每个频率子带中的每个声道的环境组分向量确定为投影残差；以及调整所述主体向量和环境向量之间的差额以产生修正的主体组分和环境组分。
2.如权利要求1所述的方法，其中所述每个子带的主体组分单位向量通过对所述相应的子带声道向量的主成分分析来确定。
3.如权利要求1所述的方法，其中所述差额根据对所述主体组分的优势的计量来调iF. ο
4.如权利要求3所述的方法，其中所述差额被调整以使得当所述主体组分的优势的计量接近0时，所述主体组分和环境组分被修正以符合如下估计信号完全是环境的。
5.如权利要求3所述的方法，其中所述主体组分的优势的计量对应于所述声道子带向量之间的相关系数。
6.如权利要求1所述的方法，其中所述差额被调整以获得关于重建的音频信号的预期效果。
7.如权利要求6所述的方法，其中所述差额被调整以相对于所述主体组分削弱所述环境组分。
8.如权利要求6所述的方法，其中所述差额被调整以相对于所述主体组分放大所述环境组分。
9.如权利要求1所述的方法，其中所述主体向量和环境向量之间的所述差额通过将每个声道的所述主体组分的一部分重新分配给所述环境组分而被调整。
10.如权利要求1所述的方法，其中所述多声道音频信号是双声道音频信号。
11.一种用于处理多声道音频信号以确定所述信号的主体组分和环境组分的方法，该方法包括将所述多声道音频信号的每个声道变换为相应的子带向量，其中所述向量包括在相应子带中的声道信号行为的时间序列或历程；在形成由所述相应的声道子带向量界定的信号子空间的正交基之后，确定每个子带中每个声道的环境单位向量；确定每个子带的主体组分单位向量；以及利用相应的环境单位向量和主体单位向量分解每个声道的所述子带向量。
12.如权利要求11所述的方法，其中每个子带的所述主体组分单位向量是通过对相应的子带声道向量的主成分分析来确定的。
13.如权利要求11所述的方法，其中所述由所述声道子带向量界定的信号子空间的正交基至少部分是通过所述声道子带向量的Gram-Schmidt正交化得到的。
14.如权利要求11所述的方法，其中在所述声道子带向量不相关的情况下，所述由所述声道子带向量界定的信号子空间的正交基被配置为对应于由所述声道子带向量界定的单位向量。
15.如权利要求11所述的方法，其中所述差额被调整以获得关于重建的音频信号的预期效果。
16.如权利要求15所述的方法，其中所述差额被调整以相对于所述主体组分削弱所述环境组分。
17.如权利要求15所述的方法，其中所述差额被调整以相对于所述主体组分放大所述环境组分。
18.如权利要求11所述的方法，其中所述多声道音频信号是双声道音频信号。
全文摘要
通过将信号变换为对应于子带信号的向量以及采用矩阵和向量操作来将左声道向量和右声道向量分解成环境和主体组分，来处理立体声信号以确定主体组分和环境组分。主成分分析被用来确定主体组分单位向量，并且环境组分根据基于相关的淡入淡出或者正交基的获取来确定。
文档编号H03M7/30GK101981811SQ200980111808
公开日2011年2月23日申请日期2009年3月31日优先权日2008年3月31日
发明者迈克尔·M·古德温申请人:创新科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：迈克尔.Ｍ.古德温
技术所有人：创新科技有限公司
我是此专利的发明人

上一篇：补偿功率放大器中的非线性电容效应的制作方法
上一篇：高度线性嵌入式滤波无源混频器的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、田老师：1: 建筑节能绿色建筑能耗的模拟与检测(EnergyPlus)；建筑碳排放和生命周期评价；城市微气候、建筑能耗与太阳能技术的相互影响；地理信息系统(GIS)和空间回归方法用于城市建筑能耗分析；不确定性、敏感性分析和机器学习方法应用于建筑能耗分析(R)；贝叶斯方法用于城市和单体建筑能源分析 2: 过
2、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
3、毕老师：机构动力学与控制
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、周老师：1.智能机器人技术 2.智能检测与控制技术 3.机构运动学与动力学 4.机电一体化技术
如您是高校老师，可以点此联系我们加入专家库。