分离音频源的制作方法
【专利摘要】本文公开的示例实施例涉及音频内容中的源分离。公开了一种用于从音频内容分离源的方法,该音频内容是基于多个声道的多声道格式。该方法包括对音频内容在多个声道的每个声道上执行成分分析以生成多个成分,多个成分中的每个成分包括在全频带上的多个时频块,利用多个成分中的至少一个时频块生成至少一个支配源,并且基于支配源通过估计空间参数和频谱参数将源从音频内容分离。还公开了相应的系统和计算机程序产品。
【专利说明】
分离音频源
技术领域
[0001] 本文公开的示例实施例通常设及音频内容处理,更具体地,设及用于从多声道格 式的音频内容分离源的方法和系统。
【背景技术】
[0002] 传统上,多声道格式(例如5. 1、7.1等)的音频内容通过在工作室中混合不同音 频信号而创建,或者通过在真实环境中同时记录声信号而生成。混合的音频信号或内容可 W包括若干个不同的源。源分离是识别每个源的信息W便于例如通过单声道信号W及包括 空间信息、频谱信息等的元数据重建音频内容的任务。
[0003] 当使用一个或多个麦克风录制听觉场景时,有利的是取决于声音源的信息被分 离,使得其适于被用于各种后续音频处理任务。一些示例可W包括用于各种目的(例如,自 动语音识别)的空间音频编码、重混/重构、3D声音分析W及合成、信号增强/噪声抑制。 因此,可W通过成功的源分离实现改进的通用性和更好的性能。当没有包含在采集过程中 的源的先验信息可用时(例如,录制设备的属性、空间的声特性等),分离过程可W被称为 盲源分离度SS)。
[0004] 常规地,用于诸如高斯混合模型(GMM)和非负矩阵分解(NM巧之类的源分离的一 些统计模型已经被广泛地应用W便于实现源分离。然而,运些算法(例如,GMM或NMF模 型)仅收敛到目标函数的驻点。相应地,运些算法对于参数初始化在W下方面敏感:(1)最 终结果强烈取决于参数初始化;(2)汇聚速度取决于参数初始化而明显变化;W及(3)算法 不能识别实际数量的源信号,所W它们通常需要注入源数量、频谱库等先验信息。在常规的 系统中,原始的源信息被用于指导(oracle)初始化,其对于多数真实世界的应用而言并不 实际,因为运种信息通常并不可用。而且,在一些应用中,可能需要训练数据。然而,由于从 训练数据中学习的源模型趋于在真实情形中较差地执行,运增大了实际中的困难。运是由 于模型与在混音中的源的实际属性之间通常存在不匹配。
[0005] 有鉴于此,本领域需要用于从音频内容分离源但不需要获知任何先验信息的方 案。
【发明内容】
[0006] 为了解决前述和其它潜在的问题,本文公开的示例实施例提出了用于从音频内容 分离源的方法和系统。
[0007] 在一个方面,本文公开的示例实施例提供了一种用于从音频内容分离源的方法, 该音频内容是基于多个声道的多声道格式。该方法包括对音频内容在多个声道中的每个声 道上执行成分(component)分析W生成多个成分。多个成分中的每个成分包括在全频带上 的多个时频块(tile),利用多个成分中的至少一个时频块生成至少一个支配源,并且基于 支配源通过估计空间参数和频谱参数将源从音频内容分离。关于该方面的实施例进一步包 括相应的计算机程序产品。
[0008] 在另一个方面,本文公开的示例实施例提供了一种用于从音频内容分离源的系 统,该音频内容是基于多个声道的多声道格式。该系统包括成分分析单元,其被配置为对音 频内容在多个声道中的每个声道上执行成分分析W生成多个成分。多个成分中的每个成分 包括在全频带上的多个时频块,源生成单元,其被配置为利用多个成分中的至少一个时频 块生成至少一个支配源,W及源分离单元,其被配置为基于支配源通过估计空间参数和频 谱参数将源从音频内容分离。
[0009] 通过下面的描述,将理解的是依据本文公开的示例实施例,可W从音频源中被分 离出一个或多个支配源。从音频内容分离的源是有利的,因为运种分离并不需要源或音频 内容的先验信息(例如,分离纯粹基于盲源分离)。具有诸如空间信息之类的元数据的重建 的源可W被任何回放系统精确地播放,而不论换能器的数目(例如,立体声系统、5. 1、7. 1 系统等)。此外,具有元数据的重建的源易于在后处理阶段被操纵及改进,并且作为结果,在 几乎所有的声学系统(甚至是耳机)中音频内容的表现可W被适配为准确的,因而也是身 临其境的。本文公开的示例实施例所实现的其它优点将通过W下描述而变得显而易见。
【附图说明】
[0010] 通过参照附图的W下详细描述,本文公开的示例实施例的上述和其它目的、特征 和优点将变得更容易理解。在附图中,本文公开的示例实施例将W示例W及非限制性的方 式进行说明,其中:
[0011] 图1图示了根据示例实施例的用于从音频内容分离源的方法的流程图;
[0012] 图2图示了根据示例实施例的在整个成分上的时频块的聚类的示例;
[0013] 图3图示了根据另一示例实施例的用于从音频内容分离源的方法的流程图;
[0014] 图4图示了根据示例实施例的用于在空间中表示源的GUI的示图;
[0015] 图5图示了根据示例实施例的用于从音频内容分离源的系统;W及
[0016] 图6图示了适于实施本文公开的示例实施例的示例计算机系统的框图。
[0017] 在全部附图中,相同或相应的附图标记指代相同或相应的部分。
【具体实施方式】
[0018] 现在将参照附图中所示的各种示例实施例对本文公开的示例实施例的原理进行 说明。应当理解,运些实施例的描述仅仅是使本领域技术人员能够更好地理解并进一步实 施本文公开的示例实施例,而不意在W任何方式对范围进行限制。
[0019] 本文公开的示例实施例假设作为输入的音频内容是例如为5. 1、7. 1或立体声等 多声道格式的。换言之,针对音频内容提供至少两个声道。多声道音频内容可W被处理为 具有诸如源的空间信息之类的元数据的多个单声道音频内容。与从原始音频内容分离源的 需要诸如源的数量、频谱信息之类的先验信息的常规方式不同,本文公开的示例实施例旨 在实现不具有任何先验信息的源分离,例如,盲源分离度SS)。在空间音频采集的情况下的 盲源分离由W下组成:将多声道混音信号分解成源信号并表示关于源的空间位置和混音参 数的信息。
[0020] 为了实现盲源分离,本文公开的示例实施例提出了用于从音频内容分离源的方法 和系统。音频内容包括多声道格式的源。实施例将会在W下给出。
[0021] 本文公开的示例实施例包括具有I个声道输入的音频内容,并且音频内容可W被 表达为Xi(t),i = 1,…,I,t = 1,…T。音频可W在其短时傅里叶变换(STFT)域被处理,使 得Xf,n= [Xi,fn,…,Xi,fn]T,其中 f = 1,…,F 是频段(frequen巧 bin)指数,并且 η = 1,…,N 是时间帖指数。音频内容的混音模型可W被表示为W下的矩阵形式: 阳02引 Xfn=CfnSfn+bfn (D 阳〇2;3] 其中Sfn= [S i,fn,…,S.j,fn,…,Sj,fn]T表示指示J个源的STFT的频谱参数,Cfn = 表示可W是取决于频率的和时变的空间参数,并且bh=比表示附加 的噪声。
[0024] 等式(1)解释了音频内容可W被诸如频谱参数和空间参数之类的参数W及一些 噪声描述。
[00巧]首先参照图1,其示出了根据本发明的示例实施例的用于从音频内容分离源的方 法100的流程图。
[00%] 在本文公开的一个示例实施例中,在步骤S101,在音频内容上执行成分分析。应当 留意的是,可W使用若干个成分分析方法来执行步骤S101,仅通过示例的方式,运种方法可 W包括但不限于主成分分析(PCA)、独立成分分析(ICA)、B格式分析等。
[0027] 在本文公开的一个示例实施例中,PCA方法被采用,其在W下被详细说明。主成分 分析(PCA)使得原始坐标系能够被旋转,使得新的坐标系的轴线指向数据的差异度最高的 方向。新变量的轴线被称为主成分并且被差异度排序:第一成分表示数据的差异度最高的 方向,而第二成分的方向表示与第一成分正交的剩余差异度最高。运可W自然地被延伸而 获得所需数量的成分,其一起跨越覆盖期待数量的差异度的成分空间。因为成分描述相对 于原始坐标系的特定方向,每个成分多少都取决于每个原始变量:每个成分都是所有原始 变量的线性组合。PCA使用正交变换来将多声道音频内容或可能关联的变量的信号转换为 线性不相关联的信号的一组值作为主成分。
[0028] 然而,应当注意的是,本文公开的示例实施例并不旨在限制如何执行成分分析,许 多如W上所列的其它方法也可W被用来生成良好区分变量的多个成分。例如,通过假设子 成分是非高斯信号并且它们彼此之间统计上独立,独立成分分析可W被用来将信号分离为 附加的子成分。在该假设下,由多种方式执行ICA来估计Cf。的逆值(G J并且随后通过Sf。 =Gf"Xf。获得独立成分。
[0029] 对于通常的成分分析,输入音频内容具有I个声道,并且假设最主要的成分包含 最多J个最支配的源,其被稀疏地分布在整个F频谱或频段(例如,在每个频段中仅存在一 个源)。根据本文公开的示例实施例,在每声道中的每个时频灯巧块的模型可W被定义为 环境信号、J个最支配的源中的一个(或没有)W及剩余较不支配的源之和,其中依照源的 空间感知位置Cf。对源进行加权。
[0030] 图2图示了根据示例实施例的在整个成分上的时频块的聚类的示例。图2的水平 轴线表示离散示出的时间帖,并且垂直轴线表示频率指数。对于一个声道的每个时间帖, 在步骤S101执行成分分析之后生成一些成分。例如,在图2中,示出了包括Ξ个成分的时 间帖210 (n-1),并且每个成分包括若干TF块,每个TF块表示频率范围。相似地,在时间帖 210 (n-1)的右边示出了包括Ξ个成分的时间帖220 (η)。
[0031] 回到由图1图示的流程图,在步骤S102,在每个成分中利用TF块中的一些TF块生 成多个支配源。一些步骤可W被用来执行步骤S102。在本文公开的一个示例实施例中,步 骤S102的第一子步骤可W包括计算特征值和特征向量。
[0032] 为了生成支配源,可能需要用于成分分析特征向量。基于W上描述的PCA模型,对 于每个频带f = 1,一iF,例如通过计算多个声道之间的关联来计算相对于音频内容的协方 差矩阵。产生的1*1协方差矩阵可W被合适的时间常数平滑化。随后执行特征向量分解W 获得特征值入1,扣〉^2,扣>''^1,扣。在得到特征值之后,特征向量¥1,扣,¥2,扣,''',¥1,扣可^基 于特征值分解被生成(在该说明书中,每个特征向量被标示为I维行向量),其中第一特征 向量Vi,f。设及最支配的源。
[0033] 特征向量表示在相应的成分中TF块的空间信息(例如,方向)。因此,具有特征 向量足够接近(例如,在距离或角度方面的预定义阔值W内)的TF块可W被假设为属于相 同的源。那些具有相近方向的TF块可W被聚类W用于对每个源构建频谱库。首先,特征 向量的旋转模糊性(ambiguity)可W通过将每个特征向量的第一项赋予正值被移除,例如 Vk(l) er。随后,可W应用聚类和合并过程。聚类过程可W估计J个簇,并且合并过程可 W合并彼此足够接近的多个簇为一个簇(运可W通过簇的质屯、之间的距离或角度测量,使 得差异小于预确定的阔值为"足够接近"),使得簇的数量,特别是支配源的数目,在合并过 程之后将会是最多J个。此外,在每个簇中的TF块可W被用来构建每个相应的源的频谱库。 在特定实施例中,可W应用K平均聚类方法W便于产生每个源的更准确的空间估计。在源 构建之后,源的数目可W被确定,并且运些源可W被视为支配源。
[0034] 现在聚类过程的具体阐述将在W下参考如图2所示的示例而给出。出于简易的目 的,仅在图2中示出Ξ个成分W及两个(潜在的)源。在通过例如使用PCA方法旋转坐标 系之后,第一成分vi,f。的TF块的特征向量可W被分析及聚类为两个群组,其中白色TF块属 于源1,并且黑色TF块属于源2。为了估计第一成分,可W获得从TF块的特征向量到初始 簇中屯、(例如,作为参考方向)的差异(距离或角度),其中初始簇中屯、可W在旋转的坐标 系中被指派有预定义值。随后,应用诸如K平均之类的迭代精细化方法W将F个TF块分割 为J个簇,在其中每个观察属于具有最接近的平均值的簇。每个群组的簇质屯、可W在处理 第一成分之后获得。
[0035] 第二成分的聚类可W随后使用针对第一成分估计的质屯、被执行。一些约束可W被 设定为使得在相同频段中的不同成分的块始终属于不同的源。运还可W被它们的余弦距离 反映,因为它们如在PCA方法中定义的是彼此正交的。
[0036] 而且,可W将一些过程应用W减弱环境噪声。首先,如果块W高于某阔值的差异 从所有的质屯、偏离,可W将该块排除,因为运表示该块可能属于背景噪声,如在图2中W 点线框标记的那些块。第二,聚类可W仅在最支配的成分(例如,最高的2或3个成分) 上被执行,或在环境和直达分离之后在加权的支配成分上被执行。通过执行环境和直达 分离,加权增益可W被估计为混音信号中的方向比率。该过程的细节被描述在申请号为 201410357288. 8、名称为"分解音频信号"的中国专利申请中,通过引用其整体被并入本文。 在下文中,加权增益被表示为gi, f。,其表示属于直达信号而不是环境信号的第i个成分的TF 块的部分。
[0037] 在本文公开的示例实施例中,为了在时间上跟踪每个支配源,如图2所示,在之前 的帖(例如,在图2中的时间帖(n-1))估计的质屯、可W被计算为用于现在的帖(例如,在 图2中的时间帖(η))中的TF块的聚类的初始质屯、。在本文公开的一个示例实施例中,之 前的帖的移动平均可W被计算为用于现在的帖的初始质屯、。
[0038] 在一个示例实施例中,加权的K平均聚类方法可W被用来获得对于每个支配源的 更加准确的簇质屯、估计。更多的权重可W被指派给具有更高能量的TF块W用于估计质屯、。 同时,更多的权重可W被指派给具有更高部分(Wgk,f。反映)属于源的TF块。因此,加权 的K平均中的加权增益gk,f。Wk,f。可W被确定为gk,f。和归一化的特征值的乘积,如:
[0039]
(2)
[0040] 在支配源在步骤S102被生成之后,在步骤S103,空间参数和频谱参数在步骤S103 基于支配源被估计W用于源分离。
[0041] 当执行如上所述的聚类过程时,特征向量的质屯、可W被估计。每个源j可W被指 派有具有特征向量,或加权的特征向量{gk,f。·Vk,f。} ,的一簇TF块。每个簇是总块集 合的非平凡的分割。因此,每个源的频谱参数的STFT聋,/η可W被重建为块的总和,如:
[0042]
巧
[0043] 每个源的空间元数据可W通过使用其特征向量的相应的质屯、被估计,其被表示 为{瑪^。再归一化可W通过赋予{17。山的弗罗贝尼乌斯范数(化obenius norm)而被应用, 并相应地缩放苗/η。该归一化步骤可W被用来排除琐碎的缩放不确定性(trivial scale indeterminacy)。作为结果空间参数C可W被估计为:
[0044]
(4)
[0045] 图3图示了根据本发明的另一示例实施例的用于从音频内容分离源的方法的流 程图。步骤S301至S303可W对应于参考图1在W上描述的步骤S101至S103,因而对于步 骤S101至S103具体的阐述将不被重复。虽然一旦获得空间参数和频谱参数源就可W被分 离并且音频内容可W被重建,存在一些附加的方法被用来对运些参数进行精细化。
[0046] 在步骤S304,频谱参数和空间参数可W使用一些统计方法被精细化,运些统计方 法诸如高斯混合模型(GMM)和非负矩阵分解(NMF) W便于实现盲源分离度SS)的更佳结 果。
[0047] 在GMM方法中,每个源可W首先被表示为由有限集合的特征频谱形状驱动的随机 变量的实现,例如本地功率频谱密度(PSD)。每个本地PSD描述了一些特定的声音场景。在 GMM形式体系下,针对第j个音频源的模型Λ ,可W由对应于K个本地PSD
k = 1, 2, ...,:Κ的κ个状态组成。由于建模针对每个源执行,出于简化的目的,指数j将在下文 中被省略。
[0048] 在一个示例实施例中,第j个源的STFT可W被视为具有零均值和对焦协方差矩 阵
]的随机高斯复向量。GMM通常被描述在Simon Arberet、Alexey Ozerov、Remi GribonavaUrederic Bimbot 于 2009 年 ICA 发表的"Blind Spectral-GMM Estimation for Underdetermined Instantaneous Audio Source Separation"中,通过弓| 用其整体被并入本文。 W例 GMM随后可W被参数化为Λ = {Uk,S Λ,其中Uk> 0是满足Σ化=1的每个高 斯密度的权重。总共,第j个源的STFT的GMM可能性分布函数可W被写为:
[0050]
(5)
[005U 其中P表示可能性分布函数(PDF), N(s ; μ,Σ)表示具有平均向量μ和对焦协方 差矩阵Σ的复高斯随机向量S的PDF,因而
[0052] 对于每个源j的GMM参数Λ ,通常使用一组训练数据被各自学会。在该特定实施 例中,使用了从等式(3)中的混音估计的弓,/狩。GMM参数基于优化最大可能性(ML)准则被 学会: 柳5引
巧
[0054] 在一个示例实施例中,ML准则的优化可W利用期望最大化(EM)算法而获得。 阳化5] 因此,源的频谱611可^3
获得。源分离可W利用自适应维纳滤波 而执行:
[0056]
I (7)
[0057] 其中K表示混音状态:嚴=作为所有源状态k,e {1,2,···,K}的组合, 并且丫 K,。表示在帖η的状态可能性,满足Σ K 丫 1<,。= 1和:
[0060] 因此维纳滤波G^f可W由下式给出: W61] GK,f= Σ 1 (10) 阳06引其中A是混音矩阵并且其已经被在等式(4)中得出的C初始化。
[006引在等式(7)中,计算所有K混音状态作为所有源状态的组合具有复杂度0(0。为 了减小复杂度为与源数量0(κ -J)呈线性,每个源在时间η的最可能状态可W被下式估 计:
[0064]
(11) W65] 其中马,/〇表示由等式(3)计算的基于PCA的源估计。因此,混音状态可W被简化 为f = [%巧=1而不是所有可能状态的组合。
[0066] 在本文公开的一个示例实施例中,在NMF方法中,利用NMF模型{Wj,Hj}源j的功 率谱图可W被建模,使得|5,|2>1品。该基于^^的模型可^很好地适用于复调,因为其 基本上将源取为具有典型的频谱特征的基本分量之和。
[0067] 期望最大化(EM)算法可W被应用W迭代地估计源参数{W,,H,}和混音参数Af。。在 常规方法中,运些参数利用随机数据被初始化,据称该算法可W非常缓慢并且其依赖于初 始值收敛到本地最大值。
[0068] 在一个示例实施例中,用于EM估计的参数利用在W下步骤中预学会的源来被计 算。 阳069] 初始化步骤:
[0070] 1.基于等式(3)中重建的每个源的频谱参数的STFT 计算源的协方差矩阵: W川
^巧 阳〇7引 2.通过哀\/^1的对角元素确定源的功率谱图: 柳7引
(。)
[0074] 3.基于NMF模型,氧州垒说蝴(阳5,抑瑪加]),初始化每个源j的NMF模型 的非负矩阵:
[0077] 4.经由等式(4)通过C初始化混音矩阵Af。。 阳07引 5.通过使得Σ i|Aii,J2= 1归一化混音和能谱参数Af。、并相应地缩放 (W,,H,}。该步骤排除了琐碎的缩放不确定性。
[0079] 6.随后去迭代EM估计,其中W下描述了一个迭代过程。
[0080] 预期(一个步骤):
[0081] 1.精细化源的功率能谱
[0082] 2.根据W下估计逆混音矩阵Gf,。:
[0083]
[0084] 要注意的是,在欠定条件I)下可W应用等式(16),并且在超定条件(J<I)下 可W应用等式(17),因为估计的协方差矩阵(
)在J<I时可能不是 可逆的。
[00财 3.根据W下计算音频源的协方差矩阵W及互协方差矩阵巧;
[00蝴 4.经由等式(蝴更新源的功率能谱^八。最大化(一个步骤):
[0089] 1.根据W下更新混音参数Af。:
[0090]
(20、
[0091] 2.经由等式(14)和(15)更新能谱参数。 阳〇巧 3.通过使得Σ i|Ai,,J2= 1再归一化参数Af。、并且相
[0093] 应地缩放{W,,Η,}。该步骤排除了琐碎的缩放不确定性。
[0094] 与为混音参数和频谱参数随机地指派所选值的常规ΕΜ迭代过程相比,本文公开 的示例实施例为W上所述的混音参数和频谱参数中的至少一个计算初始值,通过ΕΜ迭代 过程对运些参数进行精细化从而在速度和准确度方面改进了性能。本文公开的示例实施例 允许统计方法来避免较宽类的音频内容(例如,音乐、电影声效等)的缺乏典型训练数据的 问题。其还允许专口化源模型为给定混音中的给定源的特定属性(例如,在电影中采用的 特殊声效或特定乐器或乐器的组合)。本文公开的示例实施例也不被目标数据中的诸如麦 克风类型、空间声学特性、声道失真等特定特性所影响。而且,可W实现更快的收敛速度,并 且计算复杂度可W被控制。
[0095] 在通过如W上所述的诸如GMM和NMF之类的方法对空间参数和频谱参数进行精细 化,音频内容的源可W基于空间参数和频谱参数在图3中所示的步骤S305经由维纳滤波被 重建。所重建的(支配)源扔/η 及它们W A反映的相应的位置一起将会被用于用户辅 助源提取,如W下所述。
[0096] 在步骤S306,所重建的源可W通过图形用户界面(GUI)被表示。换言之,所重建 的源交化化和它们相应的位置(W A反映)可W通过GUI向用户显示。示例GUI可W在图4 中被示出,其中用户能够观察到(支配)源的空间位置,通过点击它们而收听它们的声音, 选择意在被提取的一个或多个目标源,并且标记开始和结束时间。例如,如图4所示,3D空 间可W被多个扬声器的位置所限定。然而,应当理解的是,诸如7. 1.4环绕系统之类的一些 系统能够构建3D空间,而诸如5. 1环绕系统之类的一些其它系统仅能够构建2D空间。对 于后者的情况,可W通过GUI在3D空间的底面显示音频源,运表示没有关于高度的信息被 提供。
[0097] 参照图4,重建的源401在另一重建的源402的左边被示出,并且用户可W点击重 建的源401和402中的任意一个来收听它W进一步处理音频内容。如图4所示,重建的源 401和402中的每一个被仿真为具有由若干具有不同深度的圆表示的空间位置。较深的圆 (即着色较重的圆)可w表示源的较高的强度,其可w被理解为更接近源的空间位置。另一 方面,较浅的圆(即着色较轻的圆)可W表示源的较低的强度,其可W被理解为远离源的空 间位置。图4仅示出了源分离的仿真的示例时刻,并且重建的源的分布可W随时间而变化。 附加地,空间信息可W被不同的颜色所显示。例如,较低频率的源可W被指派为蓝色色调, 而较高频率的源可W被指派为红色色调。
[0098] 通过GUI的源选择的输出结果作为"预期源快照"可W被参考,其包括W下关于预 期源的信息中的至少一个:(1)频谱结构,(2)空间位置,W及(3)激活时间(源的开始及停 止时间)。作为结果,源分离方法可W应用有明确的结构/位置/时间限制。预期源在精细 化过程期间被加强。运可W是在收敛性能和速度方面比起使用混乱初始化的标准NMF/GMM 方法而言的显著增强。
[0099] 具有本文公开的示例实施例中包含的GUI,其允许按需求提取特定源,意味着预期 源和它们相应的位置可W通过GUI被表示,使得用户能够在进一步的分离和精细化迭代被 应用之前通过它们的声音和/或位置选择预期源。
[0100] 具有W上所述的新颖BSS框架,在混音音频中的潜在的源可W通过使用本发明中 说明的成分分析被学会。因为关于潜在源的信息基于每个簇被估计,空间和频谱信息可W 被获得,因为对于诸如GMM和NMF方法之类的统计模型而言不需要训练数据或先验信息。换 言之,本发明比起需要训练数据的常规BSS方法而言是有利的,因为其利用全盲方法而不 需要预先训练参数并且因而不需要训练数据。 阳101] 图5图示了根据本发明的示例实施例的用于从音频内容分离源的系统500。如 图所示,系统500包括成分分析单元501,被配置为对所述音频内容在所述多个声道的每 个声道上执行成分分析W生成多个成分,所述多个成分中的每个成分包括在全频带上的时 频块;成分分析单元501从输入接收多声道格式的音频内容。系统500还包括源生成单元 502,其被配置为利用多个成分中的至少一个时间频率片生成至少一个支配源,W及源分离 单元503,其被配置为基于支配源通过估计空间参数和频谱参数将源从音频内容分离。 [0102] 在一些示例实施例中,源生成单元502可W包括聚类单元,其被配置为将多个方 向聚类为至少一个群组,每个群组包括多个时频块,该多个方向从多个成分中产生;W及跟 踪单元,其被配置为通过在时间上跟踪群组生成支配源。在本文公开的示例实施例中,聚类 单元可W被配置为将所有的成分中与初始值的差异在预定义的聚类阔值W内的方向聚类 为群组。进一步在本文公开的示例实施例中,聚类单元可W包括质屯、估计单元,其被配置为 基于所述多个时频块的直达性和所述多个时频块的能量级之一W及所述初始值估计所述 群组的质屯、。在本文公开的一些示例实施例中,跟踪单元可W包括至少W下中的一个:前质 屯、指派单元,其被配置为将前一时间帖的估计的质屯、指派为现在的时间帖的初始值;W及 移动平均质屯、指派单元,其被配置为将之前的时间帖中估计的移动平均质屯、指派为用于现 在的时间帖的初始值。 阳103] 在一些其它示例实施例中,源分离单元503可W包括质屯、估计单元,其被配置为 估计支配源的方向的质屯、;空间源分离单元,其被配置为基于质屯、在多个成分中的每个成 分内估计时频块的空间参数;W及频谱源分离单元,其被配置为基于质屯、在多个成分中的 每个成分内估计时频块的频谱参数。在本文公开的一些示例实施例中,源分离单元503可 W包括:高斯混合模型参数计算单元,其被配置为基于频谱参数计算高斯混合模型参数; w及状态估计单元,其被配置为根据高丝混合模型参数、空间参数w及频谱参数在每个时 间帖估计每个源的最可能状态。而且,源分离单元503可W包括:初始化单元,其被配置为 执行混音参数和能谱参数的初始化过程;W及参数更新单元,其被配置为通过EM迭代过程 更新能谱参数和混音参数。在本文公开的又一些示例实施例中,初始化单元可W包括至少 是W下中的一个:混音参数初始化单元,其被配置为基于空间参数初始化混音参数;W及 能谱参数计算单元,其被配置为基于频谱参数计算能谱参数。
[0104] 在一些示例实施例中,该系统可W包括源重建单元,其被配置为基于支配源的频 谱参数和空间参数重建音频内容的源;W及源表示单元,其被配置为通过图形用户界面表 示所重建的源。
[01化]为了清楚起见,系统500的一些可选部件在图5中并未示出。然而应当理解的是, 如上述参照图1至4所描述的特征均适用于系统500。此外,系统500的部件可W是硬件 模块或软件单元模块。例如,在一些实施例中,系统500可W部分地或完全地W软件/或 固件实现,例如实现为收录在计算机可读介质中的计算机程序产品。可替代地或附加地, 系统500可W部分地或完全地基于硬件实现,例如作为集成电路(1C)、应用专用集成电路 (ASIC)、片上系统(S0C)、现场可编程口阵列(FPGA)等。本发明的范围并不局限于该方面。 阳106] 图6示出了适于实施本文公开的示例实施例的示例计算机系统600的框图。如 图所示,计算机系统600包括中央处理单元(CPU)601,其能够根据存储在只读存储器 (ROM) 602中的程序或从存储区608加载到随机存取存储器(RAM) 603的程序而执行各种处 理。在RAM 603中,当CPU 601执行各种处理等等时,还根据所需存储有所需的数据。CPU 60UR0M 602和RAM 603经由总线604彼此相连。输入/输出(I/O)接口 605也连接到总 线 604。 阳107] W下部件连接至I/O接口 605 :包括键盘、鼠标等的输入部分606 ;包括诸如阴极 射线管(CRT)、液晶显示器化CD)等W及扬声器等的输出部分607 ;包括硬盘等的存储部分 608 ; W及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经 由诸如因特网之类的网络执行通信处理。驱动器610也根据需要连接至I/O接口 605。可 拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等,根据需要安装在驱动器610上,使 得从其上读出的计算机程序根据需要被安装入存储部分608。
[0108] 特别地,根据本文公开的示例实施例,上文参考图1至图4描述的过程可W被实现 为计算机软件程序。例如,本文公开的示例实施例包括一种计算机程序产品,其包括有形地 包含在机器可读介质上的计算机程序,该计算机程序包含用于执行方法100和/或300的 程序代码。在运样的实施例中,该计算机程序可W通过通信部分609从网络上被下载和安 装,和/或从可拆卸介质611被安装。
[0109] 一般而言,本文公开的各种示例实施例可W在硬件或专用电路、软件、逻辑、或其 任何组合中实施。某些方面可W在硬件中实施,而其它方面可W在可由控制器、微处理器或 其它计算设备执行的固件或软件中实施。当本文公开的示例实施例的各方面被图示或描述 为框图、流程图或使用某些其它图形表示时,将理解此处描述的方框、装置、系统、技术或方 法可W作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其 它计算设备,或其某些组合中实施。
[0110] 而且,流程图中的各框可W被看作是方法步骤,和/或计算机程序代码的操作生 成的操作,和/或理解为执行相关功能的多个禪合的逻辑电路元件。例如,本文公开的示例 实施例包括计算机程序产品,其包括有形地实现在机器可读介质上的计算机程序,该计算 机程序包含被配置为执行上文描述方法的程序代码。 阳111] 在本公开的上下文中,机器可读介质可W是包含或存储用于或有关于指令执行系 统、装置或设备的程序的任何有形介质。机器可读介质可W是机器可读信号介质或机器可 读存储介质。机器可读介质可W包括但不限于电子的、磁的、光学的、电磁的、红外的或半 导体系统、装置或设备,或其任意合适的组合。机器可读存储介质的更详细示例包括带有 一根或多个导线的电气连接、便携式计算机磁盘、硬盘、随机存储存储器(RAM)、只读存储器 (ROM)、可擦除可编程只读存储器巧PROM或闪存)、光存储设备、磁存储设备,或其任意合适 的组合。
[0112] 用于执行本发明的方法的计算机程序代码可W用一种或多种编程语言编写。运些 计算机程序代码可W提供给通用计算机、专用计算机或其它可编程的数据处理装置的处理 器,使得程序代码在被计算机或其它可编程的数据处理装置执行的时候,引起在流程图和/ 或框图中规定的功能/操作被实施。程序代码可W完全在计算机上、部分在计算机上、作为 独立的软件包、部分在计算机上且部分在远程计算机上或完全在远程计算机或服务器上或 在一个或多个远程计算机或服务器之间分布而执行。
[0113] 另外,尽管操作W特定顺序被描绘,但运并不应该被理解为要求此类操作W示出 的特定顺序或W相继顺序完成,或者执行所有图示的操作W获取期望结果。在某些情况下, 多任务或并行处理可能是有利的。同样地,尽管上述讨论包含了某些特定的实施细节,但运 并不应解释为限制任何发明或权利要求的范围,而应解释为对可W针对特定发明的特定实 施例的描述。本说明书中在分开的实施例的上下文中描述的某些特征也可W整合实施在单 个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可W分离地在多个实施 例火灾任意合适的子组合中实施。
[0114] 针对前述本发明的示例实施例的各种修改、改变将在连同附图查看前述描述时对 相关技术领域的技术人员变得明显。任何及所有修改将仍落入非限制的和本发明的示例实 施例范围。此外,前述说明书和附图存在启发的益处,设及运些实施例的技术领域的技术人 员将会想到此处阐明的其它示例实施例。
[0115] 相应地,本文公开的示例实施例可W被体现为本文描述的任意形式。例如,W下列 举的示例实施例巧邸)描述了本发明的一些方面的一些结构、特征和功能。
[0116] E邸1. 一种用于从混音信号分离源的方法,混音信号由多个声道(至少两个不同 的声道)组成,包括:
[0117] ?获得一组彼此弱关联/不关联(或弱依赖/不依赖)的成分,该组成分基于多个 音频信号而生成;
[0118] ?通过利用成分的时频块的子组的空间一致性,利用成分的运些时频块的子组构 建一组最支配的方向源;
[0119] ?基于构建的最支配的方向源估计源参数,其中源参数包括空间参数(混音矩阵) W及源频谱参数,专口化源在目标混音中的统计特征,使得运些参数导致包括至少录制和 编码可变性的可变性;
[0120] ?初始化用于源分离迭代的源模型,W加速收敛速度,从而保持迭代由于任何混乱 的初始值收敛到本地最大值,和/或强制特定的收敛目标。
[0121] E邸2.根据邸E 1的方法,其中确定该组最支配的方向源包括: 阳122] ?估计该组成分的TF块的空间参数;
[0123] ?将具有空间参数的TF块聚类,合并非常接近的簇; 阳124] ?沿时间跟踪每个簇;
[01巧]?再归一化空间参数和频谱参数,并用簇构建最支配的方向源。 阳126] E邸3.根据邸E 2的方法,其中在呢个成分中估计TF块的空间参数包括至少W下 中的一个:
[0127] ?计算多个音频信号的协方差矩阵的特征值分解(对于基于PCA的方法),并指派 每个PCA成分的TF块的特征向量作为它们的空间参数,并排除旋转不确定性;
[0128] ?估计逆混音参数(对于基于ICA的方法)为每个ICA成分的空间参数,并排除旋 转不确定性。 阳129] E邸4.根据邸E 2的方法,其中将具有空间参数的TF块聚类包括:
[0130] ?对于最支配的成分,计算TF块与它们的空间参数的距离,聚类块并估计簇质屯、; 阳131] ?执行W下步骤一些迭代:对于较不支配的成分,聚类块与之前估计的质屯、,并且 可W增加限制使得不同成分的TF块始终属于不同的簇。 阳132] E邸5.根据邸E 4的方法,其中迭代被至少W下中的一个执行: 阳133] ?最支配的成分;
[0134] ?加权的成分应用有直达和环境分离产生的增益。
[0135] E邸6.根据邸E 2的方法,其中聚类具有空间参数的TF块进一步包括: 阳136] ?使用加权的K平均聚类方法,其中加权因子由TF块的能量和直达和环境分离产 生的方向增益估计共同确定。 阳137] E邸7.根据邸E 2的方法,其中沿时间跟踪每个簇包括至少W下中的一个: 阳13引?采用在前一帖估计的质屯、作为现在聚类的初始质屯、;
[0139] ?采用在之前的帖估计的质屯、的移动平均作为现在聚类的初始质屯、。
[0140] E邸8.根据邸E 1的方法,其中利用成分的时频块的子组构建该组最支配的方向 源包括: 阳141] ?为每个源指派沿着它们(加权的)空间参数的TF块的一个簇,运是所有块的非 琐碎分割; 阳142] ?估计源的空间参数为其相应的簇质屯、; 阳143] ?通过应用其相应的空间参数到多个音频信号的能谱而恢复源能谱。
[0144] 根据邸E 1的方法,其中基于构建的最支配的方向源估计源参数包括W下中的至 少一个:
[0145] ?基于优化最大可能性(ML)准则,使用恢复的源能谱W计算GMM参数; 阳146] ?糊涂呀优化另一 ML准则,在每个时间帖处估计每个源的最可能状态W通过减少 可能的GMM状态的数目而加速计算。 阳147] E邸10.根据邸E 1的方法,其中基于构建的最支配的方向源估计源参数包括W 下中的至少一个:
[0148] ?对于预期步骤的第一迭代,使用恢复的源能谱计算协方差矩阵,因而源的功率谱 图包括矩阵的对角元素;
[0149] ?刀御天元最大化步骤的第一迭代,使用NMF建模源的功率谱图,初始化每个源的 非负矩阵,并且实用加权的特征向量初始化混音矩阵;
[0150] ?归一化源参数W排除缩放不确定性; 阳15U ?对于基于NMF的BSS利用W上初始化的模型参数继续下一 EM迭代。 阳152] E邸11.根据邸E 1的方法,其中为源分离迭代初始化源模型W强制特定的收敛 目标包括W下中的至少一个: 阳153] ?通过图形用户界面(GUI)表示每个源的重建的声音和位置(由混音参数反映);
[0154] ?在用户选择一个活多个目标源和/或标记它们的激活时间之后通过GUI创建预 期源快照;
[0K5] ?应用获知的源分离迭代W基于预期源快照进一步精细化具有有明确的结构/位 置/时间限制的至少一个的目标源。
[0156] 应该理解的是,本文公开的示例实施例并不限于所公开的具体实施例,并且修改 和其他实施例旨在被包括在所附权利要求的范围之内。尽管本文使用了特定术语,它们被 用于通用的和描述性的意义而不是用于限制的目的。
【主权项】
1. 一种从音频内容分离源的方法,所述音频内容是基于多个声道的多声道格式,所述 方法包括: 对所述音频内容在所述多个声道的每个声道上执行成分分析以生成多个成分,所述多 个成分中的每个成分包括在全频带上的时频块; 利用所述多个成分中的至少一个所述时频块生成至少一个支配源;以及 通过基于所述支配源估计空间参数和频谱参数,从所述音频内容分离所述源。2. 根据权利要求1所述的方法,其中生成至少一个支配源包括: 将多个方向聚类为至少一个群组,每个群组包括多个时频块,所述多个方向从所述多 个成分中生成;以及 通过在时间上跟踪所述群组生成所述支配源。3. 根据权利要求2所述的方法,其中将所述方向聚类为至少一个群组包括: 将所有的所述成分中与初始值的差异在预定义的聚类阈值以内的所述方向聚类为所 述群组。4. 根据权利要求3所述的方法,其中将所述方向聚类为至少一个群组包括: 基于所述多个时频块的直达性和所述多个时频块的能量级中的至少一个以及所述初 始值估计所述群组的质心。5. 根据权利要求4所述的方法,其中通过在时间上跟踪所述群组生成所述支配源包括 以下项中的至少一项: 将前一时间帧的估计的质心指派作为现在时间帧的所述初始值;以及 将之前的时间帧中估计的移动平均质心指派作为现在时间帧的所述初始值。6. 根据权利要求1所述的方法,其中通过估计空间参数和频谱参数从所述音频内容分 离所述源包括: 针对所述支配源估计所述方向的质心; 基于所述质心在所述多个成分中的每个成分内估计所述时频块的所述空间参数;以及 基于所述质心在所述多个成分中的每个成分内估计所述时频块的所述频谱参数。7. 根据权利要求6所述的方法,其中通过估计空间参数和频谱参数从所述音频内容分 离所述源进一步包括: 基于所述频谱参数计算高斯混合模型参数;以及 基于所述高斯模型参数、所述空间参数以及所述频谱参数在每个时间帧针对所述源中 的每个源估计最可能状态。8. 根据权利要求6所述的方法,其中通过估计空间参数和频谱参数从所述音频内容分 离所述源进一步包括: 执行混音参数和能谱参数的初始化过程;以及 通过EM迭代过程更新所述能谱参数和所述混音参数。9. 根据权利要求8所述的方法,其中执行所述初始化过程包括以下项中的至少一项: 基于所述空间参数初始化混音参数;以及 基于所述频谱参数计算能谱参数。10. 根据权利要求1所述的系统,其中所述方法进一步包括: 基于所述支配源的所述频谱参数和所述空间参数重建所述音频内容的源;以及 通过图形用户界面表示所重建的源。11. 一种从音频内容分离源的系统,所述音频内容是基于多个声道的多声道格式,所述 系统包括: 成分分析单元,被配置为对所述音频内容在所述多个声道的每个声道上执行成分分析 以生成多个成分,所述多个成分中的每个成分包括在全频带上的时频块; 源生成单元,被配置为利用所述多个成分中的至少一个所述时频块生成至少一个支配 源;以及 源分离单元,被配置为通过基于所述支配源估计空间参数和频谱参数,从所述音频内 容分离所述源。12. 根据权利要求11所述的系统,其中所述源生成单元包括: 聚类单元,被配置为将多个方向聚类为至少一个群组,每个群组包括多个时频块,所述 多个方向从所述多个成分中生成;以及 跟踪单元,被配置为通过在时间上跟踪所述群组生成所述支配源。13. 根据权利要求12所述的系统,其中所述聚类单元被配置为将所有的所述成分中与 初始值的差异在预定义的聚类阈值以内的所述方向聚类为所述群组。14. 根据权利要求13所述的系统,其中所述聚类单元进一步包括: 质心估计单元,被配置为基于所述多个时频块的直达性和所述多个时频块的能量级中 的至少一个以及所述初始值估计所述群组的质心。15. 根据权利要求14所述的系统,其中所述跟踪单元包括以下项中的至少一项: 前质心指派单元,被配置为将前一时间帧的估计的质心指派作为现在时间帧的所述初 始值;以及 移动平均质心指派单元,被配置为将之前的时间帧中估计的移动平均质心指派作为现 在时间帧的所述初始值。16. 根据权利要求11所述的系统,其中所述源分离单元包括: 质心估计单元,被配置为针对所述支配源估计所述方向的质心; 空间源分离单元,被配置为基于所述质心在所述多个成分中的每个成分内估计所述时 频块的所述空间参数;以及 频谱源分离单元,被配置为基于所述质心在所述多个成分中的每个成分内估计所述时 频块的所述频谱参数。17. 根据权利要求16所述的系统,其中所述源分离单元进一步包括: 高斯混合模型参数计算单元,被配置为基于所述频谱参数计算高斯混合模型参数;以 及 状态估计单元,被配置为基于所述高斯模型参数、所述空间参数以及所述频谱参数在 每个时间帧针对所述源中的每个源估计最可能状态。18. 根据权利要求16所述的系统,其中所述源分离单元进一步包括: 初始化单元,被配置为执行混音参数和能谱参数的初始化过程;以及 参数更新单元,被配置为通过EM迭代过程更新所述能谱参数和所述混音参数。19. 根据权利要求18所述的系统,其中所述初始化单元包括以下项中的至少一项: 混音参数初始化单元,被配置为基于所述空间参数初始化混音参数;以及 能谱参数计算单元,被配置为基于所述频谱参数计算能谱参数。20. 根据权利要求11所述的系统,其中所述系统进一步包括: 源重建单元,被配置为基于所述支配源的所述频谱参数和所述空间参数重建所述音频 内容的源;以及 源表示单元,被配置为通过图形用户界面表示所重建的源。21. -种用于从音频内容分离源的计算机程序产品,所述计算机程序产品被有形地存 储在非瞬态计算机可读介质上并且包括计算机可执行指令,所述计算机可执行指令在被执 行时使得机器执行根据权利要求1至10中任一项所述的方法的步骤。
【文档编号】G10L21/0272GK105989852SQ201510085195
【公开日】2016年10月5日
【申请日】2015年2月16日
【发明人】王珺
【申请人】杜比实验室特许公司