生成针对音频对象的元数据的制作方法_3

文档序号:9892162阅读:来源:国知局
选择跨越音频对象的第一顿到最 后一顿的最佳位置。全局成本函数考虑了针对一个顿的候选位置中的每个位置W及针对下 一顿的候选位置中的每个位置之间的距离,并旨在通过考虑在每对相邻的顿之间的距离的 总和而确定音频对象从第一顿到最后一顿的多个估计位置。作为结果,最佳路径由该多顿 跟踪处理构成作为估计轨迹。该处理可W被称为多顿跟踪处理,其适用于对应关系法和混 合法W用于获得平滑的轨迹。另一方面,可W应用对全部顿的估计位置的简单平滑化到能 量加权法。
[0081] 针对第f顿的候选位置组可W被表示为,f = 1,. . .,F,其由Μ(巧个候选位置 pf构成。在一个实施例中,cf可由下面的公式计算:
[0082]
(6)
[0083] 候选位置组的大小可W随顿改变。如图5所示,多顿跟踪处理的目的是寻求从第 一顿到最后一顿的轨迹。在每一顿,从候选位置中选出仅仅一个候选位置。在针对多个顿 的估计位置被确定后,可W基于所选择的估计位置自动生成轨迹。总而言之,多顿跟踪处理 针对多个顿中的每个顿选择最佳位置,并且针对多个顿中的每个顿的估计位置的选择相对 于多个顿中其余的顿被全局地优化。
[0084] 为了寻求最佳的轨迹,在一个实施例中,可W通过最小化目标函数来优化,如W 下:
[0085]
(7)
[0086] 其中pf G i表示候选位置在第一顿的指数,即i = 1,2, ...,M(f) ;f = 1,2, . . .,F ;j表示候选位置在第二顿的指数,即,j = 1,2, . . .,M(f) ;f = 1,2,..., F ;m表示候选位置在最后一顿的指数,即,m = 1,2, ...,M(f) ;f = 1,2, ...,F;而其中
表示预定义的成本函数,测量轨迹产生的成本量。
[0087] W上优化试图从M(l) XM似X. . . XM(巧个
的可能的组合中用 最小的成本值寻求最佳轨迹。成本函数的定义取决于具体的要求。例如,在一个实施例中, 成本函数可被定义为:
[0088]
(8)
[008引其I
表示在位置与p/+i之间的距离。
[0090] 通过计算所有可能的距离,可W生成平滑的轨迹。在一个实施例中,如果存在对于 多个顿中的一个顿希望经过特定的候选位置的预定义偏好,一组成本cf可W被分配到送些 候选位置,并且在一个实施例中,公式(8)将变为:
[0091]
(9)
[0092] 例如,在一个实施例中,成本cf的定义可W是:
[009引
(10)
[0094] 其中df表示在第f顿在第i个候选平移向量(或增益向量)与所计算的平移向 量(或增益向量)之间的距离,函数h是一类函数,其值随着df的值的增加而减小,例如, 在一个实施例中
并且δ表示在h与公式巧)於
之 间的平衡因子。
[0095] 可替代地,在另一个实施例中,如果存在选择特定轨迹的偏好,一组权重可W 被添加到公式(8)中W用于使轨迹倾向于通过特定的候选位置,并且在一个实施例中,成 本函数可W被改写为:
[009引
(U)
[0097] 其中表示针对第f顿从位置i跳到位置j的偏好。
[009引值趙低,选择路径i 一 j的可能性越高。在极端的情况下,的值可W被设 置为无穷大,送意味着从位置i跳到位置j是最不希望的。因为公式(10)中的部分 地表示经过候选位置的置信度得分,在一个实施例中,可W通过下面的公式导出:
[0099]
(12)
[0100] 通将cf代入公式(9)或将代入公式(11),能够依据由针对音频对象的多个顿 的所有候选位置所形成的所有可能的轨迹的优选轨迹确定估计位置。优选轨迹通过使得针 对多个顿中的至少一个顿的候选位置中的至少一个位置倾向于被选择为估计位置而获得。
[OW] 因为总共有M(l) XM似X. . . XM(巧个...,Ρ友)的候选组合,它需要大 量的计算来列举每个可能的轨迹W获得在针对多个顿中每相邻的两个顿的候选位置之间 的距离的最小总和。可w应用多种动态编程技术w最小化生成最佳轨迹的计算。在一个实 施例中,一种送样的技术可W是:
[0102] ?初始4·
i = 1,...,M(l),其中c/巧储高至第f顿的第i个候 选位置的最小累计成本值,W及巧储第(f-1)顿的位置的指数,从中c/的值是最小的。 [010引 ?对于f = 2至F
[0104] 1.计算在第f顿从第i个位置跳到第j个位置的成本,即
[0105] 2.通过
计算高至第f顿的第j个位置的最小累计成本, 并通过
存储第(f-1)顿的位置的指数。
[0106] ?结束
[0107] ?利用
技现在最后顿的最小成本位置S最小成本路径的位 置的指数可W由下面的反向公式组成:
[010 引
[0109] ?因而最佳路径可表示义
[0110] 在一个实施例中,在步骤S204的维度转换处理可W基于音频对象的内容类型W 及针对多个顿的每个顿的估计位置中的至少一个被用来将针对多个顿中的每个顿的估计 位置从二维格式转换为Η维格式,或通过从估计位置中移除一个维度的信息将针对多个顿 的每个顿的估计位置从3D格式转换为2D格式。
[0111] 随着音频处理技术的进步,通过添加若干顶置扬声器,由多声道格式的音频内容 创建的音频场景从2D平面逐渐演变为3D空间。因为利用若干顶置声道的3D音频场景提 供了更逼真的听觉体验,估计针对音频对象的3D轨迹是理想的。大多数的音频内容不包含 高度信息,因为大多数市场上的多声道格式的内容是基于环绕5. 1或环绕7. 1的。其结果 是,估计轨迹只能在2D平面上生成。为了将送些音频内容从2D格式扩展至3D格 式,期望增加的高度维度zf。
[0112] 高度的增加可手动地完成或通过应用一些经验法则自动地完成。送些法则或者是 从混音师的共同行为所启发,或者是在当前的道染技术的限制下得到。例如,在一个实施例 中,如果音频对象的估计位置位于靠近空间的中必,可W通过将高度设定为预定义值而不 管其内容类型而将该音频对象放置到顶置扬声器。送可W从混音师的共同行为中得到,因 为如果混音师理解某音频对象为要被顶置扬声器所播放,他通常会有意地将该音频对象布 置在空间的中必。
[0113] 在另一个实施例中,若音频对象的估计位置接近空间的边或壁,则针对该音频对 象的高度可W被设置为零。在由多个扬声器限定的边附近的估计位置可能是不具有高度信 息的音频对象,因为混音师不能简单地仅通过使用在一侧上的扬声器来生成被感知为从天 空中传出的音频对象。高度可W被共同地表示为具有特定空间(诸如半球)的函数g(X, y)。在半球中,高度的值在该空间的中必处达到1 (即最大值),并在从中必向壁移动时逐渐 减小到零。
[0114] 在另一个实施例中,如果音频对象的内容类型属于预定义类型(送通常不在平面 中,例如鸟叫、雷声、雨声等),该音频对象可W通过将高度设置为预定义值而被放置到顶置 扬声器。高度可表示为函数f(c),其中C是内容类型。
[0115] 如果音频对象的内容类型指示它是顶置对象,高度通过函数f(c)被设定为预定 义值;否则,函数g(X,y)被用来基于音频对象的估计位置获得高度的值。可替代地,在一个 实施例中,总体函数可W是h(x,y,Z),其中h(x,y,C) = g(x,y)Xf(c)。
[0116] 关于内容类型的信息可W被手动注释或通过人工智能技术自动获得。应当注意的 是,音频对象的源或完整性并非必要。音频对象可W来自其中音频对象不彼此混合的现成 的纯对象内容,或者来自一些音频对象提取算法的输出。对于现成的音频对象,应用经验法 则W便添加高度的值是安全的。
[0117] 然而,对于从多声道格式的音频内容自动提取的音频对象,应当考虑到相同的音 频对象的一些能量可能仍存留在平面(地面扬声器)中的事实。例如,对于7. 1输入,通过 函数g(x,y)或f(c)计算出的高度维度,音频对象被放置到顶置扬声器。由于不完美的音 频对象提取,不是所有的音频对象的能量/频谱被放置到顶置扬声器,仍有部分存留在平 面中。存在一定的风险使播放的声音不被感知为集中的对象。为了减轻风险,在一个实施 例中,通过引入介于0与1之间的比例因子S提出了自适应的高度估计,如;
[011 引 Z = sXz"'" (13)
[0119] 其中z^^表示从g狂,y)和/或^(3)所估计的高度。
[0120] 值S可W通过考虑平面中的剩余能量被设定。例如,当没有剩余能量在平面中时 它可W被设置为1,或如果音频对象的几乎所有能量都在平面中时被设置为0。在平面中的 剩余能量与音频对象的总能量的比率可被表示为r。在一个实施例中,S可W由S = l-r进 行估计,使其值随r线性变化。在另一个实施方案中,S可W由
进行估计,其中 参数λ控制函数的斜率,其值随r非线性变化。可W利用真实数据对λ的值进行调整。
[0121] 在一个实施例中,也可W包括3D至2D转换。送对于没有顶置扬声器的播放系统 是有用的。送种转换需要将轨迹从3D格式转换成2D格式。实现该转换的简单方法是丢弃 记录在3D格式中的高度维度并仅使用在一个平面中的位置来表示音频内容。 。12引 威知大小估计
[0123] 现在参考图6,其示出了根据本发明的示例实施例的用于处理音频对象W便于估 计其感知大小的方法600的流程图。
[0124] 当多声道格式的音频对象由多声道系统播放时,例如会在输入信号之间存在相 差。其结果是,当信号被各种换能器播放时,收听者可W感知音频对象为具有一定面积或大 小而不是集中的点的幻象。当然,像关于音频对象的轨迹或位置的信息,也期望能够估计音 频对象的感知大小。
[0125] 如先前所述,如果两个相同的信号由两个扬声器100同时播放,收听者将可能感 知音频对象为点幻象,如图1的左图所示,其中ICC值等于1。在实际中,混音师一般不会将 音频对象道染为具有点幻象,而是将ICC值分配在0与1之间。在一个实施例中,感知大小 也是0与1之间的值,其中感性大小为0意味着点幻象,并且感知大小为1意味着从一个扬 声器延伸到另一个扬声器的大小。因此,感知大小独立于两个扬声器之间的物理距离,并仅 由声道间相关性即ICC确定。在下文中将呈现方法600的步骤。
[0126] 在步骤S601,如图7所示的多个声道的每对700的声道间相关系数(ICC)在时域 或频域中被计算出来。由于感知大小是基于个人感知的参数,很难用解析方法来得到关于 其ICC值的相关性。经常使用的方法是诉诸听音实验W收集实验数据,然后用统计方法来 找到最佳的对应关系或很好地拟合该经验数据的函数。例如,在一个实施例中,图8图示了 曲线拟合后的函数。
[0127] 如图示图8中的曲线示出了感知大小与ICC值之间的关系。可W观察到,感知大 小关于ICC值非线性地变化。
[012引为了从输入音频信号生成ICC值,需要进行几个步骤。作为实验设置的示例,如图 7所示,两个扬声器700被放置在收听者710的前方。图7仅图示了放置在收听者710前方
当前第3页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1