关于与分离的音频信号相关联的特征的修改的方法、装置和计算机程序与流程

文档序号:12864808阅读:231来源:国知局
关于与分离的音频信号相关联的特征的修改的方法、装置和计算机程序与流程

本说明书涉及与分离的音频信号相关联的特征的修改。



背景技术:

音频信号处理技术允许将各个声源从包括来自多个不同声源的分量的音频信号中识别和分离。一旦表示所识别的音频信号的音频信号已经从剩余的信号中分离,则分离的信号的特征可以被修改,以便向听者提供不同的听觉效果。



技术实现要素:

在第一方面,本说明书描述了一种方法,该方法包括基于所确定的将表示声源的音频信号从包括源自于至少两个声源的分量的复合音频信号中分离的成功度量来确定分离信号修改参数的值,该分离信号修改参数的值指示与所分离的音频信号相关联的特征的修改范围。

分离信号修改参数可以是空间重新定位参数,其指示用于所分离的音频信号的空间重新定位的空间重新定位范围。与所分离的音频信号相关联的特征的其它示例可以包括但不限于幅度、均衡、混响、失真和压缩。

该方法可以包括确定将音频信号从复合音频信号中分离的成功度量。

该方法可以包括基于分离信号修改参数的值来限制与所分离的音频信号相关联的特征的允许修改量。

该方法可以包括使得所确定的分离信号修改参数的值的指示被提供给用户。

该方法可以包括,在成功度量指示分离的成功高于成功度阈值时,确定指示特征的整个修改范围的分离信号修改参数的值。

在成功度量指示分离的成功低于成功度阈值时,所确定的分离信号修改参数的值可以指示与成功度具有直接关系的修改范围。

成功度量可以包括复合音频信号的剩余和至少一个参考音频信号之间的相关性。该至少一个参考信号可以包括以下的一个或两者:所分离的音频信号和源自于附加记录设备中的一个的信号,该信号与关于所分离的音频信号的音频源相关联。该方法还可以包括,如果相关性低于预定阈值相关性,则确定指示整个修改范围的分离信号修改参数的值,以及如果相关性高于预定阈值相关性,则确定指示与相关性具有相反关系的修改范围的分离信号修改参数的值。

在其它示例中,分离的成功度量可以附加地或可选地包括与复合音频信号的剩余相关联的频谱和与参考音频信号相关联的频谱之间的相关性。在又一其它示例中,分离的成功度量可以附加地或可选地包括复合音频信号的剩余和对应于复合音频信号的视频信号的分量之间的相关性。

复合音频信号的剩余和参考信号之间或者复合音频信号的剩余和对应于复合音频信号的视频信号的分量之间的相关性可以与分离的成功度具有相反关系。

该方法可以包括通过将所分离的音频信号在空间上重新定位到更接近所分离的音频信号的原始空间位置的位置来响应确定分离的成功度量指示,与复合音频信号的当前时间帧的分离的成功度相比,复合音频信号的后续时间帧的分离的成功度更低。在提供复合音频信号的后续时间帧之前,可以执行将所分离的音频信号空间重新定位到更接近原始空间位置的位置。

该方法可以包括使得执行将表示声源的音频信号从复合音频信号中分离。

该方法可以包括基于所确定的空间重新定位参数的值将所分离的音频信号重新定位到新的空间位置。

在第二方面,本说明书描述了被配置为执行如参考第一方面所描述的方法的装置。

在第三方面,本说明书描述了计算机可读指令,在由计算装置执行时,该计算机可读指令使得计算装置执行如参考第一方面描述的方法。

在第四方面,本说明书描述了包括至少一个处理器和包括计算机程序代码的至少一个存储器的装置,在由至少一个处理器执行时,使得装置基于所确定的将表示声源的音频信号从包括源自于至少两个声源的分量的复合音频信号中分离的成功度量来确定分离信号修改参数的值,该分离信号修改参数的值指示与所分离的音频信号相关联的特征的修改范围。

分离信号修改参数可以是空间重新定位参数,其指示用于所分离的音频信号的空间重新定位的空间重新定位范围。与所分离的音频信号相关联的特征的其它示例可以包括但不限于幅度、均衡、混响、失真和压缩。

计算机程序代码在由至少一个处理器执行时,可以使得装置确定将音频信号从复合音频信号中分离的成功度量。

计算机程序代码在由至少一个处理器执行时,可以使得装置基于分离信号修改参数的值来限制与所分离的音频信号相关联的特征的允许修改量。

计算机程序代码在由至少一个处理器执行时,可以使得装置将所确定的分离信号修改参数的值的指示提供给用户。

计算机程序代码在由至少一个处理器执行时,可以使得装置在成功度量指示分离成功高于成功度阈值时,确定指示特征的整个修改范围的分离信号修改参数的值。

在成功度量指示分离成功低于成功度阈值时,所确定的分离信号修改参数的值可以指示与成功度具有直接关系的修改范围。

成功度量可以包括复合音频信号的剩余和至少一个参考音频信号之间的相关性。该至少一个参考信号可以包括以下的一个或两者:所分离的音频信号和源自于附加记录设备中的一个的信号,该信号与对应于所分离的音频信号的音频源相关联。计算机程序代码在有至少一个处理器执行时,可以使得装置:如果相关性低于预定阈值相关性,则确定指示整个修改范围的分离信号修改参数的值,以及如果相关性高于预定阈值相关性,则确定指示与相关性具有相反关系的修改范围的分离信号修改参数的值。

在其它示例中,分离的成功度量可以附加地或可选地包括与复合音频信号的剩余相关联的频谱和与参考音频信号相关联的频谱之间的相关性。在又一其它示例中,分离的成功度量可以附加地或可选地包括复合音频信号的剩余和对应于复合音频信号的视频信号的分量之间的相关性。

复合音频信号的剩余和参考信号之间或者复合音频信号的剩余和对应于复合音频信号的视频信号的分量之间的相关性可以与分离的成功度具有相反关系。

计算机程序代码在由至少一个处理器执行时,可以使得装置通过将所分离的音频信号在空间上重新定位到更接近所分离的音频信号的原始空间位置的位置来响应确定分离的成功度量指示,与复合音频信号的当前时间帧的分离的成功度相比,复合音频信号的后续时间帧的分离的成功度更低。在提供复合音频信号的后续时间帧之前,可以执行将所分离的音频信号空间重新定位到更接近原始空间位置的位置。

计算机程序代码在由至少一个处理器执行时,可以使得装置执行将表示声源的音频信号从复合音频信号中分离。

计算机程序代码在由至少一个处理器执行时,可以使得装置基于所确定的空间重新定位参数的值将所分离的音频信号重新定位到新的空间位置。

在第五方面,本说明书描述了一种具有在其上存储有计算机可读代码的计算机可读介质,该计算机可读代码在由至少一个处理器执行时,至少执行:基于所确定的将表示声源的音频信号从包括源自于至少两个声源的分量的复合音频信号中分离的成功度量来确定分离信号修改参数的值,该分离信号修改参数的值指示与所分离的音频信号相关联的特征的修改范围。存储在第五方面的介质上的计算机可读代码还可以使得执行参考第一方面的方法描述的任何操作。

在第六方面,本说明书描述了装置,其包括:用于所确定的基于将表示声源的音频信号从包括源自于至少两个声源的分量的复合音频信号中分离的成功度量来确定分离信号修改参数的值的装置,该分离信号修改参数的值指示与所分离的音频信号相关联的特征的修改范围。第六方面的装置还可以包括用于执行参考第一方面的方法描述的任何操作的装置。

在第八方面,本说明书描述了一种方法,其包括:显示至少一个用于指示分离信号修改参数的值的指示符,该分离信号修改参数的值指示与表示声源的音频信号相关联的特征的修改范围,表示声源的音频信号已经从包括源自于至少两个声源的分量的复合音频信号中分离,其中分离信号修改参数的值是基于所确定的将表示声源的音频信号从复合音频信号中分离的成功度量。

在第九方面,本说明书描述了一种图形用户界面,其包括:用于指示分离信号修改参数的值的至少一个图形指示符,该分离信号修改参数的值指示与表示声源的音频信号相关联的特征的修改范围,表示声源的音频信号已经从包括源自于至少两个声源的分量的复合音频信号中分离,其中分离信号修改参数的值是基于所确定的将表示声源的音频信号从复合音频信号中分离的成功度量。

附图说明

为了更好地理解本申请,将通过示例的方式参考附图,其中:

图1是音频捕获系统的示例,其可以用于根据在此所述的各种示例来捕获用于处理的音频信号;

图2a至图2c是示出可由图1所示的音频处理装置执行的各种操作的流程图;

图3a是可以由其提供以向用户指示分离信号修改参数的值的图形用户界面的示例;

图3b是可以由其提供以向用户指示分离信号修改参数的值的图形用户界面的另一个示例;

图3c是可以由其提供以向用户指示分离信号修改参数的值的图形用户界面的另一个示例;

图4a至4c示出了在此所描述的关于分离的音频信号的空间重新定位的各种概念;

图5是图1所示的音频处理装置的示例配置的示意图。

具体实施方式

在描述和附图中,相同的参考标记始终表示相同的元件。

图1是音频捕获系统1的示例,其可用于根据在此所述的各种示例来捕获用于处理的音频信号。在该示例中,系统1包括被配置为捕获空间音频信号的空间音频捕获装置10,以及一个或多个附加音频捕获设备12a、12b、12c。

空间音频捕获装置10包括多个被设置为捕获音频信号的音频捕获设备101a、101b(例如,定向或非定向麦克风),后续可以以如下的方式将该音频信号空间地提供为音频流:再现的声音被听者感知为源自至少一个虚拟空间位置处。通常,由空间音频捕获装置10捕获的声源自于可能在相对于空间音频捕获装置10的一个或多个不同位置处的多个不同声源。由于所捕获的空间音频信号包括源自于多个不同声源的分量,因此,它可以被称为复合音频信号。虽然在图1中只有两个音频捕获设备101a、101b可见,但是,空间音频捕获装置10可以包括多于两个设备101a、101b。例如,在一些具体示例中,音频捕获装置10可以包括八个音频捕获设备。

在图1的示例中,空间音频捕获装置10还被配置为通过多个视觉内容捕获设备102a-102g(例如,照相机)捕获视觉内容(例如,视频)。空间音频捕获装置10的多个视觉内容捕获设备102a-102g可以被配置为从装置周围的各种不同方向捕获视觉内容,从而为用户的消费提供沉浸式(或虚拟现实内容)。在图1的示例中,空间音频捕获装置10是呈现-捕获设备,例如诺基亚的ozo照相机。然而,如将理解的,空间音频捕获装置10可以是另一种类型的设备和/或可以由多个物理上分离的设备组成。还将理解,尽管捕获的内容可能适合提供为沉浸式内容,但是该捕获的内容也可以例如经由智能电话或平板计算机以常规非vr格式来提供。

如前所述,在图1的示例中,空间音频捕获系统1还包括一个或多个附加音频捕获设备12a-12c。每个附加音频捕获设备12a-12c可以包括至少一个麦克风,并且在图1的示例中,附加音频捕获设备12a-12c是配置为捕获源自于相关联的用户13a-13c的音频信号的领夹式麦克风。例如,在图1中,每个附加音频捕获设备12a-12c通过以某种方式粘附到用户而与不同的用户相关联。然而,应当理解,在其它示例中,附加音频捕获设备12a-12c可以采用不同的形式和/或可以位于在音频捕获环境内的固定的、预定的位置处。

音频捕获环境内的附加音频捕获设备12a-12c和/或空间音频捕获装置10的位置可以被音频捕获系统1(例如,音频处理装置14)知道或可确定。例如,在移动音频捕获设备/装置的情况下,设备/装置可以包括用于确定设备/装置的位置的位置确定组件。在一些具体示例中,可以采用诸如诺基亚的高精度室内定位的射频位置确定系统,由此,附加音频捕获设备12a-12c(以及在一些示例中为空间音频捕获装置10)发送用于启用位置服务器以确定音频捕获环境中的附加音频捕获设备的位置的消息。在其它示例中,例如在附加音频捕获设备12a-12c是静态时,可以由形成音频捕获系统1的一部分(例如,音频处理装置14)的实体来预存位置。

在图1的示例中,音频捕获系统1还包括音频处理装置14。音频处理装置14被配置为接收和存储由空间音频捕获装置10和一个或多个附加音频捕获设备12a-12c捕获的信号。在音频信号的捕获期间,可以在音频处理装置14处实时地接收信号,或者可以例如经由中间存储设备后续地接收信号。在这样的示例中,音频处理装置14相对于音频捕获环境可以是本地的,或者可以在地理上远离音频捕获环境,其中,在音频捕获环境中提供音频捕获装置10和设备12a-12c。在一些示例中,音频处理装置14甚至可以形成空间音频捕获装置10的一部分。

由音频信号处理装置14接收的音频信号可以包括以扬声器格式的多通道音频输入。这种格式可以包括但不限于立体声信号格式、4.0信号格式、5.1信号格式和7.1信号格式。在这种示例中,由图1的系统捕获的信号可以已经从其最初的原始格式预处理成扬声器格式。可选地,在其它示例中,由音频处理装置14接收的音频信号可以是多麦克风信号格式,例如原始八通道输入信号。在一些示例中,原始多麦克风信号可以由音频处理装置14使用空间音频处理技术进行预处理,从而,将接收的信号转换为扬声器格式或双声道格式。

在一些示例中,音频处理装置14可以被配置为将源自于一个或多个附加音频捕获设备12a-12c的信号与源自于空间音频捕获装置10的信号进行混合。例如,附加音频捕获装置12a-12c的位置可用于将源自于附加音频捕获装置12a-12c的信号混合到源自于空间音频捕获装置10的空间音频内的正确的空间位置。由音频处理装置14进行的信号混合可部分或全部自动化。

音频处理装置14还可以被配置为在空间音频内执行(或允许执行)空间重新定位,该空间音频由附加音频捕获设备12a-12c捕获的声源的空间音频捕获装置10捕获。

可以执行声源的空间重新定位以使得能够在具有自由视点音频的三维空间中进行未来提供,其中,在该三维空间中用户可以自由地选择新的收听位置。此外,空间重新定位可用于分离声源,从而,使它们更分别地不同。类似地,空间重新定位可以用于通过修改它们的空间位置来强调/不强调音频混合中的某些源。空间重新定位的其它用途可以包括但不限于将某些声源放置到期望的空间位置处从而使听众注意(这些可以被称为音频提示),限制声源的移动以匹配某一阈值,以及通过扩大各种声源的空间位置来扩大混合的音频信号。用于执行空间重新定位的各种技术在本领域中是已知的,因此在此将不详细描述。可以使用的技术的一个示例包括当在扬声器信号域中混合音频信号时,使用矢量基振幅平移(vbap)来计算声源的期望增益。

在执行空间重新定位时要解决的一个问题是如下事实:由空间音频捕获装置10捕获的空间音频将通常包括源自正在被重新定位的声源的分量。因此,简单地移动由各个附加音频捕获设备12a-12c捕获的信号可能是不够的。相反,来自最终声源的分量也应当从由空间音频装置10捕获的空间(复合)音频信号中分离,并且应当与由附加音频捕获装置12a-12c捕获的信号一起来重新定位。如果不执行此操作,则听者将听到源自于来自不同位置的相同声源的分量,这显然是不期望的。

用于将各个声源(静态和移动)从复合信号中识别和分离的各种技术在本领域中是已知的,因此在本说明书中将不再详细讨论。简而言之,分离过程通常包括识别/估计将要分离的源,然后从复合信号中减去或以其它方式去除所识别的源。所识别的声源的去除可以在时域中通过减去估计的源的时域信号或在频域中来执行。可由音频处理装置14使用的分离方法的示例是在待审专利申请pct/ep2016/051709中描述的,其涉及将移动声源从复合信号中识别和分离,并通过引用包含在此。可以使用的另一种方法可以在描述识别和分离静态声源的wo2014/147442中描述,并且也通过引用包含在此。

无论如何识别声源,一旦识别出它们,就可以从复合空间音频信号中减去或反向铝箔,以提供分离的音频信号和复合音频信号的剩余。在所分离的音频信号的空间重新定位(或其它修改)后,修改的分离信号可以被重新混合到复合音频信号的剩余中以形成修改的复合音频信号。

将各个声源从复合音频信号中分离可能不是特别直接的,因此,在所有情况下可能不可能将各个声源从复合音频信号中完全分离。在这种情况下,源自于用于分离的声源的一些分量可以在分离操作后保留在剩余的复合信号中。

在分离不完全成功,并且分离的信号在重新定位的位置处被混合到复合音频信号的剩余中时,用户经历的最终音频表示的质量可能被降低。例如,在一些示例中,用户可以在声源的原始位置和打算重新定位的位置之间的中间位置处听到声源。在其它示例中,用户可以听到两个不同的声源,一个在原始位置处,一个在重新定位的位置处。用户所经历的效果可取决于分离不成功的方式。例如,如果声源的全部或多数频率分量的剩余部分在分离后保留在复合信号中,则用户可以在中间位置处听到声源。仅在声源的某些频率分量(频谱的一部分)保留在复合信号中,而其它频率分量被成功地分离时,可以听到两个不同的声源。如将理解的,这些效果之一可能是不期望的,因此,在音频信号的分离不完全成功的情况下,限制可用的空间重新定位范围可能是有利的。

鉴于该事实,音频处理装置14被配置为:基于所确定的将表示声源的音频信号从复合音频信号中分离的成功度量,来确定分离信号修改参数的值,该复合音频信号包括源自于至少两个声源的分量。分离信号修改参数(其可以简称为修改参数)的值指示用于表示声源的所分离的音频信号的特征的修改范围。该范围可对应于所分离的信号的特征的修改量,超过该量的修改的复合音频信号(已经将修改的分离信号混合到其中)的质量低于可接受水平。

在一些示例中,修改参数可以包括空间重新定位参数,空间重新定位参数指示用于所分离的音频信号的空间重新定位的空间重新定位范围。换句话说,将要被修改的所分离的信号的特征可以是音频空间中的空间位置。在其它示例中,修改参数可以包括幅度修改参数,幅度修改参数可以指示用于所分离的音频信号的幅度修改范围。换句话说,将要被修改的特征可以是所分离的音频信号的幅度。可以根据分离成功进行修改的空间信号的特征的其它示例可以包括均衡、混响、失真和压缩。用于分离的信号的混响电平和信号的音量可用于指示声源与用户的距离。例如,增加混响并减小音量可给的印象是声源距离听者更远。相反,减小混响并增加音量可指示声源距离听者更近。在其它示例中,与所分离的信号相关联的特征可以包括在自由视点音频提供期间收听位置所允许的重新定位范围。因此,收听位置的重新定位的允许范围可以取决于分离成功。

为了能够确定修改参数的值,音频处理装置14可被配置为确定表示声源的音频信号的分离的成功度量。然而,在其它示例中,分离的成功度量可以由系统内的另一个实体来确定,并且可以例如与音频信号一起提供给音频处理装置14。

音频处理装置14还可被配置为基于修改参数的值来限制所分离的音频信号的特征的允许修改量。以这种方式,可以防止由修改参数所指示的范围之外的所分离的信号的修改。这可以防止修改的复合音频信号的不可接受的降低程度。

音频处理装置14还可被配置为例如经由图形用户界面来向用户提供所确定的修改参数的值的指示。图形用户界面可被配置为以某些方式向用户可视地指示修改参数的值。下面参考图3a、3b和3c讨论合适的图形用户界面的各种示例。

音频处理装置14可被配置为使得,在成功度量指示了分离成功高于成功度阈值时,所确定的修改参数的值指示所分离的信号的特定特征的修改的整个范围可被执行。在修改涉及空间重新定位的示例中,整个空间重新定位范围可以取决于空间音频捕获装置10的配置。例如,如果空间音频捕获装置10被配置为围绕着设备以360度来捕获空间音频,则重新定位的整个范围可以是360度。然而,如果空间音频捕获装置10被配置为从装置10周围以小于360度(例如180度)来捕获空间音频,则重新定位的整个范围可被限制到该量。

相反,在成功度量指示了分离成功低于成功度阈值时,音频处理装置10可被配置为使得,所确定的修改参数的值与成功度有直接关系。换句话说,由参数值所指示的修改范围随着成功度的增加和减小而增加和减小。

在某些示例中,成功度量可以包括复合音频信号的剩余和至少一个参考音频信号之间所确定的相关性。在一些示例中,参考音频信号可以是分离的音频信号。在这样的示例中,音频处理装置10可因此被配置为确定与所分离的信号的原始位置对应的复合音频的剩余的部分和所分离的音频信号之间的相关性。高相关性可指示分离并不特别成功(低成功度),而低(或无)相关性可指示已经分离成功(高成功度)。因此,应当理解,在这样的示例中,相关性(其是所确定的分离的成功度量的示例)可以与分离的成功度具有相反关系。

在其它示例中,参考信号可以包括由附加记录设备12a中的一个捕获的信号,例如附加记录设备与音频源相关联,其中所分离的信号与音频源相关联。在分离已经导致与声源相关联的音频频谱在复合信号的剩余和所分离的信号之间分开时,该方法可用于确定分离成功。再次,相关性可与分离的成功度具有相反关系。

在一些示例中,复合音频信号和所分离的信号之间的相关性以及复合音频信号和源自于附加记录设备的信号之间的相关性可以被确定,并用于确定分离成功。如果该相关性之一高于阈值,则可以确定分离并不完全成功。

可以使用以下表达式确定相关性:

其中,r(k)和s(k)分别是来自复合信号的剩余和参考信号的第k个样本,τ是时间滞后,以及n是样本的总数。

音频处理装置14可被配置为将所确定的相关性与预定相关性阈值进行比较,如果相关性低于预定阈值相关性,则确定分离已经完全(或足够)成功。相反,如果相关性高于预定阈值相关性,则音频处理装置14可被配置为确定分离并不完全(或足够)成功,或者换句话说,仅仅部分成功。

作为上述表达的替代方案,在一些示例中,分离的成功度量可包括与复合音频信号的剩余相关联的频谱和与至少一个参考音频信号相关联的频谱之间的相关性。如果来自参考音频信号的频率分量也存在于复合音频信号的剩余中,则可以推断分离并没完全成功。相反,如果在所分离的音频信号中的频率分量和复合音频信号的剩余之间没有相关性,则可以确定分离已经完全成功。如上所述,该至少一个参考音频信号可以包括以下的一个或两者:所分离的音频信号和源自于附加记录设备中的一个的信号。

然而,在其它示例中,分离的成功度量可以包括复合音频信号的剩余和与复合音频信号对应的视频信号的分量之间的相关性。例如,在声源源自于说话者的示例中,音频处理装置14可以确定复合音频信号的剩余是否包括具有时间的分量,该时间的分量对应于声源源自于人的嘴的移动。如果这种音频分量确实存在,则可以确定分离并没完全成功,而如果这种音频分量不存在,则可以确定分离已经完全成功。

如将理解的,在上述所有示例中,所确定的相关性与分离的成功度具有相反关系。

在一些示例中,音频处理装置14可被配置为基于所确定的修改参数的值来修改所分离的音频信号的特征。例如,音频处理装置14可被配置为通过将所分离的音频信号的特征修改至更接近所分离的音频信号的特征的原始值的值来响应确定分离的成功度量指示,与当前时间帧的分离的成功度相比,后续时间帧的分离的成功度更于。在这样的示例中,在开始提供修改的复合音频信号的后续时间帧之前,执行将所分离的音频信号的特征修改至更接近原始值的值。将特征修改至更接近原始值的值可逐渐被执行,以使得用户在开始提供修改的复合音频信号的后续时间帧时不会经历特征值的突然显著地变化。

如将理解的,时间帧可以是数字化音频信号y(n)的片段,例如,y(n)...y(n+m),其中m是窗口的长度。例如,m可以等于2048个样本或任何其它合适的值。时间帧的大小可以是预设定的,并且在一些示例中可以取决于复合信号的类型或性质。例如,可以用第一时间帧长度分析具有第一类型(例如,由说话者组成)的复合信号,以及可以用第二时间帧长度分析具有第二类型(例如,音乐)的复合信号。在这样的示例中,第一和第二时间帧长度可以基于关于对于特定类型的信号哪个帧长度平均产生最佳分离成功的测试来设定。

分离期间使用的帧长度和提供期间使用的帧长度可以彼此不相等。例如,可以使用长度为2048个样本的帧来执行分离,而可以使用长度为512个样本的帧来执行提供。

图2a是示出可以由诸如图1所示的音频处理装置14来执行的各种操作的流程图。

在操作s201中,音频处理装置14接收复合音频信号的表示。如前所述,表示可以以各种不同格式的任何一种被接收。尽管在图1中未示出,但是根据表示被接收的格式,音频处理装置14可以在一些示例中执行预处理以将复合音频信号重新格式化为另一种格式。

在操作s202中,音频处理装置14执行将表示声源的复合音频信号的部分从复合音频信号中的分离。分离可以以任何合适的方式执行,例如,如pct/ep2016/051709和wo2014/147442中任一所述的。

在执行分离之后,在操作s203中,音频处理装置14计算将所分离的音频信号从复合音频信号中分离的成功度量。如上所述,成功度量可以是如下的形式:复合音频信号的剩余和至少一个参考音频信号或与复合音频信号对应的视频分量的部分之间所计算的相关性。如上所述,该至少一个参考音频信号可以包括以下的一个或两者:所分离的音频信号和源自于附加记录装置中的一个的信号,该信号与所分离的信号相关的音频源相关联。

当然应当理解,复合音频信号的属性可以随着时间而改变(例如但不排他地,由于声源在音频捕获环境中的移动)。因此,能够将声源从复合音频信号中分离的成功可以随时间变化。因此,可以对复合音频信号的各个片段(或时间帧)执行操作s203以及操作s204至s207。

在音频处理装置14被配置为计算复合音频信号的剩余和参考音频信号之间的相关性的示例中,相关性可以是时域或频域的任一个中的相关性。在相关性在频域中计算时,可以将参考音频信号的频谱与复合音频信号的剩余的频谱进行比较。

在音频处理装置14被配置为计算复合音频信号的剩余和与复合音频信号对应的视频分量的部分之间的相关性的示例中,这可以通过首先识别与所分离的音频信号的原始空间位置对应的视频分量的部分来确定。下一步,检查视频分量以确定视频分量的部分中是否存在与复合音频信号的剩余的分量时间同步的任何特征。例如,音频处理装置14可以确定人的嘴的移动是否与复合音频信号的剩余的音频分量同步。

不管由音频处理装置14确定哪个相关性,高度的相关性可以指示分离的成功度低,而低相关性可以指示分离的成功度高。换句话说,计算的相关性和分离的成功度之间可存在相反关系。

在计算了分离的成功度量之后,音频处理装置14可以进行至操作s204,操作s204确定分离信号修改参数的值,修改参数的值指示对所分离的音频信号的特征的修改范围。例如,在一些示例中,修改参数的值可以包括在不降低修改的复合音频信号的质量超出可接受的水平的情况下,特征可以被修改的最大值。然而,在其它示例中,修改参数的值可以包括所允许的修改范围,修改可以在不降低修改的复合音频信号的质量超出可接受的水平的情况下来执行。如前所述,由修改参数的值所指示的修改程度可以与分离的成功度有直接关系,与所计算的相关性具有相反关系。

可以构成操作s204的各种子操作的示例在图2b的流程图中进行说明并参考其进行讨论。

在操作s204-1中,音频处理装置14可以确定分离的成功度量(如在操作s203中确定)是否指示了成功度高于成功阈值。在一些示例中,该操作可以包括将所计算的相关性与阈值相关性进行比较。在这样的示例中,如果所计算的相关性高于相关性阈值,则可以确定成功度低于成功阈值。相反,如果确定所计算的相关性低于相关性阈值,则可以确定分离的成功度高于成功阈值。

如果在操作s204-1中确定分离成功高于成功阈值,则音频处理装置14可以进行至操作s204-2,在操作s204-2中确定分离足够成功,以及修改参数的值将指示执行整个范围的修改。与“整个范围”对应的修改的程度可以预编程到音频处理装置14中。

相反,如果在操作s204-1中确定分离成功低于成功阈值,则音频处理装置14可以进行至操作s204-3,在操作s204-3中确定分离并不足够成功,所以可以根据成功度确定修改参数的值。例如,在成功度低于阈值时,修改参数的值可以指示对较高成功度的较大修改范围,以及可以指示对较低成功度的较小修改范围。

现在回到图2a,在操作s205中,音频处理装置14可以通过图形用户界面向用户指示修改参数的值。这可以使用户能够确定在不降低修改的复合信号的质量超出可接受的水平的情况下,可以执行的修改范围。

在操作s206中,音频处理装置14可以对修改量施加限制,该修改相对于所分离的音频信号而被执行。因此,音频处理装置14可被配置为防止特征的修改超出由修改参数的值所指示的范围。以这种方式,用户可仅能够例如在允许的范围内经由图形用户界面来修改特征。

在操作s207中,音频处理装置14可被配置为执行所分离的音频信号的特征的修改。可以相对于涉及空间成功度的时间帧来执行修改。修改可响应于由用户输入来指示期望的修改程度的输入而被执行。鉴于对允许修改的程度的限制,修改可以基于修改参数的值来限制。因此,在一些示例中,如果用户指示了超出允许范围的期望的修改,则音频处理装置14可以通过将特征修改至由修改参数的值所指示的最大程度来响应,即使这小于期望的修改。

图2c是示出可以由诸如图1所示的音频处理装置14执行的各种其它操作的流程图。图2c所示的操作可以在执行操作s207之后来执行,并且可以相对于复合音频信号的时间帧来执行,复合音频信号的时间帧在时间上在相对于图2a的操作s203至s207的哪个操作被执行的时间帧之后。

在操作s208中,将音频信号从复合音频信号的后续时间帧中分离的成功度量可以被确定。这可以以参考操作s203描述的任何方式来执行。

下一步,在操作s209中,音频处理装置14确定对于复合音频信号的后续时间帧的修改参数的值。这可以如关于图2a和2b中的操作s204所述的来执行。

在操作s210中,对后续部分的修改参数的值可以经由图形用户界面向用户指示(其示例将参考图3a、3b和3c更详细地讨论)。

在操作s211中,音频处理装置14确定对于先前时间帧的特征的修改度是否超出由对于后续时间帧的修改参数的值(其在操作s209中被确定)所指示的阈值。

如果在操作s211中肯定确定,则音频处理装置14进行至操作s212。在操作s212中,音频处理装置14在提供修改的复合音频信号的先前时间帧期间,使得对所分离的信号的特征的修改度降低到由对于后续时间帧的修改参数的值所指示的范围内的水平。换句话说,操作s212的执行可以在开始提供所分离的音频信号的后续时间帧之前。对降低水平的修改可以随着先前部分被提供而被逐渐执行。以这种方式,用户不会经历修改特征的值的突然显著地跳跃。在执行操作s211之后,音频处理装置14可以进行至操作s212。

如果在操作s211中确定对于先前时间帧的特征的修改度不超出由对于后续时间帧的修改参数的值所指示的阈值,则音频处理装置14进行至操作s212。

在操作s213中,在提供修改的复合音频信号的后续时间帧期间,音频处理装置14对允许的修改施加限制。这可以参考操作s206所描述的那样。

在操作s214中,如果例如接收到指示另一个修改特征的用户输入,则音频处理装置14可以通过相应地修改特征来响应。这可以参考操作s207所述的来执行。如将理解的,如果没有接收到需要修改特征的输入,则可以跳过操作s214。

随后,音频处理装置14返回至操作s208,在操作s208中,对于接收到的复合音频信号的后续时间帧来确定分离的成功度量。

当然将理解的,图2a至2c中描绘的操作仅仅是示例。因此,可以以不同的顺序执行操作,可以省略某些操作和/或可以执行附加操作。例如,尽管已经描述了逐帧地执行各种确定,但是在其它示例中,可以在延长的时段上确定分离的成功度量,其中为了操作s211至s214的目的而使用的时间帧是基于分离的成功度量来确定的。在这样的示例中,每个时间帧可被选择,使得在时间帧内,分离的成功度量相对均匀,其中,在对应于时间的时间帧之间的边界处存在分离的成功度量的显著变化(例如,大于阈值的变化)。

图3a是图形用户界面(gui)30的示例,经由该gui30可以向用户指示对于复合音频信号的一个或多个时间帧的修改参数的值。

在图3a的示例中,gui30包括一个或多个指示符301a-301f,每个指示符对应于复合音频信号的不同时间帧。指示符301被配置为指示对每个信号帧所确定的修改参数的值,从而指示所允许的修改度。

在诸如图3a的一些示例中,指示符301可附加地指示时间帧的持续时间。在图3a的示例中,指示符301a-301f的第一维度l(例如,长度)指示每个时间帧的持续时间。更具体地,较长的第一维度指示具有较长持续时间的时间帧。在图3a的示例中,指示符被提供在时间线上,使得与输入复合信号的较后部分对应的时间帧比与输入复合信号的较早部分对应的时间帧更远地沿着时间线被提供。

指示符的第二维度h(例如,高度)可以指示修改参数的值,使得更大高度指示对时间帧的允许修改的更大度。例如,在图3a中,指示符的高度从对应于第一时间帧的指示符的高度到对应于第四时间帧的指示符的高度连续地减小。这可以指示修改参数的值从第一时间帧到第四时间帧连续地减小,因此允许修改范围也从第一时间帧减小到第四时间帧。

在某些情况下,如图3a所示,指示符301a-301f可指示两个不同修改参数的值。在这样的示例中,指示符301a-301f的第三维度d(例如,深度)可以指示第二修改参数的值。例如,在图3a的示例中,修改参数(s)是空间重新定位参数,其中第一参数对应于方位角(azimuthal)空间重新定位以及第二参数对应于高度(elevational)空间重新定位。在图3a的示例中,方位角空间重新定位参数的值由指示符的深度来指示,以及高度空间重新定位参数的值由指示符的高度来指示。

图3b和3c示出了其它gui方面32、34的示例,经由gui方面32、34可以向用户指示对于复合音频信号的一个或多个时间帧的修改参数的值。

在这些示例中,gui32、34包括可移动元件322、342,其位置指示所施加的特征(例如,空间位置)的当前修改度。

每个gui32、34还可以包括指示被“允许”修改范围的至少一个描绘的第一区域324、344(从而指示修改参数的值)。gui32、34还可以包括指示在“允许”范围之外的修改度的第二区域326、346。两个区域可以在视觉上彼此不同(例如,使用不同的颜色,例如绿色和红色)。gui32、34可以附加地包括指示在数量上的修改度的划分328、348。

图3b的gui32被配置为指示仅一个维度的修改(例如,其中修改涉及仅为方位角的空间定位)。另一方面,图3c的gui34被配置为指示两个维度(例如,方位角和高度)的修改,可移动元件342在x和y方向的任一个中的位置对应于不同维度的修改。当然可以理解的是,可以一前一后地提供诸如图3b所示的两个(或三个)gui,从而指示二维(或三维)的修改。

在一些示例中,gui32、34可以被显示在具有触摸功能的界面上,由此用户提供触摸输入以移动可移动元件322、324,从而修改所分离的信号的特征。然而,在其它示例中,gui可以与诸如机械滑块或机械肘杆/操纵杆32、34的机械输入设备一起使用,其中可移动元件可以经由滑块、肘杆等来移动。在这样的示例中,致动器可以用于向机械设备提供惯性反馈,从而防止或阻止特征的修改超出指示的“允许”范围。在其它示例中,物理反馈可以与机械控制设备(例如,滑块、肘杆、操纵杆等)一起使用以在没有gui32、34的情况下,指示修改参数的值(特别是在用户试图超出由修改参数所指示的修改范围时)。

尽管在图3a至3c的示例中未示出,但是应当理解,可以经由gui30、32、34向用户显示其它信息。例如,对于一个或多个时间帧的当前(或打算)的修改水平可以相对于对应于这些时间帧的指示符来指示。基于与不同范围相关联的修改的复合信号的质量的降低,指示符301a-301f也可以或附加地指示对于每个时间帧的不同修改范围。例如,指示符可以指示:质量降低是较低的第一范围,质量降低较高但仍可接受的第二范围,以及质量下降不可接受的第三范围。例如,例如可以使用不同的颜色(例如,绿色、黄色和红色)来指示不同的范围。

尽管在图3a至3c的示例中还未示出,gui30、32、34可以包括用于允许用户预览修改的复合音频信号的功能,例如结合源自于附加音频捕获设备中的一个的信号的相应修改版本,其中信号对应于分离的声源。以这种方式,用户可以在经由gui确认修改之前,验证修改的复合信号的质量。

如将理解的,声源的重新定位可以在一个、两个或三个维度中来执行。可以在具有x、y和z轴的笛卡尔坐标系中或在具有方位角、高度和距离的极坐标系中执行重新定位。因此,gui可以根据要执行定位的维度(和坐标系)数来配置。

现在参考图4a至4c,这些图用于说明如下方式:可以基于从复合音频信号中的分离成功来确定空间重新定位参数的值。

图4a示出了在相对于空间音频捕获设备10的位置(在音频正被提供时也可以是听众的位置)的不同空间位置处的两个声源(在该示例中,为两个说话者13a、13b)。

第一说话者13a位于-45度的方位角,其位于捕获设备/听众的左侧,以及第二说话者13b位于+45度的方位角,其位于捕获设备/听众的右侧。

对于每个说话者的声音信号(声源)的频谱40a、40b已经被描绘在它们的相对空间位置中。频谱描述了声音信号/声源的频率分布。然而,如上所述,应当理解,频谱随时间变化,因此,图4a描绘了短时间帧(例如和20毫秒的持续时间)中的瞬时情况。

图4b示出了将频谱从复合音频信号中完全成功分离。在这个示例中,这通过以下事实来指示:源自于声源的信号的分量都不保留在原始位置。

在这种情况下,音频处理装置14可以确定成功度高于成功阈值,因此,可以设置空间重新定位参数的值以指示可以执行整个空间重新定位范围。在该示例中,重新定位的整个范围是360度,因此,这由空间重新定位参数来指示。

可以看出,在该示例中,对应于第一说话者13a(由频谱40a指示)的声源已经在允许范围内被重新定位,在捕获装置/听众之后的负135度至负180度范围。

与图4b相反,图4c示出了分离并没完全成功的情况。这通过以下在图4c中指示:第一说话者13a的频谱40a的各种分量40a-1被保留在其原始位置处,而其它分量40a-2已经被分离。

在诸如图4c所示的示例中,音频处理装置14确定分离并没完全成功。因此,音频处理装置14基于分离的成功度来确定空间重新定位参数的值。空间重新定位参数的值的确定可以使得较高成功度导致空间重新定位参数具有指示较高空间重新定位范围的值,以及较低成功度导致空间重新定位参数具有指示较低空间重新定位范围的值。

在图4c的示例中,空间重新定位参数的值指示所分离的声源可以距其原始位置的±90度来重新定位。鉴于此,所分离的信号40a-2已经在由-80度的空间重新定位参数所指示的范围内重新定位。因此,所得到的修改的复合音频信号的质量不会超出可接受的水平被降低。

在参照图1至图4c描述的上述示例中,复合信号通过空间音频捕获装置10来生成,其中识别的声源已经从复合信号中分离。然而,当然可以理解的是,在此描述的方法和操作可以相对于任何音频信号来执行,其中音频信号包括源自于多个音频源的分量,例如源自于附加音频捕获设备中的一个的信号,其中信号恰好包括来自两个说话者的分量(例如,因为两个说话者都足够接近捕获设备)。

尽管以上示例已经主要参考分离的音频信号的特征的修改进行了讨论,但是应当理解,在此描述的各种操作可以应用于包括音频和视觉(av)分量的信号。例如,空间重新定位可以应用于av信号的视觉分量的部分。例如,音频处理装置14可被配置为在视觉分量中识别和重新定位视觉对象,其中视觉对象对应于所分离的声源。更具体地,音频处理装置14可被配置为将对应于所分离的声源的视觉对象与视频分量的剩余分割(或分离)并替换背景。音频处理装置14可以随后被配置为允许基于对所分离的音频信号所确定的空间重新定位参数来重新定位分离的视觉对象。

图5是说明参照图1至图4c所描述的音频处理装置14的示例配置的示意框图。

音频处理装置14包括控制装置50,其被配置为执行如上参考音频处理装置14所述的各种操作。控制装置50还可被配置为控制音频处理装置14的其它组件。

音频处理装置14还可以包括数据输入接口51,通过该数据输入接口51可以接收表示复合音频信号的信号。还可以经由数据输入接口51接收源自于一个或多个附加音频捕获设备12a-12c的信号。数据输入接口51可以是任何合适类型的有线或无线接口。也可以经由数据输入接口51接收表示由空间音频捕获装置10捕获的视觉分量的数据。

音频处理装置14还可以包括视觉输出接口52,其可以耦合到显示器53。控制装置50可以使得指示分离信号修改参数的值的信息经由视觉输出接口52和显示器53向用户提供。控制装置50还可以附加地使得gui30、32、34(例如参照图3a、3b和3c描述的)为用户显示。对应于音频信号的视频分量也可以经由视觉输出接口52和显示器53来显示。

音频处理装置14还可以包括用户输入接口54,经由该用户输入接口54用户输入可以由装置的用户提供给音频处理装置14。

音频处理装置14还附加地包括音频输出接口55,经由该音频输出接口55可以向用户提供音频,例如经由扬声器装置或双耳式耳机56。例如,修改的复合音频信号可以经由音频输出接口55提供给用户。

现在将主要参考图5来描述上述音频处理装置14的组件和特征的一些其它细节及其替代物。

控制装置51可以包括与存储器511通信地耦合的处理电路510。存储器511具有存储在其上的计算机可读指令511a,指令511a在由处理电路510执行时,使得处理电路510执行上述参考图1至图5的各种操作。在一些情况下,控制装置51在通常术语中可被称为“装置”。

参考图1至5描述的任何音频处理装置14的处理电路510可以是任何合适的组合,并且可以包括任何合适类型或合适的类型组合的一个或多个处理器510a。例如,处理电路510可以是解释计算机程序指令511a并处理数据的可编程处理器。处理电路510可以包括多个可编程处理器。可选地,处理电路510可以是例如具有嵌入式固件的可编程硬件。处理电路510可以被称为处理装置。处理电路510可以可选地或附加地包括一个或多个专用集成电路(asic)。在一些情况下,处理电路510可以被称为计算装置。

处理电路510耦合到相应的存储器(或一个或多个存储设备)511,并且可操作地向/从存储器511读/写数据。存储器511可以包括单个存储器单元或多个存储器单元,在其上存储有计算机可读指令(或代码)511a。例如,存储器511可以包括易失性存储器511-2和非易失性存储器511-1。例如,计算机可读指令511a可以存储在非易失性存储器511-1中,并且可以由处理电路510使用易失性存储器501-2来执行以暂时存储数据或数据和指令。易失性存储器的示例包括ram、dram和sdram等。非易失性存储器的示例包括rom、prom、eeprom、闪速存储器、光存储器、磁存储器等。存储器通常可以被称为非暂时性计算机可读存储介质。

术语“存储器”除了涵盖包括非易失性存储器和易失性存储器的存储器之外,还可以仅涵盖一个或多个易失性存储器、仅一个或多个非易失性存储器、或一个或多个易失性存储器和一个或多个非易失性存储器。

计算机可读指令511a可以被预编程到音频处理装置14中。可选地,计算机可读指令511a可以经由电磁载波信号到达装置14,或者可以从物理实体57(参见图5)被拷贝,诸如计算机程序产品、存储设备或诸如cd-rom或dvd的记录介质。计算机可读指令511a可以提供使得音频处理装置14能够执行上述功能的逻辑和例程。存储在存储器(上述任何类型)中的计算机可读指令的组合可以被称为计算机程序产品。

在适用的情况下,装置10、12、14的无线通信能力可以由单个集成电路来提供。可选地,它可以由一组集成电路(即芯片组)来提供。无线通信能力可选地是固线的专用集成电路(asic)。

如将理解的,在此描述的装置10、12、14可以包括可能在图中未示出的各种硬件组件。例如,音频处理装置14在一些实施中可以包括诸如移动电话或平板计算机的便携式计算设备,并因此可以包含通常包括在特定类型的设备中的组件。类似地,音频处理装置14可以包括在本说明书中未描述的其它可选软件组件,因为它们不与在此描述的主要原理和概念相关。

在此描述的示例可以在软件、硬件、应用逻辑或软件、硬件和应用逻辑的组合中实现。软件、应用逻辑和/或硬件可以驻留在存储器或任何计算机介质上。在示例实施例中,应用逻辑、软件或指令集被保存在各种传统计算机可读介质中的任何一个上。在本文档的上下文中,“存储器”或“计算机可读介质”可以是能够包含、存储通信、传播或传送指令的任何介质或装置,以被或指令执行系统、装置、或设备(诸如计算机)使用或与其结合使用。

应当理解,在相关的称为“计算机可读存储介质”、“计算机程序产品”、“有形体现的计算机程序”等、或“处理器”或“处理电路”等的情况下,不仅包括具有不同的架构(诸如单个/多处理器架构和定序器/并行架构)的计算机,还有专门的电路(诸如现场可编程门阵列fpga、专用电路asic、信号处理设备和其它设备)。称为计算机程序、指令、代码等应当理解为表达用于可编程处理器固件的软件,诸如硬件设备的可编程内容,作为处理器的指令或用于固定功能设备的配置或配置设置、门阵列、可编程逻辑设备等。

如本申请中所使用的,术语“电路”是指以下全部内容:(a)仅硬件电路实现(诸如仅在模拟和/或数字电路中的实现)和(b)电路和软件(和/或固件)的组合,诸如(如适用):(i)处理器的组合或(ii)处理器/软件的部分(包括数字信号处理器)、软件,以及一起工作以使诸如移动电话或服务器的装置执行各种功能的存储器,以及(c)诸如微处理器或微处理器的一部分的电路,要求软件或固件进行操作,即使软件或固件没有物理存在。

“电路”的该定义适用于本申请中包括在任何权利要求中的本术语的全部使用。作为另一个示例,如本申请中所使用的,术语“电路”还将仅覆盖处理器(或多个处理器)或处理器的一部分及其附带的软件和/或固件的实现。术语“电路”还将覆盖例如并且如果适用于特定权利要求元件,用于移动电话的基带集成电路或应用处理器集成电路或服务器、蜂窝网络设备或其它网络设备中的类似集成电路。

如果需要,在此讨论的不同功能可以以不同的顺序和/或彼此同时地执行。此外,如果需要,上述功能中的一个或多个可以是可选的或可以组合。类似地,还将理解,图2a至2c的流程图仅是示例,并且其中描绘的各种操作可以被省略、重新排序和/或组合。

尽管在独立权利要求中阐述了各个方面,但是其它方面包括来自所描述的实施例和/或从属权利要求的特征与独立权利要求的特征的其它组合,而不仅仅是权利要求中明确阐述的组合。在此也指出,虽然上面描述了各种示例,但是这些描述不应被视为限制性意义。相反,在不脱离如所附权利要求限定的本发明的范围的情况下,可以进行若干变化和修改。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1