稀疏音频的制作方法

文档序号：2823300阅读：164来源：国知局

专利名称：稀疏音频的制作方法
技术领域：
本发明的实施例涉及稀疏音频。特别是本发明的实施例涉及用于空间音频编码以及尤其是空间音频参数的产生使用稀疏音频。
背景技术：
最近开发的诸如双耳线索编码(binaural cue coding, BCC)的参数音频编码方法，使得多通道且环绕的(空间的)音频编码以及表示成为可能。用于空间音频的编码的参数方法的一般目标是将原始音频表示为包含减少的音频通道数量的缩混(downmix)信号(例如表示为单音通道或表示为双通道(立体声)的总和信号)连同描述在原始信号的通道之间关系的关联的空间音频参数一起以使得具有与原始信号的空间图像相类似的空间图像的信号重建成为可能。这种类型的编码方案允许具有高音频质量的多通道信号非常有效的压缩。空间音频参数例如可包括描述通道间电平(level)差、通道间时间差以及在一个或多个通道对之间的和/或在一个或多个频带中的通道间相干(coherence)的参数。另外，进一步的或可选的例如到达方向的空间音频参数可另外用于或替换讨论过的通道间参数。通常，空间音频编码及对单音或立体声的相应缩混需要可靠的电平及时间差估计或等效值。输入通道的时间差的估计是在低频处的主要空间音频参数。常规的通道间分析机制可能需要高运算负载，尤其是当采用高音频采样速率(48kHz或甚至更高)时。由于大量的信号数据，基于互相关(crosscorrelation)的通道间时间差估计机制在运算上是代价非常高的。此外，如果利用分布式传感器网络捕获音频并且在网络的中心服务器执行空间音频编码，那么在传感器和服务器之间的每个数据通道可能需要显著的传输带宽。通过仅仅减少音频采样率而不丢失在后续处理阶段中所需的信息来减少带宽是不可能的。

发明内容
为了生成使得高质量的重建和再现成为可能的缩混信号，需要高音频采样率(尼奎斯特(Nyquist)定理)。由于这会显著影响音频再现的质量，因此不能降低音频采样率。发明者已经意识到尽管为了生成缩混信号需要高音频采样率，当无需重建输入音频的实际波形以执行空间音频编码时无需执行空间音频编码。由在多通道空间音频编码中的每个通道捕获的音频内容，就本性而言非常相关，如同输入通道被期望彼此相关一样，因为它们只是从不同角度基本上观察相同的音频源和相同的音频图像。在不丢失在空间音频图像中的很多精确度或细节下，可限制由每个传感器传输到服务器的数据量。通过使用已采样音频的稀疏表示和仅处理在稀疏域中的引入(incoming)数据样本的子集，可降低在传感器和服务器之间的数据通道中的信息速率。因此，音频信号需要在适于稀疏表不的域中传输。根据本发明的各种(但并非所有)实施例，提供ー种方法，包括采样在第一速率(rate)接收到的音频以产生第一音频信号；变换该第一音频信号到稀疏域以产生稀疏音频信号；再采样该稀疏音频信号以产生再采样稀疏音频信号；并且提供该再采样稀疏音频信号，其中移除精确音频再现所需的带宽但保留空间音频编码所需的带宽。根据本发明的各种(但并非所有)实施例，提供一种设备，包括用于采样在第一速率接收到的音频以产生第一音频信号的装置；用于变换该第一音频信号到稀疏域以产生稀疏音频信号的装置；用于再采样该稀疏音频信号以产生再采样稀疏音频信号的装置；以及用于提供该再采样稀疏音频信号的装置，其中到稀疏域的变换移除精确音频再现所需的带宽但保留空间音频编码所需的带宽。根据本发明的各种(但并非所有)实施例，提供一种设备，包括至少ー个处理器；和至少ー个包含计算机程序代码的存储器，该至少一个存储器和计算机程序代码配置为与该至少一个处理器一起使得该设备执行变换第一音频信号到稀疏域以产生稀疏音频信号；采样该稀疏音频信号以产生已采样的稀疏音频信号；其中到稀疏域的变换移除精确音频再现所需的带宽但保留空间音频编码所需的带宽。根据本发明的各种(但并非所有)实施例，提供ー种方法，包括接收第一通道的第一稀疏音频信号；接收第二通道的第二稀疏音频信号；并且处理第一稀疏音频信号和第二稀疏音频信号以产生一个或多个通道间空间音频參数。根据本发明的各种(但并非所有)实施例，提供一种设备，包括用于接收第一通道的第一稀疏音频信号的装置；用于接收第二通道的第二稀疏音频信号的装置；以及用于处理第一稀疏音频信号和第二稀疏音频信号以产生一个或多个通道间空间音频參数的装置。根据本发明的各种(但并非所有)实施例，提供一种设备，包括至少ー个处理器；和至少ー个包含计算机程序代码的存储器，该至少一个存储器和计算机程序代码配置为与该至少一个处理器一起使得该设备执行处理接收到的第一稀疏音频信号和接收到的第二稀疏音频信号以产生一个或多个通道间空间音频參数。根据本发明的各种(但并非所有)实施例，提供ー种方法，包括采样在第一速率接收到的音频以产生第一音频信号；变换该第一音频信号到稀疏域以产生稀疏音频信号；再采样该稀疏音频信号以产生再采样稀疏音频信号；并且提供该再采样稀疏音频信号，其中移除精确音频再现所需的带宽但保留该接收到的音频分析所需的带宽。这降低了空间编码多通道空间音频信号的复杂性。在某些实施例中，減少为空间音频编码提供数据所需的在传感器与服务器之间的数据通道的带宽。根据本发明的各种(但并非所有)实施例，提供ー种方法，包括采样在第一速率接收到的音频以产生第一音频信号；变换该第一音频信号到稀疏域以产生稀疏音频信号；再采样该稀疏音频信号以产生再采样稀疏音频信号；并且提供该再采样稀疏音频信号，其中移除精确音频再现所需的带宽但保留接收到的音频分析所需的带宽。该分析例如可确定接收到的音频的基频(fundamental frequency)和/或确定通道间參数。

为了本发明实施例的各种示例的更好的理解，现在将仅以示例的方式参考附图，其中图I示意性地例示传感器设备；图2示意性地例示包括多个传感器设备和一个服务器设备的系统；图3示意性地例示服务器设备的一个示例；图4示意性地例示服务器设备的另一个示例；图5示意性地例示适合于在传感器设备和/或服务器设备中使用的控制器的示例。
具体实施例方式最近开发的诸如双耳线索编码(BCC)的参数音频编码方法，使得多通道且环绕的(空间的)音频编码以及表示成为可能。用于空间音频的编码的参数方法的一般目标是将原始音频表示为包含减少的音频通道数量的缩混信号(例如表示为单声通道的或表示为双通道(立体声)的总和信号)，与描述在原始信号通道之间的关系相关联的空间音频参数一起以使具有与原始信号的图像相类似的空间图像的信号重建成为可能。这种类型的编码方案允许具有高音频质量的非常有效的多通道信号压缩。空间音频参数例如可包括描述通道间电平差、通道间时间差以及在一个或多个通道对之间和/或一个或多个频带之间的通道间相干的参数。这些空间音频参数中的一些可选择地表示为例如到达方向。图I示意性地例示传感器设备10。传感器设备10在功能上阐述为一系列块，每个块表示不同的功能。在采样块4处，将接收到的音频(压力波)3以第一速率采样以产生第一音频信号5。例如是麦克风的换能器将音频3变换成电子信号。该电子信号接下来以第一速率(例如以48kHz)采样以产生第一音频信号5。这个块可以是常规的。接下来在变换块6处，将第一音频信号5变换到稀疏域以产生稀疏音频信号7。然后在再采样块8处，将稀疏音频信号7再采样以产生再采样稀疏音频信号9。接下来为进一步处理提供再采样稀疏音频信号9。在该示例中，到稀疏域的变换保留表征空间音频的电平/幅度信息以及再采样在稀疏域中保留足够的带宽以使得通道间电平差(inter-channel level difference, ILD)的后续产生能够作为已编码的空间音频参数。在该示例中，到稀疏域的变换保留表征空间音频的时间信息以及再采样在稀疏域中保留足够的带宽以使得通道间时间差(inter-channel time difference, ITD)的后续产生能够作为已编码的空间音频参数。到稀疏域的变换以及再采样可保留足够信息以使得在来自不同通道的音频信号之间的相关成为可能。这可使得通道间相干线索(inter-channel coherence cue, ICC)的后续产生能够作为已编码的空间音频参数。接下来再采样稀疏音频信号9提供在如图2中所示出的用于在传感器设备10中或到远程服务器设备20进一步处理。
图2示意性地例示包括多个传感器设备10和中心或服务器设备20的分布式传感器系统或者网络22。在该示例中存在两个传感器设备10，其分别标记为第一传感器设备IOA和第二传感器设备10B。这些传感器设备与參考图I中描述的传感器设备10相类似。第一数据通道24A用于从第一传感器设备IOA到服务器22的通信。第一数据通道24A可以是有线的或无线的。第一再采样稀疏音频信号9A可经由第一数据通道24A由第一传感器设备IOA提供给服务器设备20用于进ー步处理(见图3及4)。第二数据通道24B用于从第二传感器设备IOB到服务器22的通信。第二数据通道24B可以是有线的或无线的。第二再采样稀疏音频信号9B可经由第二数据通道24B由第二传感器设备IOB提供给服务器设备20用于进ー步处理(见图3及4)。空间音频处理(例如音频分析或音频编码)在中心服务器设备20处执行。中心服务器设备20在第一数据通道24A中接收第一通道的第一稀疏音频信号9A并且在第二数据通道24B中接收第二通道的第二稀疏音频信号9B。中心服务器设备20处理第一稀疏音频信号9A和第二稀疏音频信号9B以产生一个或多个通道间空间音频參数15。服务器设备20还保持在第一稀疏音频信号9A和第二稀疏音频信号9B之间的同歩。这例如可通过保持在中心设备20和多个远程传感器设备10之间的同步达到。存在用于达到此目的的已知系统。作为示例，服务器设备可作为主机(Master)运行并且传感器设备可作为与主机时钟同步(例如以蓝牙实现)的从机(Slave)运行。如在图I中所示的传感器设备10处执行的过程移除精确音频再现所需的带宽，但保留空间音频分析和/或解码所需的带宽。到稀疏域的变换和再采样可导致信息丢失以致不能从稀疏音频信号7精确再现第一音频信号5 (且由此的音频3)。第一详细实施例可将变换块6与再采样块认为是ー个组合以执行压缩采样。在一个实施例中，使f(n)为表示通过用在其中x(n) = ^f(n)的变换块6中的nXn的变换矩阵W变换第一音频信号5 (x(n))得到的稀疏音频信号7的向量。变换矩阵^可使诸如离散傅里叶变换(DFT)的傅里叶相关的变换成为可能。这样稀疏音频信号7在变换域中将音频3表示为变换系数f的向量。在变换域中的数据表示f是稀疏的，这样仅使用数据表示f的子集就使得空间音频编码成为可能而不需要音频再现，第一音频信号5稍后能充分完好地重建。在稀疏域中信号f的有效带宽如此低以致少量的样本就足以在将空间音频情景编码成空间音频參数所需的细节级别重建输入信号X(ri)。在再采样块8处，由m个值组成的稀疏音频信号7的子集通过如下具有由行向量朽组成的mXn的传感矩阵P得到。yk =〈/肩〉,k= I,….,m.(I)如果例如传感矩阵又包含狄拉克S (Dirac delta)函数,测量的向量y将只包含f的采样值。可选择地，传感矩阵可选取m个随机系数或只是变换域向量f的m个第一系数。传感矩阵有无限的可能性。它还可以是具有随机系数的复数值矩阵。在该实施例中，变换块6根据定义的变换模型(例如变换矩阵W )执行信号处理，并且再采样块8根据定义的采样模型(例如传感矩阵沪)执行信号处理。
如图3所示，中心服务器设备20在第一数据通道24A中接收第一通道的第一稀疏音频信号9A并且在第二数据通道24B中接收第二通道的第二稀疏音频信号9B。中心服务器设备处理第一稀疏音频信号9A和第二稀疏音频信号9B以产生一个或多个通道间空间音频参数15。存在至少两种不同的方法利用再采样音频信号9 (y)重建或估计第一音频信号的输入信号5 (x(n))以产生一个或多个通道间空间音频参数15。第一重建方法由于在传感器设备10中使用定义的变换模型和定义的采样模型，在信号处理期间服务器设备20可使用该模型。回溯到图2，定义变换模型的参数可沿着数据通道24提供给服务器设备20和/或定义采样模型的参数可沿着数据通道24提供给服务器设备20。服务器设备20是再采样稀疏音频信号9的目的地。可选地定义变换模型和/或采样模型的参数可预先确定并存储在服务器设备20上。在该示例中，服务器设备20求解数值模型来估计第一通道的第一音频信号并且求解数值模型来估计第二通道的第二音频信号。接下来它处理第一音频信号和第二音频信号以产生一个或多个通道间空间音频参数。回溯到图3，第一数值模型12A可利用变换模型(例如变换矩阵W)、采样模型(例如传感矩阵P)和接收到的第一稀疏音频信号9A (例如y)建模第一通道的第一音频信号(例如 x(n))。例如，原始音频信号向量x(n)可在已知=的块12A中重建或估计。由n个自由变量和m个方程组成的重建任务可应用如下的数值优化方法执行
权利要求
1.一种方法，包括采样在第一速率接收到的音频以产生第一音频信号；变换所述第一音频信号到稀疏域以产生稀疏音频信号；再采样所述稀疏音频信号以产生再采样稀疏音频信号；以及，提供所述再采样稀疏音频信号，其中移除精确音频再现所需的带宽但是保留空间音频编码所需的带宽。
2.如权利要求I所述的方法，其中到所述稀疏域的变换以及再采样保留表征空间音频的电平/幅度信息。
3.如权利要求I或2所述的方法，其中到所述稀疏域的变换以及再采样保留表征空间音频的时间信息。 .3.如任意前述权利要求所述的方法，其中到所述稀疏域的变换以及再采样保留足够的信息以使得在来自不同通道的音频信号之间的相关成为可能。
4.如任意前述权利要求所述的方法，其中到所述稀疏域的变换以及再采样阻止来自所述稀疏音频信号的所述第一音频信号的精确再现。
5.如任意前述权利要求所述的方法，其中到所述稀疏域的变换包括根据定义的模型的信号处理以及将定义所述模型的参数提供给所述再采样稀疏音频信号的目的地。
6.如任意前述权利要求所述的方法，其中到所述稀疏域的变换包括信号处理，在其中所述第一音频信号随时间积分。
7.如任意前述权利要求所述的方法，其中到所述稀疏域的变换包括信号处理，在其中剩余信号从所述音频信号中作为所述稀疏音频信号产生。
8.如任意前述权利要求所述的方法，其中到所述稀疏域的变换包括使用通道内的自回归模型的信号处理。
9.如权利要求I至7中任一项所述的方法，其中到所述稀疏域的变换包括使用通道间的自回归模型的信号处理。
10.如任意前述权利要求所述的方法，其中在所述稀疏域中的再采样包括根据定义的模型的信号处理以及将定义所述模型的参数提供给所述再采样稀疏音频的目的地。
11.如任意前述权利要求所述的方法，其中再采样包括对作为表示在所述稀疏域中的所述稀疏音频信号的样本的选择。
12.如任意前述权利要求所述的方法，其中再采样包括对表征作为表示在所述稀疏域中的所述稀疏音频信号的可用参数的子集的选择。
13.如任意前述权利要求所述的方法，其中再采样包括利用傅里叶相关变换的信号处理。
14.如任意前述权利要求所述的方法，其中采样接收到的信号、变换所述第一音频信号和再采样所述稀疏音频信号在逐帧的基础上发生。
15.如任意前述权利要求所述的方法，进一步包括与发送的再采样稀疏音频信号的所述目的地保持同步。
16.—种设备,包括用于采样在第一速率接收到的音频以产生第一音频信号的装置；用于变换所述第一音频信号到稀疏域以产生稀疏音频信号的装置；用于再采样所述稀疏音频信号以产生再采样稀疏音频信号的装置；以及用于提供所述再采样稀疏音频信号的装置，其中到所述稀疏域的变换移除精确音频再现所需的带宽但保留空间音频编码所需的带宽。
17.如权利要求16所述的设备，其中所述用于变换的装置使用定义的模型并将定义所述模型的参数提供给所述采样的稀疏音频信号的目的地。
18.如权利要求16所述的设备，其中所述用于变换到所述稀疏域的装置使用自回归模型。
19.如权利要求16、17或18所述的设备，其中所述用于采样的装置使用定义的模型并将定义所述模型的参数提供给所述采样的稀疏音频信号的目的地。
20.如权利要求16至19中任一项所述的设备，其中所述用于采样的装置选择表征作为表示在所述稀疏域中的所述稀疏音频信号的可用参数的一个子集。
21.如权利要求16至20中任一项所述的设备，其中所述用于采样的装置使用傅里叶相关的变换。
22.如权利要求16至21中任一项所述的设备，进一步包括用于与所述采样的稀疏音频信号的所述目的地保持同步的装置。
23.—种设备,包括至少一个处理器；以及至少一个包含计算机程序代码的存储器，所述至少一个存储器和计算机程序代码配置与所述至少一个处理器一起使所述设备执行变换第一音频信号到稀疏域以产生稀疏音频信号；采样所述稀疏音频信号以产生采样的稀疏音频信号；其中到所述稀疏域的变换移除精确音频再现所需的带宽但保留空间音频编码所需的带宽。
24.一种方法，包括接收第一通道的第一稀疏音频信号；接收第二通道的第二稀疏音频信号；以及处理所述第一稀疏音频信号和所述第二稀疏音频信号以产生一个或多个通道间空间音频参数。
25.如权利要求24所述的方法，其中所述处理使用傅里叶相关的变换。
26.如权利要求24或25所述的方法，进一步包括在所述第一稀疏音频信号和所述第二稀疏音频信号之间保持同步。
27.如权利要求24、25或26所述的方法，进一步包括求解数值模型以估计所述第一通道的第一音频信号；求解数值模型以估计所述第二通道的第二音频信号；以及处理所述第一音频信号和所述第二音频信号以产生一个或多个通道间空间音频参数。
28.如权利要求27所述的方法，其中第一数值模型利用变换模型、采样模型和所述第一音频信号建模接收到的第一通道的第一稀疏音频信号。
29.如权利要求28所述的方法，从所述接收到的第一稀疏音频信号的源中接收定义用于变换音频到所述稀疏域的所述变换模型的参数。
30.如权利要求28所述的方法，从所述接收到的第一稀疏音频信号的源中接收定义用于采样所述稀疏音频信号的采样模型的参数。
31.如权利要求24、25或26所述的方法，其中处理所述第一稀疏音频信号和所述第二稀疏音频信号以产生一个或多个通道间空间音频参数使用零化滤波器方法。
32.如权利要求31所述的方法，进一步包括在执行所述零化滤波器方法之前执行迭代降噪。
33.如权利要求24、25或26所述的方法，包括使用所述第一通道的所述第一稀疏音频信号以产生第一通道Toeplitz矩阵；确定所述第一通道Toeplitz矩阵的第一零化矩阵；确定所述第一零化矩阵的根；使用所述根估计所述第一通道的参数；使用所述第二通道的所述第二稀疏音频信号以产生第二通道Toeplitz矩阵；确定所述第二通道Toeplitz矩阵的第二零化矩阵；确定所述第二零化矩阵的根；使用所述根估计所述第二通道的参数；以及使用所述第一通道的估计的参数和所述第二通道的估计的参数确定一个或多个通道间空间音频参数。
34.如权利要求33所述的方法，包括在确定所述第一通道Toeplitz矩阵的零化矩阵之前对所述第一通道To印Iitz矩阵迭代降噪，并且在确定所述第二通道To印Iitz矩阵的零化矩阵之前对所述第二通道Toeplitz矩阵迭代降噪。
35.如权利要求24、25或26所述的方法，包括使用所述第一通道的所述第一稀疏音频信号以及使用所述第二通道的所述第二稀疏音频信号以产生通道间To印Iitz矩阵；确定所述通道间To印Iitz矩阵的通道间零化矩阵；确定所述通道间零化矩阵的根；以及使用所述根估计通道间空间音频参数。
36.如权利要求35所述的方法，包括通过将所述第一通道的所述第一稀疏音频信号或所述第二通道的所述第二稀疏音频信号中的一个的每个参数除以所述第一通道的所述第一稀疏音频信号和所述第二通道的所述第二稀疏音频信号的另一个的各个参数创建所述通道间Toeplitz矩阵的系数。
37.如权利要求35或36所述的方法，其中所述通道间空间音频参数包括通道间延迟和通道间电平差。
38.一种设备,包括用于接收第一通道的第一稀疏音频信号的装置；用于接收第二通道的第二稀疏音频信号的装置；以及用于处理所述第一稀疏音频信号和所述第二稀疏音频信号以产生一个或多个通道间空间音频参数的装置。
39.一种设备,包括至少一个处理器；和至少一个包含计算机程序代码的存储器，所述至少一个存储器和计算机程序代码配置为与所述至少一个处理器一起使得所述设备执行处理接收到的第一稀疏音频信号和接收到的第二稀疏音频信号以产生一个或多个通道间空间音频参数。
40.包括多个如权利要求23所述的设备的系统，每个该设备配置为将其采样的稀疏音频信号传送到如权利要求39所述的设备。
41.一种方法，包括采样在第一速率接收到的音频以产生第一音频信号；变换所述第一音频信号到稀疏域以产生稀疏音频信号；再采样所述稀疏音频信号以产生再采样稀疏音频信号；以及提供所述再采样稀疏音频信号，其中移除精确音频再现所需的带宽但保留所述接收到的音频的分析所需的带宽。
全文摘要
一种方法，包括采样在第一速率接收到的音频以产生第一音频信号；变换该第一音频信号到稀疏域以产生稀疏音频信号；再采样该稀疏音频信号以产生再采样稀疏音频信号；以及提供该再采样稀疏音频信号，其中移除精确音频再现所需的带宽但保留空间音频编码所需的带宽；和/或一种方法，包括接收第一通道的第一稀疏音频信号；接收第二通道的第二稀疏音频信号；以及处理第一稀疏音频信号和第二稀疏音频信号以产生一个或多个通道间空间音频参数。
文档编号G10L19/00GK102770913SQ200980163468
公开日2012年11月7日申请日期2009年12月23日优先权日2009年12月23日
发明者P·奥加拉申请人:诺基亚公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：P·奥加拉
技术所有人：诺基亚公司
我是此专利的发明人