专利名称:用于实时地频域水印处理多声道音频信号的方法和装置的制作方法
技术领域:
本发明涉及用于实时地频域水印处理多声道音频信号的方法和装置,其中对于水印处理音频信号的当前输入部分的全部声道,在任何情况下,都没有足够处理能力可用,并且其中,对于水印处理,以重叠/相加方式每个声道地处理音频信号。
背景技术:
实时数字音频信号水印在处理能力有限的环境下是困难的。这是例如嵌入式平台的情况,其中,由于成本、热量和音量原因而通常使用低功率处理单元,或者是服务器的情况,在其中强力的处理器必须平行地实时水印多个数据流。通常,音频水印系统基于如下的基于块的方式操作,水印(WM)嵌入器取得N个输入信号样本的块,WM处理此块并返回N个改进输出信号样本的块。实时意味着用于信号数据块的WM处理的时间周期小于用来获得 下一个信号数据块的时间周期。如果WM处理时间较长,则违背了实时的限制并且在嵌入器的输入将发生缓冲溢出,这导致样本的丢失和可听假象(audible artefact)以及音频质量的退化。此外,嵌入水印所要求的处理时间经常是取决于音频信号内容的。
发明内容
所以,确保音频数据流的水印处理而不违背实时限制是重要的。一方面,这意味着在绝大多数情况下不是全部多声道数据流的声道都可以被标记。另一方面,水印尽可能多的音频数据流的声道以便于增加水印的鲁棒性和安全性是有利的。在5. I声道音频中,例如,如果仅中央声道被水印而不是左、中央和右声道或全部6个声道,则WM的鲁棒性和安全性大幅降低。为了在上述受限环境中保证实时处理,必须找到对于其水印嵌入器将需要最长的处理时间的最坏情况输入信号。基于这样的时间周期,可以计算可以实时标记的最大数量的声道。但是,这样的解决方案的缺点是,绝大多数输入信号可以比上述最坏情况输入信号更快地被处理,并且绝大多数时候,嵌入器水印比可以水印的声道更少的声道,而这降低鲁棒性和安全性。本发明要解决的问题是,提供具有实时限制的水印处理,在其中可以水印尽可能多的音频输入信号声道。用权利要求I中公开的方法解决此问题。在权利要求4中公开利用此方法的装置。根据本发明,关于水印重要性将在基于数据块的音频多声道信号中的声道优先级化,从而对于不同的输入信号数据块可以改变声道优先级。对于当前输入信号块,水印最重要的声道,例如5. I设置中的中央声道,并且确定所要求的处理时间。如果,此所要求的处理时间比预定的取决于应用的阈值小,则标记次重要的声道(例如,左声道),且确定额外要求的处理时间。以此方式,为当前输入信号块连续标记重要性降序的声道,直到总的所要求的处理时间大于预定处理时间阈值。此后,不水印剩余的声道,而仅进行必须的音频处理,从而不发生块假象(blocking artifact)。这样的“抗块处理”(参见下面的描述)通常远快于完全WM嵌入处理,并且因而此例程的方式将保证遵守实时限制。由于音频编码和水印基于块的本质并由于与对抗块假象产生的音频质量的敏感度,所以必须解决若干问题以便于引向可接受的性能和质量。本发明最优化一方面的WM鲁棒性和安全性与另一方面的实时处理限制之间的折中。大体上,本发明方法适用于实时地频域水印处理多声道音频信号,其中对于水印处理所述音频信号的当前输入部分的全部声道,在任何情况下都没有足够的处理能力,并且其中,对于所述水印处理,对所述音频信号的当前输入部分和所述音频信号的随后的输入部分,以重叠/相加方式每个声道地处理所述音频信号,所述方法包括如下步骤a)对于所述音频信号的所述当前输入部分,确定或考虑声道优先级列表;b)如果有足够的处理能力可用于水印处理所述声道优先级列表的第一声道,则水·印所述第一声道的音频内容,其中该水印处理包括-级联所述音频信号的所述当前输入部分的此声道的输入数据块和所述音频信号的随后的数据块;-幅度加权、频率变换、水印和逆频率变换所述级联的输入数据块;-幅度加权并相加两个产生的数据块,其中对于所述音频信号的数据流的全部声道的第一部分,将对应的数据块幅度加权并且相加而没有先前水印处理;否则,不水印此声道的音频内容,并略过对应的数据块;c)对所述音频信号的所述当前输入部分的剩余声道重复步骤b),并对所述音频信号的随后的输入部分继续用步骤b)和第一声道。大体上,发明性的装置适用于实时地频域水印处理多声道音频信号,其中,对于水印处理音频信号的当前输入部分的全部声道,在任何情况下都没有足够处理能力可用,并且其中对所述音频信号的当前输入部分和所述音频信号的随后输入部分以重叠方式/相加方式每个声道地处理所述水印处理所述音频信号,所述装置包括适配用于以下的部件a)对于所述音频信号的所述当前输入部分,确定或考虑声道优先级列表;b)如果有足够的处理能力可用于水印处理所述声道优先级列表的第一声道,则水印所述第一声道的音频内容,其中该水印处理包括-级联所述音频信号的所述当前输入部分的此声道的输入数据块和所述音频信号的随后的数据块;-幅度加权、频率变换、水印和逆频率变换所述级联的输入数据块;-幅度加权并相加两个产生的数据块,其中对于所述音频信号的数据流的全部声道的第一部分,将对应的数据块幅度加权并且相加而而没有先前水印处理;否则,不水印此声道的音频内容,并略过对应的数据块;c)对所述音频信号的所述当前输入部分的剩余声道重复步骤b),并对所述音频信号的随后的输入部分继续用处理b)和第一声道。本发明的有利的、额外的实施例在各自的独立权利要求中公开。
参考所附附图描述本发明的示例性实施例,所附附图如下示出
图I加权重叠-相加处理的示例;图2随着时间推移,周期中每个音频信号数据块使用的平均、最大和当前处理器负载;图3发明性处理的流程图;图4标记声道(MarkChannel)步骤的更具体的流程图;图5不标记声道(NotMarkChannel)步骤的更具体的流程图;图6从状态“处理(PROCESS)”到状态“略过(PASSTHROUGH)”的转变图7从状态“略过”到状态“处理”的逆转变
具体实施方式
绝大多数音频处理算法,无论是音频编码还是音频水印,都是基于块的,其中,在相同的时间处理N个输入信号样本的块并生成N个输出样本。这样的基于块的处理的原因是,在频域实现部分处理而输入样本在时域,其中典型地用快速傅里叶变换(FFT)或改进离散余弦变换(MDCT)变换N个时域样本的块并将其在频域处理并使用对应的逆变换将其变换回时域。因为这样的变换对于二的指数的长度是非常高效的,所以512或1024大小的样本最常使用。基于块的音频处理的直接方式是从包含k*N到(k+l)*N-l的输入样本的大小N的第k个输入块Ik中直接生成包含k*N到(k+1 )*N-1的输出样本的大小N的第k个输出块0k。但是,输入音频信号在块边界是连续的,即,在输入块Ik和Ik+1之间的界线,并且如果独立地处理块Ik和Ik+1的内容,则将发生的是输出块Ok和0,+1之间的转变不是连续的,引起可听的微响假象。此问题的熟知解决方案是使用加权重叠-相加(WOLA)变换,其中,加权和重叠、变换、逆变换原始音频信号输入块,并且当形成输出信号时加权并相加该原始音频信号输入块,参见 J. B. Alien 的 “Short Term Spectral Analysis, Synthesis, and Modificationby Discrete Fourier Transform,,,IEEE Transactions on Acoustics, Speech, and SignalProcessing, vol. ASSP-25, no. 3, pp. 235 - 238, 1977 年 6 月。图I描绘了用于典型重叠N的发明性水印处理结构,其中Jk是大小N的原始音频信号输入块。在步骤或阶段CC中级联每两个连续的块Jk和Jk+1,引起长度2N和以N重叠的块Ik,从而在I个块中总计包含每个原始输入音频信号样本两次。取代级联长度N的完整的块,长度N/2的一半块可以以连续方式级联(例如,块Jk的第二个半块和块Jk+1的第一个半块,块Jk+1的第一个半块和块Jk+1的第二个半块,块Jk+1的第二个半块和块Jk+2的第一个半块等等),并且对应的重叠是N/2。图I不描绘相同的多声道音频信号部分的连续声道,而是用于多声道音频信号的连续部分的相同声道。在步骤或阶段WTk,大体上块Ik幅度加权并变换,在频域内施加水印改进k,并且逆变换所产生的块,产生大小2N的输出块0k。变换可以是FFT,其从每2N个输入值中生成2N个变换的输出值,并且对应的逆变换IFFT从每2N个输入值中生成2N个逆变换的输出值,或者该变换可以是MDCT,其从每2N个输入值中生成N个变换的输出值,并且对应的逆变换MDCT从每N个输入值中生成2N个逆变换输出值。
在步骤或阶段WA中,当前输出块对ok/ok+1的第一块Ok与先前输出块对(V1A)k的第二块Ok幅度加权并相加,以产生大小为N的最终输出块Pk。在WTk的输入并在WA中,进行两个块的两个幅度加权从而存在总体平坦的响应。例如,幅度加权使用正弦和余弦函数从而sin2+cos2=常数,例如I。音频数据流的第一原始输出块Jtl不根据上述处理产生输出块。反而,第一最终输出块Po是第一输出块Otl和原始输入块J0的组合。这意味着相对于对应的输入块Jk,以一个块延迟最终输出块Pk: 时间步骤原始输入±夹原始输出块
toJ0无无
~WT^
~ J2WT\
tkJkWTk_iPk-I如上所述,在一些应用中,没有足够的处理能力可以实时地水印多声道音频数据流的全部声道。这例如在类似用于TV信号接收的机顶盒的嵌入式平台上发生,但是也在同时处理很多数据流的大型服务器上发生。此外,负责进行水印的处理器可能也实现其他类似音频编码的任务,并从而该处理的当前负载可以随时间变化。不标记全部声道可能使水印(WM)系统的安全性降级,因为这可能移除水印的声道而不使用户体验降级太多。如果例如在5. I音频数据流中,仅标记左声道,取决于内容,可能基于除左声道以外的全部声道生成新的2. I音频数据流。当然,在这样的流中,不能检测到水印。不标记全部声道还将使鲁棒性降级,该鲁棒性对抗例如在电影院中丽系统音频输出的未授权话筒捕获,因为在话筒阶段,自动地将全部声道混合在一起。通常,以相同的方式标记全部声道,这意味着在此混音中添加水印。另一方面,如果一些声道未标记,则它们可以简单地作为对WM检测器的额外噪声,这可能引起水印的不可检测性。嵌入水印所需的时间经常取决于内容的事实甚至使情况更复杂,如图2所示,其中,描绘了随着时间变化每个块使用的最大值、平均值和当前处理器周期。本发明性动态声道标记提供了在实时要求、鲁棒性和安全性之间的最优的折中。如上所述,在一些应用中,不可能水印音频数据流的全部声道。所以,将声道优先级化。例如,在5. I设置上绝大多数音频信号内容或能量在左、右和/或中央声道。低频效果(LFE)声道和环绕声道通常不携带大量信息。所以,5. I音频数据流的优先级可以被设置为I.中央、2.左、3.右、4.左环绕、5.右环绕、6. LFE。对于动态声道标记中的每个连续信号输入块,以优先级降序尽可能多地水印声道,而不违背实时处理能力限制并且不损害由于块假象的音频质量。
将音频声道的发明性水印处理的三个状态定义为INIT是音频数据流的第一块的处理的状态(图I中的块J。)。“处理”是正常的处理操作状态(图I中的块Jp J2和J3X在状态“略过”中,不进行水印处理,而仅返回对应的输入块(图6中的块Jk和Jk+i以及图7中的块Jk_3和Jk_2)以便于维持数据连续性。在示出通用发明性处理的流程图的图3中,在步骤31启动计时器,并且通过设置当前音频声道数m以标记为“0” (如果声道优先级列表从零开始,或者如果声道优先级列表从“I”开始,则m设为“I”)来在步骤32中选择当前音频信号块或部分的声道优先级列表的第一声道。在步骤33中读取当前计时器值,并在步骤34中以整体的实时处理要求的角度检查是否还存在足够的时间以水印处理音频声道优先级列表的下一个声道。
一旦在水印处理当前音频信号输入块或部分期间,由上述无水印处理任务导致的处理器负载下降或增加,则不仅在步骤/阶段33和34中评估允许时间周期,还评估剩余的当前音频信号输入块或部分的可用处理能力。如果当前剩余的处理能力对水印处理是可用的,则在步骤35中水印优先级列表的当前音频声道m并且在步骤36中以“ I”递增优先级列表声道数m,即,m — m+1。如果不可用,则在步骤39中不水印当前音频声道m并且在步骤36中以“I”递增声道优先级列表数m。步骤37检查在声道优先级列表中是否存在更多剩余的声道。如果是存在,则在步骤38中选择声道优先级列表的下一个音频声道m,读取步骤33中的当前计时器值并且如上所述地继续处理。如果不存在,则当前音频信号块或部分的水印处理结束并且对随后的音频信号块或部分的第一优先级列表声道继续处理。声道计数器m与当前声道是否被水印无关地增加。这确保了不论一些声道是否已经处于状态“略过”都独立地应用相同的修改(或类似的改进,因为该改进可以是取决于内容的)到一个音频信号块或部分的全部声道。在图4和图5中描绘用于图3的步骤35的“标记声道”和步骤39的“不标记声道”的更详细的流程图。在图4中,在步骤41中检查当前状态是否为“处理”。如果是,则在步骤42中进行当前声道m的正常处理。如果不是,则在步骤43中进行向处理当前通道m的状态“处理”的转变,如同联系图1、6和7而描述的。在图5中,在步骤51中检查当前状态是否是“略过”。如果是,则在步骤52中进行当前声道m的正常“略过”处理。如果不是,则在步骤53中进行向处理当前通道m的状态“略过”的转变,如同联系图1、6和7所描述的。在对于当前音频信号块或部分的其它声道没有剩余水印处理能力的情况下,则如图6所描绘的,对于剩余声道水印处理状态从状态“处理”变为状态“略过”。在该图中,输出块Pk和Pk+1的内容分别对应于输入块Jk和Jk+1的内容。在在当前输入信号块或部分的处理期间对于当前音频信号块或部分的其它声道存在意料之外的水印处理能力(例如,由于不同的任务要求较少的处理能力)的情况下,则如图7所描绘的,对于当前音频信号块或部分的剩余声道水印处理状态可以从状态“处理”变为状态“略过”。在结束当前音频信号块或部分的处理或检查并且继续处理随后的音频信号块或部分的声道优先级列表的第一声道的水印处理的情况下,这也是正确的。在该图中,输出块Pk_3和Pk_2的内容分别对应于输人块Jk_3和Jk_2的内容。
有利地,随着时间推移声道的优先级化不需要是恒定的。例如,如果在5. I设置中仅水印 两个声道,从而最重要的声道是中央声道,左声道和右声道可能是同等重要的。为了使攻击者的行为更加困难,有利的是,在这种情况下在第一时间周期标记中央和左声道并此后在第二时间周期标记中央和右声道,并重复此交替直到音频数据流的结束。
权利要求
1.一种用于实时地频域水印处理(CC、WT、WA、35)多声道音频信号的方法,其中对于水印处理所述音频信号的当前输入部分的全部声道,在任何情况下都没有足够的处理能力,并且其中,对于所述水印处理,对所述音频信号的当前输入部分和所述音频信号的随后的输入部分,以重叠/相加方式每个声道地处理所述音频信号,所述方法包括如下步骤 a)对于所述音频信号的所述当前输入部分,确定或考虑声道优先级列表; b)如果有足够的处理能力可用于水印处理所述声道优先级列表的第一声道(32),则水印(35)所述第一声道的音频内容,其中该水印处理包括 -级联(CC)所述音频信号的所述当前输入部分的此声道的输入数据块(J0, J1)和所述音频信号的随后的数据块; -幅度加权、频率变换、水印和逆频率变换(WTtl)所述级联的输入数据块; -幅度加权并相加(WA)两个产生的数据块,其中对于所述音频信号的数据流的全部声道的第一部分,将对应的数据块(Jtl)幅度加权并相加而没有先前水印处理; 否则,不水印(39)此声道的音频内容,并略过(PASSTHROUGH)对应的数据块; c)对所述音频信号的所述当前输入部分的剰余声道重复步骤b),并对所述音频信号的随后的输入部分继续用步骤b)和第一声道。
2.根据权利要求I的方法, 其中,在存在从水印处理(“处理”)向无水印处理(“略过”)的切換的情况下,则在所述幅度加权和相加(WA)中,最后的数据块是对应的输入数据块,并且其中,一旦存在从无水印处理(“略过”)向水印处理(“处理”)的切換,则在所述幅度加权和相加(WA)中,第一数据块是对应的输入数据块。
3.根据权利要求I或2的方法,其中,对所述音频信号的每个输入部分确定所述声道优先级列表。
4.用于实时地频域水印处理(CC、WT、WA、35)多声道音频信号的装置,其中对于水印处理所述音频信号的当前输入部分的全部声道U),在任何情况下都没有处理能力可用,并且其中,对于所述水印处理,对所述音频信号的当前输入部分和所述音频信号的随后的输入部分,以重叠/相加方式每个声道地处理所述音频信号,所述装置包括如下步骤 a)对于所述音频信号的所述当前输入部分,确定或考虑声道优先级列表; b)如果有足够的处理能力可用于水印处理所述声道优先级列表的第一声道(32),则水印(35)所述第一声道的音频内容,其中该水印处理包括 -级联(CC)所述音频信号的所述当前输入部分的此声道的输入数据块(ふ,J1)和所述音频信号的随后的数据块; -幅度加权、频率变换、水印和逆频率变换(WTtl)所述级联的输入数据块; -幅度加权并相加(WA)两个产生的数据块,其中对于所述音频信号的数据流的全部声道的第一部分,将对应的数据块(Jtl)幅度加权并相加而没有先前水印处理; 否则,不水印(39)此声道的音频内容,并略过(“略过”)对应的数据块; c)对所述音频信号的所述当前输入部分的剰余声道重复步骤b),并对所述音频信号的随后的输入部分继续用步骤b)和第一声道。
5.根据权利要求4的装置, 其中,在存在从水印处理()向无水印处理()的切換的情况下,则在所述幅度加权和相カロ(WA)中,最后的数据块是对应的输入数据块,并且其中,一旦存在从无水印处理(“略过”)向水印处理(“处理”)的切換,则在所述幅度加权和相加(WA)中,第一数据块是对应的输入数据块。
6.根据权利要求4或5的装置,其中,对所述音频信号的每个输入部分确定所述声道优先级列表。
7.根据权利要求I到3之一的方法处理的数字多声道音频信号。
8.一种其上包含或存储、或记录入权利要求7所述的多声道音频信号的存储介质。
全文摘要
数字音频信号实时水印在具有有限处理能力的环境下是困难的。根据本发明,关于水印重要性将在基于数据块的音频多声道信号中的声道优先级化,从而声道优先级可以为不同的输入信号数据块而改变。对于当前输入信号块,水印最重要的声道并确定要求的处理时间。如果此要求的处理时间短于预定的取决于应用的阈值,则标记次重要的声道并且确定额外要求的处理时间等等。由于包括块重叠/相加的音频水印基于块的本质并且由于对抗块假象的产生的音频质量的敏感度,解决若干个问题以便于引向可接受的性能和质量。本发明最优化一方面的水印鲁棒性和安全性和另一方面的实时处理限制之间的折中。
文档编号G10L19/018GK102956234SQ20121030251
公开日2013年3月6日 申请日期2012年8月23日 优先权日2011年8月23日
发明者P.G.鲍姆, U.格里斯, M.阿诺德, 陈晓明 申请人:汤姆森特许公司