向音频信号中添加不可听码的系统和方法,以及从音频信号中读取编码的方法和装置的制作方法

文档序号:7654469阅读:185来源:国知局
专利名称:向音频信号中添加不可听码的系统和方法,以及从音频信号中读取编码的方法和装置的制作方法
本申请包含和1998年7月16日提交的美国专利申请No.09/116,397、1999年10月27日提交的美国专利申请No.09/427,970、1999年10月27日提交的美国专利申请No.09/428,425相近的公布内容。
其它已知的视频编码系统设法将附属编码隐藏在电视信号的一部分传输带宽中,其要携带少量的信号能量。已经转让给本申请的受让人的美国专利第5,629,739号公布了此系统的一个实例。
同样众所周知的还有,为了识别信号,并且或许,为了通过信号发布链追踪其路径,将附属编码添加到音频信号中。音频编码具有不仅可以用于电视,也可以用于无线电广播和先期录制音乐的显著优点。还有,接收器的扬声器以音频信号输出的形式,对添加到音频信号中的附属编码进行再生。因此,音频编码提供了非侵入性截取(即,无需侵入到接收器的内部而进行编码的截取)和使用具有麦克风作为输入的设备对编码进行解码的可能性。还有,音频编码允许利用由专门小组携带的便携式测量设备进行广播收听的测量。
在用于广播收听测量目的的音频信号编码领域,Crosby在美国专利第3,845,391号中提出了一种音频编码方法,其中将编码插入到窄的频率“缺口”中,从其中删除了原始音频信号。以固定的预定频率(例如,40kHz)形成该“缺口”。当包含该编码的原始音频信号强度较低时,此方法使得编码可听。
在Crosby的专利之后有一系列的进步。此处,Howard在美国专利第4,703,476号中提出了使用两个单独的缺口用于编码信号的标记部分和间隔部分。Kramer在美国专利第4,931,871号和美国专利第4,945,412号中提出了“inter alia”,使用的编码信号的幅值跟随其所添加在的音频信号的幅值。
还有一种广播收听测量系统,其中专门小组携带能够在音频信号中拾取和存储不可听码广播的装备有麦克风的音频监测设备。例如,Aijalla等等在WO94/11989和美国专利第5,579,124号中描述了一种方法,其中,使用扩频技术向音频信号中添加编码。该编码或者是不可感知的,或者仅可作为低水平“静电”噪声听见。
同样,Jensen等在美国专利第5,450,490号中提出了一种方法,用于以一组固定的频率添加编码和使用两个掩蔽信号(masking signal)中的一个。基于对要添加编码的音频信号的频率分析,对掩蔽信号进行选择。Jensen等没有提出选择在各个预定的频率间隔组中使用的最大可接受编码能量的方法,也没有提出在频谱成份之间转移能量和使总的声能保持为常数的能量交换编码。
Preuss等在美国专利第5,319,735号中提出了一种多频带音频编码方法,其中在录制的音乐中,与最好为19dB的输入信号强度成固定比率(编码对音乐的比率)地插入扩频码。Lee等在美国专利第5,687,191号中提出了一种适于和数字化音频信号一起使用的音频编码方法。通过计算几个频带中各自的信号-掩蔽比率,然后以该频带中音频输入的预定比率的强度插入编码,从而使编码强度和输入信号相匹配。Lee等也在美国专利第5,824,360号中描述了一种方法,用于在数字波形中嵌入数字信息。
Jensen等在美国专利第5,764,763号中提出了一种方法,其中,向原始音频信号中添加由高分辨率频谱中的十个预定频率上的正弦波形构成的编码信号,以代表一个二进制位(0或者1),和所嵌入消息的开始和结尾。对此四个码元进行编码需要四十个不同的频率。在典型的实际实施例中,其值从1046.9Hz到2851.6Hz不同。频谱中相邻线之间的频率间隔是4Hz,选择来构成这组40个频率的频率之间的最小间隔是8Hz。所插入编码信号的幅值由掩蔽分析进行控制。在解码处理时,由于所插入编码信号的能级显著高于为一个频带计算的噪声能级,所以可以区别出所插入的编码信号。
应该认识到,由于最好以较低的强度插入附属编码,以防止该编码分散节目音频听众的注意力,此类编码对于各种信号处理操作,以及对于外来电磁源的干扰可能是脆弱的。例如,尽管Lee等讨论了数字化的音频信号,许多早期公知的对广播音频信号进行编码的方法与当前推荐的数字音频标准并不兼容,尤其是使用了能够降低信号的动态范围(从而也册除了低能级的编码)或者可能损害附属编码的信号压缩方法的方法。在此方面,对于附属编码而言,重要的是在通过AC-3算法或者ISO/IEC 11172 MPEG标准中推荐的一种算法(这将在将来的数字电视广播系统中广泛应用)进行压缩和随后的解压缩之后还能够存在。
在1998年7月16日提出的美国专利申请序列号为09/116,397和1999年10月27日提出的美国.专利申请序列号为09/428,425中公布了一种系统和方法,用于向音频信号插入编码,从而该编码可以在当前推荐的数字音频标准所要求的压缩和解压缩之后仍然存在。使用选定编码频率的信号幅值或者相位的频谱调制,向音频信号中插入编码。这些选定的编码频率(其包含给定音频块中的多个频率组)可以随音频块而互不相同,可以通过幅值调制、频率交换调制、相位调制,和/或奇/偶指数调制而实现频谱调制。另外,还提出了一种方法,以对于听众可以听到编码的情况,对各个块和编码的音频质量进行测量。
在‘397申请和‘425申请中教导的试验系统中,编码过程中的音频采样处理在电视节目的音频部分中附加了超过20毫秒的延迟。由于未加纠正,这个延迟导致在所收看的节目的音频和视频部分中产生了可以觉察的同步丢失。因此,这种试验系统要求使用视频延迟补偿电路。然而,最好是不使用此电路。
还有,在‘397申请和‘425申请中提出的系统中,通过操作以约100Hz分开的频率对,进行编码的添加。因此这些系统易于受到干扰,诸如混响或多路失真,其比其它的更影响编码后的频率。
本发明旨在解决上面提到的一个或者多个问题。
根据本发明的另外一个方面,提供了一种方法,用于向复合信号的采样音频部分的频带中添加编码,而不会由此在复合信号的编码音频部分和其它部分之间引入可察觉的延迟。该方法包括以下步骤a)选择采样率和包含在频率邻域中的预定数目的频率指数中相邻的指数之间的频率差;b)由所述采样率和频率差确定采样块的持续时间;c)确定构成块的连续子块的整数数目,其中选择整数数目从而使得每一个子块具有小于可察觉延迟的子块持续时间;d)对块进行处理,以对所选择的频率指数进行调制,而不改变频带的总信号能量。
根据本发明的另外一个方面,提供了一种设备,用于从音频信号中读取编码。该编码包括具有预定数目的音频信号采样的连续块,并包括跟随有预定数目数据块的同步块。该设备包括缓冲存储器,频率变换器,处理器,和表决器(vote determiner)。缓冲存储器用于保持一个块。频率变换器用于将一个块转换为跨越预定数目频带的频谱数据,其中每一个频带包括频率指数的相应邻域。处理器对于每一个邻域确定各个预定的频率指数是否经过了调制。表决器用于,如果在多数频带中相应的调制频率指数是为包含在同步块中的内容而选择的相应指数,则确定一个块为同步块。处理器还用于确定在同步块后面接收到的一个数据块中,频率指数中预定的一个是否经过了调制。表决器还用于确定在多数频带中,相应的调制频率指数是否是为包含在一个数据块中的内容而选择的指数。
根据本发明的另外一个方面,提供了一种方法,通过将一系列的音频采样按照顺序转换成为跨越预定数目频带的频谱数据,从而从音频信号中读取编码。每一个频带包括预定数目的频率指数,每一个块包括预定数目的采样。编码包括跟随有预定数目数据块的同步块。该方法包括以下步骤a)在音频采样的一个块的各个频带中,确定频率指数之一是否是经过调制的;b)将步骤a)中找出的各个调制频率指数和同步块的相应频带中为调制而选择的指数进行比较;c)如果在步骤b)中所做的大多数比较是匹配的,则确定所述的一个块是同步块,否则重复步骤a)到b);d)在同步块之后接收到的数据块之一的各个频带中,确定相应的一个频率指数是否是经过调制的;以及e)将步骤d)中找出的相应的调制频率指数和多个预定的指数模式中的一个进行比较,每一个指数模式唯一地与一个相应的编码比特相关,并且只有多数调制指数和预定指数模式相匹配才读取该编码比特。
根据本发明的另外一个方面,提供了一种系统,用于向具有两个或者多个部分的复合信号的类音调(tone-like)音频部分中添加不可听码。该系统包括采样设备,处理器,频率变换器,编码器,信号分析器和编码器中止器(encoder suspender)。采样设备用于以特定的采样率对音频信号进行采样,并且由此生成多个采样音频的短块,每一个短块都具有比最小的可听信号延迟短的持续时间。处理器用于将多个短块组合成为具有预定最小持续时间的长块。频率变换器用于将长块转换成为包括位于多个频带中的多个可独立调制的频率指数的频域信号。编码器用于对各个频带中的两个或者多个指数进行调制,从而在保持音频的总声能恒定的同时,把所选择的一个指数作为极值。信号分析器用于确定所述类音调音频信号是否具有预定数目的邻域中任意一个之内的的类音调特征。编码器中止器用于在任何一个类音调音频部分具有类音调特征的邻域中中止编码器的编码。
根据本发明的另外一个方面,提供了一种方法,该方法用于向具有一个或者多个附加部分的复合信号的类音调音频部分中的预定数目频率邻域的至少一个中添加不可听码。该方法包括a)对音频部分进行采样,并且由采样信号生成多个短块,每一个短块都具有小于最小可听信号延迟的持续时间;b)将多个短块组合成为具有预定持续时间的长块;c)将长块转换成为包含多个独立可调制的频率指数的频域信号;d)对所述预定数目的频率邻域中类音调音频部分具有类音调特征的邻域进行识别;e)对步骤d)中未识别的各个邻域中的相应指数进行调制,以在保持音频部分的总声能为常数的同时,使该邻域中所选择的指数为极值,对于在步骤d)中识别出的邻域中的指数不进行调制。
根据本发明的另外一个方面,提供了一种广播收听测量系统,该系统通过位于统计采样工作处的解码设备,读取添加到音频信号中的不可听码。该系统包括编码器,接收器,和解码器。编码器用于向音频信号的带宽中预定数目的奇数频带分别添加预定的编码比特。接收器位于工作处,用于接收编码的音频部分。解码器具有从接收器而来的输入,解码器用于从各个频带获取编码比特的测试值,对测试值进行比较,如果从多数频带接收到测试值,则确定其中一个测试值是编码比特,否则,确定没有读取到编码比特。
根据本发明的另外一个方面,提供了一种广播收听测量系统,该系统在统计采样工作单元读取添加到音频信号中的不可听码,该系统包括编码装置,接收器,和解码器。编码装置用于向音频信号的采样长块添加编码比特,其中长块包括预定数目的短块。每一个短块具有预定的持续时间,该预定持续时间足够短,从而不会被广播收听成员所察觉。编码设备还用于对多个频率邻域中每一个的选定频率指数进行调制,以在保持音频信号的总能量为常数的同时,在对应的邻域中使每一个选定的指数为极值。接收器位于工作处,用于获取编码音频信号。解码器用于从音频信号中读取编码。解码器具有从接收器而来的输入,解码器包括用于存储一个短块的缓冲存储器。缓冲存储器不用于存储长块。
根据本发明的另外一个方面,一种对音频信号进行编码的方法包括以下步骤a)由音频信号生成多个短块,其中每一个短块都具有小于最小可听信号延迟的持续时间;b)将多个短块组合成为长块;c)将长块转换成为包含多个独立可调制的频率指数的频谱;d)对至少两个指数进行调制,以在保持调制指数的邻域的总能量大致恒定的同时,使一个指数为极值。
根据本发明的另外一个方面,一种从音频信号中读取编码单元的方法包括以下步骤a)将音频信号的至少一个部分转换成为跨越预定数目的具有多个频率邻域的频带的频谱数据;b)对于每一个邻域,确定一个频率指数是否经过了调制;c)如果在多数邻域中,相应调制频率指数是为包含在音频信号中而选择的指数,则将所传输的编码值分配给编码单元。
优选实施例详细说明通常,以32kHz到48kHz范围内的采样率对音频信号进行数字化。例如,在音乐的数字化录制过程中,通常使用44.1kHz的采样率。然而,数字电视(“DTV”)使用48kHz的采样率。除了采样率,在音频信号数字化过程中另外一个重要的参数是当进行采样时,在各个时刻用于表示音频信号的二进制比特数。此二进制比特数可以不同,例如,每个采样16到24比特之间。在每个采样中使用16比特带来的幅值动态范围是96dB。此分贝测量是最高音频幅值(216=65536)的平方对最低音频幅值(12=1)的平方的比值。在每个采样中使用24比特带来的幅值动态范围是144dB。在44.1kHz采样率下进行采样、并且转化成为每个采样16比特形式的原始音频,形成了705.6千比特/秒的数据率。
对音频信号进行压缩,以将数据率降低到一定的水平,使得可以以低至192千比特/秒的吞吐量在信道上传输立体声的一对数据。通过转换编码实现音频压缩。例如,通过快速傅立叶变换算法或者其它类似的频率分析处理,能够将由采样构成的音频块分解成为频谱形式。为了避免在一个音频块和前一个或者后一个音频块之间的边界出现错误,通常使用重叠的音频块来生成采样。在这样一个方法中,每一个重叠块使用1024个采样,一个块包括512个“旧的”音频采样(即,从前一个块而来的音频采样)和512个“新的”或者当前的音频采样。此块的频谱形式被划分为临界频带,其中每一个频带包括一组数个相邻的频率。通过将频带内频率成份幅值的平方合计起来,可以计算出这些频带中每一个的能量。
音频压缩是基于下面的掩蔽(masking)原理在一个频率(即掩蔽频率)中存在高频谱能量的情况下,如果低能量信号具有接近高能量信号的频率(即被掩蔽的频率),人的耳朵就不能感觉到较低能量的信号。被掩蔽频率处的低能量信号称为“被掩蔽信号”(masked signal)。掩蔽阈值,其或者表示(i)被掩蔽频率处为使其可听而需要的声能,或者(ii)可感觉得到的现有谱值中的能量变化,可以针对各个频带进行动态计算。可以在此掩蔽阈值的基础上使用较少的比特用粗略的形式描述被掩蔽频带中的频率成份。即,使用构成压缩音频的较少数目的比特数对掩蔽阈值和频率成份的幅值进行编码。基于这些数据,解压缩重建原始数据。
需要注意的是,掩蔽阈值在一定程度上取决于被掩蔽的声音的特性。类音调的声音在声谱中仅出现一个或者少数频率,从而出现了处理宽带声信号时不会出现的特殊掩蔽问题。这样,添加到话音流中可以被掩蔽的信号,如果添加到同样声能的音乐流中就可能被听众听见。


图1中所示的电视收视测量系统10是使用本发明的系统实例。电视收视测量系统10包括编码器12,用于向广播节目信号的音频信号部分14中添加附属编码。或者做为选择,如本领域所公知的,可以在节目信号发布链的其它位置提供编码器12。发射器16把编码的音频信号部分和节目信号的视频信号部分18一起发射出去。
当位于统计选择的测量点22处的接收器20接收到编码信号时,对所接收的节目信号的音频信号部分进行处理,以恢复附属编码,尽管编码音频信号部分提供给接收器20的扬声器24时听众并不能察觉到附属编码的存在。为此,解码器26或者直接连接到接收器20处的音频输出28,或者连接到用于再生音频的扬声器24邻近的麦克风30。所接收的音频信号可以是单声道格式的,也可以是立体声格式的。
如同在‘397申请和’425申请中所公布的,音频块可以包括以48kHz采样率进行采样的512个音频流的采样。这样一个块的持续时间是10.6ms。由于对两个块进行缓冲存储,此方法包括约22ms的总延迟,这会作为视频和音频信号之间的同步丢失而被观众察觉到。为了避免同步丢失,在视频信号中引入了补偿延迟。由于最好不要有此补偿延迟,编码器12进行图2的流程图中所示的编码,以在避免使用补偿延迟电路的同时,避免视频/音频同步丢失。
通过构造一个完整的、或者“长的”码块作为重叠短块序列,该码块可以由相应较小的缓存器以成对形式进行处理,并且仅仅是′397和′425申请中使用的块长度的一半,从而由编码器12进行的编码把音频编码延迟减小到不可察觉的5.3毫秒。
根据′397申请和′425申请,音频信号的采样间隔足够长从而构成以48kHz采样率采集的512个采样的块,对该采样间隔的频谱分析形成以93.75Hz彼此分开的频率“线”。在这些申请中,邻域是一组5个连续的频率线,覆盖所编码的音频部分整个带宽的选定部分中的468.75Hz的邻域带宽。通过改变(最好是提高)邻域中一个频率的幅值使其成为局部极值(即,优选情况下的最大值,尽管局部极值也可以是最小值),对“0”或者“1”的二进制数据比特进行编码。对同一邻域中的另外一个频率以相反的方式(即,最好是减小)进行改变,以使频带中的总能量维持在恒定水平,此处称作“能量交换编码”。已经发现,编码块所需的468.75Hz邻域带宽已经足够大,当一个邻域中的两个频率经历不同量值的改变时,编码会受到干扰的影响。
在本发明的优选系统中,使用了更长的“长块”采样间隔(48Hz下8192个采样)。此较长的采样间隔把频谱线之间的间隔减小到5.85Hz。这一点将在下面进行详尽的描述,此优选系统在包含8个相邻频率指数的频率邻域中写入能量交换编码比特。这样,此频率邻域需要小于50Hz的带宽。这种对于采样率、采样间隔中的采样数和频率指数数目的选择使得在邻域中有很小的频率差,从而提供了一种对窄带干扰影响具有高度抵抗性的抗干扰编码。频谱调制编码如图2所示,在由编码器12所实现的编码步骤40,通过将输入缓存器的所有存储单元设置为0,而对具有256个存储单元的输入缓存器进行初始化。同样,通过将输出缓存器的所有存储单元设置为0,而对具有128个存储单元的输出缓存器进行初始化。还有,将子块计数器和长块计数器全部设置为0。在步骤41,将数据从输入缓存器的后半部移到前半部,并且将数据从临时缓存器的后半部复制到输出缓存器的前半部。
在步骤42,通过将来自音频信号部分14的新数据的128个采样读取到输入缓存器的后半部而构建短块,输入缓存器对这128个新采样和先前块的后128个采样进行组合,作为步骤41的结果,先前块的后128个采样存储在输入缓存器的前半部中。为了使编码器12以和压缩技术兼容的方式在音频数据流中嵌入数字编码,编码器12使用的频率和临界频带最好和压缩中使用的相匹配。可以按照以下的方法选择用于编码的音频信号短块长度NS,例如,NS=N1/j,其中j为整数,N1是长块中的采样长度。例如,NS的合适值为256,而Nl的合适值为8192。短块本身是由先前块的后128个采样和图2中步骤42所读取的新数据的128个采样构建而成。可以由编码器12通过使用模数转换器从音频信号部分14中获得采样。
短块中音频信号的幅值可以使用时域函数v(n)进行描述,其中n为采样指数。在步骤43,通过将时域函数v(n)乘以采样间隔而转化为时间值。为此,根据下面的公式定义了“窗口函数”w(n)=1-cos(2πnNS)2---(1)]]>并且在步骤43通过乘法而应用于v(n),以获得存储在临时缓存器中的窗口信号(windowed signal)v(n)w(n)。在步骤44,对v(n)w(n)进行离散傅立叶变换F(u),其中u是频率指数。可以通过公知的快速傅立叶变换(FFT)算法实现此离散傅立叶变换。
由傅立叶变换获得的频率的指数范围是-127到+127,其中指数127正好对应于采样频率fS的一半。因此,对于48kHz的采样频率,最高的指数和24kHz的频率相对应。因此,为了标定指数,通过下面的公式给出最接近于由傅立叶变换获得的某一频率成份fj的指数,其中以kHz为频率的单位j=128fj24---(2)]]>其中公式(2)在下面的讨论中用于将频率fj和相应的短块指数j关联起来。如上所述,在优选的编码方法中,为短块计算的连续指数彼此分开187.5Hz。相应的,在考虑分别由128个采样的64个子块构成的长块时(其中,以256个采样的成对形式对子块进行处理),按照下面的公式将长块指数J和单位为kHz的高分辨率频谱频率fJ关联起来J=4096fJ24---(3)]]>由公式(2)和(3)可见,对于高(长块)和低(短块)分辨率频谱通用的频率而言,J=32j。
在本发明的优选高分辨率编码方法中,选定5个频段用于下面进行详细讨论的“表决(voting)”中。对于每一个选定的频段,定义了关于中间短块指数jS,JS=32js的8个长块指数JL=JS-4,JS-3,JS-2,JS-1,JS,JS+1,JS+2,JS+3等等的高分辨率邻域。在一个这样的实施例中,选定的频率和指数如下表所示
值得注意的是,上面示例表中所示的每一个长块用于定义具有8个长块指数的邻域。可以认识到可以使用不同数目的指数。添加指数可以增加一个块中容纳的数值范围,但是也会增加块的频率跨度,从而使得编码更易受干扰效果的影响。
假设长块L包括构成64个子块的8192个采样,每一个子块具有128个新采样。通过使用公式(1)的窗口函数,由相邻的子块构建256个采样的短块。这样,L包括一个由64个重叠短块组成的序列,每一个具有256个采样。这些短块可以方便地使用Si进行指数,其中短块指数i的范围是从0到63。
传统上用于压缩算法的这种掩蔽分析优选地在步骤44应用于短块,以确定在任何临界频率处可能发生的能量Eb或掩蔽能量水平的最大变化,而不会使得听众感觉到调制。这些通过对人的听觉能力进行实验性研究而确定的临界频带的宽度可以不同,从频谱低端的单个频段到可听频谱高端处的包含10个或者更多相邻频率的频段。例如,在用于MPEG-AAC音频压缩标准ISO/IEC 13818-71997的心理-声学模型方案中,临界频段18包括具有短音频块的指数为19和20的两个频率。每一个临界频段中的声能影响其邻域的掩蔽能量。在诸如ISO/IEC 13818-71997的标准文件中描述了用于计算掩蔽效果的算法。这些分析可以用于为各个音频块确定由作为音频频谱特征的“音调”或者“噪声”所带来的掩蔽比重。在步骤44中由这些算法所计算的音调指数为确定环境提供了有用的工具,在此环境下,在进行编码的时候,子块会产生音频降低。基于每一个临界频带,此分析还可以用于确定可以不生成任何显著的音频退化而添加的时域编码信号的幅值。这样,对于属于具有掩蔽能量Ej的临界频带的短块频率指数j,按照如下的公式给出编码信号的最大幅值Mj=128Ej---(4)]]>其中,128是从频域向时域转换所需的系数。
使用非常接近于选定频带的相应短块的中间指数的长块指数来构建优选的编码波形。例如,如果考虑了具有子块指数m和编码频带b的子块Sm,并且如果加强了具有长块指数Jb的谱频频率,则合适的编码波形将具有256个采样,其可以表示为Cb(p),其中指数p的范围从0到255。在优选实施例中,按照下面的公式进行这些部分的选择Cb(p)=Abcos(φm+2πJbp8192)+kbAbcos(π+φj+2πjbp256)---(5)]]>其中Ab是名义编码幅值水平,Jb是长块频率空间中的指数,jb是相应短块的中间指数,φm按照下面的公式给出φm=2πJbm1288192---(6)]]>φm是子块m的起始相位角,而φj是由傅立叶变换分析获得的短块频率指数jb的相位角。数值φm确保在构成长块的所有64个块中具有频率指数Jb的编码部分是同相的。应当注意,为了简化表示,可以进行具有窗口函数(未显示)的编码信号的乘法。
上述的编码波形选择提供了能量交换编码特征。对于给定的大块指数Jb,公式(5)中的第一个余弦项表示添加的能量。由于相位角改变了π,在下面的假设下jb处的频谱能量代表编码频带b中的所有能量,并且包括频带中的所有高分辨率编码频率,则相应的短块指数jb项减去补偿的能量。
应当注意的是,诸如Jb的每一个高分辨率频率成份不仅影响jb处的频谱幅值,而且影响其邻域。最典型的影响在其最近的邻域jb-1和jb+1。具有从0到0.8变化值范围的常数kb用于控制单个指数jb对编码信号进行补偿的程度。
在步骤43应用的窗口函数导致短块频率指数之间的更多交互作用。由于高分别率频率彼此互相接近,这些幅值变化是不宜觉察的。由于编码操作,相对于频带中的邻域,增强了具有指数Jb的长块频率。例如,如果选择了长块指数223,其中相应的短块中间指数为7,并且计算了所有64块的编码能量,则频率指数223的成份具有比从220到227的邻域中其它指数更高的能级。
选择名义编码幅值水平Ab,使其为编码过程中允许成功提取所嵌入编码的最低值。对于多数子块而言,希望名义编码幅值水平Ab低于相应的掩蔽幅值水平Mj。然而,对于Mj不大于Ab的情况,在公式(5)中用Mj代替Ab。
在本发明的编码系统的优选实施例中,使用信号分析器或者信号分析算法对各个短块的各个可编码邻域进行检查,以确认所编码的信号是否具有其邻域中的类音调特征。例如,在步骤44中通过ISO/IEC13818-71997描述的掩蔽算法计算的音调指数提供了这样的手段。希望纯正的音调音频块具有值为1.0的音调指数,而“类噪声”块具有接近于0的音调指数。如果编码中使用的频带的音调指数具有超过音调阈值的值,则对该子块不进行编码操作(参考下面描述的相关步骤46)。应当注意的是,即使几个子块都是音调的,由于在各个长块中有64个子块,所以所编码的数据仍然能够成功恢复。在解码过程中分析的是长块的频谱。
本发明的优选编码方法使用冗余传输方案,以使得系统更加稳固。如同上表中所示,在示例系统中定义了5个不同的频带。上述编码方法仅对其中的一个频带进行了描述。即,五个频带彼此独立,从而在任何给定时间,可以在多个频带中发送编码符号,从而实现冗余传输。
上述编码方法的一个优点是在每个阶段,处理过程仅使用256个采样,其中128个是新采样,128个是从前面处理步骤得到的。这样,以48kHz的选定采样率,在“双缓存器”中保持采样所需的总缓存器容量是256,并且相应的持续时间为256/48000=5.3ms。感知心理领域众所周知的是,在复合音频信号的两个部分(例如,左侧和右侧立体音频道)之间,或者在复合电视信号的音频和视频信号之间的同步丢失小于10ms时是觉察不到的。这样,本发明的编码方法不需要在信号的其它部分中引入补偿延迟。当用于电视收视研究时,本系统具有无需视频延迟电路以及没有可察觉的同步丢失的优点。
为了设计实用的编码方案,有必要开发一种同步方法,其允许编码系统确定新消息的起始点。正如编码报文系统中通常所做的,本发明的优选系统定义了一个具有和其它的编码块不同结构的同步块。因此,在步骤45中,当长块计数器具有0的数值时,选定包含8192个采样的同步块,从而使得同步块具有下面的特征在频带0,对指数220进行增强,其是该邻域中的第一个频率线;在频带1,对第二个频率线,指数349进行增强;在频带2,对第三个频率线,指数478进行增强;在频带3,对第四个频率线,指数607进行增强;在频带4,对第五个频率线,指数736进行增强。当解码器在同步块中通过将各个增强的频率指数和选定用于增强的各个指数进行比较,而对长块进行分析,并且在五个频带中找出至少三个匹配时,系统确定已经检测到了潜在的同步块,并且把同步块后面的长块解释为实际消息数据。
如上所述,在为示例性系统选择的并在上表中所示的块中,每一个长块包括能够调制成编码的一组8个指数。在本发明的电视收视测量应用中,完整的编码消息包括48比特,该48比特包括16比特的站标识符(SID)和32比特的时间标记(TS)。为了将此消息和选定的指数组相匹配,可以将数据的48比特分为16个3比特组。这些3比特组中每一个的十进制值的范围是从0到7,从而使得能够使用选定的长块对每一个3比特组进行编码。在一个优选实施例中,系统通过对第k个可用指数进行调制,对k值进行编码(其中k处于0到7的范围中)。例如,在此方法中,为了发送具有值=5的编码组,在步骤45选定每一个频带中的第六个指数(即,指数225,353,481,609和737)进行增强。在此实施例中,可以将48比特的数据包作为一个长同步块进行传输,后面跟着16个长数据块。根据上面公布的编码块和采样频率的选择,发送这些17个长块需要2.89秒。此方法和同步块具有显著的不同,在同步块中,在各个频带中进行增强的是不同的指数。
更一般地讲,多个可能的编码比特各具有一个唯一地与其相关的指数模式,而对一个比特进行解码包括将多个增强的指数中的每一个和各个指数格式进行比较,以确定增强指数的大多数是否和一个预定的格式相匹配。上面所述的示例实施例在概念上简单易懂,而且还稳定,但是可能会导致音频差拍现象,原因是在所有的编码频带中,每个编码频率与其中间短块频率隔开相同的值。对于值为5的编码比特,这个固定频率差是5.85Hz,这对应于指数差1。在另外一个优选实施例中,在步骤45,通过选择各个频带的频率指数的预定伪随机组合作为指数模式,从而克服了这个问题。从而,例如,通过使用五个频带中的下列频率指数,可以对等于5的值进行编码225,355,476,607,和737。通过这样的变化,减少了音频差拍现象。
这种同时在五个频带的每一个中发送相同数据的方法和上面讨论的掩蔽算法非常符合。即,可以选择在一个或者多个频带中中止编码,但在其它频带中继续进行编码的掩蔽算法。
一旦在步骤45中选定了频率,在步骤46,假设掩蔽等级和音调指数所指示的音调是可接受,对这些频率中的信号进行增强。根据公式(5)和(6)对存储在临时缓存器中的采样v(n)w(n)进行修改,并且在步骤47中,将编码信号添加到临时缓存器中。在步骤48,将临时缓存器的前半部添加到输出缓存器中,将输出缓存器中的128个采样输送到发射器16作为编码数据。
在步骤49,子块计数器加1,如果子块计数器等于64,则长块计数器加1。在长块计数器增加之前,不对其它的子块进行编码。当长块计数器等于17时,已经将一个完整的编码消息(一个同步块和16个数据块)传送到了发射器16,并且将长块计数器重新置0,以进行新消息的编码。如果子块计数器不等于64,或者在将长块计数器重新置0之后,程序流程图将返回到块41。频谱调制信号的解码优选系统在接收位置提供了一种音频信号采集方法。例如,此位置可以位于统计选定的计量点22。在某些实例中,可以从接收器20的音频输出28处的音频信号中恢复嵌入的数字编码。当这样的输出可用时,其提供了一个相对高质量的信号源。然而,许多接收器20并不具有音频输出28,这限制了收听研究系统操作者使用放置在扬声器24邻近的麦克风30获取模拟音频信号。由于收视测量系统的目标通常是使所测量的电视收看环境受到干扰最小,所以最好把麦克风30放置在接收器20的后面,因为,如果把麦克风30放置在接收器20的前面,就会降低所接收信号的质量。信号的弱化导致许多现有技术系统的失效,这些系统试图从由麦克风拾取的音频信号中读取嵌入的编码。但是,如上所述对5个频带进行编码而获得的冗余增加了成功恢复编码的可能性。
对于使用了麦克风30的情况,或者对于音频输出28的信号是模拟的情况,解码器26以和编码器12的采样率相匹配的优选采样率,将模拟音频转化为采样数字输出流。在存储器和计算能力有限的解码系统中,可以使用半采样率。对于半采样率,每一个短块包括NS/2=128个采样,并且频域的分辨率(连续频谱成份之间的差值)和全采样率的一样。对于接收器20提供数字输出的情况,解码器26对数字输出进行直接处理,无须进行采样,但要在适合解码器26的数据率下进行。
在音频解码的实际实施中,比如用于家庭收听计量系统,极其希望对音频流进行实时解码。同样极其希望的是将解码数据传送到远程中心局。基于此类应用中通常使用的硬件,解码器26可以在数字信号处理器(DSP)上运行以下要结合图3进行描述的解码算法。如上所述,解码器26可以或者从音频输出28,或者从放置在扬声器24附近的麦克风30,得到输入的编码音频信号。
如图3中流程图中的步骤50所示,通过将所有的存储单元设置为0,对能够存储4096个采样的环形缓存器进行初始化。同样,将一组频率接收器(frequency bin)设置为0。在框51,将256个采样读取到音频缓存器中。同样,将块采样计数器置0。在恢复表示编码信息的实际数据比特之前,有必要确定同步块的位置,最好通过增强(或者削弱)唯一的一组频率的幅值对该同步块进行编码。在一个优选实施例中,这些频率具有的指数为220,349,478,607和736,并且每一个都在不同的编码频带中。为了搜索同步块,以及从输入音频流中的连续块中提取数据,使用了环形缓存器。环形缓存器在半比率采样的情况下,具有能够存储4096个采样的规格。为了实现基于滑动FFT程序的近实时解码方案,该滑动FFT程序构成了图3的流程图中所示解码算法的一部分,以上的配置是很有必要的。
假设对于当前存储在环形缓存器中的音频缓存器,在指数J的频率处具有频谱幅值B0[J]和相位角φ0[J]。频谱幅值B0[J]和相位角φ0[J]代表当前存储在环形缓存器中的4096个音频采样的频谱值。如果从音频缓存器中读取两个新的时域采样V4094和V4095,并且如步骤52所示插入到环形缓存器中,以取代环形缓存器中的两个早期采样V0和V1,然后在步骤53根据下面的公式确定各个指数J处新的频谱幅值B1[J]和相位角φ1[J]B1[J]expφ1[J]=B0[J]expφ0[J]+(V4094exp(i2πJ(4096-2)4096))+]]>(v4095exp(i2πJ(4096-1)4096))-(v0exp(i2πJ24096))-(v1exp(i2πJ4096))---(7)]]>因此,根据公式(7),仅通过对包含在环形缓存器中的采样的现有频谱的更新,就能够计算出环形缓存器的频谱。即使在步骤50对所有的频谱值(幅值和相位)初始置为0,当在环形缓存器中输入新数据,以及去除旧的数据时,也要逐渐改变频谱值,直到它们和环形缓存器中当前数据的实际FFT频谱值相对应。为了克服在计算过程中形成的一些不稳定,本邻域技术人员所公知的是,将输入音频采样乘以一个稳定系数(通常为0.99995),将所去除的采样乘以一个系数0.999952048=0.902666。滑动FFT算法提供了一种对于当前采样位置之前的4095个采样和当前采样本身计算所关心的频谱成份的有效方法。在框53,结合根据公式(7)所进行分析的结果,对频率接收器进行更新。
如果块采样计数器具有为64倍数的数值,则对频率接收器进行分析,并且按照图3中步骤54所示,将分析的结果存储在状态信息结构(SIS)中。由于4096个采样的长块的频谱对于音频流的少量采样改变很小,可以使用此数值64。即使使用滑动FFT算法在两个采样步长中对频谱值进行更新,也只需要每64个采样对频谱进行分析以确定同步块的位置以及提取数据。这样,使用4096/64=64个SIS结构,对解码操作的中间结果进行追踪。这些SIS结构使用SIS0,SIS1,---,SIS63进行标记。以4096个采样的间隔对各个SIS结构进行更新,这对应于半采样率情况下长块的长度。每一个SIS结构包括同步标志和数据存储单元。同样,SIS包括计数器。
在解码处理中,搜索同步块是第一步。假设在采样位置,由于发现了满足同步块特征的频谱,所以需要对SIS SISk进行更新。在这样的频谱中,指数220,349,478,607,736得到了增强,并且比各频带中的其它邻域具有更高的频谱能量。由于音频压缩、由放大器-扬声器-麦克风的非线性引起的音频弱化、或者基于麦克风的解码系统的情况下的环境噪声之类的因素,也许不是所有的5个频带都具有预期的特征。上面描述的冗余传输特征使得能够检测作为同步块的长块,即使5个频带中仅有3个满足同步块的标准。一旦检测到同步块,则将相应SIS结构中的同步标志设置为1。在实际的实施例中,多个SIS结构能够将其同步标志设置为1。由于长音频块的频谱不会变化太快,通常几个相邻的SIS结构,例如,SISk-2,SISk-1,SISk,SISk+1,SISk+2的同步标志都会设置为1。
当4096个采样之后对SISk进行分析时,算法识别出同步标志,并且试图提取出频谱中所编码的前3比特的数据值。此提取可以通过表决(voting)算法实现,表决算法对从各个邻域中取出的测试值进行比较,如果在5个频带邻域中的3个中找到了同一个测试值,则将该测试值作为数据值。另外,如果提取出了0到7范围中的有效数据值,则增加SIS中的计数器,以显示已经提取了16个成员消息数据中的第一个。所提取的3比特数据也存储在相应数据存储单元的结构中。如果在当前单元或者在SISk更新了的15个后面单元中的任何一个中没有找到有效数据,则将SIS结构的同步标志设置为0,并且将计数器重置为0。这些操作释放SIS以再次寻找同步块。当SIS结构的计数器增加到16的时候,其包含了一个完整的消息分组,该消息分组包括图3流程图的步骤55所示的、能够传送出去的48比特。例如,可以将消息分组传送到中心局。当完成传送时,将同步标志重置为0,并且重置计数器。
在框图56,对应于在步骤52中从音频缓存器读取到环形缓存器的两个采样,块采样计数器加2。如果块采样计数器的计数值不等于256,则返回到步骤52,其中从音频缓存器读取另外两个采样到环形计数器中。另一方面,如果块采样计数器的计数值等于256,则返回到步骤51,其中将另外256个采样插入到音频缓存器中。
尽管针对几个优选实施例对本发明进行了说明,在不脱离本发明范围的情况下,显然可以有各种改进和替换。因此,所附权利要求涵盖落入本发明的范围内的所有变化和替换。
权利要求
1.一种用于向音频信号中添加抗干扰不可听码的系统,包括采样器,用于在特定的采样率下对音频信号进行采样,并且由此生成多个采样音频的短块,每个短块的持续时间小于最小的可听出的信号延迟;处理器,用于将多个短块组合成具有预定最小持续时间的长块;频率变换器,用于将长块转换成包含多个可独立调制的频率指数的频域信号,其中由所述最小持续时间和所述采样率确定两个相邻指数间的频率差;频率选择器,用于选择频率指数的邻域,使所述邻域中的最低指数和最高指数之间的频率差小于一个预定值;以及编码器,用于对所述邻域中的两个或多个指数进行调制,从而在保持所述邻域的总能量不变的同时,使所选择的一个指数成为极值。
2.根据权利要求1所述的系统,其特征在于,所述处理器包括具有缓冲存储器的数字计算机。
3.根据权利要求1所述的系统,其特征在于,所述频率变换器包括快速傅立叶变换算法。
4.根据权利要求1所述的系统,其特征在于,所述编码器包括一个算法,其增加邻域中所选指数的能量,并降低与其相关的短块的能量。
5.一种向复合信号的采样音频部分的频带中添加编码而不会在复合信号的编码音频部分和其它部分间引入可察觉的延迟的方法,该方法包括a)选择采样率和频率邻域中包含的预定数目的频率指数中相邻指数间的频率差;b)由所述采样率和频率差确定采样块的持续时间;c)确定构成所述块的连续子块的整数数目,其中选择该整数数目使每一个子块的持续时间小于所述可察觉的延迟;以及d)对所述的块进行处理,以对所选择的一个频率指数进行调制而不改变频带的总信号能量。
6.根据权利要求5所述的方法,其特征在于,所述的复合信号包括电视广播信号,而所述复合信号的其它部分包括视频信号。
7.根据权利要求5所述的方法,其特征在于,在步骤d)中,所述的处理包括对所述邻域中的两个或多个频率指数进行调制,使所选择的一个指数成为极值。
8.一种用于从音频信号中读取编码的设备,所述编码包括具有预定数目的音频信号采样的块的序列,所述编码包括跟随有预定数目的数据块的同步块,该设备包括缓冲存储器,用于保持一个所述的块;频率变换器,用于将一个块转换为跨越预定数目频带的频谱数据,其中,每个频带包括频率指数的相应邻域;处理器,用于对每一个邻域确定预定的一个频率指数是否经过了调制;以及表决器,如果在多数频带中各调制的频率指数是为包含在同步块中的内容而选择的指数,则确定所述的一个块为同步块;其中,所述处理器还确定在同步块后面接收到的一个数据块中预定的一个频率指数是否经过了调制;其中,如果在多数频带中各调制的频率指数是为包含在数据块中的内容而选择的指数,则确定所述的一个块为数据块;
9.根据权利要求8所述的设备,其特征在于,所述频率变换器包括由数字计算机执行的快速傅立叶变换算法。
10.根据权利要求8所述的设备,其特征在于,所述处理器包括通用数字计算机,其在程序控制下进行操作,并具有多个存储在存储器中的算法。
11.根据权利要求8所述的设备,其特征在于,所述表决器包括由数字计算机执行的算法。
12.一种通过将音频采样块的序列连续地转换成跨越预定数目频带的频谱数据,从而从音频信号中读取编码的方法,其中每一个频带包括预定数目的频率指数,每一个块包括预定数目的采样,并且所述编码包括跟随有预定数目的数据块的同步块,该方法包括以下步骤a)在一个音频采样块的每个频带中确定一个频率指数是否经过了调制;b)将步骤a)中找到的每个经过调制的频率指数和同步块的各频带中选择进行调制的指数进行比较;c)如果步骤b)中所做的大多数比较是匹配的,则确定所述的一个块是同步块,否则重复步骤a)到b);d)在同步块之后接收到的一个数据块的各个频带中,确定各个频率指数是否经过了调制;e)将步骤d)中找到的各个经过调制的频率指数和多个预定的指数模式进行比较,每一个指数模式唯一地与一个编码比特相关,只有当多数调制指数和预定指数模式相匹配时才读取该编码比特。
13.根据权利要求12所述的方法,其特征在于,如果各个频带中的第k个指数是经过调制的,则在步骤e)中读取k的值作为编码比特。
14.根据权利要求12所述的方法,其特征在于,所述预定的指数模式包括伪随机序列。
15.一种向具有两个或者多个部分的复合信号的类音调音频部分中添加不可听码的系统,包括采样设备,用于以特定的采样率对音频信号进行采样,并由此生成多个采样音频的短块,每一个短块的持续时间小于可听出的最小信号延迟;处理器,用于将多个短块组合成具有预定的最小持续时间的长块;频率变换器,用于将长块转换成包含位于多个频带中的多个可独立调制的频率指数的频域信号;编码器,用于对各个频带中的两个或多个指数进行调制,从而在保持音频的总声能不变的同时,使所选择的一个指数成为极值;信号分析器,用于确定所述类音调音频部分是否具有所述预定数目的邻域中任何一个中的类音调特征;以及编码器中止器,用于在任何类音调音频部分具有类音调特征的邻域中中止编码器的编码。
16.根据权利要求15所述的系统,其特征在于,所述音频信号是电视广播信号的一部分。
17.根据权利要求15所述的系统,其特征在于,所述频率变换器包括快速傅立叶变换算法。
18.根据权利要求16所述的系统,其特征在于,所述信号分析器包括用于执行ISO/IEC 13818-71997中描述的掩蔽算法的计算机。
19.一种向包含一个或多个附加部分的复合信号的类音调音频部分中预定数目的频率邻域的至少一个中添加不可听码的方法,该方法包括a)对音频部分进行采样,并且由采样的信号生成多个短块,每个短块的持续时间小于可听出的最小信号延迟;b)将多个短块组合成具有预定的最小持续时间的长块;c)将长块转换成包含多个可独立调制的频率指数的频域信号;d)识别所述预定数目的频率邻域中类音调音频部分具有类音调特征的这些邻域;以及e)对步骤d)中未识别的各个邻域中的相应指数进行调制,从而在保持音频部分的总声能不变的同时,使该邻域中选定的指数成为极值,对步骤d)中识别的邻域中的指数不进行调制。
20.根据权利要求19所述的方法,其特征在于,所述复合信号包括电视广播信号,并且一个所述的附加部分包括视频信号。
21.根据权利要求19所述的方法,其特征在于,步骤c)包括根据快速傅立叶变换对长块进行转换的步骤。
22.根据权利要求19所述的方法,其特征在于,步骤c)包括执行ISO/IEC 13818-71997中描述的掩蔽算法的子步骤。
23.一种广播收听测量系统,其中通过位于统计采样工作处的解码设备读取添加到音频信号中的不可听码,该系统包括编码器,用于向音频信号带宽中预定数目的奇数频带中的每一个添加预定的编码比特;接收器,位于所述的工作处,用于接收编码的音频部分;以及解码器,具有从所述接收器而来的输入,所述解码器用于从各个频带获取编码比特的各个测试值,对测试值进行比较,只有当测试值是从多数频带获得的时候才确定一个测试值是编码比特,否则,确定没有读取到编码比特。
24.根据权利要求23所述的广播收听测量系统,其特征在于,所述音频信号是电视广播信号的一部分。
25.根据权利要求23所述的广播收听测量系统,其特征在于,所述接收器包括麦克风。
26.根据权利要求23所述的广播收听测量系统,其特征在于,所述接收器包括音频输出插口。
27.一种广播收听测量系统,其中在统计采样工作单元中读取添加到音频信号中的不可听码,该系统包括编码装置,用于向音频信号的采样长块添加编码比特,所述长块包括预定数目的短块,每一个短块具有预定的持续时间,该预定持续时间选择为足够短,从而不会被广播收听成员所察觉,所述编码装置还用于对多个频率邻域中每一个中的选定频率指数进行调制,以在保持音频信号的总能量不变的同时,在各邻域中使各个选定的指数成为极值;接收器,位于所述的工作处,用于获取编码的音频信号;以及解码器,用于从音频信号中读取编码,所述解码器具有从接收器而来的输入,解码器包括用于存储一个短块的缓冲存储器,所述缓冲存储器用于存储长块。
28.根据权利要求27所述的广播收听测量系统,其特征在于,所述音频信号是电视信号的一部分。
29.根据权利要求27所述的广播收听测量系统,其特征在于,所述编码器包括频率变换器,用于将长块转换成频域信号。
30.根据权利要求27所述的广播收听测量系统,其特征在于,所述接收器包括麦克风。
31.根据权利要求27所述的广播收听测量系统,其特征在于,所述接收器包括音频输出插口。
32.一种对音频信号进行编码的方法,包括a)由音频信号生成多个短块,其中每个短块的持续时间小于可听出的最小信号延迟;b)将所述的多个短块组合成长块;c)将所述长块转换成包含多个可独立调制的频率指数的频谱;d)对至少两个所述的指数进行调制,以在保持所调制的指数的邻域的总能量大致恒定的同时,使一个指数成为极值。
33.一种从音频信号中读取编码元素的方法,该方法包括a)将音频信号的至少一个部分转换成跨越预定数目的具有多个频率邻域的频带的频谱数据;b)对于每一个所述的邻域,确定一个频率指数是否经过了调制;c)如果在多数邻域中各个调制的频率指数是为包含在音频信号中而选择的指数,则将所发送的编码值指定给该编码元素。
全文摘要
编码器包括采样器,该采样器对音频信号进行采样,并且由采样生成多个采样音频的短块。每个短块的持续时间小于可听出的最小信号延迟。处理器将多个短块组合成长块。将长块转换成具有多个可独立调制的频率指数的频域信号。由所述最小持续时间和采样器的采样率确定相邻指数之间的频率差。选择频率指数的邻域,从而使得在邻域中最低指数和最高指数之间的频率差小于一个预定值。对邻域中的两个或者多个指数进行调制,从而在保持邻域的总能量不变的同时,使选择的一个指数成为极值。如此对多个频带进行编码。如果在多数频带中解码器检测到了调制的指数,则解码器确定接收到了一个或多个比特。
文档编号H04H20/31GK1422466SQ01807789
公开日2003年6月4日 申请日期2001年4月3日 优先权日2000年4月6日
发明者文努格派尔·斯里丹尼桑 申请人:尼尔森媒体调查有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1