专利名称:对数字音频信号编码的方法和装置的制作方法
技术领域:
本发明涉及用于对数字化的音频信号进行编码的方法和装置。
在音频编码器中,例如在MPEG1或MPEG2音频系统中,音质模型计算用作数据整理的屏蔽阈值。对于音频信号的每个子带屏蔽阈值可改变。归因于所确定的屏蔽阈值对每个子带定义所谓的位分配过程,子带抽样应以该分辨率被量化。这将随着时间的推移随每块间频信号样本而变。因此,对于不同的块最佳音质所需的位率也应改变。实际上在MPEG1音频系统中,可利用的所需位率对于每个音频通道而言通常是固定的。因为,对于所需位率,各种参数的准确位数和传输所需要的数据不可能事先精确地估计到,一些位被剩下或者一些位被丢失。习惯上用一种简单的分配策略克服该问题,例如,为每个子带分配几乎相等数目的这种位。
上述分配策略未考虑在编码器中所使用的音质模型。目前,对于小范围的位率编码器被加以优化。虽然这种音频编码器也被用于在大范围位率下操作,但是它们没有为这样做而被优化。不同位率可能出现在左和右通道之间和/或附加通道(左环绕、右环绕、中央)和/或在所需位率可能从帧到帧改变的MPEG层III中。
本发明的目的是公开一种根据这种分配策略获得较好音频编码质量的方法。本发明的目的是用一种对数字音频信号编码的方法实现的,其中通过分析归因于音质效果的音频信号实现数据整理,其特征在于根据已编码位流的可利用数据速率采用不同音质模型确定用于数据整理过程的屏蔽阈值。
本发明的另一目的是公开一种采用本发明方法的装置。这一目的是用一种用于对数字音频信号编码的装置实现的,该装置包括用于整理音频信号的数字数据的数据整理装置,该音频信号的数字数据是在考虑音质效果的情况下确定屏蔽阈值所造成的,其特征在于提供两个或多个音质模型装置来计算各屏蔽阈值,每个音质模型装置适用于已编码位流的特定数据速率,选择装置用于根据已编码位流的可利用数据速率选择各屏蔽阈值。
在本发明的第一实施例中,用至少三个音质模型代替一个,其中每一个音质模型相对一定位率或位率范围被优化。根据所需通道或帧位率该编码器选择适当的一个音质模型。该音质模型之一的输出可以认为是某一所需位率的一个标准屏蔽阈值。
当当前位数高时,采用总体上具有较高屏蔽阈值的第二音质模型。这一较高阈值不是象现在技术中一样在频谱上等量上升的标准阈值,而是相对于仍适用本输入频谱的音质模型上升。
当当前位数低时,采用总体上具有较低屏蔽阈值的第三音质模型。这一较低阈值也不是象现在技术中一样在频谱上等量下降的标准阈值,而是相对于仍适用本输入频谱的音质模型下降。
本发明的第二实施例解决了在不同音质模型之间的硬转换问题,例如在左和右通道之间和/或在所需数据率可从帧到帧改变的MPEG层I到层III中。代替采用二进制逻辑转换,执行一种模糊逻辑。
原理上,本发明方法适用于在MPEG2层I到层III和/或MPEG2 NBC系统中的音频编码。
下面参照附图描述本发明的优选实施例,附图中
图1是表示三个屏蔽阈值之间的硬转换’方法的示图;图2是采用‘硬转换’方法的音频编码装置的程序结构;图3是表示三个屏蔽阈值之间的‘软转换’方法的示图;图4是采用‘硬转换’方法的音频编码装置的程序结构;图5是表示音频编码装置原理结构的方框图。
关于音频编码技术的有价值信息包括在国际标准ISO/IEC 11172-3,1993年8月1日第一版‘信息技术—数字存储介质运动图像和相关音频以高达大约1.5M位/秒的编码’,第三部分音频中。
本发明的方法采用一个以上的音质模型。作为一个实例三个不同的音质模型被使用。每一个音质模型适合于音频位流的特定预定数据率。例如具有三个不同的数据率32千比特/秒、56千比特/秒和80千比特/秒。不同的音质模型简写为PAM_Low,PAM_Mid,PAM_High。PAM_Low适合于32千比特/秒的低数据率,PAM_Mid适合于56千比特/秒的中数据率和PAM_High适合于80千比特/秒的高数据率。
现在参见图1,它示出了在哪些区域中音质模型被采用。在图1中的X轴上规定了能够为音频编码器所采用的可能数据率的范围。在Y轴上对于每一可能的数据率给出了每一音质模型的份额。当可利用数据率在范围DRR1内时。音质模型PAM_Low被用于计算屏蔽阈值。因此分配因子是1,即PAM_Low为100%,而PAM_Mid和PAM_High为0%。当可利用数据率在范围DRR2内时,音质模型PAM_Mid被用于计算屏蔽阈值。因此,此时分配因子是1,即PAM_Mid为100%,而PSM_Low和PAM_High为0%。当可利用数据率在范围DRR3内时,音质模型PAM_High被用于计算屏蔽阈值。因此分配因子再次为1,即PAM_High为100%,而PAM_Low和PAM_Mid为0%。在不同音质模型之间的这种转换从现在开始将称之为‘硬转换’。
在图2中示出了按照该方法工作的一种合适的简单计算机程序,现在对其进行说明。
标号10表明该程序的起始点。标号20表明一判定步骤,在其中确定可利用数据率ADR是否小于图1所示的数据率值DR1。如果是这样,该程序进行到步骤30。在其中利用音质模型PAM Low确定屏蔽阈值。在这一步骤之后,该程序将在步骤40结束。如果在判定步骤20判定可利用数据率ADR大于数据率值DR1,则在判定步骤50进行分析,可利用数据率ADR是否小于数据率值DR2。在正判定的情况下,该程序执行步骤60并用音质模型PAM_Mid计算屏蔽阈值。在步骤50作负判定的情况下,该程序执行判定步骤70。在此分析可利用数据率是小于还是等于数据率值DR3。如果是这样,该程序执行步骤80,其中用音质模型PAM_High计算屏蔽阈值。在判定步骤70中回答为负的情况下,该程序执行步骤90,该步骤包括适当的错误检测算法。在程序步骤60、80、90之后该程序将在步骤40结束。
下面将说明一种改进的称为‘软转换’的不同音质模型之间的转换方法。在图3中,示出了三种可利用数据率的不同的范围,表示为DRR4、DRR5、DRR6。如果可利用数据率在范围DRR4内,则将仅采用音质模型PAM_Low,即以100%的份额计算屏蔽阈值。如果可利用数据率在范围DRR7内,则仅采用音质模型PAM_High。如果可利用数据率在范围DRR5内,则采用两个音质模型PAM_Low和PAM_Mid来计算相应的屏蔽阈值。在可利用数据率在范围DRR6内的情况下,采用两个音质模型PAM_Midt和PAM_High来计算屏蔽阈值。例如在图3中示出了可利用数据率ADR在范围DRR5中。这意味着两个屏蔽阈值被计算,即第一个称为Mask_Low的对应于PAM_Low模型,第二个称为Mask_Mid的对应于PAM_Mid模型。将两个屏蔽阈值组合得到屏蔽阈值Mask。用按照下列公式的平均算法计算该新屏蔽阈值
Mask=α*Mask_Mid+β*Mask_Low公式1平均算法的实例其中α是音质模型PAM Mid的分配因子,β是音质模型PAM_Low的分配因子。在图3中示出了这两个分配因子。通过查表来确定它们,该表中包含代表在可利用数据率ADR的位置处相应曲线L和M的数值。利用这些技术有可能设计一种能够以宽的数据率范围产生位流的音频编码器。
现在参照图4说明执行所述软转换方法的一种合适的计算机程序。标号100表明该计算机程序的开始步骤。在下一步骤110分析可利用数据率ADR是否小于数据率DR4。正的结果导致步骤120作为下一程序步骤。在此,仅根据音质模型PAM_Low计算屏蔽阈值。在这一步骤之后该程序将在步骤130结束。在步骤110中为负的结果的情况下,该程序继续进行步骤140。在此确定可利用数据率是否小于数据率值DR5。如果情况是这样,则在步骤150计算两个屏蔽阈值。一个是与音质模型PAM_Low一致,另一个是与音质模型PAM_Mid一致。然后将两个屏蔽阈值组合得到一个最终屏蔽阈值。为此,两个屏蔽阈值如图3中所示用它们的相应加权因子α和β加权。如上所述该组合运算利用上述公式1。在步骤140中负的结果的情况下,下一步骤是判定步骤160。在此确定可利用数据率是否小于数据率值DR6。当确实如此时,下一步骤是步骤170。在此根据相应音质模型PAM_Mid和PAM_High计算两个屏蔽阈值Mask_Mid和Mask_High。同样它们也如同对步骤150所描述的那样被加权并组合。判定步骤160中的负的判定结果导致判定步骤180。在此分析可利用数据率ADR是小于还是等于数据率值DR7,如图3所示。在正的判定之后将执行程序步骤190。在此根据音质模型PAM_High计算屏蔽阈值。步骤180中负的判定导致步骤200,其中执行错误检测算法。在执行了步骤150、170、190和200之一以后该程序在步骤130结束。
下面参照图5描述利用‘软转换’方法对音频信号编码的装置。
该装置是基于众所周知的子带编码技术。数字化的音频信号经由数据总线300馈送到滤波器组310。为简单起见假定仅传输一个音频通道(单)到编码装置。当然音频信号是按块馈送到编码装置的。在滤波器组310中,音频信号被划分为32个子带。子带样本被馈送到块320。在此,计算比例因子。它们被用于数据整理即用于压缩子带样本的引导位‘0’和‘1’。每一子带块的比例因子被馈送到比例因子量化装置330。在此它们被以例如6比特的分辩率量化。该量化比例因子被传送到多路复用器350。它的功能将在后面描述。子带样本经过块320后被输入归一化电路360。在此用根据量化比例因子确定的适当因子1/Us乘以该样本,量化比例因子是经由总线340输入的。归一化的子带样本被馈送到量化电路370。在此执行基于音质效果的数据整理。为量化目的的位分辨率根据音质模型而确定,这将在后面描述,因此量化噪声不会被人耳感觉到。在经过量化电路370之后,子带样本被传送到多路复用器350。多路复用器350建立包括所有同步和辅助数据的编码装置的输出位流。该位流经由总线380输出。
经数据总线300输入的位流被馈送到块390。其中在块400中通过FFT算法(快速富里叶变换)计算信号的频谱。此外在块390中有三个不同的音质模型410至430。对于低位率例如32千比特/秒的特定输出位流采用并优化第一个音质模型PAM_Low。对于中等位率例如56千比特/秒的输出位流采用并优化第二个音质模型。对于高位率例如80千比特/秒的输出位流采用并优化第三个音质模型。每个音质模型能够确定一个屏蔽阈值Mask_Low,Mask_Mid,Mask_High。
在MPEG1和MPEG2标准中,存在在一个宽的位率范围内(任意格式)预先规定位率的可能性。根据预先规定的位率值,在‘硬转换’模式下,用一个音质模型计算屏蔽阈值。这已经参照图1和2进行了描述。在‘软转换’模式下,可采用两个不同的音质模型。如参照图3和4所描述的这取决于预先规定的位率值。这两个屏蔽阈值被传送到组合装置440,在此它们被组合。所得到数据被馈送到位分配单元450。在‘硬转换’模式下,组合装置450用于作为选择装置来选择适当的屏蔽阈值数据并将其传送到位分配单元450。该位分配单元计算位分配并控制量化电路370。位分配数据被传送到多路复用器350。控制电路460预先规定可利用的数据率,例如与一个用户的输入相一致,并据此控制组合装置440和位分配单元450。它也输入辅助数据到多路复用器350。
本发明能够应用在几乎所有的音频系统中,象MPEG、DAB、DCC、MD。
当用一种视觉模型代替音质模型时,本发明也可用于象MPEG1或MPEG2这样的视频编码。
所述实施例的各种改型是可能的,例如图3中所示的曲线L、M和H可以是不同的形状。音质模型的数量也可以不是三个。图5中所示的某些块可以用适当的计算机程序实现,该计算机程序可以由标准的或特殊的微处理器来执行。为了组合‘软转换’模式下的屏蔽阈值,可以用稍微改进的公式来代替公式1。也可以组合两个以上的屏蔽阈值。
权利要求
1.一种用于对数字音频信号编码的方法,其中通过分析归因于音质效果的音频信号实现数据整理,其特征在于根据已编码位流的可利用数据速率(ADR)采用不同音质模型(410,420,430)确定用于数据整理过程的屏蔽阈值。
2.一种用于对数字音频信号编码的方法,其中通过分析归因于音质效果的音频信号实现数据整理,其特征在于两个或多个不同音质模型(410,420,430)被用于数据整理过程,两个或多个不同音质模型(410,420,430)中的每一个得出确定的屏蔽阈值,并且其中确定的屏蔽阈值被组合从而得出最终屏蔽阈值。
3.如权利要求2所述的方法,其中屏蔽阈值的组合是一种加权组合,并且加权因子(α,β)根据已编码位流的可利用数据速率(ADR)确定。
4.如权利要求2或3之一所述的方法,其中加权组合是按照下列公式的线性组合Mask=α*Mask1+β*Mask2其中Mask是最终的屏蔽阈值,Mask1是从第一音质模型(PAM Low)得出的屏蔽阈值,Mask2是从第二音质模型(PAM Mid)得出的屏蔽阈值,α是Mask1的加权因子以及,β是Mask2的加权因子。
5.如权利要求2到4之一所述的方法,其中对于两个或多个音质模型(410,420,430)中的每一个,提供适当的曲线(L,M,H),该曲线具有独立变量可利用数据速率(ADR)并作为数值在‘0’与‘1’之间的函数值,用于根据可利用数据速率确定加权因子(α,β)。
6.一种用于对数字音频信号编码的装置,包括用于整理音频信号的数字数据的数据整理装置(450,370),该音频信号的数字数据是在考虑音质效果的情况下确定屏蔽阈值所造成的,其特征在于提供两个或多个音质模型装置(410,420,430)来计算各屏蔽阈值,每个音质模型装置(410,420,430)适用于已编码位流的特定数据速率,选择装置(440)用于根据已编码位流的可利用数据速率选择各屏蔽阈值。
7.一种用于对数字音频信号编码的装置,包括用于整理音频信号的数字数据的数据整理装置(450,370),该音频信号的数字数据是在考虑音质效果的情况下确定屏蔽阈值所造成的,其特征在于提供两个或多个音质模型装置(410,420,430)来计算各屏蔽阈值,每个音质模型装置(410,420,430)适用于已编码位流的特定数据速率,组合装置(440)用于组合两个或多个音质模型装置(410,420,430)的产生的屏蔽阈值,由此得出由数据整理装置(450,350)使用的最终屏蔽阈值。
8.如权利要求7所述的装置,其中提供加权装置(440)用于在将两个或多个屏蔽阈值组合前对它们进行加权。
9.如权利要求7或8所述的装置,其中加权装置(440)根据已编码位流的可利用数据速率(ADR)确定加权因子(α,β)。
全文摘要
一种对数字音频信号编码的方法,该方法包括选择两个或多个音质模型(410,420,430)中之一的步骤,该音质模型是用于产生在数据整理过程中所用的屏蔽阈值。选择准则是已编码位流的可利用数据速率(ADR)。两个或多个音质模型中的每一个适用于已编码位流的特定数据速率。在本发明方法第二实施例中,包括将从不同音质模型(410,420,430)得出的两个或多个屏蔽阈值组合的步骤,从而产生对数据整理过程屏蔽阈值的更精确计算。此外提出了对数字音频信号编码的适当装置。
文档编号H04B1/66GK1168034SQ9710457
公开日1997年12月17日 申请日期1997年3月28日 优先权日1996年4月26日
发明者詹斯·斯皮尔 申请人:德国汤姆逊-布朗特公司