语音编码/解码方法及装置的制作方法

文档序号:7509339阅读:261来源:国知局
专利名称:语音编码/解码方法及装置的制作方法
技术领域
本发明涉及语音编码和解码,尤其涉及语音编码/解码方法及其装置,利用其可以将语音编码/解码应用于便携式终端以及各种语音存储/转换装置。
背景技术
语音编码技术可主要归类于声音编码(vocoding)和波形编码。而语音编码技术进一步还可分为转换编码,和对脉冲编码调制(此后缩写为PCM)应用压缩的编码。
声音编码利用了声音通过离散时间模型的特性。已有相应于声音合成的技术,例如RELP(随机激励线性预测)编码、CELP(码激励线性预测)编码、MELP(混合激励线性预测)编码、LPC(线性预测编码)、VSELP(矢量和激励线性预测)编码、共振峰声码器、以及对数倒频谱声码器(Cepstral Vocoder)。
其间,波形编码的主要用途是减小无损耗编码或SNR(信噪比)。而波形编码的目的是维持波形的相似性。
已有相应于波形编码的技术,例如PCM(脉冲编码调制)、DCM(数据脉冲编码调制)、DM(数据调制)、ADM(自适应增量调制)、APC(自适应预测编码)、ADPCM(自适应增量式预测编码调制)、以及波形内插法编码。
以这样一种方式执行向PCM应用压缩的编码技术,该方式为完成PCM后进行压缩。并且,已有将压缩施加给PCM的编码技术,例如Huffman编码以及采用LZW(Lempel-Ziv-Welch)算法的编码。
CELP编码作为一项声音编码技术是有代表性的AbS(综合分析)方法。
在AbS的CELP编码中,通过长期预测和短期预测合成包含在码本中的数据(码字),从而将相应于合成结果、即合成声音和原始声音之间的差值(误差)减为最小。
根据相关技术采用CELP编码的发射机将参数传输至计数器一侧,而不是传输原始语音,该参数是当相应的合成结果(合成声音)与原始声音之间的差值(误差)变为最小值时计算出来的。即,在声道建模过程中计算出的参数,例如码本索引、码本增益、音调周期、反馈增益、线性预测(此后缩写为LP)系数等被传输至接收侧。
采用CELP编码的发射机对各个参数进行量化和/或采样,以传输相应的预定比特的比特流。
然而,尽管有更多的空间用于压缩在CELP编码中计算出的各个参数,相关技术仍然对该参数进行量化和/或采样,从而以预定比特率传输。
发明概述因此,本发明涉及一种语音编码/解码方法及其装置,其基本上消除了由于相关技术的限制及缺陷带来的一个或多个问题。
本发明提供一种语音编码/解码方法及其装置,利用其在语音编码中计算出的各种参数可适当的进行压缩以用于传输。
本发明的另一目的是提供一种语音编码/解码方法及其装置,利用其能进行高压缩性的CELP编码以及相应于CELP编码的解码,而不降低语音品质及延迟传输。
本发明的其它优势、目的,及特征部分将在随后的说明书中阐明,部分对于随后审查的本领域的普通技术人员来说是明显的,或者可以从本发明的实践中了解到。通过在本发明中所记载的说明书、权利要求书和附图中特别指出的结构,来认识到并获得本发明的目标及其它优势。
为了获得这些目的及其它优势,并依照本发明的用途,如这里体现并广泛描述的,语音编码/解码方法包括执行语音编码、通过语音编码计算至少一个特征参数值、传输压缩数据、解压缩传输数据、以及利用由解压缩重建的参数值执行解码。
本发明的另一方面,语音编码装置包括执行语音编码的语音编码器、至少一个压缩区,用于在预定周期内压缩至少一个由语音编码器b计算出的特征参数值、以及比特流传输区,产生至少一个压缩区输出具有预定长度的比特流,进而输出。
应理解,本发明在前的总的描述以及随后的详细描述为示范性的和解释性的,并意于提供更多的如要求的本发明的解释。
附图简述附图,其被包括进来为发明提供更多解释,而且并入并构成本申请的一部分,该附图解释了本发明的实施例,并结合描述用于解释本发明的原理。在附图中

图1是根据本发明一实施例的语音编码装置的框图;图2是根据一实施例的声音编码比特流的传输形式的简图;图3是根据本发明另一实施例的语音编码装置的框图;以及图4是根据本发明一实施例的语音解码装置框图;优选实施例详述现详细参考本发明优选实施例,在附图中解释其举例。在可能的情况下,所有图中使用的相同的附图标记是指相同或相似的组成部分。
参照图1,根据本发明,语音编码装置包括语音编码器10、第一缓冲器20、第二缓冲器21、第一压缩区30、第二压缩区31,以及比特流传输区40。
语音编码器10计算语音的特征参数值。与此同时,在声道建模过程中计算的参数值作为语音建模的一种。具体的是,当经声道建模的合成结果(合成声音)与原始声音之间的差值(误差)具有最小值时,语音编码器10输出参数值。即,当原始与合成声音之间的感知误差具有最小值时,语音编码器10输出参数值。
在一实施例中,为便于解释,在语音编码器10中计算出的参数被区别为第一类型参数(例如类型1)和第二类型参数(例如类型2)。
根据参数的更新周期和/或传输周期区分参数。举例来说,例如,第一类型参数在10ms周期中被分别更新,第二类型参数在30ms周期中被分别更新。在另一示范性实施例中,第一类型参数分别在7.5ms周期内被更新,第二类参数在30ms周期内分别被分别更新。
还是在另一实施例中,第一类型参数在10ms周期内分别被传输,而第二类型参数在30ms周期内分别被传输。在一实施例中,第一类型参数在7.5ms周期内分别被传输,第二类参数在30ms周期内分别被传输。
特定参数的更新周期与特定参数的传输周期相匹配。即,如果特定参数具有7.5ms的更新周期,其传输周期也设为7.5ms。并且,如果特定参数具有10ms的更新周期,那么其传输周期也设为10ms。
根据一实施例,语音编码装置包括第一和第二缓冲器20和21,分别对不同类型参数的存储值进行归类。
在一实施例中,第一类型参数为码本索引、码本增益、音调周期,以及反馈增益,其在语音编码器10中计算。而第二类型参数为在语音编码器10中计算的LP(线性预测)系数。
因此,码本索引、码本增益、音调周期,以及反馈增益存储在第一缓冲器20中,而LP系数存储在第二缓冲器21中。
在一实施例中,第一类型参数的更新周期和/或传输周期短于第二类型参数的更新周期和/或传输周期。因此,存储在第一缓冲器20中的第一类型参数的更新周期和/或传输周期的总和设为与存储在第二缓冲器21中的第二类型参数的更新周期和/或传输周期的总和相等。
例如,当存在四种第一类型参数并存在一种第二类型参数时,如果更新周期和/或传输周期分别设为7.5ms,作为第一类型参数的LP系数的更新周期或传输周期例如分别设为30ms。另一方面,如果作为第二类型参数的LP系数的更新周期或传输周期例如设为30ms,那么更新周期或传输周期分别设为(30ms/4=7.5ms),其中‘4’为参数个数。
图2中示出了比特流,该比特流是从具有语音编码器10的便携式终端或具有语音编码器10的发射机中传输的,例如各种语音存储/传递装置。例如在30ms周期内进行图1中的传输开关操作。从而比特流在60ms周期内传输。
以上所述的更新和传输周期相应于在第一或第二压缩区30或31内执行压缩的操作周期。
第一压缩区30压缩存储在第一缓冲区20中的参数值,第二压缩区31压缩存储在第二缓冲区21中的参数值。与此同时,优选采用无损耗压缩技术作为压缩区30或31中的压缩方案。
在一实施例中,产生如图2所示的、具有预定长度比特流的比特流传输区40,还连接到本发明装置的开关的后部,以确保数据的预定传输率,如图1所示。
以这种方式确保比特流传输区的预定传输率,即从压缩区30和31输出的每个数据长度彼此随机相同。即,如果压缩数据的比特长度超过预定阈值,那么比特流传输区40除去额外的比特,以传输具有相应于阈值标准的比特流长度的压缩数据。另一方面,如果压缩数据的比特长度没有超过预定阈值,那么比特流传输区40则添加无意义的比特值‘0’,其总和为构成压缩数据的所需长度,以传输具有相应于阈值标准长度的比特长度的压缩数据。
提取特征参数,当原始与合成声音之间的差值为最小值时该特征参数表示误差信息,对提取的参数值执行无损耗的压缩,并将-预定长度的压缩值传输给接收侧。
具有语音编码装置的便携式终端或具有语音编码装置的发射器,例如各种语音存储/转换仪器,对压缩参数值进行量化或采样,该终端或发射器产生一比特流,而后将产生的一比特流传输至接收侧。
随后,具有语音解码装置的便携式终端或具有语音解码装置的接收器,例如各种语音存储/转换仪器,以预定速率对比特流进行解压缩,并且利用相应于解码中解压缩的参数值存储原始声音。
参照图3,根据本发明一实施例的语音编码装置包括CELP编码器100、缓冲器200、第一压缩区300、第二压缩区310、以及传输比特调整区400。
CELP编码器100计算与输入语音极其相似的特征参数值。CELP编码器100通过声道建模计算该特征参数值。
CELP编码器100包括码本110、长期预报器120、短期预报器130、感知加权滤波器140、均方误差(此后缩写为MSE)计算区150、以及感知误差滤波器160。
CELP编码器100进行计算,以输出码本索引、码本增益、音调周期、反馈增益,以及LP系数至少其中之一,作为输入语音的特征参数。
CELP编码器100优选计算/输出相应于该情形的参数值,该情形下通过CELP声道建模合成的结果(合成声音)与为CELP编码而输入的原始声音之间的差值为最小。即,当原始与合成声音之间的感知误差为最小值时,CELP编码器100输出参数值。例如在图3中,‘x[n]’与‘{^}atop{x[n]}’分别为原始声音与合成声音。
CELP编码器100优选采用高斯码本作为码本110。码本110包括具有互不相同索引的码字。
CELP编码器100的长期预测器120为执行长期预测的数字滤波器,而连接至长期预测器120输出端的短期预测器130为另一执行短期预测的数字滤波器。
长期预测器120采用音调周期,而短期预测器130采用LP系数。
因此,CELP编码器100的长期预测器120输出相应于该情形的音调周期,该情形下,通过CELP声道建模合成的结果(合成声音)与为CELP编码而输入的原始声音之间的差值为最小。CELP编码器100的短期预测器130输出相应于该情形的LP系数,该情形下,通过CELP声道建模合成的结果(合成声音)与为CELP编码而输入的原始声音之间的差值为最小。
通过一对预测器120和130合成相应于码本100的各个索引的码字。CELP编码器100采用感知加权滤波器140减小合成声音和输入原始声音之间的误差。
在一实施例中,CELP编码器100具有一条反馈路径,以查找与输入原始声音的误差减为最小的合成声音。因此,CELP编码器100利用反馈路径改变码本110的索引,以重复搜索码本110。CELP编码器100通过码本搜索取消合成和原始声音之间的感知误差,确定与原始声音最贴近的合成声音。
在CELP编码器100中,当合成和原始声音之间的感知误差最小化时,本发明计算码本110的索引,其用于产生相应的合成声音作为一个参数(码本索引),而产生相应的码本增益作为另一参数。
在CELP编码器100中,当合成与原始声音之间的感知误差被最小化时,本发明计算作为参数的用于长期预测器120的音调周期、和用于短期预测器130的LP系数。
此外,在CELP编码器100中,当合成与原始声音之间的感知误差被最小化时,本发明计算反馈路径中的增益作为另一参数(反馈增益)。
简单的说,当合成与原始声音之间的感知误差被最小化时,CELP编码器100计算并输出码本索引、码本增益、音调周期、反馈增益,以及LP系数,作为输入语音的特征参数。
当连续输入语音时,以上所解释的特征参数以预定周期被更新。第一和第二压缩区300和310并相应的操作,以跟上参数的更新周期。理所当然的是,所决定的压缩数据的传输周期必定能应付压缩区300和310的操作周期(压缩周期)。
在一实施例中,码本索引、码本增益、音调周期、或反馈增益的更新周期优选设为小于LP系数的更新周期。例如,码本索引的更新周期设为约10ms,而LP系数的更新周期设为约30ms。其余的码本增益、音调周期、反馈增益的周期设为例如约10ms。
一个实施例进一步包括缓冲器200,其中预先存储其具有更快更新周期的参数(码本索引、码本增益、音调周期、反馈增益)。具有更快更新周期的参数与具有更慢更新周期的参数(LP系数,等)之间的压缩时间是相匹配的。码本索引、码本增益、音调周期、以及反馈增益的更新周期的总和设为与LP系数的更新周期的值相等。即,如果一个参数的一个更新周期设为,例如7.5ms,要花30ms在缓冲器200中存储码本索引、码本增益、音调周期、以及反馈增益。在一实施例中,LP系数的更新周期设为约30ms。
为了压缩参数,该参数在不同区中是根据相应的更新周期而彼此区分的,按照一实施例提供第一和第二压缩区300和310。第一压缩区300压缩临时存储在缓冲器200中的参数(码本索引、码本增益、音调周期、反馈增益)。第二压缩区310压缩由CELP编码器100的短期预测器130计算/输出的LP系数。在这种情况下,压缩区300和310均采用无损耗压缩技术。
以下提供了根据示范性实施例的参数的更新周期以及相应的系统结构。
在优选实施例中,各个参数(码本索引、码本增益、音调周期、反馈增益、LP系数)的更新周期设为互不相同,并且利用多个缓冲器压缩各个参数的时间是相匹配的。提供分别压缩参数的区。
从CELP编码器100中输出的各个参数的更新周期(码本索引、码本增益、音调周期、反馈增益、LP系数)设为彼此相同。可以采用一个或更多个缓冲器。提供一个区,其用于压缩临时存储在缓冲器中的参数。
在另一实施例中,在第一和第二压缩区300和310的后部之间提供一个开关(在图中未示出),用于控制压缩区300和310的输出路径。
因为存储在缓冲器200中每个码本索引、码本增益、音调周期、以及反馈增益具有例如7.5ms的更新周期,第一压缩区300在约30ms周期内执行压缩操作。例如,当LP系数具有30ms的更新周期时,第二压缩区310在约30ms内执行压缩操作。因此,在一示范性实施例中,开关在约30ms内对第一和第二压缩区300和310执行开关操作。
传输比特调整区400将第一和第二压缩区300和310的输出合并入一个比特流输出。传输比特调整区400,其为确保压缩数据的常数输出率的区,使压缩区300和310输出的数据长度相同,并传输该数据。
为了以相同长度传输压缩数据,传输比特调整区400对比特长度设定一个随机阈值。例如,如果100%传输长度为100比特,将从传输比特调整区400传输的比特流的传输长度就设为其99%。如果一压缩数据长度例如为101比特,传输比特调整区400向接收侧传输总和为99比特长度的压缩数据。
例如,如果一压缩数据长度为96比特,传输比特调整区400在压缩数据长度中插入无意义的3比特虚拟数据,以提供99比特长度并向接收侧传输。在这种情况下,虚拟插入以这样一种方式执行,例如,‘0’填充入压缩数据的一部分。
在另一实施例中,本发明还可包括一个位于第二压缩区310输入端的缓冲器(图中未示出),临时存储LP系数。在以下的描述中,临时存储LP系数的缓冲器命名为第二缓冲器,并且前述的缓冲器200表示为第一缓冲器200。
在一实施例中,如在先前的描述中提到的,码本索引、码本增益、音调周期、或反馈增益的更新周期设为小于LP系数的更新周期。因此,在第一缓冲器中存储码本索引、码本增益、音调周期、或反馈增益的周期设为小于在第二缓冲器中存储LP系数的周期。
例如,在第一缓冲器中存储码本索引、码本增益、音调周期、或反馈增益的周期设为约10ms,而在第二缓冲器中存储LP系数的周期设为约30ms。
在另一实施例中,在第一缓冲器中各参数的存储周期设为约7.5ms,而在第二缓冲器中参数(LP系数)的存储周期设为约30ms。
参照图4,解释了一种便携式终端,其具有语音解码装置,或具有语音解码装置的接收器,例如各种语音存储/转换仪器,其以预定速率解压缩接收的比特流,并利用相应于解码中解压缩的参数值存储原始声音。
图4为根据本发明一实施例的语音解码装置框图,其为图3中语音编码装置的情况作准备。
参照图4,根据本发明,语音解码装置包括解压缩接收比特流的第一和第二解压缩区500和510、以及CELP解码器600。并且根据本发明,语音解码装置包括一个开关(图中未示出),用于向相应的解压缩区500或510传递接收的比特流。
开关(图中未示出)执行开关操作,以向第一解压缩区500传递相应于码本索引、码本增益、音调周期、或反馈增益的比特,或向第二解压缩区510传递相应于LP系数的比特。
第一或第二解压缩区500或510解压缩输入的数据,并向CELP解码器600输出。从图3所描述的CELP编码器的编码操作可理解CELP解码器600的操作。
另一实施例包括一控制区(图中未示出),其控制开关的开关操作。例如,如果按图2的格式定义传输的比特流,控制区则将接收的比特流划分为第一类型和第二类型。并且控制区以这样一种方式控制开关操作,即将相应于第一类型参数(码本索引、码本增益、音调周期、反馈增益)的比特传递至第一解压缩区500,而将第二类型参数(LP系数)传递至第二解压缩区510。
本发明允许不同种类的语音编码,例如MELP(混合激励线性预测)编码以及RELP(随机激励线性预测)编码,还有CELP编码。
因此,本发明为语音编码和与其相应的语音解码提供可靠的高压缩性,而没有降低语音品质以及延迟传输。
由CELP编码计算出的各参数利用无损耗压缩技术进行压缩,并传输,其中本发明为CELP编码提供的更高的可压缩性。
有利的是将本发明施加至便携式终端以及带有各种语音存储/转换仪器的发射机,例如语言机(language player)、数字记录器、VoIP(互联网协议的语音)终端等。
对于本领域技术人员显而易见的是,可对本发明进行各种修改和改变。因此,本发明意于覆盖从属权利要求和其等价物范围内的本发明的修改和变化。
权利要求
1.一种语音编码/解码方法,包括执行语音编码;通过该语音编码计算至少一个特征参数值;压缩所计算的该至少一个特征参数的值;以及传输压缩值;其中,解压缩该压缩值,以恢复用于对编码语音进行解码的参数值。
2.根据权利要求1的方法,其中语音编码包括声音编码(vocoding)。
3.根据权利要求1的方法,其中语音编码为码激励线性预测(CELP)编码。
4.根据权利要求1的方法,其中至少一个特征参数的计算值为这样的一个值,其表由语音编码合成的声音与输入至语音编码的语音之间的误差小于第一阈值。
5.根据权利要求4的方法,其中至少一个特征参数包括码本索引、码本增益、音调周期、反馈增益,以及线性预测系数的至少其中之一。
6.根据权利要求5的方法,其中音调周期用于长期预测。
7.根据权利要求5的方法,其中线性预测系数用于短期预测。
8.根据权利要求5的方法,其中在压缩步骤之前还包括临时存储码本索引、码本增益、音调周期、反馈增益,以及线性预测系数。
9.根据权利要求5的方法,其中码本索引、码本增益、音调周期、以及反馈增益的更新周期均设为短于线性预测系数的周期。
10.根据权利要求9的方法,其中码本索引、码本增益、音调周期、以及反馈增益的更新周期的总和设为与线性预测系数的更新周期相等。
11.根据权利要求1的方法,其中利用无损耗压缩技术执行压缩步骤。
12.根据权利要求1的方法,其中以预定比特单元传输所压缩的数据。
13.一种语音编码装置,包括执行语音编码的语音编码器;至少一个压缩单元,在预定周期内压缩至少一个由语音编码器计算出的特征参数值;以及比特流传输单元,使得压缩单元输出具有预定长度的比特流。
14.根据权利要求13的装置,其中语音编码器为码激励线性预测(CELP)编码器。
15.根据权利要求13的装置,其中压缩单元压缩特征参数值,当由语音编码器合成的声音与输入至语音编码器的语音之间的误差小于第一阈值时,计算其中的特征参数值。
16.根据权利要求13的装置,其中压缩区执行无损耗压缩。
17.根据权利要求13的装置,其中特征参数包括码本索引、码本增益、音调周期、反馈增益,以及线性预测系数至少其中之一。
18.根据权利要求17的装置,还包括至少一个缓冲器,在压缩之前临时存储码本索引、码本增益、音调周期、反馈增益,以及线性预测系数至少其中之
19.根据权利要求18的装置,还包括第一缓冲器,临时存储码本索引、码本增益、音调周期、以及反馈增益的至少其中之一;以及第二缓冲器,临时存储线性预测系数。
20.根据权利要求19的装置,其中码本索引、码本增益、音调周期、以及反馈增益的更新周期均设为短于线性预测系数的周期。。
21.根据权利要求20的装置,其中码本索引、码本增益、音调周期、以及反馈增益的更新周期的总和设为与线性预测系数的更新周期相等。
22.根据权利要求19的装置,还包括第一压缩单元,压缩存储在第一缓冲器中的参数值;以及第二压缩单元,压缩存储在第二缓冲器中的参数值。
全文摘要
本发明提供一种语音编码/解码的方法。语音编码过程中计算出的各个参数经压缩后传输。执行高压缩性的CELP编码以及相应于CELP编码的解码,而没有降低声音品质以及延迟传输。本发明的一种典型方法包括执行语音编码、通过语音编码计算至少一个特征参数值、压缩至少一个特征参数值,以及传输压缩数据。
文档编号H03M7/30GK1728236SQ20051009239
公开日2006年2月1日 申请日期2005年7月15日 优先权日2004年7月16日
发明者金灿佑 申请人:Lg电子株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1