专利名称:声音编码方法和声音译码方法以及声音编码装置和声音译码装置的制作方法
技术领域:
本发明涉及对声音信号进行数字信号的压缩编码译码时使用的声音编码译码方法和声音编码译码装置,特别涉及用来使用低比特率再生高品质的声音的声音编码方法、声音译码方法、声音编码装置和声音译码装置。
背景技术:
过去,作为高效率声音编码方法,典型的有码驱动线性预测编码(Code-Excited Linear PredictionCELP),对该技术,“Code-ExcitedLinear Prediction(CELP)High-quality speech at very low bitrates”(M.R.Shroeder and B.S.Atal著、ICASSP’85,pp.937-940,1985)已有叙述。
图6是表示一例CELP声音编码方法的整体构成的图。图中101是编码部,102是译码部,103是多路复用装置,104是分离装置。编码部101由线性预测参数分析装置105、线性预测参数编码装置106、合成滤波器107、适应代码簿108、驱动代码簿109、增益编码装置110、距离计算装置111和加权相加计算装置138构成。此外,译码部102由线性预测参数译码装置112、合成滤波器113、适应代码簿114、驱动代码簿115、增益译码装置116和加权相加计算装置139构成。
在CELP声音编码中,将5~50ms作为一帧,将该帧的声音分成频谱信息和声音源信息后进行编码。首先,说明CELP声音编码方法的动作。在编码部101中,线性预测参数分析装置105分析输入声音S101,抽出作为声音频谱信息的线性预测参数。线性预测参数编码装置106对该线性预测参数进行编码,将该编码后的线性预测参数作为合成滤波器的系数来设定。
其次,说明声音源信息的编码。在适应代码簿108中,存储过去的驱动声音源信号,并与距离计算装置111输入的适应代码对应输出周期性的重复过去的驱动声音源信号的时间序列矢量。在驱动代码簿109中,存储多个时间序列矢量,该时间序列矢量构成为例如能够进行学习,使学习用声音和它的编码声音的失真很小。从适应代码簿108、驱动代码簿109来的各时间序列矢量与增益编码装置110给出的各增益对应,在加权相加计算装置138中进行加权相加,将该计算结果作为驱动声音信号供给合成滤波器107,得到编码声音。距离计算装置111求出编码声音和输入声音S101的距离,寻求距离最小的适应代码、驱动代码和增益。在上述编码结束后,将线性预测参数的代码以及使输入声音和编码声音的失真最小的适应代码、驱动代码、增益的代码作为编码结果输出。
其次,说明CPEL声音译码方法的动作。
另一方面,在声音译码部102中,线性预测参译编码装置112根据线性预测参数的代码对该线性预测参数进行译码,并作为合成滤波器的系数来设定。其次,适应代码簿114与适应代码对应输出周期性的重复过去的驱动声音源信号的时间序列矢量,驱动代码簿115与驱动代码对应时间序列矢量。这些时间序列矢量与增益译码装置中从增益代码译码的各增益对应,在加权相加计算装置139中进行加权相加,将该计算结果作为驱动声音信号供给合成滤波器113,得到输出声音S103。
此外,在CELP声音编码译码方法中,作为以提高再生声音品质为目的进行改良的先有的声音编码译码方法,有“Phonetically-based vector excitation coding of speech at 3.6kbps”(S.wangand A.Gersho著、ICASSP’89,pp.49-52,1989)所示的方法。图7示出一例该先有的声音编码译码方法的整体构成,对与图6对应的装置添加相同的符号,在图中的编码部101中,117是声音状态判定装置,118是驱动代码簿切换装置,119是第1驱动代码簿,120是第2驱动代码簿。此外,在图中的译码装置102中,121是驱动代码簿切换装置,122是第1驱动代码簿,123是第2驱动代码簿。说明这样构成的编码译码方法的动作。首先,在编码装置101中,声音状态判定装置117分析输入声音S101,判定声音状态例如是有声、无声两种状态中的哪一种状态。驱动代码簿切换装置118根据该声音状态的判定结果切换驱动代码簿,例如,若是有声则使用第1驱动代码簿119编码,若是无声则使用第2驱动代码簿120编码,此外,对使用了哪一个驱动代码簿也进行编码。
其次,在译码装置102中,驱动代码簿切换装置121与在编码装置中使用了哪一个驱动代码簿的代码对应切换到第1驱动代码簿或第2驱动代码簿,使其与编码装置101使用的驱动代码簿相同。通过这样的构成,对声音的每一个状态准备一个与编码适应的驱动代码簿,通过与输入的声音状态对应切换使用驱动代码簿,可以提高再生声音的品质。
此外,作为不增加比特数去切换多个驱动代码簿的先有的声音编码译码方法,有特开平8-185198号公报公开的方法。它是与用适应代码簿选择的音调周期对应去切换使用多个驱动代码簿的方法。因此,可以在不增加传送信息的情况下使用与输入信号的特征相适应的驱动代码簿。
如上所述,在图6所示的先有的声音编码译码方法中,使用单一的驱动代码簿生成合成声音。为了即使在低比特率时也能得到高品质的编码声音,存储在驱动代码簿中的时间序列矢量变成包含很多脉冲的无噪声的东西。因此,当将背景噪声或磨擦性子音等有噪声的声音编码合成时,编码声音存在产生“叽哩叽哩”“嘁哩嘁哩”等不自然的声音的问题。若使驱动编码簿只由带噪声的时间序列矢量构成,虽然可以解决该问题,但作为编码声音的整体品质却变差了。
此外,在已改良的图7所示的先有的声音编码译码方法中,与输入声音的状态对应切换多个驱动代码簿并生成编码声音。因此,对例如输入声音是有噪声的无声部分,可以使用由有噪声的时间序列矢量构成的驱动代码簿,对除此之外的有声部分可以使用由无噪声的时间序列矢量构成的驱动代码簿,即使对有噪声的声音进行编码、也不会发生“叽哩叽哩”的声音。但是,因译码侧也使用和编码侧相同的驱动代码簿,故有必要对使用了哪一个驱动编码簿的信息重新进行编码传送,存在妨碍低比特率化的问题。
此外,在不增加发送比特数的情况下切换多个驱动代码簿的先有的声音编码译码方法中,与用适应代码选择的音调周期对应切换驱动代码簿。但是,因用适应代码选择的音调周期与实际的声音音调周期有差别,只根据该值不能判定输入声音的状态是有噪声还是无噪声,故不能解决声音的噪声部分的编码声音不自然的问题。
发明内容
本发明是为了解决有关的问题而提出的,其目的在于提供一种声音编码译码方法和声音编码译码装置,即使在低比特率的情况下也能再生高品质的声音。
为了解决上述课题,本发明的声音编码方法使用频谱信息、功率信息和音调信息中的至少一个代码或编码结果,对该编码区间中的声音的噪声水平进行评价,根据评价结果选择多个驱动代码中的一个。
进而,下一个发明的声音编码方法具有多个驱动代码簿,所存储的时间序列矢量的噪声水平不同,根据声音的噪声水平的评价结果切换多个驱动代码簿。
进而,下一个发明的声音编码方法根据声音的噪声水平的评价结果,使存储在驱动代码簿中时间序列矢量的噪声水平发生变化。
进而,下一个发明的声音编码方法具有存储有噪声的时间序列矢量的驱动代码簿,根据声音的噪声水平的评价结果,通过间拔驱动声音源的信号样品去生成噪声水平低的时间序列矢量。
进而,下一个发明的声音编码方法具有存储有噪声的时间序列矢量的第1驱动代码簿和存储无噪声的时间序列矢量的第2驱动代码簿,根据声音的噪声水平的评价结果,生成将第1驱动代码簿的时间序列矢量和第2驱动代码簿的时间序列矢量加权相加后的时间序列矢量。
进而,下一个发明的声音译码方法使用频谱信息、功率信息和音调信息中的至少一个代码或译码结果,对该译码区间中的声音的噪声水平进行评价,根据评价结果选择多个驱动代码中的一个。
进而,下一个发明的声音译码方法具有多个驱动代码簿,所存储的时间序列矢量的噪声水平不同,根据声音的噪声水平的评价结果切换多个驱动代码簿。
进而,下一个发明的声音译码方法根据声音的噪声水平的评价结果,使存储在驱动代码簿中时间序列矢量的噪声水平发生变化。
进而,下一个发明的声音译码方法具有存储有噪声的时间序列矢量的驱动代码簿,根据声音的噪声水平的评价结果,通过间拔驱动声音源的信号样品去生成噪声水平低的时间序列矢量。
进而,下一个发明的声音译码方法具有存储有噪声的时间序列矢量的第1驱动代码簿和存储无噪声的时间序列矢量的第2驱动代码簿,根据声音的噪声水平的评价结果,生成将第1驱动代码簿的时间序列矢量和第2驱动代码簿的时间序列矢量加权相加后的时间序列矢量。
进而,下一个发明的声音编码装置包括频谱信息编码部,对输入声音的频谱信息进行编码并作为编码结果的一个要素输出;噪声水平评价部,使用根据从该频谱信息编码部来的已编码的频谱信息得到的频谱信息和功率信息中的至少一个代码或编码结果,对该编码区间内的声音的噪声水平进行评价并输出评价结果;存储多个无噪声的时间序列矢量的第1驱动代码簿;存储多个有噪声的时间序列矢量的第2驱动代码簿;根据上述噪声水平评价部的评价结果切换第1驱动代码簿和第2驱动代码簿的驱动代码簿切换部;加权相加计算部,对从上述第1驱动代码簿或第2驱动代码簿来的时间序列矢量,分别与各时间序列矢量的增益对应进行加权相加;合成滤波器,将该加权的时间序列矢量作为驱动声音源信号,在该驱动声音源信号和从上述频谱信息编码部来的已编码的频谱信息的基础上得到编码声音;距离计算部,求出该编码声音和上述输入声音的距离,寻求距离最小的驱动代码和增益,并将该结果作为驱动代码和增益代码的编码结果输出。
进而,下一个发明的声音译码装置包括频谱信息译码部,从频谱信息的代码中译码出频谱信息;噪声水平评价部,使用根据从该频谱信息译码部来的已译码的频谱信息得到的频谱信息和功率信息中的至少一个译码结果或上述频谱信息的代码,对该译码区间内的声音的噪声水平进行评价并输出评价结果;存储多个无噪声的时间序列矢量的第1驱动代码簿;存储多个有噪声的时间序列矢量的第2驱动代码簿;根据上述噪声水平评价部的评价结果切换第1驱动代码簿和第2驱动代码簿的驱动代码簿切换部;加权相加计算部,对从上述第1驱动代码簿或第2驱动代码簿来的时间序列矢量,分别与各时间序列矢量的增益对应进行加权相加;合成滤波器,将该加权的时间序列矢量作为驱动声音源信号,在该驱动声音源信号和从上述频谱信息译码部来的已译码的频谱信息的基础上得到译码声音。
本发明的声音编码装置的特征在于,在编码驱动线性预测(CELP)声音编码装置中,包括使用频谱信息、功率信息和音调信息中的至少一个代码或编码结果对该编码区间内的声音的噪声水平进行评价的噪声水平评价部;根据上述噪声水平评价部的评价结果切换多个驱动代码簿的驱动代码簿切换部。
本发明的声音译码装置的特征在于,在编码驱动线性预测(CELP)声音译码装置中,包括使用频谱信息、功率信息和音调信息中的至少一个代码或译码结果对该译码区间内的声音的噪声水平进行评价的噪声水平评价部;根据上述噪声水平评价部的评价结果切换多个驱动代码簿的驱动代码簿切换部。
附图的简单说明图1是表示本发明的声音编码和声音译码装置的实施形态1的整体构成的方框图。
图2是向图1的实施形态1的噪声水平评价的说明提供的表。
图3是表示本发明的声音编码和声音译码装置的实施形态3的整体构成的方框图。
图4是表示本发明的声音编码和声音译码装置的实施形态5的整体构成的方框图。
图5是向图4的实施形态5的加权决定处理的说明提供的表。
图6是表示先有的CELP声音编码译码装置的整体构成的方框图。
图7是表示过去改良了的CELP声音编码译码装置的整体构成的方框图。
发明的
具体实施例方式
下面,参照
本发明的实施形态。
实施形态1.
图1示出本发明的声音编码方法和声音译码方法的实施形态1的整体构成的方框图。图中,1是编码部,2是译码部,3是多路复用部,4是分离部。编码部1由线性预测参数分析部5、线性预测参数编码部6、合成滤波器7、适应代码簿8、增益编码部10、距离计算装置11、第1驱动代码簿19、第2驱动代码簿20、噪声水平评价部24、驱动代码簿切换部25和加权相加计算部38构成。此外,译码部2由线性预测参数译码部12、合成滤波器13、适应代码簿14、第1驱动代码簿22、第2驱动代码簿23、噪声水平评价部26、驱动代码簿切换部27、增益译码部16和加权相加计算部39构成。图1中的5是作为频谱信息分析部的线性预测参数分析部,分析输入声音S1,抽出作为声音频谱信息的线性预测参数,6是作为频谱信息编码部的线性预测参数编码部,对作为频谱信息的该线性预测参数进行编码,将该编码后的线性预测参数作为合成滤波器7的系数来设定,19、22是存储多个无噪声的时间序列矢量的第1驱动代码簿,20、23是存储多个有噪声的时间序列矢量的第2驱动代码簿,24、26是评价噪声水平的噪声水平评价部,25、27是根据噪声水平切换驱动代码簿的驱动代码簿切换部。
下面,说明动作。首先,在编码部1中,线性预测参数分析部5分析输入声音S1,抽出作为声音频谱信息的线性预测参数。线性预测参数编码部6对该线性预测参数进行编码,将该编码后的线性预测参数作为合成滤波器7的系数来设定,同时,向噪声水平评价部24输出。其次,说明声音源信息的编码。适应代码簿8存储过去的驱动声音源信号,并与距离计算装置11输入的适应代码对应输出周期性的重复过去的驱动声音源信号的时间序列矢量。噪声水平评价部24根据从上述线性预测参数编码部6输入的已编码的线性预测参数和适应代码,例如如图2所示那样,从频谱的倾斜、短期预测增益和音调变动去评价该编码区间的噪声水平,并将评价结果输出给驱动代码簿切换部25。驱动代码簿切换部25根据上述噪声水平的评价结果去切换编码时用的驱动代码簿,例如,若噪声水平低,则切换到第1驱动代码簿19,若噪声水平高,则切换到第2驱动代码簿20。
在第1驱动代码簿19中存储多个无噪声的时间序列矢量,该时间序列矢量构成为例如能够进行学习,使学习用声音和它的编码声音的失真很小。此外,在第2驱动代码簿20中存储多个有噪声的时间序列矢量,例如,存储由随机噪声生成的多个时间序列矢量,输出与从距离计算部11输入的各个驱动代码对应的时间序列矢量。从适应代码簿8、第1驱动代码簿19或第2驱动代码簿20来的各时间序列矢量与增益编码部10加给的各增益对应,在加权相加计算部38中进行加权相加,将该计算结果作为驱动声音信号供给合成滤波器7,得到编码声音。距离计算部11求出编码声音和输入声音S1的距离,寻求距离最小的适应代码、驱动代码和增益。在上述编码结束后,将线性预测参数的代码以及使输入声音和编码声音的失真最小的适应代码、驱动代码、增益的代码作为编码结果输出。以上是本实施形态1的声音编码方法的特征动作。
其次,说明译码部2。在译码部2中,线性预测参数译码部12从线性预测参数的代码中译码出线性预测参数并作为合成滤波器13的系数来设定,同时,向噪声水平评价部26输出。其次,说明声音源信息的译码。适应代码簿14与适应代码对应,输出周期地重复过去的驱动声音源信号的时间序列矢量。噪声水平评价部26使用和编码部1的噪声水平评价部24相同的方法,根据从上述线性预测参数译码部12输入的已译码的线性预测参数和适应代码去评价噪声水平,并将评价结果输出给驱动代码簿切换部27。驱动代码簿切换部27和编码部1的驱动代码簿切换部25一样,根据上述噪声水平的评价结果切换第1驱动代码簿22和第2驱动代码簿23。
在第1驱动代码簿22中存储多个无噪声的时间序列矢量,该时间序列矢量构成为例如能够进行学习,使学习用声音和它的编码声音的失真很小,而在第2驱动代码簿20中存储多个有噪声的时间序列矢量,例如,存储由随机噪声生成的多个时间序列矢量,输出与从距离计算部11输入的各个驱动代码对应的时间序列矢量。从适应代码簿14和第1驱动代码簿22或第2驱动代码簿23来的各时间序列矢量与在增益译码部16中从增益代码译码出的各增益对应,在加权相加计算部39中进行加权相加,将该计算结果作为驱动声音信号供给合成滤波器13,得到输出声音S3。以上是本实施形态1的声音译码方法的特征动作。
若按照该实施形态1,通过根据代码和编码结果对输入声音的噪声水平进行评价并根据评价结果使用不同的驱动代码簿,可以用少量的信息再生出高品质的声音。
此外,在上述实施形态中,对驱动代码簿19、20、22、23说明了存储多个时间序列矢量的情况,但只要存储至少一个时间序列矢量,就可以实施本发明。
实施形态2在上述实施形态1中,切换使用两个驱动代码簿,但也可以具有三个以上的驱动代码簿,根据噪声水平进行切换使用。若按照该实施形态2,因为不只是将声音分成有噪声和无噪声两种类型,对于有一点噪声的中间状态的声音也可以使用与其相应的驱动代码簿,所以能够再生出高品质的声音。
实施形态3图3示出本发明的声音编码方法和声音译码方法的实施形态3的整体构成,对与图1对应的部分添加相同的符号,图中28、30是存储有噪声的时间序列矢量的驱动代码簿,29、31是将时间序列矢量的小振幅样品的振幅值为零的样品间拔部。
下面,说明动作。首先,在编码部1中,线性预测参数分析部5分析输入声音S1,抽出作为声音频谱信息的线性预测参数。线性预测参数编码部6对该线性预测参数进行编码,将该编码后的线性预测参数作为合成滤波器7的系数来设定,同时,向噪声水平评价部24输出。其次,说明声音源信息的编码。适应代码簿8存储过去的驱动声音源信号,并与距离计算部11输入的适应代码对应输出周期性的重复过去的驱动声音源信号的时间序列矢量。噪声水平评价部24根据从上述线性预测参数编码部6输入的已编码的线性预测参数和适应代码,例如从频谱的倾斜、短期预测增益和音调变动去评价该编码区间的噪声水平,并将评价结果输出给样品间拔部29。
在驱动代码簿28中存储例如由随机噪声生成的多个时间序列矢量,输出与从距离计算部11输入驱动代码对应的时间序列矢量。样品间拔部29根据上述噪声水平的评价结果,若噪声水平低,则在从上述驱动代码簿28输入的时间序列矢量中输出使例如未达到规定的振幅值的样品的振幅值为零的时间序列矢量,此外,若噪声水平高,则直接输出从上述驱动代码簿28输入的时间序列矢量。从适应代码簿8、样品间拔部29来的各时间序列矢量与增益编码部10加给的各增益对应,在加权相加计算部38中进行加权相加,将该计算结果作为驱动声音信号供给合成滤波器7,得到编码声音。距离计算部11求出编码声音和输入声音S1的距离,寻求距离最小的适应代码、驱动代码和增益。在上述编码结束后,将线性预测参数的代码以及使输入声音和编码声音的失真最小的适应代码、驱动代码、增益的代码作为编码结果S2输出。以上是本实施形态1的声音编码方法的特征动作。
其次,说明译码部2。在译码部2中,线性预测参数译码部12从线性预测参数的代码中译码出线性预测参数并作为合成滤波器13的系数来设定,同时,向噪声水平评价部26输出。其次,说明声音源信息的译码。适应代码簿14与适应代码对应,输出周期地重复过去的驱动声音源信号的时间序列矢量。噪声水平评价部26使用和编码部1的噪声水平评价部24相同的方法,根据从上述线性预测参数译码部12输入的已译码的线性预测参数和适应代码去评价噪声水平,并将评价结果输出给样品间拔部31。
驱动代码簿30与驱动代码对应输出时间序列矢量。样品间拔部31通过和上述编码部1的样品间拔部29同样的处理,根据上述噪声评价结果输出时间序列矢量。从适应代码簿14和样品间拔部31来的各时间序列矢量与增益译码部16加给的各增益对应,在加权相加计算部39中进行加权相加,将该计算结果作为驱动声音源信号供给合成滤波器13,得到输出声音S3。
若按照该实施形态3,具有存储有噪声的时间序列矢量的驱动代码簿,通过根据声音的噪声水平的结果对驱动声音源的信息样品进行间拔来生成噪声水平低的驱动声音源,可以用少量的信息再生出高品质的声音。此外,因不需要多个驱动代码簿,故具有能够减少用于存储驱动代码簿的存储器的数量的效果。
实施形态4在上述实施形态3中,对时间序列矢量的样品有间拔和不间拔两种选择,但也可以在间拔样品时根据噪声水平变更振幅阈值。若按照该实施形态4,因为不只是将声音分成有噪声和无噪声两种类型,对于有一点噪声的中间状态的声音也可以生成并使用与其相应的时间序列矢量,所以能够再生出高品质的声音。
实施形态5图4示出本发明的声音编码方法和声音译码方法的实施形态5的整体构成,对与图1对应的部分添加相同的符号,图中32、35是存储有噪声的时间序列矢量的第1驱动代码簿,33、36是存储无噪声的时间序列矢量的第2驱动代码簿,34、37是权重决定部。
下面,说明动作。首先,在编码部1中,线性预测参数分析部5分析输入声音S1,抽出作为声音频谱信息的线性预测参数。线性预测参数编码部6对该线性预测参数进行编码,将该编码后的线性预测参数作为合成滤波器7的系数来设定,同时,向噪声水平评价部24输出。其次,说明声音源信息的编码。适应代码簿8存储过去的驱动声音源信号,并与距离计算部11输入的适应代码对应输出周期性的重复过去的驱动声音源信号的时间序列矢量。噪声水平评价部24根据从上述线性预测参数编码部6输入的已编码的线性预测参数和适应代码,例如从频谱的倾斜、短期预测增益和音调变动去评价该编码区间的噪声水平,并将评价结果输出给权重决定部34。
在第1驱动代码簿32中存储例如由随机噪声生成的多个有噪声的时间序列矢量,输出与驱动代码对应的时间序列矢量。在第2驱动代码簿20中存储多个时间序列矢量,该时间序列矢量构成为例如能够进行学习,使学习用声音和它的编码声音的失真很小。输出与从距离计算部11输入的驱动代码对应的时间序列矢量。重量决定部34根据从上述噪声水平评价部24输入的噪声水平评价结果,例如按照图5决定加给第1驱动代码簿32的时间序列矢量和第1驱动代码簿32的时间序列矢量的权重。第1驱动代码簿32和第2驱动代码簿33的各时间序列矢量根据上述权重决定部34给出的权重进行加权相加。从适应代码簿8输出的时间序列矢量和上述加权相加后生成的时间序列矢量与增益编码部10加给的各增益对应,在加权相加计算部38中进行加权相加,将该计算结果作为驱动声音信号供给合成滤波器7,得到编码声音。距离计算部11求出编码声音和输入声音S1的距离,寻求距离最小的适应代码、驱动代码和增益。在上述编码结束后,将线性预测参数的代码以及使输入声音和编码声音的失真最小的适应代码、驱动代码、增益的代码作为编码结果输出。
其次,说明译码部2。在译码部2中,线性预测参数译码部12从线性预测参数的代码中译码出线性预测参数并作为合成滤波器13的系数来设定,同时,向噪声水平评价部26输出。其次,说明声音源信息的译码。适应代码簿14与适应代码对应,输出周期地重复过去的驱动声音源信号的时间序列矢量。噪声水平评价部26使用和编码部1的噪声水平评价部24相同的方法,根据从上述线性预测参数译码部12输入的已译码的线性预测参数和适应代码去评价噪声水平,并将评价结果输出给权重决定部37。
第1驱动代码簿35和第2驱动代码部36与驱动代码对应输出时间序列矢量。权重决定部37和编码部1的权重决定部34一样,根据从上述噪声水平评价部26输入的噪声水平评价结果给出权重。从第1驱动代码簿35、第2驱动代码簿36来的各时间序列矢量与上述权重决定部37加给的各权重对应进行加权相加。从适应代码簿14输出的时间序列矢量和上述权重相加生成的时间序列矢量与在增益译码部16中从增益代码译码出的各增益对应,在加权相加计算部39中进行加权相加,将该计算结果作为驱动声音信号供给合成滤波器13,得到输出声音S3。
若按照该实施形态5,根据代码和编码结果对输入声音的噪声水平进行评价并根据评价结果对有噪声的时间序列矢量和无噪声的时间序列矢量进行加权相加后再使用,因此,可以用少量的信息再生出高品质的声音。
实施形态6在上述实施形态1~5中,进而还可以根据噪声水平的评价结果去变更增益的代码簿。若按照该实施形态6,因为可以根据驱动代码部使用最佳的增益代码簿,所以能够再生出高品质的声音。
实施形态7在上述实施形态1~6中,对声音的噪声水平进行评价并根据评价结果切换驱动代码簿,也可以分别对有声音的突然出现和破裂性子音等进行判定、评价并根据评价结果切换驱动代码簿。若按照该实施形态7,因为不只对声音的噪声状态进行分类,而是对有声音的突然出现和破裂性子音等进一步进行仔细分类,可以使用各自合适的驱动代码部,所以能够再生出高品质的声音。
实施形态8在上述实施形态1~6中,从图2所示的频谱倾斜、短期预测增益和音调变动去评价编码区间的噪声水平,但也可以使用相对适应代码簿的输出的增益值的大小去进行评价。
工业上利用的可能性若按照本发明的声音编码方法和声音译码方法以及声音编码装置和声音译码装置,使用频谱信息、功率信息和音调信息中的至少一个代码或编码结果去评价该编码区间的噪声水平,并根据评价结果使用不同的驱动代码簿,所以,能用少量的信息再生高品质的声音。
此外,若按照本发明的声音编码方法和声音译码方法,具有多个驱动代码簿,所存储的驱动声音源的噪声水平不同,根据声音的噪声水平的评价结果,切换使用多个驱动代码簿,所以,能用少量的信息再生高品质的声音。
此外,若按照本发明的声音编码方法和声音译码方法,根据声音的噪声水平的评价结果,使存储在驱动代码簿中的时间序列矢量的噪声水平变化,所以,能用少量的信息再生高品质的声音。
此外,若按照本发明的声音编码方法和声音译码方法,具有存储有噪声的时间序列矢量的驱动代码簿,根据声音的噪声水平的评价结果,通过间拔时间序列矢量的信息样品去生成噪声水平低的时间序列矢量,所以,能用少量的信息再生高品质的声音。
此外,若按照本发明的声音编码方法和声音译码方法,具有存储有噪声的时间序列矢量的第1驱动代码簿和存储无噪声的时间序列矢量的第2驱动代码簿,根据声音的噪声水平的评价结果,对第1驱动代码簿的时间序列矢量和第2驱动代码簿的时间序列矢量进行加权相加并生成时间序列矢量,所以,能用少量的信息再生高品质的声音。
权利要求
1.一种声音译码方法,是至少使用驱动编码簿,根据输入声音编码合成声音的编码驱动线性预测声音译码方法,其特征在于,具有以下步骤时间序列矢量生成步骤,变更所述驱动编码簿输出的第一时间序列矢量而生成振幅值为零的采样数与所述第一时间序列矢量不同的第二时间序列矢量;选择步骤,选择所述第一或第二时间序列矢量;声音合成步骤,使用在所述选择步骤中所选择的时间序列矢量合成声音。
2.如权利要求1所述的声音译码方法,其特征在于,具有将所述输入声音编码译码,取得译码区间的增益的增益译码步骤;在所述选择步骤中,根据所述增益选择第一或第二时间序列矢量中的某一个。
3.一种声音译码方法,是使用驱动编码簿和适应编码簿,根据输入声音编码合成声音的编码驱动线性预测声音译码方法,其特征在于,具有以下步骤时间序列矢量生成步骤,变更所述驱动编码簿输出的第一时间序列矢量而生成振幅值为零的采样数与所述第一时间序列矢量不同的第二时间序列矢量;选择步骤,选择所述第一或第二时间序列矢量;声音合成步骤,根据在所述选择步骤中所选择的时间序列矢量和所述适应编码簿输出的时间序列矢量相加得到的结果合成声音。
4.如权利要求3所述的声音译码方法,其特征在于,具有将所述输入声音编码译码,取得译码区间的增益的增益译码步骤;在所述选择步骤中,根据所述增益选择第一或第二时间序列矢量中的某一个。
5.一种声音译码装置,是至少使用驱动编码簿,根据输入声音编码合成声音的编码驱动线性预测声音译码装置,其特征在于,具有时间序列矢量生成装置,变更所述驱动编码簿输出的第一时间序列矢量而生成振幅值为零的采样数与所述第一时间序列矢量不同的第二时间序列矢量;选择装置,选择所述第一或第二时间序列矢量;声音合成装置,使用所述选择装置所选择的时间序列矢量合成声音。
6.如权利要求5所述的声音译码装置,其特征在于,具有将所述输入声音编码译码,取得译码区间的增益的增益译码装置;所述选择装置根据所述增益选择第一或第二时间序列矢量中的某一个。
7.一种声音译码装置,是使用驱动编码簿和适应编码簿,根据输入声音编码合成声音的编码驱动线性预测声音译码装置,其特征在于,具有时间序列矢量生成装置,变更所述驱动编码簿输出的第一时间序列矢量而生成振幅值为零的采样数与所述第一时间序列矢量不同的第二时间序列矢量;选择装置,选择所述第一或第二时间序列矢量;声音合成装置,根据所述选择装置所选择的时间序列矢量和所述适应编码簿输出的时间序列矢量相加得到的结果合成声音。
8.如权利要求7所述的声音译码装置,其特征在于,具有将所述输入声音编码译码,取得译码区间的增益的增益译码装置;所述选择装置根据所述增益选择第一或第二时间序列矢量中的某一个。
全文摘要
在将声音信号压缩编码成数字信号的声音编码译码中,使用较少的信息量再生高品质的声音。在码驱动线性预测(CELP)声音编码中,使用频谱信息、功率信息和音调信息中的至少一个代码或编码结果对该编码区间内的声音的噪声水平进行评价,根据评价结果使用不同的驱动代码簿(19、20)。
文档编号H04B14/04GK1658282SQ20051005633
公开日2005年8月24日 申请日期1998年12月7日 优先权日1997年12月24日
发明者山浦正 申请人:三菱电机株式会社