语音编码装置及其方法

文档序号：2824600阅读：198来源：国知局

专利名称：语音编码装置及其方法
技术领域：
本发明涉及使用感知线性预测(PLP)和综合分析法以编码和解码语音数据的语音编码方法和装置。
背景技术：
语音处理系统包括在其中处理语音数据并在不同用户之间传送语音数据的通信系统。语音处理系统还包括诸如数字录音带记录仪的装置，在该装置中处理语音数据并将语音数据储存在记录仪内。用各种方法对语音数据进行压缩(编码)和解压(解码)。
在相关技术中已为话音通信设计了各种语音编码器。特别地，基于线性感知(LP)方法的线性感知综合分析(LPAS)编码器被用在数字通信系统中。综合分析处理涉及到从语音信号中提取语音的特性系数并从所提取的特性系数中重新产生该语音。
此外，LPAS编码器使用一种依据码激励线性感知(CELP)处理的技术。例如，ITU-T(国际电信同盟-通信标准部(international Telecommunication Union-Telecommunication Standardization Sector))已经定义了几个诸如G.723.1、G.728、G.729等的CELP规范。其他组织也定义了各种CELP规范，这样存在几种可用的规范。
CELP使用一种含有互不相同的M编号的(通常，M＝1024)码矢量的代码本。然后将相应于最佳码矢量的码字索引发送给另外的实体，所述最佳码矢量含有原声音和成合声音之间的最少的识别误差。其他实体还包括相同的代码本，并使用该传送索引，重新产生原声音。这样，因为传送该索引而不是整个语音段，语音数据被压缩。
CELP语音编码器的传送速度一般在4～8kbps的范围内。这样，难以对1kbps以下的时间变化系数进行量化或编码。此外，该系数量化误差会使重新产生的音质降低。因此，不是使用标量量化器，而是将矢量量化器用于对低传送速度下的系数进行编码。因而，能使量化误差减少到最少，从而还原更优美的音调。
此外，由于为了求得最佳系数搜索整本代码本，一种有效的代码本搜索算法被用于实时处理。例如，由摩托罗拉公司(Motorola)开发的矢量和激励线性感知(VSELP)语音编码器使用一种含有图解代码本的搜索算法，该图解代码本是将数个基本矢量进行线性组合构成的。与用随机数代码本的典型CELP进行相比，这算法能减少通道误差。VSELP方法还可减少用于储存代码本所需的存储器容量。
然而，当LPAS编码器使用诸如CELP和VSELP的相关技术综合分析方法时，在提取输入语音信号的系数时未考虑人的听觉效果或听力。更正确地，该综合分析方法仅考虑到提取语音系数时的语音特性。此外，因为仅在计算原声音误差时考虑到人的听觉效果，将不利地降低了复原的音质和传输速度。

发明内容
因此，本发明的一个目的是解决上面提到的问题和其他问题。
本发明的另一个目的是通过使用感知线性预测和综合分析方法提供考虑众听觉效果的一种语音编码装置和一种方法。
为了实现这些和其他优点并且与本发明的目的相一致，如这儿实施的及广泛描述的，本发明提供一种新颖的语音编码装置。依据本发明一个方面的装置包括含有感知线性预测分析缓冲器的一种语音编码装置，该感知线性预测分析缓冲器配置成输出有关原输入语音信号的音调周期，并使用plp处理分析该输入语音信号，以输出plp系数；激励信号发生器，配置成能产生并输出激励信号；基音综合滤波器，配置成合成从plp分析缓冲器输出的音调周期和从激励信号发生器输出的激励信号；频谱包络滤波器，配置成将从plp分析缓冲器输出的plp系数应用到音调合成滤波器的输出，以输出合成语音信号；加法器，配置成从plp分析缓冲器输出的原输入语音信号中减去从频谱包络滤波器输出的合成信号，并输出差异信号；感知权重滤波器，配置成通过将对应于人的听觉效果因素的权重值提供给从加法器输出的差异信号来计算误差；及最小误差计算器，配置成发现具有对应于从感知权重滤波器输出的误差的最小误差的激励信号。
依据本发明的另一方面，本发明提供一种语音编码方法，该语音编码方法包括输出有关原输入语音信号的音调周期并用感知线性预测(plp)处理分析该输入语音信号以输出plp系数；产生并输出激励信号；对输出音调周期和激励信号进行合成并输出第一合成信号；将输出的plp系数应用到第一合成信号，以输出第二合成信号；从原输入语音信号中减去第二合成信号并输出差异信号；通过将对应于人的听觉效果因素(consideration)的权重值提供给输出差异信号来计算误差；以及发现具有对应于计算误差的最小误差的激励信号。
此外，从下文给出的详细描述中将更能明白本发明应用范围。然而应当理解在指出本发明的较佳实施例时，仅示例性地给出详细描述和特殊例子，因为本领域人员从此详细描述中将更明白本发明精神和范围内的各种改变和修改。

从下文中给出的详细描述和附图中将变得更完全地理解本发明，附图仅是示意性地给出，并因此不是本发明的限制，其中图1是流程图，示出依据本发明一个实施例用于获取感知线性预测(PLP)系数的一种方法；
图2是根据使用树形结构非均匀子频带(sub-band)滤波器组的通道示出频带宽度对采样率的示意图；图3是依据本发明一个实施例的语音编码装置的方框图；以及图4是示出依据本发明一个实施例的语音编码方法的流程图。
具体实施例方式
现在将详细地参照本发明的较佳实施例，在附图中示出了这些较佳实施例的例子。
在本发明中，使用感知线性预测(PLP)方法考虑了听觉效果，这改善了编码装置的重现音质和传输速率。更详细地，图1描述了依据本发明一个实施例的PLP方法。
如图1所示，对输入语音信号进行快速傅里叶变换(FFT)处理，由此分散了输入信号(步骤S110)。FFT处理是用于通过在计算离散傅里叶变换中使用三角函数的周期性来增加计算速度效率的一种算法，这通过简单地分散该傅里叶变换进行计算。换句话说，快速傅里叶变换使用项e(-j2πnk/N)(k＝0～N-1)，当离散傅里叶变换未能完全执行时能产生该项，并省略具有与通过使用周期性预计算的项相同值的项的计算，从而减少所需的计算量。
在完成快速傅里叶处理后，进行临界带宽(critical-band)积分及再采样处理(步骤S120)。该处理用于依据信号的频带将人的识别效果应用到离散信号。更详细地，临界边带积分处理例如用吠声等级(bark scale)将来自赫兹频域的输入语音信号的功率谱转换成吠声(bark)频域。该吠声等级是由下列公式定义的Ω(ω)＝6ln{ω/1200π+[(ω/1200π)2+1]0.5}此外，用于临界频带积分处理的滤波器组较佳地是用于完全重现原声音信号的树形结构的非均匀子频带滤波器组。更详细地，图2是示出频带的形状的示意图，在该频带中，依据使用树形结构的非均匀子频带滤波器的通道不同地分离采样速率。如图2所示，人能听见或识别声音的低频域比在人不能听见的高频域被分离得更精细。此外，对低频域进行采样从而考虑人的听觉特性。依据临界频带积分和再采样，能获得一个信号，对于该信号，能加强低频的频率变化，并能减少高频的频率变化。
然后，如图1所示，将等响度曲线乘以已经过临界频带积分和再采样处理的频率元素(frequency element)(步骤S130)。该等响度曲线是显示频率和在相同音量下听到的纯音调声压级之间的关系。即，依据人们怎样估计每种频带内的音量的听觉特性，等响度曲线描述人的听力对20Hz到20000Hz的总音频带内的反应。等响度曲线称作为Flecture&Munson曲线。
此外，在已经应用了等响度曲线后，应用“听力幂次律”处理(步骤S140)。听力幂次律的处理算术地描述了下面的事实人的听觉对变得比较响的声音敏感，但容忍变得很响的高声音。通过将频率元素的绝对值乘以三分之一的平方可实行这种处理。
在进行上面的处理后，对反映人的听觉特性的信号进行逆离散傅里叶变换(IDFT)处理。即，表示人的听觉特性的权重被反射以将频域信号转换成时间域信号(步骤S150)。在IDFT处理后，获得线性方程的解(步骤S160)。这儿，用在线性预测系数分析中的Durbin递归处理能用于求解该线性方程。Durbin递归处理比其他处理使用较少的运算。
接着在步骤S170，对线性方程的解进行cepstral递归处理，由此获得Cepstral系数。Cepstral递归处理用于获取频谱平滑的滤波器，并这样比使用线性预测系数处理具有更多的优点。
另外，获取的Cepstral系数的一种类型称作为PLP特征。同样，由于为了获取考虑到人的各种听觉效果的PLP特征，在处理过程中进行模拟，在语音识别中使用PLP特征可实现相当高的识别率。
现在转向图3，它是依据本发明一个实施例的语音编码装置的方框图。如图3中所示，语音编码装置包括PLP分析缓冲器310，用于缓冲和输出输入语音采样，输出该输入语音采样的音调周期，并且对该输入语音采样进行PLP分析，以输出PLP系数。还包括激励信号发生器320，用于产生并输出激励信号；音调合成滤波器330，用于合成从PLP分析缓冲器310输出的音调周期和从激励信号发生器320输出的激励信号，并用于输出音调合成信号；及频谱包络滤波器340，用于通过将从PLP分析缓冲器310输出的PLP系数应用到从音调合成滤波器330输出的音调合成信号，输出合成语音信号。
另外包含加法器350，用于从PLP分析缓冲器310输入的原语音信号中减去从频谱包络滤波器340输出的合成语音信号；感知权重滤波器360，用于将考虑到人的听觉效果的权重提供给原声音和合成信号之间的差异值，由此计算该信号的误差特性；及最小误差计算器370，用于确定含有最小误差的激励信号。此外，PLP分析缓冲器310内的PLP分析是用图1所示的过程进行处理的。
另外，激励信号发生器320含有例如代码本的代码本索引和代码本增益的内部参数。此外，从代码本搜索具有在最小误差计算器370内计算的最小误差的激励信号。同样，当传送信号时，语音编码装置300传送相应于含有最小误差的激励信号的音调周期、PLP系数、代码本索引和代码本增益。
接着转到图4，它是示出依据本发明一个实施例的语音编码方法的流程图。如图4所示，音调周期和PLP系数是从原语音信号的语音采样中获取的(步骤410)。用图1所示的过程能获取该PLP系数。
然后产生激励信号，使该激励信号与音调周期合成(步骤S420)。接着，将PLP系数应用到通过合成激励信号和音调周期获取的信号，由此输出一个合成语音信号(步骤S430)。此外，该激励信号对应于在它通过人的声道之前由人肺产生的声源。在这时，通过在那里再应用PLP系数，考虑声道效果，人的听觉效果被反映，因此，该合成信号类似于原语音信号。
其后，从原语音信号中减去该合成语音信号(步骤S440)。注意即使合成信号类似于原语音信号，因为综合信号人工地产生，可能在合成信号和原语音信号之间存在差异。通过考虑到它们之间的差异，能够传送与原语音信号几乎相同的精确语音信号。
另外，通过将考虑到人的听觉效果内的权重值乘以原信号和综合信号之间的差异能计算误差(步骤S450)。注意不是简单地对该信号的频率或音量计算该误差，而是用考虑到听觉效果的权重值来计算，因此，能产生可直接收听的声音。
然后，发现含有最小误差的激励信号(步骤S460)。接着，传送具有最小误差的激励信号的音调周期、PLP系数、代码本索引和代码本增益(步骤S470)。这里，不是传送语音，而是传送代码本索引，代码本增益，音调周期和PLP系数，以致减少传送数据量。
如迄今为止所述的，依据本发明的语音编码装置和方法，将人的听觉效果应用到提取参数和计算误差的过程中，以致改善整体音质。同样，在本发明中使用的感知线性预测(PLP)方法描述了使用比线性预测(LP)方法更低系数的整个语音频谱，以此降低数据传送的比特率。
此外，有可将上述方法应用到CODEC(编码器/解码器)。在这种情况下，一个接收机，即，解码器接收从编码器发送的具有最小误差的激励信号的音调周期，PLP系数，代码本索引和代码本增益。其后，该解码器产生适合于该接收的代码本索引和代码本增益的激励信号，以合成该音调周期。然后，将在那里应用PLP系数，以使重现原语音信号。
由于可用不背离本发明的精神和基本特性的几种方式实现本发明，应当理解除非另外指定，上述的实施例不受前述的任何细节所限制，而应当广泛地解释成在附加权利中要求中定义的精神和范围内，因此，在权利要求的边界和范围或类似的这样的边界和范围内的所有的变化和修改倾向于包含在附加的权利要求中。
权利要求
1.一种语音编码装置，包括感知线性预测(plp)分析缓冲器，它配置成输出有关原输入语音信号的音调周期并用plp处理分析输入语音信号，以输出plp系数；激励信号发生器，它配置成产生并输出激励信号；音调合成滤波器，它配置成合成从所述plp分析缓冲器输出的所述音调周期和从所述激励信号发生器输出的所述激励信号；频谱包络滤波器，它配置成将从所述plp分析缓冲器输出的所述plp系数应用到所述音调合成滤波器的输出，使得输出合成语音信号；加法器，它配置成从所述plp分析缓冲器输出的所述原输入语音信号中减去从所述频谱包络滤波器输出的所述合成信号，并输出差异信号；感知权重滤波器，它配置成通过将对应于人的听觉效果因素的权重值提供给从所述加法器输出的所述差异信号，计算误差；以及最小误差计算器，它配置成发现具有对应于从所述感知权重滤波器输出的所述误差的最小误差的激励信号。
2.按照权利要求1所述装置，其特征在于，还包括快速傅里叶变换单元，它配置成分散所述原输入语音信号；临界频带积分和再采样单元，它配置成依据频带将人的识别效果应用到所述分散信号；乘法器，它配置成将通过所述临界频带积分和再采样单元的频率元素乘以等响度曲线；听力幂次律单元，它配置成依据音量的变化，将所述人的识别效果应用到施加有信号的所述等响度曲线，并输出所述施加的信号。逆离散傅里叶变换单元，它配置成从所述听力幂次律单元输出的所述信号的时间域内获取线性方程；以及Cepstral系数单元，它配置成求解所述线性方程并将所述求解结果应用到cepstral递归处理，以获取cepstral系数。
3.按照权利要求1所述装置，其特征在于，所述激励信号发生器包括代码本的代码本索引和代码本增益，且所述装置还包括搜索单元，所述搜索单元配置成从所述代码本中搜索具有所述最小误差的所述激励信号。
4.按照权利要求3所述装置，其特征在于，还包括发送器，它配置成将所述代码本索引、所述代码本增益、所述音调周期和所述plp系数发送给预期用户。
5.一种语音编码方法，包括输出有关原输入语音信号的音调周期并用感知线性预测(plp)处理分析输入语音信号，以输出plp系数；产生并输出激励信号；合成所述输出音调周期和所述激励信号并输出第一合成信号；将所述输出plp系数应用到所述第一合成信号，以输出第二合成信号；从所述原输入语音信号中减去所述第二合成信号，并输出差异信号；通过给所述输出差异信号提供对应于人的听觉效果因素的权重值，计算误差；以及发现具有对应于所述计算误差的最小误差的激励信号。
6.按照权利要求5所述的方法，其特征在于，获取所述plp系数包括使用快速傅里叶变换分散所述输入语音信号；使用临界频带积分和再采样处理，依据频带将人的识别效果应用到所述离散信号；使经过所述临界频带积分和再采样处理的频率元素乘以等响度曲线；使用听力幂次律处理，依据音量变化将所述人的识别效果应用到施加有信号的所述等响度曲线，并输出所述施加的信号；使用逆离散傅里叶变换获取所述输出的施加的信号时间域内的线性方程；以及求解所述线性方程并将所述求解结果应用到cepstral递归处理，使得获取cepstral系数。
7.按照权利要求5所述方法，其特征在于，还包括从代码本中搜索具有所述最小误差的所述激励信号；其中，所述代码本包括代码本的代码本索引和代码本增益。
8.按照权利要求7所述方法，其特征在于，还包括将所述代码本索引、所述代码本增益、所述音调周期和所述plp系数发送给期望用户。
9.一种语音处理装置，包括感知权重滤波器，它配置成将对应于人的听觉效果因素的权重提供给对应于合成语音信号和原语音信号之间的差异的差异信号；最小误差计算器，它配置成发现具有对应于由所述感知权重滤波器计算的所述误差的最小误差的激励信号。
10.按照权利要求9所述装置，其特征在于，还包括感知线性预测(plp)分析缓冲器，它配置成输出有关所述原输入语音信号的音调周期，并用plp处理分析输入语音信号，以输出plp系数；激励信号发生器，它配置成产生并输出激励信号；音调合成滤波器，它配置成合成从所述plp分析缓冲器输出的所述音调周期和从所述激励信号发生器输出的所述激励信号；频谱包络滤波器，它配置成将从所述plp分析缓冲器输出的所述plp系数应用到所述音调合成滤波器的输出，使得输出所述合成语音信号；以及加法器，配置成从所述plp分析缓冲器输出的所述原输入语音信号中减去从所述频谱包络滤波器中输出的所述合成信号，并输出所述差异信号。
11.按照权利要求10所述的装置，其特征在于，还包括快速傅里叶变换单元，它配置成能分散所述原输入语音信号；临界频带积分和再采样单元，它配置成依据频带将人的识别效果应用到所述离散信号；乘法器，它配置成将经过所述临界频带积分和再采样单元的频率元素乘以等响度曲线；听力幂次律单元，它配置成依据音量的变化将所述人的识别效果应用到施加有信号的所述相等响度曲线，并输出所述施加的信号；逆离散傅里叶变换单元，它配置成在所述听力幂次律单元输出的所述信号的时间域内获取线性方程；以及Cepstral系数单元，它配置成求解所述线性方程，并将所述求解结果应用到cepstral递归处理，使得获取cepstral系数。
12.按照权利要求11所述的装置，其特征在于，所述激励信号发生器包括代码本的代码本索引和代码本增益，且所述装置还包括搜索单元，所述搜索单元配置成从所述代码本中搜索具有所述最小误差的所述激励信号。
13.按照权利要求12所述的装置，其特征在于，还包括发送器，它配置成将所述代码本索引、所述代码本增益、所述音调周期和所述plp系数发送给预期用户。
14.按照权利要求13所述的装置，其特征在于，还包括接收机，它配置成接收从所述发送器发送的具有所述最小误差的所述激励信号的所述音调周期、所述plp系数、所述代码本索引和所述代码本增益；以及处理器，它配置成产生对应于所接收的代码本索引和代码本增益的激励信号，以合成所述音调周期，并应用所述plp系数合成的音调周期，使得重现所述原语音信号。
全文摘要
一种语音编码装置，包括感知线性预测(plp)分析缓冲器，它配置成输出有关原输入语音信号的音调周期并用plp处理分析输入语音信号，以输出plp系数；激励信号发生器，它配置成产生并输出激励信号；音调合成滤波器，它配置成合成从所述plp分析缓冲器输出的所述音调周期和从所述激励信号发生器输出的所述激励信号；频谱包络滤波器，它配置成将从所述plp分析缓冲器输出的所述plp系数应用到所述音调合成滤波器的输出，以输出合成的语音信号；加法器，它配置成从所述plp分析缓冲器输出的所述原输入语音信号中减去从所述频谱包络滤波器输出的所述合成信号，并输出差异信号；感知权重滤波器，它配置成通过将对应于人的听觉效果因素的权重值提供给从所述加法器输出的所述差异信号来计算误差；以及最小误差计算器，它配置成发现具有对应于从所述感知权重滤波器输出的所述误差的最小误差的激励信号。
文档编号G10L19/04GK1790486SQ20051013167
公开日2006年6月21日申请日期2005年12月14日优先权日2004年12月14日
发明者金燦佑申请人:Lg电子株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：金燦佑
技术所有人：LG电子株式会社
我是此专利的发明人