专利名称:语音识别方法
技术领域:
本发明涉及利用语音识别技术执行自动拨号功能的语音识别方法。
人用语音与他人交流他的/她的思想。把人类之间交流工具的语音用作人机之间交流的工具。也就是说,把语音识别技术应用到操作日常使用的电气或电子设备。特别是把语音识别技术应用到移动电话具有各种使用上的优越性。
由此,本发明涉及克服有关技术中一种或多种限制和缺陷的语音识别方法。本发明的目的是要提供一种通过把现有语音识别算法应用到具有内置声码器的移动电话而允许利用语音拨号的语音识别方法。
下面的说明中将指出本发明的附加特征和优点,并且将从说明中部分地了解,或从本发明的实践中部分地学到它们。通过如写出的说明书和权利要求以及附图中说明的结构将实现和获得本发明的目的和其它优点。
为实现这些和其它优点,根据如同实施例体现的和概括说明的本发明的目的,在调制输入语音和具有用于为调制的语音信号编码的内置声码器的电话中,语音识别方法包括如果用户输入电话号码和对应于电话号码的语音时,在声码器进行编码,使用作为编码结果输出的信息仅检测语音分段,和提取并存储检测的语音分段的特征的训练步骤;如果接收到输入语音时,在声码器进行编码,使用作为编码结果输出的信息仅检测语音分段,提取检测的语音分段的特征,把提取的特征与在训练步骤中存储的寄存字的特征比较,和选择具有与输入语音特征最为类似的特征的寄存字的识别步骤;和,如果在识别步骤中选择的寄存字的类似性没有超过一个预定阈值,则确定识别的结果是正确的和自动地拨对应于识别字的电话号码的步骤。
训练步骤和识别步骤的特征在于,仅检测来自输入信号的实际发音的语音分段,使用代码薄增益作为能量信息,把代码薄增益作为声码器编码结果输出。
训练步骤和识别步骤的特征在于,提取对应于语音分段的帧的频谱系数作为特征,如果检测了语音分段则把系数作为编码结果输出。
识别步骤的特征在于,把提取的特征与训练步骤中存储的寄存字的特征比较,如果帧的特征对应于语音分段,则选择具有与输入语音特征最类似特征的寄存字。
识别步骤的特征在于,提取已经在声码器编码的线谱对(LSP)参数,并把提取的LSP参数变换为伪对数倒频谱。
识别步骤的特征在于,在把从输入语音提取的频谱系数与训练步骤中寄存的每个字的频谱系数的比较中使用动态时间弯曲(dynamictime warping)(DTW)。
识别步骤的特征在于,为了选择具有与输入语音特征最类似特征的寄存字,在DTW之前进行预选择步骤。
预选择步骤的特征在于,仅利用从每个帧提取的部分频谱信息进行DTW以选择预定数量的具有相对高的类似性的寄存字,和随后对选出的寄存字进行DTW以最终选出具有与输入语音最高类似性的寄存字。
语音识别技术中最简单的一种是与讲话者有关的单字识别。
根据这种技术,只有事先经过训练的人的语音能够被识别,并且只有以字(或短的语句)为单位说出的语音能够被识别。
有各种现有语音识别算法。可以把它们大致分类为,语音分段检测法,特征提取法,和匹配法。
这些方法需要相对大的计算量,因而需要高速处理器。但是,市场上销售的移动电话装备有提取语音频谱参数的内置声码器,由此,本发明的优点在于不需要专门的特征提取处理。
应当理解上述的一般说明和以下的详细说明都是示例和解释性的,并且只是为了提供对权利要求定义的本发明的进一步的说明。
为了提供对本发明的进一步的理解,所涉及的、与说明书结合并构成说明书的一部分的附图示出了本发明的实施例,并且与说明书一同用于解释本发明的原理。
在附图中
图1是显示根据本发明的语音识别电话的方框图;图2是显示根据本发明的语音识别算法的语音训练处理的流程图;图3是显示根据本发明的语音识别算法的语音匹配处理的流程图;图4是显示根据本发明的语音识别算法的语音识别处理的流程图;图5是显示根据本发明的检索区设置状态的坐标平面;和从以下本发明的详细说明可以对本发明的其它目的、特征和优点有更清楚的了解。
以下参考附图详细说明本发明的优选实施例。
图1所示的本发明的语音识别电话系统包括话筒(以下简称mic)11,扬声器12,编译码器(CODEC)13,声码器14,控制器15,数据存储器16,和程序存储器17。
在该构造中,mic11把用户发音并输入的语音信号转换成电信号,并把电信号提供给CODEC13。扬声器12将语音从CODEC13输出到外部。
CODEC13把经由mic11接收的语音调制成脉码调制(PCM)或-1awPCM数据,并输出到声码器14。
CODEC13也解调来自声码器14的输出语音信号,并向扬声器12提供输出信号。
声码器14为PCM或-1aw PCM数据编码。
此时,声码器14的输出数据是由代表频谱信息和增益的系数和用于模拟语音激励信号的信息构成的。
例如,在QCELP情况下有一个LSP系数,一个代码薄索引和增益,以及长期预测器的延迟值和增益。
用于控制语音识别电话整个操作的控制器15根据为语音识别功能存储在程序存储器17中的语音识别序列控制训练和识别处理,并且在与声码器14交流数据时写入和读出需要的数据。
数据存储器16存储电话操作所需数据和用于语音识别功能的寄存字的参考图形。
程序存储器17存储用于电话操作的每个序列。
把语音识别算法划分为用于生成寄存字参考图形数据库的训练处理和将输入语音与寄存字比较以识别语音的识别处理。
首先,在训练处理中,如图2中所示,寄存要识别的字。
也就是说,一旦用户输入了一个电话号码和对应于该电话号码的语音,分析输入的语音,以提取它的特征,并把该特征存储在数据存储器16中。
此时,把特征赋予对应的电话号码。
更具体地说,一旦用户用十个键输入了希望的电话号码(步骤201),电话经过扬声器12输出指示用户输入语音的消息(步骤202)。
随后,当用户把对应于输入电话号码的语音(例如,对应于911的语音是“消防站”)给予mic11时(步骤203),CODEC13将输入的语音调制为PCM或-1aw PCM数据,声码器14对从CODEC13接收的调制语音进行编码(步骤204)。
把语音信号划分为短的分段信号(即,帧),以便按帧编码。作为编码的结果,产生了频谱信息和激励代码薄增益。根据每帧的能量信息仅检测来自输入信号的实际发音的分段,即,语音分段(步骤205)。利用从声码器14输出的代码薄增益作为能量信息。具体地说,代码薄增益指示了语音的大小信息。如果增益超过预定值,那么把对应的信号确定为语音。如果在步骤205检测到语音分段,那么把对应于语音分段的帧的频谱系数存储在数据存储器16中(步骤206)。也就是说,把语音信号帧的频谱信息用作语音特征。提取所有的帧的特征以便存储或用作识别。本发明利用从声码器14输出的LSP系数作为特征。把语音分段中的帧的所有编码数据存储在数据存储器16中,以便在识别处理过程中用语音通知识别的结果。此后,如果用户有更多的电话号码要输入,过程返回到步骤201,并重复进行上述各个步骤。如果没有电话号码要输入,过程结束(步骤207)。
在识别处理中,如图3所示,语音识别是通过把要识别的字与在训练处理中存储的寄存字比较并取出最类似的字这样的方式完成的。
一旦根据存储在数据存储器16中的寄存字的特征识别出语音,在识别处理中自动拨出对应于识别出的语音特征的电话号码。
具体地说,当输入语音后,分析输入的语音并提取它的特征。把提取的特征与存储的寄存字比较,并且选出具有与输入语音最类似特征的寄存字。
如果类似性满足了预定的水准,那么确定识别的结果为正确,因而自动拨出对应于被识别字的电话号码。另一方面,如果类似性没有达到预定水准,那么可以假设说出的是未寄存的字,因而过程返回到识别处理的开始步骤。
更具体地说,电话经过扬声器12输出指令用户给出语音的消息(步骤301),接下来用户对mic11说出对应于要拨电话号码的事先寄存的字(步骤302)。
例如,如果对于911寄存了“消防站”,那么要拨911的用户应当说出“消防站”。
然后,如图2所示的一样,CODEC13把输入语音调制为PCM或-law PCM数据,声码器14对来自CODEC13的调制输入信号进行编码(步骤303)。
把语音信号划分成短的分段信号(即,帧),以便按帧编码。作为编码的结果,产生频谱信息和激励代码薄增益。
根据每帧的能量信息仅检测来自输入信号的实际发音分段,即,语音分段,并且把从声码器14输出的代码薄增益用作能量信息(步骤304)。
即,步骤301至304与图2中所示的训练处理中的对应步骤相同。
一旦在步骤304检测到语音分段,那么执行搜索寄存语音以找出一个与输入语音最类似语音的匹配步骤(步骤305)。
也就是说,把存储的寄存字的特征与输入语音的特征比较,选出与输入语音特征最类似的寄存字的特征。选出的特征就是识别的结果。
对于这个结果,把从输入语音提取的频谱系数与在训练处理中寄存的每个字的频谱系数比较,以计算类似性。
在计算了所有有关寄存字的类似性之后,提取最高类似性的寄存字。
在类似性计算过程中,输入语音的发音速度可能与存储语音的发音速度不同,由此对语音应用时间弯曲(time-warping),以减小语音发音速度造成的误差。对于时间弯曲使用了动态时间弯曲(DTW)。
同一个用户有可能在每次用不同的速度说出相同的字,由此,由于说话速度的差异,语音信号可能在时间域中是非线性弹性的。
DTW是一种用于将测试图形(即,输入语音)与参考图形(即,存储的寄存字)比较,并确定两个图形之间的类似性,因而消除时间域中的变化的时间调节计算方法。
由于测试图形和参考图形的时间分段不重合,所以根据一种非线性时间弯曲方法确定时标。
时标确定是利用DTW方法完成的。当使用DTW方法时,可以动态地确定一个通过其使输入图形与参考图形之间的类似性最大的路径,因而同时地进行字边界检测、非线性时间校准和识别三个处理。
由此,没有可能产生由于字边界与时间校准中发生的误差而造成的识别误差。
对于DTW,如图5中所示,把要进行匹配的两个序列的长度分别表示为N和M。
如果要比较的两个序列长度M和N的较大的值超过了它们中较小的值的二倍,那么几乎不存在两个序列相符的可能性,因而不进行匹配处理并把匹配失真设置为预定的最大值。
在输入字与寄存字之间的长度差超过较短的一个的二倍时,进行该操作从识别字对输入语音的类似性确定排除一个寄存字。
为两个序列的匹配形成一个具有M×N个格点的二维正交坐标。
寄存字的长度,即,参考图象帧的数量,与输入语音的长度,即,测试图形帧的数量比较,并且为了平滑计算使具有更多帧的图形位于M轴。
建立一个窗口通过限定最优路径搜索范围减少不必要的计算。
由于同一个用户说话不存在大的差异,可以建立窗口以便限制搜索范围。
建立窗口可以用各种方法实现。在本发明中,如下确定窗口,以易于建立窗口而不必计算斜率和提高计算速度,因而提高响应速度。
语音图形R和T是相对于特征提取的特征矢量序列,可以如下表示R=[R1,R2,…,Rm,…,RM]T=[T1,T2,…,Tn,…,TN]图形R和T分别沿m轴和n轴变化。语音图形特征矢量之间的差属于C(k)系列,并且表示如下F=C(1),C(2),…,C(k),…C(K),其中C(k)=(m(k),n(k)),F是把一个时间域从测试图形投射到参考图形的时间域的弯曲函数。
弯曲函数用于找出最小距离的最优路径m=W(n)。然后,建立限定最优路径搜索范围的窗口,减少不必要的计算。由于在同一个人说话时没有大的语音上的差别,因而可以建立窗口以便限制最优路径搜索区。首先分别画出从起始格点(1,1)和结束格点(M,N)开始的具有斜率1的斜线。
如果把两个斜线水平移动一个预定值(N/2n,其中N是帧数,n是自然数,并且在n是2时产生最适合的值),两个斜线之间的格点落在为匹配而要搜索的区内。设置窗口的宽度为N/2n以便消除除法的复数除数,因而只有一个移位器有效使用。
在此,N可以是测试图形的帧数,或参考图形的帧数。
搜索窗口内的一个格点(m,n)具有两个序列的第m个特征和第n个特征的最小累积距离值。
为特征值定标,使其具有一个0~5000的整数值。
限制一个小的分段路径,以避免在特定时间分段的过度压缩和过度控制。示出了作为一个实施例的确定最小分段路径的方法。
三个可能方向(m-1,n-1),(m-1,n),和(m,n-1)中的一个通过弯曲函数移动到一个特定格点(m,n)。
例如,有三种达到格点(m,n)的路途1)从格点(m-1,n-1)至格点(m,n)的直接移动;2)从格点(m-1,n)至格点(m,n)的间接移动;和3)从格点(m,n-1)至格点(m,n)的间接移动。〖公式1〗初始状态D1,1=2d1,1Dm,n=minDm-1,n-1+2dm,mDm-1,n+dm,mDm,n-1+dm,m]]>1≤m≤M,1≤n≤NDm,n在格点(m,n)的最小累积距离dm,n在格点(m,n)的两个特征之间的距离=Σi=1p|α1,mi-α2,ni|]]>
a1,mi第一序列的第m个特征的i序数值a2,ni第二序列的第n个特征的i序数值P一个特征的序数此时,到达的格点(m,n)与图形R的第m帧和图形T的第n帧之间的欧几里德距离或对数倒频谱距离的加权Wmn相关。
把加权Wmn应用到各间接路径,并且把加权2Wmn应用到直接路径,因而如公式1中所示,把在格点(m,n)的两个特征之间的距离定义为dm,n。
对应于两个特征不同序数的值之间的差全部相加,得到两个特征之间的距离。
根据公式1计算在格点(m,n)的最小累积距离,如果计算的值超过一个整数的范围,那么用一个最大整数值替换之。
从底行开始向上相继计算搜索区内各格点的最小累积距离值。
存储前面一行的最小累积距离值,因为需要用它们来计算当前行的最小累积距离值。
用两个序列长度的和(M+N)除格点(M,N)处最小累积距离而得到最终匹配记录。
将这种DTW处理进行与寄存字数一样多的次数,以计算有关寄存字的所有类似性。计算完成之后,提取最类似的寄存字。
如果提取的最类似的寄存字与输入语音之间的类似性满足了移动水准,例如,它没有超过预定阈值,确定识别结果是正确的。
如果成功地完成了匹配处理(步骤306),自动地拨出对应于寄存字的电话号码(步骤307)。
作为替代,如果提取的最类似寄存字与输入语音之间的类似性超过了预定阈值,那么确定输入了一个未寄存的语音,并且过程返回到步骤301接收新的语音。
在必要时可以删除或增加这个步骤。
如图4中所示,当经过mic11输入了语音时(步骤401),把语音调制为PCM或-law PCM信号,然后在声码器14编码(步骤402)。
将编码语音信号划分为短分段信号(帧),并测量能量和每个帧的零相交率,以便仅检测实际发音的语音分段(步骤403)。
例如,可以将作为编码结果而产生的代码薄增益用作能量信息。
如果在步骤403检测到了语音分段,那么提取对应于语音分段的帧的特征。在本发明中,使用了声码器14,因而把声码器14输出的LSP系数作为特征使用。
声码器14提供语音的频谱参数,例如,作为编码结果的LSP系数,由此,本发明的优点在于不需要用于提取特征的专门处理。〖公式2〗Ci=Σj=1Mcos(2πi×lj)i]]>i=1,…,N(N对数倒频谱序数)
M:LSP序数。
由于LSP系数具有上述问题,由此根据公式2把LSP系数转换为伪对数倒频谱(步骤404)。如下面公式3所示,一个特定信号的对数倒频谱是对该信号的对数反傅里叶变换(IFT)。对数倒频谱系数是推导出的结果。〖公式3〗logS(w)=Σn=-∞∞Cne-jnw]]>其中S(w)是功率频谱,Cn是对数倒频谱系数。
“对数倒频谱(cepstrum)”一词是用相反的次序重新排列字“频谱(spectrum)”的前几个字母而形成的。
由于对数倒频谱是一个频域函数的逆变换,由此可以把对数倒频谱定义为一个时间域的函数。对数倒频谱的特点之一是要把频谱包络信息和区域结构从语音信息分离开。
根据下面的公式4,对数倒频谱距离最好是等于rms(均方根)log频谱距离。
〖公式4〗d22=∫ππ|logS(w)-logSprime(w)|2dw2π]]>=Σn=-∞∞(Cn-CN′)2]]>因此,在使用对数倒频谱时可以容易地得到功率频谱之间的差,所以对数倒频谱被广泛使用。
但是,不可能从LSP参数获得对数倒频谱,所以如公式2中所示那样,把LSP参数变换为类似于对数倒频谱的伪对数倒频谱。
把变换的伪对数倒频谱用作测试图形或参考图形的特征矢量。
也就是说,如果存储了语音信号的参考图形,那么把特征矢量存储在数据存储器16中作为参考图形。在语音匹配处理的情况下,输入语音的测试图形被用作特征矢量,所以在匹配处理过程中把作为测试图形的特征矢量与参考图形比较(步骤405)。
当在步骤405测量测试图形与参考图形之间的类似性时,输入语音的发音速度可能与存储语音的发音速度不同,因此进行有关语音的时间弯曲,以减小误差。为时间弯曲使用了DTW方法。
在进行了与寄存参考图形数量一样多次数的DTW和计算了有关所有寄存参考图形的类似性之后,提取最类似的参考图形。
有多种DTW方法。本发明使用了一种测量测试图形与以数据库形式存储的各参考图形之间的频谱距离并选出具有最短频谱距离的参考图形作为识别图形的方法。
如果在步骤405提取的参考图形的类似性满足了预定水准,例如,它不超过一个预定的阈值,那么确定识别的结果是正确的(步骤406),并把提取的参考图形作为识别处理的结果输出(步骤407)。
另一方面,如果提取的参考图形与测试图形之间的类似性超过了预定阈值,那么确定输入了未寄存的语音。
但是,DTW算法需要一定的计算量,所以响应时间相对较长。
采用预选择处理来改善这一问题。在选出最类似输入语音的寄存字之前进行该处理。在该处理过程中,通过简单计算得到几个具有相对高的类似性的寄存字。
因而减少了寄存字候选者,使得DTW算法进行的次数可以减少。结果,可以提高响应速度。
预选择方法中的一种是通过仅利用从每个帧提取的频谱信息的一部分进行DTW而确定N个候选者,然后对有关N个候选者进行DTW,以便确定一个最终的候选者。
通过减少频谱系数的序数的方法,分抽样帧的方法,或共同使用两种方法的方法来检测一部分信息。
另一种预选择的方法是利用比DTW少的计算的线性匹配法确定N个候选者和对有关N个候选者执行DTW,以便确定有关最终候选者。
采用前面一种方法用于本发明的实施例。根据前面一种方法,使用了10个序数LSP系数中的四个,因而减少了为每个帧产生的代码的数量。对帧进行2比1比率的分抽样,因而跳过一帧进行最优路径搜索。
如上所述,本发明的语音识别方法利用移动电话终端中声码器输出的代码薄增益仅检测语音分段,并且通过利用频谱参数作为特征而将具有较少附加计算量的语音识别功能应用于该终端,因而允许在移动终端中简单地实现语音识别功能。语音识别功能的采用可以在该终端使用中产生各种优点。
此外,本发明在输入语音与相应的寄存参考语音的比较中使用了DTW,并且在DTW之前进行了预选择处理,因此减少了与语音响应有关的响应时间。
本发明可以应用到PDA和其它具有与本实施例同样功能的系统中。
熟悉本发明的技术人员应当知道,可以对本发明的语音识别方法进行各种改造和改变,而不脱离本发明的精神和范围。因此,本发明将包括对本发明的改造和改变,主要它们在附属的权利要求及其等同物的范围中。
权利要求
1.在调制输入语音并具有用于对调制的语音信号编码的内置声码器的电话中,一种语音识别方法包括训练步骤,如果用户输入一个电话号码和对应于所述电话号码的语音,在所述声码器进行编码,利用作为编码结果而输出的信息仅检测语音分段,并提取和存储检测的语音分段的特征;识别步骤,如果接收到输入的语音,在所述声码器进行编码,利用作为编码结果而输出的信息仅检测语音分段,提取检测的语音分段的特征,把提取的特征与在所述训练步骤过程中存储的寄存字的特征比较,和选出具有与输入语音的特征最类似的特征的寄存字;和确定步骤,如果在所述识别步骤中选出的寄存字的类似性不超过预定阈值,确定识别的结果是正确的,并且自动拨出对应于识别的字的电话号码。
2.如权利要求1所述的语音识别方法,其中所述训练步骤包括第一步骤,如果用户输入电话号码和对应于所述电话号码的语音,调制输入的语音以提供对所述声码器的输出,把语音信号划分为帧,并按帧进行编码;第二步骤,利用代码薄增益作为能量信息,仅检测来自输入信号的实际发音的语音分段,所述代码薄增益是在所述第一步骤作为编码结果输出的;第三步骤,如果在所述第二步骤检测到语音分段,存储对应于语音分段的帧的频谱系数作为特征,所述系数是作为编码结果输出的;和第四步骤,如果有另一个电话号码输入,返回到所述第一步骤以重复所述各步骤。
3.如权利要求2所述的语音识别方法,其中在所述第三步骤中,把从所述声码器输出的线谱对(LSP)系数用作特征。
4.如权利要求2所述的语音识别方法,其中所述第三步骤包括为用语音识别的结果的信息存储对应于语音分段的帧的所有编码数据的步骤。
5.如权利要求1所述的语音识别方法,其中所述识别步骤包括提取已经在所述声码器编码的LSP参数并且将提取的LSP参数变换为伪对数倒频谱的步骤。
6.如权利要求5所述的语音识别方法,其中所述伪对数倒频谱变换步骤是如下式定义的Ci=Σj=1Mcos(2πi×lj)i]]>i=1,…,N(N对数倒频谱序数)M:LSP序数。
7.如权利要求1所述的语音识别方法,其中所述识别步骤包括第一步骤,如果用户用语音输入要呼叫的目的地,调制输入的语音以提供对所述声码器的输出,将语音信号划分为帧,并按帧进行编码;第二步骤,利用代码薄增益作为能量信息,仅检测来自输入信号的实际发音的语音分段,所述代码薄增益是在所述第一步骤作为编码结果输出的;第三步骤,如果在所述第二步骤检测到语音分段,提取对应于作为编码结果输出的语音分段的帧的频谱系数作为特征,把提取的特征与在所述训练步骤中存储的寄存字的特征比较,并选出具有与输入语音的特征最类似的特征的寄存字。
8.如权利要求7所述的语音识别方法,其中在所述第三步骤中,在从输入语音提取的频谱系数与所述训练步骤中寄存的每个字的频谱系数的比较中使用了动态时间弯曲(DTW)。
9.如权利要求8所述的语音识别方法,其中所述动态时间弯曲包括步骤形成一个具有M×N个格点(M是输入语音的帧的数量,N是一个寄存字的帧的数量)的二维正交坐标平面,以便匹配输入语音和存储的寄存字的特征集的两个序列;在所述二维正交坐标平面上分别画出从起始格点(1,1)和终止格点(M,N)开始的、具有斜率1的斜线,把两个斜线水平移动预定值(N/2n,其中N是帧的数量,n是自然数),以建立用于匹配的搜索区;计算在所述搜索区内的一行中的每个格点处的两个特征之间的距离,并选出通过其实现两个特征间最小距离的路径;对所述搜索区内所有行重复所述最小路径选择步骤;和在所述终止格点(M,N)用两个序列的和(M+N)除最小累积距离,以计算最终匹配记录。
10.如权利要求9所述的语音识别方法,其中在每个格点的两个特征之间的所述距离是通过把所有对应于两个特征的相应序数的值的差相加而计算出的,并且如下式定义初始状态D1,1=2d1,1Dm,n=minDm-1,n-1+2dm,mDm-1,n+dm,mDm,n-1+dm,m]]>1≤m≤M,1≤n≤NDm,n在格点(m,n)的最小累积距离dm,n在格点(m,n)的两个特征之间的距离=Σi=1p|α1,mi-α2,ni|]]>a1,mi第一序列的第m个特征的i序数值a2,ni第二序列的第n个特征的i序数值P一个特征的序数
11.如权利要求10所述的语音识别方法,其中如果最小累积距离值超过一个整数范围,用一个最大整数值替换在每个格点(n,n)的最小累积距离的值。
12.如权利要求11所述的语音识别方法,其中所述搜索区内每行中的所述格点(m,n)具有测试图形和参考图形的两个序列的第m和第n个特征的最小累积距离值。
13.如权利要求12所述的语音识别方法,其中通过把一个距离值从前面一个格点(m-1,n-1)直接移动到当前格点(m,n)和把距离值从两个相邻格点(m-1,n)和(m,n-1)间接移动到当前格点(m,n)的至少一种功能的方式反复地产生所述搜索区内每行中所述格点(m,n)的新路径值。
14.如权利要求13所述的语音识别方法,其中存储每个前面一行中的最小累积距离值,以获得当前行中的最小累积距离值。
15.如权利要求7所述的语音识别方法,其中所述第三步骤包括在选择具有与输入语音的特征最类似特征的寄存字之前的预选择步骤。
16.如权利要求15所述的语音识别方法,其中所述预选择步骤包括仅利用从每帧提取的频谱信息的一部分进行动态时间弯曲(DTW)以选出预定数量的具有相对高的类似性的寄存字,并且相继地进行有关的选出的寄存字的DTW以最后选出具有与输入语音最高类似性的寄存字的步骤。
17.如权利要求16所述的语音识别方法,其中所述预选择步骤包括减少从每帧提取的频谱系数的序数并进行DTW以选出预定数量的具有相对高的类似性的寄存字的步骤。
18.如权利要求16所述的语音识别方法,其中所述预选择步骤包括对帧分抽样以减少帧的数量和进行DTW以选出预定数量的具有相对高的类似性的寄存字的步骤。
19.如权利要求16所述的语音识别方法,其中所述预选择步骤包括减少从每帧提取的频谱系数的序数,对帧分抽样,和进行DTW以选出预定数量的具有相对高的类似性的寄存字的步骤。
20.如权利要求15所述的语音识别方法,其中所述预选择步骤包括利用线性匹配法选出预定数量的具有相对高的类似性的寄存字和相继地对有关选出的寄存字进行动态时间弯曲以最后选出具有与输入语音最高类似性的寄存字的步骤。
全文摘要
语音拨号方法包括如果用户输入电话号码和对应于电话号码的语音时,仅检测语音分段,提取并存储检测的语音分段的特征的训练步骤;如果接收到输入语音,仅检测语音分段,提取检测的语音分段的特征,把提取的特征与在训练步骤中存储的寄存字的特征比较,选择具有与输入语音特征最类似的特征的寄存字的识别步骤;如果在识别步骤中选择的寄存字的类似性没有超过预定阈值,则确定识别的结果是正确的和自动地拨对应于识别字的电话号码的步骤。
文档编号G10L15/00GK1238513SQ9910536
公开日1999年12月15日 申请日期1999年4月28日 优先权日1998年4月28日
发明者李润根, 金基百, 李钟硕, 李秉洙 申请人:Lg电子株式会社