专利名称:用于对多语言的姓名进行语音识别的方法和系统的制作方法
技术领域:
本发明总的来说涉及语音识别处理过程。具体的说,本发明用于(但不限于)使用个人电子设备来对姓名进行语音识别,这里所说的姓名是多种语言的姓名。
背景技术:
诸如移动电话、个人数字助理(PDAs)和寻呼机这样的个人电子设备在整个工业化社会中已经非常普及了。现在数以百万计的用户依靠这些设备来快速和容易地获取电子信息和进行通信。减小的重量和尺寸使得这些设备容易携带(例如,可以将它们放在口袋和钱包里),从而增加了它们的方便性。然而,设备尺寸减小的缺点是设备上的接触界面(诸如键盘和按钮)通常都非常小并且不便于使用。
因此,语音识别是很多个人电子设备上非常有价值的特征。例如,语音识别能力可以使汽车司机能够向个人电子设备发送简单的命令而不需要将他们的视线从公路上移开。同样,语音识别可以使诸如访问PDA中地址簿条目这样的操作变得更加方便,这是因为可以很容易地执行口头的命令,并且通常比在小键盘上键入指令所需的时间要少得多。
因此语音识别系统是执行计算机程序和访问数据库的一种常用方法。然而,个人电子设备很小的尺寸也会限制嵌入式语音识别系统的性能。有效的语音识别通常需要相对较大的数据库和可观的处理速度才能实现,然而小型电子设备的存储器容量和处理能力通常是有限的。为了克服这种限制,通常都仅为有限的、特定的环境定制个人电子设备的语音识别系统。例如,如同将在下面详细描述的那样,这种系统通常都是讲话者相关的,也就是说设计它们仅仅翻译特定的讲话者的语音模式。同样的,这种系统通常也是语言相关的,并仅仅为有限的词汇设计。这些折中的设计可以使系统能够使用个人电子设备的有限资源来合理地为特定的用途工作。
语音识别系统通常是将输入的话语和存储在数据库中的声学模型进行匹配。然后再进一步将匹配的声学模型与字典数据库中的条目进行匹配来完成单词和句子的识别。声学模型通常由隐藏马尔可夫模型(HMM)构成。HMM是包括均值和方差向量的统计学描述,它描述诸如单词和音素这样的语音单元。然后使用HMM模式匹配来确定语音识别数据库中的声学模型与口述输入话语是否匹配。HMM通常是基于包含被称为高斯混合(Gaussian mixtures)的若干复杂的高斯概率分布函数(PDF)的概率函数的。因此语音模式匹配就是将高斯混合与输入语音话语进行匹配的过程。所以HMM模式与声学模型的匹配的可用复杂性(available sophistication)是语音识别系统的设计者在对性能和存储与处理资源之间进行必要的折中时必须考虑的重要变量。
语音识别系统中的其它折中措施主要关注于系统识别多个用户的语音的能力。因此,可以将语音识别系统进一步划分为讲话者无关的和讲话者相关的。讲话者无关的系统用于识别给定语言下任意讲话者的语音;而讲话者相关的系统是被训练成仅识别一个讲话者的语音的。讲话者无关的系统通常包括声学数据库,这个数据库包含从多个训练讲话者那里得来的多个HMM。从训练讲话者那里得来的多个HMM是意在表示从一大组讲话者中找到的语音模式的高斯混合参数。通常这种系统比讲话者相关的系统的准确性要低,这是因为在语音模型中必须进行折中以适应多种语音属性,并且还因为不为使用这个系统的任意的讲话者的特殊语音属性而调节讲话者无关的系统。
调节讲话者相关的系统以识别单个讲话者的特定语音模式。通常在训练程序中,讲话者要向讲话者相关的系统读一段包含多种语音模式的脚本。然后将训练语音对准脚本,使得为讲话者的特殊语音属性调节系统,然后系统才能在语音识别过程中更准确地识别讲话者的声音。然而,在很多人要使用语音识别系统的情况下讲话者相关的系统通常是不合要求的。例如,嵌入在移动电话中的语音识别系统使得用户能够通过口述之后电话能够识别的命令来操作设备。然而移动电话的主要使用者可能希望自己的很多朋友、同事或家庭成员也能够使用电话的语音识别特征。因为电话的这些次要使用者仅仅需要在很短的时间内使用语音识别特征,所以要求次要使用者在使用语音识别特征之前首先对电话进行训练以识别他或她的声音是不方便的。
最后,语音识别声学模型通常只是为单一语言设计的,因此能够识别多种语言的语音的语音识别系统需要多个声学模型,这同样要增加对存储器的需求和系统的复杂性(sophistication)。
现在已经为个人电子设备开发出来了双语语音识别设备。因此,(例如),移动电话的双语用户可以用两种语言(诸如英语和普通话)中的任意一种来从存储在电话中的地址簿里取出姓名。由于在设备中使用的特定语言的声学模型和词汇数据库是分离的,因此通常用户在使用语音识别特征之前首先要将电话中的语言模式切换到一种特定的语言。然而,(例如)在地址簿中混合包含两种语言的各种姓名或其它通讯信息的情况下,这种预选特定语言的要求是不方便的。同样,这种预选特定语言的要求还使得系统不能用语音识别系统来识别混合的、多语言的两部分姓名—例如,某人的名字是英文的而姓是普通话的。
因此,所需要的是一种讲话者无关的用于语音识别的改进的方法和系统,其能够识别多语言的姓名而不需要手工地在语言模式之间进行切换,并有效地使用个人电子设备中有限的资源。
发明内容
根据本发明的一个方面,本发明是一种用于对多语言的姓名进行语音识别的改进的方法,它包括如下步骤在电子设备中存储文本,所述文本表示由字符组成的多个姓名;为每个姓名识别至少一种语言;使用特定语言的字母-发音转换器将每个姓名转换成有序的语音单元序列;用与电子设备相关联的麦克风接收口述话语;将话语转换成特征向量;以及将特征向量与至少一个姓名的有序的语音单元序列进行匹配。
优选地,所述多语言包括普通话,并且为每个姓名识别至少一种语言的所述步骤包括确定姓名中所包含的字符是在汉语字母表中还是在罗马字母表中;和确定在罗马字母表中的姓名是否是汉语拼音。
优选地,所述多种语言包括西方语言和汉语。
优选地,所述多个特定语言的字母-发音转换器包括中文字母-发音转换器和西方语言字母-发音转换器。
优选地,所述中文字母-发音转换器是上下文相关的和所述西方语言字母-发音转换器是上下文无关的。
优选地,将特征向量与至少一个姓名的有序的语音单元序列进行匹配的所述步骤包括通过在自动语音识别引擎中比较特征向量、有序的语音单元序列、和高斯混合参数来解码特征向量。
优选地,所述自动语音识别引擎使用波束搜索(Beam search)、Viterbi算法。
优选地,所述姓名由存储在电子设备中的通讯录中的成分组成。
根据本发明的另一个方面,本发明是一种用于对多语言的姓名进行语音识别的方法,它包括如下步骤用与电子设备相关联的麦克风接收口述话语;将话语转换成特征向量;以及将特征向量与至少一个姓名的有序的语音单元序列进行匹配,所述姓名是存储在电子设备中的字符表示,其中从所述字符中识别出姓名的至少一种语言,然后使用多个特定语言的字母-发音转换器将所述姓名转换成有序的语音单元序列。
根据本发明的再一个方面,本发明是一种用于对多语言的姓名进行语音识别的系统,它包括微处理器;与微处理器以可操作的方式连接的至少一个存储器;与微处理器以可操作的方式连接的麦克风;操作所述微处理器以执行存储在存储器中的代码来用麦克风接收口述话语、将话语转换成特征向量;并且将特征向量与至少一个姓名的有序的语音单元序列进行匹配,所述姓名是存储在存储器中的字符表示,其中从所述字符中识别出姓名的至少一种语言,然后使用多个与微处理器以可操作的方式连接的特定语言的字母-发音转换器将所述姓名转换成有序的语音单元序列。
优选地,所述姓名由存储在系统中的通讯录中的成分组成。
优选地,所述系统与移动电话或个人数字助理以可操作的方式连接。
在本说明书(包括权利要求书)中,术语“由...组成(comprise)”、“包含(including)”、“包括(comprising)”或类似的术语意在表示非排他性的包括,因此由一系列元素组成的方法和装置并不只包含这些元素,而且还可以包含其它没有列出的元素。
为了让本发明更容易理解和有效地赴诸实践,现在参考附图对优选的实施例进行说明,其中类似的序号表示类似的元素,其中图1是图解说明根据本发明的一个实施例的用于对多语言的姓名进行语音识别的系统的功能组件的示意图;图2是图解说明根据本发明的实施例的两种不同语言的姓名和由有序的语音单元序列组成的与它们的相关发音的列表的表格;图3是图解说明根据本发明的实施例的字母-发音转换器的工作和组件的示意图;图4是总结了包括普通话/英语开放词典的根据本发明的实施例的将存储文本转换成语音单元的方法的一般流程图;图5是图解说明根据本发明的实施例的将口述话语和存储在开放词典中的姓名进行匹配的方法的一般流程图;并且图6是图解说明根据本发明的实施例的以可以应用语音识别系统的无线电话形式的个人电子设备的示意图。
具体实施例方式
参看图1,这是图解说明根据本发明的一个实施例的用于对多语言的姓名进行语音识别的系统100的功能组件的示意图。系统100按如下方式操作。字母-发音转换器105将姓名的文本转换成有序的语音单元序列。姓名通常是作为单独字符的表示存储在诸如移动电话或个人数字助(PDA)这样的个人电子设备中的多个姓名中的一个。例如,姓名可以作为地址簿或通讯录的一部分存储在电子设备中。字母-发音转换器105首先为输入到系统100中的姓名识别至少一种语言。然后将姓名转换成存储在开放词典110中的有序的语音单元序列。系统115还包括混合语言隐藏马尔可夫模型(HMM)集115。HMM集115包括以至少两种语言表示所选语音模式的高斯混合参数。
在将多个姓名和与它们相关联的有序的语音单元序列输入到开放词典110中之后,系统100就在将姓名口述输入到诸如麦克风120的系统100的输入之后识别任意一个姓名的语音表示。麦克风120可能与声音激活设备(VAD)以可操作的方式连接。然后,特征提取器125就根据本领域普通技术人员熟知的现有语音识别技术来提取口述姓名的特征向量。然后,比较特征向量与高斯混合参数的自动语音识别(ASR)引擎130对特征向量进行解码。另外,还以动态语法网络135辅助ASR引擎135,这里动态语法网络135由开放词典110构成并在语音识别过程中对语音模型的搜索进行引导。最后,从系统100中输出来自开放词典的匹配的姓名。然后电子设备就可以使用这个匹配的名字来从通讯录检索(例如)这个人的电话号码或其它联系信息。
因此,本发明在需要对混合的、多语言的单词或姓名进行语音识别的应用中非常有用。例如,在中国出现了讲话者无关的可使用汉语(例如普通话或粤语)和英语ASR的移动电话。但是,这些现有技术的系统通常在一个给定时间只能在一种语言模式下工作。例如,如果用户想要使用ASR特征从使用英文姓名的地址簿中检索信息,那么用户就必须首先将ASR特征设置成英文。如果之后同一个用户要从使用普通话姓名的地址簿中检索信息,那么在能够检索普通话姓名之前用户就必须首先将ASR特征设置成普通话。然而已经发现中国的许多移动电话用户的电话地址簿中包含双语的、两部分的姓名,其中这些姓名的第一部分是英文的,姓名的第二部分是普通话的。因此,现有技术的ASR系统不能对这种双语的、两部分的姓名的语音表示进行自动识别。而另一方面,本发明能够对这种双语的、两部分的姓名进行识别,而且不需要用户手工地将ASR从一种语言切换到另一种语言。
参看图2,这是图解说明两种不同语言的姓名和由有序的语音单元序列组成的与它们相关联的发音的列表的表格。例如,第一个姓名“杨立伟”完全是普通话(中文字符)的,并且它后面跟着由包含单独的汉语音素的有序的语音单元序列组成的发音205。第二个姓名“John Stone”完全是英文的,并且它后面同样跟着由包含单独的英语音素的有序的语音单元序列组成的发音210。由于包含普通话(中文字符)的姓“张”和英文的名字“Jacky”,第三个姓名“Jacky张”是双语、两部分的姓名。不过本发明的方法和系统同样能够对这个既包含了英语音素210又包含了汉语音素205的名字进行定义。现在,将在下面介绍本发明的特征,其可以对双语的、两部分的姓名进行语音学分析,而不需要用户手工地将ASR从一种语言切换到另一种语言。
参看图3,这是图解说明在图1中介绍过的混合的字母-发音转换器105的工作和组件的示意图。作为一个例子,操作在图3中显示的混合的字母-发音转换器105来转换用英语或普通话写成的字符。首先,混合的字母-发音转换器105包含字母表标识符305,对字母表进行识别的字母表标识符305用于定义至少一部分存储在设备中的写入姓名。如果姓名的所存储部分是由中文字符310组成的,那么就将字符310直接输入到特定语言的普通话字母-发音转换器315中。然而,如果姓名的所存储部分是由英文字符320组成的,那么姓名既可以是用汉语拼音书写的,又可能是用英文书写的。因此还需要用拼音标识符325来对姓名的这个部分进行分类。拼音标识符325使用基本能识别所有用拼音表示的(不包含音调的)汉语姓名的408个音节的拼音字典。如果英文字符320是汉语拼音,那么就把它们输入到普通话字母-发音转换器315中。然而,如果英文字符320是英文单词,那么就把它们输入到特定语言的英语字母-发音转换器330中。普通话字母-发音转换器315和英语字母-发音转换器330都可以把姓名转换成唯一的有序的特定语言语音单元序列。本领域普通技术人员应当认可,本公开也可以使用转换各种其它语言字符的其它字母-发音转换器105。因此,本发明的字母-发音转换器105能够将双语的、两部分的姓名解析成单一的有序的语音单元序列。
为了使得本发明能够在不需要用户手工地将系统100在语言模式间切换的情况下操作,混合语言HMM集115完全包括至少两个声学模型组,每一组用于一种语言。例如,根据上述识别英语和普通话姓名的本发明的实施例,HMM集115组合下面两种单一语言的声学模型集上下文相关的普通话模型和上下文无关的英语模型。这里,上下文是指给定语音单元的左侧和/或右侧紧邻的语音单元。在汉语中,如同将在下面详细介绍的,这些单元被表示为“声母”和“韵母”。三话音(triphone)模型是一种同时考虑左侧和右侧相邻语音单元的语音模型。如果两个语音单元具有相同的标识,但是它们左侧和右侧的上下文不同,那么就认为它们是不同的三话音。
将汉语和诸如英语的西方语言区分开来的一个特征是汉语都是单音节的,并具有带音调的辅音/元音(C/V)结构。因此音节识别是大多数汉语语音识别系统结构的基础。在汉语中总共有1254个音节(408个无音调音节),它们来自22个“声母”(即,音节中元音前的辅音)和38个“韵母”(即,音节中元音后的辅音)的不同组合。在声母中,有21个真声母和一个所谓的“零声母”。根据本发明的优选实施例,将零声母作为真声母来对待。考虑到其中只有有限的训练数据可用的情况,对于汉语的一般观察是音节之中的协同发音(co-articulation)效果要比音节之间的协同发音效果重要得多。这是汉语的单音节结构造成的。同样,音节内声母的声学特征高度依赖于韵母,但是韵母的声学特征对声母的依赖则少得多。例如,音节“ta”中的声母“t”与另一个音节“tu”中相同的声母的发音很不相同;但是音节“ta”中的韵母“a”与“cha”中的“a”的发音几乎相同。因此,在汉语语音识别中的一种合理的方法是认为音节之间的协同发音效果和音节内韵母对前面声母的依赖都是可以忽略的,并让声母与所跟随的韵母的启始音素右上下文相关,并让韵母上下文无关。因此本发明的优选实施例使用包括117个声母和38个韵母的155个子音节。然后将每个音节分解成一对子音节。在表1中显示了本发明的优选实施例的汉语声学模型中使用的这种音节分解的例子。
表1--汉语音节分解的例子
为了减少HMM集115中英语声学模型的体积,从而减少整个系统100所需要的复杂度和计算量,本发明的优选汉语/英语实施例使用了上下文无关的英语声学模型。同样,使用了40个单音素(monophone)作为基本英语建模单元。这种单音素的一个来源是卡内基-梅隆大学(CMU)发音词典。CMU发音词典包含大约127,000个英文单词和它们相应的语音发音。CMU发音词典还定义了英语中的39个单独的音素。作为选择的,也可以使用其它的词典。
现在将更详细地介绍ASR引擎130将有序的语音单元序列与特征向量进行匹配的工作方式。引擎130使用Viterbi型、波束搜索算法来对系统100接收到的口述话语的特征向量的序列进行分析。在语法网络135的引导下,引擎130的目的是找到其相应的状态序列(高斯混合)的高斯参数与输入的语音话语最匹配的有序的语音单元序列。Viterbi搜索是时间同步的搜索算法,它在处理时间t+1之前对时间t进行完全的处理。对于时间t来说,每一状态都用来自时间t-1的所有状态的最高分(而不是使用所有引入路径的和)来更新。在更新的时候,它还记录回溯指针以记住最可能的引入状态。在搜索结束的时候,沿着这些回溯指针就可以恢复最可能的状态序列。在有效修剪技术的帮助下,不需要去探索整个搜索空间或整个框架。取而代之的是,只需要对最有希望的搜索状态空间进行探索。然后,就为系统100产生了全面的HMM集,这个集合与在每次更新开放词典之后在线生成的动态语法的终端元件的声学模型相关联。可以在Jelinek Frederick所著的“Statistical Methods for Speech Recognition”(MIT出版社,1999,ISBN 0-262-10066-5)中找到有关上述算法的更详细的介绍。
为了进一步说明本发明,参看图4,这是总结了根据包括普通话/英语开放词典110的本发明的实施例的将存储文本转换成语音单元的示例性方法400的一般流程图。方法400起始于步骤405,在这里将表示多个由字符组成的姓名的文本存储在电子设备中。在步骤410确定特定的姓名中所包含的字符是在汉语字母表中还是在罗马字母表中。如果组成姓名的字符是中文字符,那么就在步骤415处将姓名的语言识别为普通话。然而如果字符是在罗马字母表中的,那么由于字符可以是汉语拼音,所以仍然没有确定姓名的语言。因此在步骤420处就通过使用基本上标识了所有用拼音表示的(不包括音调)汉语姓名的408个音节的拼音字典来确定字符是否是汉语拼音。如果确定字符是汉语拼音,那么方法400再次前进到步骤415,在这里将姓名的语言识别为普通话。否则,在步骤425处将姓名的语言识别为英语。
如果在步骤415处识别出的语言是普通话。那么方法就继续前进到步骤430,在这里就使用普通话字母-发音转换器315将姓名转换成有序的语音单元序列。然而如果在步骤425处识别出的语言是英语,那么方法就继续前进到步骤435,在这里使用英语字母-发音转换器330将姓名转换成有序的语音单元序列。然后将有序的语音单元序列存储在开放词典110中。
现在参看图5,这是图解说明根据本发明的实施例的将口述话语和存储在开放词典110中的姓名进行匹配的方法500的一般流程图。方法500起始于步骤505,在这里用电子设备的麦克风120接收口述话语,并且在这里设备完全包括用于对多语言的姓名进行语音识别的系统100。在步骤510处将话语转换成特征向量。然后在步骤515处将话语的特征向量与根据上述方法存储到开放词典110中的至少一个姓名的有序语音序列进行匹配。
参看图6,这是图解说明可以应用本发明的语音识别系统100的个人电子设备的一个例子的示意图。这个例子包含了以无线电话形式的个人电子设备600,其完全包括根据本发明的一个实施例的用于对多语言的姓名进行语音识别的系统100。该电话600包含了与处理器603耦合以进行通信的射频通信单元602。该无线电话600还包含与处理器603耦合以进行通信的键区606和显示屏605。如同本领域普通技术人员所了解的,显示屏505可以是触摸屏,这样键区606就是可选的了。
处理器603包含具有相关联的代码只读存储器(ROM)612的编码器/解码器611,代码只读存储器(ROM)612用于存储用于对由无线电话600发射和接收声音或其它信号进行编码和解码的数据。处理器603还包括通过通用数据和地址总线617与编码器/解码器611,字符只读存储器(ROM)614,随机存取存储器(RAM)604,静态可编程存储器616和SIM接口618耦合的微处理器613。与SIM接口618以可操作的方式耦合的静态可编程存储器616和SIM(通常被称为SIM卡)每一都可以将所选的引入文本消息和电话号码数据库(TND)(或地址/电话簿)与其它内容一起存储于其中,电话号码数据库包含用于存储电话号码的号码字段和用于在姓名字段中和一个号码相关联的标识符的姓名字段。例如,电话号码数据库TND的一个条目可能是91999111111(在号码字段中的条目)和在姓名字段中与之相关联的标识符“Steven C!at work”。SIM卡和静态存储器616卡中还可以存储用于允许接入到无线电话600上受密码保护的功能的密码。本发明中诸如字模-发音转换器105、开放词典110、混合语言HMM集115、特征提取器125、ASR引擎130、和动态语法网络135这样的组件都可以部分或全部地存储在一个或多个代码只读存储器(ROM)612、字符只读存储器(ROM)614、随机存储器(RAM)604、静态可编程存储器616、和SIM卡中。
微处理器613具有与键区606、显示屏605和通常包含报警扬声器、振动马达和相关的驱动器的报警装置615耦合的端口。同样,微处理器613还具有与麦克风120和通信扬声器640耦合的端口。字符只读存储器614存储用于对可以由通信单元602接收的文本消息进行编码和解码的代码。在这个实施例中字符只读存储器614还存储用于微处理器613的操作代码(OC)和执行与无线电话600相关联的功能的代码。
射频通信单元602是带有常规天线607的接收器和发射器的组合。通信单元602具有经射频放大器609与天线607耦合的收发器608。收发器608也与组合的调制器/解调器610耦合,并且组合的调制器/解调器610将通信单元602与处理器603耦合起来。
下面给出了用于英语和普通话的本发明的实施例的性能的例子。这里用由包含(包括诸如“cancel”和“castle”这样发音非常相近的容易混淆的单词的)50个词汇的口述话语的特征向量构成测试数据库。数据库包括来自大约200个讲话者的9494条普通话话语,和来自25个讲话者6872条英语话语。为了试图建立真实的环境,这些话语是在六个不同的移动环境中记录的,诸如办公室、汽车、大型购物中心和大街上。在表2中总结出了测试的结果。单语言的结果显示了使用专用单语言语音识别系统进行识别的准确率。混合语言结果包含了使用本发明的混合语言语音识别系统100进行识别的准确率。
表2-系统性能的例子
因此本发明是能够识别多语言的口述姓名而不需要用户手工地将系统100在语言模式间进行切换的,改进的语音识别系统100。因此它在(例如)用户可能具有包含多语言姓名的电子地址簿的多语言环境中是非常有用的。由于用户不需要在语言模式间进行切换,所以系统100能够识别甚至是由第一语言的第一部分姓名和第二语言的第二部分姓名组成的复合姓名。同样,也可以通过使用包含上下文相关和上下文无关组件的组合声学模型,节约对系统100的存储器和处理的需求。因此可以在具有有限存储和处理资源的(诸如无线电话或PDA的)个人电子设备上操作系统100。
上面详细的描述只是提供了一个优选的示例性实施例,而不是意在限制本发明的范围、适用性、或配置。更确切地说,关于优选的示例性实施例的详细说明提供了可以让本领域普通技术人员实现本发明的优选的示例性实施例的说明。应当理解,在不背离在附加的权利要求书中提出的本发明的精神和范围的情况下可以对本发明的功能和元件布置和步骤进行各种修改。
权利要求
1.一种用于对多语言的姓名进行语音识别的方法,它包括如下步骤在电子设备中存储文本,所述文本表示由字符组成的多个姓名;为每一所述姓名识别至少一种语言;使用多个特定语言的字母-发音转换器将每一姓名转换成有序的语音单元序列;用与所述电子设备相关联的麦克风接收口述话语;将所述话语转换成特征向量;和将所述特征向量与至少一个姓名的所述有序的语音单元序列进行匹配。
2.如权利要求1所述的方法,其中所述多语言包括普通话,并且为每一所述姓名识别至少一种语言的所述步骤包括确定所述姓名中所包含的字符是在汉语字母表中还是在罗马字母表中;和确定在所述罗马字母表中的姓名是否是拼音。
3.如权利要求1所述的方法,其中所述多语言包括西方语言和汉语。
4.如权利要求3所述的方法,其中所述多个特定语言的字母-发音转换器包括中文字母-发音转换器和西方语言字母-发音转换器。
5.如权利要求4所述的方法,其中所述中文字母-发音转换器是上下文相关的并且所述西方语言字母-发音转换器是上下文无关的。
6.如权利要求1所述的方法,其中将所述特征向量与至少一个姓名的所述有序的语音单元序列进行匹配的所述步骤包括通过在自动语音识别引擎中比较所述特征向量、所述有序的语音单元序列、和高斯混合参数来解码所述特征向量。
7.如权利要求6所述的方法,其中所述自动语音识别引擎使用波束搜索、Viterbi算法。
8.如权利要求1所述的方法,其中所述姓名由存储在所述电子设备中的通讯录中的成分组成。
9.一种用于对多语言的姓名进行语音识别的方法,它包括如下步骤用与所述电子设备相关联的麦克风接收口述话语;将所述话语转换成特征向量;和将所述特征向量与至少一个姓名的有序的语音单元序列进行匹配,所述姓名是存储在所述电子设备中的字符表示,其中从所述字符中识别出所述姓名的至少一种语言来,然后使用多个特定语言的字母-发音转换器将所述姓名转换成所述有序的语音单元序列。
10.一种用于对多语言的姓名进行语音识别的系统,它包括微处理器;至少一个存储器,与所述微处理器以可操作的方式连接;和麦克风,与所述微处理器以可操作的方式连接;操作所述微处理器以执行存储在所述存储器中的代码来用所述麦克风接收口述话语、将所述话语转换成特征向量;和将所述特征向量与至少一个姓名的有序的语音单元序列进行匹配,所述姓名是存储在所述存储器中的字符表示,其中从所述字符中识别出所述姓名的至少一种语言来,然后使用多个与所述微处理器以可操作的方式连接的特定语言的字母-发音转换器将所述姓名转换成所述有序的语音单元序列。
11.如权利要求10所述的系统,其中所述多语言包括普通话,并且通过确定所述姓名是由中文字符还是由所述罗马字母表组成,和确定在所述罗马字母表中的姓名是否是汉语拼音的来识别出所述至少一种语言。
12.如权利要求10所述的系统,其中所述多语言包括西方语言和汉语。
13.如权利要求11所述的系统,其中所述多个特定语言的字母-发音转换器包括中文字母-发音转换器和西方语言字母-发音转换器。
14.如权利要求13所述的系统,其中所述中文字母-发音转换器是上下文相关的并且所述西方语言字母-发音转换器是上下文无关的。
15.如权利要求10所述的系统,其中通过在与所述微处理器以可操作的方式连接的自动语音识别引擎中比较所述特征向量、所述有序的语音单元序列、和高斯混合参数来将所述特征向量与至少一个姓名的所述有序的语音单元序列进行匹配。
16.如权利要求15所述的系统,其中所述自动语音识别引擎使用波束搜索、Viterbi算法。
17.如权利要求10所述的系统,其中所述姓名由存储在所述系统中的通讯录中的成分组成。
18.如权利要求10所述的系统,其中所述系统与移动电话或个人数字助理以可操作的方式连接。
全文摘要
一种用于使用混合字母-发音转换器(105)中的多个特定语言的字母-发音转换器对多语言的姓名进行语音识别的方法和系统(100)。根据一个实施例,所述方法包括在电子设备中存储文本,其中所述文本表示由字符组成的多个姓名。然后为每个所述姓名识别出至少一种语言并将每一姓名转换成存储在开放词汇表(110)中的有序的语音单元序列。然后,用与所述电子设备相关联的麦克风(120)接收口述话语并在特征提取器(125)中将所述话语转换成特征向量。然后在自动语音识别引擎(130)中将所述特征向量与至少一个姓名的所述有序的语音单元序列进行匹配。
文档编号G10L15/26GK1731511SQ20041005651
公开日2006年2月8日 申请日期2004年8月6日 优先权日2004年8月6日
发明者任晓林, 何昕, 孙放, 张亚昕 申请人:摩托罗拉公司