给用户提供声音反馈的可扩展语音识别系统的制作方法

文档序号：2820739阅读：193来源：国知局

专利名称：给用户提供声音反馈的可扩展语音识别系统的制作方法
技术领域：
本发明通常涉及到数据处理系统，尤其是涉及到一种为用户提供声音反馈的可扩展语音识别系统。
已有技术语音识别系统使得一个计算机系统至少能够懂得输入到计算机系统的选定的语音部分。一般来讲，语音识别系统将输入的语音解析成可读取识别的部分。例如，输入的语音能够被解析到进一步处理的一些音素以便识别该语音的内容。典型地，一些语音识别系统通过将输入语音中单词的发音与一些模式或者由语音识别系统存储的样本比较来识别输入语音中的单词。这些样本是利用单词的语音学表示以及对于音素前后-依靠的样本来产生的。许多语音识别系统包括一些语音识别系统可识别词条的特定发音的字典。
语音识别系统使用的一种场合是用在听写系统中。这些听写系统将输入的语音变换成文字。在这些听写系统中，这些语音识别系统用于确定输入语音中的单词，而这些听写系统产生对应于这些确定单词的文字类型输出。遗憾地，这些听写系统经常遇到来自某些用户输入的语音的较高等级的错误识别。使用在这种字典中的语音识别系统对于每个单词有一种或者几种发音，但是这些单词的发音都是固定的并且代表该语音识别系统期望要听到的发音。如果用户对一个单词使用一种不是该语音识别系统期望的不同发音，则该语音识别系统将经常错误地识别用户的输入。当一个词条具有多种适当的发音并且用户使用的是不能通过语音识别系统变换的发音之一时，这个缺点特别使用户懊恼。
这种听写系统的另一种局限是或者它们不能够扩展(即，用户不可以添加一个新的词条到字典中)或者它们允许一些新词条的添加但是不允许用户开发发音而产生新词条本身的发音。这样的系统能够利用字母-到-声音启发式方法猜测新添加词条的发音。遗憾的是，这种启发式方法在许多例子中没有产生正确结果。通常，当一个用户添加一个新单词到一个听写系统中使用的扩充字典时，用户仅仅输入了一个新单词而没有提供一个发音，但该语音识别系统产生了一个新词条的发音。这个新发音可能是不正确的或者可能与用户期望的单词发音不对应。结果，相对于用户添加词条或者包括新添词条的语音输入，经常存在较高的错误识别。
发明概述本发明克服了上面所描述已有技术的局限性。根据本发明的第一方面，一种方法由识别自讲话者输入的语音的计算机-执行的语音识别系统来实施。根据这种方法，一种文字-到-语音的结构被提供用于创建一个文字的口语译文。利用这种文字-到-语音的结构产生一个给定单词的口语译文，并且这个给定单词口语译文在声音设备上输出以便语音识别系统的用户知道该语音识别系统期望一个给定单词将如何发音。该文字-到-语音的结构产生符合语音识别系统期望听到给定单词发音的一个给定单词的发音。特别是，文字-到-语音的结构与给定语音识别系统共享相同字母-到-声音的元素，以至于由该文字-到-语音的结构产生的给定单词口语译文与语音识别系统期望听到的发音是完全相同的。
根据本发明的另一方面，这里提供由听写系统识别的一些单词的发音清单。接受来自用户要将存储在列表清单中选定单词的现行发音改变成一个新发音的请求。响应该请求存储在列表清单中选定单词的发音变换成新的发音。
根据本发明的又一个方面，由计算机-执行的语音识别系统实现了一种方法。提供一个语音识别系统识别词条的字典，并且该字典确定语音识别系统期望的每个词条如何发音。接受来自用户要添加一个新词条到字典中的请求并且该新词条的发音由语音识别系统产生。利用文字-到-语音的结构(用语音识别系统对信词条期望的发音作为输入)，新词条的发音在一个声音输出设备上输出，并且该新的词条如产生的发音一样被添加到字典中。
再根据本发明的另一方面，对于一个选定单词的多种发音保存在一个语音识别系统的字典中。对于选定词条的每个发音在声音输出设备上输出以便用户能够听到该发音。对应于用户选定的一种发音，该选定的发音由语音识别系统利用去识别语音。
根据本发明的另一个方面，提供一个对每个词条具有发音的一些词条的字典。这些发音与语音识别系统所期望这些词条将被如何发音相对应。在讲话者读出词条之一以便语音识别系统识别该选定词条的一些例子中，用户所用选定词条的特定发音被确定。根据这种重复确定，该系统识别用户最有可能使用的被选定单词的可替换的发音，并且更新该字典以便指定这个发音为语音识别系统期望的发音。
再根据本发明的一方面，接受来自一个讲话者的已经给出发音词条的口语译文。提供一个对于该词条的期望发音。这个期望的发音对应于语音识别系统期望讲话者如何读出该词条。将该词条的口语译文的给定发音与期望发音比较以便确定差别的等级。在差别等级超过可接受预定阈值的地方，在输出设备上产生的输出通知讲话者该差别等级超过了阈值。这个输出还可以包括文字-到-语音结构产生词条的期望发音。
根据本发明的一个附加方面，一个计算机-执行的语音识别系统识别来自一个讲话者的口语语音。为一个给定单词提供一个期望的发音。该期望的发音构成语音识别系统期望的一个给定词将如何由讲话者发音。统计是根据作为讲话者的口语的给定单词由语音识别系统错误识别频率进行收集的。在统计显示出给定单词被较经常的错误识别超过一个阈值的情况下，显示设备上产生的输出促使用户去纠正给定单词的期望发音。
附图描述将参照下面附图对本发明的一个最佳实施例进行更详细地描述。

图1是一个适合实现本发明最佳实施例的计算机系统的方框图。
图2是一个图解说明语音识别系统的部件的方框图。
图3是一个图解说明字典部分例子的视图。
图4是一个图解说明实现的步骤以便使用户改变字典中一个词条发音的流程图。
图5A-5D描述提供给用户来变换字典的词条发音的用户界面元素。
图6是说明添加一个新的词条到该字典中的实现步骤的流程。
图7A-7D图解说明提供给用户来添加一个具有给定发音的新词条到字典中的用户界面元素。
图8是一个图解说明没有交互的用户输入的替换存储在字典中的发音的步骤的流程。
本发明最佳实施例的详细描述本发明最佳实施例为用户提供一种具有声音反馈的可扩展式的语音识别系统，因此，当一个用户寻求添加一个单词或词条到由语音识别系统使用的字典中时，用户被提供由声音反馈来识别该系统如何确认该词条的发音。然后用户可以接受这个发音或者要求改变其发音。在一个替换的方法中，用户利用拼读该单词如何发音来确认其发音。在另一个替换的方法中，该系统提供给用户该单词可替换的发音的清单并且用户来选择该单词。
本发明最佳实施例能使一个用户改变目前在字典中的任何单词的发音。此外，本发明最佳实施例使一个用户能够听到在字典中当前指定的一个单词的发音。该用户可以听到发音，然后如果需要的话可以改变该发音到一个可替换的发音。结果，用户大大地增强该语音识别系统实现的词条识别的水平。
在另一种可替换方法中，该语音识别系统所用的字典自动和明显地由该系统来更新。该系统处理一组发音数据以便在字典内为这些词条获得可替换的发音。当用户读出一个词条并且该词条被正确地识别出时，系统识别该用户所读词条的那个替换发音。在一个固定数量的正确识别和比较之后，系统获得一个用户正在读出的发音中的信任等级而改变该词典(包括以系统的方式将在观察的入口中的变化向其他没有观察的入口中传播)以使用其发音以至于增强本系统实现的识别等级。
下面将对应一个听写系统描述本发明最佳实施例。在该听写系统中，用户的讲话进入一语音输入装置，如一个话筒，以便输入所讲的文字。该听写系统识别其讲话内容，并且生成一个相应的文字作为一个文件的一部分。那些技术上熟知的人们将认识到本发明还能够实际地交流而不只是一个听写系统。本发明通常更多地应用于语音识别系统。
图1是一个适合于实现本发明最佳实施例的计算机系统10的方框图。该计算机系统10包括一个能够访问主存贮器14和第二存贮器16的中央处理单元(CPU)12。第二存储器16可以包括一些可移动的媒体驱动器，如CD-ROM驱动器，它们能够读取存贮在一种计算机可读媒体(即CD-ROM)的信息。该计算机系统10包括一些外设。这些外设可以包括，例如，一个键盘18，一个鼠标20，一个视频显示器22，一个扬声器24，以及一个语音话筒26。该计算机系统可以附加地包括一个调制解调器28，一个声卡29和一个能够使计算机系统与网络32接口的网络适配器30。存贮器14为该听写系统34保存程序指令和数据。这些指令只在CPU12上运行以实现本发明最佳实施例。该听写系统34可以使用应用程序35，如字处理程序和信息程序。该听写系统包括一个语音识别系统36。
那些技术上熟练的人们将认识到图1中所描述的计算机系统结构仅仅是为了解释说明而本发明没有限制。本发明还可以用另一种替换的计算机系统结构来实现，其包括多处理器系统和分布系统。为了下面讨论方便，假设本发明最佳实施例实现的步骤是在听写系统34或语音辊系统36的方向上。
一个适当的实现本发明最佳实施例的语音识别系统描述在标题为“采用连续密度隐藏马尔可夫模式用于语音识别的方法和系统”的专利申请中，申请号为No.08/655,273，其是在1996年5月1日申请的，它与本发明的申请指定给一个共同的受让人。图2描述对本发明最佳实施例的讨论特别感兴趣的话音识别系统36的元件。语音识别系统36包括一个利用字典42和字母-到-声音规则46的语音识别引擎40。该字典保存由语音识别引擎40来识别的词条清单和相关发音。图3描述字典42的一部分的一个例子。字典42中每个入口包括一个用于识别相关词条的字段50以及一个用于确定词条发音的字段52。图3显示对于词条“添加”的一个入口的例子。该词条的识别保存在字段54中而该词条的发音保存在字段56中。该字段的发音依靠音素系统来确定。
语音识别系统36还可以包括一个用于将文字变化成口语输出的文字-到-语音引擎44。文字-到-语音引擎44具有访问字典42和变换文字字符到相应声音的字符-到-声音的规则46的能力。文字-到-语音引擎44首先利用字典42定位发音，然后当要处理的字在字典中没有时再利用字符-到-语音规则46分类。那些技术上熟练的人将知道文字-到-语音引擎44不必是语音识别系统的一部分，而可以是一个分开的语音合成单元的一部分。然而，为了下面描述方便，假设文字-到-语音引擎44是语音识别系统36的一部分。一个适当的实现本发明最佳实施例的语音识别系统描述在标题为“对于语音合成运行时间声学单位选择的方法和系统”的相关专利申请中，申请号为No.08/648,808，其是在1996年4月30日申请的，它与本发明的申请指定给一个共同的受让人。那些技术上熟知的人还将认识到这种语音识别引擎40和文字-到-语音引擎可以有他们自己的字典与字母-到-声音的规则。
图4是一个流程图，它说明由该语音识别系统36实现使一个用户能改变存贮在字典42中词条的发音的步骤。首先，用户需要听一个给定单词的发音(图4中的步骤60)。然后用户识别希望要听发音的词条(图4中步骤62)。图5A显示一个用户界面元素78的例子，该界面部件是在用户做出要听单词发音的请求时显示的。用户界面元素78包括一个对发声单词的可替换的清单80。在图5A显示的例子中，单词是按字母来安排的。用户可以通过移动清单选择所希望的单词。在图5A描述的例子中用户已经选择出现在选择框82“orange”的单词。然后用户通过激活按钮84听所选词的发音(图4中步骤64)。一种用于激活按钮84合适方法是定位一个鼠标光标在按钮84上并且当鼠标光标定位在按钮84上时单击一下鼠标按钮。
用户听到该单词的发音然后做出判断该发音是否正确。输出的发音是由语音识别系统36使用的缺省发音。如果用户接受这个发音(参看图4中步骤66)，用户可以激活“OK”按钮。另一方面，如果用户不喜欢用这个发音(看图4中步骤66)，用户可以激活“改变”按钮87。在这种方式中，用户请求所选词条发音的改变(图4中步骤68)。
然后用户确定所选词条的新发音(图4中步骤68)。图5B显示由系统为该词条提供的多个可替换发音的第一替换入口，而用户选择这些发音中的一个。尤其是，如图5B中所示，一个用户界面元素88提供给用户，即要求从清单90所列的发音中选择一个发音。用户可以通过激活“取消”按钮来取消改变发音的处理或者也可以选择清单90中发音之一并且单击“OK”按钮92以接受该选中的发音做为此词条的一个新的缺省发音。
那些技术上熟知的人认识到这可能是一些产生词条可替换发音的多种方法。系统可以处理语言资料库以便为每个存贮在字典中词条产生多种发音。该系统可以为每个采用不同发音的词条提供多种样板。再者，这些多种发音可以从用户已经输入到语音识别系统36中的不同发音经验地推导出来。
第二种可替换描绘在图5C中。在这个第二可替换中，系统不提供可替换的发音；而用户要输入一个替换的发音。一个如图5C中描述的用户界面元素96被显示，而用户在文字框内拼读出新的发音。用户无须为该发音输入音素而只是输入一个希望捕获单词发音的字母序列(即字符串)。例如，如果用户希望拼读出词“orange”的发音，用户可以输入字符串“ornj”。然后用户可以听到该系统是如何翻译这个通过激活按钮100而输入在文字框98中的字符串。语音识别系统36利用字母-到-声音的规则及字典处理输入在文字框98中的字符串。如果用户满意这个词条发音的输出结果，用户可以激活“OK”按钮102。如果希望不改变该发音，用户可以激活“取消”按钮104。如果用户不满意这个词条发音的输出结果但是希望试图输入另一个发音，用户在文字框98中键入替换的发音并且重复这个处理过程。
那些技术上熟知的人认识到其它的替换也可使用。例如，这些发音可以不做为可选字符串表示给用户(如在第一个可替换中)，反而可以与特殊的用户界面元素有关，如一些用户可以激活按钮去听替换的发音。图5D显示一个按钮93被显示位置的例子，并且每个按钮可激活以便为一个单独的发音产生语音输出。
在用户已经确定接受新发音后(即，图4中步骤68)，系统需要相应地更新字典。具体地说，系统用满足用户要求的新确定的发音代替该词条的发音(图4中步骤70)。再者，系统能够以系统的方式扩展特殊词条的变化到其它词条的变化。例如，如果一个用户发音“what”为“HH WAH T”，那么这个变化可以扩展到所有“wh”开始的词(例如，“where”和“which”)。那些技术上熟知的人们将认识到，在这些可替换的实施例中，字典可以保存多种发音以及具有一个单独发音作为缺省发音。在这种代替实施例中，发音的变化仅仅是一种由语音识别系统36所用的缺省发音中的变化。
本发明最佳实施例的语音识别系统是可扩展的，即在新词条可以加入字典中。图6是一个图解说明当用户希望添加新词条到字典中时执行步骤的流程图。首先用户请求添加一个新词条到字典中(图6中步骤110)。图7A显示一个用户界面结构的例子，该结构由听写系统34提供以便使用户添加新词条到字典42中。图7A描述利用听写系统34的应用程序的窗口26。窗口126包括一个在其上包含编辑菜单字头134的菜单框132。当用户定位鼠标光标在编辑(Edit)菜单字头134上并且按下鼠标按钮时，包括用于添加新词条到字典中的菜单项138的一个菜单136被拉出。用户可以通过定位鼠标的光标在项目138上并且释放鼠标按钮或在该项目上单击。窗口126保存文字126，该文字是通过利用语音识别系统36的听写系统34通过翻译用户经话筒26读出的输入而产生的。当时的指示位置表示在图7A中。
在用户选择一个菜单项入口138后，一个如图7B中所示的对话框140被显示出。这个对话框140要求用户输入他希望添加到字典的词条的字符。字符框142提供在对话框140内。在用户输入字符后，用户可以通过单击“OK”按钮144继续添加新词条的处理或者通过单击“取消”按纽146终止这个处理。所以，用户为该词条提供的字符被添加到字典中(图6中的步骤112)。听写系统34在语音识别系统36上传递该文字字符。语音识别系统提供该字符给字典42和字母-到-声音的规则46以便产生新词条的发音(图6中的步骤114)。然后，生成的发音通过声音扬声器24输出给用户(图6中116步骤)以至于用户能够知道语音识别系统36期望的词条要如何正确发音。然后如图7C中所示的用户界面元素150可以显示以使得用户接受或者拒绝这个发音。如图7C中所示例子，用户界面元素150询问用户是否接受该新词条的发音并且该界面包括一个用来接受发音的“是(Yes)”按钮152，一个用来拒绝该发音的“否(No)”按钮154和一个用来对新词条发音产生声音输出的声音输出按钮153。通过激活这些按钮，用户接受或拒绝由字符-到-语音引擎44产生的发音(图6中步骤118)。
在用户接受该发音的时，该词条和相应的发音被添加到字典42中(图6中步骤120)。这个相应的发音将在以后的拼读词条的识别中使用。然而，如果用户不接受该发音，系统则提示该发音给用户(图6中步骤122)。语音识别系统136实现由词典42产生的发音以及用户没有接受的字符-到-声音的规则，因此，要求用户为这个单词产生一个发音的表示。语音识别系统36显示一个如图7D中描绘的对话框160以请求用户输入新词条的发音。对话框160包括一个用户可以键入新词条应如何发音的字符串的文字框162。用户输入文字到文字框162后，用户可以激活按钮164来听一下系统如果翻译输入到文字框中的文字。具体地说，系统产生的输入到文字框162中的发音表示在扬声器24输出。一旦用户已经输入一个产生可接受发音的字符串，用户可以通过激活“OK”按钮166改变这个发音。用户也可以通过激活“取消”按钮按钮168取消该发音的改变。一般来讲，系统将提示该发音给用户(步骤122)，接受由用户输入的发音(步骤124)以及输出该用户已接受的发音直到用户接受最终结果的发音。代替地，系统可以将用户新加入的发音与当前的发音比较，并且如果足够接近则不再提示给用户接受或者拒绝。
该系统也可以在没有明确的用户请求下明显地更新字典42中保存的发音。这种结构可以独立于上述的用户初始逼近使用，以更新保存在字典42中的发音或者与该近似一起可以使用。初始地，该系统被提供有发音数据的语言资料库，以及该系统应用一种如分类的算法和回归树(“CART(计算机自动化评价技术)”)算法来导出相关词条的可替换的发音(图8中步骤170)。CART算法，在本技术领域上是大家非常熟悉的并且描述在包括Breiman等人出版的大量出版物中，1984年的《类骤与回归树》。那些技术上熟知的人将认识到其它启发式的研究也可以应用于导出这个发音。这个推导出的发音为以后的使用保存起来。当一个用户读出一个词条而该词条被识别时，系统将用户读出的词条与保存词条的可替换发音比较(图8中步骤172)。这个过程被重复(参考图8中返回到步骤172)执行直到系统确信其能够肯定是用户使用的可替换发音(参看图8中步骤174)。例如，在系统达到足够可信的水平之前，系统要求对于接收到的可替换发音中的一个有一定量的命中以至于确定该发音为用户所使用的发音。语音识别系统36然后改变字典42以便使用用户感兴趣的发音(即系统确定为用户所用的发音)(图8中步骤176)。
虽然本发明最佳实施例已参考最佳实施例描述了，但是那些熟知此技术的人们应认识到在形式和细节上所能够做出的各种改变并没有脱离本发明权利要求所限定的范围。
尽管本发明已该参照最佳实施例描述过，但是那些技术上熟知的人们应认识到在没有脱离本发明的精神和范围的情况下是能够做出形式或细节上的改变的。
权利要求
1.在一个用于将来自讲话者的语音输入变换成文字的计算机-执行的听写系统中使用的一种方法，该方法包括步骤为创建一个文字的口语译本提供一种文字-到-语音的结构；对于一个文字的给定单词，利用文字-到-语音的结构以便产生给定单词的口语译本；以及在声音输出设备上输出给定单词的口语译本以便语音识别系统的用户知道语音识别系统期望给定单词如何发音。
2.根据权利要求1所述的方法，其特征在于所述语音识别系统为用户提供一个用户界面元素，以便要求给定单词的一个正确的发音，而且响应通过用户界面元素请求给定单词的适当发音的用户输出给定单词的口语译本。
3.根据权利要求2所述的方法，其特征在于所述用户界面元素是用户激活以便请求一部分文字的正确发音的一个可激活按纽。
4.根据权利要求1所述的方法，其特征在于所述语音识别系统包括一个所述语音识别系统识别的单词清单和一种为了用户添加单词到该清单中的结构，其中使用步骤和输出步骤都是通过用户添加新单词到所述清单中致使所述新单词的口语译本被输出而触发的。
5.根据权利要求1所述的方法，其特征在于还包括在使用所述文字-到-语音结构之前接收来自用户的所述给定单词文字表示的步骤。
6.根据权利要求1所述的方法，其特征在于还包括一些步骤接受一个来自用户所述给定单词的不同口语译本的指定作为一个所述给定单词的正确发音；以及修改语音识别系统期望所述给定单词发音以便反映由用户指定所述给定单词的不同口语译本。
7.根据权利要求1所述的方法，其特征在于所述语音识别系统是用在一个听写系统中将口语语音变成文字。
8.根据权利要求1所述的方法，其特征在于所述语音识别系统对于给定单词至少有一个期望的发音，以及由文字-到-语音结构产生的给定单词的口语译本与给定的单词的期望的发音相对应。
9.在一个用于将来自讲话者的语音输入变换成文字的计算机-执行的听写系统中使用的一种方法，该方法包括步骤为听写系统识别的单词提供一个发音清单；接受来自用户的一个请求以便将存储在所述清单中选定单词的现行发音改编成一个新的发音，所述请求指定新的发音；以及为选定单词改变存储在清单中的发音，从现行发音改变成新的发音。
10.根据权利要求9所述的方法，其特征在于还包括提供一个用户界面的步骤，通过该界面用户做出请求以改变选定单词的现行发音。
11.根据权利要求10所述的方法，其特征在于用户界面使得一个用户用字母拼读出选定单词的新发音。
12.根据权利要求9所述的方法，其特征在于所述听写系统包括一个声音输出设备，以及所述方法还包括在接受请求之前输出选定单词的现行发音的步骤。
13.根据权利要求9所述的方法，其特征在于所述听写系统包括一个声音输出设备，以及接受请求步骤还包括一些步骤接受一个字符串，该字符串说明用户所相信的选定单词发声的新发音；为用户提供一个用户界面元素以听该听写系统预想的所述字符串如何发音的；提供一个文字-到-语音引擎用于将文字变换成具有相关发音的语音；响应使用该用户界面元素的用户，利用所述文字-到-语音引擎为字符串在声音输出设备上输出语音；以及响应接受由所述文字-到-语音引擎为作为所述选定单词的一个正确发音的字符串所产生的语音的用户，产生一请求。
14.根据权利要求13所述的方法，其特征在于还包括为了用户提供一个附加用户界面元素以接受或者拒绝由所述文字-到-语音引擎输出的相关语音的发音的步骤。
15.在一个识别来自讲话者的语音输入以及包括一个声音输出设备的计算机-执行的语音识别系统中使用的方法，该方法包括步骤提供一个所述语音识别系统识别词条的字典，所述字典指定语音识别系统期望的每个词条如何发音；接受来自用户的一个请求以添加一个新词条到所述字典中；由所述语音识别系统为新词条产生一个发音；在声音输出设备上为新词条输出所述发音；以及向字典添加所述新词条和产生的发音。
16.根据权利要求15所述的方法，其特征在于所述语音识别系统包括一个用于变换文字到语音的文字-到-语音引擎，以及所述文字-到-语音引擎用来输出所述新词条的发音。
17.根据权利要求16所述的方法，其特征在于所述文字-到-语音引擎利用字母-到-声音的规则产生所述新词条的发音。
18.根据权利要求15所述的方法，其特征在于所述方法还包括提示用户检验产生的新词条发音正确的步骤。
19.根据权利要求18所述的方法，其特征在于当用户检验产生的新词条发音不正确时，接受来自用户的一个新词条的正确发音的指定并且添加所述正确发音到字典中。
20.在一个识别来自讲话者的口语语音的计算机-执行的语音识别系统中使用的一种方法，所述系统包括一个声音输出设备和一个用于从文字产生语音的一文字-到-语音引擎，该方法包括步骤将选定单词的多种发音存储在由文字-到-语音引擎使用的字典中；在声音输出设备上输出每个发音以便用户能够听到这些发音；以及响应选定的发音中的一个的用户，使用由语音识别系统选定的发音去确认语音。
21.根据权利要求20所述的方法，其特征在于所述语音识别系统是用在一个将讲话者口语语音变换成文字的听写系统中。
22.在一个识别来自讲话者的口语语音的计算机-执行的语音识别系统中的一种方法，该方法包括步骤为对应于所述语音识别系统期望词条如何发音的词条提供一个具有发音的词条的字典；进行试探以便引出所述词条的可替换的发音；在讲话者读出词条之一以便语音识别系统识别该选定词条的多个例子中，确定用户所用选定词条的可替换发音的哪一个发音；以及根据这个确定步骤，确定用户最可能使用的选定单词的可替换发音中的哪一个，并更新字典以便指定这个用户最可能使用的发音为语音识别系统期望的被选择词条的发音。
23.根据权利要求22所述的方法，其特征在于CART算法被应用于导出所述可替换发音。
24.在一个识别来自讲话者的口语语音的计算机-执行的语音识别系统中使用的方法，所述系统具有一个输出设备，该方法包括步骤从讲话者接受一个具有给定发音的词条的口语译本；为与语音识别系统期望讲话者讲出的词条相对应的词条提供一个期望的发音；将所述词条口语译本的给定发音与期望所述词条的发音比较，以便确定所述词条口语译本的给定发音和所述词条的期望发音之间的差别等级；以及在差别的等级超过一个可接受的预定阈值时，在输出设备上产生输出以便通知讲话者差别等级超过阈值。
25.在一个识别来自讲话者的语音输入以及包括一个声音输出设备的计算机-执行的语音识别系统中，一计算机-可读媒体保存用于执行一种方法的计算机-执行指令，该方法包括计算机-执行步骤为创建一个文字的口语译本提供一种文字-到-语音的结构；对于文字的给定单词，利用文字-到-语音的结构以便产生给定单词的口语译本；以及在声音输出设备上输出给定单词的口语译本，以便语音识别系统的用户知道语音识别系统期望给定单词将如何发音。
26.在一个用于将来自讲话者的语音输入变换成文字的计算机-执行的听写系统中，一个计算机-可读媒体保存用于执行一种方法的计算机-可执行指令，该方法包括步骤为听写系统识别的单词提供一个发音清单；接受来自用户的一个请求以便将存储在所述清单中选定单词的现行发音改变成一个新的发音，所述请求指定新的发音；以及为选定单词改变存储在清单中的发音，从现行发音变到新的发音。
27.在一个识别来自讲话者的语音输入以及包括一个声音输出设备的计算机-执行的语音识别系统中，一个计算机-可读媒体保存用于执行一种方法的计算机-可执行指令，该方法包括步骤提供一个所述语音识别系统识别词条的字典，所述字典指定语音识别系统期望的每个词条将如何发音；接受来自用户的一个请求以便添加一个新词条到所述字典中；由所述语音识别系统为新词条产生一个发音；在声音输出设备上为新词条输出所述发音；以及添加所述新词条和产生的发音到字典中。
28.在一个识别来自讲话者的语音输入的计算机-执行的语音识别系统中，所述系统包括一个声音输出设备和一个用于从文字产生语音的文字-到-语音引擎，一个计算机-可读媒体保存用于执行一种方法的计算机-执行指令，该方法包括步骤在由文字-到-语音引擎使用的字典中为选定单词存储多种发音；在声音输出设备上输出每个发音以便用户能够听到这些发音；以及响应选定发音中的一个的用户，使用由语音识别系统选定的发音去确认语音。
29.在一个识别来自讲话者的语音输入的计算机-执行的语音识别系统中，一个计算机-可读媒体保存用于执行一种方法的计算机-执行指令，该方法包括步骤为与所述语音识别系统期望如何发音的词条相对应的词条提供一个具有发音词条的字典；通过采用试探引导出所述词条的可替换发音；在讲话者读出词条之一以便语音识别系统识别选定词条的多个例子中，确定选定词条中的可替换发音中的被用户使用的那个发音；以及根据这个确定步骤，确定用户最可能使用的选定单词的可替换发音以及更新字典，以便指定这个用户最可能使用的发音为语音识别系统期望如何发音的被选词条。
30.在一个识别来自讲话者的语音输入的计算机-执行的语音识别系统中，所述系统包括一个声音输出设备和一个用于从文字产生语音的文字-到-语音引擎，一个计算机-可读媒体保存用于执行一种方法的计算机-可执行指令，该方法包括步骤从讲话者接受一个具有给定发音的词条的口语译本；为与语音识别系统期望讲话者讲出的词条相对应的词条提供一个期望的发音；将所述词条口语译本的给定发音与期望所述词条的发音比较，以便确定所述词条口语译本的给定发音和所述词条的期望发音之间的差别等级；以及在差别的等级超过一个可接受的预定阈值时，在输出设备上产生输出以便通知讲话者差别等级超过阈值。
31.在一个识别来自讲话者的语音输入的计算机-执行的语音识别系统中使用的一种方法，所述系统具有一个显示设备，该方法包括步骤提供一个给定单词的期望发音，其构成语音识别系统期望讲话者对该给定单词的发音；搜集关于来自讲话者口语语音的给定单词被所述语音识别系统错误识别的频率的统计数；以及在所述统计数表示给定单词被错误识别比一个阈值更频繁时，通过在显示设备上产生输出提示用户以便纠正给定单词的期望发音。
32.一个用于识别来自讲话者的语音输入的语音识别系统，包括一个用于接受来自讲话者语音输入的输入设备；一个识别引擎，用于识别由输入设备从讲话者接受语音输入中的语音，其中所述语音识别引擎具有对语音部分的期望发音；一个文字-到-语音引擎，用于产生构成选择语音部分的文字的口语表示；以及一个声音输出设备，用于输出来自文字-到-语音引擎的文字的口语表示，以便用户知道选择的语音部分的期望的发音。
全文摘要
一个语音识别系统(36)时刻扩展的,新词条可以添加到由语音识别系统(36)识别的词条清单(42)。该语音识别系统(36)在新词条被添加时提供一个声音反馈以便用户能够听到系统(36)期望该单词如何发音。然后用户可以接受这个发音或者提供自己的发音。用户还可以选择地改变一些单词的发音以便避免该系统(36)的错误识别。该系统(36)可以提供适当的用户界面元素用来使得用户改变单词的发音。系统(36)还可以包括智能,用于根据经验地导出信息自动地改变在识别中使用的单词发音。
文档编号G10L15/06GK1264468SQ98806081
公开日2000年8月23日申请日期1998年4月8日优先权日1997年4月10日
发明者学东·D黄, 迈克尔·J·罗扎克, 姜力申请人:微软公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：学东.D黄;迈克尔.J.罗扎克;姜力
技术所有人：微软公司
我是此专利的发明人