专利名称:普通拼写助记法的制作方法
技术领域:
本发明一般涉及声音识别软件应用程序,尤其涉及用于通过声音识别应用程序处理短语的字符的方法。
背景技术:
语言可能是人类交流的最古老的形式,且许多科学家现在相信,通过语言来交流的能力是在人类大脑的生理机能中天生提供的。这样,允许用户同使用诸如语言的自然用户界面(NUI)的计算机交流是长久追求的目标。事实上,在达到该目标方面最近有长足进展。例如,某些计算机现在包括允许用户口头输入用于操作计算机的命令和要被转化成文本的口述的语音识别应用程序。这些应用程序一般通过定时记录通过麦克风的声音样本、分析样本来识别用户正在说出的音位以及识别由说出的音位组成的单词来操作。
尽管语音识别越来越平凡,仍旧存在关于使用倾向于困扰有经验的用户并疏远初学者用户的常规语音识别应用程序的某些缺点。一个这样的缺点涉及说话者和计算机之间的交互。例如,使用人类交互,人们倾向于基于他们察觉的听众的反应来控制他们的语言。同样,在对话过程中,听众可以通过点头或发出诸如“是”“嗯”的有声反应来提供反馈,以指示他或她理解对他们说的内容。另外,如果听众不理解对他们说的内容,听众可以呈现有疑问的表情、探身过去或给出其它有声或无声的暗示。为了响应该反馈,说话者一般改变他或她说话的方式,且在某些情况中,说话者可能说得更慢、更响、停顿更频繁或者不断地重复语句,通常听众甚至没有意识到说话者改变了他们与听众交互的方式。这样,对话过程中的反馈是告知说话者关于他们是否被听众理解的十分重要的元素。然而不幸地,常规声音识别应用程序尚未能够提供这种类型的对于由人机界面推动的语音输入/命令的“自然用户界面(NUI)”反馈响应。
目前,声音识别应用程序已经达到大致90%到98%的准确率。这意味着,当用户使用一般声音识别应用程序口授进入文档时,他们的语音在大致90%到98%的时间中会被声音识别应用程序准确地识别。这样,在每一百个(100)由声音识别应用程序记录的字母中,大致有二个(2)到十个(100)字母必须被改正。具体地,现有的声音识别应用程序倾向于对识别某些特定字母有困难,诸如“s”(例如,ess)和“f”(例如,eff)。现有声音识别应用程序用来解决这个问题的一种方法,涉及给用户使用预先定义的助记法来解释他们正在发音哪个字母的能力。例如,当口授时,用户拥有说“apple中的a”或“boy中的b”的能力。
然而不幸地,该方法含有与之相关联的倾向于限制用户对声音识别应用程序的友好的缺点。一个缺点涉及,为每一字母使用预先定义的助记法,这倾向于成为标准军用字母表(例如,alpha,bravo,charlie,....)。这是因为,尽管当口授时,可以给定用户去说的助记法列表(例如,“I as in igloo”),但是用户倾向于构成他们自己的助记字母表(例如,“I as in India”),并且忽视预先定义的助记字母表。可以预期,因为声音识别应用程序不识别没有预先定义的助记法,字母识别错误变得常见。另一个缺点涉及尽管某些字母拥有与之关联的占主导地位的助记法(即,>80%)的小的集合(Apple中的A、Adam中的A或者Dog中的D、David中的D或者Zebra中的Z、Zulu中的Z),然而其它字母不拥有与之相关联的占主导地位的助记法(例如,L、P、R和S)。这使得合适的普通语言模型的创建不仅是非常困难的,而且事实上是不可能的。同样,对语音识别软件应用程序传送语言仍旧产生相对大量的错误,且这些错误不仅倾向于在常用用户中制造挫折,而且也倾向于使得初学者用户气馁,有可能导致用户拒绝继续使用声音识别应用程序。
发明内容
提供了创建供语音识别软件应用程序使用的助记法语言模型的方法,其中该方法包括,生成包含大量预先定义的例如字母、数字、符号等的字符的n字母组语言模型,其中n字母组语言模型包括来自大量预先定义的字符的至少一个字符。该方法还包括对该至少一个字符中的每一个构造新的语言模型(LM)标记,响应于预先定义的发音词典并且为该至少一个字符中的每一个提取发音来获取字符发音表示。另外,该方法包括响应于字符发音表示为该至少一个字符中的每一个创建至少一个备选发音来创建备选发音词典,以及编译供语音识别软件应用程序使用的n元语言模型,其中编译语言模型是响应于新的语言模型标记和备选发音词典的。
提供了创建供语音识别软件应用程序使用的助记法语言模型的方法,其中该方法包括,生成含有大量预先定义的字符的n字母组语言模型,其中n字母组语言模型包括来自大量预先定义的字符的至少一个字符。另外,该方法包括响应于预先定义的发音词典为该至少一个字符中的每一个提取发音来获取字符发音表示,以及响应于字符发音表示为该至少一个字符中的每一个创建至少一个备选发音来创建备选发音词典。
提供了执行用于创建供语音识别软件应用程序使用的助记法语言模型的方法的系统,其中该系统包括用于存储该语音识别软件应用程序和至少一个目标软件应用程序的存储设备。该系统还包括用于向系统口头输入数据和命令的输入设备、显示设备,其中显示设备包括用于显示输入的数据的显示屏,以及处理设备。处理设备与存储设备、输入设备和显示设备通信,使得处理设备接收使得语音识别软件应用程序来在显示屏上显示拼写UI并且操作响应于输入命令的输入数据的指令。
提供了机器可读计算机程序代码,其中程序代码包括用于使得处理设备执行创建供语音识别软件应用程序使用的助记法语言模型的方法的指令,其中处理设备和存储设备和显示设备通信,且其中存储设备包括语音识别软件应用程序。该方法包括生成包含大量预先定义的字符的n字母组语言模型,其中n字母组语言模型包括来自大量预先定义的字符的至少一个字符,并且对该至少一个字符中的每一个构造新的语言模型(LM)标记。该方法还包括,响应于预先定义的发音词典为该至少一个字符中的每一个提取发音来获取字符发音表示以及响应于字符发音表示为该至少一个字符中的每一个创建至少一个备选发音来创建备选发音词典。而且,该发明包括,编译供语音识别软件应用程序使用的n字母语言模型,其中编译语言模型是响应于新的语言模型标记和备选发音词典的。
提供了使用机器可读计算机程序代码编码的介质,其中程序代码包括用于使得处理设备执行创建供语音识别软件应用程序使用的助记法语言模型的方法的指令,其中处理设备和存储设备和显示设备通信,且其中存储设备包括语音识别软件应用程序。该方法包括生成包含大量预先定义的字符的的n字母组语言模型,其中n字母组语言模型包括来自大量预先定义的字符中的至少一个字符,并且对该至少一个字符中的每一个构造新的语言模型(LM)标记。该方法还包括,响应于预先定义的发音词典为该至少一个字符中的每一个提取发音来获取字符发音表示以及响应于字符发音表示为该至少一个字符中的每一个创建至少一个备选发音来创建备选发音词典。而且,该发明包括,编译供语音识别软件应用程序使用的n字母组语言模型,其中编译语言模型是响应于新的语言模型标记和备选发音词典的。
当结合附图,附图中同样的元件在若干附图中被以相同的标号标出,本发明的前述和其它特征会通过阅读以下对说明性实施例的详细描述而被更完全地理解,附图中图1是示出一般语音识别系统的框图;图2是根据示例性实施例,示出用于实现用来创建供语音识别软件应用程序使用的助记法语言模型的方法的系统的示意性框图;图3是根据示例性实施例,示出用于创建供语音识别软件应用程序使用的助记法语言模型的方法的框图;以及图4是美式英语发音表。
具体实施例方式
大多数语音识别应用程序使用典型的声学模式和典型的字模式的模型以确定给定声音话语的逐字的副本。这些字模式随后被语音识别应用程序使用,且被共同称为语言模型(LM)。同样地,语言模型表示字序列以及在给定语境中该序列出现的概率。这样,为了在语音识别应用程序中有效,语言模型必须从大量文本训练数据中构造。也应该理解,当被用于使用台式机语音识别软件应用程序改正单词的拼写时,助记法可以被用起很大作用。例如,一种场景可以涉及用户试图不使用助记法来拼写单词,且现在处于语音识别软件应用程序错误识别了传送的字母中的一个(或更多的)情形。使用助记法来重新说出一个字母显著地增加了当重新说出该字母时用户成功的可能性。
参考图1,显示了示出典型的语音识别系统100的框图,该框图包括处理设备102、输入设备104、存储设备106和显示设备108,其中在存储设备106上存储了声学模型110和语言模型112。声学模型110一般包含有助于解码器确定说出的是什么单词的信息。声学模型110通过基于由输入设备104提供的光谱参数假定一连串音位来完成这个任务,其中音位是语言中能够传达意义中区别且一般涉及词典和隐马尔科夫模型的使用的最小的语音单位。例如,声学模型110可以包括单词及其对应的语音发音的字典(词典),其中这些发音包括给定音位序列会在一起出现来构成单词的概率的指示。另外,声学模型110也包括关于独特音位在其它音位的语境中可能出现的似然率的信息。例如,“tri-phone”是使用在左边有一个独特的音位(在前添加)和在右边有另一个独特的音位(在后添加)的语境中的独特音位。这样,声学模型110的内容被处理设备102使用来预测由计算出的光谱参数表示的单词。
另外,语言模型(LM)112指定,单词如何以及以何种频率会在一起出现。例如,n字母组语言模型112估算一个单词会跟随单词序列出现的概率。这些概率值共同构成了n字母组语言模型112。处理设备102随后使用源于n字母组语言模型112的概率来在最佳单词序列假定(使用声学模型110识别的)中选择来获得由光谱参数表示的最有可能的单词或单词序列,其中最有可能的假定可以由显示设备108显示。
如此处所述的本发明是在独立和/或集成的应用程序模块的语境中描述的,这些模块连同使用语音识别应用程序来接收并识别由用户输入的声音命令的通用计算机执行的系统使用。作为面向对象的应用程序,该应用程序模块可以展示客户机程序可以访问来与该应用程序模块通信的标准界面。应用程序模块也可以允许诸如文字处理程序、桌面出版程序和应用程序等的众多不同的客户机程序来在本地地和/或在诸如WAN、LAN和/或基于互联网的媒介的网络上使用该应用程序模块。例如,应用程序模块可以被诸如电子邮件应用程序或Microsoft Word等的任何含有文本字段的应用程序和/或控制器本地地或经由因特网接入点来访问和使用。然而,在描述本发明的各方面之前,在以下描述可以包含本发明并从中获益的合适的计算环境的一个实施例。
参考图2,显示了示出用于实现用来创建供语音识别应用程序使用的助记语言模型112的方法的系统200的框图,该框图包括通用计算机系统200,通用计算机系统200包括处理设备204、系统存储器206、以及系统总线208,其中系统总线208将系统存储器206耦合至处理设备204。系统存储器206可包括只读存储器(ROM)210和随机读取存储器(RAM)212。基本输入/输出系统214(BIOS)包含有助于诸如启动时在通用计算机系统202中元件之间传递信息的基本例程,它通常存储在ROM 210中。通用计算机系统202还包括存储设备216,诸如硬盘驱动器218、磁盘驱动器220(例如,读取或写入可移动磁盘222)以及光盘驱动器224(例如用于读取CD-ROM盘226或者读取或写入其它光学介质)。存储设备216可以通过诸如硬盘驱动器接口230、磁盘驱动器接口232以及光学驱动器接口234的存储设备接口连接至系统总线208。这些驱动器及其相关联的计算机可读介质向通用计算机系统202提供了非易失性存储。尽管上述计算机可读介质的描述参考了硬盘、可移动磁盘和CD-ROM盘,应该理解,可以使用可由计算机系统读取的且适于所需最终目标的其它类型的介质,诸如磁带盒、闪存卡、数字录像盘、贝努利盒式磁带等。
用户可以通过常规输入设备235向通用计算机系统202输入命令和信息,输入设备235包括键盘236、诸如鼠标28的定点设备以及麦克风240,其中麦克风240可以被用于向通用计算机系统202输入诸如语音的声频输入。另外,用户可以通过使用输入笔在书写板242上绘制图形信息来向通过计算机系统202输入诸如绘制或手写的图形信息。通用计算机系统202也可以包括适于所需最终目的的另外的输入设备,诸如操纵杆、游戏垫、圆盘式卫星天线、扫描仪等。麦克风240通过耦合至系统总线208的声频适配器244被连接至处理设备204。而且,其它输入设备一般通过耦合至系统总线208的串行接口246连接至处理设备204,但是也可以由其它接口,诸如并行端口、游戏端口或通用串行总线(USB)连接。
诸如监视器或其它类型显示设备的显示设备247包含显示屏248,显示屏248也通过诸如视频适配器250的接口连接至系统总线208。除了显示屏248,通用计算机系统202一般也可以包括其它外围输出设备,诸如扬声器和/打印机。通用计算机系统202可使用至一个或多个远程计算即系统252的逻辑连接在网络化环境下操作。远程计算机系统252可以是服务器、路由器、对等设备或其它常见网络节点,且可以包括上文相对于通用计算机系统202描述的许多或所有元件,尽管在图2中只示出远程存储器存储设备254。图2中所示逻辑连接包括局域网(LAN)256和广域网(WAN)258。这样的网络环境在办公室、企业范围计算机网络、内联网和因特网中是常见的。
当在LAN网络环境中使用时,通用计算机系统202通过网络接口260连接至局域网256。当在WAN网络环境中使用时,通用计算机系统202通常包括调制解调器262或用于通过诸如因特网等WAN258建立通信的其它装置。调制解调器262可以是内置或外置的,它可以通过串行端口接口246连接至系统总线208。在网络化环境中,相对于通用计算机系统202所描述的程序模块或其部分可以存储在远程存储器存储设备254中。应该理解,所示的网络连接是示例性的,且可以使用在计算机之间建立通信链路的其它手段。也应该理解,应用程序模块可以等效地在除了通用计算机系统之外的主机或服务器计算机系统上执行,且可以等效地通过除了CD-ROM之外的装置被传输至主机计算机系统,例如,通过网络连接接口260。
而且,众多程序模块可以被存储在通用计算机系统202的驱动器和RAM 212中。程序模块控制通用计算机系统202如何作用以及同用户、I/O设备或其它计算机交互。程序模块包括例程、操作系统264、目标应用程序模块266、数据结构、浏览器和其它软件或固件组件。本发明的方法可以被包含在应用程序模块中,且应用程序模块可以方便地在诸如基于此处描述的方法的语音引擎纠正模块270的一个或多个程序模块中执行。目标应用程序模块226可以包括与本发明结合使用的多个应用程序,其中某些在图3中示出。这些程序模块中的某些程序模块的目的及其之间的交互将在描述图3的文字中更完全地讨论。这些程序模块包括含有文本字段的任何应用程序和/或控制器,例如电子邮件应用程序、文字处理软件程序(诸如由华盛顿,雷德蒙的微软公司生产的Microsoft Word)、手写识别程序模块、语音引擎纠正模块270以及输入方法编辑器(IME)。
应该理解,没有描述用于执行在详细描述中描述的多个过程的特定编程语言,因为认为,在附图中描述和示出的操作、步骤以及过程是充分揭示的,来允许本领域的普通技术人员来实现本发明的示例性的实施例。而且,存在可用于实现示例性实施例的众多计算机和操作系统,从而不可能提供适用于所有这些众多不同的系统的详细计算机程序。特定计算机的每一用户将意识到对该用户的需求和目的最有用的语言和工具。
参考图3,显示了示出用于创建供使用图2的通用计算机系统202的语音识别软件应用程序使用的助记法语言模型的方法300的框图,其中通用计算机系统202包括与输入设备235通信的处理设备204、存储设备216以及显示设备247,其中显示设备247包括如图2所示的显示屏248。如上所述,输入设备235可以是适于所需最终目的的任何设备,诸如麦克风。而且,语音识别软件应用程序可以被存储在存储设备216上以允许处理设备204来访问该语音识别软件应用程序。而且,诸如Microsoft Windows的至少一个目标软件应用程序266,可以被存储在存储设备216上以允许用户通过传输至处理设备204的指令执行该目标软件应用程序。
如在操作性框302中所示,方法300包括为大量预先定义的字符和/或字符串中的每一字符和/或字符串生成n字母组语言模型112。如前简要所述,这会给跟随其它字符的特定字符的出现分配概率。例如,考虑在单词“era”中字母“a”在字符串“er”之后的出现。生成n字母组语言模型112会引起将概率P(a|e,r)分配给该出现。换言之,概率P(a|e,r)可以表示在字母序列“er”之后该出现的可能性。应该理解,n字母组语言模型112可以以公众标准APRA格式编写为一文件,可以是大小写敏感的,以允许将概率分配给大写字母和小写字母。如操作性框304所示,方法300还包括为大量预先定义的字符和/或字符串中的每一字符和/或字符串构造新的语言模型标记。例如,考虑字符“a”,其中已经存在语言模型标记。新的语言模型标记“a-AsIn”被构造来供助记法拼写使用,而老的语言模型标记“a”保持供字符拼写使用。这虑及在维持性能且不增加语言模型的大小的同时,为常规拼写技术和助记拼写技术构造n字母组语言模型112。
如在操作性框306中所示,方法300还包括,响应于语音识别软件应用程序的预先定义的发音词典,为每一字符和/或字符串提取发音来创建字符发音表示的备选发音词典。例如,再次考虑字符“a”,其中以“a”打头的单词的发音是从用于台式机口授的语音识别软件应用程序的发音词典中提取的。使用该词典,单词“ARON”被发现含有如图4所示的“ae r ax n”字符发音表示。对预先定义发音词典中的每一字符和/或字符串,可以通过使用其新的语言模型标记在前添加每一字符以及通过在后添加长时间的静止“sil”来创建备选的发音。例如,考虑新的语言模型标记“a AsIn”和单词“ARON”。给定上述关系,发音可以备选地表示为“ey AA1 ey ae z ih n ae r ax n sil”,其中“ey AA1 ey ae z ih n”是“a AsIn”的在前添加的发音,“ae r ax n”是“ARON”的发音,而“sil”是在后添加的长时间静止。另外,以类似的方式对待大写字母。例如,考虑短语“ARON中的大写的a”。给定上述关系,发音可以备选地表示为“kae pih tax ley AA1 ey ae z ih n ae r ax nsil”,其中“k ae p ih t ax l”是capital(大写)的发音,“ey AA1 ey ae z ih n”是“a AsIn”的在前添加发音,“ae r ax n”是“ARON”的发音,而“sil”是在后添加的长时间静止。
如在操作性框310中所示,用于大型词汇识别器的n字母组语言模型可以随后使用标准编译器编译,其中对编译器的输入包括在操作性框302中构造的n字母组语言模型(ARPA格式)以及在操作性框304和操作性框306中构造的发音词典(对每一字母编码不同发音变化)。应该理解,n字母组语言模型112可以使用适合于所需最终产品的任何编译设备编译,诸如及时(JIT)编译器。
应该理解,方法300促进了基于给用户使用含有多于120,000个助记法的语言模型的能力的语音语言模型的三字母组的创建。这可以通过对用户可以说出120,000个单词中的一个的事实编码,编码单词的发音以及编码一个单词在给定两个先前单词的语境中出现的三字母组概率来完成。例如,给定短语“this is”,下一个用户所说的单词可以是单词“near”或“kneel”,然后因为在英语中短语“thisis near”比“this is kneel”远更常见,所以选择单词“kneel”。以类似的方式,对拼写语言模型,术语“单词”实际指的是字符,其中字符包括26个小写字母,26个大写字母,数字和符号。这样,此处所揭示的方法300使用平均每个字母5000个发音(Salmon中的S=S、Sugar中的S=S、Salamander中的S=S...),且事实上,在120,000个单词口授模型中的每个单词被用作为可能的助记。每一助记为每一字母或发音被分配一不同的权重,某些被给出比其它助记更重的权重。例如,助记短语“Tom中的T”相比“tertiary中的T”给出了更重的权重,由于助记短语“Tom中的T”有更经常被使用的概率。另外,助记序列也具有概率,例如Donkey中的“D”在Fun中的“F”之后出现的可能性小于Donkey中的“D”在Sun中的“S”之后出现的可能性。这些概率可以特地生成,或者它们可以从调查采样的简单助记法列表中获得。也应该理解,此处揭示的方法300供系统200用来“学习”额外的字符和/或字符串。而且,尽管方法300在此处关于美式英语音位来揭示并讨论,但是方法300可以使用任何语言,诸如汉语、俄语、西班牙语以及法语的音位来使用。
根据示例性实施例,可以由响应机器可读计算机程序操作的控制器完全或部分地执行图3的处理。为了执行指定的功能和所需的处理,以及计算(例如,执行控制算法、此处指定的控制处理等),因此控制器可以包括,但不限于,处理器、计算机、内存、存储器、寄存器、定时、中断、通信接口以及输入/输出信号接口,以及包含前述中至少一个的结合。
而且,本发明可以具体化为被执行处理的计算机或控制器的形式。本发明也可以具体化为包含具体化为诸如软盘、CD-ROM、硬盘驱动器和/或其它计算机可读介质的有形介质的指令的计算机程序代码的形式,其中当计算机程序代码被装载至计算机或控制器并由其执行时,计算机或控制器成为实现本发明的装置。本发明也可以具体化为例如,存储在存储介质中、装载至和/或由计算机或控制器执行、或者再诸如电线或电缆、光导纤维、或者电磁辐射的某些传输介质上传输的计算机程序代码形式,其中当计算机程序代码被装载至计算机或控制器并由其执行时,计算机和控制器成为实现本发明的装置。当在通用微处理器上执行时,计算机程序代码段可以配置该微处理器来创建专用集成电路。
尽管本发明是关于示例性实施例描述的,本领域的技术人员可以理解,可以进行多种修改、省略和/或添加,且其中的元素可以由等价物替代,而不背离本发明的精神和范围。另外,可以进行众多的修改来使特定的情景或材料适应本发明的原理,而不背离其范围。从而,本发明旨在不限于作为预期为执行本发明的最佳模式所揭示的特定实施例,而是,本发明可以包括落入所附权利要求范围的所有实施例。而且,除非特别声明,术语第一、第二等的使用不表示任何顺序或重要性,而是术语第一、第二等被用于将一个元素同另一个元素区分。
权利要求
1.一种用于创建供语音识别软件应用程序使用的助记法语言模型的方法,所述方法包括生成包含大量预先定义的字符的n字母组语言模型,其中,所述n字母组语言模型包括来自所述大量预先定义的字符中的至少一个字符;对所述至少一个字符中的每一个构造一新的语言模型(LM)标记;响应于预先定义的发音词典为所述至少一个字符中的每一个提取发音来获取字符发音表示;响应于所述字符发音表示为所述至少一个字符中的每一个创建至少一个备选发音来创建备选发音词典;以及编译供语音识别软件应用程序使用的所述n字母组语言模型,其中,所述编译所述语言模型是响应于所述新的语言模型标记和所述备选发音词典的。
2.如权利要求1所述的方法,其特征在于,所述大量预先定义的字符包括小写字母、大写字母、数字和预先定义的图形字符中的至少一个。
3.如权利要求2所述的方法,其特征在于,所述大量预先定义的字符、所述预先定义的发音词典和所述备选发音词典中的至少一个是响应于英语语言的。
4.如权利要求1所述的方法,其特征在于,所述构造包括响应于所述至少一个字符中的所述每一个的助记拼写对所述至少一个字符中的每一个构造新的语言模型标记。
5.如权利要求1所述的方法,其特征在于,所述创建包括向所述字符发音表示在前添加所述新的语言模型标记以及在后添加长时间的静止“sil”来形成所述备选发音。
6.如权利要求1所述的方法,其特征在于,如果所述至少一个字符是大写字符,则所述创建还包括向所述新的语言模型在前添加“k ae p in t ax l”。
7.如权利要求1所述的方法,其特征在于,所述编译n字母组语言模型是使用标准编译工具来编译的。
8.如权利要求7所述的方法,其特征在于,所述标准编译工具是及时(JIT)编译工具。
9.如权利要求1所述的方法,其特征在于,所述n字母组语言模型是使用预先定义的格式生成的。
10.如权利要求1所述的方法,其特征在于,所述预先定义的格式是ARPA格式。
11.一种用于创建供语音识别软件应用程序使用的助记法语言模型的方法,所述方法包括生成包含大量预先定义的字符的n字母组语言模型,其中,所述n字母组语言模型包括来自所述大量预先定义的字符中的至少一个字符;响应于预先定义的发音词典为所述至少一个字符中的每一个提取发音来获取字符发音表示;以及响应于所述字符发音表示为所述至少一个字符中的每一个创建至少一个备选发音来创建备选发音词典。
12.如权利要求11所述的方法,其特征在于,所述生成还包括响应于所述至少一个字符中所述的每一个的助记拼写对所述至少一个字符中的每一个构造新的语言模型(LM)标记。
13.如权利要求11所述的方法,其特征在于,所述大量预先定义的字符包括小写字母、大写字母、数字和预先定义的图形字符中的至少一个。
14.如权利要求11所述的方法,其特征在于,所述大量预先定义的字符的、所述预先定义的发音词典和所述备选发音词典中的至少一个是响应于英语语言的。
15.如权利要求11所述的方法,其特征在于,所述创建还包括向所述字符发音在前添加所述新的语言模型标记以及在后添加长时间的静止“sil”来形成所述备选发音;以及编译供语音识别软件应用程序使用的所述n字母组语言模型,其中,所述编译所述n字母组语言模型是响应于所述新的语言模型标记和所述备选发音词典的。
16.如权利要求15所述的方法,其特征在于,如果所述至少一个字符是大写字符,则所述创建还包括向所述新的语言模型在前添加“k ae p in t axl”。
17.如权利要求11所述的方法,其特征在于,还包括使用标准编译工具来编译所述n字母组语言模型。
18.如权利要求11所述的方法,其特征在于,所述标准编译工具是及时(JIT)编译工具。
19.如权利要求11所述的方法,其特征在于,所述n字母组语言模型示是使用预先定义的格式生成的。
20.如权利要求11所述的方法,其特征在于,所述预先定义的格式是ARPA格式。
21.一种实现用于创建供语音识别软件应用程序使用的助记法语言模型的方法的系统,所述系统包括存储设备,用于存储所述语音识别软件应用程序和至少一个目标软件应用程序;输入设备,用于向系统口头输入数据和命令;显示设备,其中,所述显示设备包括用于显示所输入的数据的显示屏;以及处理设备,其中,所述处理设备与所述存储设备、所述输入设备和所述显示设备通信,使得所述处理设备接收使语音识别软件应用程序在显示屏上显示输入的数据并且响应于所输入的命令操纵所输入的数据的指令。
22.如权利要求21所述的系统,其特征在于,还包括声学模型软件模块和语言模型软件模块,其中,所述声学模型软件模块和所述语言模型软件模块部署在所述存储设备上。
23.如权利要求21所述的系统,其特征在于,还包括编译器,其中,所述编译器是能够编译ARPA格式的标准编译工具。
24.如权利要求21所述的系统,其特征在于,所述存储设备是光学介质设备和磁性介质设备、内部存储设备、外部存储设备、可移动存储设备和不可移动存储设备中的至少一种。
25.如权利要求21所述的系统,其特征在于,所述输入设备是麦克风。
26.如权利要求21所述的系统,其特征在于,所述显示设备是CRT、LCD和等离子显示设备中的至少一种。
27.一种机器可读计算机程序代码,所述程序代码包括使处理设备实现用于创建供语音识别软件应用程序使用的助记法语言模型的方法,其中,所述处理设备与存储设备和显示设备通信,且其中,所述存储设备包括语音识别软件应用程序,所述方法包括生成包含大量预先定义的字符的n字母组语言模型,其中,所述n字母组语言模型包括来自所述大量预先定义的字符中的至少一个字符;对所述至少一个字符中的每一个构造新的语言模型(LM)标记;响应于预先定义的发音词典为所述至少一个字符中的每一个提取发音来获取字符发音表示;响应于所述字符发音表示为所述至少一个字符中的每一个创建至少一个备选发音来创建备选发音词典;以及编译供语音识别软件应用程序使用的所述n字母组语言模型,其中,所述编译所述语言模型是响应于所述新的语言模型标记和所述备选发音词典的。
28.一种使用机器可读计算机程序代码编码的介质,所述程序代码包括使处理设备实现用于创建供语音识别软件应用程序使用的助记法语言模型的方法,其中,所述处理设备与存储设备和显示设备通信,且其中,所述存储设备包括语音识别软件应用程序,所述方法包括生成包含大量预先定义的字符的n字母组语言模型,其中,所述n字母组语言模型包括来自所述大量预先定义的字符中的至少一个字符;对所述至少一个字符中的每一个构造新的语言模型(LM)标记;响应于预先定义的发音词典为所述至少一个字符中的每一个提取发音来获取字符发音表示;响应于所述字符发音表示为所述至少一个字符中的每一个创建至少一个备选发音来创建备选发音词典;以及编译供语音识别软件应用程序使用的所述n字母组语言模型,其中,所述编译所述语言模型是响应于所述新的语言模型标记和所述备选发音词典的。
全文摘要
用于创建供语音识别软件应用程序使用的助记法语言模型的系统和方法,其中该方法包括,生成包含大量预先定义的字符的n字母组语言模型(其中n字母组语言模型包括来自该大量预先定义的字符中的至少一个字符),对该至少一个字符中的每一个构造新的语言模型(LM)标记,响应于预先定义的发音词典为该至少一个字符中的每一个提取发音来获取字符发音表示,响应于该字符发音表示为该至少一个字符中的每一个创建至少一个备选发音来创建备选发音词典,以及编译该供语音识别软件应用程序使用的n字母组语言模型(其中编译语言模型是响应于新的语言模型标记和备选发音词典的)。
文档编号G10L15/00GK1779783SQ200510118600
公开日2006年5月31日 申请日期2005年10月26日 优先权日2004年11月24日
发明者C·I·切尔巴, R·L·查姆伯斯, D·莫厄特, 吴强 申请人:微软公司