专利名称:语音识别中的统计语言建模的方法
技术领域:
本发明涉及一种语音识别中的统计语言建模的方法。
背景技术:
可以将语音识别定义为将语音波形转变为文本字符串例如以英语表达的句子的过程。
可以将语音识别过程分为三个主要阶段前端阶段、声学建模阶段、以及语言建模阶段。在前端阶段中,针对特征对“未处理过”的语音信号进行频谱分析,并且将其转换为一系列的数字编码的特征矢量。在声学建模阶段中,使用关于声学环境、性别和方言差异、以及语音学的知识来研究特征矢量的顺序以便提取音素序列(例如,简单的元音或辅音)。在语言建模阶段中,使用以下知识将音素序列转换为相应的词序列什么构成可能的词,什么词可能发生,并且采取什么顺序。
尽管近年来的进步,但是人们相信语音识别系统并没有达到人类所具有的复杂程度的水平。特别是,语言与变化的声学环境相结合而具有的复杂性和精致性对实现真正的像人一样的语音识别系统提出了巨大的挑战。例如,语音识别系统必须应对词汇和语法的复杂性、口语的变化、以及不同重音和讲话风格的声学不确定性。因此,为了减小复杂性和限制不确定性,语音识别系统可以基于小规模的特定领域的应用,例如航班/旅行信息系统(ATIS)或电话簿信息系统。
为了构造高质量的语音识别系统,可能需要大量的具有各种语言现象的域数据以便指导系统的语音分析,并且允许决定适当的动作。例如,人们认为支持大约2000字的中等特定领域的语音识别系统可能需要收集20000个“域内”的句子以便构造合适的语言练习模型。针对这种系统的数据采集可能是单调乏味的、费时的、昂贵的,并且可能忽略语音的重要方面,如讲话风格和习惯用法。此外,如果所收集的域内句子的数量小于所需要的数量,则可能引起“数据稀疏”的问题,其中系统缺乏足够的数据从而充分地包括在该领域中所使用的各种可能的用语。因此,训练语音识别系统以支持新的应用领域由于可能需要收集的数据的数量而可能需要大量的时间和努力。
可能存在各种技术用来合成用于语音会话系统的数据。如参考Hunt,A.和Black,A.在Proc of ICASSP-96(1996),Atlanta,GA.上的文章“Unit Selection in a concatenative speech synthesis system using a largespeech database”,可以通过首先建立目标规范(其中确定与节律特征一起合成语音所需的音素串),然后从用于连接的数据库选择适当的语音单元,来合成语音。如参考Weng,F.L.、Stolcke,A.、和Cohen,M.在M.Rayner等人(编辑)的Spoken Language Translator CambridgeUniversity Press(2000)281上的“Language Modeling for MultilingualSpeech Translation”,可以利用先存在的语法来产生可以插入有少量域内数据例如几千个句子的短语块(即,完整或部分的语音发声)。如参考Brown,P.F.等人在Association for Computational Linguistics 18(4)(1992)467-479页上的“Class-Based n-gram Models of NaturalLanguage”,可以通过基于词分类的n-gram模型解决在简单的上下文中从先前的词预测词的问题。该n-gram模型可以利用统计算法来将词指定给以它们与其他词同时出现的频率为基础的类。所述词的分类可以用于语言模型以便提供大范围的应用,如语音识别和语法修改。人们认为通过这种方法产生用于新领域的数据是不容易获得的,因为低阶的n-gram不可能含有足够的长信息,而高阶的n-gram模型可能需要大量的训练数据,这是不可能获得的或是不可行的。
发明内容
本发明的典型实施例和/或典型方法可以通过现有领域的数据、语言知识、以及统计技术构造新领域的数据来减少或消除语音识别系统的数据采集要求。人们认为可以将人类会话中的大量语言现象从一个语音应用领域转化为另一个语音应用领域,从而以很小的努力或几乎不用费力就能使针对一个语音应用领域研究的数据适应于另一个语音应用领域。在这点上,本发明可以使用许多通常可获得的资源来产生新数据,例如宾夕法尼亚大学语言数据协会(LDC)的PennTreebank中的交换机数据,或诸如WordNet的在线词汇参考系统。
与其他数据采集技术相反,本发明的示例性方法可以不需要预先存在的特定领域的语法以产生用于新领域的数据,因为许多与新领域有关的语法限制被认为在现有领域中是固有的。因此,可以只要求用于新领域的词汇。在这点上,现有领域的特定领域数据的大小可以是合理的,例如20000个句子,从而其可以用作产生用于新领域的数据的起始基础。
本发明的典型实施例和/或典型方法也可以利用语言和统计措施以合成数据,例如包括在词一级上工作以产生用于新领域的句子集的语言和统计措施。在这点上,可以不要求目标规范,除了用于新领域的词汇和概念映射表。
本发明的典型实施例和/或典型方法也可以依赖于相邻词或短语之间的统计关系,例如包括与局部和全局排列统计一起使用语言不变量以便在合成的数据中提供局部和全局的自然性。
本发明的示例性实施例和/或示例性方法可以产生用于各种应用领域的数据,这些领域例如包括汽车导航系统、饭店和餐馆信息系统、手持器件、以及移动电话。本发明的示例性实施例和/或示例性方法也可以减少将新应用加入到口语对话系统中的时间,从而新用户无论在驾驶、步行、飞行等时候,都可以从口语对话系统中受益。
本发明的示例性实施例涉及一种用于为语音识别系统产生语言模型数据的系统,该系统具有用语提取器,用于使用语言知识库来从用于现有领域的特定领域数据提取用语;概念结构映射器,用于使用用于新领域的词汇将所提取的用语映射成新领域中的用语;连接模块,利用通用领域数据连接所提取的用语;以及过滤装置,用于在至少一个所映射的和连接的用语中识别和滤掉不实际的用语。
本发明的另一示例性实施例涉及所述系统,其中将该系统构造成在不没有预先存在的特定领域语法的情况下产生语言模型。
本发明的又一典型实施例涉及所述系统,其中所提取的用语包括领域-不变的用语。
本发明的另一典型实施例涉及所述系统,其中所提取的用语包括至少一个惯用语、时间、空间、以及金钱用语中的至少一个。
本发明的又一典型实施例涉及所述系统,其中所提取的用语包括组合的时间和空间的用语。
本发明的另一典型实施例涉及所述系统,其中所述语言知识库包括词汇参考源。
本发明的又一典型实施例涉及所述系统,其中词汇参考源包括词典。
本发明的另一典型实施例涉及所述系统,其中词典包括电子词典。
本发明的又一典型实施例涉及所述系统,其中通过数据网络可获得电子词典。
本发明的另一典型实施例涉及所述系统,其中数据网络包括因特网。
本发明的又一典型实施例涉及所述系统,其中概念结构映射器包括特定领域词对映射表,用于使现有领域中的至少一个词与新领域中的至少一个词相关。
本发明的典型方法涉及为语音识别系统产生语言模型数据,该方法包括使用语言知识库来从用于现有领域的特定领域数据中提取用语;使用用于新领域的词汇将所提取的用语映射成新领域中的用语;使用通用领域数据连接所提取的用语;并且滤掉至少一个所映射的和连接的用语。
本发明的另一典型方法涉及产生语言模型数据,其中映射所提取的用语的步骤包括建立特定领域词对映射表以识别和使现有领域中的至少一个词与新领域中的至少一个词相关。
本发明的又一典型方法涉及产生语言模型数据,其中映射所提取的用语的步骤包括对所提取的用语进行相邻词排列验证测试以验证所提取的用语的自然性。
本发明的另一典型方法涉及产生语言模型数据,其中连接的步骤包括进行所连接的用语的统计搭配测量以确保相邻词和相邻短语中的至少一个的平滑性,并且链接高搭配的对以形成新领域的候选句子。
本发明的又一典型方法涉及产生语言模型数据,其中过滤的步骤包括进行候选句子的用语的附加统计搭配测量,并且除去搭配值低于预定值的候选句子。
本发明的另一典型方法涉及产生语言模型数据,其中新领域包括导航系统、饭店信息系统、以及餐馆信息系统中的至少一个。
本发明的又一典型方法涉及产生语言模型数据,其中导航系统包括汽车导航系统。
本发明的另一典型方法涉及产生语言模型数据,其中导航系统包括手持装置。
本发明的又一典型方法涉及产生语言模型数据,其中手持装置包括移动电话。
本发明的典型实施例和/或典型方法涉及一种具有驻留在其中的指令集的存储介质,利用处理器可执行指令集以实现用于执行一系列操作的方法,包括使用语言知识库来从用于现有领域的特定领域数据中提取用语,使用用于新领域的词汇将所提取的用语映射成新领域中的用语,使用通用领域数据连接所提取的用语,以及滤掉至少一个所映射的和连接的用语。
图1示出用于使用语言学知识的基础以及用于新领域的词汇而使为一个应用领域研究的数据集适合于在新的应用领域中使用的示例性系统;图2示出用于使为一个应用领域研究的数据集适合于在新的应用领域中使用的示例性方法;图3示出用于提取用语的示例性方法;图4示出用于提取wh型用语的示例性方法;
图5示出用于从目标句子的子集中提取wh型用语的示例性方法;图6示出用于提取用于时间、日期、以及地点的连续用语的示例性方法;图7示出用于从短语内定义的标记集而不是从短语外定义的标记集中提取具有标有标记的词的短语的示例性方法;图8示出用于提取短语的示例性方法;图9示出用于将现有领域的用语映射为新领域中的相应用语的示例性方法;图10示出用于利用可选择的、可接受的、以及不可接受的用语集将现有领域的用语映射到新领域的示例性方法;图11示出有助于将航线交通信息系统(ATIS)的用语映射到汽车导航系统的可选择用语对的示例性表;图12示出从航线交通信息系统(ATIS)和汽车导航系统进行转化的可接受的用语的示例性表;图13示出用于产生搭配统计的示例性方法;图14示出用于连接用语的示例性方法;图15示出过滤用语的示例性方法。
具体实施例方式
本发明的示例性实施例可以包括计算机、微处理器、或其他合适的用来实现或执行这里所述的方法的处理装置。
图1示出用于使用语言学知识的基础以及用于新领域的词汇而使为一个应用领域研究的数据集适合于在新的应用领域中使用的示例性系统100。该示例性系统100包括惯用语提取器101、概念结构映射器102、连接模块103、以及过滤器装置104。惯用语提取器101使用现有领域的特定领域数据151和来自通常可获得的词典以及其他来源的语言知识152来产生具有常规风格的用语。概念结构映射器102使用新领域的词汇154来建立现有领域和新领域之间的特定领域用语的映射。连接模块103使用通用领域数据153和所提取的用语来产生用于新领域的用语155。过滤器装置104除去不实际的用语。
图2示出用于使为一个应用领域研究的数据集适合于在新的应用领域中使用的示例性方法100。该示例性方法100包括提取阶段S21、概念映射阶段S22和/或连接阶段S23、以及过滤阶段S24。在提取阶段S21中,使用语言知识库提取具有常规风格的语言用语以得到领域-不变的用语。在概念映射阶段S22中,获得目标领域中的新结构。在连接阶段S23中,从可获得的数据来源拼合目标领域中的新句型。在过滤阶段S24中,从新领域中除去被认为是不合适或不希望的用语组合。下面将更加充分地说明阶段S21-S24中的每一个。
在提取阶段S21中,使用语言知识库,如由朗文出版集团出版的朗文当代英语词典(LDOCE)或WordNet-由教授George Miller和他在普林斯顿大学的同事提供的公开资源(参见Congitive Science group下的普林斯顿大学网页),从现有的特定领域数据集中提取具有常规风格的语言用语。特别是,可以提取三种用语惯用的、时间的、和/或空间的用语。惯用语是那些独特的或具有特殊语言特征的用语,并且例如可以包括句子开头的用语(例如,“我喜欢”或“请告诉我”)、句子结尾的用语(例如,“你理解么?”或“行么”),以及谈话标志例如,“现在”或“但是”)。时间用语是那些传达时间的一个方面例如日期或一天的时间的用语(例如,“2003年1月14日,星期一”或“在下午3点钟之前”)。空间用语是那些关于空间尺度的一个方面例如涉及地理位置或地点的用语(例如,“在加利福尼亚的PaloAlta”)。时间和空间类型的用语可以一起提取是因为提取目标是这两种类型的组合从而可以取得更自然的提取用语。
惯用的、时间的、以及空间的用语倾向于是领域不变的-也就是说,对于具体的应用领域不是特定的,而在任何领域都可以发现。因此,一旦提取,惯用的、时间的、以及空间的用语可以用作用于句子合成或连接的基础单元。除了惯用的、时间的、以及空间的用语之外,还可以提取其他的领域不变的用语,例如钱的用语以及用于人和组织的适当名字。
在概念映射阶段S22中,将现有应用领域的特定领域用语映射为新应用领域中的相应词汇。特别是,可以建立特定领域词对映射表以识别和使现有领域中表达相似概念的一个或多个词相关作为新领域中的一个或多个相应词。例如,用于空中交通信息系统(ATIS)应用领域的词“飞行”可以表达与用于汽车导航系统应用领域的词“驾驶”相似的概念,或者用于电视节目预告应用领域的词“浏览”可以表达与用于电话簿辅助应用领域的词“查询”相似的概念。
特定领域词对映射表可以包括用于许多“头”词,即,关键名词、动词、或其他语音部分的映射,通过通常可获得的词典,如朗文当代英语词典或WordNet,与它们的相应参数结构一起从现有领域提取所述“头”词。
概念映射阶段S22可以进一步包括相邻词搭配测试,例如相互信息测试、似然比测试、或x2测试,这可以测定在普通日常会话中两个词作为一对出现的频率。这些测试产生词搭配统计测量结果,其可以用于证实所产生的数据的“自然性”。特别是,高的搭配统计测量结果表示在“现实”会话中这些对经常一起使用,而低的搭配统计测量结果表示这些对很少一起使用或几乎不一起使用。相应地,只有当取得用于证实的某个测量结果的时候,该映射才被认为是成功的。
在决定具体词对是否是自然的时候,相邻词搭配验证测试可以确定与其他只具有这两个词中的一个或这两个词都不具有的词对相比,这两个词一起出现的频率。例如,如果希望知道一个具体的词对,比如说(w1、w2),在具体的数据集中是否是自然的,可以针对以下四种可能出现的情况进行统计测量(w1、w2)、(w1、~w2)、(~w1、w2)、以及(~w1、~w2),其中(w1、w2)表示词作为一对一起出现,(w1、~w2)表示w1与不是w2的任何词一起出现,(~w1、w2)表示不是w1的任何词与w2一起出现,(~w1、~w2)表示不是w1的任何词与不是w2的任何词一起出现。一旦产生针对上述四种可能出现的情况的统计结果,将最终的x2分数与某一阈值进行比较。如果x2分数高于阈值,则词对(w1、w2)被认为是自然的,否则词对(w1、w2)被认为是不自然的。
作为概念映射阶段S22的替代或补充,连接阶段S23可以进行以确保所提取的用语的合适的“平滑性”。连接阶段可以在两个水平上实施,包括局部水平连接和全局水平连接。在局部水平上,统计搭配测量用来确保每一对相邻词/短语的平滑性。在全局水平上,将有效对链接在一起以形成候选句子。
当测量两个短语的平滑性时,相应的短语头用于搭配。为了识别短语头,可以使用关键词检出技术。关键词检出技术使用提示来识别短语是否属于特殊的语义范畴,以及哪个词是用于那个短语的头。例如,词“街道”可以是用于街道名短语的语义范畴的提示,以及街道名短语(例如,主要街道)的头词,词“城市”可以是城市名短语的语义范畴的提示,以及城市名短语(例如,纽约城)的头词,并且词“到”可以是目的短语的语义范畴的提示。
可以从非特定领域数据中,例如从Penn Treebank数据集中的华尔街日报中获得相邻词对统计,并且可以被认为是与领域无关的。对于头对统计也同样如此。
在过滤阶段S24中,可以将被认为在新领域不可能出现的不实际的用语或用语组合滤掉以确保不过度产生所获得的数据。由说本国语的人或通过自动程序指定不实际的方式。在自动程序中,将词的句子转变为一序列的语义范畴,在前两个阶段中的副产品。给出主要动作或动词,以及该序列的语义范畴,可以测定在任何通用语言资料库中出现的频率。
图3示出用于提取用语的示例性方法300。在步骤S31中,提取wh型用语,例如包括诸如“谁”、“什么”、“什么地方”、“什么时候”、“为什么”、“哪几个”、“哪一个”、以及“无论什么”等用语。在步骤S32中,提取时间、日期、以及地点用语。特别是,只提取“连续的”或“纯的”(也就是说,不包括其他类型的用语)时间、日期、以及地点用语。在步骤S33中,例如通过在商业上可获得的标记应用来提取动词、名词、形容词、副词、限定词、以及其他开集元素。
图4示出用于提取wh型用语的示例性方法400。在步骤S41中,现有领域(A)的句子标有短语标记以形成现有领域的标记句子集(ST_A)。在步骤S42中,在标记句子集(ST_A)中搜索以话语标记语为开头且包括wh型词的句子以形成具有话语标记语和wh型词的现有领域的标记句子的子集(Sdw_A)。在步骤S43中,从具有话语标记语和wh型词的现有领域的标记句子的子集(Sdw_A)中的每一个句子获得wh型用语以形成wh型短语集(Swhp)。
图5示出用于从具有话语标记语和wh型词的现有领域的标记句子的子集(Sdw_A)中的每一个句子获得wh型用语的示例性方法500。在步骤S51中,检查当前标记句子的第二位置上的词以察看是否将其标记例如以表示该词属于特殊的标记词的集合,如前置词、连接词、限定词等的集合。如果当前位置上的词被标记,则在步骤S52中将从第一位置开始到当前位置的词序列加入到成wh型短语集(Swhp),否则在步骤S53中检查下一个位置。对具有话语标记和wh型词的现有领域的标记句子的子集(Sdw_A)中的每一个句子执行示例性方法500。
图6示出用于提取用于时间、日期、以及地点的连续用语的示例性方法600。在步骤S61中,确定与构造时间、日期、和/或地点短语有关的词和标记的集合,并且集体确定为“短语内”标记集。这些词例如可以包括当地时间、一段几天或几晚的时间段、日期、星期、月、月运周期、地理位置或地点、或者它们的任意组合的用语,以及连接这些词的前置词和/或连接词。在步骤S62中,通过例如应用特定名词、代词、动词、助动词等或它们的任意组合来产生特定应用领域词汇。在步骤S63中,确定通常被认为可能与表达时间、日期、和位置无关的词和标记的集合,并且集体确定为“短语外”集。在步骤S64中,从短语内标记集而不是从短语外标记集中提取具有标有标记的词的短语。
图7示出用于从短语内标记集而不是从短语外标记集中提取具有标有标记的词的短语的示例性方法700。在步骤S71和S72中,将b-短语设置为关,并且从第一个位置到最后一个位置依次检查句子的词。如果当前所检查的词标有短语外标记集中的标记,则在步骤S73中除去终止用语,否则如果当前所检查的词标有短语内标记集中的标记,则在步骤S74中将b-短语标志设置为开,否则如果b-短语标志为开,则在步骤S75中连接该短语。
图8示出用于提取短语用语的示例性方法800。在步骤S81和S83中,针对包含在短语内用语的集合中的词从结束位置开始向第一个位置反序依次检查输入的用语。如果在短语内用语的集合中发现了一个词,则在步骤S82中,返回到从第一个词开始到当前词的词序。
图9示出用于将现有领域的用语映射为新领域中的相应用语的示例性方法900。在步骤S91中,产生存在于现有领域中的与存在于新领域中的可选择或可替换的用语相对应的用语的集合。在步骤S92中,产生存在于现有领域中的与存在于新领域中的可接受的用语相对应的用语的集合。在步骤S93中,产生从未存在于新领域中的用语的集合。在步骤S94中,使用上述可选择、可接受、以及不可接受用语的三个新集合以及现有领域的标记句子集(ST_A)来执行从现有领域到新领域的用语映射。
图10示出用于使用上述可选择、可接受、以及不可接受用语的三个新集合以及现有领域的标记句子集(ST_A)将现有领域的用语映射到新领域中的示例性方法1000。在步骤S1001中,针对包含在上述可选择、可接受、以及不可接受用语的三个新集合中的用语检查被标记的句子。如果发现用语包含在可选择用语的集合中,则在步骤S1002中用可选择用语替换该用语。如果发现用语包含在可接受用语的集合中,则在步骤S1003中使该用语不变。如果发现用语包含在不可接受用语的集合中,则除去该句子,否则在步骤S1004中,将句子包含在新领域的标记句子集(ST_B)中。针对现有领域的标记句子集(ST_A)中的每一个句子执行示例性方法1000。
图11示出有助于将航线交通信息系统(ATIS)应用领域的用语映射为汽车导航系统应用领域的用语的可选择用语对的示例性表1100。大写项表示短语标记,而小写项表示用语的实际词。
图12示出对于从航线交通信息系统(ATIS)应用领域到汽车导航系统应用领域的直接转化可接受的用语的示例性表1200。对于直接转化可接受的用语的类型例如包括地点、日期、时间、金钱、wh型、前置词、连接词、助动词、以及限定词用语。
图13示出用于产生搭配统计的示例性方法1300。在步骤S1301中,收集可能用语的所有子集。这些子集例如可以包括以句子开始标记开始并以句子结束标记结束的用语,并且包括wh型所有用语的集合(例如包括所有wh名词、wh动词、以及wh句子)、时间所有用语的集合、地点所有用语的集合、助动词所有用语的集合、连接词所有用语的集合、新领域中所有动词的集合、新领域中所有名词的集合、以及新领域中所有形容词的集合中的项的任意组合。在步骤S1302中,可能用语的子集的每一个实例与子集的每一个其他实例配对以形成用语的所有可能配对。在步骤S1303中,计算可能用语对的每一个实例的搭配值,然后与预定阈值进行比较。如果计算的搭配值大于阈值,则在步骤S1304中,将具体对实例储存在高搭配对的集合中。
图14示出用于连接用语的示例性方法1400,特别地,针对将高搭配对的集合连接成用于新领域的合成句子。在步骤S1401中,储存在高搭配对的集合中的所有用语对将开始用于新领域的句子串,所述高搭配对包括所述对的第一位置(即,所述对的最左边的部分)上的句子开始标记。在步骤S1402中,使每一个句子串重复与其右边部分与句子串的最左边部分匹配的对相连接,直到遇到句子结束标记以完成句子串。在步骤S1403中,将完成的句子串分配给新领域的标记句子集ST_B。可以以递归方式实现从高搭配的用语对构造合成句子的示例性方法1400。
如下为示例性的连接伪编码
图15示出过滤用语的示例性方法1500。在步骤S1501中,检查每一个合成句子以确定动词、名词、时间、日期、以及地点项,如果它们存在的话。在步骤S1502中,针对这些项计算搭配值。例如,针对句子中搭配的动词/名词、动词/时间、动词/日期、动词/地点、名词/时间、名词/日期、以及名词/地点项计算搭配值。在步骤S1503中,除去所计算的搭配值小于预定值的搭配项对。
如下为示例性的过滤伪编码
权利要求
1.一种用于产生用于语音识别系统的语言模型数据的系统,包括用语提取器,用于使用语言知识库从现有领域的特定领域数据中提取用语;概念结构映射器,用于使用新领域的词汇将所提取的用语映射为所述新领域中的用语;连接模块,用于将所提取的用语与通用领域的数据连接;以及过滤装置,用于在所映射和连接的用语中的至少一个中识别和滤掉不实际的用语。
2.如权利要求1所述的系统,其中将所述系统搭配成在没有预先存在的特定领域语法的情况下产生所述语言模型数据。
3.如权利要求1所述的系统,其中所提取的用语包括领域不变的用语。
4.如权利要求1所述的系统,其中所提取的用语包括惯用语、时间、空间、以及金钱用语中的至少一个。
5.如权利要求1所述的系统,其中所提取的用语包括组合的时间和空间用语。
6.如权利要求1所述的系统,其中所述语言知识库包括词汇参考源。
7.如权利要求6所述的系统,其中所述词汇参考源包括词典。
8.如权利要求7所述的系统,其中所述词典包括电子词典。
9.如权利要求8所述的系统,其中所述电子词典可通过数据网络获得。
10.如权利要求9所述的系统,其中所述数据网络包括因特网。
11.如权利要求1所述的系统,其中所述概念结构映射器包括特定领域词对映射表以使所述现有领域中的至少一个词与所述新领域中的至少一个词相关。
12.一种用于产生用于语音识别系统的语言模型数据的方法,包括使用语言知识库从现有领域的特定领域数据中提取用语;使用新领域的词汇将所提取的用语映射为所述新领域中的用语;使用通用领域的数据连接所提取的用语;以及过滤所映射和连接的用语中的至少一个。
13.如权利要求12所述的方法,其中所述映射所提取的用语的步骤包括建立特定领域词对映射表以识别和使所述现有领域中的至少一个词与所述新领域中的至少一个词相关。
14.如权利要求12所述的方法,其中所述映射所提取的用语的步骤包括对所映射的用语进行相邻词搭配验证测试以验证所映射的用语的自然性。
15.如权利要求12所述的方法,其中所述连接的步骤包括进行所连接用语的统计搭配测量以确保相邻词和相邻短语中的至少一个的平滑度并且链接高搭配对以形成用于所述新领域的候选句子。
16.如权利要求15所述的方法,其中所述过滤的步骤包括进行所述候选句子的附加的统计搭配测量并且除去搭配值小于预定值的候选句子。
17.如权利要求12所述的方法,其中所述新领域包括导航系统、饭店信息系统、以及餐馆信息系统中的至少一个。
18.如权利要求17所述的方法,其中所述导航系统包括汽车导航系统。
19.如权利要求17所述的方法,其中所述导航系统包括手持装置。
20.如权利要求19所述的方法,其中所述手持装置包括移动电话。
21.一种具有驻留在其中的指令集的存储介质,利用处理器可执行所述指令集以实现用于执行以下步骤的方法使用语言知识库从现有领域的特定领域数据中提取用语;使用新领域的词汇将所提取的用语映射为所述新领域中的用语;使用通用领域的数据连接所提取的用语;以及过滤所映射和连接的用语中的至少一个。
22.如权利要求21所述的存储介质,其中所述映射所提取的用语的步骤包括建立特定领域词对映射表以识别和使所述现有领域中的至少一个词与所述新领域中的至少一个词相关。
23.如权利要求21所述的存储介质,其中所述映射所提取的用语的步骤包括对所映射的用语进行相邻词搭配验证测试以验证所映射的用语的自然性。
24.如权利要求21所述的存储介质,其中所述连接的步骤包括进行所连接用语的统计搭配测量以确保相邻词和相邻短语中的至少一个的平滑度并且链接高搭配对以形成用于所述新领域的候选句子。
25.如权利要求24所述的存储介质,其中所述过滤的步骤包括进行所述候选句子的附加的统计搭配测量并且除去搭配值小于预定值的候选句子。
26.如权利要求21所述的存储介质,其中所述新领域包括导航系统、饭店信息系统、以及餐馆信息系统中的至少一个。
27.如权利要求26所述的存储介质,其中所述导航系统包括汽车导航系统。
28.如权利要求26所述的存储介质,其中所述导航系统包括手持装置。
29.如权利要求28所述的存储介质,其中所述手持装置包括移动电话。
全文摘要
一种用于产生用于语音识别系统的语言模型数据的系统,包括用语提取器,用于使用语言知识库从现有领域的特定领域数据中提取用语;概念结构映射器,用于使用新领域的词汇将所提取的用语映射为所述新领域中的用语;连接模块,用于将所提取的用语与通用领域的数据连接;以及过滤装置,用于在所映射和连接的用语中识别和滤掉不实际的用语。
文档编号G10L15/00GK1836225SQ200480018687
公开日2006年9月20日 申请日期2004年4月8日 优先权日2003年4月30日
发明者翁富良, 巴德里·拉古纳坦, 豪克·施密特 申请人:罗伯特·博世有限公司