专利名称:利用片段对大列表进行语音识别的制作方法
技术领域:
本发明涉及一种语音识别方法,其经由语音输入从条目列表中选取一个 条目,本发明还涉及一种语音识别系统。
背景技术:
在许多应用中,诸如导航、名称拨号或者音频/视频播放器控制中,需要 从诸如城市名、街道名、固有名称、地址或音乐题目等大量条目的列表中选 取一个条目。为了可以在具有中等容量存储器的处理器资源中进行语音识 别,常常使用一种具有两个步骤的语音识别方法。在第一步中,由语音识别
;漠块识别音素序列(phoneme sequence )或音素串。然而,音素识别的识别 准确率通常是不可接受的,其中会出现很多音素被替换、插入以及删除的情 况。然后,将诸如音素串等已识别的语音输入与可能会很长的按照发音转录 的条目列表进行比较,以确定较短的最佳匹配条目的候选列表。然后,将候 选列表作为新的词汇表提供给语音识别器,以供第二次识别途径使用。由于 对第一步中进行的识别要求不高,而在进行计算繁重的第二步时仅使用了大 条目列表的一个小子集,这个方法节省了计算资源。从WO 2004/077405 A1 中可以了解以上讨论的具有两个步骤的语音识别方法。
然而,在列表非常大的情况下,计算负担仍然非常大。在导航系统具有 语音驱动控件的情况下,会出现驱动器/扬声器说出诸如城市和目的城市的街 道相结合的目的地组合的情况。例如,德国大约存在三百万个城市-街道的 组合。当对这样大的列表执行识别步骤时,上述匹配步骤将需要过多的存储 器和匹配运行时间,从而不能集成在车辆的嵌入式系统中。在其它应用领域 也可能存在这些大列表,例如,当在产品中集成了歌曲的声控选择时选择艺 术家姓名、艺术家的歌曲。
发明内容
于是,存在对从条目列表中选取条目的语音识别方法进行改进的需要,
6从而,进一步最小化计算负担。
独立权利要求的特征满足了此需求。在从属权利要求中,描述了本发明 的优选实施例。
根据本发明的第一个方面,提供了一种经由语音输入从条目列表选取条 目的语音识别方法。此方法包括检测和识别语音输入的步骤。进一步,提供 了列表条目的片段。然后,已识别的语音输入被用来与条目列表进行比较, 以便基于比较结果生成最佳匹配条目的候选列表。根据本发明的一个方面, 通过将已识别的语音输入与列表条目的所述片段进行比较,生成候选列表。 通过将列表条目片段而不是完整的列表条目用于比较步骤,相比将已识别的 语音输入与完整的列表条目进行匹配的匹配过程,计算负担可被降低到最小 程度。在大列表的情况下,在列表条目中可以重复使用各个片段,例如,在
目的地的情况中,在很多列表条目中可能存在片段+street (英语"街道")或 承strasse(德语"街道")。进一步,在列表条目为城市街道组合的情况下,对 于所述城市的每个街道都可能存在城市名。因此,片段列表将比初始列表短 得多。进一步,片段本身也比对应的列表条目更短。这些方面共同使得运行 时性能得到显著提高。
根据一种优选实施例,至少为每个列表条目提供一个片段。进一步,可 以为每个片段加入至少一个通配符。由于分割的原因,片段仅表示列表条目
分。优选地,通配符能够一律匹配任何其它部分。这意味着片段本身将准确 匹配与之相关联的语音输入部分,而(语音输入的)其它任何部分则匹配通 配符。即使在匹配步骤中不能完全避免通配符的影响,也能够最小化其影响。 可以通过计算或者实验测试确定通配符的权重。
当执行列表条目分割时,优选地,片段的列表基本上包含所有不同的列 表条目片段。为了生成最佳匹配条目的候选列表,将已识别的语音输入与包 含所有不同片段的片段列表进行比较。这个完整的片段列表比完整的条目列 表短。当在匹配步骤中使用所述完整的片段列表时,由于许多片段出现在许 多不同的列表条目中,已识别的语音输入是和更短的列表进行比较,所以, 可以最小化计算负担。
在匹配过程的附加步骤中,则可以为每个片段计算分数,在将已识别的 语音输入与所述片段进行比较时,此分数度量已识别的语音输入与片段的适配程度。基于此分数,可以选择列表中的最佳匹配条目。为此,对片段列表 中的每个片段计算出分数,并且,可以通过对组成列表条目的片段的分数进 行加总,为列表条目计算列表条目分数。即使需要计算两个不同的分数时, 从计算的角度来看,为了得到列表条目分数而将各分数简单加总也比将已识 别的语音输入与完整列表条目进行匹配要更不费力。
片段可以伴随着一个或几个通配符,可以在一侧、两侧提供一个或几个 通配符,当然,也可以不提供通配符。当没有通配符时,意味着列表条目非 常短,不能被进一步分割。还可以在片段的不同侧使用不同的通配符,例如, 片段的第 一侧是具有第 一权重的第 一通配符,第二侧则是具有第二权重的第 二通配符。进一步,有可能不可以在片段的两侧同时提供通配符,而仅可以 在片段的一侧提供通配符。这有助于更好地模拟片段在语音输入中出现的位 置。如果确定了仅在一侧提供了通配符,则没有提供通配符的 一侧也得到了 确定。然后,可以确定已识别语音输入的对应一侧,并基于在已识别的语音 输入的所述侧提供的已识别语音输入的一部分执行已识别语音输入与片段
的匹配。例如,A_a*strasse,在城市街道列表条目的情况下,*表示的通配 符通常匹配话语的最右边的部分。仅具有一个通配符的片段的另一个优点在 于,片段与话语的匹配实际上不需要识别完整的话语,而仅需识别适当的一 侧。当考虑仅对已识别语音输入/话语的一侧进行匹配时,也可以进一步加速 匹配过程。这样仅具有一个通配符的边界片段也有助于更准确地模拟列表条 目,这将显著提高识别率。
另外,条目列表中的条目也可以包含通配符。这些通配符有助于模拟以 下这种情况,即用户不仅说出列表条目的名称,同时列表条目被嵌在完整的 句子中的情况(例如,请引导到慕尼黑的Linden大街)。
也可以通过从一侧进行匹配组合以适当的剪枝机制来实现仅对已识别 语音输入的右侧或左侧进行匹配的特征。在一种语音识别方法中,将已识别 的语音输入与列表条目的语音表示进行比较。这样的匹配算法的一种例子是 Levenshtein算法,其计算为了包含另一个串而修改一个串所需要的编辑操作 的最少的次数。在这样的操作期间,可以检测出,相比不需要继续进行计算 的其它片段,对于预先确定的片段,修改或编辑操作的次数已经非常高了。 在语音识别中,用"剪枝"这个表述来称呼此机制。这样的剪枝机制可以应 用于已识别语音输入的其它侧,其中,在片段中存在通配符。
8与在其中片段的 一侧仅匹配已识别语音输出的 一部分的匹配算法相关 的剪枝机制的优点在于,不需要对话语中的切分点进行预先猜测。而不利之 处则在于,使用从左到右以及从右到左匹配的组合来提高性能即使不是不可 能,至少也是很难的。在某种意义上,由于片段的正确顺序的串联不必给出 初始的列表条目,片段也就不必是一对一的。可以以某列表条目的片段相交 迭的方式选取列表条目的片段。进一步,可以以各片段仅覆盖列表条目的一 部分的方式(所谓欠重叠)选取列表条目的片段。进一步,可以是这两种方 式的组合,这意味着一些片段可以与其它片段交迭,然而,同一列表条目的 其它片段不覆盖整个列表条目。进一步,可以完全交迭,这样,列表条目的 所有部分恰好由两个片段覆盖,然而,也可以使用不完全交迭,此时,对于
一个或两个名字或子单元, 一些片段相交迭。
当为了计算列表条目的结果分数而编辑不同片段的分数时,可以计算归 一化的分数,归一化分数被加上,以便计算列表条目的分数。为了能够对不 同的分数进行相互比较,此归一化是必需的。 一种执行归一化的可能情况是 计算中性分数,可通过将单个的通配符符号与识别结果进行匹配来确定此中 性分数。然后,可以从为不同的片段计算得到的所有分数中减去此中性分数。 进一步,可以以将零作为中性分数的方式归一化此片段分数,然后,加上属 于整个列表条目的片段的分数。这样,可以通过加上所述列表条目的片段的 归一化分数来获得每个列表条目的分数。对于列表条目分数的计算,也可以 明确考虑片段的个数和大小。归一化的另一种可能情况是为每个片段确定片 段的具体中性分数。当对不同的语音输入执行了大量的语音识别步骤时,并 且当基于片段的不同语音输入的识别结果时,这是可能的,可以计算不同语 音输入的平均分数作为片段的具体分数。片段的具体分数或者期望分数是具 体片段的分数的随机期望值,能够用于模拟期望分数和观察分数之间的差 异。
在本发明的一种实施例中,分数不取决于片段在列表条目中的位置。然 而,也可以取代每个片段的单个分数,使用片段的基于位置的分数。在使用
这样的基于位置的分数时,"linden-furt"的分数不同于"furt-linden"的分数, 或者,"linden-strasse"的分数不同于"strasse-linden"的分数。
对于片段和各个分数的优化处理,可以树状结构提供片段。此树状结构 可以用于对不同片段的分数进行相加,从而计算列表条目的分数。这可以从如下例子看出。当列表包含条目LindenfUrt和Lindendorf时,LindenfUrt的分 数对应于片段Lin的分数加上片段den的分数加上片段flirt的分数,也对应 于Linden的分数和furt的分数。对于Lindenfurt和Lindendorf的分数的计算, 已经计算出了 Linden的分数,从而当使用树状结构时,可以避免一个相加 的步骤。
此基于片段的匹配可以结合在本申请的引言部分所提到的两步识别步 骤一起使用。这意味着基于列表条目的片段确定的最佳匹配条目的候选列表 可以作为额外的识别步骤的基础。在此第二步中,可以通过将候选列表中列
出的条目的语音或声学表示与声学输入进行匹配来确定列表中的最可能的 条目。可以通过根据计算得到的分数对列表条目进行分类来生成候选列表, 具有n个最佳分数的n个最佳列表条目构建了所述候选列表。
除了此基于片段的匹配,为了生成候选列表,还可以将已识别语音输入 与完整的列表条目中的一些条目进行匹配。例如,当对某个片段计算出好的 分数时,在生成最佳匹配条目的候选列表之前,也将包含所述片段的列表条 目与已识别的语音输入进行匹配将是有利的。这种情况下,仅对列表中的一 些条目而不是对列表中的所有条目执行完全匹配,从而,相比将已识别语音 输入与列表的全部条目进行比较的情况,计算负担更小。
以下是两步骤匹配的一种可能的实施例在第一步中,利用开放音素环 执行语音输入的识别步骤。然后,利用片段列表将已识别语音输入与列表条 目进行匹配。作为第三步骤,执行完全匹配步骤,其中,将已识别语音输入 与整个列表条目进行比较。此步骤可以进一步缩短可能的匹配结果的列表。 在第四步中,可执行实际的语音识别。
在本发明一种实施例中,可以基于子单元级别,例如,音素级别,将列 表条目分割成片段。当列表条目包括城市名和街道名的组合时,至少在城市 和街道之间进行分割将是有利的。然而,可以理解,可以进一步分割城市名 和街道名。此分割也有助于降低存储数据时的存储器需求。
本发明进一步涉及一种语音识别系统,其用于经由语音输入从包含数据 库的条目列表中选取条目,其中,所述数据库包括条目列表和片段列表,如 以上所解释,每个片段至少表示列表条目的一部分。语音识别模块识别语音 输入,并将已识别语音输入与条目列表进行比较,从而基于比较结果生成最 佳匹配条目的候选列表。根据本发明一个方面,为了生成候选列表,语音识别模块将已识别语音与片段列表进行比较。此语音识别系统按照以上详细解 释的方式进行工作。
本发明进一步涉及一种计算机程序产品,其包括指令,当计算机系统的 处理器执行此指令时,该计算机程序产品执行以上详细解释的方法。
本发明的这些和其它潜在的目标、特征以及有益效果将从本发明实施例 的如下描述和例子中更加充分地表现出来。然而,可以理解,本发明的范围 不限于附图中所示的任何实施例,附图中,
图1示意性示出一种语音识别系统,该系统使用基于片段的方法; 图2示出流程图,其为基于片段的识别方法的主要步骤; 图3阐明另一个流程图,其包括基于片段的语音识别方法的一些步骤的 详细一见图;以及
图4示出片段的树状结构的例子。
具体实施例方式
在图1中,示出了一种语音识别系统,其使用基于片段的方法从大的条 目列表中选取条目。图1所示的系统能够用于车辆目标位置的语音驱动选择, 用于选择媒体文件库的媒体文件,以及用于选择地址簿中的个人姓名等。此 系统可用于车辆环境中,然而,所示的系统也可在非车辆环境中作为独立单 元进行使用。该语音识别系统包括语音识别才莫块10,该语音识别模块10接 收来自用户11的语音输入。语音识别模块10结合着数据库12 —起使用, 数据库12包括条目列表13。条目列表可包括诸如一个国家甚至或几个国家 等预定地理区域的城市街道组合。在所示实施例中,列表13包括不同的条 目14。在所示实施例中,列表条目14是城市A和诸如雄f道B的地址的组合。 例^口,歹寸表条目可为^口下这才羊FrankfUrt Lindenstrasse或者Ulm Olgastrasse M U nchen Wetterstei叩latz等。除了初始的列表条目以外,可以提供第二列表 15,列表15包括来自列表13的列表条目14的不同片段。优选地,在列表 15中为所有列表条目提供片段。分割列表条目,因为,对于足够大的列表, 就运行时间而言,匹配片段比匹配全部列表条目要明显省时。可以在音素级 别或一些其它子单词级别执行分割。关于在哪里分割哪些列表条目的分割决定可基于预期的识别率、存储需求以及运行时性能。在所示实施例中,在城 市街道组合的情况下,在大多数情况下至少在城市和街道之间进行分割是有
利的,可以减少存储数据时对存储器的需求。对于上例,分割可如下所示
FrankfUrt Lindenstrasse => Frank|furt|Linden|strasse Ulm Olgastrasse => Ulm|01ga|strasse Miinchen Wettersteinplatz => Mtin|chen|"Wetter|stein|platz Hamburg Steinstrasse =〉 Ham|burg|Stein|strasse
在此列表中,为了将条目与语音输入ll的已识别音素串进行比较,通 常以按发音转录的条目的形式存储这些条目。为便于阐述,示出了这些列表 条目的正确拼法。从以上提到的例子可以看出,之前不相连的列表条目现在 具有共同的片段"stmsse"和"stein"。列表越大,效果越显著。结果,独特 的或者不同的片段的列表变得比初始列表更短。进一步地,片段本身也比完 整的列表条目更短。这两个方面有助于优化和加速选取大列表中的条目时的 语音识别。从图中可看出,列表15中的片段伴随着用标记*表示的通配符。 在此列表中,片段a的左侧有通配符,而另一个片段b的通配符在右侧。进 一步地,可以在两侧同时提供通配符。对于非常短的列表条目,可得知片段
对应于列表条目,从而不提供通配符。在上述例子中,可提供类似*3&3336或
者*olga*等片段。所使用的通配符不必具有相同的属性。例如,可以在左 侧和右侧使用不同的通配符,类似^lgaS,表示两个通配符的权重不同。
当语音识别模块10已经执行了用于识别语音输入的第一识别步骤时, 例如,使用开放音素环或者一些其它子单词单元,为了确定最佳匹配片段, 将已识别语音输入与片段15的列表进行比较。然后,基于片段匹配来计算 最佳匹配列表条目的候选列表。此最佳匹配列表条目的列表对应于候选列表 20。在此较短的候选列表中,可将最佳的M个匹配条目显示给用户,以进 行进一步选取。然而,此候选列表也可以与具有两个步骤的语音识别方法结 合使用,其中,另一个识别步骤是对短列表进行的。在另外的识别步骤中, 通过将候选列表中列出的条目的语音声学表示与声学输入进行匹配并确定 最佳匹配条目,来确定在列表中对于同一语音输入的最可能的条目。相比第 一步,第二步需要更多的计算能力。为了减少计算时间,列表20中的列表
12条目的数目比列表13中列表条目的数目显著减少。例如,列表条目的大列
表13可包括几十万或几百万个列表条目。最佳匹配条目的第二候选列表20 要短得多,例如,其具有几百个或几千个条目。然后,可以对这样的短候选 列表20执行第二识别步骤。可以在显示器30上显示此第二步骤的最佳匹配 结果。可以理解,第二匹配步骤不是必需的。也可以仅执行一个匹配步骤。 图2所示的流程图示出了语音识别方法的主要步骤。此方法从步骤41 开始。在步骤42中,识别语音输入ll。此处,语音识别^t块识别音素序列 或音素串。 一旦生成此语音输入的音素序列,则必须提供片段15的列表(步 骤43)。此片段列表也可以是已经存储在系统中的预先确定的列表。在列表 条目变化的情况下,也可以在执行匹配步骤之前生成片段列表。在步骤44 中执行已识别音素串与片段列表的匹配。为了确定已识别音素串与已匹配片 段的对应情况如何,可以为列表15的每个片段确定分数(步骤45)。当知道 不同片段的分数时,就可以在步骤46中确定列表条目的分数。可以知道整 个列表条目通过哪些片段进行连接。于是,为了确定此列表条目的分数,可 以将形成此列表条目的不同片段的分数简单相加。根据此分数,在列表47 中确定最佳匹配条目的候选列表。然后,可以将候选列表用于附加匹配步骤, 或者,将最佳匹配条目示于用户,以便进一步选择或确认。然而,此第二步 骤可从现有技术得知,此处不再进一步详细解释。此实施例中,方法在步骤 48处结束。
图3中,进一步详细示出了此方法。结合图2解释在步骤43中提供了 这些片段之后,在步骤51中询问片段是否伴随着通配符。如果伴随着通配 符,则在步骤52中确定通配符在哪一侧。在片段是边界片段的情况下,为 了更好地模拟片段位置以及模拟其在话语中能够出现的位置,不在各个片段 的两侧同时提供通配符是更有利的。例如,在列表条目包含城市-街道对的 情况下,片段"*strasse"通常能够匹配话语的最右部分。相应地,在步骤 53中,确定初始语音输入中的对应侧。结果,当提供*片段的组合时,将较 少考虑到或者完全不会考虑到相应的已识别语音输入的左侧部分,然而,当 此组合是片段*时,仅第一部分,即表示已识别语音输入的左侧部分将用于 匹酉己。jt匕夕卜,例i口, i口果有类4以于strassenhausen和olgastrasse的列表条目 时,可以对类似+strasse和strasse+的同一个片賴 使用不同的变量。这可以得 到更好的打分。当仅考虑已识别语音输入的一侧时,匹配过程更加迅速。这种仅对话语的右侧和左侧部分进行的匹配,可通过结合适当的剪枝机制从右 侧开始的匹配来完成。这样做的优点在于不需要预先猜测话语中的切分点。 而不利之处则在于使用从左到右以及从右到左匹配的组合即使不是不可能, 至少也是很难的。如果没有在片段中检测到通配符,则此方法直接将已识别的语音输入与此片段进行比较(步骤54)。根据本发明的一个方面,执行分割时不需要使以正确顺序连接的片段一 定能产生初始列表条目。片段可以交迭,或者它们可以仅覆盖列表条目的一 部分。然而,可以利用交迭的片段执行匹配步骤。这种交迭甚至能提高匹配的准确率。对于步骤54中的比较步骤,可以使用上下文敏感的Levenshtein 距离或者一些其它适合的匹配算法。如本领域技术人员已知的那样, Levenshtein算法计算将一个字串修改为另 一个字串所需要的编辑操作的最 少次数。对此进行计算的最常见的方法是通过使用矩阵的动态规划(programming)方法。在此矩阵中,可以看到将第一字串改变为第二字串 所需要的编辑操作。在加权算法的情况下,将一个字符改变为另一个字符的 代价不是固定的。在当前的例子中,此代价取决于上下文。然而,可以理解, 也可以使用任何其它匹配算法。当已识别语音输入与片段匹配时,对每个片 段得到一个分数。为了更好的比较不同的分数,可以对分数进行归一化(normalise),例如,可以将零作为中性分数。然后可以加上属于整个列表 条目的所有片段的分数。为了计算列表条目的分数,也可以明确考虑片段的 个数和大小。在一种实施例中,可通过将单个的通配符符号与识别结果进行 匹配来计算中性分数。然后从所有片段的分数中减去此中性分数,从而获得 归一化分数。进一步,可以使用具体片段的中性分数,此具体片段的分数取 决于各个片段。这种情况下,例如,希望使用片段的期望分数,并希望能模 拟期望分数和观察分数之间的差异。对于通过将片段与各种各样不同的语音 输入进行匹配所获得的分数而言,此期望分数可以是随机期望值。对于每个 语音输入,此片段具有具体的分数。 一个片段的所有具体分数的平均值则是 具体片段的分数。相应地,在步骤55中计算了各个片段的分数,并且在步 骤56中对分数进行了归一化之后,可以在步骤57中最终计算不同列表条目 的分数,但并不限于在步骤57中计算该分数。在图4中示出了怎样获取片段的有效组织的实施例。在图4所示的实施 例中,示出了 Lindenweg、 Lindenstrasse、 Lindenfurt、 Lindendorf这四个不同的列表条目。在存储和计算分数时,可以使用树状结构,以便于高效存储整个列表。列表条目具有如下片段Lin|den|fUrt、 Lin|den|dorf、 Lin|den|strasse、 Lin|den|weg。那么,LindenfUrt的分数可以是片段Lin的分数加上片段den 的分数加上片段flirt的分数,对应于片段Linden的分数加上片段fbrt的分数。 如图4所示,片段61 "Lin"具有第一分数sl,片段"den"具有第二分数 s2,等等。为了计算四个不同条目的分数,lin和den的分数仅需要相加一次, 从而在确定四个不同的列表条目的分数时,仅需执行五次加法操作。也可以 取代每个片段的单个分数s,使用片段的基于位置的分数。这意味着片段A 加上片段B的分数并不等同于片段B加上片段A的分数。当基于片段的分数已知时,整个列表条目的分数也就已知了,并且可以 基于这些分数对列表分类,来计算最佳匹配条目的列表。总而言之,从以上描述可见,使用基于片段而不是基于整个列表条目的 语音识别方法,有助于优化计算能力,以及优化发现正确选择的列表条目所 需要的时间。
权利要求
1.一种经由语音输入从条目列表中选取条目的语音识别方法,所述方法包括如下步骤检测语音输入,识别语音输入,提供列表条目的片段,将已识别语音输入与条目列表进行比较,以基于比较结果生成最佳匹配条目的候选列表,其中,为了生成所述候选列表,将已识别语音输入与所述条目的所述片段进行比较。
2. 根据权利要求1所述的方法,其中为列表中的每个条目提供至少一个 片段。
3. 根据权利要求1所述的方法,其中所述片段至少伴随着一个通配符, 该通配符表示在列表条目的片段中没有考虑的列表条目部分。
4. 根据权利要求1所述的方法,其中提供了基本上包含列表条目的所有 不同片段的片段列表,其中,为了生成候选列表,将已识别语音输入与片段 列表进行比较。
5. 根据权利要求1所述的方法,其中,当将已识别语音输入与片段进行 比较时,计算片段的分数,该分数衡量已识别语音输入与一个片段的适配程 度如何。
6. 根据权利要求4或5所述的方法,其中,为片段列表中的每个片段计 算分数。
7. 根据权利要求5所述的方法,其中,通过将构建所述列表条目的片段 的分数相加,计算出一个列表条目的分数。
8. 根据权利要求3所述的方法,其中,将通配符添加到片段的一侧,添 加到片段的另一侧,或者,添加到片段的两侧。
9. 根据权利要求3所述的方法,其中,选取通配符时使得此通配符基本 上一律匹配任何已识别的语音输入。
10. 根据权利要求3所述的方法,其中,片段伴随着不同的通配符,当 将已识别语音输入与片段进行比较时,每个通配符具有不同的权重。
11. 根据权利要求3所述的方法,其中,当仅在片段的一侧提供通配符 时,则确定出没有提供通配符的一侧,其中,确定已识别语音输入的对应一 侧,其中,基于在已识别的语音输入的所述对应侧提供的已识别语音输入的 一部分,来执行已识别语音输入与片段的匹配。
12. 根据权利要求3所述的方法,其中,当仅在片段的一侧提供通配符 时,则确定出识别语音输入的对应侧,其中,将剪枝机制作用于已识别语音 输入的另一侧。
13. 根据权利要求5所述的方法,其中,对将已识别语音输入与片段列 表进行匹配时计算出的分数进行归一化,为计算每个列表条目的分数而加上 经归一化的分数。
14. 根据权利要求5所述的方法,其中,通过将所述至少一个通配符与 已识别语音输入进行匹配来计算中性分数,从为不同的片段计算出的所有分 数中减去该中性分数。
15. 根据权利要求1所述的方法,其中,以树状结构提供这些片段。
16. 根据权利要求15所述的方法,其中,基于片段的树状结构对构建列 表条目的不同片段的分数进行相加。
17. 根据权利要求5所述的方法,其中,为片段计算基于位置的分数, 其中,片段的分数取决于片段在列表条目中的位置。
18. 根据权利要求1所述的方法,其中,基于列表条目的片段确定的最 佳匹配条目的候选列表被作为识别步骤的基础。
19. 根据权利要求1所述的方法,其中,列表条目包括如下信息中的至 少一种个人姓名、地址、城市名称、街道名称、兴趣点、歌曲名。
20. 根据权利要求1所述的方法,其中,通过根据计算出的分数对列表 条目进行分类,来生成最佳匹配条目的列表,用具有最佳分数的n个列表条 目构建候选列表。
21. 根据权利要求1所述的方法,其中,为了将已识别语音输入与列表 条目的片段进行匹配,使用了上下文敏感Levenshtein算法。
22. 根据权利要求14所述的方法,其中,为了计算中性分数,则计算具 体片段的中性分数,基于所述具体片段的分数计算列表条目的分数。
23. 根据权利要求1所述的方法,其中,进一步将已识别语音输入与全 部列表条目中的至少一些条目进行比较,以生成候选列表。
24. 根据权利要求1所述的方法,其中,将列表条目分割成片段的操作 是在子单词单元级上执行的。
25. 根据权利要求1所述的方法,其中,列表条目包括城市名称和街道 名称的组合,并且至少在城市名称和街道名称之间执行片段分割。
26. 根据权利要求1所述的方法,其中,选取列表条目的片段,以使得 一个列表条目的各片段相交迭。
27. 根据权利要求1所述的方法,其中选取列表条目的片段,以使得这 些片段仅覆盖列表条目的一部分。
28. 根据权利要求1所述的方法,其中,将列表条目与通配符存储在一 起,通配符考虑了这样的事实,即,用户从所述条目列表中选取一个条目时 所说的话语中包含的不止列表条目本身。
29. —种语音识别系统,其用于经由语音输入从条目列表中选取条目, 该语音识别系统包括数据库,其包括条目列表和片段列表,每个片段表示一个列表条目的一部分,语音识别模块,其识别语音输入,并将已识别语音输入与条目列表进行 比较,从而基于比较结果生成最佳匹配条目的候选列表,其中,为了生成所 述候选列表,语音识别模块将已识别语音输入与所述片段列表进行比较。
30. 根据权利要求29所述的语音识别系统,其中,所述语音识别系统根 据权利要求1到28的任何一个中所述的方法进行工作。
31. —种包含指令的计算机程序产品,该指令在被计算机系统的处理器 执行时,使得该计算机程序产品执行权利要求1到28的任何一个中所述的 方法。
全文摘要
一种经由语音输入从条目列表中选取条目的语音识别方法,该方法包括如下步骤检测语音输入,识别语音输入,提供列表条目的片段,将已识别语音输入与条目列表进行比较,以基于比较结果生成最佳匹配条目的候选列表,其中,为了生成所述候选列表,将已识别语音输入与所述条目的所述片段进行比较。
文档编号G10L15/18GK101515457SQ200910002539
公开日2009年8月26日 申请日期2009年1月16日 优先权日2008年1月16日
发明者马库斯·施瓦茨 申请人:哈曼贝克自动系统股份有限公司