专利名称:使用拒绝参考的语音拨号的制作方法
技术领域:
本发明涉及自动语音识别(ASR),并且特别是,涉及使用ASR的语音拨号。
技术背景ASR技术使得安装有麦克风的计算设备能够解译语音并因而提供一种常 规人机输入设备例如键盘或电话小键盘的备选方案。例如,很多电信设备安装 有免提语音拨号功能以启动电信^i舌。通过ASR技术启动这种语音拨号功能以 检测诸如CALL命令,以及HOME或OFFICE名签的离散语音的出现。此外, 用户可以皿说出像DIAL的命令刺tffl ASR使能的语音拨号以启动电话呼 叫,所述命令之后为组成完整电话号码的多个数字。但是利用这种离散数字拨号,ASR系统通常在识别出用户对^数字的发 音之后立即重复每个单独的数字。尽管这种方式在高噪声环境中可能是可靠的, 但它需要足够多的时间来输入冗长的数字字符串。此外,当数字发音没有被正 确识别时,这种单独的数字验证过程会使用户变得不耐烦。这是因为当用户停 下来要说如CLEAR命令、重复没有识别的数字、然后在重新开始其余的数字 之前倾听系统验证时,用户可能会忘记随后要说的数字。为了解决这种不方便性, 一些ASR使能的语音拨号系统允许用户通31说 出在任何长度的预定多数字字符串组中的冗长电话号码来发起呼叫, 一次一句, 其间可以暂停。例如,用户可以通过说出1-3-1-3<暂停><如果需要的话等待验 证和修正>6-6-7<暂停><如果需要的话等待验证和修正>8-8-8-8(或8-8 8-8)来拨 出电话号码1-313-667-8888。但是,这些可变长度的拨号方案也有问题。例如,这些语音拨号系统通常 需要用户一次仅仅说出一个数字字符串并且需要用户在说出任何后续字符串之 前修正这个字符串。换句话说,这种系统不允许用户以一种习惯的,自然的方 式来说出电话号码。例如,如果用户说出了包含第一正确识别的字符串的多个 数字字符串,然后是没有正确识别的字符串,和后续正确识别的字符串时,用户可能不得不清除所识别的整个号码并从头开始。事实上,这些系统不允许用 户输入多个字符串以及然后倒退并跳过正确识别的字符串去修正没有正确识别 的字符串。发明内容根据本发明的一个方面,提供了一种语音拨号方法,包含以下步骤(a) 从用户接收发音;(b) 确定对于该发音的识别结果; (C)将所述识别结果传达给用户;(d) 从用户接收所传达的识别结果是否是不正确的指示;(e) 如果不正确,则利用该不正确的识别结果填充(populate)拒绝参考 (rejection reference ) j该语音拨号方法还包括以下一个或多个附加步骤 ①提示用户替代不正确的识别结果;(g) 从用户接收修正发音以替代该不正确的识别结果;(h) 确定对于修正发音的修正识别结果; 比l^f述修正的识别结果和所述拒绝参考;以及 (j)将没有被拒绝参考阻止的修正识别结果传达给用户。
本发明的tt^实施例将在下文中结合附图M行描述,其中相同的标记指示相 同的部件,并且其中图1是用来实施语音拨号的典型方法的远程信息处理系统的例子的方框图;图2是可被^A到图1中的远程信息处理系统中并可被用来执1 i吾音拨号的典型方法的示例ASR结构的方框图;图3是使用图1和图2中的远程信息处理系统禾卩ASR结构执行的典型语音拨号 方法的实施方式的表格;图4是使用图1和图2中的远程信息处理系统和ASR结构执纟于的典型语音拨号 方法的另一实施方式的表格;图5A和5B是利用图1和图2中的远程信息处理系统和ASR结构执行的典型语音拨号方法的另一实 式的表格。
具体实施方式
图1示出了典型的操作环境,该操作环境可以被用来实施现有公开的使用拒绝参考来提高识别正确率的语音拨号方法。该方法可以ffiil使用任何合适的ASR 和/或远程信息处理系统,特别是,结合如系统100的车载远程信息处理系统来 实施。本领域技术人员应该理解的是,系统100的整体结构、粒、操作和各 个独立部件通常在本领域中是众所周知的。因而,下面的系统简单地描述了一 个这种示例性远程信息处理系统,但是这里没有示出的其他系统和部件也可以 支持现在所公开的方法。典型远程信息处理系统100包含携带一个或多个车辆占有者(occupant) 或用户的机动车102,以及用于将无线通信提供给ffi 102以及提供来自 102的无线通信的无线通信系统104。并且,该系统100可以包括第二通信系统 106,用于使无线通信系统104与系统100的呼叫中心108通信,其向车辆102 提供服务。此外,系统100可以包含与车辆102和/或呼叫中心108通信的web 月艮务器109,用于向那里提供因特剛艮务。最后,该系统100可以包含和糊 102通信并向其提供维修服务的糊服务中心111 。系统100通常向 占有者提供一个或多个合适棚艮务,例如糊导航、 转弯路口行驶方向(tum-by-tum driving direction)、电话、信息娱乐片、紧急服 务、,诊断、CT系统更新和自动语音识别。为了这个目的,系统100M 和指令,以及鹏在ffi 102中的硬件和远程呼叫中心108中的硬件之间 的无线语音和数据传输。例如,系统100可以使得 占有者能够启动与呼叫 中心108劍艮务中心111的语音通信。并且,为了各种各样的目的,例如传输 和/或接收诸如更新的语音消息、电子邮件、新闻、因特网网页内容之类的 , 系统100育,实现在车辆102和web月艮务器109之间的电子通信。机动车机动车102在所述的实施例中被描述成客车,并可以理解的是,在不脱离 本发明范围的情况下可以使用任何其他车辆,包括摩托车、海船、航行器、娱 乐 和其他汽车,如货车、卡车等。各禾中电子模块可以被安装在车辆102上, 并且包括一个或多个车辆系统模i央(VSM)llO、车载(on-board)车辆通信总线U2、和ffl31总线112连接到VSM110的一个或多个车辆远程信息处理单元114。 VSMVSM110提供诸如糊诊断、监控、控制、报告、和/或其他功能之类的任何适合的车载功能。例如,vsMiio可以被用来控制发动t;u喿作、监控和配置气囊或其他安全设备,禾口/ 51各种车辆传 诊断 系统。VSMU0广泛地代表了任何软件、电子、机电子系统,相关的传感器或与远程信息处理单元114相互作用的其他 部件。在一个待定的例子中,如果呼叫中心108向, 102发送信号以打开车门,则远程信息处理单元114命令机电门锁VSM打开车 门。^!S通信总线 通信总线112在例如VSM110和/或远程信息处理单元114之类的各禾中 车辆系统中提供交互作用,并且使用任何适合的有线或无线的网络通信配置。 在总线112和各种车辆系统之间可以插入适合的接口。这里使用的术语接口泛 指任何合适形式的电子设备或适配器,或甚至是软件模块或适配器,以使得设 备的一部分能够与设备的另一部分通信或控制设备的另一部分。总线的一些示 例包括控制器区域网斷CAN),面对媒体的系统传输(MOST),本地互相连接网 ^(LIN),以太网(10baseT,100baseT),局域网(LAN), ISO标准9141,用于高速 应用的ISO标准11898,用于低鹏用的ISO标准11519,用于高速和更低鹏 用的SAE标准J1850,禾口/或无线区域网络。 远程信息处理单元 远程信息处理单元114提供在车辆102或其车辆占有者与各种远程位 置(其包括呼叫中心108、 web月艮务器109禾口/劍艮务中心111)之间的通信和其 他服务。远程信息处理单元114 ffi31车辆通信总线112与各种VSM110对接。 远程信息处理单元114可以以任何合适的配置实施,但是可以包含处理器116, 和用于通过一个或多个天线120与车辆102无线通信的通信设备118,用于存储 计^t几程序124的存储器122,禾口/或一个或多个繊库126,以及用户接口 128。 远程信息处理单元114也包括用于在前述设备之间互相通信的一个(或多个) 任何合适接口。尽管在图1中表示为单独的模块,但本领域技术人员应当理解的是远程信 息处理单元114的很多部件可以被集成在一起,或与其他车辆系统集成和/或共享。例如,存储器122可以被结合到处理器116中或位于远程信息处理单元114的外部并与一个或多个其他车辆系统(例如车辆中央处理单元)共享。尽管VSM110被示出与远程信息处理单元114分离,但将这些VSM110的任何组合 集成到远程信息处理单元114内是可能的。此外,远程信息处理单元114可以 包括这里没有示出的附加部件,或省略一些这里示出的部件。 远程信息处理处理器远程信息处理处理器116可以以对于本领域技术人员来说己知的任何不同 的方式来实现,如控制器、微处理器、微控制器、主处理器、车辆通信处理器, 特定用途集成电路(ASIC)的形式或任何其他合适的处理M型。可替换地,处 理器116还可以与执行普通计算机功能的中央处理单元(未示出)结合来工作。处 理器116可以与其他合适的设备和/或模决(未示出)相关联,例如实时时钟设 备以提供精确日期和时间信息,禾tV或与定时器模块相关联以足跟宗时间间隔。处理器116运行存储在存储器122中的一个或多个禾Mi^ 124来实施各种功 能,例如系乡鹏控,数据处理,使远程信息处理单元114与VSM110、 占 有者和远程位置通信。例如,处理器116运行一个或多个控制程序并处理禾聘 禾口/或数据来单独或结合呼叫中心108实现使用拒绝参考的语音拨号方法。在另 一个例子中,处理器116控制、产生和接受在远程信息处理单元114和呼叫中 心108之间以及在远程信息处理单元114和连接到不同VSM110的^fi通信总 线112之间传送的信号。在一种模式中,这些信号可以用来激活VSM110的程 序和操作模式。远程信息处理存储器远程信息处理存储器122可以是任何电子存储设备,其为处理器116所{柳 的数据和禾MiW供计算机可读存储。存储器122可以包含诸如RAM, NVRAM, 鹏,闪存和/或类似物之类的易失的,和/或不易失的存储器,并且可以作为一 个或多个分离的物理设备来实现。程序124包含由处理器116按指令运行的一 个或多个计穀几程序以来实施远程信息处理单元114的各种功能,例如消息接 发、诊断、通信、语音识另诉口/或各种相似的功能。例如,驻留在存储器122中 并且由处理器116执行的程序124可以被用来实现使用拒绝参考的语音拨号方 法。数据库126可以用来存储短消息数据,诊断问题码数据或其他诊断数据, ^Sf^上载(VDU)记录,事件激活表,语音识别数据,禾口/或其它相似的 。数据库126作为数据库表来实现,其能够对 库126中所存储的数据进行查 瓶并且这可以j柳已知的索引技术、 库询问、对这些表的直接顺序搜索、 和/或其他任何合适的存储和查询技术来完成。 远程信息处理通信设备远程信息处理通信设备118和相关联的天线120向无线通信系统104发送 语音和数据以及从无线通信系统104中接收语音和娜,以便远程信息处理单 元114可以例如通过第二通信系统106与呼叫中心108通信。通信设备118通 过蜂窝、卫星和/或其他无线路径提供这种无线通信并且可以提供语音和数据通 信以及语音上数据(data-over-voice)的通信,其中语音和数据信号都可以在语音信 道上被发送和接收。本领域技术人员将意识到,通信设备118可以M51应用任 何合适类型的编码或调制以利用结合在蜂窝芯片组中的声码器或语音编解码器 转换用于通信的数字数据,来在语音信道上发送和接收数据。可以使用提供可 接受的数据率和比特误差率的任何合适编码或调制技术。通信设备118可以包括任何合适模块,包含卫星接收机以及软件,禾口/或诸 如无线调制解调器和/或^A式蜂窝电话之类的蜂窝通fW^件以及硬件。蜂窝电 话可以是模拟的、数字的、双模的、双带的、多模的和/或多带的,并可以包含 单独的处理器和存储器。此外,蜂窝电话可以使用诸如先进蜂窝电话系统 (AMPS)、码分多址(CDMA)、时分多址(TDMA)、 ^J求移动通信系统(GSM)之类 的任何合适的蜂窝技术,但也可以利用私有的或其他无线技术来与无线通信系 统104进4fM信。尽管示为单独的部件,通信设备118或其中的部分可以^OT 微处理器116 fflil软件来实现;例如,用于无线蜂窝通信的调制解调器可以以 这种方式来实现。通信设备118也可以包括拥有通信和信号处理软件及设备的,定位系统 (GPS)模块,其可以从远程信息处理单元114中分离出来或与远程信息处理单元 114集成。例如,这样的GPS模块从无线通信系统104接收位置和时间信息并 且传送相应的纬度和经度信息到远程信息处理单元114以使得远程信息处理单 元114育,处理、存储和发送位置信息来执行诸如导航、行驶方向和紧急服务 之类的服务。通信设备118可以进一步包括拥有信号处理软件和设备的卫星通信模块, 其可以从远程信息处理单元114中分离出来或与远程信息处理单元114集成。例如,卫星通信模块从卫星服务提供者的一个或多个同步卫星中M—个或多个信道接收卫星无线电广播信号,并产生相应的音频和/或数据输出。除了音乐和娱乐、交通信息、道路建设信息、广告、新闻和当地事fH言息外,卫星广播 还可以包括消息。由卫星通信模块接收到的卫星无线电广播信号可以作为目标 信息信号被监控,并且当该目标信息被检测到时,目标消息和相关信息可以从 广播信号中提取出来。 远程信息M用户接口远程信息处理用户接口 128包含一个或多个输入和输出接口用以从远程信息处理的用户处接收输入以及向远程信息处理用户发送输出。这里的术语用户 包括远程信息处理服务订户,包含司机和乘客的车辆占有者等等。并且,这里 的术语用户接口泛指任何合适形式的电子设备或适配器、或甚至软件模块或适 配器,其使得车辆占有者与设备的另一部分通信或控制设备的另一部分。用户接口 128可以包括分布在ffi各处的独立部件,禾n/或可以被集成为例如人机接口(HM),信息娱乐中心等等的单个单元。信息娱乐中心可以接收和存储诸如音 乐、网页、电影、电视节目、影视游戏之类的内容的下载,所述内容用于现在 重放或延迟重放。输入接口可以包括一个或多个触觉设备130, 一个或多,克风132,或 其他任何形式的输入技术。首先,触觉输入设备130使得车辆占有者激活远程 信息M单元114的一个或多个功能,并可以包括一个或多个按钮开关、小键 盘、键盘或位于ffi 102中车辆占有者可角 地方的其他合适的输入设备。例 如,触觉输入设备130可以用来启动与例如呼叫中心108或蜂窝电话之类的远 程位置的通信,禾口/鹏动糊更新、诊断等。第二,麦克风132允许糊占有 者向远程信息处理单元114提供语音输入,并且MM信设备118肯,与不同 的远程位置进fiH吾音通信。车辆占有者的语音输入可以使用合适的模拟到数字 接口禾口/或例如在麦克风132和处理器116之间的声卡(未示出)的数字信号处理 器和存储在存储器122中的声音和语音识别禾骄来解译。输出接口可以包括一个或多个扬声器134,诸如液晶或等离子屏新未示出) 之类的可视化显示设备,或任何其他类型的输出技术。扬声器134使得远程信 息处理单元114 f^l多传送听得见的语音、信号、音频文件等等给乘客,并且可 以是 音频系统的一部分或远程信息处理单元114专用的单独部件。合适的接口例如声卡(未示出)可以被插入在扬声器134和远程信息处理处理器116之间。一个或多个ilj言系统通信系统104, 106可以被单独地实施或可以被组合成完整系统。并且, 利用一些合适的设备,呼叫中心108、 web月艮务器109和/劍艮务中心111可以 直接无线地与无线通信系统104通信而不需要第二系统106。无线通信系统104可以包括一个或多个模拟敏和数字蜂窝网络136,无线 计算机网络,例如广域网(WAN)、无线局域网(WLAN)、宽带无线区域(BWA) 网络和/或其f顿合用于在糊102和诸如呼叫中心108、 web月艮务器109和/或 服务中心111之类的各个远程位置之间发送语音和/,争(言号的无线网络。蜂 窝网络136可以作为CDMA、 GSM或使得能够在车辆102和第二通信系统106 之间効奂语音和繊的其〗鹏窝通信网络来实施。网络136可以包括任何合适 的小区塔、基站和/或移动交换中心(MSC)的组合。例如,基站和小区塔可以共 同位于相同的地址或它们彼此位置相隔较远,每个基站可以服务一个或多个小 区塔,并且不同的基站可以耦合到一个MSC上,还有很多可能的布置,这里就 不一一列举了。语音编码译码器或声码器可以结合在系统104中,例如在一个 或多个基站中,但根据无线网络的特定结构,它也可以结合在MSC或一些其他 网络部件内。系统104也可以或可替换iWl使用一个或多个卫星138的卫星传输来实 施无线通信以通过基于地面的卫星收发机140使 102与呼叫中心108通信。 作为示例性实施例,卫星收发机140和一个或多个卫星138可以向车辆102发 送无线电信号。例如,在美国联邦通信委员会分配用于基于卫星的数字音频无 线电服^(DARS)国家广播的S带频谱上可以广播卫星传输。更加特别是,卫星 传输可以f顿XMTM带卫星无线电服务来实施。第二通信系统106可以是基于陆地的有线系统,例如公共交换电话网络 (PTSN),网际协议(IP)网络,光网络、光纤网络、电缆网络和/或效用电力传输 线。系统106也可以是另一个无线通信系统,例如系统104、 WAN、 WLAN或 BWA网络,或前述例子的任何组合,其中任何一个系统都可用于或适用于语音 和/或翻通信。呼叫中心呼叫中心108 M:处理和存储数据并且与车辆102通信来向车辆102提供 服务。呼叫中心108可以向 远程信息处理单元114提供后端功能并且可以 包括在一个或多个位置中的一个或多个固定或移动数据中心。呼叫中心108包 括咨询台142,用来监控各种车辆情况,响应于服务请求,并且提供^ffi服务, 例如关于车辆安全和稳定系统的远程车辆帮助。咨询台142可以是人工顾问, 或自动机器或运行在计^tiU:可操作地被布置响应用户请求的程序。呼叫中心108包括一个或多个语音和/或数据接口 144,例如有线或无线调 制解调器,例如专用分组交换机(PBX)的交换机和/或路由器。 一个或多个接口 144 M31il信系统104、 106中的一个或两个在,远程信息处理单元114和呼 叫中心108之间发送和接收语音和/或数据信号,例如通过糊W上载(VDU)。对于语音上 通信, 一个或多个接口 144 ^i&t也应用一些类型的编码或调制 来利用声码器或语音编解码器转换用于通信的数字数据。呼叫中心108进一步包括一个或多个通信月艮务管理器146,用于处理M 的一个或多个服务器148,用于存储用户数据和任何其他适当数据的一个或多个 适当数据库150,和一个或多个有线和/或无线网络152,例如LAN或WLAN, 用于将呼叫中心部件与一个或多个咨询台142所使用的任何计算机连接在一起。 例如,月艮务器148和 库150运行和存储一个或多个控制禾將和 以^^虫 地或结合车辆102的远程信息处理单元114实现使用拒绝参考的语音拨号方法。 换句话说,所公开的方法可以被车辆102的远程信息处理单元114实现,可以 被计算机设备和/或载呼叫中心108的职员实现,或由以上的任何组合来实现。web服务器web服务器109和系统100的集成使得^lfi占有者能够例如3M fOT自动 语音识别技賴n文本到语音技术(例如VoiceXML)与因特网的网站和其他内容 进行^S。例如,ffi占有者可以使用远程信息处理单元114和^A式语音识 别来例如通过发出像'天气"的命令或通过说出与特定网站地址相关的名称标记 来寻求信息。语音识别技术识别出该命令或名称标记并将该请求翻译成恰当的 例如XML(可扩展标记语言)的网络语言,和/或将该请求与所存储的用户简档 关ra^将请求与特定网站相关。web月艮务器109解释该请求,根据该请求从网 站访问和检索合适的信息,并将该信息翻译成VoiceXML并发送相应的语音数 据文件到车辆102,在,中S31远程信息处理单元114处理该 文件并 :用户接口128输出给占有者。web月艮务器109可以在例如呼叫中心108的任何合适位置或3te的远程位 置^ffi—个或多^Ht算机服务器来实现。典型web月艮务器109包括合适的通信 接口154 (例如调制解调器,効奂器和/或路由器),计算机156和娜库158, M例如以太网LAN的任何合适网络160将它们进fi^接。数据库158可以使 用^^虫网络附加存储(NAS)设备来实现或可以存储在计算机156自身上,或可以 位于其他任何期望的位置。计算机156具有控制在车辆102和数据库158之间 繊交换的服务器应用禾歸。web月艮务器109也可以例如舰第二通信系统106 或更多直接的路径与呼叫中心108禾口/劍艮务中心111进fi^信。合适的服务器 石更4牛和软件配置对于本领域技术人员来说都是已知的。服务中心月艮务中心lll可以是车辆服务中心,在其中可以执行ffl诊断、维护和修 理。月艮务中心lll可以是 经销商、车辆修理店等。服务中心lll与,102例如通itil信系统进行通信以便,占有者可以启动与在服务中心111的销售商劍艮务fWffl行电话呼叫。 典型ASR系统通常,车辆占有者为了一个或多个以下基本目的和自动语音识别系统(ASR) 进行声音交互训练系统理解车辆占有者特定的声音;存储诸如所说的名称标 记或所说的控制词语(如数字或关键词)之类的离散语音;或为了例如语音拨 号、菜单导航、转录、月艮务请求等任何合适目的而识别车辆占有者的语音;通 常,ASR从人类语音中提取声音数据,比较和对照该声音数据和所存储的子单 词数据,选择合适的可以和其他所选子单词连接起来的子单词,并输出连接的 子单词或单词,用于后续处理,例如口述或转录,地址薄拨号,存储到存储器,训练ASR模型或适应参数等。ASR系纟规于本领域技术人员来说通常是已知的,并且图2说明了 ASR 系统210的特定典型结构,其可以用来实施这里所公开的方法。系统210包括 接收语音的设备,例如远程信息处理麦克风132;和声学接口133,例如远程信 息处理用户接口 128的声卡以将语音数字化为声学数据。系统210也包括用于 存储声学数据和存储语音识别软件和数据库的存储器,例如远程信息处理存储 器122,和用于处理声学数据的处理器,例如远程信息M处理器U6。处理器利用存储器并且结合以下模i央起作用用于将语音的声学数据流分析成例如声 学特性的参数表示的前端处理器或预处理器软件模块212;用于解码声学特性来 产 应于输入语音发音的数字子单词或单词输出数据的解码器软件模块214;和为了任何合适目的用于使用来自解码器模块214的输出数据的后M器软件 模块216。一个或多个模块或模型可以被用作解码器模块214的输入。首先,语法或 词典模型218可以提供关于管理哪些单词可以逻辑Jl^艮随其他单词以形成正确 句子的规则。在更宽的意义上,语法定义了系统210在任何给定时间在任何给 定的ASR模式下期望的总体词汇。例如,如果系统210是在用于训练命令的训 练模式下,贝i腊法模型218可以包括系统210已知和使用的所有命令。第二 一个或多个声学模型220帮助选择对应于预处理器模块212的输入最有可能的 子单词或单词。第三, 一个或多个单词模块222和一个或多^J子储言模型224 在将所选择的子单词或单词放入单词或句子上下文中时提供语法和/或语义。并 且, 一个或多个句子/语言模型224可以定义系统210在任何给定时间和在任何 给定的ASR模式下所期望的总体句子,和/或可以提供管理哪些句子可以逻辑地 跟随其他句子以形成正确扩展语音的规则。根据可替换的示例性实施例,ASR系统210的某些或全部被保留,并且使 用远离车辆102的位置(例如,呼叫中心108)上的计算设备来处理。例如,语 法模型,声学模型等可以被存储在呼叫中心108中的服务器148和/或 库150 之一的存储器中并且被传送到,远程信息处理单元114用于车内语音处理。 相似的,语音识别软件可以使用呼叫中心108中的服务器148之一的处理器来 进行处理。换句话说,ASR系统210可以以任何所期望方式位于远程信息处理 系统114中或分布在呼叫中心108和车辆102中。提取声学繊首先,从车辆占有者向麦克风132说入的语音中提取声学数据,麦克风可 以将声音转换成电信号并将该信号传送到声学接口 133。在麦克风132中的声音 响应元件当空气压力变化时捕获车辆占有者的语音并将语音转换为模拟电信号 (例如直流或电压)的相应变化。声学接口133接收模拟电信号,其首先l^^样 以便模拟信号值在离散时亥l搬捕获,并然后被量化以便模拟信号的振幅在每个 采样时刻被转换成连续的数字语音数据流。换句话说,声学接口 133将模拟f言号转换成数字电信号。数字信号是二进制位,其被缓存在远程信息处理存储器122中并且然后由远程信息处理处理器116处理或当它们最初被处理器116实时 接收到时被处理。 预处理第二,预处理器模块212将连续的数字语音 流转换为离散的声学参数 序列。更特别地,处理器116执行预处理器模块212以将数字语音数据分割成 10-30ms持续时间的重叠语音或声学帧。这些帧对应于如音节,半音节,音素, 双音素,音位等的声学子单词。预处理器模块212也执fiH吾音分析来从^IS占 有者声音的每个帧中提取出例如时变特性向量的声学参数。车辆占有者语音中 的发音可以被表示为这對寺性向量的序列。例如,如本领域技术人员所知的, 特性向量可以被提取并可以包括,例如,语詰调,能量分布图,频谱特性和/ 或cepslral系数,cepstral系数可以通过执行帧的傅立叶变换并且使用余弦变换来 解相关声学频谱来获得。声学帧和覆盖特定语音持续时间的对应参数被连接到 《賴軒马的语音的未知测试模式上。解码第三,处理微fi^科马器模块214来处理每个测说莫式的即将到来的特性 向量。解码器模块214还称为识别引擎或分类器,并j顿存储的己知语音参考 模式。像测试模式,参考模式被定义成相关声学帧和对应参数的连接。解码器 模块214比较和对比要被识别的子单词测试模式的声学特性向量和存储的子单 词参考模式,获取它们之间相差或樹以度的幅度,并最后使用确鄉辑総择 最匹配的子单词作为所识别的子单词。通常,最后的匹配子单词是对应于所存 储已知参考模式的具有最小相异点或最高的可能性的子单词,使用本领域技术 人员公知的任何不同技术确定的测试模式来分析和识别子单词。这种技术可以 包括动态时间弯曲分类器,人工智能技术,神经网络,自由语音识别器(free phoneme recognizer),禾口/或盖然模式匹配器例如隐藏马尔可夫模型(HMM)弓摩。本领域技术人员知道HMM弓摩用来产生声学输入的多4H吾音识别模型假 设。所考虑的假定是最后识别和选择该识别输出,其表示通过语音的特性分析 的最大似然正确解码声学输入。更加特别是,HMM引擎产生根据HMM计算 的置信值^0f观测的声学數据序列概率排列的子单词模型假设的"N个最好"列 表形式的统计模型,给出一个或另一个如使用贝叶斯定理确定的子单词。贝叶斯HMM过程识别对应于对于给定观测声学特性向量序列的最大可能发声或子 单词序列的最好假设,并且它的置信值可以取决于各种因数,该因数包含与进入的声学数据相关的声学信噪比。HMM也可以包括称为对角高斯混合的统计 分布,其产生对于每个子单词的每个所观测的特性向量的似然分数,该分数可 以用棘假定的N个最好列表重新排序。HMM引擎也可以识别和选择期莫型 似然分数最高的子单词。为了识别单词,对于子单词序列的单个HMM可以被 连接来建立单词HMM。语音识别解码器214使用合适的声学模型、语法和算法处理特性向量以产 生参考模式的N个最好列表。正如这里所使用的,术语参考模式与模型、波形、 模版、富銜nch)信号模型、范本、假设或其他类型参考是可互换的。参考模式 可以包括表示单词或子单词的一系列特性向量,并可以基于特定说话者、说话 风格、和可听到的环境条件。本领域技术人员可以认识到参考模式M:ASR系 统的适当参考模式训练产生并存储在存储器中。本领域技术人员也可以认识到, 存储的参考模式可以被操作,其中参考模式的参数值可以基于参考模式训练和 真实ASR系统使用之间的语音输入信号差异进行适配。例如,基于从不同车辆 占有者或不同声学条件下有限数量的训练数据,用于一个车辆占有者或特定声 学条件下所训练的一组参考模式可以被适配并且保存为用于不用车辆占有者或 不同声学条件的另一组参考模式。换句话说,参考模式不一定是固定的,但可 以在语音识别过程中进fiH周节。ttW顿词汇语法和任何魏的解码器算法和声学模型,处理器从存储器 中获取多个说明测试模式的参考模式。例如,处理器可以产生N个最好词汇结 果列表或参考模式以及相应参数值并将其存储到存储器中。示例性参数值可以 包括在N个最好词汇列表中的齡参考模式的置信分数和相关片段擀卖时间, 似然分数,信噪比(SNR)值等。N个最好词汇列表可以ffiil参数值的幅度降序来 排序。例如,具有最高置信分数的词汇参考模式是第一最好的参考模式,等等。 一旦粒了识别的子单词串,它们可以被用来利用来自单词模型222的输入组 建单词,并且利用来自语言模型224的输入组建句子。后处理最后,为了任何合适的目的,后处理软件模块216从解码器模块214中接 收输出数据。例如,后处理器模块216可以被用来将声学数据转换为ASR系统200710185770.8说明书第14/24页或其他车辆系统的其他方面所使用的文本或数字。在另一个例子中,后处理器模±央216可以被用来向解码器214或预处理器212提供训练反馈。更特别地, 后处理器216可以被用来训练用于解码器模块214的声学模型,或训练用于预 处理^l模块212的适配参数等。 语音拨号方法这里提供了 ASR使能的语音拨号方法,并且在,远程信息处理系统100 的操作环境中使用ASR系统210的结构将该方法实施为一个或多个计對几程 序。本领域技术人员也可以认识到,在其他操作环境中使用其他ASR系统也可 以实施该方法。总的来说,提供该方法通过拒绝参考来保持S服 不正确的识别声音以改进 语音拨号中语音识别的性能。拒绝参考可以是拒绝列表,表格,矩阵或其他任 何合适的跟踪设备,该跟踪设备可以提供在拨打给定电话号码时被确定为不正 确的数字或数字串。拒绝参考可以是与解码器识别结果对照,从而阻止或拒绝 不正确的识别结果被采纳并且传达给用户。相应地,可以给用户提供更准确识 别结果以提高用户对语音拨号的满意度。图3示出了语音拨打包含多个数字的电话号码的第一示例性方法300。每 个斜虫的步骤可以以任何合适的方式实施,如使用上述ASR系统210的相应部 分。刚开始,用户可以将ASR使能的远程信息处理单元114以任何合适的方式 设置成语音拨号模式,例如通过说出合适的如"拨号"等的命令单词。在步骤305,从用户接收至少一个发音。如这里所使用的,术语发音可以 包含表示数字串的发音。也如这里所4柳的,短语数字串可以包含一个或多个 要拨打的电话号码数字。该数字串可以通过例如"3"或'3-l-3"的数字发音或多 个发音"313",或如"3-13"的数字发音的任何组合来表示。数字串可以包含单个 数字,拨打的整个电话号码。在一个例子中,该发音可以由麦克风132接收 并M31转换器133提供给ASR系统210的处理器116和/或存储器122。在步骤310,对于该发音确定一个或多个识别结果。这可以通过解码发音 来识别一个或多个识别结果来完成。例如,解码器(如ASR系统210的解码器 214)可以被用来解码发音以产生N个最好识别结果。更特别地,从步骤305 的用户发音可以被解码来产生包含3-1-2,3-14,3-1-3等的N个最好识别结果列 表。本领域技术人员可以认识到任何合适的设备或才莫块可以被用来将识别结果转换为对应的如312, 314, 313等的数字结果。例如,这可以通31使用ASR系 统210的后处理器216来完成。在步骤315中,识别结果被传送到用户。例如,步骤310的N个最好识别 结果列表中的第一最好识别结果可以被接收并MASR使能的远程信息处理系 统114呈现给用户。在这个例子中,3-1-2或312被传送给用户。该识别结果可 以ilil任何合适的输出设备被音频地和/或视觉地传送,例如远程信息处理用户 接口 128。识别结果也可以被存储为ffiil远程信息处理单元114在合适时间要拨 打的数字串,并可以被存储在任何合适的存储器位置,例如远程信息处理存储 器122的任何合适部分。在步骤320,用户被询问或提供一个机会以指示识别结果是否不正确。因 而,系统可以从用户处接收所传送的通信结果是不正确的指示。例如,响应于 接收识别错误的数字串,或前述步骤中不正确的识别结果"312",用户可以说 出修正命令如"修正"或"清除上一个输入"或任何其他合适的命令。该指示可 以ffiil麦克风132接收并被ASR系统210处理。在步骤325,拒绝参考被填充不正确的识别结果。拒绝参考可以是计^n 可读文件,或文件的一部分,其被存储在任何^S的易失的和/或非易失的存储 器中,例如远程信息处理存储器122。并且或者代替,拒绝参考可以是暂时存储 在对应于任何合适存储器地i止位置的易失存储器中的数据。在任何情况下,拒 绝参考可以被处理器从存储器位置再调用和/或Mil处理器lOT存储在存储器中 的程序或例程而被产生。不正确的识别结果可以il31将理解错误的发音和不正 确的识别结果一起存储从而被加入到拒绝参考中,以便无论在明陧系统接收到 相同或相似的发音,它可以使用参考拒绝来排除不正确的识别结果作为可能的 ASR结果。可替换地,不正确的识别结果可以在没有相关的发音的情况下被存 储,并当用户被要求重述理解错误的发音时其可以简单暂时用来排除不正确的 识别结果。使用这种可》^换的暂时方法, 一旦发现正确的识别结果时,不正确 的识别结果可以从拒绝参考中删除。并且,对应于不正确识别结果的数字串可 以从在步骤315中其被先前存储的存储器中清除。在步骤330中,可以^用户替代不正确的识别结果。例如,ASR使能的 远程信息处理单元114可以输出例如"好的,再试一次"的声觉和/或视觉通信或 其他任何合适的魏以际用户代替不正确的识别结果。该际可以包括音频、视频y或文本计^m文件,其可以被存储在任何合适的存储器中,例如远程信息M存储器122,并且由任何合适的处理器(如远程信息处理处理器116)来执 行。在步骤335中,可以AAffl户处接收到用来代替不正确识另蹈果的修正发音。 例如,用户可以重复在步骤305用户起初的发音,例如"3-1-3"。发音可以通过 麦克风132接收并随后通过转换器133提供给ASR系统210的处理器116和/ 或存储器122。在步骤340中,ASR系统210确定对于修正的发音的一个或多个修正的识 别结果。这可以通过解码修正的发音来识别一个或多个修正识别结果来完成。 例如,解码器214可被用来解码修正发音来产生N个最好修正识别结果。更特 别地,步骤335中用户的修正发音可以被解码成包含3-l-2,3-M, ,3-1-3等的修正 识别结果的N个最好列表。本领域技术人员应该意识到,识别结果的N个最好 列表可以与先前在步骤310中识别的识别结果的N个最好列表相同也可以不相 同。换句话说,当前解码步骤可以基于当前的周围噪声级,更新或不同的语法 等产生唯一的N个最好列表。在步骤345中, 一个或多个修正的识别结果可以以任何适当方式与拒绝参 考进行对比。例如,步骤340中的N个最好修正识别结果可以与拒绝参考中的 数据对照来识别普通数字串。在拒绝参考中存在的数字或数字串在识别结果中 的出现将在下一步骤中阻止将该识别结果传送给用户。换句话说,拒绝参考可 以用来拒绝一个或多个识别结果。在所给出的特定例子中,在步骤325中数字 串312在拒绝参考的出测每阻止在识别结果的N个最好列表中的前面错误识别 的数字串的传送与1,。在步骤350中,没有被拒绝参考阻止的修正识别结果被系统返回然后传送 给用户。例如,因为从步骤340产生的识别结果的N个最好列表中的第一最好 识别结果"312"被拒绝参考在每个步骤345中阻止,下一个或第二最好识别结 果"314"可以被传送给用户。修正的识别结果也可以在任何合适存储位置(例 如,远程信息处理存储器122的任何合适部分)中被存储为要拨打的数字串。在步骤355中,用户又被质询或提供机会来指示现在修正的识别结果是不 是还不正确。例如,响应于从前面步骤接收到不正确的修正识别结果"314", 用户可以说"修正"或"清除上一个输入"或任何其他合适的命令。如同所有其他用户语音输入,麦克风132可以接收指示然后由ASR系统210来处理。在步骤360中,拒绝参考可以被填充不正确的修正识别结果。例如,步骤 325的拒绝参考可以被填充在步骤355中指示为不正确的修正识别结果314。并 且,对应于不正确的修正识别结果的数字串可以从步骤350中它先前被存储的 存储器中清除。在步骤365中,可以^用户代替不正确的修正识别结果。例如,远程信 息处理系统114可以输出如"好,再试一次"的音频和/或视频Jl信或任何其他合 适的魏来提示用户代替步骤355中指示为不正确的修正识别结果。该标可 以包括音频、视频和/或文本计^m文件,其可以存储在任何合适存储器(例如 远程信息处理存储器122)中并且由任何合适处理器(例如远程信息处理处理器 116)来执行。在步骤370中,随后的修正发音可以从用户处接收来代替不正确的修正识 别结果。例如,用户可以重复来自步骤305和步骤335的用户先前发音例如 "3-l-3"来代替不正确数字串"314"。在步骤375中,后续的修正发音可以被解 码来识另树于后续修正发音的识别结果。例如,解码器214可以从步骤370中 被用来解码后续修正语音以确认识别结果的第二N个最好列表。在所示的例子 中,从步骤370中用户后续修正发音可以被解码成包含"3-l-2","3-14","3-1-3" 等的N个最好列表。本领域技术人员可以认识到,识另蹈果的N个最好列表可 以与步骤340禾卩/或310中的识别结果先前定义的N个最好列表相同或也可以不 相同。在步骤380中, 一个或多个后续修正的识别结果可以与拒绝参考进行比较, 如前面步骤345所描述的一样。例如,在步骤325中数字串"312"和步骤360 中数字串"314"在拒绝参考中的出测每阻止识另蹈果的N个最好列表中数字串 "312"和"314"的使用和传达。在步骤385,没有被拒绝参考阻止的后续修正的识别结果可以被传送给用 户。例如,由于步骤375中识别结果的N个最好列表的第一和第二最好识别结 果"312"和"314"通过4吏用拒绝参考而被有效地阻止,下一个或第三最好识别 结果"313"可以以任何合适的方式传达给用户。在步骤390,用户可以如上所述的再次阻止后续的识别结果。但是,在这 个例子中,后续识别结果是正确的并且用户因M51说出另一个数字或数字串来接收该识别结果。例如,用户可以fflii说出一个或多个后续数字串例如"667" 来接收步骤385中修正的识别结果。图4说明了语音拨打包含有多个数字的电话号码的第二示例性方法400。 该实施例与图3中的实施例在很多方面是很相似的,并且在实施例之间的类似 步^1常在所有附图中表示相似或相应步骤。此外,图3禾口图4实施例的描述 Mil相互参考被弓l入并且通常不重复共同的主题。在步骤405,从用户处接收多个发音。例如,在用户暂停之前可以接收用 户发音"313"并且在用户暂停后接收后续的发音"667"。在ASR系统响应之前 说出和接收该发音。在暂停之间可以定义多个发音。换句话说,完整的电话号码可以包含多个 表示数字串的发音,其中发音之间的暂停表示一个发音的结束和后续发音的开 始。任何合适的定时器模块都可以测量自从接收最近发音以来已经期满的时间 形式的时间间隔。该时间间隔可以通过任何合适设备(如远程信息处理处理器 116)被初始化和监控并重置。本领域技术人员可以认识到,这样的设备可以被 用来初始化、填充并清除合适的存储劉立置(例如,时序存储劉立置),用于接 收发音。在步骤410,解码多个发音来确定该多个发音的识别结果。例如,解码器 214可以被用来解码发音以产生对于多个发音中每一个的一组N个最好识别结 果。更特别地,对于发音"313"的示例性识别结果的N个最好列表可以包括312, 313,...一直到第N个最好结果N,并且对于发音"667"的示例性识别结果的N 个最好列表可以包括667, 767, 677,…一直到第N个最好结果N。此外,在 任何识别结果被传达给用户之前,该识别结果或根据其产生的N个最好列表可 以以任何合适的方式与拒绝参考进行比 确定普通数字串和拒绝考虑它们和 传达给用户。在步骤415,传达至少一个识别结果给用户。例如,在步骤410中,对于 多个发音的*识别结果N个最好列表中的第一最好识别结果可以被返回给用 户。并且,该识别结果可以例如作为要拨打的后续数字串存储在存储器中。本 领域技术人员可以认识到,任何合适的设备,如远程信息处理处理器116可以 被用来初始化、填充和清除合适存储M:置(例如,例如,时序存储駒立置) 用于接收该识别结果。在步骤420,从用户处接收一个或多个所传达的识别结果是不正确的指示。 例如,图4中第一"修正"可以指示所识别的结果"312"^^f识另啲结果"667" 中的一个或两个都是不正确的。在步骤425,多个位置拒绝参考被填充最近传达的识别结果。例如,拒绝 参考可以包括对应于发音序列中离散发音的多个数字串位置。更特别地,拒绝 参考可以包括对应于第一数字串的第一位置,和对应于第二数字串的第二位置 等等。在任何情况下,响应于用户的修正命令,拒绝参考被填充最近所传达的 识别结果,其在上面的例子中为"667"。并且,数字串667可以从存储器中清 除掉。最后, 一个或多个星号代表在数字已被接收或未被输入的数字位置上的 通配符。在步骤430,可以H^用户来替代不正确的识别结果。例如,紧先于最近 传达的识别结果的识别结果可以被传达给用户。例如,识别结果"312",其紧 先于最近传达的识别结果"667",被传达给用户。事实上,这就是告诉用户拨 号存储m置已经清除了 "667"数字串并且当前只包含"312"数字串,因而, 提示用户来指示对"312"数字串的修正或说出跟随"312"的后续数字串。在步骤435,用户可以接收识别结果是不正确的指示。例如,图4中的第 二"修正"^^令指示所识别的数字串"312"是不正确的。在步骤440,拒绝参考被 填充不正确的识别结果。例如,在步骤435中指示为不正确的识别结果"312" 被添加到拒绝参考中的相应位置中。并且,步骤425中所传达的识别结果从拒 绝参考中清除,如图4中删除线所示的。事实上,这允许用户备份并跳过正确 的结果667来修正先前识另怀正确的数字串发音。在步骤445,可以畅用户来替代不正确的识别结果。例如,可以际用 户来替代步骤435中指示为不正确的识别结果,如"312"。该指示可以包含"好, 再试一次"或其他任何合适的M或表达。在步骤450中,从用户处接收修正的 发音来替代不正确的识别结果。例如,可以接收用户修正的发音"313"。在步骤455,修正发音被用来确定一个或多个修正的识别结果;又M51解 码修正发音来确定对于修正发音的至少一个修正的识别结果。例如,步骤450 的修正发音可以被解码来产生识别结果的N个最好列表。在步骤460, 一个或多个修正的识别结果可以以任何合适的方式与拒绝参 考进行比较。例如,步骤455中的识别结果的N个最好列表可以与拒绝参考对照来确定共同的数字串并阻止考虑它们和传达给用户。在步骤465,没有M31拒绝参考阻止的修正识别结果可以被传达给用户。 例如,步骤460的一个修正识别结果可以被传达给用户。更特别地,由于步骤 460的识别结果的N个最好列表的第一最好识别结果"312"被拒绝参考阻止, 下一个或第二最好识别结果"313"可以以任何合适的方式被传达给用户。在步骤470,用户可以il51说出另一个数字或数字串来接收识别结果。例 如,用户可以通过说出一个或多个后续数字串如667来接收步骤465中的修正 的识别结果。在步骤475,第二数字串的发音可以被解码来确定对于发音的至少一个识 别结果。例如,该解码器可以产生包含667、 767...—直到第N个最好结果N的 对于发音667的识别结果的N个最好列表。在步骤480,识别结果可以以任何方式和拒绝参考进行比较。例如,步骤 475的识别结果可以与拒绝参考謝亍比较,该拒绝参考在步骤440中被修正。在步骤485,没有被拒绝参考阻止的识别结果可以被传达给用户。例如, 步骤480的识别结果可以被传达给用户。由于数字串"667"被从拒绝参考中清 除,N个最好结果的第一最好结果"667"可以被返回。图5A和5B说明了语音拨打包含多个数字的电话号码的第三示例性方法 500。该实施例与图3和图4中的实施例在很多方面糊艮相似,并且在实施例之 间的类似步骤通常在所有附图中表示相似或相应步骤。此外,各个实施例的描 M31相互参考被弓l入并且通常不重复共同的主题。在步骤505,从用户处接收至少一个g至少一个数字的发音。例如,在 用户暂停之前可以从用户处接收包含一个或多个数字的第一数字串如"313", 并在用户暂停之后接收后续的发音,如"555"。在这个例子中,两个连续的数 字串发音快于系统处理和响应第一发音的速度。在步骤510,至少一个表示至少一个数字的发音被解码来确定对于发音的 识别结果。例如,第一和第二数字串发音"313"和"555"可以被解码来产生用 于每一个数字串发音的N个最好识别结果列表。此外,在任何识别结果被传达 给用户之前,识别结果和/或由该识别结果所产生的N个最好列表可以以任何合 适的方式与拒绝参考进行比较以确定共同的数字串并阻止对它们进行考虑和传 达给用户。在步骤515,对于表示至少一个数字的发音的识别结果被传达给用户。例如,在步骤510中每个识别结果的N个最好列表中的第一最好识别结果被传达 给用户。并且,该识别结果例如作为要拨打的后续数字串被存储在存储器中。在步骤520,用户向ASR系统提供所传达的识别结果是不正确的指示。例 如,用户接收关于步骤515所传达的一个或多个识别结果是不正确的指示。例 如,在图5A和图5B中的第一 "修正"命令指示识别结果"318"是不正确的和/ 或指示识别结果"559"是不正确的。在步骤525中,多数字位置的拒绝参考被填充最新传达的识别结果。例如, 拒绝参考可以包含具有一个或多个行和多个数字位置列的矩阵,所述4f对应于 一个或多个识别不正确的发音,所述列对应于识别不正确的发音中的离散数字。 列数可以对应于要拨打的给定电话号码中数字的个数。行数可以对应于在拨打 给定电话号码的会话期间引起的识别不正确发音的个数。换句话说,拒绝参考 的大小是可变的。例如,拒绝参考对于10位电话号码可以为10x3大小,尝试 拨打该电话号码并且在最后拨打之前可以有三次识别不正确。此外,多数雜置的拒绝参考可以包含对应于第一数字的第一数字位置, 在其开始数字串发音,如"318"中的"3",和第六数字位置,该第六数字位置对应 于第二发音串末尾的第六个数字,如"559"中的"9",依此类推。在任何情况下, 拒绝参考被填充最近传达的识别结果,如上述例子中为"559"。不正确识别结 果的每一数字被添加到拒绝参考中多个数字位置的对应数字位置上。因此,数 對立置4, 5, 6分别被填充所识别的数字5, 5, 9。在步骤530,可以^用户替代不正确的识别结果。例如,紧先于最ifi传 达的识别结果的识别结果可以被传达给用户。例如,识别结果"318",其紧先于 最近传达的识别结果"559",被传达给用户。事实上,这就告知用户拨号存储 tH立置已经清除"559"数字串并且当前只包含"318"字符串,并因而歸用户 既可以指示对"318"数字串的修正或也可以发出跟随"318"的后续数字串。在步骤535,可以从用户处接收修正发音来替代不正确的识别结果。例如, 可以从用户处再次接收包含第二数字串"555"的用户修正发音来替代不正确的 识别"559"。如图5A中的例子,用户选择来修正"559"数字串,因为用户还没 有意识到"318"识别结果是不正确的。在步骤540中,修正发音可以被解码来 确定对于修正发音的修正识别结果。例如,步骤535的修正发音可以被解码来产生修正识别结果的N个最好列表。在步骤545,修正识另蹈果的 ^所识另啲数字可以与拒绝参考的多个数 滩置的相应位置进行比较。例如,步骤540的針N个最好识别结果的每个 所识别的数字可以与拒绝参考的每个数字位置对照来确定数字串的共同数字并 且阻止考虑该数字串和传达给用户。例如,数字串559被拒绝。在步骤550,没有被拒绝参考阻止的修正识别结果被传达给用户。例如, 步骤540的其中一个修正识别结果可以被传达给用户。更特别地,由于步骤540 的识别结果的N个最好列表中第一最好识别结果"559"被拒绝参考阻止,下一 个或第二最好识别结果"555"可以以任何合适的方式传达给用户。并且,修正 识另蹈果例如作为将要拨打的后续数字串可以存储在存储器中。参考图5B,在步骤555中,可以从用户处接收修正发音来替代不正确的识 别结果。例如,用户可以意识到第一数字串发音识别不正确,因而可以接收用 户的修正发音"修正"等。在步骤560,拒绝参考被填充最近传达的识别结果。例如,拒绝参考可以 被填充最近传达的识别结果,其在上面的例子中为555。因此,数字位置4, 5, 6分别被填充所识别的数字5, 5, 5。在步骤565,可以JI^用户来替代不正确的识别结果。例如,紧先于最近 传达的识别结果的识别结果可以被传达给用户。更具体地,识别结果"318", 其紧先于最近传达的识别结果"555",被传达给用户。事实上,这就告诉用户 拨号存储器位置已经清除了 "555"数字串并当前只包含"318"数字串,并且因 此^/于用户既可以指示对于"318"数字串的修正或也可以说出跟随"318"的后 续数字串。在步骤570,可以从用户处接收修正发音来替代不正确的识别结果。例如, 用户可以修正第一数字串发音,其中用户的修正发音"修正"等可以被接收。如 图5B所示的例子,用户可以选择修正"318"数字串,因为用户刚刚意识到"318"识别结果是不正确的。在步骤575,拒绝参考被填充最近传达的识别结果。例如,拒绝参考可以 被填充最近传达的识别结果,雜上面的例子为"318"。相应的,数雜置l, 2, 3分别被i真充识另啲数字3, 1, 8。并且,对应于识别结果的第一数字串可 以从在步骤515中其先前被存储的存储器中清除。此外,步骤550所传达的识别结果的^^数字都从拒绝参考中清除,如图5B的删除线所示。在步骤580,可以^用户替代不正确的识别结果。例如,可以JI^用户 来替代步骤570中指示为不正确的识别结果,如"318"。该提示可以包括"好, 再试一次"或其他任何合适的 或表达。在步骤585, ,Affi户处接收表示至少一个数字的至少一个发音。例如,用 户可以改变数字串的长度,并说出新的更长的第一数字串。例如,新的第一数 字串可以包括6个数字位置,包括l, 2, 3, 4, 5, 6,其先前由两个数字串覆 盖;即步骤505中的示例性第一和第二数字串。在步骤590, g至少一个数字的至少一个发音被解码来确定对于至少一 个发音的识别结果。例如,新的第一数字串313555可以被解码来确定包含 313555,313559...N的N个最好识另蹈果列表。此外,在任何识别结果被传达给 用户之前,识别结果和根据其产生的N个最好列表可以以任何合适的方式与拒 绝参考进行比较来确定共同的数字串并且阻止考虑它们和传达给用户。在步骤595,对于发音的识别结果被传达给用户。例如,步骤590中识别 结果的N个最好列表中的第一最好识别结果被传达给用户。并且,该识别结果 例如作为要拨打的第一数字串可以被存储在存储器中。在步骤600,用户可以通 过说出另一个数字或数字串来接收识别结果。例如,用户可以通过说出一个或 多个如5594的后续数字串来接收步骤595中修正的识别结果。在步骤605,对于第二数字串的发音可以被解码来确定对于发音的至少一 个识别结果。例如,解码器可以确定对于包含5594,5554…N的发音"5594"的 识别结果的N个最好列表。此外,在任何识别结果被传达给用户之前,识别结 果和/或根据其产生的N个最好列表可以使用上面讨论的任何方法来与拒绝参考 进行比较来确定共同数字串以及阻止考虑它们和传达给用户。在步骤610,对于表示至少一个数字的发音的识另隨果可以被传达给用户。 例如,步骤605中识别结果的N个最好列表中第一最好识别结果可以被传达给 用户。并且,该识别结果例如作为第二或最后要拨打的数字串可以存储在存储 器中。如果需要的话,这个识别结果的用户修正可以进行,如上所述的,直到 修正的结果被确定。最后,ASR语法218可以被动态地修改以提高语音拨号正确率。例如,初始语法可以被用于给定期望长度的电话号码,并当电话号码的数字被识别时进行修改。在更具体的例子中,当第一次识别任何给定的十个数字电话号码时, 可以应用十个数字电话号码的初始语法。对于对应于要识别的第一数字串的如 "313"的第一发音,初始十个数字语法在第一发音的解码过程中被应用。然后, 该初始十个数字语法基于刚识别的数字质量可以被修改。例如,由于第一发音表^+个数字中的三个,初始十个数字语法可以被消 减为七个数字语法。该修改有效地消除了所有十个,九个和八个数字号码语法 的可能性。因而,例如,当识别到对于后续数字串的后续发音时,应用七个数 字语法。七个数字语法可以包括对于单个数字、两数字、三数字、四数字、五 数字、六数字、和七数字号码的所有可能组合。然后,例如,如果多于三个数 字在后续数字串中被识别出,将应用四个数字语法,依此类推。相应地,在初 始数字串发音之后,可能残留号码的全部在电话号码的识别过程中被逐渐减少 了。这有效地提高了正确识别表示后续数字串的后续发音的可能性。应当理解的是,前面的描述不是本发明的一个定义,仅仅是本发明的一个 或多个,示例性实施例的描述。本发明不限制于这里所公开的特定实施例, 但只由下面的权利要求书限定。此外,前面的描述中所包含的表述涉及特定实 施例并不能解释为限制于本发明的保护范围或权禾腰求中^f顿术语的定义,除 了上面特别地定义术语或短语。对于所公开的实施例的不同其他实施例和不同 的改变和更5婉于本领域技术人员来说是显然的。所有其他的实施例、改变和 更改均在后附的t又利要求书的范围内。如在说明书和权利要求书中使用的,术语"例如"、"比如"、"如"和动词"包 括'、"具有'、"包含"以及它们的其他动词形式,当结合一个或多个部件或其他 项目使用时,每个被解释为是开放式的,即列出的内容不被认为是排除其他附 加部件或项目。其他的术语使用它们最广义合理的含义被解释,除非它们用在 需要不同解释的上下文中。
权利要求
1. 一种语音拨号方法,包括如下步骤(a)从用户接收一个或多个发音;(b)确定对于所述一个或多个发音的识别结果;(c)将所述识别结果传达给用户;(d)从用户接收所传达的识别结果是否是不正确的指示;(e)如果不正确,则利用该不正确的识别结果填充拒绝参考。
2. 如权利要求1所述的方法,进一步包括如下步骤(f) ^^用户替代该不正确的识别结果;(g) 从用户接收修正发音来替代不正确的识别结果;(h) 确定对于修正发音的修正识别结果;(1)比S^f述修正的识另蹈果和所述拒绝参考;以及 (j)将没有被拒绝参考阻止的修正识别结果传达给用户。
3. 如权利要求2所述的方法,进一步包括(k) /別户接收所述修正的识别结果是不正确附旨示;(1)利用所述不正确的修正识别结果填充拒绝参考;(m) ^^用户替f^万述不正确的修正识别结果;(n)从用户接收后续的修正发音来替^^述不正确的修正识别结果;(0)确定对于后续修正发音的后续修正识别结果;(p)比辦续修正的识别结果和拒绝参考;以及(q)将没有被拒绝参考阻止的后续修正识别结果传达给用户。
4. 如权利要求1所述的方法,其中接收所述一个或多个发音的步骤(a)包括多 个发音,并且填充拒绝参考步骤(e)包括多个位置,其中每个位置对应于所述多 个发音中的一个发音。
5. 如权利要求4所述的方法,其中所述多个发音被一个或多个用户暂停所隔离。
6. 如权利要求4所述的方法,其中所述多个发音表示数字串。
7. 如权利要求6所述的方法,其中^h数字串包含至少一个数字。
8. 如权利要求1所述的方法,其中接收一个或多个发音的步骤(a)包括多个发音,并且填充拒绝参考步骤(e)包括多个数字位置,其中所述数字位置对应于在所述多个发音中分别识别的数字。
9. 如权利要求1所述的方法,其中确定步骤(b)包括产生N个最好识别结果 以及根据N个最好的识别结果来确定一个或多个发音的识别结果。
10. 如权利要求1所述的方法,其中接收步骤⑨包括从用户接收修正命令。
11. 一种语音拨号方法,包括如下步骤(a) 从用户接收多个发音;(b) 确定对于所述多个发音中的每个发音的至少一个识别结果;(c) 将对于所述多个发音的识别结果传达给用户;(d) 从用户接收至少一个所传达的识别结果是不正确的指示;(e) 利用所述识别结果中最近所传达的识别结果填充多位置的拒绝参考。
12. 如权利要求11所述的方法,进一步包括如下步骤(f) 将紧先于最近所传达的识别结果的识别结果传达给用户;(g) /Affi户接收步骤(f)中的所述识别结果是不正确的指示;(h) 禾,步骤(f)的所述识别结果填充拒绝参考并从拒绝参考中清除步骤(c)中最近所传达的识别结果;(i) 际用户替代在步骤(g)中被指示为不正确的修正识别结果; (D从用户接收修正发音来替代不正确的识别结果。
13.如权利要求12所述的方法,进一步包括如下步骤 (k)解码所述修正发音以确定对于所述修正发音的至少一个识别结果;(1)将步骤(k)中没有被拒绝参考阻止的识别结果传达给用户。
14. 如权利要求11所述的方法,其中所述多个发音被用户暂停隔离并且填充 多位置拒绝参考的步骤(e)包括多个数字串位置,其中每个数字串位置对应于 所述多个发音的一个发音。
15. 如权利要求11所述的方法,其中所述多个发音被用户暂停隔离并且填充 多位置拒绝参考的步骤(e)包括多个数字位置,其中所述数^置对应于所述 多个发音中分别识别的数字。
16. 如权利要求11所述的方法,其中所述识别步骤(b)包括产生N个最好识 别结果以及根据N个最好的识别结果来确定所述多个发音的识别结果。
17. 如权利要求11所述的方法,其中所述接收步骤(d)包括从用户接收修正命令。
18. —种语音拨号方法,包括如下步骤(a) 从用户接收表示至少一个数字的发音;(b) 确定对于所述发音的至少一个识别结果; (C)将步骤(b)中的识别结果传达给用户;(d) /Affl户接收所传达的识别结果是不正确的指示;(e) 利用所述不正确的识别结果填充拒绝参考中多个数^j立置中的至少一个 数雜置。
19. 如权利要求18所述的方法,进一步包括如下步骤(f) ^用户替i^;f述不正确的识别结果;(g) 从用户接收修正发音来替f^; 述不正确的识别结果;(h) 确定对于所述修正发音的至少一个修正的识别结果; 比较每^#正识另蹈果的*所识别的数字和拒绝参考中多个数字位置 中的各个位置;①将没有被拒绝参考阻止的修正识别结果传达给用户。
20. 如权利要求18所述的方法,其中填充步骤(e)包括将不正确的识别结果的^^数字添加到拒绝参考中多个数字位置中的对应数割立置上。
全文摘要
本发明涉及使用拒绝参考的语音拨号。一种语音拨号方法,包括以下步骤从用户接收发音,解码所述发音以确定对于所述发音的识别结果,并且将所述识别结果传达给用户。如果从用户接收到所传达的识别结果是不正确的指示,则将其添加到拒绝参考中。然后,当用户重复理解错误的发音时,拒绝参考可以被用来阻止把不正确的识别结果作为后续识别结果。该方法能够用于单个或多个数字或数字串。
文档编号H04M1/27GK101272416SQ200710185770
公开日2008年9月24日 申请日期2007年11月28日 优先权日2006年11月28日
发明者D·B·费彻尔, J·M·斯保尔丁, J·W·克拉克, R·钱加尔瓦拉彦, T·J·格罗斯特 申请人:通用汽车公司