专利名称:支持自然语言人机交互的移动系统和方法
技术领域:
本发明提供具有语音接口和/或语音接口和非语音接口的组合以 使得能够实现自然语言人机交互的移动装置。更具体地讲,本发明使 得移动用户能够提交宽范围领域内的自然语言语音和/或非语音问题 或命令。所述移动装置被构造为以自然的方式呈现答复。
背景技术:
远程信息处理系统为将人-计算机接口引进移动环境的系统。传 统的计算机接口使用键盘、键区、点击技术和触摸屏显示器的一些组 合。至少部分由于交互速度和固有的危险和干扰而导致这些传统的接 口技术通常不适合于移动环境。因此,在许多远程信息处理应用中采 用语音接口。然而,已证明创建适合于在移动环境中使用的自然语言语音接口 是很困难的。通用远程信息处理系统应该适应来自宽范围领域的和来自许多用户的具有各种偏好和需要的命令和请求。此外,多个移动用 户可能经常同时想使用这样的系统。最后,大多数移动环境相对有噪 声,这使得语音识别从本质上讲就很难。以自然的方式对本地信息和网络在线信息进行检索和对命令进 行处理在任何环境中仍然是一个困难的问题,尤其是在移动环境中。 对人类交互的认知研究表明,口头交流,例如问问题或给出命令的人, 典型地极其依赖于上下文和目标人的领域知识。相反,基于机器的请 求(请求可以是问题、命令和/或其它类型的交流)可能被高度结构化, 并且从本质上讲可能对人类用户不自然。因而,口头交流和从口头交 流提取的请求的机器处理可能根本上是不相容的。然而,允许人类发出基于自然语言语音的请求的能力仍然是期望的目标。已对自然语言处理和语音识别的多个领域进行了研究。语音识别 已在准确度方面得到了稳定的改进,目前,语音识别已成功地用在宽 广范围的应用中。以前自然语言处理应用于语音查询的解析。然而, 已研发了非常有限数量的这样的系统,这些系统为用户提供完整的环 境,以在移动环境中发出自然语言语音请求和/或命令,并接收自然发 声的答复。对于创建完整的自然语言口头的和/或基于文本的查询和答 复环境,仍存在许多重要的障碍。
大多数自然语言请求和命令的定义不完整的事实对自然语言查 询-答复交互是重要的障碍。此外,仅可关于以前的问题的上下文、 领域知识或用户的兴趣和偏好的历史对一些问题进行解释。因而,可 能不容易将一些自然语言问题和命令变换为机器可处理的形式。使这 个问题更复杂的是,许多自然语言问题可能是有歧义的或者主观的。 在这些情况下,机器可处理的查询的形成和自然语言答复的返回最 难。
甚至, 一旦问题被问出、解析和解释,机器可处理的请求和命令 就必须被明确表达。根据问题的性质,可能不存在返回让人满意的答 复的简单的请求集合。可能需要发起几个请求,甚至这些请求可能需 要被链接或级联以实现完整的结果。此外,没有单个可用的源可包括 所需要的整个结果集合。因而,可能需要将可能具有几个部分的多个 请求放入位于本地或远程的多个数据源。不是所有的这些源和请求可 返回有用的结果,或者根本就不返回任何结果。
在移动环境中,无线通信的使用可进一步减少请求将是完整的或 者将返回成功的结果的机会。返回的有用结果通常被嵌入在其它信息 中,并且可能需要从这些信息提取这些有用的结果。例如,通常需要 从文本串、表格、列表、页面或者其它信息中的大量其它信息"积攒" 几个关键词或数字。同时,可能需要去除其它非必要的信息诸如图形 或图片以处理语音答复。在任何情况下,应该对多个结果进行评估并 组合这些结果以形成最佳的可能的答案,即使在一些请求没有返回有 用的结果或完全失败的情况下也要如此。在问题有歧义或者结果在本质上主观的情况下,确定要呈现的最佳结果是个复杂的过程。最后, 为了维持自然交互,应该将答复快速地返回给用户。在保持实时性能 的同时对复杂的不确定的请求进行管理和评估是个重要的挑战。 这些缺点和其它缺点存在于现有系统中。发明内容本发明克服现有的远程信息处理系统的这些缺点和其它缺点。 根据本发明的一方面,提供基于语音和基于非语音的系统,这些 系统应命令行动并检索信息。本发明使用上下文、先验信息、领域知 识和用户特定的简档数据来为提交多个领域中的请求和/或命令的用 户实现自然环境。在所述过程中的每一步,可包容完全失败或部分失 败和适度的恢复。在所述过程的几个阶段,可通过使用概率和模糊推 理来实现对部分失败的鲁棒性。该对部分失败的鲁棒性增进了对问题 和命令的自然答复的感觉。根据本发明的另一方面,可将交互式自然语言系统(这里,"系 统,,)并入移动装置,或者可经由有线或无线连接使该系统连接至移 动装置。移动装置可通过有线或无线链接与计算机或其它电子控制系 统建立接口。移动装置还可独立于移动结构操作,并可通过无线局域 连接、广域无线连接或者通过其它通信链接将所述移动装置用于远程 控制装置。根据本发明的一方面,可将这样的软件安装到移动装置上,所述软件包括输入模块,捕捉用户输入;解析程序,对输入进行解析; 文本至语音引擎模块,将文本转换为语音;网络接口,使得所述装置 能够与一个或多个网络建立接口;非语音接口模块;事件管理程序, 管理事件;和/或其它模块。在一些实施例中,事件管理程序可与上下 文描述语法、用户简档模块、个性模块、代理模块、更新管理程序和 一个或多个数据库通信,用户简档模块使得用户简档能够被创建、修 改和/或访问,个性模块使得各种个性能够被创建和/或使用。将理解, 可在移动装置、附到移动结构的计算机、桌面计算机或服务器之间以任何方式分布这个软件,而不改变本发明的功能、特征、范围或意图。 根据本发明的 一方面,所述系统可包括语音单元接口装置和计算 机装置或系统,语音单元接口装置从用户接收口述的自然语言请求、 命令和/或其它话语,计算机装置或系统从语音单元接收输入,对该输 入进行处理,并用自然语言语音答复来答复用户。
根据本发明的另一方面,可通过有线或无线连接使所述系统与一 个或多个其它系统建立接口。所述其它系统可自己将其分布在附到移 动结构或者位于移动结构外部的电子控制器或计算机之间。所述其它 系统可包括电子控制系统、娱乐装置、导航仪器、测量仪器或传感器 或者其它系统。还可为外部系统提供这样的特征,包括支付系统、急 救辅助网络、远程定货系统、自动或参与型顾客服务功能或其它特征。 根据本发明的另一方面,可在装置网络中部署所述系统,所述装 置共享代理、数据、信息、用户简档、历史或其它组件的共用库。每 个用户可在所述网络上配备有移动装置的任何位置与相同的服务和 应用交互,并接收这些服务和应用。例如,可在遍及家里、营业地点、 车辆或其它位置的不同位置放置多个移动装置。在这样的情况下,所 述系统可将用户对其说话的特定装置的位置用作所问的问题的上下 文的一部分。
根据本发明的一个实施例,可在移动装置执行处理。可现场处理 命令以使得移动装置能够控制它们自己和/或控制其它移动装置、固定 计算机、移动电话和其它装置。另外,移动装置可跟踪上下文。
根据本发明的一个实施例,可提供在多模式交互期间维护上下文 信息的基础架构,所述多模式交互诸如语音和/或非语音交互。根据本 发明的一个示例性实施例,可通过在移动装置或多模式装置和所述系 统之间提供通信信道来在多模式环境中维护上下文信息。所述通信信 道允许所述系统接收多模式输入,诸如基于文本的命令和问题和/或基 于声音的命令和问题。根据本发明的另一实施例,所述多模式输入可 包括作为命令或问题而接收的文本串,诸如关键词。根据本发明的又 一实施例,所述系统可使移动装置和基于语音的单元之间的上下文同步。为了将答复发送到对应的移动装置,所述系统可跟踪源,并将答 复发送到对应的语音接口或非语音接口 。根据本发明的可替换实施例,可使用上下文管理程序来维护上下 文信息,可对上下文管理程序进行集中定位以从多个移动装置接收输 入并将输出提供给多个移动装置。根据一个实施例,与上下文管理程 序通信的移动装置可通过注册模块注册,并可预订一个或多个事件。根据本发明的另一实施例,上下文管理程序可接收例如上下文XML 表单的输入。可通过上下文跟踪模块向其它注册的移动装置通知上下 文改变,以使得在注册的模块之间的上下文能够同步。根据本发明的 一个实施例,可添加注册的模块或者从所述系统去除注册的模块。注 册的模块可包括多模式装置所特有的动态链接库(DLL)或其它信息 源。根据本发明的又一可替换实施例,可从以文本格式呈现的命令或 请求和/或作为话语呈现的命令或请求确定上下文信息,并使用多通道 自动语音识别模块对上下文信息进行处理,多通自动语音识别模块将 话语转录为文本。可将所述命令或请求与上下文描述语法进行比较以 识别匹配。可对照所述命令或请求对上下文描述语法中的任何活动语 法进行评分,并可将最佳的匹配发送给答复产生器模块。可将代理与 对应的答复产生器模块相关联,代理可检索用于产生答复的请求的信 息。代理可更新上下文堆栈以使得能够实现后续请求。根据本发明的另一实施例,移动装置可被构造为允许将对象的口 语注解存储在其上。移动装置可将口语注解转录给文本,并将文本注 解与对象一起存储。可替换地,移动装置可被构造为使得用户能够手 动输入与对象一起存储的文本描述。根据本发明的一个实施例,可对 文本注解和/或文本描述进行分类和搜索。在可替换的实施例中,移动 装置可对口语注解而不是文本注解进行分类和搜索。然而,对口语注 解进行分类和搜索可能比对文本注解和/或文本描述进行分类和搜索 困难得多。根据本发明的一个实施例,可使用移动电话或其它装置上的短消息服务传送文本注解和文本描述。短消息服务为能够实现短文本消息 的发送和接收的文本消息服务。可在数据中心存储文本消息以转发给 想要的接收者。可使用其它构造。根据本发明的另一方面,可将领域特定的行为和信息组织到数据 管理程序中。数据管理程序是接收、处理和答复用户问题、查询和命 令的自主可执行程序。数据管理程序提供完整的、方便的、可重新分 布的包或者典型地针对特定应用领域的功能性模块。数据管理程序可 以是完整的可执行代码、脚本、与信息的链接的包以及其它形式的通 信数据,所述其它形式的通信数据提供特定功能性包,通常是特定领 域中的特定功能性包。换句话说,数据管理程序可包括用于将功能性 扩展到新的领域的组件。此外,当新的行为被添加或者新的信息变得 可利用时,可通过网络远程对数据管理程序及其相关联的数据进行更 新。数据管理程序可使用系统资源和其它的服务,典型地更具体地讲, 数据管理程序的服务。可以以许多方式分布和重新分布数据管理程 序,包括在可拆除存储介质上、通过网络转移或附到邮件和其它消息 上。更新管理程序可用于将新的数据管理程序添加到所述系统或者更 新现有的数据管理程序。为了提高自然查询和答复环境,所述系统可对结果进行格式化以 提高对用户的理解力。结果的格式化和呈现可基于问题的上下文、呈 现的答复的内容、与用户的交互历史、用户的偏好和兴趣以及领域的 性质。相反,许多用户可能认为严格的高度格式化或结构化的结果呈 现是不自然的。根据本发明的另 一实施例,所述系统可仿真人类"个性"的一些方 面,在一些情况下,可使答复的呈现和用于提供答复的术语随意一些 以避免严格格式化或机械化的答复的出现。其它仿真的个性特点的使 用也是期望的。例如,可以以表示同情的方式呈现可能令用户苦恼的 答复。此外,请求的结果可以是长文本串、列表、表格或其它非常长 的数据集合。由于简单地读取长答复通常不是优选的,所以这种类型 的信息的自然呈现提出了特别的挑战。相反,所述系统可对答复的重要部分进行解析,并且最初可仅提供报告。确定呈现长答复的哪些部 分可基于问题的上下文、呈现的答复的内容、与用户的交互历史、用 户的偏好和兴趣以及领域的性质。同时,所述系统可给予关于要呈现 什么信息和要呈现多少信息的用户交互控制,以同时一起停止所有答 复,或者采取其它行动。可将本发明作为用户接口应用于广泛的各种环境中的远程信息处理系统。这些环境可包括但是不限于以下方面l)个人汽车、租 用汽车或车队汽车;2)摩托车、踏板车和其它两轮或野外车辆;3) 商用长途和短途卡车;4)递送服务车辆;5)车队服务车辆;6)工 业车辆;7)农业和建筑机械;8)水运车辆;9)飞机;和10)专用 军事、执法和急救车辆。根据本发明的另一方面,所述系统可对问题、请求和/或命令进 行处理和答复。可使用关键词或上下文来确定接收的话语和/或文本消 息是否包括请求或命令。例如,话语可包括问题、请求和/或命令的方 面。例如,用户可说"调到我喜欢的无线电台"。对请求进行处理以确 定用户喜欢的无线电台的名称、频道和时间。如果该台的节目编制是 用户通常不收听的类型,则所述系统可建议使用替代的选择,诸如更 可能让用户高兴地听CD。必须执行用于设置无线电台的调频的命令。本发明可用于移动环境中的一般化的本地或网络信息查询、检索 和呈现。对于包括问题或查询或者问题或查询集合的每段用户话语, 所述系统可执行多个步骤,这些步骤可包括l)通过在各种真实世 界的环境中操作的语音识别来捕捉用户的问题或查询;2)对问题或 查询进行解析和解释;3)确定所需要的专门知识的领域和上下文以 调用适当的资源,包括代理;4)对对一个或多个本地和/或网络数据源的一个或多个查询进行公式化表达,或者将合适的命令发送到本地或远程装置或系统本身;5)执行所需要的格式化、变量替换和变换 以将查询修改为最可能从可利用的源产生期望的结果的形式;6)以异步方式执行多个查询或命令,并恰当地处理失败;7)从一个或多 个结果提取或积攒期望的信息,可以以许多不同格式中的任何一种格式返回这些结果;8)对结果进行评估和解释,包括错误的处理,收 集这些结果并将这些结果组合成被判断为"最佳"的单个最佳结果,即 使这些结果有歧义、不完整或有冲突;9)执行所需要的格式化、变 量替换和变换以将这些结果修改为用户最容易理解的形式;10)以有 用的和/或预期的方式通过文本至语音引擎或多模式接口将混合的结 果呈现给用户;ll)可选地,将指示命令的成功或失败的答复提供给 用户,所述答复可包括状态信息;或者其它步骤。可利用专业领域的知识、问题或命令的上下文、领域特定信息、 用户的交互历史、用户偏好、可利用的信息源或命令以及从源获得的 答复来执行以上步骤。概率或模糊集决策和匹配方法可应用于处理不一致的、有歧义 的、有冲突的、不完整的信息或答复。另外,异步查询可用于提供请 求或命令的快速、恰当的失败,这允许所述系统鲁棒地快速地并以对 用户看似自然的方式返回结果。就像事实情况那样,许多曰常问题在本质上都是主观的,并导致 说法不一或一致的答案。此外,这样的问题通常特别地具有它们的性 质。根据本发明的另一方面的系统可使用自适应的概率和模糊集决策 和匹配方法来识别问题的主观性质,并对可能的答案的范围进行评 估,其中,可选择最准确地表示用户所期望的结果的类型的一个或多个答案。来自特定问题的上下文和预期结果可能高度依赖于问问题的个 体。因此,所述系统可创建、存储和使用关于每个用户的个人筒档信 息。当用户使用所述系统时,可自动对简档中的信息进行添加和更新, 或者可由用户或其他人对简档中的信息进行手动添加或更新。领域特 定代理可收集、存储和使用如最佳操作可能需要的特定的简档信息。 用户可创建这样的命令,即,用于常规使用的报告、自动产生的警报 和其它请求的命令、以及用于结果的格式化和呈现的命令。所述系统 可在对问题进行解释、对请求进行公式化表达、对请求结果进行解释 和将答案呈现给用户时使用简档数据。用户筒档中的信息的示例包括所问的问题的历史、会话历史、格式化和呈现偏好、特殊字拼写、感 兴趣的术语、感兴趣的特别数据源、年龄、性別、教育、位置或地址、 营业地点、营业的类型、投资、嗜好、体育兴趣、新闻兴趣以及其它 简档数据。
根据本发明的一方面,为了提供自然问题和答复环境,所迷系统 可试图提供快速的答复。可在没有获得附加信息的情况下提供快速的 答复。所述系统可通过使用实时评分系统或其它技术来确定用于用户 的问题或命令的代理组件、上下文和/或领域。基于这个确定,所述系 统可触发一个或多个代理对用户的问题或命令进行答复。所述代理可 发出一个或多个请求,并快速地返回格式化的答复。因而,用户可接 收对问题集合的直接答复,所迷问题集合中的每个问题具有不同的答 复或上下文。在一些情况下,可利用的信息,包括请求的结果,可能 不足以地回答所呈现的问题。在这样的情形下,可问用户一个或多个 后续问题以解决歧义性。然后可在提供让人满意的答复之前发出另外 的请求。在这些情况下,所述系统可使用上下文信息、用户简档信息 和/或领域特定信息以最小化递送答复所需的与用户的交互。
如果领域的置信水平或上下文得分不是高得足以确保可靠的答 复,则所述系统可请求用户验证问题或命令被正确地理解。通常,可 用短语描述问题以指示该问题的上下文,包括所有标准或参数。如果 用户确认问题是正确的,则所述系统可继续生成答复。否则,要么用 户可重新用短语描述原始问题,可能添加附加信息以去除歧义性,要 么所述系统可问 一个或多个问题以试图解决歧义性,要么可采取其它 行动。
根据本发明的一方面,所述系统可接受任何自然语言问题或命 令,结果,所述系统可经受有歧义的问题。为了辅助用户对简明的问 题和命令进行公式化表达,所述系统可支持声音查询语言。该语言可 帮助用户清楚地指定问题或命令的连同参数或标准一起的关键词或 上下文。所述系统可提供帮助用户学习将他们的问题和命令公式化表 达的最佳方法的内置训练能力。为了使对用户的问题和命令的答复看似更自然,所述系统可采用 一个或多个动态的能够调用的个性和/或情感模型。个性和情感模型具 有仿真实际的人的行为特点的特定特点。这些特点的示例包括同情、 愤怒、有用性和相关联的情感。个性还使答复的方面随意一些,就像 实际的人会做的那样。这个行为包括所使用的术语和信息呈现的次序 的随意化。使用概率或模糊集决策和匹配方法并使用标准来调用个性 和/或情感的特点,所述标准包括问题的上下文、用户的交互历史、用 户偏好、可利用的信息源、从源获得的答复。
根据本发明的另一方面,可采用呈现长文本串、表格、列表或其 它长答复集合的形式的信息的专门过程。以有序的方式简单地呈现长 信息集合可能不被认为是自然的或者大多数用户记得住的。所述系统 可使用概率或模糊集匹配方法来提取相关信息,并首先呈现这些子 集。此外,所述系统可提供允许用户跳过列表、找到列表中的关键词 或关键信息、或者同时一起停止处理列表的命令。
根据本发明的 一个实施例,所述系统可支持在不同时间访问该系 统的多个用户。根据本发明的另一实施例,所述系统可支持以交错或 重叠方式在相同会话期间访问该系统的多个用户。所述系统可通过姓 名、声音或其它特点识别多个用户,并可为每个用户调用正确的简档。 如果多个用户在重叠或交错的会话中对所述系统说话,则所述系统可 识别所述多个用户,并可调用一个或多个对应的简档,对于要求安全 防护措施的应用,可使用声紋匹配、口令或口令短语匹配或其它安全 防护措施对多个用户进行验证。
当多个用户参与交织会话时,所述系统可通过将概率或模糊集决 策方法用于每个用户来恰当地解决冲突。这个过程可仿真人将说出来 自各种源的多个问题的方式。例如> 所述系统可在及时回答较长的问 题的同时首先及时地回答短问题。可替换地,在其它构造中,所述系 统可按接收问题的顺序回答这些问题。
由于本发明可运行于许多环境中,所以语音输入的滤波可能是有 利的,所述环境包括具有背景噪声、点噪声源和保持会话的人的移动环境。本发明可使用,例如, 一维或二维阵列麦克风(或其它装置) 来接收人的语音。所述阵列麦克风可以是固定的,或者采用动态波束 形成技术。可对阵列模式进行调整以最大化用户方向上的增益并使点 噪声源不存在。可替换地,可在移动环境内的特定位置放置麦克风, 在所述特定位置附近,所有者可能使用所述系统。这些麦克风可以是 单个麦克风、定向麦克风或麦克风阵列。然后,可用模拟或数字滤波 器对在麦克风接收的语音进行处理以优化带宽、取消回波、切除窄带 噪声源或者执行其它功能。在滤波之后,所述系统可使用可变速率采 样来最大化编码的语音的逼真度,同时最小化所需要的带宽。在通过 无线网或链接传输编码的语音的情况下,这个过程可以是特别有用 的。
本发明可应用于宽范围的远程信息处理应用。 一般的应用范围可 包括,但是不限于,远程或本地车辆控制、信息查询、从本地或网络 源的检索和呈现、保险应用和安全性应用。
所述系统可为包括位于移动结构上或者不在移动结构上的装置 的系统提供本地或远程控制功能。用户可在本地或者远程发起命令。 典型地,可通过IP连接、电话连接或其它连接来进行远程操作。用 户可对移动装置或桌面单元说出口述命令,该移动装置或桌面单元可 通过无线链接将这些命令发送到车辆上的控制器。可使用其它远程命 令技术。所述系统可以以与请求近似相同的方式对命令进行处理。一 个不同在于命令的结果通常是动作而不是答复。在许多情况下,所述 系统可给用户指示已成功地执行命令或者命令失败的提示或答复。在 失败的情况下,可启动交互式会话来允许用户解决难题或者对更可能 成功地对命令进行公式化表达。
本发明为包括移动结构操作者的用户提供这样的能力,即,使用 交互式语音和非语音命令和/或请求来控制大多数任意的移动系统。通 常,危急性质的控制或者具有安全暗示的控制可采用自动防故障检 查,即,在执行之前,验证命令将不造成危险的条件。还可提供手动 超控器作为额外的预防措施。本发明可提供关于受控装置的内置帮助和用户向导。这个向导可包括对于正学习使用移动结构的特征的操作 者的逐步训练。当不能执行命令或者当命令失败时,所述系统可提供 扩展的交互式向导。这个装置可包括重新对随后的命令进行公式化表 达的建议、失败时的工作建议、关于可实现类似的功能的可替换命令 的建议或者其它建议。可通过本发明从本地或远程位置执行的控制功
能的示例包括
1、 移动结构多媒体娱乐电器的控制,所述娱乐电器例如是收音 机、CD播放器或视频播放器。这个控制可基于用户指定的播放列表, 并可能对用户简档信息敏感,所述用户简档信息包括偏好历史或其它 信息。本发明可包括控制多个或独个多媒体娱乐站的能力。
2、 通信装置的控制,所述通信装置诸如蜂窝电话、语音邮件系 统、传真系统、文本或即时通讯系统、呼叫和消息转发系统、电子邮 件系统和其它通信装置。这个控制包括控制以下特征,诸如,其它特 征中的通讯簿、电话簿、呼叫转发、会议呼叫和语音邮件。
3、 移动结构系统的本地或远程控制。移动结构上的大多数任意 的装置可被控制,所迷装置包括门锁、窗户控制器、内部温度控制器、 变速箱的换档、转向信号灯、安全仪器、发动机点火器、巡航控制器、 燃料箱开关、座位调节器、诸如绞盘机的专用仪器、提升系统或加载 系统以及其它移动结构系统。
4、 典型地,可通过无线链接对位于移动结构外部的系统进行控 制,所述系统包括车库门开门器、门控制器、移动接口入口安全通道、 自动玩具收集系统和移动结构称重系统以及其它外部系统。
5、 移动结构电源管理和系统控制。本发明可为移动结构操作者 提供关于极限和关于用于更好的电源管理或燃料利用或其它系统控 制的终端接口处理器的信息。
6、 诊断信息管理。本发明可为移动结构操作者提供诊断信息声 明和警告。这些声明和警告可以交互式地允许操作者请求附加信息或 者建议各种行动进程。本发明可对问题的解决方案进行调解,直到可 实现永久的解决方案为止,所述调解包括提供对调度服务的访问、呼唤帮助或者提供用于补救措施的指令。所述系统可要求操作者对所需 要的部分的定货进行授权,并可提供成本估计。所述系统可从宽范围 的源接收用于这些声明和警告的数据,所述源包括传感器和车辆控制 计算机。传感器可包括燃料水平传感器、冷却剂温度传感器、油温传 感器、轴温传感器、轮胎气压传感器和其它传感器。
7、 系统状态询问。移动结构操作者可使用本发明的交互式自然 语言接口来查询位于移动结构上的系统的状态,并接收关于该状态的 报告,所述状态包括燃料水平、内部温度、外部温度、引擎或其它移 动结构系统状态。如果检测到问题,则操作者可进一步查询系统以接 收更多的信息或者确定行动进程。
8、 车辆服务历史。本发明可为车辆驾驶者或其它人员提供对车 辆服务历史的交互式访问。当服务时间临近时,本发明可提供声明或 警告。用户可与所述系统交互以调度所需要的服务、订购所需要的部 分、接收成本估计、或者更新服务历史。用户可定制这个交互的性质 以满足他们的期望或策略。
9、 诊断和服务历史。本发明可提供诊断和服务历史信息以为人 服务。这个信息可包括车辆故障代码和关于受系统控制或者被系统测 量的装置的其它信息。可替换地,本发明可从其它控制计算机接收关 于车辆操作的状态和历史的信息。本发明可提供交互式服务信息和历
史。可通过语音接口或非语音接口来查询服务历史和呈现服务历史。 如果认为记录不完整,则所述系统可提示服务人员给予更多的信息。 在其它情况下,如果在系统状态中检测到改变,诸如一部分的替代, 则本发明可提示服务人员给予他们的动作的信息。
本发明可通过交互式语音接口和/或非语音接口为移动结构的用 户或操作者提供专用的安全功能。本发明可使用可动态引出的个性, 该个性能够创建适合于情形的严重性的声明。声明和个性可受制于用 户控制和构造。这些安全应用的一些例子可包括
1、本发明可通过无线通信链接提供事故情形的自动检测和报告。 可从气囊控制系统或其它传感器收集关于事故情形的信息。 一旦已检测到事故情形,本发明就可使用交互式语音接口和/或非语音接口来确 定事故的性质和/或受害者的状况。这个信息,与位置信息和其它相关 信息一起,可通过无线链接来报告。可替换地,本发明可在车辆的所 有者和急救人员之间建立声音信道通信或其它通信。
2、 本发明可用于存储和检索关于车辆所有者的医药信息。在事 故之后,急救人员可在所述系统中查询这个信息。可替换地,如果某 人具有专门的医药状况,则所述系统可对急救人员发出警告。所述系 统通过许多技术来维护医药信息的保密性,所述技术包括,除非检测 到事故,否则不通告医药信息,或者除非这个人或另一授权的人给出 许可,否则不通告医药信息。
3、 如果犯罪发生,则车辆的所有者使用语音接口和/或非语音接 口来呼唤帮助。典型的犯罪可包括盗窃和劫持。本发明允许车辆所有 者设置对系统指示犯罪正在发生的恐慌或急救单词或短语。
4、 如果检测到不安全或可能不安全的情形,则本发明可为车辆 驾驶者提供安全声明。驾驶者可使用交互式语音接口和/或非语音接口 来获得关于情形的更多的信息或者不理会警报。驾驶者可通告命令或 者以其它方式提供命令来补救或緩和这个对话期间的情形。可^Jt告 的状况包括,尾随另一车辆太近、对于道路或状况而言速度太快、路 面上的障碍、车辆的一些部分着火、高的货物压力或温度、泄漏和其 它信息。
5、 本发明的交互式语音接口和/或非语音接口可为操作者提供实 时帮助。这个帮助可包括,停牟或倒车的帮助、对于复杂机动的帮助、 对于车辆的最佳驾驶和其它操作的帮助。驾驶者可要求所述系统给予 对于有计划的机动或驾驶的忠告或帮助。可替换地,如果检测到某些 情形,则本发明可积极地提供帮助,
6、 可使用交互式语音接口和非语音接口来改进车辆安全性。可 使用声紋或声音认证来获取对车辆的使用或者开动车辆。可替换地或 者另外,可使用口令或口令短语。在另一可替换方案中,语音安全性 可用作对其它车辆安全性技术的补充。7、本发明可提供驾驶者疲劳的测量,并且如果检测到不可接受 的疲劳级别,则警告驾驶者或远处的人。可使用交互式语音接口和/ 或非语音接口来查询驾驶者以检测疲劳。可替换地,或者另外,可使 用驾驶者疲劳的其它测量。如果检测到疲劳情形,则本发明可发起与 驾驶者的对话来确定问题的程度,并且如果需要的话,则要求驾驶者 停止驾驶。
本发明可为车辆驾驶者和所有者提供当在车辆中时和/或当在到 达目的地时有用的各种服务。此外,用户可采用交互式自然语言接口 来定制这些服务以满足每个个体。本发明的自然语言交互式语音接口
可支持的服务的一些例子包括
1、 为车辆驾驶者提供到目的地或路点的交互式方向,其中,用 户可指定期望的目的地和任何优选的路点。可以以任何方式指定目的 地,包括提供地名、地址、人的姓名、企业的名称或其它类型的信息。 随着行程前进,如果犯了错误,则所述系统可为驾驶者提供继续的方
向和警告。驾驶者可向所述系统查询附加信息或者请求更少的信息。 通常,所迷系统与一个或多个导航传感器和本地或远程地图数据库建 立接口。本发明可为驾驶者或乘客提供即将到来的点或兴趣、退出或 停止、危险或其它状况的警^L。用户可向所述系统查询更多的特定信 息。可替换地,本发明可为车辆的驾驶者或所有者提供交互式向导旅 游。用户可采用所述系统的信息查询、检索和呈现能力来在旅游期间 接收附加信息或者感兴趣的点或项目,所述系统的信息查询、检索和 呈现能力可考虑存储的关于用户的个人简档信息。
2、 本发明可为车辆的驾驶者提供交互式动态路线安排信息。可 基于交通条件、天气条件、设施可利用性和由驾驶者提供的信息来更 新路线安排。通常,所述系统与一个或多个导航传感器、本地或远程 地图数据库以及交通、天气和设施使用数据的源建立接口。
3、 在帮助一个或多个驾驶者在预定目的地或任何其它方便的中 点集合的交互式系统中,可将本发明的方向、路线安排和通信能力组 合起来。驾驶者可使用交互式自然语言接口与所述系统交流来布置集合点,并且当他们旅行到集合点和/或与其他驾驶者交流时接收方向。
4、 本发明的导航能力可用于设置允许车辆前进行驶到哪和/或需 要多长时间的极限。所述系统可采用交互式自然语言语音接口和/或非 语音接口,以当车辆正逼近极限或者已超过极限时,通知驾驶者。驾 驶者可查询所述系统以确定最佳的行动进程,以返回到极限或者防止 超过极限。可替换地,所述系统可查询驾驶者以确定他们为什么超过 极限,或者如果境况要求扩大极限,则调解协商以扩大极限。在几种 情形下,这种能力是有用的,所述情形包括,使递送或载客车辆保持 在常规路线上、设置十几岁的青少年的使用极限并强制执行该使用极 限、防止驾驶者以未经授权的方式使用车辆或者其它情形。
5、 本发明的交互式自然语言接口可用于对车辆驾驶者和乘客提 供顾客关系管理(CRM)服务。用户可与经由数据网、视频信号或音 频提供的服务交互。可通过自动服务或者与现场顾客服务代表执行交 互。与顾客服务代表的交互可经由可能的技术的任何组合,所述技术 诸如现场音频、现场视频、电子通讯或电子邮件、即时通讯和其它技 术。可通过许多实体提供这些服务,所述实体包括车辆制造商、车辆 经销商、车辆服务机构、汽车或旅行俱乐部、无线载波、旅行服务机 构或其它机构。可使用各种信息来对所提供的服务赋予车辆的所有者 的个性,所述信息包括用户简档信息、历史、位置、旅行路径、 一天 中的时间、 一星期中的某天或其它信息。另外,所述系统可基于关于 车辆的信息来提供定制服务,所述信息包括旅行路径、距离、服务历 史、车辆上的仪器的类型。在其它情形中,在某人是车辆的所有者时, 在某人不是所有者但是正使用配备无线网或有线网的移动装置时,或 者在使用有线网或无线网桌面系统时,可接入这些服务。这些服务的 例子包括
a、基于位置的推销规划,其中,车辆的所有者沿着旅行路线从 商家接收促销报价。所有者可沿着旅行路线向所述系统查询商品、服 务的寺艮价和促销或其它信息。所述系统可应用其它可利用的信息来形 成答复,所述信息包括用户简档、历史、位置或其它信息。所述系统可对车辆驾驶者提供优化的交互式路线安排帮助。可替换地,所述系 统可沿着路线或者在特定行程之前提供关于商品和服务的交互式报 价和促销。可对商品的促销进行报价,服务可包括但不限于旅行服务、 食品杂货、预加工食品、车辆服务、燃料、娱乐或其它商品和服务。
b、 商品和服务的远程定货和支付。所述系统可使用本发明的列 表和表格呈现能力来交互式地呈现菜单或产品目录。所述系统可通过 使用位置信息、顾客偏好、顾客定单历史等来使远程定货变得便利。 所述系统可为用户管理安全的支付钱包。可将声紋、口述口令和非语 音安全性方法(即,PIN pad等)组合起来以创建适当等级的安全性。
c、 对于车辆的所有者的旅行服务。这些服务可包括旅行和娱乐 服务的名录或者娱乐餐厅、旅馆和其它住所的预定。所述系统可使用 它的交互式列表和表格呈现能力来呈现名录、列表和菜单。可结合远 程定货和支付能力以及动态交互式路线安排能力来使用旅行服务能 力。
d、 回答以下领域中的专门的旅行相关问题,所述领域诸如车辆 注册、税款、安全法、所需要的检验、重量限制、保险责任范围要求、 保险单条款或其它领域。
6、 本发明可使用自然语言接口为车辆的驾驶者或其他所有者提 供交互式位置敏感的购物列表或者位置和时间敏感的任务提醒列表, 用户可在车辆中、在步行使用移动装置时或者在固定位置使用手持或 桌面装置时创建列表。用户可给予其它用户将任务或购物项目添加到 他们的列表的许可。 一旦在车辆中,所述系统就可为所有者提供路线 安排帮助以对旅行时间进行优化,并且随着车辆靠近特定位置、特定 类型的商家或其它服务提供商的附近,或者在其它标准中,当已到达 设置时间时,所述系统可提供将购买的项目和将完成的任务的提醒。
7、 对于车队车辆的自动交互式调遣和报告,所述车队车辆具有 使用语音接口和/或非语音接口与这些服务交互的车辆驾驶者或其它 车辆所有者。这些服务可包括动态优化路线安排、部件和其它材料的 清单、所需要的部件和材料的定货、派工单、开收据、支付或其它服务。
8、销售人员自动化、销售报告、联系数据库管理、日历管理和 呼叫路由。所述系统可采用其交互式列表和表格呈现能力来供应目录 和定价信息或其它信息。这些服务可使用本地或网络数据。另外的服 务可包括备忘录、提醒器、活动列表或其它信息。
车辆驾驶者和其他所有者可使用本发明的交互式自然语言交互 式接口来执行许多类型的信息查询、检索和呈现操作。通过使用自然 语言交互式接口,用户可修改查询的参数或者指定结果的呈现格式。 用于创建答复的数据可来自本地和远程数据源的任何组合。可使用户 特定数据在固定到一个或多个车辆上的系统、移动结构和桌面系统之 间同步。用于本发明的信息查询、检索和呈现应用的一些例子包括但 不限于以下例子
1、 用于找到关于企业和个体的电子邮件地址、电话号码、街道 地址和其它信息的白页和黄页查找表。可结合其它服务使用这些服 务,所述其它服务包括远程定货和支付、报价和促销、绘图和驾驶方
向;
2、 对用户的个人地址簿、日历和提醒的管理和访问;
3、 自动电话拨号、通过声音、文本或视频读取和发送电子邮件、
页面、即时通讯以及其它通信控制功能;
4、 关于电视机、卫星广播、无线电或其它娱乐时间表的选择、 时间表、播放列表管理。可利用的信息可包括关于节目编制的回顾和 其它信息。所述系统可为用户提供装置控制;
5、 关于当地区域或其它位置的天气信息;
6、 股票和其它投资信息,包括价格、公司报告、简档、公司信 息、企业新闻事迹、公司报告、分析、价格警报、新闻警报、证券报 告、证券计划或其它信息;
7、 当地、国家和国际新闻信息,包括依据主题或位置的感兴趣 的大字标题、事迹摘要、整个事迹、音频和视频检索和事迹的播放;
8、 运动得分、新闻事迹、时间表、警报、统计、背景和历史信息或其它信息;
9、 通过将用户特定偏好应用于提取和呈现信息来交互式预订多 媒体信息频道的能力,所述多媒体信息频道包括体育、新闻、企业、 不同类型的音乐和娱乐;
10、 对所使用的或公布的信息或内容的权限管理;
11、 占星术、每日笑话和喜剧、纵横拼字谜检索和显示以及相关 娱乐或消遣;
12、 使用当地和网络材料的交互式教育规划,具有基于用户的简 档、车辆的位置、车辆的计划路线、行程期间的计划活动而设置的课 程材料水平,其包括交互式多媒体课程、宗教指导、计算器、字典和 拼写、地理信息、关于行程期间计划的专门任务的指导、语言训练、 外语翻译、技术手册说明和百科全书以及其它参考材料。
将意识到,并不是要将前述的本发明的特征的陈述作为穷举或限 制,而是通过参考这个完整的公开内容及其相当明显的变形和扩展来 领会本发明的正确范围。
将通过参考本发明的优选的可替换实施例并结合附图来描述本
发明,在附图中
图l是根据本发明的第一实施例的系统的总框图2是根据本发明的第二实施例的系统的总框图3是根据本发明的实施例的移动装置的总框图4是根据本发明的实施例的固定计算机的总框图5是根据本发明的实施例的交互式自然语言处理系统的总图
解视图6是显示根据本发明的实施例的代理架构的示意性框图; 图7示出根据本发明的一个实施例的用于集中维护上下文的示 图;和
图8示出根据本发明的一个实施例的增强型会话声音用户接口的系统图。
具体实施例方式
下面的详细描述参考附图描述本发明的示例性实施例。在不脱离 本发明的精神、功能性和范围的情况下,考虑其它实施例,并且可对 示例性实施例进行修改。因此,下面的详细描述不意味着限制本发明。
根据本发明的一个实施例,提供远程信息处理自然语言语音接口 和非语音接口用在移动环境和远程信息处理应用中。所述系统或者其 部分可被用在车辆中、步行时或者诸如办公室或家里的固定位置处或 者其它位置。图1中示出本发明的一个实施例的总框图。
可将语音单元128和/或鍵区14整体与移动结构IO耦合,或者 语音单元128和/或键区14可以是移动装置36、固定的家庭或办公室 计算机系统44或其它装置的一部分。移动装置36可包括移动电话、 个人数字助理、数字收音机、光盘播放器、导航系统或其它移动装置。 移动装置36可被构造为与机顶盒、闹钟、收音机或其它电子组件集 成。语音单元128和/或键区14可通过一个或多个数据接口 26与远程 信息处理控制单元(TCU) 28建立接口。根据一些实施例,主语音处 理单元98可被嵌入在一个或多个TCU28中。在一些实施例中,还可 在一个或多个TCU之间分布语音单元128的组件。
语音处理单元可被构建到移动装置36中,并可通过无线或有线 的手持接口 20与数据接口 26耦合。其它用户接口外设可通过数据接 口连接至TCU,并可包括显示器18,诸如用于显示文本、图形和视 频的触摸屏显示器;用于接收文本数据输入的键区14;用于接收多媒 体通信或会议的视频相机16;指取装置或触针,或者其它用户接口外 设。其它装置可通过以下数据接口连接至TCU,所述数据接口包括广 域RF收发器24、导航系统组件22或其它装置。导航系统可包括几 种组件,诸如,全球定位系统(GPS)接收器或其它无线电定位系统 接收器、陀螺仪或其它惯性测量仪器、诸如里程表的距离测量传感器 或者其它组件。无线电定位仪器可从一个或多个卫星或地面源40接收编码的信号。 一个或多个位置服务服务器48可辅助导航系统。可 通过数据接口连接至TCU的其它系统可包括汽车控制计算机、用于 诸如媒体播放器或其它电子系统的装置的数字控制接口、测量传感器 或其它专用电子仪器。
控制器和装置接口 30可使TCU 28连接至移动结构10内的各种 装置32。控制器和装置接口 30可用于执行来自自然语言接口的用户 的本地或远程命令。在一些情况下,控制器和装置接口 30可包括用 于与不同类型的装置交互的专用硬件。连同可控制接口 32的用于测 量的模拟或数字接口仪器一起,硬件接口可包括用于装置控制的模拟 或数组信号接口。这些接口还可包括封装或抽取装置32的特定行为 的专用软件。接口软件可包括硬件接口和一个或多个代理所特有的一 个或多个驱动程序。领域代理可包括控制特定装置或一类装置所需的 专用软件行为和数据。可通过对与特定装置或一类装置相关联的数据 管理程序进行更新来将新行为或更新的行为添加到所述系统。装置32 可包括手动控制器或手动超控器34。由于安全原因,控制器和装置接 口 30可合并这样的自动防故障系统,该自动防故障系统例如,可在 改变设置之前验证操作极限,以确保命令与来自手动控制器的设置不 沖突,并且在与其它命令或装置设置的一些组合中将不会引起不安全 的情形。可将确保安全操作的软件行为和数据包括在所述装置或一类 装置所特有的领域代理内。可通过控制器和装置接口 30控制的装置 和系统的示例包括电源管理系统、测量传感器、门锁、窗口控制器、 内部温度控制器、变速箱的换档、转向信号灯、光、安全仪器、发动 机点火器、巡航控制器、油箱开关、座位调节器、诸如绞盘机的专用 仪器、提升系统或加载系统和其它系统。
广域RF收发器24可与连接至数据网42的一个或多个广域无线 网38通信,数据网42包括因特网、公用交换电话网(PSTN) 42或 其它数据网。广域无线网可以是任何合适的基于地面或卫星的类型。 移动装置36可与一个或多个局域或广域无线网通信。配备有有线网 或无线网接口的家庭或办公室系统44可通过数据网或PSTN通信。根据本发明的一个实施例,可将数据和代理存储在具有一个或多
个主语音处理单元98的移动结构10、移动装置36和/或固定系统44 中,并使数据和代理在移动结构10、移动装置36和/或固定系统44 中同步。通过手持接口 20或其它本地数据连接,这些不同的系统之 间的同步可发生在广域无线网38、数据网42上。当任何两个或更多 个计算机连接至这些网络时,可自动执行同步。可替换地,可在用户 控制下应要求执行同步。同步过程试图确定哪个版本的数据元素或代 理是最新的或者最近的,并传播该元素。因而,同步是增量式改变过 程。在一些情况下,可执行数据库、数据库的一部分或者一个或多个 代理的完全代替,而不是执行一系列增量式更新。
广域无线网38、数据网42或PSTN可使移动结构10、移动装置 36和固定计算机44连接至提供多种服务中的一种服务的一个或多个 服务器。根据本发明的一个实施例,可提供交互式自然语言用户接口 , 该接口支持数据的转移或者语音、文本、视频和其它格式的传输。对 于以数据为中心的应用,可使用标准化的数据传输格式,包括,例如, 基于超文本传输协议(HTTP)之上的超文本置标语言、可扩展置标 语言(XML)和基于HTTP或其它传输协议之上的其它数据格式或 方案、基于各种传输协议之上的电子数据交换格式等。将理解,可分 情况逐个地考虑提供的服务的精确组合、提供服务的服务提供商、服 务提供商之间的契约关系和其它因素来确定服务器的精确构造。本发 明支持任何合适的构造。在每种情况下,这些服务器可自己将其分布 在一个或多个公共网或私人网上。以下给出可用于传递这些服务的服 务器的一些示例
1、为用户供应支付能力的一个或多个支付服务提供商56。这些
支付服务可包括一个或多个支付帐户的电子钱包能力,并可包括支付 安全信息、支付帐户信息、交易历史、帐户余额信息和其它信息。示 例性支付类型包括储值帐户、促销帐户、赊欠帐户、电信计费帐户、 借方帐户或者使用在线或离线方法存取的其它支付类型。可以以任何 方式计算支付款,包括特定商品或服务的支付款、预订支付款、计量支付款或其它支付款。可以以许多方式分布支付服务。用于存储和处 理支付交易信息的计算机和服务器的示例包括智能卡、主语音处理单
元128、移动装置36、 TCU 28、固定个人计算机44、支付网关、支 付服务器56或其它系统。
2、 如上所讨论的, 一个或多个顾客关系管理(CRM)系统52 可供应任意数量的消费者和企业顾客服务。CRM系统可供应自动月艮 务或者部分或完全人工的服务。对于人工服务, 一个或多个顾客服务 代表可使用一个或多个服务代表工作站54。 CRM系统和服务代表工 作站可连接至一个或多个数据网42或PSTN。任何其它服务器也可具 有与一个或多个服务代表工作站的连接,这些工作站可以是共有的或 者彼此独立。
3、 一个或多个专用服务服务器50可支持专用消费者和企业服务。
4、 一个或多个位置服务服务器48可供应位置信息和基于位置的 服务。位置数据被用作输入到位置服务器的数据,然后可以以任何合 适的方式分布该数据,所述方式包括在主语音处理单元128、移动装 置36、 TCU28、固定个人计算机44、其它服务器(即,46、 50、 52、 56)或者一个或多个位置服务服务器48上。
5、 一个或多个急救服务服务器46可为用户供应公共和私有急救 服务两种。
可以以许多方式在移动装置36中分布主语音处理单元98、语音 单元128和键盘14。例如,这些单元可作为独立组件或者作为单个集 成组件附到移动装置36上。在本发明的另一实施例中,可将主语音 处理单元98和语音单元128中的一些或所有嵌入在TCU 28、移动装 置36、固定计算机系统44或其它装置中的一个或多个中。
图2示出本发明的第二实施例的可替换框图。在这个实施例中, 主语音处理单元98和语音单元128位于TCU 28外部。可将这些组件 储藏在一个或多个包中,或者可将这些组件包括在单个集成包中。
在所有其它方面中,第二实施例与图1中示出的第一实施例类似。将理解,可根据部署情形的细节来确定主语音处理单元98和语 音单元的精确的分布和包装,并且主语音处理单元98和语音单 元128的精确的分布和包装不应该以任何方式改变本发明的功能性、 能力或精神。
图3示出包括主语音处理单元98和语音单元128的移动装置36 的一个实施例的框图,主语音处理单元98和语音单元128被嵌入在 移动装置36、移动电话或其它移动装置中。主语音处理单元可与位于 移动装置36中的一个或多个处理单元70建立接口。处理单元70可 包括一个或多个中央处理单元、 一个或多个数据和地址总线、数据接 口、易失性存储器或其它组件。处理单元70可将多种类型的非易失 性存储器80中的一种类型用于软件和数据存储。合适类型的非易失 性存储器80可包括闪存和硬盘驱动器。在一些实施例中,主语音处 理单元98可与一个或多个处理单元70集成。
根据一个实施例,用户可通过语音单元128、键区74或键盘、 显示器72或其它外设与移动装置36交互,显示器72显示文本、图 形、视频。在一些实施例中,显示器可以是触摸屏类型。可替换地, 在其它装置中,可使用定点装置(未显示)。
移动装置36可通过一个或多个接口连接至一个或多个有线或无 线广域网或局域网。广域网收发器78可使用无线或有线连接连接至 广域无线网38或数据网42,所述无线或有线连接包括IP连接、拨号 PSTN网连接或其它连接。局域网收发器76可连接至有线或无线局域 网。这些网络可包括手持接口 20或与固定计算机系统44的连接。在
移动装置环境和固定计算机环境中,由于自然语言命令的定义可能不 完整,所以人和机器之间的交流可能至少没有提供精确的结果。可通 过对以前的话语的上下文、领域的知识和/或用户的兴趣和偏好的历史 或者其它因素进行杠杆调节来减少不精确的结果的发生。
根据本发明的一个实施例,可在移动装置36执行处理。可替换 地,可在服务器端执行处理。在又一实施例中,处理可在移动装置36 和服务器端都发生。移动装置36可现场对命令进行处理以使得移动装置36能够控制它们自己和/或控制其它移动装置36、固定计算机44、 移动电话或其它装置。另外,移动装置36可跟踪上下文。才艮据图7 中示出的本发明的另一实施例,可对上下文管理程序702进行集中维 护以允许输入到多个移动装置36和从多个移动装置36输出。每个移 动装置可与上下文管理程序702通信以经由注册模块712注册,其中, 注册可指示移动装置36可预订的事件。上下文管理程序702可接收 例如上下文XML表单的输入。可通过上下文跟踪模块714向其它注 册的移动装置36通知上下文改变,从而使注册的移动装置36之间的 上下文同步。根据本发明的一个实施例,可添加或去除注册的移动装 置36。注册的移动装置36可以是动态链接库(DLL)、对象代码或 者可能是移动装置36所特有的其它数据。
根据本发明的又一可替换实施例,可从作为文本消息而呈现的命 令或请求和/或作为口头话语而呈现的命令或请求来确定上下文信息, 并使用多通路自动语音识别模块对上下文信息进行处理,多通路自动 语音识别模块将口头话语转录为文本消息。多通路自动语音识別模块 可使用其它资源中的口述语法或大的词汇表语法来将口头话语转录 为文本消息。在口述语法不可利用的平台上,多通路自动语音识别可 使用虚拟口述语法,虚拟口述语法将假字用于词汇表之外的字。假字 可包括实用字、无意义的字、分离音节、分离独特的发声和其它假字。
根据本发明的一个实施例,可在文本消息中搜索特定字符、字符 组、单词、词组和其它文本组合。可将文本组合与上下文描述语法中 与每个代理106相关联的条码进行比较。如果在上下文描迷语法中的 活动语法和命令和/或请求之间识别到匹配,则可对该匹配进行评分。 可基于确定的得分对代理106进行分级。在从从代理106接收的一个 或多个答复产生总答复中,可基于代理106的等级确定来自各个代理 的答复的排序。可通过答复产生器模块产生总答复。代理106可更新 上下文堆栈以使得能够实现后续请求,上下文堆栈包括命令上下文的
排序列表。
根据本发明的另 一实施例,如果在文本消息和活动语法之间没有找到匹配,或者仅找到部分匹配,则知识增强型语音识别系统可用于 从语义上使搜索变宽。知识增强型语音识别系统可用于确定请求的意 图和/或校正错误的识别。知识增强型语音识别可访问存储在上下文堆 栈中的预期的上下文的集合,以确定最可能的上下文。知识增强型语 音识别可使用能够识别上下文的上下文特定匹配程序,所述上下文诸 如时间、位置、数量、日期、类别(比如,音乐、电影、电视、演讲 等)和其它上下文。可通过将字符、字符组、单词、词组和其它文本 组合进行比较来执行匹配。可替换地,或者除了基于文本的匹配之外, 可使用其它技术中的音标匹配来执行匹配。任何匹配的结果可用于产
生被传送到代理106以用于另外的处理的命令和/或请求。根据本发明 的一个实施例,非语音接口 114可以以比通过语音接口可能的方式更 简明的方式显示系统、状态和历史信息。非语音接口 114可被访问以 创建或扩展代理106的能力。这些操作可包括其它操作中的代理的脚 本撰写、将数据添加到代理或代理所使用的数据库102、将链接添加 到信息源。
根据本发明的另一实施例,移动装置36可碎皮构造置为允许将对 象的语音注解存储在其上。所述对象可包括照片、日历条目、电子邮 件消息、即时消息、电话簿条目、语音邮件条目、数字电影或其它对 象。移动装置36可将语音注解转录为文本注解,并将文本注解与对 象一起存储。可替换地,移动装置36可被构造为使得用户能够输入 与对象一起存储的非语音注解,诸如文本描述。
根据本发明的一个实施例,可在服务器端、客户机端、服务器端 和客户机端的组合上或者根据其它构造存储注解的对象。本发明还考 虑在分布的工作组之间协作交换和共享注解的对象,所述工作组可包 括具有用于提供共同的对象存储和检索设施的共享工作区的集中式 服务器。可在集中式服务器上实现共享工作区,并可使用移动装置36 从不同的平台访问共享工作区。所述系统可包括用于访问注解的对象 的对等系统。
根据本发明的一个实施例,可对非语音注解进行分类和搜索。在可替换的实施例中,可对语音注解进行分类和搜索。然而,对语音注 解进行分类和搜索可能比对非语音注解进行分类和搜索困难得多。
根据本发明的另一实施例,可将与对象相关联的文本注解和/或 文本描述存储为元数据,从而使得能够使用元数据来搜索对象。元数
据可包括GPS信息、环境信息、地理信息或其它信息。例如,可使 用GPS信息、环境信息、地理信息或其它信息来确定对著名的路标 的接近,并可将这个信息集成到与对象相关联的元数据中。根据本发 明的一个实施例,可将GPS坐标存储在与对象相关联的元数据中, 用户可基于GPS坐标搜索所选择的对象。用户可提供语音命令,诸 如"为我显示Greece的所有照片"。在这种情况下,所述系统将对象 的类型限制为照片,并将确定Greece的GPS坐标。然后,所述系统 将在元数据中搜索与照片对应并且还满足Greece的GPS坐标的对 象。根据本发明的另一实施例,将GPS坐标包括在对象的元数据中 使得能够基于GPS坐标对对象进行后处理。例如,可基于存储在元 数据中的通用GPS坐标对对象进行初始整理,并可基于关于GPS坐 标的更多的特定标准对对象进行另外的整理。因而,用户最初可搜索 与著名的路标附近的位置对应的对象元数据,并可将图像匹配用于用 可搜索的元数据(即,文本描述)对对象进行标注。例如,通过使用 存储在元数据中的GPS坐标,用户可首先确定在Jefferson Memorial 拍摄的照片,并可将这个信息用于用包括"Jefferson Memorial的照 片,,的可搜索的元数据(即,文本描述)对照片进行标注。本领域的 普通技术人员中的一个将容易意识到,元数据可包括各种类型的信 息,并可通过使用各种类型的信息来搜索元数据。
根据本发明的一个实施例,在移动电话或其它装置上可使用短消 息服务来传送文本注解。短消息服务为能够实现短文本消息的发送和 接收的文本消息服务。可在数据中心存储文本消息以转发给想要的接 收者。可使用其它构造。
根据本发明的另一实施例,在其它构造中,移动装置36可支持 多模式通信,多模式通信能够实现在图形接口上显示非语音搜索结果和接收语音命令以提供后续搜索。例如,可为用户呈现与著名人物的 姓名对应的文本搜索结果,并且用户可提供语音命令来找到该著名人 物的传记。所述系统可维持文本搜索结果的上下文以找到与所述著名 人物相关联的传记。相反,已知的系统可对术语"传记"执行后续搜索, 并可呈现术语"传记"的词典定义。
图4示出使用固定计算机44的实施例。在一些实施例中,可将 主语音处理单元98和语音单元128嵌入在固定计算机44中。主语音 处理单元可与和固定计算机相关联的一个或多个处理单元84建立接 口。处理单元可包括一个或多个中央处理单元、 一个或多个数据和地 址总线、数据接口、易失性存储器或其它组件。处理单元可将多种类 型的非易失性存储器94中的一种用于软件和数据存储。合适类型的 非易失性存储器包括,例如,闪存和硬盘驱动器。在一些实施例中, 可将主语音处理单元98与一个或多个处理单元84集成。根据本发明 的一个实施例,可在固定计算机44执行处理。可现场对命令进行处 理以使得固定计算机44能够控制它们自己和/或控制其它固定计算机 44、移动装置36、移动电话或其它装置。另外,如上所述,固定计算 机44可跟踪上下文。
根据本发明的另一实施例,固定计算机44可被构造为允许将对 象的口语注解存储在其上。固定计算机44可将口语注解转录为文本, 并将文本注解与对象一起存储。可替换地,固定计算机44可被构造 为使得用户能够手动输入与对象一起存储的文本描述。根据本发明的 一个实施例,可对文本注解和/或文本描述进行分类和搜索。在可替换 的实施例中,固定计算机44可对口语注解而不是文本注解进行分类 和搜索。然而,对口语注解进行分类和搜索可能比对文本注解和/或文 本描述进行分类和搜索困难得多。
在本发明的另一实施例中,用户可使用语音单元128、键盘88 或键区、显示器86或其它外设与固定计算机44交互,显示器86用 于显示文本、图形、视频。根据本发明的一些实施例,显示器可以是 触摸屏类型。可替换地,可与其它装置一起使用定点装置(未显示)。可通过一个或多个接口将固定计算机44与一个或多个有线或无线广 域网或局域网耦合。广域网收发器92可使用无线或有线连接连接至 广域无线网38或数据网42,所述无线或有线连接包括IP网、拨号 PSTN网连接或其它连接。局域网收发器90可连接至有线或无线局域 网。这些网络可包括与移动装置36的连接。
为了使装置适当地答复以自然语言形式提交的请求和/或命令, 可在对自然形式的问题或命令进行解析和解释之后对机器可执行的 请求和/或算法进行公式化表达。算法描述机器应该如何收集数据来答 复问题或命令。根据请求或命令的性质,可能不存在将返回让人满意 的答复的简单的请求和/或算法集合。可能需要发起几个请求和算法, 甚至可能需要对这些请求和算法进行束缚或结合以实现完整的答复。 此外,没有单个可利用的源可包含产生完整的答复所需要的整个结果 集合。因而,可产生可能具有几个部分的多个请求和/或算法来访问位 于本地或远程的多个数据源。不是所有的数据源、请求和/或算法都可 返回有用的结果,或者根本不返回任何结果。通常将返回的有用的结 果嵌入在其它信息中,并且可能需要从这些信息提取这些有用的结 果。例如,可能需要从大量的文本串、表格、列表、页面、视频流中 的其它信息或其它信息"积攒"几个关键词或数字。同时,可去除包括 图形或图片的不必要的信息以对答复进行处理。在任何情况下,必须
对多个结果进行评估并组合这些结果以形成最佳的可能的答复,甚至 在一些请求不返回有用的结果或者未能完整地生成结果的情况下,也 必须对多个结果进行评估并組合这些结果以形成最佳的可能的答复。 在确定命令具有歧义或者结果在本质上主观的情况下,确定要在答复 中呈现的结果是个复杂的过程。最后,为了维持自然交互,应该将答 复快速地返回给用户。在维持实时性能的同时对复杂的不确定的请求 进行管理和评估是个重要的挑战。
本发明为远程信息处理应用提供完整的基于语音的命令产生、信 息查询、检索、处理和呈现环境或者基于语音和基于非语音的命令产 生、信息查询、检索、处理和呈现环境的组合。另外,本发明对于控制系统自身和/或外部装置可能有用。这个集成环境可最大化地利用上 下文、先验信息和领域以及用户特定的简档数据来为提交多个领域中 的请求或命令的一个或多个用户实现自然环境。通过这个集成方法, 可创建完整的基于语音的自然语言命令、算法和答复环境或者基于语 音和基于非语音的命令、算法和答复环境的组合。
远程信息处理自然语言接口可被部署为TCU或其它移动装置36
的一部分或外设,被部署为通过有线、无线、光学或其它类型的连接 与车辆计算机和其它移动系统建立接口的移动装置或者通过有线、无
线、光学和/或其它类型的连接与车辆计算机或其它系统建立接口的固 定计算机的一部分。可替换地,可以以任何合适的方式在这些多个计 算平台之间分布交互式自然语言远程信息处理接口的组件。
图5示出根据本发明的实施例的系统卯的一个示例性示意图。 系统卯可包括主单元98、语音单元128和多模式装置155。在可替 换的实施例中,系统98可包括关于主单元98、语音单元U8和多模 式装置155的完全分离的系统。事件管理程序100可对主单元卯的 组件之间的交互进行调解。事件管理程序IOO提供多线程环境,该多 线程环境允许系统98没有冲突地以有效率的方式对来自多个用户会 话的多个命令或问题进行操作,以维持实时答复能力。
图8示出增强型会话用户接口 800的一个示例性实施例,增强型 会话用户接口 800从用户802接收多模式输入,并与会话语音分析器 804通信。会话语音分析器804可与几个组件耦合,所述组件包括一 般认知模型806、环境模型808、个性化认知模型810和自适应错误 识别分析引擎812或其它组件。根据本发明的一个实施例,会话语音 分析器804可包括将话语转录为文本消息的一个或多个语音识别引 擎。可使用一个或多个会话语法、上下文描述语法1U或其它转录方 法来执行转录。根据本发明的一个实施例,可将以文本形式键入的数 据与被从话语转录为文本格式的数据合并。会话语音分析器804还可 包括基于语义知识的模块,该模块分析文本消息并检测命令组成。
根据本发明的一个实施例,个性化认知模型810为从用户与所述系统的交互模式得到的模块,该模块可用于预测用户在下一时间可能 采取什么动作,从而辅助语音识别和/或问题或命令识别。个性化认知
模型810可跟踪用户执行的动作。当所述系统试图预测用户行为时, 可首先请教个性化认知模型。所述系统可具有多个个性化认知模型, 其中, 一个模块可与每个用户对应。
根据本发明的另 一实施例, 一般认知模型806为对应于多个用户 与所述系统的交互模式的统计抽象。存储在一般认知模型806内的数 据可用于预测用户的下一动作,从而辅助语音识别和/或问题或命令识 别。 一般认知模型806还可跟踪特定用户已执行什么动作,当用户以 不在个性化认知模型中处理的方式与所述系统交互时,可使用一般认 知模型806。
根据本发明的一个实施例,环境模型808可包括与用户的环境和 周遭相关联的信息。该信息可包括用户所处的环境的类型(比如,安 静或吵闹);麦克风和/或扬声器系统的细节;如可由GPS确定的用 户的当前全球位置和移动;当前的系统状态,诸如正播放什么歌曲/ 电影、为正在检索一些东西之中的系统或者其它系统状态;紧邻的所
有能够发声的装置的细节,诸如在同一房屋内能够发声的TV、立体 声系统和DVD播放器的存在;用户的信用卡信息,诸如号码和当前
余额,其中,用户可让移动电话下载和支付视频,并且所述系统可响
应资金不足;或者其它信息。可访问所述信息以调用上下文、领域知 识、偏好和/或提高问题和/或命令的解释的其它认知品质。
会话语音分析器804还可访问一般认知模型806和/或个性化认 知模型810以进一步提炼上下文、领域知识、偏好和/或提高问题和/ 或命令的解释的其它认知品质。基于从一般认知模型806、环境模型
808和/或个性化认知模型810接收的信息,所述系统可通过包括用户 行为的预测来提高对命令和问题的答复。
自适应错误识别分析引擎812可对被会话语音分析器804识别为 不被识别的或者被不正确识别的文本消息进行分析,并存储该文本消 息,该文本消息包括转录的话语。当一确定文本不被识别时,所述系统就可产生不被识别的事件。例如,不被识别的事件可由没有找到与 文本和/或转录的话语的匹配引起。
根据本发明的一个实施例,所述系统可实现确定文本消息被不正 确地识别的一种或多种技术。例如,在其它变形中,用户可命令所述 系统播放特定的歌曲标题,所述系统可能错误识别请求的歌曲标题并 提供具有不同标题的歌曲,所述系统可能错误识别不正确的歌曲标题 并提供具有与请求的标题不同的标题的歌曲,所述系统可能错误识别 正确的歌曲标题并提供具有无效的歌曲标题的歌曲。当所述系统错误 识別请求时,用户典型地提供直接反馈,诸如,在比命令的预期执行 时间短的时间内推翻命令、重复原始请求、发出停止命令或者采取其 它动作,其中,在其它构造中,可口头呈现所述动作、通过在蜂窝电 话或远程控制器上按下所选择的按钮来非口头呈现所述动作,或者口
头呈现所述动作并通过在蜂窝电话或远程控制器上按下所选择的按 钮来非口头呈现所述动作。根据本发明的一个实施例,所述系统可检
测用户动作,并可提示用户重新用短语描述请求以使得所述系统能够 修改查询中的单词。可在统计模型中对用户的动作进行分析以确定对 特定命令的错误识别的频率发生,结果用于更新对应的个性化认知模
型810。
根据本发明的另 一实施例,会话语音分析器804可访问个性化认 知模型810以为接收的文本积极地选择下一最佳(或第n最佳)匹配。 可通过用户动作确认匹配,所述用户动作包括用户不直接取消命令或 采取其它动作。还可对错误识别进行分析,以可能确定用于所述系统 的语音识别组件的个性化的调整参数。例如,所述系统可随着时间通 过分析语音识别引擎如何错误识别话语来调整语音识别引擎以来提 高识别。
事件管理程序100可调解本发明的其它组件之间的交互。事件管 理程序可提供多线程环境,该多线程环境允许所述系统没有冲突地以 有效率的方式对来自多个用户会话的多个命令或问题操作,同时维持 实时答复能力。代理106可包括可被访问以对请求和/或命令集合作出答复的语 法、标准处理程序和算法的集合。代理106还可包含用于系统98的 一般行为和领域特定行为两种行为的包。代理106可将非易失性存储 器用于数据、参数、历史信息和在系统数据库102或其它本地源中提 供的本地存储的内容。可提供一个或多个用户简档110,用户简档110 包括用于确定代理106的行为的用户特定数据、参数和会话和历史信 息。可在数据确定系统中提供一个或多个个性模块108,个性模块108 包括用于代理的个性特点。更新管理程序104管理代理106及其来自 因特网146或者通过网络接口 116的其它网络的相关联的数据的自动 和手动加载和更新。
根据本发明的一个实施例,用于系统90的基于语音的接口可包 括一个或多个语音单元128。语音单元128可包括一个或多个麦克风, 例如阵列麦克风134,以从用户接收话语。滤波器132可对在麦克风 134接收的语音进行处理,并将该语音传递到用于编码和压缩的语音 编码器138。在一个实施例中,收发器模块130可将编码的语音发送 到主单元98。收发器130检测从主单元98接收的编码的语音,然后 语音编码器138对该语音进行解码和解压缩,扬声器136宣读该语音。
根据本发明的一个实施例,用于系统卯的基于非语音的接口可 包括一个或多个多模式装置155,其可包括移动装置、独立计算机和 联网计算机、个人数字助理(PDA)、便携式计算机装置或其它多模
语音单元128、多模式装置155和主单元98可通过通信链接通 信。通信链接可包括有线或无线链接。根据一个实施例,通信链接可 包括RF链接。语音单元上的收发器130可通过与主单元98上的收发 器126的通信链接双向传送编码的语音数据。根据另一实施例,RF 链接可使用任何标准的局域无线数据协议,包括IEEE 802.11、蓝牙 或其它标准。可替换地,可使用符合任何合适的标准的红外数据链接, 所述标准诸如IrDA或其它红外标准。在可替换的实施例中,接线可 连接语音单元128和主单元98,去除了对于一个语音编码器138的需要。可使用其它有线或无线模拟或数字传输技术。
根据本发明的一个实施例,将在主单元98上的收发器126接收 的编码的语音传递到用于解码和解压缩的语音编码器122。在其它信 息中,语音识别引擎120可使用上下文描述语法模块112对解码的语 音进行处理。解析程序118可对任何识别的信息进行处理,解析程序 118使用由知识代理供应的数据将信息变换为完整的算法和问题。可 使用语法堆栈来从多个代理106选择知识代理,其中,知识代理提供 用于产生对问题或命令的答复的信息。然后知识代理可通过创建提交 到本地数据库102的请求或者通过网络接口 116提交到因特网146或 外部其它网络上的外部数据源的请求来对命令或问题进行处理。算法 典型地导致由系统90自己采取的动作(即,暂停或停止),或者通 过与因特网的网络接口或其它数据接口对远程装置或数据源采取的 动作(即,下栽数据或程序或者控制远程装置)。
根据本发明的一个实施例,知识代理可将问题的结果作为答复返 回给用户。可使用信息请求的结果、系统个性108、用户偏好、用户 简档110中的其它数据和/或其它信息来创建答复。代理106可使用语 音单元128来呈现这些结果。代理106可创建发送到文本至语音引擎 124的答复串。文本至语音引擎124可产生语音编码器122可对其进 行编码和压缩的话语。 一旦被编码,收发器126就将话语从主单元98 发送到语音单元128上的收发器130。然后,语音编码器138对话语 进行解码和解压缩,扬声器136输出该话语。可替换地,代理106可 使用多模式装置155来呈现结果。
非语音接口 114可以是多模式装置155的一部分,或者与多模式 装置155分离,可将非语音接口 114用作语音接口的替代或者补充。 例如,非语音接口 114可用于以用户更容易理解的方式呈现非语音(比 如,图形或表格)信息和与非语音信息交互。根据本发明的一个实施 例,可提供多模式支持以维持声音交互期间和通过非语音接口 114的 交互期间的上下文。在一个示例性实施例中,可在多模式装置155和 主用户接口系统卯之间开放通信信道,以允许多模式装置155输入文本命令和问题。根据本发明的一个实施例,多模式装置155可发送 命令或问题的文本串或关键词。主接口系统90可使多模式装置155 和语音单元128之间的上下文同步。为了将答复发送到对应的装置, 主用户接口系统90可跟踪输入从其而来的地方,从而可将答复发送 到TTS或多模式装置155。
根据本发明的一个实施例,非语音接口 114可以以比可通过语音 接口的方式更简明的方式显示系统、状态和历史信息。可访问非语音 接口 114以创建或扩展代理106的能力。这些操作可包括其它操作中 的代理的脚本撰写、将数据添加到代理或者代理所使用的数据库102、 将链接添加到信息源。
根据本发明的另一实施例,系统90可包括不同类型的代理106。 在本发明的一些实施例中,可将一般行为和信息以及领域特定行为和 信息组织到领域代理156中。另一方面,系统代理可提供默认功能和 基本服务。领域特定代理可为每个应用领域提供完整的、方便的和可 重新分布的包或模块。换句话说,领域代理可包括在当前领域或者新 的领域中扩展或修改系统90的功能性所需的数据'此外,当添加新 的行为或者新的信息变得可利用时,可通过网络远程更新领域代理及 其相关联的数据。领域代理可访问可提供各种服务的多个源。领域代 理可使用其它的服务,典型地更具体地讲,数据管理程序和系统代理 的服务。以许多方式分布和重新分布代理,所述方式包括在可拆除的 存储介质上、通过网络转移或者附到电子邮件或其它消息上。本发明 可提供许可证管理能力,许可证管理能力允许第三方一次或者基于预 订将数据管理程序卖给一个或多个用户。另外,具有特定的专门知识 的用户可通过添加新的行为和信息并使得其他用户可利用这些数据 管理程序来创建数据管理程序和更新现有的数据管理程序。图6中显 示根据本发明的实施例的代理架构的框图。
代理106可接收事件,并将事件返回给事件管理程序100。系统 代理150和领域代理156都可从解析程序118接收问题和命令。基于 问题和命令中的关鍵词以及问题和命令的结构,解析程序可调用所选择的代理。代理将非易失性存储用于数据、参数、历史信息和在系统
数据库102中提供的本地内容。
根据本发明的一个实施例,当所述系统开机或者启动时,代理管 理程序154可加载系统代理150和一个或多个领域代理156,并对系 统代理150和一个或多个领域代理156进行初始化。代理管理程序154 包括代理106的知识,并将代理106映射到代理库158。在关机时, 代理管理程序可卸载代理106。代理管理程序154还对领域代理156 和数据库102中的内容执行许可证管理功能。
系统代理150管理标准处理程序152,标准处理程序152处理用 于确定关于问题和命令的上下文的特定参数或值(标准)。才艮据本发 明的一个实施例,标准处理程序152包括解析例行程序,其专用于识 别语音的特定部分,诸如时间、位置、电影标题和语音的其他部分。 标准处理程序152可识别匹配短语,并从这些短语提取语义属性。系 统代理150和领域代理156都可使用标准处理程序152。各领域代理 156可使用系统代理150和其它的服务,典型地更具体地讲,领域代 理156的服务。系统代理150和领域代理156可使用代理库158的服 务,代理库158包含关于公共使用的功能的实用程序。根据本发明的 一个实施例,代理库可以是实现一个或多个代理的动态链接库。代理 库可包括关于文本和串处理、网络通信、数据库查找和管理、模糊和 概率评估、文本至语音格式的实用程序以及其他实用程序。
可用编译的代码对领域代理156进行数据驱动、撰写脚本或创 建。 一般代理的库可被用作用于数据驱动或撰写脚本的代理的起点。 典型地,将用编译的代码创建的代理构建到动态可链接或可加载的库 中。代理的开发者可根据需要将新的功能性添加到代理库158中。以 下将在各部分中对代理分布和更新以及代理创建或修改的细节进行讨论。
根据本发明的另一实施例,提供这样的能力,即,使用更新管理 程序104通过无线网或有线网136分布和更新系统代理150、领域代 理156、代理库158組件、数据库102和上下文描述语法112,所述无线网或有线网136包括IP网和拨号网。网络接口 116可提供与一 个或多个网络的连接。更新管理程序104还可管理核心系统更新的下 载和安装。代理管理程序154可对领域代理和数据库执行许可证管理 功能。更新管理程序104和代理管理程序154可对所有的代理和数据 库内容执行这些功能,所述代理和数据库内容包括所有用户或代理可 利用的代理和内容和/或所选择的用户可利用的内容。基于周期性添加 或更新的代理和数据库组件的示例包括
參用于新的领域的代理;
*用于代理的附加领域知识;
*用于领域的新的关键词,其可包括政客、运动员、演艺人员的 姓名、新的电影或歌曲的名称等,所述政客、运动员、演艺人员、新 的电影或歌曲最近受到突出关注;
*与用于覆盖领域的优选信息源集合的链接,所述领域包括对于 娱乐、新闻、体育、天气等的链接;
參基于例如税法的改变、公司合并、变化的政治分界线对领域信 息的更新;
參对内容的更新,所述内容包括词典、百科全书、年鉴;和 參其它内容和数据库组件。
当用户需要或者选择新的领域代理156或数据库元素102时,更
新管理程序104可通过网络接口 116连接至它们在网络1"上的源, 下载和安装代理或数据。为了节省系统资源并符合任何许可证条件, 更新管理程序104可卸载不再使用的代理。在本发明的一个实施例中, 更新管理程序104可周期性地查询许可的代理和数据库组件的一个或 多个源,以当代理可执行程序、脚本或数据变得可利用时,对对代理 可执行程序、脚本或数据的更新进行定位和下栽。可替换地,当注册 的或者许可的代理的代理更新变得可利用时,代理源可启动将所述代 理更新下载到更新管理程序的步骤。
代理管理程序154可提供能够执行大多数任何许可证期限和条 件的许可证管理客户机程序。当基于提交的命令选择特定代理106和/或数据库元素102时,代理管理程序154验证代理或数据元素的使用 在所允许的期限和条件内,并且如果是这样,则调用代理或者允许对 数据元素的访问。可通过代理管理程序154实现的许可证管理方案包 括直接买断、预订更新、 一次或有限次使用。还可由代理管理程序154 对共享的代理和数据元素(诸如,从由领域专家组维护的网站下栽的 这些代理和数据元素)的使用进行管理。
如果问题或命令与当前在所述系统上加载的代理不匹配,则代理 管理程序154可通过网络接口 116搜索网络146以找到用于合适的代 理的源。例如,当在代理不可利用的领域中进行查询时,当将新的装 置添加到移动结构时,或者当移动装置的行为被更新时,可触发这个 过程。如代理管理程序强制实施地那样, 一旦被定位,就可在更新管 理程序104的控制下、在许可证协议的期限和条件内加载代理。
可通过改变代理数据或撰写脚本来将新的命令、关键词、信息或 信息源添加到任何领域代理156。这些构造能力可允许用户和内容开 发商对现有的领域代理156的行为进行扩展和修改,或者从一般代理 创建新的领域代理156,而无需创建新的编译的代码。因而,领域代 理156的修改范围可从甚至由最偶然的用户进行的次要的数据驱动的 更新到如典型地由领域专家将进行的使用脚本语言的复杂行为的开 发,所述次要的数据驱动的更新诸如指定单词的拼写。用户可通过语 音接口命令或者使用非语音接口 114创建领域代理156并管理对领域 代理156的修改。结合用户的简档110存储领域代理156的用户特定 修改,并且在运行时领域代理156访问该修改。
可以以有助于有效率的评估和帮助开发者进行组织的方式对用 于构造数据驱动的代理156的数据进行结构化。不仅代理使用这个数 据,而且还在语音识别引擎120、文本至语音引擎124和解析程序118 中使用这个数据。 一些主要类别的数据的示例包括
1、内容包可包括问题或命令。每个命令或问题或者命令或问题 组可包括用于创建一个或多个请求的上下文。领域代理156可将上下 文描述语法表达传递到解析程序118以用于对上下文或问题进行评估。典型地,为每个命令或问题供应初始的或默认的上下文。命令或 问题包括用于上下文堆栈的管理和评估的语法。
2、 受自然语言语音接口控制的装置上的参数和其它操作数据。 领域代理156可使用这个数据和参数来确定如何执行命令、如何对用 于解析程序118的命令串进行公式化表达、确定命令是否可行、并确 定是否可在安全和操作极限内执行命令。
3、 页面列表或者指向其它本地或网络内容源的指针。对于每个 页面或内容源,可能存在指向页面或源的指针(比如,URL、 URI或 其它指针)。每个页面可具有用于提取感兴趣的数据的特定的积攒信 息。积攒信息可包括,例如,匹配模式、HTML或其它格式解析信息。
4、 答复列表,其在给定上下文、用户简档和检索的信息的情况 下确定领域代理156对特定命令或问题的答复。答复可包括诊断错误 消息,或者如果仍不能从已知的信息解决问题或命令,则答复可包括 对更多信息的请求。答复可基于或者取决于用于变量的阚值或者概率 或模糊权重。
5、 包括变量替换和变换的替换列表,通常由代理150、 156在对 请求和结果进行格式化时应用替换列表。例如,证券领域特定代理156 将使用公司交易代号、公司名称和普遍使用的缩写的替换列表。可对 命令和问题执行替换和变换以创建精确的查询,可对一个或多个信息 源应用这些查询,或者可将这些查询应用于用于创建对用户更有意义 的输出的结果。替换列表还包括用于对结构化信息进行优化处理的信 息,所述优化处理诸如HTML格式化页面解析和评估。
6、 用于答复的个性。可通过以加权的方式组合多个特征来构造 个性。可对每个代理的领域范围指定权重以创建一个或多个特定的个 性。个性特征的示例包括讽刺、幽默、愤怒和同情以及其它特征。
7、 用于源、替换、变换、变量或标准的公共参数和用户特定参 数。公共参数列表为代理包156的一部分。用户特定参数包括在用户 简档110中。
对命令和问题进行解释,公式化表达的请求、创建的答复和呈现的结果可基于用户的个人值或用户简档IIO值。个人简档可包括个体
所特有的信息、他们的兴趣、他们的专用术语、他们与所述系统交互
的历史、感兴趣的领域或者其它因素。代理106、语音识别引擎120、 文本至语音引擎124和解析程序118可使用个人简档数据。偏好可包 括特殊(修改)命令、过去行为或历史、问题、信息源、格式、报告、 警报或其它偏好。可由用户手动键入用户简档数据,和/或可由系统基 于用户行为学习用户简档数据。用户简档值可包括l)拼写偏好;2) 用户、家人和朋友的生日;3)收入水平;4)性别;5)职业;6)位 置信息,诸如,家庭地址、街道和营业地址、旅行路径、参观的位置; 7) —种车辆类型或多种车辆类型;8)车辆驾驶者证书、许可证或特 殊证件;9)命令和查询的历史;10)电信和其它服务提供商和服务; ll)金融和投资信息;12)异名(即,某人的绰号、同一项目的不同 术语);13)特殊拼写;14)关键词;15)变换或替换变量;16)感 兴趣的领域;或者,17)其它值。
终端用户可使用存储在用户简档110中的数据驱动的代理156 扩展和修改设施和值来创建特别专题报告、查询包、警报和输出格式。 单个警报或报告可被构造为使用多个数据源和其它变量(即,时间、 位置、测量的值)值来确定什么时候应该发送警报。例如,可通过以 下方式产生警报,即,每15分钟对股票价格进行采样,并且如果价 格下降到一些值以下,则发送警报。在另一示例中,当特定条件或条 件的组合对于车辆发生时,可产生警报。警报和报告可被发往本地或 远程输出。
为了创建报告,用户可首先指定命令或问题集合。接下来,用户 可创建或选择报告格式。最后,用户可为报告命名。报告可具有可变 参数。例如,用户可通过陈述报告的名称和公司名称来创建公司股票 报告并执行该报告,该报告以用于该公司的指定格式给出用户所选择 的信息。在另一示例中,用户可创建"早晨,,报告,该报告以期望的顺 序和格式呈现所选择的来自不同源(新闻、体育、交通、天气)的多 媒体信息。在又一示例中,用户可创建关于一个或多个车辆系统的状态的报告。可仅使用声音命令和答复、通过图形用户接口 114的命令 和答复或者使用声音命令和答复与通过图形用户接口 114的命令和答 复的组合来创建警报和报告。可对于车辆本地或远程运行^^告。为了 创建报告、警报或其它专门行为,用户执行许多步骤,包括l)指 定运行报告或警告的命令;2)指定用于查询的一个问题或多个问题, 包括关键词;3)设置用于运行报告的标准,诸如应命令或者当特定 条件满足时;4)定义优选的信息源;5)按源、值和其它参数的结果 评估顺序定义偏好;6)指定用于报告或警报的呈现介质,诸如电子 邮件、文本至语音引擎、发到寻呼机的消息或者文本和图形显示器; 以及7)指定报告的优选格式,诸如将呈现的信息、将呈现的信息的 顺序、优选缩写或其它可变替换。
在使系统90的各种功能性便利的步骤中,滤波和噪声消除可能 是重要的,滤波和噪声消除可改进有噪声的移动环境中的操作。在到 语音识别引擎120的输入以良好的信噪比实现用户的语音的识别和解 析。为了提供可接受的结果,可采用声学模型、阵列麦克风134、滤 波器132或其它组件的集合。如果不能实现良好的信噪比,则可使用 噪声识别算法,并且可选择合适的声学模型,例如,在与所识别的噪 声类似的条件下经过训练的声学模型。根据本发明的一个实施例,麦 克风阵列、滤波器和语音编码器138在物理上主单元98分离而是被 设置到语音单元128中,并使用无线链接连接。由于无线连接上的带 宽非常珍责,所以语音编码器动态地适应捕捉的语音的数字化速率和 压缩。
本发明的一些实施例可使用麦克风134的一个或多个阵列来提 供比可用单个麦克风实现的定向信号捕捉和噪声消除好的定向信号 捕捉和噪声消除。麦克风阵列可以是一维(线性阵列)或两维(圆、 正方形、三角形或其它合适的形状)。阵列的波束模式可以是固定的, 或者可通过使用模拟或数字相移电路使阵列的波束模式自适应。引导 有源阵列的图案指向一个或多个讲话的用户的方向。同时,可将零讯 号添加到模式中以切除点噪声源或有限区噪声源。阵列麦克风的使用还帮助减少从文本至语音引擎124通过扬声器136的输出或者从另一 说话的用户的输出和用户的语音的方向之间的串音。
本发明可在阵列麦克风或传统麦克风134和语音编码器138之间 使用模拟或数字滤波器132。可将滤波器的带通设置为优化到语音识 别引擎120的输入处的信噪比。在一些实施例中,通过使用与陷波滤 波器组合的频带形成来除去窄频带噪声,滤波器是自适应的。 一个实 施例在滤波器中采用自适应回波消除。回波消除帮助防止从文本至语 音引擎的输出和用户的语音的检测之间的串音以及抑制环境引起的 回波。将背景噪声与从用户语音接收的信号进行比较的算法可用于优 化自适应滤波器的频带形成参数。
可将由阵列麦克风134接收并通过滤波器132的语音发送到语音 数字转换器或编码器138。语音编码器可使用自适应有损音频压缩来 优化通过无线链接将编码的语音发送到语音识别引擎120的带宽要 求。对有损编码进行优化以仅保留优化识别所需的语音信号的分量。 此外,可使用的有损压缩算法被设计为防止信号流中的平坦瞬时间 隙,平坦瞬时间隙可引起语音识别引擎中的错误。可在编码器中对数 字化的语音进行緩沖,编码器可改编输出数据速率以优化可利用的带 宽的使用。当在编码器和语音识别引擎之间使用限带无线链接时,自 适应语音编码器的使用特别有利。
可用模拟或数字(即,Voice over IP )语音接口实现麦克风。这 个接口允许远程用户连接至系统,并且如果它们在物理上存在,则以 可能的相同的方式与系统交互。
在可替换的实施例中,可用物理分布的麦克风或用户佩戴的耳机 的集合代替阵列麦克风。可在车辆的不同部分、房间的不同部分或者 建筑的不同房间中放置分布的麦克风。分布的麦克风可创建三维阵列 以改进信噪比。耳机可使用无线或有线连接。
尽管本发明的意图在于能够接受大多数任何自然语言问题或命 令,但是歧义性可能是个问题。为了辅助用户对简明的问题和命令进 行公式化表达,系统可支持声音查询语言。可对语言进行结构化以使得各种查询和命令具有最小歧义性。因而,声音查询语言帮助用户清 楚地指定连同参数或标准一起的问题或命令的关键词或上下文。该语 言可提供这样的语法,该语法清楚地指定用于确定上下文的关键词和 呈现标准或参数集合。可几乎总是保证以声音查询语言问问题或者陈 述命令的用户接收到答复。
声音查询语言可能对上下文堆栈的内容敏感,其中,上下文定义 在对话期间可被激活或禁止的问题的集合。根据一个实施例,每个代 理可指定一个上下文为定义代理实现的基本算法的根本上下文。因 而,由于可从上下文堆栈继承关键词和标准,所以可使用缩写语法来 问后续问题。例如,如果问题的标准保持不变,则用户可简单地询问 另一关键词。
系统90可提供帮助用户学习对他们的问题和命令进行公式化表 达的最佳方法的内置训练能力。交互式训练允许用户可听地或者可视 地看见他们的查询的机器解释,并提供关于如何更好地对查询进行结 构化的建议。通过使用交互式训练,用户可快速地变得对声音查询语 言感觉舒适,同时,可学习如何优化对话的每个步骤所需的信息量。
可将语音编码器122的输出供给到语音识别引擎120。语音识别 引擎120使用上下文描述语法112中的信息来识别单词和短语,并将 这些单词和短语传递到解析程序118以用于解释。语音识别引擎l加
可通过每段话语的声音和姓名来确定用户的身份。在所有进一步的处 理中,可用这个身份对识别的单词和短语进行标记。因而,由于多个 用户参与重叠会话,所以由语音识别引擎120添加到每段话语的标记 允许系统90的其它组件将这段话语与正确的用户和对话联系起来。 用户识别能力还可被用作需要安全措施的应用的安全措施,所述应用 诸如拍卖或在线购物。可将每个用户的声音特点包含在用户简档110 中。
根据本发明的一个实施例,当用户首先对系统90说话时,用户 可与系统90 —起开始对话。这可通过讲出一般单词("计算机")或 者说出特定名称("Fred")来执行,所述一般单词和特定名称通常可能与系统个性108联系。 一旦用户开始对话,语音识别引擎120就可 使用用户语音的独特特点来识别该对话。在对话结束时或者为了中断 对话,用户可说出遣散单词("再见,,)。
根据本发明的另一实施例,系统90可采用语音识别引擎124, 语音识别引擎124使用来自其它组件中的上下文描述语法112、用户 简档110和代理106的数据来获取改进的单词识别准确度。同时,可 对单词在上下文描述语法中的模糊集概率或先验概率进行动态更新 以最大化对话的每一阶段的正确识别的概率。可基于许多标准对概率 或可能性进行动态更新,所述标准包括其它标准中的应用领域、问题 或命令、上下文、用户简档和偏好、用户对话历史、识别器词典和短 语表以及单词拼写。
对于不常见的单词或新的词汇单词,可给予用户拼写单词的选 择。可通过说出名称或字母或者使用音标字母来进行拼写。音标字母 可以是默认的字母或者用户的选择中的一个。
可替换地,当用户提交语音识别引擎120根本不识别或者没有被 正确识别的单词时,可要求用户拼写该单词。语音识别引擎UO基于 评分过程的置信水平来确定这个条件。可在词典中查找单词,并将该 单词的发音添加到词典、代理106或用户的简档110。然后将单词发 音与领域、问题、上下文和用户相关联。通过这个过程,语音识别引 擎随着时间学习,并改进准确度。为了辅助用户拼写单词,可使用个 性化的音标字母。每个用户可用他们可更容易记住的单词来修改标准 的音标字母。
一旦语音识别引擎120已识别单词和短语,就可将表征和用户识 别传递到解析程序118。解析程序检查用于问题或命令、上下文和标 准的表征。解析程序可通过将先验概率或模糊概率应用于关键词匹 配、用户简档IIO、对话历史和上下文堆栈内容来确定话语的上下文。 问题或命令的上下文可确定领域,从而,如果有的话,确定将被调用 的领域代理156。例如,具有关键词"温度"的问题暗示问题的天气上 下文值。在不同对话内,关键词"温度,,可暗示测量上下文。解析程序从系统代理150或已激活的领域代理156动态地接收关键词和相关联 的先验概率或模糊概率更新。基于这些概率或可能性,对可能的上下 文进行评分,并将顶部的一个或几个用于进一步处理。
解析程序118使用评分系统来确定用户的问题和/或命令的最可 能的上下文或领域。通过权衡许多因素来确定评分,所述因素包括用 户简档110、领域代理的数据内容和以前的上下文。基于这个评分, 系统90调用正确的代理。如果得分的置信水平不是高得足以确保可 靠的答复,则系统90可叫用户验证是否正确地理解问题和/或命令。
通常,可将系统90所问的问题分成短语以指示问题的上下文, 包括所有的标准或参数。例如,问题可以是这样的形式"我理解你 想如此这般吗"。如果用户确认问题是正确的,则所述系统继续生成 答复。否则,用户可重新将原始问题分成短语,可通过添加附加信息 来重新将原始问题分成短语以去除歧义性,或者系统可问 一个或多个 问题以尝试解决歧义性。
一旦已确定问题或命令的上下文,解析程序118就可调用正确的 代理156、 150。为了对代理所使用的常规语法中的问题和命令进行公 式化表达,解析程序将优选地确定用于标准或参数的所需要的可选 值。可由用户明确地供应这些标准,或者可能需要对这些标准进行推 测。解析程序可使用由系统代理供应的标准处理程序152。标准处理
程序可提供对上下文敏感的进程,该进程用于从用户的问题或命令提 取标准或参数。可通过执行代理中的算法来确定一些标准,而可通过 将概率或模糊推理应用于可能的值的表格来确定其它标准。可从许多 源接收先验概率或模糊概率以及相关联的值,所述源包括,例如,对 话的历史、用户简档110和代理。基于用户答复,当系统学习期望的 行为时,可对先验概率或模糊概率进行更新。对于天气上下文,标准 的示例包括位置、日期和时间。其它标准可包括命令标准(即,是/ 不是、开/关、暂停、停止)和拼写。可从用于处理列表、表格、插入 命令、长的文本串和系统命令的系统代理获得专用标准处理程序。
标准处理程序152可迭代地或者递归地对被提取以消除歧义性的标准进行操作。这个处理可帮助减少用户的问题或命令中的歧义 性。例如,如果在用户的话语具有地名(或者其它合适的名词),则
解析程序118可使用领域代理156的服务来在数据库102的表格中查 找该地名,或者可尝试从话语的句法确定哪个单词是合适的名词。在 另 一示例中,用户问"what about fight one hundred and twenty too ,,。 解析程序和领域代理使用数据库中的航班信息和连同上下文的网络 信息来确定以下解释中的最似乎可信的解释航班100和航班20,还 有,航班100和航班22、航班122等。
一旦确定上下文和标准,解析程序118就可形成用于代理150、 156进行处理的标准格式或分级数据结构的问题或命令。解析程序118 可为上下文的语法填充所有需要的表征和一些可选的表征。经常,必 须将表征变换为代理可接受的值和形式。解析程序从代理、对话历史 或用户简档110获得所需要的变换。由解析程序对表征执行的变换或 替换的示例包括1)用股票代号替换公司名称或缩写;2)用数值替 换一个单词或多个单词;3)将邮政编码添加到地址中;和4)将地点
或其它名称变为普遍使用的标准缩写。
一旦解析程序118已以所需要的标准格式设置命令或问题,代理 150、 156就可接收该命令或问题。基于上下文,解析程序可调用正确 的代理来对问题或命令进行处理。
可将命令发往系统或外部实体。通常将系统命令发往系统代理 150。通常由包括命令上下文和外部实体的行为的领域代理156对关 于外部实体的命令进行处理。
通常可将特定问题发往领域代理156中的一个。正确的代理的实 时选择允许本发明动态地切换上下文。基于问题、命令或上下文和参 数或标准,领域代理可创建对一个或多个本地或外部信息源的一个或 多个查询。本质上,问题可以是客观的或者主观的。通常可通过对一 个或多个本地或网络信息源的结构化的查询来获得客观问题的结果。 即使对于客观问题,系统也可能需要应用概率或模糊集分析来处理沖 突信息或不完整信息的情况。通常通过对本地或网络数据源的一个或多个自组查询来获得用于回答主观问题的信息,之后对一个结果进行 概率或模糊集评估以确定最佳答案。
一旦领域代理156已对一个或多个查询进行公式化表达,就可将 这些查询发送到本地和/或网络信息源。可以以异步方式执行查询以说 明源以不同的速度答复或者源可能根本未能答复的事实。可将完全相 同的查询发送到不同的信息源以确保至少一个源以及时的方式用有 用的结果作出答复。此外,如果以及时的方式接收到多个结果,则系 统可对它们进行评分以确定哪个数据最可靠或者最合适。适应的数据 源的示例包括HTTP数据源、具有包括XML的各种格式的元数据的 源、来自使用各种格式的传感器的测量数据、装置32设置参数、娱 乐音频、包括MP3的视频和游戏文件、使用查询语言的数据库和诸 如SQL的结构化答复以及其它数据源。
可将本地信息源存储在一个或多个系统数据库102中,或者本地 信息源可在任何本地数据存储器上,所述本地数据存储器诸如播放机 中的CD或DVD的集合或者其它本地数据存储器。在其它情况下, 可从车辆系统设置或测量装置获得本地信息。网络信息源可连接至控
制器和装置接口 30、数据接口 26、因特网42或其它网络,可通过网 络接口 116中的已知为可插式源的一系列插件程序或适配器对网络信 息源进行访问,可插式源能够执行协议,并解释用于感兴趣的数据源 的数据格式。可插式源提供从每个源到领域代理156的信息积攒形式 和过程。如果将使用新类型的数据源,则可将新的插件程序或适配器 添加到合适的接口。
当 一个或多个查询的结果到达时,领域代理156可对这些结果进 行评估。领域代理可使用概率或模糊评分技术基于已接收的结果、上 下文、标准、对话的历史、用户简档110和领域特定信息对结果的相 关性进行评分。在上下文堆栈中对对话历史的部分进行维护。用于评 分的每个上下文的权重可基于一个上下文与另一上下文的相关性和 上下文的年龄。可通过上下文堆栈将其它评分变量关联。上下文也可 以是独有的,从而以前的上下文在评分中不具有权重。基于正在进行的评分过程,领域代理156可确定是否可提取单个 最佳的答案。对于大多数问题,期望的结果可包括可被找到以对答案 进行公式化表达的表征的集合。 一旦已对这些表征中的每个表征找到 值,就准备将结果呈现给用户。例如,对于天气问题,表征可包括日 期、 一周中的某天、预测的高温、预测的低温、降雨量的变化、预期 的云覆盖范围、预期类型的降雨量和其它表征。以这种方式处理的结 果可包括错误消息。对于主观问题,通过确定最可能的一个答案或多 个答案来作出这个确定,通过接收的结果的匹配提取这些答案。如果 不能从查询的结果推测出满意的答案,则代理可进行以下步骤中的一 个步骤
1、 要求用户给予更多的信息,典型地通过语音接口,并基于获 得的结果对新的查询进行公式化表达。当不可解决的歧义性在答复的 公式化表达中出现时,应用这个方法。
2、 基于从第一查询集合接收的结果对新的查询进行公式化表达。 典型地,在所接收的答复不包括所有需要的信息的情况下应用这个方 法。可从已经获得的结果(即,HTML文档中的链接或者来自其它装 置32的测量或设置)或者从其它源推测出查询的信息源。通过使用 这个方法,可对查询和答复的一个或多个集合进行束缚,而无需用户 采取动作。
3、 等待另外的查询以返回结果。
在任何情况下,领域代理156可继续进行查询并对结果进行评 估,直到构成满意的答复为止。在这样做的步骤中,代理可开始几个 重叠的查询路径或询问线程,典型地由事件管理程序100对这些查询 路径或询问线程进行调解。这个技术,与来自多个数据源的异步查询 的使用组合,提供与用户的自然交互所需的实时答复性能。
当接收到每个查询答复时,领域代理156可将条件积攒操作应用 于每个查询答复。条件积攒动作可取决于上下文、标准、用户简档110 和领域代理编码和数据。对于将被提取的每个表征,可使用系统代理 150的服务来创建积攒标准152。积攒标准可使用格式特定的积攒方法,包括表格、列表、文本和其它方法。可将一个或多个积攒标准应 用于一个页面或者结果集合。 一旦接收到另外的结果,领域代理就可 创建新的积攒标准以应用于已获取的结果。条件积攒处理去除不必对 其进行进一步处理或存储的不必要的信息,诸如图形,从而改进系统性能。
通常将特定命令发往领域代理156中的一个。正确的代理的实时 选择允许本发明动态地切换上下文。面向命令的领域代理156对命令 和车辆系统的状态、系统能力和测量进行评估以确定是否根本可执行 命令,或者如果根本可执行命令,则确定命令是否将超出操作或安全 极限。如果命令有歧义或者由于一些其它原因而导致不能执行命令, 则系统可要求用户给予更多的信息,或者可建议问题是什么以及可能 的解决方法。领域代理可对用于特定装置32以及控制器和装置接口 30的命令进行格式化。这个格式化可涉及变量替换、丢失值的推测和 其它格式化。变量替换和推测取决于命令上下文、用户简档110、命 令历史、车辆系统的状态和测量的值以及其它因素。复杂的命令可导 致发送到多个装置的更微小的命令,可能在序列中发送这些更微小的 命令。序列和随后命令的性质可取决于以前的命令、以前的命令的结
果、装置设置和其它测量。当执行命令时,进行测量,并收集结果以 确定执行是否正确以及是否达到期望的 一种状态或多种状态。
一旦领域代理156已创建对问题或者对命令的满意答复,代理就 可对该答复进行格式化以用于呈现。典型地,领域代理可将答复格式 化为文本至语音引擎124所使用的标记格式。领域代理可使用可利用 的格式模板并基于上下文、标准和用户简档IIO对结果呈现进行格式 化。领域代理可执行变量替换和变换以生成用户最好理解、最自然的 答复。领域代理可改变表征的呈现顺序和用于创建对用户更自然的答 复的准确术语。领域代理还可选择将^/f吏用的呈现个性108。
对于命令和查询答复,领域代理156可选择呈现模板,确定关于 表征的呈现的顺序,并通过使用概率或模糊集决策方法确定变量替换 和变换。用于形成呈现的模板可来自领域代理本身或者来自用户筒档110。用户简档可完全指定呈现格式,或者可用于选择然后修改现有 的呈现格式。呈现模板的选择和格式化还可取决于呈现个性108。同 时,通过使用从上下文、标准、领域代理本身和用户简档IIO得到的 概率或模糊概率来动态地确定用于答复的个性化的特点。
领域代理156可在呈现给用户之前将许多变换应用于表征。可从 许多源得到这些变量替换和变换,所述源包括代理所携带的领域信 息、上下文、表征值、标准、将被使用的个性108以及用户简档110。 变量替换和变换的示例包括l)用单词替换数字;2)用名称替换首 字母缩略词或符号(即,交易代号);3)从信息源(即,HTML标 记)得到的格式化信息的使用;4)答复的性质,包括文本、长文本、 列表、表格;5)可能的丢失信息或差错;6)测量单位(即,英语或 尺度);以及7)来自用户简档或呈现个性108的优选术语。
本发明可为长文本串、表格、列表和其它大的结果集合提供专用 呈现能力。领域代理156可将专用的格式模板用于这样的结果。系统 代理150可提供用于呈现的专用标准处理程序152和用于大的结果集 合的用户命令。领域代理将其用于大的结果集合的呈现模板典型地包 括用于对结果进行总结然后允许用户更详细地查询结果的方法。例 如, 一开始仅呈现短的摘要,诸如标题或关键数字。然后用户可进一 步查询结果集合。标准处理程序为用户提供浏览大的结果集合的能 力。由标准处理程序提供的用于大的结果集合的命令包括停止、暂停、 跳过、倒退、开始和前进。
可以以显示格式最好地呈现诸如视频、图片和图形的格式的一些 信息。领域代理156应用在这些情况下合适的呈现模板,并通过非语 音接口 114呈现信息。系统代理150提供用于呈现的专用标准处理程 序152和用于显示呈现和控制的用户命令。
虽然已显示和描述了本发明的特定实施例,但是将理解,其意图 并不在于将本发明限于所公开的实施例,对本领域的技术人员显而易 见的是,可在不脱离本发明的精神和范围的情况下进行各种改变和^f务 改。因而,本发明的意图在于覆盖可替换物、修改和等同物,可将这些可替换物、修改和等同物包括在如由权利要求所限定的本发明的精 神和范围内。
权利要求
1、一种用于处理语音和非语音交流的移动装置,包括识别模块,识别与所述移动装置交流的用户;匹配模块,将识别的用户与一个或多个简档匹配;转录模块,对语音和非语音交流进行转录以创建基于语音的文本消息和基于非语音的文本消息,其中,该转录模块访问所述一个或多个简档;合并模块,合并所述基于语音的文本消息和所述基于非语音的文本消息以产生查询;搜索模块,在所述查询中搜索文本组合;比较模块,将所述文本组合与上下文描述语法中的条目进行比较;与所述上下文描述语法相关联的多个领域代理;评分模块,基于来自比较模块的结果提供相关性得分;领域代理选择器,基于来自评分模块的结果选择领域代理;和答复产生模块,与所选择的领域代理通信以获得由所选择的领域代理收集的内容,并从该内容产生答复,其中,基于来自评分模块的结果按选定的顺序布置所述内容。
2、 根据权利要求l所述的移动装置,其中,所述答复产生模块 产生包括由所选择的领域代理收集的内容的总答复。
3、 根据权利要求1所述的移动装置,其中,所述识别模块支持 在同一会话期间访问所述移动装置的多个用户。
4、 根据权利要求3所述的移动装置,其中,所述会话可包括重 叠会话或交错会话。
5、 根据权利要求3所述的移动装置,其中,所述识别模块基于 声紋匹配或口令匹配来验证所述多个用户的身份。
6、 根据权利要求4所述的移动装置,其中,在交错会话期间, 所述移动装置按接收的顺序处理一个或多个查询。
7、 根据权利要求l所述的移动装置,其中,在交错会话期间, 所述移动装置基于根据所述查询的长度而确定的顺序处理一个或多 个查询。
8、 根据权利要求1所述的移动装置,其中,所述移动装置包括 (O个人数字助理、(ii)蜂窝电话、(iii)便携式计算机、(W)桌面计算机或者(i)至(iv)的任何组合。
9、 根据权利要求1所述的移动装置,其中,所述移动装置接收 后续的语音和非语音交流,其中,所述转录模块对后续的语音和非语 音交流进行转录以创建后续的基于语音的文本消息和后续的基于非 语音的文本消息。
10、 根据权利要求9所述的移动装置,其中,所述合并模块合并 所述后续的基于语音的文本消息和后续的基于非语音的文本消息以 产生后续查询。
11、 根据权利要求1所述的移动装置,还包括有助于对答复进行 格式化的个性模块。
12、 根据权利要求l所述的移动装置,其中,所述移动装置被构 造为与上下文堆栈通信,所述上下文堆栈包括基于所述查询而选择的 一个或多个上下文。
13、 根据权利要求12所述的移动装置,其中,所述评分模块基 于至少将先验概率或模糊概率应用于(i)关键词匹配、(ii)用户简 档、(iii)对话历史或者(i)至(iii)的任何组合来确定所述一个或 多个上下文。
14、 根据权利要求l所述的移动装置,其中,至少一个所述领域 代理创建请求并将该请求发往本地信息源或网络信息源。
15、 根据权利要求l所述的移动装置,其中,至少一个所述领域 代理创建命令并将该命令发往远程装置或本地装置。
16、 根据权利要求IO所述的移动装置,其中,所述后续查询与 和所述查询相同的上下文相关联。
17、 根据权利要求l所迷的移动装置,其中,所述移动装置支持因特网浏览,并且其中,产生的查询被用于进行因特网浏览。
18、 根据权利要求l所述的移动装置,其中,所述移动装置支持 多模式通信。
19、 一种移动装置,包括 可由该移动装置访问的对象;输入装置,接收与所述对象相对应的语音和非语音注解; 转录模块,对所述语音和非语音注解进行转录以创建基于语音的 文本消息和基于非语音的文本消息;和关联模块,将所述对象与所述基于语音的文本消息和基于非语音 的文本消息相互关联。
20、 根据权利要求19所述的移动装置,还包括 分类模块,对所述基于语音的文本消息和基于非语音的文本消息进行分类;和搜索模块,基于搜索请求搜索所述基于语音的文本消息和基于非 语音的文本消息。
21、 根据权利要求19所述移动装置,其中,所述关联模块将所 迷对象与所述语音和非语音注解相关联。
22、 根据权利要求21所述的移动装置,还包括 分类模块,对所述语音和非语音注解进行分类;和 搜索模块,基于搜索请求搜索所述语音和非语音注解。
23、 根据权利要求19所述的移动装置,其中,所述对象包括数字介质。
24、 根据权利要求23所述的移动装置,其中,所述对象包括数 字照片、日历条目、电子邮件消息、即时消息、电话簿条目、语音邮 件条目或数字电影。
25、 根据权利要求19所述的移动装置,其中,所述关联模块将 所述对象与所述语音和非语音注解、基于语音的文本消息和基于非语 音的文本消息相关联。
26、 根据权利要求25所述的移动装置,其中,可使用(O声音命令、(ii)文本命令或者(i)和(ii)的组合来检索所述对象,
27、 根据权利要求19所述的移动装置,其中,所述对象被存储 在(i)所述移动装置中,被存储在(ii)服务器处或者被存储在(i) 和(ii)的组合中。
28、 根据权利要求19所述的移动装置,其中,所述对象包括元数据。
29、 根据权利要求28所述的移动装置,其中,所述元数据包括 全球定位系统信息、环境信息或地理信息。
30、 根据权利要求28所述的移动装置,还包括能够实现元数据 的搜索的元数据搜索模块。
31、 一种系统,包括多个支持多模式通信的移动装置,其中,两个或更多个移动装置 与用户相关联;和被耦合到所述多个移动装置的上下文模块,其中,在与所述用户 相关联的所述两个或更多个移动装置处维持相同的上下文。
32、 根据权利要求31所述的系统,其中,所述多个移动装置包括识别模块,识别与该移动装置交流的用户; 匹配模块,将识别的用户与一个或多个简档匹配; 转录模块,对语音和非语音交流进行转录以创建基于语音的文本 消息和基于非语音的文本消息,其中,该转录模块访问所述一个或多个简档;合并模块,合并所述基于语音的文本消息和所述基于非语音的文 本消息以产生查询;搜索模块,在所述查询中搜索文本組合;比较模块,将所述文本组合与上下文描述语法中的条目进行比较;与上下文描述语法相关联的多个领域代理; 评分模块,基于来自比较模块的结果提供相关性得分;领域代理选择器,基于来自评分模块的结果选择领域代理;和 答复产生模块,与所选择的领域代理通信以获得由所选择的领域代理收集的内容,并从该内容产生答复,其中,基于来自评分模块的结果按选定的顺序布置所述内容。
33. 根据权利要求31所述的系统,其中,所述上下文模块被构 造为将相同的信息广播到两个或更多个移动装置,并从这些移动装置 之一接收答复。
34.根据权利要求31所述的系统,其中,所述上下文模块广播 第一类型的信息,接收第二类型的信息。
35. 根据权利要求34所述的系统,其中,第一类型的信息和第 二类型的信息包括语音信息或非语音信息。
36. 根据权利要求35所述的系统,其中,第一类型的信息包括 在闺形用户接口上呈现的非语音信息,第二类型的信息包括应用于搜 索网络的语音信息。
37. 根据权利要求36所述的系统,其中,第一类型的信息和第 二类型的信息对应于相同的上下文。
38. 一种在多模式环境中处理语音和非语音交流的方法,包括 接收语音和非语音交流; 识别提供所述语音和非语音交流的用户; 将识别的用户与一个或多个简档匹配;对所述语音和非语音交流进行转录以创建基于语音的文本消息 和基于非语音的文本消息,其中,该转录操作包括访问所述一个或多个简档;合并所述基于语音的文本消息和基于非语音的文本消息以产生查询;在所述查询中搜索文本组合;将所述文本組合与上下文描述语法中的条目进行比较;访问与所述上下文描述语法相关联的多个领域代理;基于来自将所述文本组合和上下文描述语法中的条目进行比较的结果产生相关性得分;基于来自相关性得分的结果选择一个或多个领域代理; 获得由所选择的领域代理收集的内容;和从所述内容产生答复,其中,基于来自相关性得分的结果按选定 的顺序布置所述内容。
39、 根据权利要求38所述的方法,还包括产生包括由所选择的 领域代理收集的内容的总答复。
40、 根据权利要求38所述的方法,还包括 接收后续的语音和非语音交流;对所述后续的语音和非语音交流进行转录以创建后续的基于语 音的文本消息和后续的基于非语音的文本消息;和合并所述后续的基于语音的文本消息和后续的基于非语音的文 本消息以产生后续查询。
41、 根据权利要求38所述的方法,还包括将答复传达给用户的 个性模块。
42、 根据权利要求38所述的方法,其中,所述系统在同一会话 期间支持多个用户。
43、 根据权利要求42所述的方法,其中,所述会话可包括重叠 会话或交错会话。
44、 根据权利要求42所述的方法,其中,基于声紋匹配或口令 匹配来识别所述多个用户。
45、 根据权利要求43所述的方法,还包括按接收的顺序处理一 个或多个查询。
46、 根据权利要求43所述的方法,还包括基于根据所述查询的 长度而确定的顺序处理一个或多个查询。
47、 根据权利要求38所述的方法,还包括产生上下文堆栈,所 述上下文堆栈包括基于所述查询而选择的一个或多个上下文。
48、 根据权利要求47所述的方法,其中,基于将先验概率或模 糊概率应用于(i)关键词匹配、(ii)用户简档、(iii)对话历史或者(i)至(iii)的任何组合来产生所述一个或多个上下文。
49、根据权利要求38所述的方法,还包括用产生的查询进行因 特网浏览。
全文摘要
提供一种包括用于远程信息处理应用的基于语音的接口(136)和基于非语音的接口(114,155)的移动系统。该移动系统识别和使用上下文、先验信息、领域知识和用户特定的简档数据为提交多个领域中的请求和/或命令的用户实现自然环境(106,108,110,112)。本发明创建、存储并使用关于每个用户的详尽的个人简档信息(110),从而改进确定上下文和呈现特定问题或命令的预期结果的可靠性。本发明可将领域特定行为和信息组织到可通过广域网分布和更新的代理(110)中。
文档编号G10L15/26GK101292282SQ200680038560
公开日2008年10月22日 申请日期2006年8月29日 优先权日2005年8月29日
发明者C·威德尔, L·E·阿姆斯特隆, M·肯尼威克, P·迪克里斯图, R·A·肯尼威克, R·肯尼威克, S·米纳克 申请人:沃伊斯博克斯科技公司