专利名称:用于多模式输入的同步和消歧的系统和方法
技术领域:
本发明的实施例总体上涉及对话系统,并且更具体地说涉及对提供到对话系统的用户输入的同步和消歧。
背景技术:
对于人类来说,口语是最自然和最方便的沟通工具。语音识别技术上的进步已经允许各种不同机器和计算机系统的口语接口的增加的使用。各种系统和服务的接口通过语音命令给人们提供了便利和效率,但是只有当口语接口是可靠的才行。这一点对于眼睛忙碌和手忙碌情况下的应用来说尤为重要,例如开车或执行复杂的计算任务。使用口头命令和语音识别的人机接口一般是基于对话系统的。对话系统是被设计为在输入和输出通道上使用一致的结构和文本、语音、图形或其他沟通模式来与人交谈的计算机系统。利用语音的通话系统被称为口头对话系统,并且一般代表最自然的人机接口类型。随着对电子设备依赖的不断增大,口头对话系统被越来越多地实施在许多不同的系统中。在许多人机交互(HMI)系统中,用户可以通过多种输入设备或多种类型的设备与系统交互,例如通过语音输入、手势控制和传统的键盘/鼠标/笔输入。这在数据输入方面为用户提供了灵活性,并且允许用户根据其自己的偏好更高效地向系统提供信息。现有的HMI系统通常限制特定类型数据的特定输入模式,或者允许用户一次仅使用多种模式中的一种。例如,车辆导航系统可以包括触摸屏和用于口头命令的语音识别系统。然而,触摸屏通常仅限于允许用户通过接触来选择确定的菜单项,而不是通过语音命令。这样的多模式系统既不通过不同的输入模式来协同用户命令,也不利用一种模式的输入数据来通知和/或修改另一种模式的数据。因此,现有的多模式系统没有充分地提供无缝的用户接口系统,在所述用户接口系统中,来自所有可能输入模式的数据可以被用来向系统提供准确的信息。因此,所期望的是用于人机交互系统的多模式信息用户输入接口,其能够同步和整合从不同模式获取的信息,在多模式输入信息的帮助下消除歧义和从错误中恢复。这样的系统会极大地提高用户满意度、系统性能和系统鲁棒性。还期望的是能够同步和整合以任意顺序从不同模式获取的多模式信息的HMI用户输入系统。
在附图中以示例而非限制的方式说明了本发明的实施例,在附图中,相同的附图标记指示相同的元件并且在附图中图1说明了根据实施例的实施了多模式同步和消歧系统的多模式人机系统。图2是根据实施例的多模式用户交互系统的框图,该多模式用户交互系统接受用户的手势和语音作为输入,并且包括了多模式同步和消歧系统。图3说明了根据实施例的使用多模式用户交互系统的输入事件的处理。
图4是根据实施例的实施多模式交互系统的口头对话管理器系统的框图。图5是说明根据实施例的处理对话系统中通过多模式接口的用户输入的方法的流程图。
具体实施例方式描述了包括用于人机交互(HMI)系统的多模式同步和消歧系统的对话系统的实施例。实施例包括从多种不同的用户输入机制接收用户输入的部件。该多模式同步和消歧系统同步和整合从不同模式获取的信息,对输入进行消歧,并且从可能产生的关于任何用户输入的任何错误中恢复。这样的系统有效地解决了与用户输入相关的任何歧义并且校正人机交互中的错误。在下面的描述中,介绍了许多具体的细节,以提供对多模式同步和消歧系统和方法的实施例的透彻理解和使其能够实现的描述。然而,相关领域的技术人员将会认识到可以在没有这些具体细节中的一个或多个的情况下实施这些实施例,或者可以用其他部件、 系统等来实施这些实施例。在其他实例中,没示出公知的结构或操作,或者没有详细地描述,以避免混淆所公开的实施例的方面。图1说明了根据实施例的实施多模式同步和消歧系统的多模式人机系统。在系统100中,用户102与机器或系统110交互,其可能是计算系统、机器或者任何自动的电机系统。用户能通过许多不同的模式来向系统110提供输入,一般是通过一种或更多输入模块的语音或触摸控制。例如,这些输入方式包括键盘或鼠标输入106、触摸屏或触摸板输入 108、以及/或者通过麦克风104的语音输入103。其他用户输入模块也是可能的,例如脚踏操纵、小键盘、操纵杆/伺服控制、游戏键盘输入、红外线或激光指示器、基于相机的手势输入、电磁传感器等等。不同的用户输入可以控制机器操作的不同方面。在某些的示例中, 特定的输入模块可以控制特定的操作类型。例如,语音命令可以被配置为与系统管理任务连接,而键盘输入可以被用来执行操作任务。在一个实施例中,来自不同输入模式的用户输入用来控制机器110的至少某些重叠的功能。对于这种实施例,使用多模式输入同步模块 112来同步和整合从不同输入模式104-108获取的信息,对输入进行消歧,并使用来自任何模式的输入来校正、修改或者通知来自任何其他模式的输入。如图1所示,在许多人机交互(HMI)系统中,用户能通过诸如触摸屏、鼠标、键盘、 麦克风等的多个输入设备来与系统交互。多模式输入机制为用户通过其偏爱的方法将信息更高效地输入系统提供了灵活性。例如,当使用导航系统时,用户可能想要找到某地区的一个饭店。他或者她可能更喜欢通过触摸屏界面直接在所显示的地图上指定区域,而不是通过读音或声音命令来描述它。在另一个例子中,当用户向他的通讯簿中增加联系人姓名时, 直接说出姓名可能比通过键盘或电话键盘打字更高效并且更便利。用户也可以使用多种模式来完成他们的任务。即机器或机器操作的方面可能接受两种和更多用户输入模式。在一些情况下,用户可能使用所有可能的输入模式来执行任务。 多模式同步部件112允许对从不同模式获取的信息进行同步和整合。不同的输入可以用来对响应进行消歧并且为任何有问题的输入提供错误恢复。用这种方式,用户可以使用最期望的输入方法,并且不用总是被迫学习不同的输入规范,例如有独特意义的新手势或命令。不像传统的多模式HMI系统仅允许用户一次使用多个模式中的一种,多模式同步部件允许用户同时通过多种模式来输入信息。例如,用户可以在触摸屏上画一些东西的同时对系统讲话。因此,在导航系统中,用户可以在触摸屏上显示的地图上画一个圆形的区域,同时说“在这个区域内找到一个饭店”。在这种情况下,用户通过触摸屏输入来指定“这个区域”的意思。用户的多模式输入的含义的确定将依赖于在不同模式中传递的信息、当时模式的置信度以及从不同模式接收到的信息的时间。图2是接受用户的手势和语音作为输入的多模式用户交互系统的框图。在多模式用户交互系统200中,用户可以通过打字、触摸屏幕、说话或者其他类似的方式来输入信息。诸如触摸屏输入201等的物理手势输入被发送到手势识别模块211。手势识别模块将处理用户的输入并且将其分类为不同类型的手势,例如拖动动作,或者画点、直线、曲线、区域等等。用户的语音输入202将被发送到语音识别模块222。从对应的手势识别模块和语音识别模块识别的手势和语音将被发送到对话系统221。对话系统基于对话的上下文和输入事件的时间顺序,对从每种模式获取的信息进行同步和消歧。对话系统与应用或者设备 223交互,以完成用户通过多模式输入指定的任务。然后通过语音响应203将交互的输出和已执行任务的结果传递给用户,以及/或者通过在图形用户界面(⑶I) 210的呈现模块212 上进行显示。图2的系统200可以被用来执行上面例子中提供的输入任务,即用户基于语音输入和触摸屏输入的结合来指定要找的饭店。多模式用户交互系统的主要功能是区分和同步可能指向同一个应用的用户输入。 不同的输入模式可能指向不同的任务,即使他们被同时输入。类似地,由用户在不同时间通过不同模式提供的输入实际上可能指向同一个任务。一般来说,应用和系统仅识别通过适当模式并且在适当时间段内提供的用户输入。图3说明了根据实施例的使用多模式用户交互系统的输入事件的处理。如图3所示,水平轴302代表沿着时间轴对系统的输入事件。说明了表示为“事件1”和“事件2”的两个示例事件。输入事件代表对于特定的应用或者任务有效的用户输入时间段。如所示出的,三个不同的输入模式被表示为模式1、2和3,并且可以代表绘图输入、口头输入、键盘输入等等。不同的输入模式具有在不同的时间段内和变化的持续时间中有效的用户输入。对于事件1,用户已经通过模式1、2和3提供了输入,但是模式2是相对来说短和较晚的输入。 同样对于事件2,模式1和3看起来具有有效的输入,但是模式2可能较早或者不存在。多模式交互系统可以使用由任何模式提供的信息来确定特定输入是否有效,以及帮助辨明输入的正确含义。当接收到的信息不足以确定含义时,系统也可以要求更多来自各种模式的输入。 可以使用为不同应用和任务开发的预定规则或者统计模型来指导多模式信息的同步和整
上面提供的例子说明了从单一渠道(例如,语音命令)获取的信息经常包含歧义的事实。由于对用户表达的无意识的多种解释导致可能会产生这种歧义。例如,词组“这个区域”本身就是含糊不清的,除非用户提供被系统识别的名字。在另一个例子中,在触摸屏上的手势可能有不同的含义。例如,在示出地图的触摸屏上沿着直线移动手指可以表示在地图上画直线或者以特定的方向拖动地图。多模式同步模块使用来自所有被利用的模式的信息,以提供对用户输入最可能的解释。当在从特定渠道获取的信息中发现歧义时,在不同的系统状态下可以使用不同的方式。系统可以使用之前的上下文来帮助消歧,或者它可以要求用户通过同一个或者不同的模式来澄清。继续前面的例子,假设语音和触摸屏是所述的两个输入模式,并且用户在触摸屏上所显示的地图上移动他或她的手指。该手势至少有两种可能的解释在地图上画直线,或者向另一个方向拖动地图。在这种情况下,如果用户说“我想要在这条街道上找到一些饭店”,系统就会知道用户画直线是用来指定街道的。如果用户在那时什么也没说,则可能是用户仅仅是想要拖动地图。从一种模式获取的信息可能还包含错误。这些错误可能来自设备、系统甚至用户。 此外,来自一种模式的错误可能还引起与来自其他模式的信息的不一致。多模式同步和消歧部件可以解决这种不一致、选择正确的解释并且基于上下文和置信度从这种错误中恢复。在一个实施例中,通过包括诸如输入设备的性能说明、特定模式的重要性、用来从输入数据中获取信息的算法的性能等的因素来计算置信度分数等。当在不同模式之间有不一致时,使用多个假设和对应的来自每种模式的置信度分数来决定哪些假设是传递给下一级处理的可能假设。通过对来自对于该假设的不同可用模式的置信度分数进行加权线性组合或者通过其他组合函数,来计算每个假设的合计置信度分数。图4是根据实施例的实施多模式交互系统的口语对话系统的框图。为了本描述的目的,在处理设备上执行的任何处理还可以被称为模块或者部件,并且可以是在各自设备计算机上本地执行的独立程序,或者它们可以是在一个或更多设备上运行的分布式客户应用程序的部分。系统400的核心部件包括带有针对不完整输入的多个理解策略的口语理解 (SLU)模块和语音识别(SR)模块402,处理多个对话线程的信息状态更新或者其他类型的对话管理器(DM)406,控制对基于本体领域知识的访问的知识管理器(KM)410,以及数据存储418。在一个实施例中,包括口语单词和词组的用户输入401产生由语音识别单元402接收的音波。语音识别单元402可以包括提供诸如动态语法或基于级别的η元语法的功能的部件。由语音识别单元识别的话语输出将被口语理解单元处理,以得到用户基于语音输入的语义。在用户输入401是基于文本而不是基于语音的情况下,语音识别被绕过,并且口语理解单元将接收用户基于文本的输入,然后生成用户基于文本的输入的语义。用户输入401 还可以包括手势或者其他物理沟通方式。在这种情况下,手势识别部件404将识别的手势转换成机器可识别的输入信号。手势输入和识别系统可以是基于相机的手势输入、基于激光传感器、红外线或者任何其他机械或电磁传感器的系统。用户输入也可以由计算机或其他基于处理器的系统408提供。通过计算机408的输入可以通过任何方法,例如键盘/鼠标输入、触摸屏、笔/指示笔输入,或者任何其他可用的输入方法。对于系统400的实施例,来自任何可用方法(语音、手势、计算机等)的用户输入被提供给多模式接口模块414,该模块与对话管理器404功能上耦合。多模式接口包括一个或者更多执行输入同步和输入消歧任务的功能模块。如图3所示,输入同步功能确定哪个输入或哪些输入对应于针对特定事件的响应。输入消歧功能解决在一个或者更多输入中出现的任何歧义。然后由对话管理器部件404处理正确的输入。响应发生器和文本-语音(TTS)单元416提供系统400的输出并且能基于用户输入产生音频、文本和/或视觉输出。通过以来自文本-语音单元的语音形式提供的音频输出,通过扬声器420播放。文本和视觉/图形输出可以通过显示设备422被显示,该显示设备可以执行图形用户接口处理,例如图2中所示的⑶1210。图形用户输入还可以访问或执行便利特定信息的显示的某些显示程序,例如用于显示名胜的地图等。由响应发生器416提供的输出可以是查询的答案、对澄清或更多信息的要求、用户输入的重复或者任何其他适当的响应(例如,以音频输出的形式)。输出也可以是在地图屏幕上的直线、区域或者其他类型的标记(例如,以图形输出的形式)。在一个实施例中,响应发生器在产生响应时利用域信息。因此,对用户说同样事情的不同措辞将会经常产生非常不同的结果。图4中说明的系统400包括巨大的数据存储418,其存储被系统400的一个或者更多模块使用的某些数据。系统400还包括应用管理器412,其从一个或者更多应用或设备向对话管理器404 提供输入。应用管理器到对话管理器的连接可以是直接的,如图所示,或者可以通过多模式接口 414处理一个或多个应用/设备输入以用于与用户输入401和403 —起同步和消歧。多模式接口 414可以包括系统400的部件中的一个或更多的分布式处理。例如, 在对话管理器404中可以提供同步功能,并且在SR/SLU单元402和手势识别模块404以及甚至在应用管理器412中提供消歧处理。同步功能基于输入事件的时间顺序以及来自诸如语音识别器、手势识别器等识别器的内容来同步输入。例如,识别的语音“在这个区域内找到一家中餐厅”将会提示系统等待来自手势识别部件的输入或者在延长的进行时段搜索输入。如果手势被识别,则对于语音识别器,可以预期到相似的处理。在两种情况下,需要语音和手势缓冲器来存储语音和手势事件延长的时间段。消歧功能基于对话上下文对从每种模式获取的信息进行消歧。图5是说明根据实施例的处理对话系统中通过多模式接口的用户输入的方法的流程图。当从一个或者更多模式接收到输入时(框50 ,同步功能基于可能与输入对应的事件的时间通信来同步输入(框504)。对于每个输入,对话管理器导出关于输入含义的可能性的原始假设集(框506)。假设(H)中的不确定性代表输入中歧义的量。某些假设正确的可能性可以由加权值(W)来表达。因此,每个输入可以具有与其相关联的假设和加权值 (H,W)。对于多种输入模式,产生假设矩阵,例如对于三种输入模式(例如,语音/手势/键盘)来说的(H1W1 ;H2W2 ;H3W3)。在某些情况下,来自不同输入类型或者模式的输入可以帮助澄清来自另一种模式的输入。例如,对地图的随意手势可能没有清楚地表明用户指向的位置,但是如果他或者她还说了“I^lo Alto,”则该口头输入能够帮助纠正手势输入中的歧义,并且反之亦然。该步骤由可以与输入识别单元相关的消歧处理来执行。如图5所示,在框508中,口语单元从对话管理器对另一种模式输入的解释中接收到约束集合,并且将这些约束提供给消歧处理。 然后约束与对话管理器中的原始假设相结合(框510)。然后对话管理器根据基于其他输入的约束导出新假设(框51 。通过这种方式,来自一种或者更多其他模式的输入被用来帮助确定来自特定输入模式的输入的含义。因此多模式接口系统提供了一种系统和方法,该系统和方法用来同步和整合从多个输入设备获取的多模式信息,并且基于多模式信息对输入进行消歧。该系统和方法使得对话系统能够基于多模式信息检测错误并且从错误中恢复。本系统通过允许用户同时通过多种模式输入信息而为用户提供了更大的灵活性和便利性。消歧和错误恢复机制能够提高HMI系统的性能和鲁棒性。多模式接口系统的实施例可以被用在任何类型的人机交互(HMI)系统中,例如用来操作车载设备和服务的对话系统;呼叫中心、智能电话或者其他移动设备。这样的系统可以是包括用于来自一个或多个用户的口头输入的一个或多个读音识别器部件的基于语音的系统,或者他们可以是手势输入、机器输入、或者软件应用输入模块,或者其任意组合。本文所描述的实施例包括对话系统中的计算机实施方法,所述方法包括从多种输入模式接收输入;基于与输入相关的事件的时间顺序同步输入;针对事件的输入产生原始假设;基于所述多个输入中的一个或更多其他输入接收输入的约束;将约束与原始假设结合;以及导出新假设以解释输入。实施例的假设包括假设值(H)和加权值(W),其中W表示输入的正确解释的可能性。实施例的输入至少部分由人类用户者提供,并且其中所述多种输入模式选自由以下各项组成的组口头输入、手势输入、键盘输入、鼠标输入以及笔或者指示笔输入。实施例的输入至少部分由应用程序或设备提供,并且其中多种输入模式还包括程序输入和设备输入。实施例的输入包含一个或更多错误,并且其中基于由约束提供的多模式信息使用新假设来对输入进行消歧。实施例的对话系统包括包含口语理解单元的语音识别级(stage)。实施例的对话系统包括手势识别单元以解释通过触摸屏接口提供的或者由一个或更多手势传感器感测的物理用户输入。本文所描述的实施例包括对话系统,所述对话系统包括输入级,用来从多种输入模式接收输入;同步模块,用来基于与输入相关的事件的时间顺序同步输入;对话管理器, 用来针对事件的输入产生原始假设;消歧模块,用来基于多个输入中的一个或更多其他输入接收该输入的约束,其中对话管理器将约束和原始假设结合起来并且导出新假设以解释输入。实施例的假设包括假设值(H)和加权值(W),其中W表示输入的正确解释的可能性。实施例的输入至少部分由人类用户提供,并且其中,提供给输入级的多个输入模式选自由以下各项组成的组口头输入、手势输入、键盘输入、鼠标输入,以及笔或者指示笔输入。实施例的输入至少部分由应用程序或设备提供,并且其中多种输入模式还包括程序输入和设备输入。实施例的输入包含一个或更多错误,并且其中基于由约束提供的多模式信息使用新假设来对输入进行消歧。实施例的对话系统包括包含口语理解单元的语音识别级。实施例的对话系统包括手势识别单元以解释通过触摸屏接口提供的或者由一个或更多手势传感器感测的物理用户输入。实施例的消歧模块包括手势识别单元和在每个语音识别级提供的消歧部件。实施例的对话系统包括响应发生器,其基于用户输入产生系统输出。实施例的对话系统包括文本-语音单元,其将系统输出的至少一部分转换为口语输出。实施例的对话系统包括与文本-语音单元耦合的音频输出设备,其为用户播放口语输出。实施例的对话
9系统包括图形输出,其通过图形用户接口处理显示来自响应发生器的图形输出。本文所描述的实施例包括计算机可读介质,其包含多个程序指令,该指令在由处理器执行时使得处理器执行从多种输入模式接收输入;基于与输入相关的事件的时间顺序同步输入;针对事件的输入产生原始假设;基于多个输入中的一个或更多其他输入接收输入的约束;将约束与原始假设结合;以及导出新假设以解释输入。实施例的假设包括假设值(H)和加权值(W),其中W表示输入的正确解释的可能性。实施例的输入至少部分由人类用户者提供,并且其中,多个输入模式选自由以下各项组成的组口头输入、手势输入、键盘输入、鼠标输入,以及笔或者指示笔输入。实施例的输入至少部分地由应用程序或设备提供,并且其中多种输入模式还包括程序输入和设备输入。实施例的输入包含一个或更多错误,并且其中基于由约束提供的多模式信息使用新假设来对输入进行消歧。本文所描述的多模式同步和消歧处理的方面可以被实施为被编程到任何各种电路中的功能,所述各种电路包括诸如现场可编程门阵列(“FPGAs”)、可编程阵列逻辑 (“PAL”)设备等的可编程逻辑设备(“PLDs”),电可编程逻辑和存储器设备以及基于标准单元的设备(standard cell-based device),以及专用集成电路。实施方面的一些其他可能性包括具有存储器的微控制器(例如EEPR0M),嵌入式微处理器,固件,软件等等。另外, 服务于方法的内容的方面可以体现在具有基于软件的电路仿真的微处理器、离散逻辑(顺序的和组合的),定制设备,模糊(神经)逻辑,量子设备,以及任何上面设备类型的混合。 在各种部件类型中可以提供基础的设备技术,例如,像互补金属氧化物半导体(CM0Q的金属氧化物半导体场效应晶体管(“M0SFET”)技术,像射极耦合逻辑(“ECL”)的双极技术, 聚合物技术(例如,硅共轭聚合体和金属共轭聚合物-金属结构),模拟和数字混合等等。还应该注意,按照本文公开的各种功能的行为、寄存器传送、逻辑部件和/或其他特征,可以使用任意数量的硬件、固件、和/或体现在各种机器可读的或者计算机可读的介质中的数据和/或指令的组合来描述这些功能。可以体现这些格式化的数据和/或指令的计算机可读介质包括,但不局限于,各种形式的非易失性存储介质(例如,光、磁或者半导体存储介质)和可以被用于通过无线、光学或者有线信号介质及其任意组合来传输这些格式化的数据和/或指令的载波。通过载波传输这些格式化的数据和/或指令的例子包括, 但不局限于,经由一种或者更多数据传输协议(例如,HTTP、FTP、SMTP等等)通过互联网和 /或其他计算机网络进行传输(上传、下载、电子邮件等)。除非上下文明确地要求,否则在说明书和权利要求中,“包括(comprise) ”、“包括 (comprising) ”等单词旨在以包含的方式而不是以排他或穷举的方式被解释;也就是说,以 “包括但不局限于”的方式。使用单数或复数的单词也分别包括复数或单数。另外,单词“本文中”、“之后”、“上述”、“下面”以及类似意义的单词指的是作为整体的本申请而不是本申请的任何特定的部分。当使用单词“或者”提到两个或更多条目列表时,该单词覆盖对该单词的以下所有解释列表中的任何项、列表中的所有项以及列表中项的任意组合。所说明的多模式输入接口的实施例的以上描述并不意图是穷举的或者将这些实施例限制为所公开的精确形式或指示。尽管为了说明的目的,本文描述了计算设备中处理的具体实施例和例子,但是在本领域技术人员将意识到,在所公开的方法和结构范围内,各种等价修改是有可能的。上面描述的各种实施例的元件和动作可以被结合以提供更多的实施例。可以按照上面详细的描述对多模式输入接口处理做出这些和其他的修改。总的来说,在所附的权利要求中,所使用的术语不应当被解释为将所公开的方法限制到在说明书和权利要求中所公开的特定实施例,而应当被解释为包括根据权利要求操作的所有操作或者处理。因此,所公开的结构和方法不受本公开所限制,而是完全由权利要求来确定所详述的方法的范围。尽管在下面以特定的权利要求的形式提出所公开的系统和方法的某些方面,但是发明人设想任意数量的权利要求形式中的方法的各个方面。例如,虽然只有一个方面可能被陈述为体现在机器可读介质中时,但是其他方面也可以同样体现在机器可读介质中。因此,发明人保留在提交本申请之后增加附加权利要求的权利以为其他方面追求这种附加权利要求的形式。
权利要求
1.一种对话系统中的计算机实施方法,包括从多种输入模式接收输入;基于与所述输入相关的事件的时间顺序同步所述输入;针对事件的输入产生原始假设;基于所述多个输入中的一个或者更多其他输入接收所述输入的约束;将所述约束与所述原始假设结合;以及导出新假设以解释所述输入。
2.根据权利要求1所述的方法,其中,所述假设包括假设值(H)和加权值(W),其中W 表示所述输入的正确解释的可能性。
3.根据权利要求1所述的方法,其中,所述输入至少部分由人类用户提供,并且其中所述多种输入模式选自由以下各项组成的组口头输入、手势输入、键盘输入、鼠标输入、以及笔或者指示笔输入。
4.根据权利要求3所述的方法,其中,所述输入至少部分由应用程序或者设备提供,并且其中所述多种输入模式还包括程序输入和设备输入。
5.根据权利要求1所述的方法,其中,所述输入包含一个或者更多错误,并且其中基于由所述约束提供的多模式信息使用所述新假设来对所述输入进行消歧。
6.根据权利要求5所述的方法,其中,所述对话系统包括语音识别级,所述语音识别级包含口语理解单元。
7.根据权利要求6所述的方法,其中,所述对话系统还包括手势识别单元,所述手势识别单元解释通过触摸屏接口所提供的或者由一个或者更多手势传感器所感测的物理用户输入。
8.一种对话系统,包括输入级,其从多种输入模式接收输入;同步模块,其基于与所述输入相关的事件的时间顺序来同步所述输入;对话管理器,其针对事件的输入产生原始假设;消歧模块,其基于所述多个输入中的一个或者更多其他输入接收所述输入的约束,其中所述对话管理器将所述约束与所述原始假设结合并且导出新假设以解释所述输入。
9.根据权利要求8所述的系统,其中,所述假设包括假设值(H)和加权值(W),其中W 表示所述输入的正确解释的可能性。
10.根据权利要求1所述的系统,其中,所述输入至少部分由人类用户提供,并且其中提供到所述输入级的所述多种输入模式选自由以下各项组成的组口头输入、手势输入、键盘输入、鼠标输入、以及笔或者指示笔输入。
11.根据权利要求10所述的系统,其中,所述输入至少部分由应用程序或者设备提供, 并且其中所述多种输入模式还包括程序输入和设备输入。
12.根据权利要求8所述的系统,其中,所述输入包含一个或者更多错误,并且其中基于由所述约束提供的多模式信息使用所述新假设来对所述输入进行消歧。
13.根据权利要求12所述的系统,其中,所述对话系统包括语音识别级,所述语音识别级包含口语理解单元。
14.根据权利要求13所述的系统,其中,所述对话系统还包括手势识别单元,所述手势识别单元用于解释通过触摸屏接口所提供的或者由一个或者更多手势传感器所感测的物理用户输入。
15.根据权利要求14所述的系统,其中,所述消歧模块包括在所述手势识别单元和所述语音识别级中的每一个中提供的消歧部件
16.根据权利要求15所述的系统,还包括 响应发生器,其基于所述用户输入产生系统输出;文本-语音单元,其将至少一部分所述系统输出转换为口语输出;耦合到文本-语音单元的音频输出设备,其为所述用户播放所述口语输出;以及图形输出,其通过图形用户接口处理显示来自所述响应发生器的图形输出。
17.一种计算机可读介质,包含多个程序指令,当所述程序指令被处理器执行时,使得所述处理器执行以下步骤从多种输入模式接收输入;基于与所述输入相关的事件的时间顺序同步所述输入; 针对事件的输入产生原始假设;基于所述多个输入中的一个或者更多其他输入接收所述输入的约束; 将所述约束和所述原始假设结合;以及导出新假设以解释所述输入。
18.根据权利要求17所述的介质,其中,所述假设包括假设值(H)和加权值(W),其中 W表示所述输入的正确解释的可能性。
19.根据权利要求18所述的介质,其中,所述输入至少部分地由以下提供人类用户,并且其中所述多种输入模式选自由以下各项组成的组口头输入、手势输入、键盘输入、鼠标输入、以及笔或者指示笔输入;以及应用程序或者设备,并且其中所述多种输入模式还包括程序输入和设备输入。
20.根据权利要求19所述的介质,其中,所述输入包含一个或者更多错误,并且其中基于由所述约束提供的多模式信息使用所述新假设来对所述输入进行消歧。
全文摘要
本发明公开了利用多模式输入接口以用于识别人机交互(HMI)系统中的用户输入的对话系统的实施例。实施例包括从多种不同的用户输入机制(多模式输入)接收用户输入并且执行特定的同步和消歧处理的部件。多模式输入部件将从不同模式获取的信息同步和整合,对输入进行消歧,并且从可能产生的关于任何用户输入的任何错误中恢复。这种系统有效地解决与用户输入相关的任何歧义并且校正人机交互中的错误。
文档编号G06F3/16GK102428440SQ201080021524
公开日2012年4月25日 申请日期2010年2月5日 优先权日2009年3月18日
发明者B·阎, Z·冯, 任骝, 沈中南, 翁富良, 邹林灿 申请人:罗伯特·博世有限公司