针对语音识别系统的视觉反馈的制作方法
【专利说明】
【背景技术】
[0001]一些语音识别系统可以在多用户环境下操作,在多用户环境下可以从房间中的各种位置并且以各种音量从多个用户提供话音命令。在一些情况下,可能难以确定哪个用户当前正在与语音识别系统交互和/或语音输入是否被接收该语音输入的计算设备听到并理解。
【发明内容】
[0002]公开了涉及在语音识别系统中提供视觉反馈的实施例。例如,一个公开的实施例提供了一种方法,包括:显示图形反馈指示符,所述图形反馈指示符具有依赖于语音识别系统的状态的可变外观。该方法还包括:接收语音输入;如果语音输入被系统听到并理解,则以第一方式修改图形反馈指示符的外观,以及如果语音输入被听到但未被理解,则以不同的第二方式修改图形反馈指示符的外观。
[0003]本概要被提供来以简化的形式介绍构思的选择,在下面的详细说明中进一步描述了这些构思。本概要既不意在识别所要求保护的主题的关键特征或必要特征,也不意在被用于限制所要求保护的主题的范围。此外,所要求保护的主题不限于解决了在本公开内容的任何部分中提到的任何或全部缺陷的实现。
【附图说明】
[0004]图1示出了根据本公开内容的实施例的、针对语音识别系统的示例性多用户环境。
[0005]图2示出了根据本公开内容的实施例的示例性语音识别系统的框图。
[0006]图3示出了描绘为语音识别系统提供反馈的方法的实施例的流程图。
[0007]图4A-4F示出了根据本公开内容的实施例在显示器上显示的反馈的示例。
[0008]图5示出了根据本公开内容的另一实施例的、具有紧凑外观的反馈的示例。
[0009]图6示出了根据本公开内容的实施例的示例性计算系统的框图。
【具体实施方式】
[0010]如上文提到的,一些语音识别系统可以在多用户环境下操作,在多用户环境下可以从房间中的各种位置并且以各种音量从多个用户提供话音命令。然而,语音识别系统可能具有简单的反馈机制来向用户警告当前交互状态,或者可能根本不使用任何反馈机制。尽管对于单用户环境而言这样的语音识别系统可能就足够,然而多用户环境和/或多应用环境的复杂性可能导致在使用期间的混乱,因为语音识别系统可能不按对预期语音命令所期望的那样做出响应。此外,用户可能难以查明问题以便修改他们的行为或找到解决方案。
[0011]语音识别系统可以在各种状态下操作并且在语音接收和识别的过程中执行各种任务。例如,语音识别系统可以有时工作在受限或被动的(passive)监听状态下,在所述受限或被动的监听状态下,语音识别系统仅监听用于唤醒并进入主动监听状态的触发。因此,在被动监听状态下,可以支持有限数目的所识别的语音命令。在主动监听状态下,语音识别系统可以接收和分析检测到的语音,以确定相对应的动作来在计算设备上进行。语音输入系统可以使用不同的主动监听状态,所述不同的主动监听状态对应于不同的计算设备情境,比如应用情境或操作系统情境。这样,语音输入可以在不同的主动监听情境下,甚至在相同应用中的不同情境下,被不同地解释。
[0012]各种参数可以影响语音输入是否被计算系统恰当地听到和理解。例如,如果语音识别系统没有检测到足够音量的语音输入,则该语音输入不会被正确理解。此外,在多用户环境下,如果语音输入系统没有恰当地识别语音输入的源(例如,如果系统尝试将来自多个用户的词语解释为来自单个用户的单个命令),则用户可能在进行语音输入时有困难。此夕卜,甚至在从确定的用户接收到足够音量的语音输入的情况下,在确定进行语音输入的用户的意图时也可能遭遇歧义。
[0013]考虑到这样的复杂性,如果用户提供了语音输入并且系统执行了与语音输入不相关的动作或者无法执行任何动作,则可能难以确定语音输入为何没有被恰当地解释。因此,公开了涉及在语音识别系统中提供用户界面反馈机制的实施例。所公开的反馈机制可以提供与监听状态、当前语音输入情境、语音输入音量、用户标识、用户位置、实时语音识别确认和/或用户在进行语音输入时的其他信息有关的反馈。因此,这样的反馈可以有助于使用户能够理解语音输入是否正被接收并且被正确地解释。
[0014]图1示出了针对语音识别系统的多用户环境100的示例性实施例。多用户环境包括与计算系统104交互的第一用户102。计算系统104可以通信地连接到其他设备,比如传感器系统106和显示设备108。传感器系统106可以包括一个或多个深度摄像机、一个或多个二维摄像机、一个或多个麦克风(例如,定向麦克风阵列,其允许确定从哪个位置接收到语音输入)和/或任何其他合适的传感器。显示设备108包括用于向用户呈现视觉信息的显示器110。环境100还图示了第二用户112。第二用户112也可以向计算系统104提供语音输入,和/或可以在第一用户102进行语音输入时促成背景噪声。
[0015]第一用户102被图示为提供语音输入来控制运行在计算系统104上的视频游戏应用。图1还示出了语音识别反馈机制的示例性实施例,所述语音识别反馈机制采用在显示器110上显示的图形反馈指示符114的形式。所描绘的图形反馈指示符114包括位置和音量指示特征114a,所述位置和音量指示特征114a的位置描绘了语音输入正从哪个方向被接收,所述位置和音量指示特征114a的长度指示了语音输入的检测到的音量。图1中,位置和音量指示特征114a被定位成指示从观众的角度来看正在接收的语音输入是从显示器的左侧被检测到的,这对应于第一用户102的位置。相反,如果系统要检测源自第二用户112的语音,则位置和音量指示特征114a将被定位在图形反馈指示符114的右侧以与第二用户112的位置相对应。
[0016]图形反馈指示符114还被描绘为提供与识别和/或理解的语音输入有关的反馈。在描绘的实施例中,这样的反馈的示例被示为文本串,所述文本串响应于第一用户102说词语“再装弹(RELOAD)”或者说与相同的用户意图相对应的其他短语(例如,“改变弹药(CHANGE AMMUNIT1N)”)而示出词语“再装弹”,这样使得显示的文本串对应于与接收到的语音输入相对应的规范语音输入。这样的反馈可以按照系统的理解实时向用户示出语音输入的内容,从而警告用户语音输入是被正确地理解还是错误地理解。在一些实施例中,除了图形反馈指示符114之外,计算系统104还可以提供话音和/或非话音声频反馈。
[0017]针对语音识别系统的图形反馈指示符可以包括任何合适数目和排列的视觉反馈元素,包括但不限于插图、文本、图像等等,并且可以具有任何其他合适的外观。例如,图形反馈指示符114可以被叠加在用户界面的可显示内容上和/或在视觉上被整合在用户界面内。下文参考图4A至图4F以及图5描述了示例性实施例。
[0018]图2示出了语音识别系统200的示例性实施例的框图。语音识别系统包括计算设备202,其可以代表计算系统104或其他合适的计算系统。计算设备202包括被存储于其上的存储装置中的计算机可读指令,计算机可读指令可被执行来操作语音识别系统204。语音识别系统204可以被配置为经由传感器系