使用外在物理表达的搜索用户界面的制作方法
【专利说明】
【背景技术】
[0001]在查询信息时,用户具有自然的倾向来利用身体的物理移动或面部表达进行反应。在使用搜索引擎来查找信息时,用户键入查询并被呈现结果的列表。为了得到对于查询的结果,通过使用外部判断来标记文档相关性或使用通过用户与结果页面主要使用鼠标驱动输入(例如,点击)的交互所收集的反馈来训练排序器。但是,这种常规的输入设备交互技术是很麻烦的,在数据可靠性以及因而所捕获的数据的效用性方面有限制。
【发明内容】
[0002]下面的内容提出了本发明简化的
【发明内容】
,以便提供本文描述的一些新颖的实施例的基本理解。本
【发明内容】
不是一个广泛的概览,它并不旨在标识核心/关键元素,也不旨在描述其范围。它唯一的目的是以简化的方式来提出一些概念,作为稍后提出的更详细的描述的前序。
[0003]公开的架构使得能够实现外在物理表达形式的用户反馈,以便与搜索引擎框架进行交互,所述外在物理表达包括一个或多个用户的手势以及可选地包括一个或多个用户的话音信号。例如,文档相关性,文档排序以及搜索引擎的输出可以基于物理手势(以及可选地,话音命令)的捕获和解释来修改。该反馈包括操作界面特征的控制反馈(显式的)以及用户在其中表达由架构所捕获和解释的感情的情感反馈(隐式的)。
[0004]基于用户的关节的物理位置以及相对于该关节的身体附属物移动,来检测特定手势(包括一个或多个姿势)的识别。这个能力被具体化为用户交互设备,通过该用户交互设备用户交互被解释为系统指令并被执行用于诸如滚动、项目选择等之类的用户界面操作。该架构在导航话音驱动以及手势驱动的界面的同时捕获感情的响应,并指示适当的反馈已被捕获。该反馈可以被用来变更(alter)搜索查询、修改结果排序、页面元素/内容和/或布局,以及使用通过搜索/浏览会话所收集的反馈来将响应个性化(personalize)。
[0005]为了完成前述和相关目的,本文结合下面的描述以及附图一起来描述确定的说明性的方面。这些方面指示了本文公开的原理可以被实践的各种不同的方式并且所有的方面及其等价物旨在处于要求保护的主题的范围之内。在结合附图一起考虑时,其他优点和新颖的特征根据下述【具体实施方式】将变得明显。
【附图说明】
[0006]图1图示了根据公开的架构的系统。
[0007]图2图示了使得能够通过手势和/或话音来进行用户交互的示例性用户界面。
[0008]图3图示了使得能够通过手势和/或用于异议手势的话音来进行用户交互的示例性用户界面。
[0009]图4图示了使用于搜索的用户手势和输入的检测和显示更容易的系统。
[0010]图5图示了可以被用来计算用于搜索的人类手势的一般化人体模型的一种示例性技术。
[0011]图6图示了可以被用于搜索输入以及反馈自然的用户界面的示例性手势和输入的表格。
[0012]图7图示了根据公开的架构的方法。
[0013]图8图示了图7的方法的进一步的方面。
[0014]图9图示了根据公开的架构的可替换的方法。
[0015]图10图示了图9的方法的进一步的方面。
[0016]图11图示了根据公开的架构在搜索引擎框架中执行手势捕获和处理的计算系统的框图。
【具体实施方式】
[0017]公开的架构捕获和解释身体/手部手势以便与搜索引擎框架进行交互。在一个示例中,作为训练数据收集阶段一部分,可以利用手势来修改搜索结果。例如,可以使用手势来提供用于训练数据的文档(结果)的相关性反馈以便优化搜索引擎。另一个手势可以被配置和被利用来变更结果排序,并因此变更搜索引擎的输出。例如,用户表达的反馈可以是通过手势的方式,其中上述手势动态地修改搜索引擎结果页面(SERP)或向下更深入地挖掘(例如,向下导航数据的分层结构)特定的主题或领域。
[0018]在一个实现中,手势可以包括拇指向上的姿势来表示同意,拇指向下的手部姿势来表示异议,以及手部捂到脸上的姿势来表示疑惑(或绝望)。但是,将被理解的是,手势的数量和类型不限于上述三个,例如可以包括诸如用于部分同意(例如,以手掌向上的方向挥手)以及部分异议(例如,以手掌向下的方向挥手)的手势之类的其他手势。因此,可以有多种多样不同的表示感情的外在物理表达以及可以通过这种方式被配置和传达的操作命令。换句话说,手势姿势(与时间无关的)以及与时间相关的运动(例如,挥击)的类型和数量可以视期望被改变或扩展。
[0019]公开的架构尤其有助于自然用户界面(NUI)。NUI可以被定义为使得用户能够以“自然的”方式,没有诸如鼠标、键盘、遥控等之类的输入设备所施加的人工限制来与设备进行交互的任何界面技术。
[0020]ΝΠ方法的示例包括那些依赖语音识别、触摸和指示笔识别、在屏幕上以及邻近屏幕的手势识别、悬浮手势(air gesture)、头部以及眼睛跟踪、话音和语音、视觉、触觉、手势以及机器智能的示例。NUI技术的具体分类包括触觉敏感的显示、话音和语音识别、意图和目的理解、使用深度摄像机(例如,立体摄像机系统、红外线摄像机系统,RGB (红绿蓝)摄像机系统及其组合)的运动手势检测、使用加速计/陀螺仪的运动手势检测、面部识别,三维(3D)显示、头部、眼睛以及凝视跟踪、沉浸式增强显示以及虚拟现实系统,上述所有技术提供了更自然的界面,也提供了用于使用电场感知电极(EEG (脑电图学)和相关方法)来感知大脑活动的技术。
[0021]可以适用于该公开架构的合适的系统包括系统用户界面,诸如由通用计算系统或多媒体控制台的操作系统所提供的,使用象征的手势来控制的那些。象征的手势移动在拥有或没有输入设备辅助的情况下由用户来实行。目标跟踪系统分析这些移动来确定预定义的手势何时已经被实行。捕获系统产生包括人类目标的捕获区域的深度图像。该捕获设备生成包括该人类目标的捕获区域的3D表示的深度图像。该人类目标通过使用骨骼映射捕获该用户的运动来被跟踪。该骨骼映射数据被用来通过使用手势过滤器来识别对应于预定义的手势的移动,其中上述手势过滤器阐明用来确定目标移动何时指示可行的手势的参数。当手势被检测时,实行一个或多个预先定义的用户界面控制动作。
[0022]在一个实施例中,用户界面可以使用人类目标的移动来被控制。人类目标的移动可以通过使用来自捕获设备的图像生成该人类目标的骨骼映射来被跟踪。从该骨骼映射中,确定该人类目标的移动是否满足一个或多个用于特定手势的过滤器。例如,一个或多个过滤器可以指定手势由特定的一只手或由两只手来实行。如果人类目标的移动满足了一个或多个过滤器,则对应于该手势的一个或多个用户界面动作被实行。
[0023]根据一种用于跟踪用户移动来控制用户界面的技术,该系统包括提供用户界面的操作系统、跟踪系统、手势库以及手势识别引擎。该跟踪系统与图像捕获设备通信以便接收捕获区域(包括人类目标)的深度信息以及创建随着时间来映射人类目标的移动的骨骼模型。手势库存储了多个手势过滤器,其中每个手势过滤器定义用于至少一个手势的信息。例如,手势过滤器可以指定相应的手势由特定的一只手、双手、手臂、诸如肩膀的躯干部分、头部移动等来被实行。
[0024]手势识别引擎与跟踪系统通信以便接收骨骼模型,以及使用手势库来确定人类目标(或其部分)的移动是否满足多个手势过滤器中的一个或多个。当人类目标的移动满足多个手势过滤器中的一个或多个的时候,手势识别引擎将指示提供给该操作系统,该操作系统可以实行相应的用户界面控制动作。
[0025]在一个示例中,与多个手势中的每个相对应的多个手势过滤器被提供来控制操作系统用户界面。例如,多个手势可以包括水平摆动手势(fling gesture)(其中,用户通常沿着水平面来运动手部或手部/手臂,好像是在翻书的页面),垂直摆动手势(其中,用户通常沿着垂直面来运动手部或手部/手臂,好像是在提起或关闭容器的盖子),单手按压手势,后退手势(back gesture),双手按压手势,和双手压缩手势等。人类目标的移动可以通过在已知的3D坐标系统中使用人类目标的骨骼映射从多个深度图像中被跟踪。从骨骼映射中,确定人类目标的移动是否满足用于多个手势中的每个的至少一个手势过滤器。作为对确定人类目标的移动满足手势过滤器中的一个或多个的响应,该操作系统用户界面被控制。
[0026]在另一个适合于公开架构的系统中,用户移动在运动捕获系统中被跟踪。用户手部可以随着时间在该运动捕获系统的视野中被跟踪,包括得到在不同时间点上的手部的3D深度图像。例如,该3D深度图像可以被用来提供用户身体的骨骼模型。视野中手部的位置的初始估计可以基于跟踪来得到。该初始估计可以由任何类型的运动跟踪系统来提供。由于运动跟踪系统所引入的误差,位置的初始估计可能是有些不精确,其中上述误差包括噪声、抖动以及所使用的跟踪算法。因此,该初始估计相对于先前时间点的相应估计的差可以被确定,并且此外,如果该差低于阈值。该阈值可以定义将先前时间点的估计作为其中心的2D区域或3D立体(volume)。如果差低于该阈值,可以将平滑过程应用于该初始估计以便通过以低于该差的数量来改变该初始估计,从而提供位置的当前估计。上述平滑操作也可以被应用于手部/手臂姿势识别。
[0027]在另一方面,如果差是相对较大以至于不低于阈值,则位置的当前估计可以基本上被提供来作为初始估计,在这种情况下不应用平滑效果。这个技术在平滑了更小的移动的同时,最小化了对于手部较大的帧到帧的移动的等待时间。基于当前估计,在视野中将诸如矩形(包括立方体)或球形立体之类的立体定义为搜索立体。3D深度图像在立体中被搜索以便在视野中确定手部的位置的新的估计。该搜索可