通过语音和视频定位的自动取景的制作方法

文档序号:26944434发布日期:2021-10-12 17:43阅读:112来源:国知局
通过语音和视频定位的自动取景的制作方法
通过语音和视频定位的自动取景
1.相关申请的交叉引用
2.本技术要求2020年3月19日提交的名称为“通过语音和视频本地化自动取景”的第62/991,852号美国临时申请的优先权的权益,其通过引用合并于本文。
技术领域
3.本技术涉及自动取景,并且具体地涉及通过语音和视频本地化来优化取景的集成控制系统。


背景技术:

4.视频会议通常涉及在地理上分离的参与者之间共享图像。通过相机和麦克风,系统捕获视频并将其中继给其他参与者。参与者之间共享的同时内容通常受设备设置的限制。例如,许多用户不熟悉相机和麦克风的设置。因此,常常配置不正确。
5.在会议期间手动控制视频会议设备没有用处,这是因为指令通常很复杂,需要技术知识;并且在会议期间更改设置可能会分散注意力。通常,取景控制不直观,并且许多系统无法在整个会议中跟踪活跃的讲话者。
附图说明
6.图1是音频和视频定位系统。
7.图2是噪声检测器和语音段标识器。
8.图3是替代的噪声检测器和语音段标识器。
9.图4是会议系统。
10.图5是自动取景过程。
11.图6是自动取景和视频会议系统。
12.图7是基于视觉的手部和手臂手势识别过程。
13.图8示出了虚拟交互区域。
14.图9示出了指向用手指位置的检测和标记。
15.图10示出了指向用手指位置的检测和标记。
16.图11示出了示例性非接触式致动菜单。
17.图12示出了仿真计算机悬停。
18.图13示出了移动示例性菜单项的仿真滑动动作。
19.图14示出了对示例性菜单选项的仿真激活或点击。
20.图15示出了在仿真白板或可选背景上的绘制功能。
21.图16示出了仿真的激光指示功能。
22.图17示出了示例性唤醒手势。
23.图18示出了选择性地缩小了交钥匙非接触式用户界面系统的带通或虚拟交互区域的自动过滤功能的输出。
24.图19示出了示例性的手臂手势。
25.图20示出了对增加了交钥匙非接触式用户界面系统的带通或虚拟交互区域的自动过滤功能的自动修改的输出。
26.图21示出了四分之一臂手势。
27.图22示出了交钥匙非接触式用户界面系统。
具体实施方式
28.智能视频会议控制系统和过程(称为一个或多个系统)在改善与参与者共享的语音的感知质量的同时,提供了自然且无缝的跟踪。这些系统通过获取、调节、同化和压缩数字音频和视频内容并将内容传输到远程目的地,从而提供自主的音频和视频控制。这些系统使用包括语音定位器和可选的视频定位器的集成技术,处理语音以提供自动图像和音频控制,同时在地理上分离的参与者之间提供同步通信。
29.一些系统还允许跨网络的用户一起处理内容和文档,这些内容和文档同时显示给所有用户,就好像它们都是聚集在物理白板上一样。这些替代系统允许所有参与者访问和修改一个位置上的一组文件。通过系统的语音增强,系统通过消除不必要的噪声并抑制输入器件阵列接收到的背景噪声,改善了发声语音的感知语音质量。一些系统不从信号中去除整个噪声以保持参与者习惯的自然声音条件。设备可以被配置为通过专门或部分地处理语音到达的时间差来感测参与者语音和语音模式的定向响应。视频会议系统的控制基于听觉频谱的各个部分,这些部分会进一步压缩并通过一个或多个网络进行传输,所述一个或多个网络例如包括广域网或互联网。
30.一些系统对不期望的信号的时频特性进行建模,并去除与一个或多个不期望的信号特性(例如噪声)相对应的随机瞬态信号(例如,非周期性信号)和/或持久性信号(例如,周期性或连续信号)。当检测到不期望的特性时,将它们基本上去除或抑制,从而呈现更清晰的声音。它还改善了语音信号的感知质量。处理后的语音和期望的信号使系统能够自动控制和调节系统,例如,对可以作为视频会议系统的一部分的一个或多个相机进行平移、倾斜和变焦。该控件可确保高分辨率的视图,清晰且感知质量经改善的语音以及更清晰的期望声音,这些声音被传送到地理位置较远的参与者,而不会分散、负担或要求参与者调节任何设备。此外,系统是自校准的,从而在它们被首次使用时、在被用于不同环境中时和/或在被用于新环境中时,无需用户对该系统进行校准或重新校准。
31.非接触式用户界面使所有用户几乎不需要培训就可以控制系统,而不论他们的背景或讲话风格如何。所述系统可立即访问,并且在一些系统中,提供手势命令和/或语音命令的视觉提示,这些手势命令和/或语音命令可以自动地取景、查看、跟踪并增强聚焦于演示者的准确性。图1是示出非接触式界面的一些功能的流程图。如图1或图6所示,可选的接近度检测器、光学检测器和/或语音检测器检测参与者的存在,并且在一些应用中,测量或估计参与者(例如,目标)在虚拟交互空间中的距离而不与一个或多个检测器102进行物理接触。检测器102与一些集成系统(例如,图4所示的系统)中的和其他配置的单独系统中的一个或多个摇摄变焦相机(称为一个或多个相机116)控制系统进行交互或者是作为其整体部分。检测器102在他们进入交互空间时检测在场参与者和参与者的数量。
32.在检测时,系统响应于检测而从待机状态(例如,休眠状态)转变为交互状态(例
如,活跃状态)。在一些系统中,转换是实时发生的(例如,以检测发生的相同速率唤醒,没有延迟),而在其他系统中则是近实时发生的。通过在后台中加载应用程序软件,可以在一些系统中减少延迟。在这些系统中,后台加载改善了系统响应能力,消除了一些用户认为缓慢且迟缓因此对于商业用途不切实际的移动和等待操作状态。
33.一些替代系统呈现可选的应答通知,例如通过经由语音合成引擎(例如,诸如将文本应答转换为发声语音的高保真文本到语音引擎)的合成声音做出的可听见的应答和/或在图4所示的显示器402上呈现的视觉应答。可选的应答在发生进一步的交互之前确认活跃状态。对用户在虚拟交互空间中的存在的检测触发一个或多个自动取景模式(例如,独讲模式、辩论模式和/或小组模式),这些模式对交互空间中存在的参与者进行取景,并随着更多参与者进入和离开交互空间,不断调节取景模式和取景区域。一些替代系统也允许用户通过语音命令将交互空间划分为阻挡区域或阻挡区,这些语音命令阻止系统跟踪指定区域中的用户并阻止系统跟踪这些区域中的图像。这些替代系统中的一些系统也通过衰减、失真和/或抑制从这些区域或主要从阻挡区域和阻挡区接收的输入来抑制、失真和/或阻挡来自这些区域的音频和图像。这些区域的定位可以由本文所述的系统来识别,或者通过由可能包含在一个或多个麦克风阵列404中的单向麦克风进行监测来识别这些区域的位置。在一些系统中,不捕获声音或语音,或者可替代地,通过在将聚集的音频信号发送到地理上分离的参与者之前,从麦克风阵列404加和的聚集的音频信号中去除或减去从这些区域接收到的听觉或语音信号,来基本上抑制声音或语音。
34.通过算法和训练有素的分类器,系统根据在交互空间中的参与者的数量和位置来对由相机116捕获的参与者自动取景。一些系统聚焦于活跃的参与者,其中,可以通过这些参与者的活跃语音和/或频繁手势来识别这些参与者,而无论他们是近侧还是远侧讲话者。一些替代系统放大活跃的参与者(例如,放大他们捕获的图像),同时优化系统取景以包括在交互空间中存在的所有参与者,这也基于参与者的数量及其位置。相机116自然地重新调节其平移、倾斜和/或变焦设置,并基于活跃的讲话者的数量并以视频数据进行增强,以自然和周期性的速率放大参与者,因此在交互空间中几乎不会丢失任何内容,会议包括捕获的视频图像中的所有参与者,并且会议更加亲近。在这些系统中,通过经由平移、倾斜和/或变焦设置而从会议中各个地理上分离的参与者之间传输的视频图像中排除非活跃空间,参与者似乎更接近所有观看者。
35.在由存在检测器102检测到存在并经由高速缓存和采样器104捕获并采样到声音的情况下,系统经由检测器106检测噪声和/或语音,并通过经由噪声衰减器108抑制不需要的信号(例如背景噪声的水平和从输入中检测到的其他噪声)来增强发声语音。语音包括发声语音(例如元音)和不发声语音(例如辅音)。发声语音具有规则的谐波结构;表示它具有由频谱包络加权的谐波峰值。不发声语音缺少谐波结构。听觉信号包括非周期性噪声、周期性噪声以及发声语音和/或不发声语音。
36.在图2中,语音活动检测器识别语音。在存在检测器102检测到存在之后,可以通过由采样器104以预定采样率对输入进行采样来识别语音。在例如大约十分之四秒的周期性间隔下,系数提取器204将采样到的输入转换为梅尔频率倒谱系数,该梅尔频率倒谱系数从采样到的输入中提取特征。使用深度神经网络206,系统将梅尔系数分类为语音或噪声,并且通过发声语音和不发声语音的存在与否来经由标识器208识别人的存在。此后,将语音
和/或噪声段或箱标记为听觉信号中的语音或噪声,并识别出人的存在。
37.在替代系统中,当通过相关器302将采样的输入信号与已知噪声事件相关和/或与语音不相关时,语音和噪声段由标识器208识别。采样信号的频谱和/或时间形状与先前建模的形状之间的相关性或先前存储的噪声属性和/或发声语音和不发声语音的建模信号属性之间的相关性可以识别潜在的噪声段和/或语音段。当相关或不相关水平超过预定阈值时,信号段由分类器206分类并标记为噪声或不期望的信号,并识别人的存在。当未识别出语音时,一些替代系统测量在包括麦克风阵列404的每个麦克风附近存在的几乎连续的噪声,以估计背景噪声。当未检测到发声语音和不发声语音段时,可以连续更新背景噪声测量值;在识别到瞬态噪声事件时,可以以一些未测的间隔时间进行更新。此后,可以部分地抑制它以改善语音的感知质量。当噪声测量值超过先前背景噪声测量值的平均值或中值测量值时,将识别为瞬态噪声事件。
38.在标记采样信号的情况下,噪声衰减器108抑制或衰减采样信号中的噪声(包括背景噪声的一部分)和类似噪声的分量,而不管传入信号的幅度如何。当标识器208标记噪声或不期望的信号时,建模器(未示出)对噪声和不期望的信号的时间和频谱分量建模,并生成噪声和/或不期望的信号模型,或者可替代地,将这些条件的属性存储在数据仓库606(图6所示)中,其后被用于检测噪声、识别人的存在并在一些系统中改善被传输到各个地理上分离的参与者的语音的感知质量。通过连续地或周期地更新模型,系统可以自然地以感知不到的方式适应变化的条件,并且不需要手动或计划的校准或重新校准。
39.在噪声和不期望信号被抑制的情况下,定位器110通过包括彼此等距的若干麦克风的麦克风阵列404执行声学定位。处理来自麦克风之间的到达时间差以确定语音信号的到达方向。
40.系统通过使用具有相位变换的转向响应功率来估计麦克风阵列404的麦克风之间的到达时间差。转向响应功率是实值空间矢量,其由特定阵列的视场(即,交互空间的视场)定义。转向响应功率的高最大值(high maxima)估计声源在视场中的位置。针对通过包括麦克风阵列406的麦克风对所感测到的每个方向,计算转向响应功率,以便按照与所建立的感测方向相关联的时间延迟来跨麦克风对地生成具有相位变换值的累积广义互相关。相位变换有效地权衡经过处理的广义互相关,以确定到达的时间差。
41.通过计算交互空间中的点的转向响应功率,生成了转向响应功率图像,该图像呈现整个可观察的交互空间的图像。所呈现的图像示出信号能量分布和相关联的混响效果。为了减少处理用于提取全局最大估计值从而定位转向响应功率的高最大值的处理带宽,系统应用了随机区收缩(stochastic region contraction),迭代地减小了高最大值的搜索量。该过程从搜索整个交互空间或整个视场开始,然后通过选择预定数量的点来随机分析体积的功能(function of the volume),然后将体积缩小为包含期望的高最大值的较小体积,然后递归地继续直到找到高最大值为止。此后,该算法将不断重复或定期重复,以确保在存储器中准确识别并更新语音源位置,并确保该算法精确地反映和跟踪变化的语音源、监测的条件以及交互空间的动态。
42.为了增强准确性,一些定位器110生成对由麦克风对监测的每个区中的高最大值的估计及其不确定性的度量。一旦估计出高最大值,就通过应用加权平均值对估计值进行加权,其中向与较高确定性相关联的估计值赋予更多权重。类似于具有相位变换过程的转
向响应功率,该算法是递归的且实时运行,从而持续地处理先前计算的状态和关联的不确定性矩阵,并持续地更新语音源定位。
43.在一些系统中,可选的增强器112补充或确认活跃的讲话者(例如,声源)位置的估计。增强器112处理从单个或多个相机116呈现的视频流,其中通过机器学习和跟踪算法来处理该视频流。在图1中,一种或多种机器学习算法检测、分类和跟踪与系统交互的活跃讲话者(例如,人类讲话者),以确认其物理位置。可选的增强器112内的分类器(未示出)识别活跃的讲话者,并且精确地相对于图像中捕获的其他对象辨别他们的位置。示例性机器学习算法训练活跃讲话者分类器以检测反映活跃的讲话者的图像对象,并在替代系统中检测活跃的参与者。在三个维度上对检测进行三角剖分(triangulated),以呈现图像对象的多个视图。基于对由相机116捕获的视频图像中示出的对象的多个视图的重复训练,机器学习算法训练对图像对象的关键点进行检测并将所捕获的对象标记为活跃的讲话者的分类器。在一些系统中,本公开中描述的处理是实时发生的。术语“实时”旨在广泛地涵盖以与接收数据相同的速率处理信息的系统,使它们能够像自动驾驶仪和本文所述的语音定位器一样指导或控制过程。
44.不依赖于单个机器学习算法来检测和分类活跃的人类讲话者(或者,活跃的参与者),一些可选的增强器112还并行使用第二种(不同的)机器学习算法(不同于第一个)处理视频图像,以改善系统的活跃讲话者识别的准确性和速度。在这些增强器112中,另一个可选的分类器使用尺寸和簇作为锚定框来预测包围期望的参与者的头部和/或嘴部的边界框,以预测活跃的讲话者的识别。系统为每个边界框预测四个坐标(例如,被跟踪的每个参与者的嘴部/头部)。应用语言回归,可以生成预测的对象分数。当边界框的对象分数超过预定阈值时,通过特征提取器使用连续的3x3和1x1卷积层(例如,示例性机器学习算法中的53个卷积层)处理视频图像直到获得预定的均方误差为止,执行特征提取。通过使用由相机116使用多尺度处理捕获的全视频图像来训练第二种类型的手势分类器中的每个,以呈现更训练有素的分类器,所述分类器呈现识别预测分数和置信度分数。一旦训练完成,分类器就会通过处理视频图像来实时处理捕获的视频。
45.在操作中,由各种类型的分类器处理视频图像中活跃的讲话者的提取特征,并且具有最高置信度分数的识别由处理器602(图6所示)来选择并被指定为活跃的讲话者。此后,可选的增强器112基于它们相对于视频图像捕获的其他对象的位置来识别它们的精确位置。在一些增强器112中,其他对象在交互空间中的位置先前已知的,并被存储在数据仓库606中。在一些增强器112中,使用了增强配置,其中将分类器串行组合以减少残留误差。为了改善系统准确性,在活跃的会议时间段期间,以周期性的时间间隔重复机器学习、检测。在一些系统中,系统会不断地重新发现或识别新的活跃讲话者对象(例如,执行全新的定位/检测过程),且在其他系统中,在确认或识别一个或多个活跃讲话者的新位置之前以预定的时间段(例如每五到十秒),重新发现或识别新的活跃讲话者对象。
46.基于定位器110和可选增强器112的预测,人类声源的估计位置是已知的。当预测变化时,可以得出综合估计。在这些替代系统中,使用加权平均值来更新估计,其中向具有较高确定性的估计赋予更大的权重,而向具有较低确定性的估计赋予较小的权重。使用各种估计,加权平均值提供了对活跃的语音源位置的估计。
47.在识别出活跃的讲话者的情况下,选择模式,并由驱动一个或多个平移

倾斜


焦相机116的控制器生成控制信号。通过响应于控制信号而在参与者主动讲话并围绕交互区域移动或移入交互区域或从中移出时调节相机116,相机116自动调节模式,并自动调节对参与者的取景。通过平移、倾斜和/或变焦,控制器114确保在相机的视频图像中捕获了所有会议参与者,并且在一些系统中,聚焦或放大活跃的讲话者的视频图像。当只有一个参与者时,系统可以将焦点集中在相机画面中的一个讲话者上(称为独讲模式)。当有两到三名参与者时,系统可以聚焦于两到三名讲话者(称为辩论模式)。当有多于三个参与者时,讲话者可以聚焦于四个或更多讲话者(称为小组模式)。
48.在操作中,系统在502和504中识别出会议参与者并过滤掉不正确的预测,如名为“手势控制系统(gesture control systems)”的附录a中所公开的。在替代系统中,补充或替代功能可以由例如openpose和yolov3的跟踪软件来提供。系统在506检测交互空间中参与者的数量和位置,并将相机聚焦。使用本文中描述的音频定位器技术和可选的视频定位器技术,系统选择模式并通过以自然速率(例如,计划的速率)调节相机116的平移、倾斜和/或变焦设置自动逐渐(例如,不是突然)调节相机的取景,并且在一些替代系统中,可以与各种地理上分离的参与者共享感知上改善的语音。由于人们围绕交互空间移动或者进出交互空间,自动和渐进式调节会异步发生。该过程是递归的,并且连续监测交互空间并调节视频取景。它通过定位活跃的讲话者并让观看者感觉更接近其地理位置较远的参与者,从而优化了视频取景。
49.图6是非触摸用户界面的框图,该非触摸用户界面可以执行上述以及图1

5中所示的处理流程、功能和系统。所述系统包括处理器单元或图形处理器单元602、例如存储器604的非暂时性介质(其内容可由一个或多个处理器和/或图形处理器602访问)、公共/专用网络652、数据仓库606、显示器608、麦克风阵列610、扬声器612、音频放大器614、音频接口616、一个或多个平移

变焦

倾斜相机618、消息中心620和i/o接口622。i/o接口622连接设备和本地和/或远程应用程序,例如,附加的本地和/或远程监控相机618。存储器604存储指令,这些指令在由处理器602执行时使得系统提供与本文描述的系统相关联的一些或全部功能。存储器604存储指令,这些指令在由处理器602执行时使得系统自动提供支持静态和动态自动取景和/或聚焦事件的功能和硬件;消息中心620;接近度、光学和/或语音活动检测器626;采样器630;噪声检测器632;噪声衰减器634;系数提取器636;语音/噪声标识器638;相关器640;分类器642;定位器644;增强器646;机器学习算法654和一个或多个基于自动取景的应用程序软件648。一些功能可以由openpose和yolov3以及csrt跟踪软件以及语音合成引擎(例如在替代系统中)来提供。在又一替代系统中,通过云存储提供了非暂时性介质提供的功能。术语“云存储”旨在广泛地包含使数据能够通过网络(通常是公共可用的分布式网络,如互联网)被远程维护、管理和备份并供用户使用的硬件和软件。在所述系统中,云存储提供了对自动取景的普遍访问和在感知上改善的过程,所述过程改善了语音。这些资源包括音频和视频定位器,以及可以通过公共网络快速提供跟踪服务和更高级别的服务。云存储允许共享资源,以在处于多个位置的多个非接触式系统之间实现一致性服务,并提供规模经济。
50.所公开的存储器604和/或存储装置可以保留用于以非暂时性计算机代码实现上述功能的可执行指令的有序列表。机器可读介质可以选择性地是电子、磁性、光学、电磁、红外或半导体介质,但不限于此。机器可读介质的示例的非详尽列表包括:便携式磁盘或光
盘,易失性存储器(例如随机存取存储器(ram)),只读存储器(rom),可擦可编程只读存储器(eprom或闪存)或数据库管理系统。存储器604可以包括单个设备或可以布置在一个或多个专用存储器设备上或布置在处理器或其他类似设备上的多个设备。术语“引擎”旨在广泛地包括执行或支持诸如静态和动态识别事件和过程之类的事件的处理器或程序的一部分。当说功能、步骤等“响应”或“响应于”另一个功能或步骤等而发生时,这些功能或步骤必然由于另一个功能或步骤等而发生。不足以限定一个功能或动作仅跟随另一个功能或动作或在另一个功能或动作之后发生。
51.替代系统不限于上述特定硬件和机器学习算法。可以使用其他合适的硬件和机器学习算法。此外,系统不限于物理静态系统。而是,这些系统可以在移动设备中使用,并且可以在分布式网络上运行。本文说明性地公开的系统可以在不存在本文未具体公开的任何元件(包括硬件和/或软件)的情况下适当地实践。它们可能在没有这些元件的情况下运行。此外,本文描述的许多系统的每个中描述的各种元件相对于所描述的各个元件被认为是可分割的,而不是整体上不可分割的。换句话说,替代系统涵盖本文描述的元件的任何变型和组合,并且可以在没有描述的各种元件的情况下进行制造或使用(例如,它们可以在没有本文公开的或图1至图6所示的一个或多个元件的情况下运行)。
52.智能相机控制系统和过程提供自然且无缝的活跃讲话者跟踪,同时改善与地理上分离的参与者共享的语音的感知质量。所述系统通过获取、调节、同化和压缩数字音频和视频内容并将该内容传输到远程目的地,来提供自主的音频和视频控制。使用包括活跃语音定位器和可选的视频定位器的集成技术,所述系统处理语音,以通过多模式操作提供自动图像和音频控制,同时在地理上分离的参与者之间提供同步通信。
53.本公开的主题尤其还可以涉及以下方面(这些方面以数字表示):
54.1.一种在不与电子设备发生物理接触的情况下控制所述电子设备的计算机实现的方法,包括:
55.当所述电子设备处于待机状态时,在相机的虚拟检测空间中检测用户的存在;
56.当检测到用户的存在时,将所述电子设备转换为交互状态;
57.在检测空间中检测声音并将所述声音转换为电信号;
58.以周期性间隔将所述电信号转换为数字信号;
59.识别所述数字信号中的语音段;
60.衰减所述数字信号中的噪声分量;
61.对生成所述语音段的语音源的物理位置进行定位;以及
62.自动将所述相机调节在生成所述语音段的所述语音源上。
63.2.根据方面1所述的计算机实现的方法,还包括:经由语音合成引擎呈现响应于虚拟检测的应答。
64.3.根据方面1至2中任一项所述的计算机实现的方法,还包括:将所述数字信号转换成多个倒谱系数。
65.4.根据方面3所述的计算机实现的方法,还包括响应于处理所述倒谱系数来识别人的存在。
66.5.根据方面1至4中任一项的计算机实现的方法,其中,通过使归因于发声语音和不发声语音的数字信号的频谱形状相关,来识别所述语音段。
67.6.根据方面1至5中任一项所述的计算机实现的方法,其中,定位语音源的物理位置包括由声学定位器执行的声学定位。
68.7.根据方面6所述的计算机实现的方法,其中,定位语音源的物理位置包括由视频定位器执行的视频定位。
69.8.根据方面7所述的计算机实现的方法,其中,定位语音源的物理位置基于检测转向响应功率段中的最大值。
70.9.根据方面6所述的计算机实现的方法,其中,定位语音源的物理位置基于检测转向响应功率段中的最大值。
71.10.一种电子设备,包括:
72.显示器;
73.与所述显示器通信的处理器;以及
74.存储在非暂时性存储器中的计算机程序,由所述处理器执行所述计算机程序,使得通过指令来执行动作,以便:
75.当所述电子设备处于待机状态时,在相机的虚拟检测空间中检测用户的存在;
76.当检测到用户的存在时,将所述电子设备转换为交互状态;
77.在检测空间中检测声音并将所述声音转换为电信号;
78.以周期性间隔将所述电信号转换为数字信号;
79.识别所述数字信号中的语音段;
80.衰减所述数字信号中类似噪声的分量;
81.定位生成所述语音段的语音源的物理位置;
82.自动将所述相机调节在生成所述语音段的语音源上;
83.通过处理由所述相机捕获的伸出的手指的图像与存储在所述电子设备的所述存储器中的多个图像的比较来检测所述伸出的手指;
84.由于检测到伸出的手指而在所述电子设备的显示器上呈现消息;以及
85.由于检测到所述伸出的手指的移动而发送所述消息。
86.11.根据方面10所述的电子设备,还包括用于在处于待机状态时显示一个或多个视觉提示的指令,其中,所述一个或多个视觉提示包括预定手势的图像。
87.12.根据方面10至11中任一项所述的电子设备,还包括用于将所述数字信号转换成多个倒谱系数的指令,并且其中所述一个或多个视觉提示对所述图像沿着虚拟检测范围内的轨迹的移动加以指示,其中所述移动引起消息的发送。
88.13.根据方面12所述的电子设备,还包括:用于响应于处理倒频谱系数来识别人的存在的指令,并且其中存储在所述存储器中的所述预定手势包括在所述存储器中存储的引起在所述显示器上呈现消息的手势

消息关联。
89.14.根据方面10至13中任一项所述的电子设备,其中,通过使归因于发声语音和不发声语音的数字信号的频谱形状相关,来识别语音段。
90.15.根据方面10至14中任一项所述的电子设备,还包括用于检测所识别的预定手势的移动并由于检测到所识别的预定手势的移动而将所述设备保持在所述交互状态的指令。
91.16.根据方面10至15中任一项所述的电子设备,还包括指令,其中,定位语音源的
物理位置包括由声学定位器执行的声学定位。
92.17.根据方面10至16中任一项所述的电子设备,其中,定位语音源的物理位置包括由视频定位器执行的视频定位。
93.18.根据方面17所述的电子设备,其中,定位语音源的物理位置基于检测转向响应功率段中的最大值。
94.19.根据方面15所述的电子设备,其中,定位语音源的物理位置基于检测转向响应功率段中的最大值。
95.20.根据方面10至19中任一项所述的电子设备,其中,定位语音源的物理位置基于检测转向响应功率段中的最大值和随机区域收缩。
96.21.根据方面10至20中的任一项所述的电子设备,其中,定位语音源的物理位置基于检测到转向响应功率段中的最大值、随机区域收缩和视频分类器。
97.22.根据方面10至21所述的电子设备,还包括用于响应于检测到手臂手势而发送消息的指令。
98.23.根据方面22所述的电子设备,其中,所述手臂手势包括将所述用户的四分之一手臂移动到第一位置。
99.24.根据方面23所述的电子设备,其中,响应于在所述第一位置中检测到四分之一手臂的移动,用户的四分之一手臂到所述第一位置的移动引起发送第二消息。
100.25.根据方面24所述的电子设备,其中,响应于在第二位置中检测到四分之一手臂的移动,用户的四分之一手臂到所述第二位置的移动引起发送与所述第二消息不同的第三消息。
101.通过参阅附图和详细描述,其他系统、方法、特征和优点对于本领域技术人员将是或将变得清楚。旨在将所有这样的附加系统、方法、特征和优点包括在本说明书内、包括在本公开的范围内、并由所附权利要求书保护。
102.附录a:
103.一种计算机实现的系统在没有与用户进行物理接触和/或射频通信的情况下控制电子设备。当电子设备处于待机状态时,系统在相机的虚拟检测范围内检测用户的存在,并在检测到用户时将电子设备转换为交互状态。当检测到的手势对应于预定义手势时,系统通过处理伸出的手指的图像与存储在电子设备的存储器中的多个图像的比较来保持交互状态。系统由于检测到伸出的手指而呈现消息,并由于其移动而发送消息。
104.手势控制系统
105.本附录涉及基于视觉的界面。
106.基于视觉的界面是很难实现的隐形工具。手和肢体的移动并不总是被捕获,不能总能表达想法。一些基于视觉的界面非常复杂。与物理设备不同,一些接口是违反直觉的,不提供反馈。其他则容易受到假阴性的影响(例如,对随机移动和无意移动的识别)。此外,因为手势命令容易因文化差异而引起困惑,所以一些基于视觉的界面使用专用的手势命令,使许多基于视觉的界面无法与软件应用程序进行通信并控制软件应用程序。
107.图7是基于视觉的手部和手臂手势识别过程。
108.图8示出了虚拟交互区域。
109.图9示出了指向用手指位置的检测和标记。
110.图10示出了指向用手指位置的检测和标记。
111.图11示出了示例性非接触式致动菜单。
112.图12示出了仿真计算机悬停。
113.图13示出了移动示例性菜单项的仿真滑动动作。
114.图14示出了对示例性菜单选项的仿真激活或点击。
115.图15示出了在仿真白板或可选背景上的绘制功能。
116.图16示出了仿真的激光指示功能。
117.图17示出了示例性唤醒手势。
118.图18示出了选择性地缩小了交钥匙非接触式用户界面系统的带通或虚拟交互区域的自动过滤功能的输出。
119.图19示出了示例性的手臂手势。
120.图20示出了对增加了交钥匙非接触式用户界面系统的带通或虚拟交互区域的自动过滤功能的自动修改的输出。
121.图21示出了四分之一臂手势。
122.图22示出了交钥匙非接触式用户界面系统。
123.交钥匙非接触式用户界面和过程(称为非接触式系统/界面或多个系统)提供了一种自然而直观的技术,使所有用户几乎无需培训即可与远程设备进行通信。该系统使用户能够控制计算机和其他设备,而无需手持按钮激活的设备或键盘。该系统是可立即访问的,且一些系统提供手势消息关联的视觉提示,从而减轻了用户回忆手势和轨迹关联的精神负担。这些系统模仿用户彼此通信的方式,进一步减少了与远程系统通信所需的回忆。利用手势识别和上肢识别,该系统可以实现多种形式的自然人际交流,而无需考虑文化背景。该系统使具有或没有身体能力的所有文化背景的用户都能在无菌的非接触式环境中进行交流。辅助技术非常强大,可以访问许多知识领域。
124.图7是示出提供消息反馈的非接触式界面的一些功能的流程图。术语消息广义上旨在包含响应于检测事件和/或识别事件由计算机、服务器或其他电子或光学设备以电子或光学方式传输到目的地的信息单元。如图7或图20中所示,可选的接近度或光学传感器1634检测存在,并且在一些软件应用程序中,在动作102处在没有与传感器物理接触的情况下测量或估计虚拟交互区域中一个或多个用户(例如,目标)的距离。例如,当发生移动或相对于所测量或估计的室温的温度差分别超过预编程的阈值时,作为在一些系统中的一个或多个相机1616的统一部件及在其他系统中的独立相机1616的统一部件的无源红外和/或移动传感器检测一个或多个用户的存在。系统从待机状态(例如,休眠状态)转变为交互状态(例如,活跃状态)。在一些系统中,转换是实时发生的(例如,以检测发生的相同速率唤醒,没有延迟),而在其他系统中则是近实时发生的。在一些系统中,通过在后台加载应用程序软件,使延迟最小化。在这些系统中,后台加载改善了系统响应能力,消除了一些用户认为缓慢且迟滞因此对于商业目的而言是不切实际的移动和等待操作状态。
125.一些系统在动作104处呈现可选的输出协助,例如显示器1606上的视觉指示器,例如,指示在进一步的交互发生之前用户(例如人类用户)如何与系统交互。在虚拟交互区域中检测到用户的存在会触发一条或多条消息或一个或多个可视提示,这些提示解释或建议特定输入或动作如何发起消息及其执行,例如预定义手势(例如,从握拳的手伸出的手指、
手臂位置和/或其移动)分别如何呈现消息及/或它们各自的移动如何导致消息的执行(例如,发送)。在替代系统中,不使用可选的输出协助,并且通过将系统保持在待机状态(例如,休眠状态)直到启用交互状态(例如,活跃状态)为止,来节省电力。
126.在系统处于交互状态的情况下,系统识别模仿自然通信的预定数量的捕获手势。参考图7和图22,在动作110处诸如在相机1616捕获的虚拟交互区域中从握拳的手举起一根手指的手势使消息中心1618呈现消息,并且在动作112和114处手指的移动使消息中心1618执行消息。消息的执行旨在广泛地包括与消息相关联或链接到消息的功能的执行,例如期望动作的执行。消息可以是用户从中进行选择的选项的列表,其使远程设备执行期望的动作(例如,执行),诸如执行命令、呈现内容、执行程序、激活跳转链接、将信息或数据发送到目的地和/或等,这些信息共同地和单独地包含消息的执行。在此系统中,手势是系统识别的导致消息的呈现的输入,而手势的移动导致消息的执行和/或发送。在一些使用情况下,循环(例如,选择然后执行)重复进行,因为每次识别都会导致另一呈现和执行。
127.应当理解,与一些系统不同,手势识别并非仅响应于移动(例如,手、手指或身体移动)而发生。相反,存在静态识别事件,例如对握成拳头的手和伸出的手指进行独特的手形识别,以及导致识别引起执行消息的移动和/或移动轨迹的动态手形识别事件。在两个识别事件中,都提供反馈。响应于成功的静态识别事件,呈现可以通过手势移动执行的消息(例如,动态识别事件)。响应于成功的动态识别,发生消息执行,诸如与消息相关联的动作的执行(例如,致动程序、信息的发送和/或等等)。
128.在一些系统中,仅识别固定数量的静态和/或动态手势;在其他系统中,识别多个手势。一些手势可以由用户定制。在这些系统中,反馈被提供给用户以确认所识别的交互的正确性。在手势词汇上训练本文描述的算法(例如,经由软件指令实现的算法)。当未识别出静态和/或动态手势(例如,不是识别词典的一部分的手势)时,软件可以阻止或禁止实施一个或多个预定动作或任务。例如,如果未识别到握拳的手举起手指或用户的四分之一臂抬起,则可以阻止期望的动作。
129.为了提高响应性,系统的一些可选功能在成功的动态手形识别事件发生之前在后台加载动态手形识别事件软件应用程序。在这些系统中,当开始执行静态识别事件时,系统开始加载动态执行功能。如果静态识别事件失败或终止,则系统终止呈现动态执行功能的动态手形识别事件软件应用程序的加载,并等待捕获另一个手势。如果静态识别事件成功并且动态识别事件完成,则系统中的功能将没有迟延地完成消息执行。如果动态识别事件终止或未完成,则系统终止或暂停消息执行,直到成功的动态手形识别事件发生为止。
130.在一些系统中,用于控制应用程序的词典依赖于上肢和/或肢体移动,代替手形识别或作为手形识别的补充。诸如四分之一臂的移动或位置(例如,诸如处于抬起或预定位置)的预定义手势例如经由替代识别事件来执行命令。
131.每个公开的系统仅需要单个相机1616。在替代系统中,使用两个或多个相机1616(例如,多相机系统)来改善检测(例如,相应的手和/或肢体手势检测)、相应的手和/或肢体识别以及相应的手和/或肢体的移动和/或轨迹的测量的准确性。手形和/或身体检测描述了手形和/或身体部位何时处于相机视图的虚拟交互区域中。手形和/或身体部位识别基于捕获的图像与机器学习图像的接近程度。通过两个或更多个算法(例如本文描述的两个或更多个机器学习算法)来处理学习的图像。跟踪描述了系统通过对行为的本地化识别来逐
帧跟踪手形和/或身体部位的移动的能力,例如通过一种或多种跟踪算法处理的细粒度动作。
132.图8示出了虚拟交互区域,其中接近度检测器1634检测到用户指向系统,其被示为由硬件/计算机显示器(均由附图标记1606标识)呈现的屏幕。在图8的系统中,相机1616具有虚拟检测范围(例如,大约一百二十度)和虚拟检测距离(例如,大约二十英尺),其被统称为虚拟交互区域。如图9和图10最佳所示,当用户指向相机1616或屏幕1606上的预定指定区域(如用包围示例性的用户手部的圆圈所突出显示的)时,系统会检测并标记手指位置。
133.在系统级别,系统从单个或多个相机1616接收原始视频流,原始视频流由机器学习和跟踪算法处理。在一些应用中,当系统在可变光照条件下处理许多手形、肤色和手尺寸时,检测可以解决一系列复杂的事件。在图8至图10中,检测到被显示为示例性手指指点的有用手势(即,具有消息或命令关联的手势)。在这些示例性使用情况中,使用手指指点手势是因为手指的伸出发生在时间较短的时间段内,是自然的身体移动、需要最小的肌肉张力、并且在所公开的系统中,与用户发起通信在认知上相关联。示例性过程检测手指指向预定屏幕位置,例如在预定时间段(例如,以秒为单位)内与屏幕上的预定绝对位置相关联的位置。该识别从检测到的手指伸出的移动或从握拳的手伸出的手指移动了规定的时间段开始,由示例性函数处理,例如,
134.[x,y)=find_finger(图像)
[0135]
图像:相机拍摄的单个帧(x,y):手指位置的坐标
[0136]
手势

位置

应用程序
[0137]
一旦确定了手指的位置,就从相机1616捕获的静态图像中测量用户与系统之间的距离。通过这些值,发生识别和跟踪引擎1628的跟踪。此外,移动使系统执行手势发起的消息。在一些系统中,执行或执行水平可以响应于手势的位置改变、与检测到的轨迹的关联、计算出的速度(例如,变换至幅度)和/或检测到的移动方向(例如,统称为所描述的度量)而发生,其中可以由其与之通信的应用程序软件来确定所述手势。
[0138]
例如,当用户指点屏幕1606时,所描述的任何度量单独或组合可以以在屏幕1606上显示的消息的形式呈现对系统用户可用的选项列表,其可以任何形式呈现,包括如图11所示的示例性菜单。菜单可以包括单选按钮(radio buttons)、切换按钮、滑块等,其中用户手指从握拳的手伸出的平移移动允许用户像鼠标悬停一样进行悬停选择,如图12最佳所示。当用户与对象或屏幕区域进行交互(但不一定要尝试激活)时,发生选择。当用户从对象沿预定方向移动,例如沿高于开始位置的基本上垂直的方向移动时触发激活,如图14中菜单对象的移动所示。在示例性应用中,菜单选择和可调参数向用户提供与应用程序软件进行交互和配置应用程序软件的灵活性,并且在一些使用系统中,还提供了配置非接触式系统的灵活性,从而使系统用户可以以用户舒适(in a come as you are format)方式适应,而无需面部或语音输入。
[0139]
应用程序软件是广泛地旨在涵盖为特定目的而创建的软件的术语。它是最终用户直接使用的程序或程序集合。尽管系统软件包括以基本等级与计算机交互的低级程序(例如,操作系统软件),但应用程序软件位于系统软件之上、与之交互、并包括旨在帮助执行一项或多项特定任务的性能的软件,例如,数据库程序、文字处理器、绘图程序和/或电子表格。
[0140]
当用户在预定方向上移动她/他的手或手指时,例如当在对象上方时如图13所示向左移动她/他的手时,仿真滑动或滚动动作并将其显示在屏幕上。在仿真选择窗口的情境中(例如,在图形用户界面中,选择窗口是系统或应用程序软件显示的用于征求用户输入的窗口),当用户面对屏幕1606时,在用户移动她/他的握拳的手并且将伸出的手指点左侧的情况下,选择窗口将向左移动;且在用户移动她/他的握拳的手并且将伸出的手指点右侧(未示出)的情况下,选择窗口将向右移动。
[0141]
在一些应用中,在固定区域中(例如,在预定义和受限的虚拟交互区域内)从一个位置到下一位置的转换对应于屏幕1606上的相对移动。在这里,指向用手指表示指向设备,其中所选择的对象的移动与指向用手指的移动相关联,但与指向用手指的精确位置无关。例如,如果用户取消了对象选择(此处为窗口选择),然后在与用户上次位置不同的位置重新参与,则对象的位置不会改变,这是因为未检测到指向用手指的移动。当用户在选择后再次移动其手指时,所选择的对象将移动以反映指向用手指的移动。在一些替代系统中,相对指向模式不同于绝对指向模式,绝对指向模式与相对指向模式一同启用或作为其补充,这是因为在绝对指向模式下虚拟交互区域内的手指指向的精确位置始终与预定义的屏幕上位置相关联。
[0142]
在一些系统中,菜单和项目选择被改变,从而激活状态、激活程序和/或激活程序特征。通过使从握拳的手伸出的手指(在本公开中称为手指或指向用手指)相对于最后检测到的手势位置、所选择的对象或相对于指定相机在预定方向上移动(例如,分别为向上或向下、基本顺治移动)来发生激活和停用。例如,相对于用户手指的最后检测位置或指定相机1616的位置向上移动指向用手指仿真对检测设备的按钮(例如,点击启用功能的鼠标按钮)的点击或做出选择,如图14所示。相对于用户的伸出的手指最后检测位置或指定相机的位置向下移动伸出的手指会取消选择,和/或在一些用例中引起可能是菜单的消息消失。在一些系统中,致动和/或取消选择之前是悬停选择。在这些系统中,指向用手指的移动会根据移动的预先指定的方向分别执行由悬停选择所选择的对象或菜单的功能的致动和/或取消选择。
[0143]
除了视觉反馈之外或作为视觉反馈的补充,一些系统提供非视觉反馈以确认对用户输入的识别或朝向完成期望任务的进展或使状态或任务停用。反馈可以包括物理反馈,例如经由通过周围表面传递的振动间接传递给用户的触觉反馈和/或通过音频接口1614、音频放大器1614和扬声器1610呈现的听觉反馈。
[0144]
在一些系统中,也可以在不使用数据手套、方向传感器或直接记录移动和绘图角度的任何其他系留设备的情况下呈现非接触式绘图。所公开的系统减少了绘制和突出显示程序功能的设置时间和交互时间。所公开系统的被动和无声感测允许用户生成绘图和图像、与它们交互以及突出显示绘图、图像和文本。例如,在演示模式下,所公开的系统向用户提供软件的不间断使用(禁用其他计划任务和/或软件),这里是通过选择使用户能够在屏幕上绘画的绘画模式来激活的绘画软件。屏幕仿真如图15所示的白板或在替代系统中用户选择的画布背景(未示出)。当由可经由菜单呈现的手势消息来致动时,用户经由非接触式界面使用他们的手指来生成绘图,而无需与屏幕或绘图设备进行直接或间接的物理接触。在这种模式下,将手指指在预定位置处保持预定时间段(例如像悬停那样)以示例性手势消息组合在显示消息后启动绘图模式,并启动握拳的手和指向用手指的形状所示的光标,从
而可以画线和/或将注释添加到显示的输出。
[0145]
替代的手势消息启动突出显示模式,该模式使用户能够通过手指指向来仿真激光指示器。如图16所示,在突出显示模式下,用户可以仿真单色光的相干光束的产生,以通常在在屏幕1606上呈现演示期间引起用户的注意而示出或不示出手形光标。替代手势消息会启动导致消息传递和选择的其他模式,而不是将手势链接到命令。
[0146]
因为交互空间可以包括处于不同姿势的多个用户和/或参与者(例如,一些用户和/或参与者可能站立,其他用户和/或参与者可能坐着等等),所以一些系统通过过滤手臂手势识别来区分预期用户的交互与其他用户的交互(例如,将其过滤掉)。例如,当用户如图17所示完全将她/他的手伸到其头上方时,系统从待机状态转换为交互状态(如在检测过程中发生),从而允许用户控制系统,并在虚拟交互区域中区分该用户的有用手势与其他人的手势。例如,系统可以在小组讨论期间向主持人授予所用系统的独占控制权。在一些系统中,手臂手势识别导致相机放大并保持仅聚焦在该用户(例如主持人)上,如图18所示,有效地阻止或过滤其他人(例如小组成员)控制系统,直到控制被释放为止。它会自动减少系统的光学带通(例如,传递主持人的图像,但阻止小组成员的图像)。在一些系统中,通过重复如图19和图20所示的手臂手势命令来释放控制,或者在预定的非活动时间段(例如,若干分钟、若干秒等)后自动释放控制,这两者都会导致系统恢复到原始的交互操作状态,并使相机1616返回到更宽的视角。这有效地增加了系统的光学通带(例如,传递主持人和小组成员的图像)。
[0147]
手臂手势命令(例如,与四分之一臂手势相关联的命令)可以与突出的识别特征(例如,地标特征)相关联,该突出的识别特征发生在用户将她/他的手从静止的水平位置举起至完全伸展或基本竖直的位置时。在一些系统中,一个或多个手臂手势命令与虚拟水平线(如图21所示)和伸出的手臂之间形成的角度相关联,顶点位于用户的肘部处或肘部附近。在该系统中,当用户的手臂完全伸出并与虚拟水平线形成第一预定角度(例如基本垂直的角度)时,可以关联、检测和/或执行第一命令。当用户的手臂与虚拟水平线形成第二预定角度(例如,图21中所示的大致四十五度的角度)时,可以关联、检测和/或执行第二命令。并且,当用户的手臂与虚拟水平线形成第三预定角度(例如大致为零度的角度)时,关联、检测和/或执行第三命令。在替代系统中,多个检测到的预定手臂手势角度表示并执行多个不同的手臂手势命令(例如执行包含发送的消息),并且可以在其他系统中执行任何其他选择的命令(例如,第一命令可以做出选择,第二命令可以执行或引起选择的发送等)。在一些系统中,用户的手臂抬起会在没有手指移动的情况下引起执行消息,就像指向用手指的移动会引起执行消息一样。
[0148]
在本文描述的系统中,一种或多种机器学习算法检测、分类和跟踪与系统交互的手势并训练相应分类器。示例性机器学习算法训练手势分类器1626以检测易于遮挡的图像对象,例如手的关节。在三个维度上对检测进行三角测量(例如,三维三角测量)以呈现手的多个视图。基于对由一个或多个相机捕获的视频图像中所示的手的多个视图的重复训练,机器学习算法训练手势分类器1626,在处理系统的视频时该手势分类器检测手关键点并标记移动中的手的捕获并提供置信度分数。相同类型的第二机器学习算法检测、分类和跟踪在视频图像中捕获的肢体移动,例如手臂移动,用于通过使用本文描述的相同算法训练识别肢体关键点检测的其他手势分类器1626(例如,第二手势分类器)。在一些系统中,本公开
中描述的处理是实时发生的。术语“实时”旨在广泛地涵盖以与接收数据相同的速率处理信息的系统,从而使它们能够作为本文所述的自动驾驶和非接触式界面来指导或控制过程。
[0149]
所公开的系统不是依靠单一类型的机器学习算法来检测和分类手和肢体的识别和移动,而是并行使用第二种(不同的)机器学习算法(不同于第一类的机器学习算法)来处理捕获的视频图像,以提高系统识别的准确性和速度。在该系统中,第三分类器1626使用维度和簇作为锚框来预测包围视频图像中示出的期望的身体和手部的边界框,以预测手部手势和肢体手势识别。系统为每个边界框预测四个坐标(例如,跟踪的每个手部手势和肢体手势)。应用语言回归,可以生成预测的对象分数。当边界框的对象分数超过预定阈值时,通过特征提取器使用连续的3x3和1x1卷积层(例如,示例性机器学习算法中的53个卷积层)处理视频图像来执行特征提取,直到达到预定的均方误差为止。使用由一个或多个相机1616捕获的全视频图像,使用多尺度处理来训练第二种类型的手势分类器1626中的每一个,以呈现更加训练有素的手势分类器,该手势分类器提供训练预测和置信度分数。一旦经过训练后,手势分类器将通过处理视频图像来实时处理捕获的视频。
[0150]
在操作中,视频图像中捕获的手势的提取特征由各种类型的分类器1626处理,并且由处理器1602选择具有最高置信度分数的识别。在其他系统中,使用增强配置,其中串行组合分类器1626以减少残留误差。然后通过跟踪引擎1628比较分类后手势的逐帧比较,用于跟踪分类后的手部或上肢的位置和移动。在一些系统中,与学习到的后台模型进行比较,以有效地计算手部和/或肢体移动及其轨迹。在一些替代系统中也可以计算速度。为了提高系统精度,在跟踪时间段内以周期性的时间间隔重复进行机器学习检测。在一些系统中,在从该对象的确认位置或新的位置重新接合跟踪引擎1628之前,系统在预定的时间段内(例如每五到十秒)重新发现对象(例如,执行全新的定位/检测过程)。响应于静态和/或动态识别(例如,轨迹识别),通过将消息/命令与先前存储在数据仓库1622中的消息/命令进行交叉参考来识别手势消息关联、手势命令关联、轨迹消息关联和/或轨迹命令关联,此后使远程设备(接收设备)呈现消息、执行消息(例如其发送)或执行命令。
[0151]
图22是非接触式用户界面的框图,该非接触式用户界面可以执行上述以及图7至图21中所示的处理流程、功能和系统。所述系统包括处理器单元或图形处理器单元1602、诸如存储器1604(其内容可由一个或多个处理器和/或图形处理器1602访问)的非暂时性介质、公共/专用网络1634、数据仓库1622、显示器1606、麦克风阵列1608、扬声器1610、音频放大器1612、音频接口1614、一个或多个相机1616、接近传感器1634、消息中心1618和i/o接口1620。i/o接口1620连接设备和本地和/或远程应用程序,例如附加的本地和/或远程监控的相机1616。存储器1604存储指令,这些指令在由处理器1602执行时使得系统呈现与基于视觉的消息传递和控制相关联的功能的一部分或全部。存储器1604存储指令,这些指令在由处理器1602执行时使得系统自动提供功能和硬件,所述功能和硬件支持静态和动态识别事件(例如,识别引擎)1624、消息中心1618、手势分类器1626、跟踪引擎1628、机器学习算法1630和一个或多个基于手部手势、手臂手势的应用程序软件1632。例如在替代系统中,一些功能可以由openpose和yolov3以及csrt跟踪软件提供。在又一个替代的非接触式系统中,通过云存储提供了非暂时性介质提供的功能。术语“云存储”旨在广泛地包含使数据能够通过网络(通常是公共可用的分布式网络,如互联网)被远程维护、管理和备份并供用户使用的硬件和软件。在这种非接触式系统中,云存储提供了对系统资源的无处不在的访问,包括
检测、识别和跟踪以及可以通过公共网络快速提供的更高级别的服务。云存储允许共享资源,以在许多位置的许多非接触式系统之间实现一致性服务,并提供规模经济。
[0152]
所公开的存储器1604和/或存储装置可以保留用于以非暂时性计算机代码实现上述功能的可执行指令的有序列表。机器可读介质可以选择性地是但不限于电子、磁性、光学、电磁、红外或半导体介质。机器可读介质的示例的非详尽列表包括:便携式磁盘或光盘,易失性存储器(例如随机存取存储器(ram)),只读存储器(rom),可擦可编程只读存储器(eprom或闪存)或数据库管理系统。存储器1604可以包括能够布置在一个或多个专用存储器设备上或布置在处理器或其他类似设备上的单个设备或多个设备。术语“引擎”旨在广泛地包括执行或支持诸如静态和动态识别事件和过程之类的事件的处理器或程序的一部分。当说功能、步骤等“响应”或“响应于”另一个功能或步骤等而发生时,这些功能或步骤必然由于另一个功能或步骤等而发生。不足以限定该功能或动作只能跟随另一功能或动作,或只能在另一功能或动作之后发生。
[0153]
替代系统不限于上述特定硬件和机器学习算法。可以使用其他合适的硬件和机器学习算法。此外,系统不限于物理静态系统。而是,这些系统可以在移动设备中使用,并且可以在分布式网络上运行。本文说明性地公开的系统可以在不存在本文未具体公开的任何元件(包括硬件和/或软件)的情况下适当地实践。它们可能在没有这些元件的情况下运行。此外,本文描述的许多系统的每个中描述的各种元件相对于所描述的各个元件被认为是可分割的,而不是整体上不可分割的。换句话说,替代系统涵盖本文描述的元件的任何变型和组合,并且可以在没有描述的各种元件的情况下进行制造或使用(例如,它们可以在没有这些元件的情况下运行)。
[0154]
交钥匙的非接触式用户界面和过程提供了一种自然、简便的通信方式,并且在一些情况下控制了远程设备,而无需与远程设备进行物理或射频接触。该系统使用户能够通过动态指向、手部移动和手臂方向来与计算机和其他设备进行交互并控制计算机和其他设备。该系统使用多种机器学习算法来提高并实现高识别精度,并使用跟踪软件以在提供消息和/或其他形式的反馈的同时识别各种指向手指和手部的轨迹。该系统使用一个或多个相机1616来获取手势。该系统支持多种形式的自然人际交流,从而使所有具有各种身体能力的用户都可以在无菌环境中访问和共享信息。此外,该系统对手势消息关联的使用使该系统适用于许多不同的软件应用程序,这是因为每个手势消息关联都可以针对不同的文化背景进行自定义,从而使系统易于理解、使用并适应不同的应用领域。该技术是鲁棒的并且可以在许多应用中使用,并且例如可以是商业系统、医疗系统和娱乐系统的一部分。
[0155]
本公开的主题尤其还可以涉及以下方面(这些方面通过数字来引用):
[0156]
1.一种在没有与电子设备的物理接触和射频通信的情况下控制电子设备的计算机实现的方法,包括:
[0157]
当所述电子设备处于待机状态时,在相机的虚拟检测范围内检测用户的存在;
[0158]
当检测到用户的存在时,将所述电子设备转换为交互状态;以及
[0159]
当通过以下步骤确定检测到的来自用户的手势对应于存储在存储器中的预定义手势时,将所述设备保持在交互状态:
[0160]
通过处理由所述相机捕获的伸出的手指的图像与存储在所述电子设备的存储器中的多个图像的比较来检测伸出的手指;
[0161]
由于检测到伸出的手指而在所述电子设备的显示器上呈现消息;以及
[0162]
由于检测到伸出的手指移动而发送该消息。
[0163]
2.根据方面1所述的计算机实现的方法,还包括在所述待机状态下显示一个或多个视觉提示,其中所述一个或多个视觉提示包括所述预定义手势的图像。
[0164]
3.根据方面2所述的计算机实现的方法,其中所述一个或多个视觉提示对所述图像沿着所述虚拟检测范围内的轨迹的移动加以指示,该移动导致所述消息的发送。
[0165]
4.根据方面1至2中任一项所述的计算机实现的方法,其中存储在所述存储器中的预定义手势包括存储在所述存储器中的且引起消息的呈现的手势消息关联。
[0166]
5.根据方面1至4中任一项所述的计算机实现的方法,还包括:由于所识别的预定义手势的移动,将所述设备保持在交互状态。
[0167]
6.根据方面1至5中任一项所述的计算机实现的方法,还包括响应于手臂手势的检测而发送该消息。
[0168]
7.根据方面6所述的计算机实现的方法,其中所述手臂手势包括用户的四分之一臂移动到第一位置。
[0169]
8.根据方面7所述的计算机实现的方法,其中将用户的四分之一臂移动到所述第一位置导致发送第二消息。
[0170]
9.根据方面8所述的计算机实现的方法,其中将用户的四分之一臂移动到第二位置导致发送与所述第二消息不同的第三消息。
[0171]
10.一种电子设备,包括:
[0172]
显示器;
[0173]
与所述显示器通信的处理器;以及
[0174]
存储在非暂时性存储器中的计算机程序,所述计算机程序由所述处理器执行以引起通过指令实施动作,以便:
[0175]
当所述电子设备处于待机状态时,在相机的虚拟检测范围内检测用户的存在;
[0176]
当检测到用户的存在时,将所述电子设备转换为交互状态;
[0177]
通过处理由所述相机捕获的伸出的手指的图像与存储在所述电子设备的所述非暂时性存储器中的多个图像的比较来检测伸出的手指;
[0178]
由于检测到伸出的手指而在所述电子设备的所述显示器上呈现消息;以及
[0179]
由于检测到伸出的手指移动而发送该消息。
[0180]
11.根据方面10所述的电子设备,其中由于伸出的手指沿着预定轨迹移动而发送该消息。
[0181]
12.根据方面10至11中任一项所述的电子设备,还包括用于在检测到的手势不对应于伸出的手指时,禁止响应于对手势的检测而执行任务的指令。
[0182]
13.根据方面10至12中任一项所述的电子设备,还包括用于在识别出的手势移动不对应于所存储的轨迹路径时,禁止响应于对手势的检测而执行任务的指令。
[0183]
14.根据方面10至13中任一项所述的电子设备,还包括用于响应于检测到与四分之一臂的移动不对应的手势而禁止执行任务的指令。
[0184]
15.根据方面10至14中任一项所述的电子设备,其中所述非暂时性存储器驻留在云存储设备中。
[0185]
16.根据方面10至16中任一项所述的电子设备,还包括用于对跟踪所述伸出的手指的移动的图像执行逐帧比较的指令。
[0186]
17.根据方面10至17中任一项所述的电子设备,还包括通过执行三维三角测量来检测所述伸出的手指的存在的指令。
[0187]
18.根据方面17所述的电子设备,还包括通过引起经由四个坐标呈现对边界框的预测来检测所述伸出的手指的存在的指令。
[0188]
19.根据方面10至18中任一项所述的电子设备,还包括响应于手臂手势的检测而导致发送消息的指令。
[0189]
20.根据方面19所述的电子设备,其中所述手臂手势包括用户的手臂到第一位置的移动。
[0190]
通过参考附图和详细描述,其他系统、方法、特征和优点对于本领域技术人员将是或将变得清楚。所有这样的附加系统、方法、特征和优点旨在包括在本说明书内、包括在本公开的范围内、并由以下实施例保护。
[0191]
实施例
[0192]
1.一种在没有与电子设备的物理接触和射频通信的情况下控制电子设备的计算机实现的方法,包括:
[0193]
当所述电子设备处于待机状态时,在相机的虚拟检测范围内检测用户的存在;
[0194]
当检测到用户的存在时,将所述电子设备转换为交互状态;以及
[0195]
当通过以下步骤确定检测到的来自用户的手势对应于存储在存储器中的预定义手势时,将所述设备保持在交互状态:
[0196]
通过处理由所述相机捕获的伸出的手指的图像与存储在所述电子设备的所述存储器中的多个图像的比较来检测伸出的手指;
[0197]
由于检测到伸出的手指而在所述电子设备的显示器上呈现消息;以及
[0198]
由于检测到伸出的手指的移动而发送所述消息。
[0199]
2.根据实施例1所述的计算机实现的方法,还包括在所述待机状态下显示一个或多个视觉提示,其中所述一个或多个视觉提示包括所述预定义手势的图像。
[0200]
3.根据实施例2所述的计算机实现的方法,其中所述一个或多个视觉提示对所述图像沿着所述虚拟检测范围内的轨迹的移动加以指示,所述移动引起所述消息的发送。
[0201]
4.根据实施例1所述的计算机实现的方法,其中存储在所述存储器中的预定义手势包括存储在所述存储器中的且引起在所述显示器上呈现所述消息的手势消息关联。
[0202]
5.根据实施例1所述的计算机实现的方法,还包括检测所识别的预定义手势的移动,并且由于检测到所识别的预定义手势的移动而使所述设备保持在交互状态。
[0203]
6.根据实施例1所述的计算机实现的方法,还包括响应于手臂手势的检测而发送所述消息。
[0204]
7.根据实施例6所述的计算机实现的方法,其中所述手臂手势包括用户的四分之一臂到第一位置的移动。
[0205]
8.根据实施例7所述的计算机实现的方法,其中响应于在所述第一位置中检测到四分之一臂的移动,用户的四分之一臂到所述第一位置的移动引起发送第二消息。
[0206]
9.根据实施例8所述的计算机实现的方法,其中响应于在所述第二位置中检测到
四分之一臂的移动,用户的四分之一臂到所述第二位置的移动引起发送不同于所述第二消息的第三消息。
[0207]
10.一种电子设备,包括:
[0208]
显示器;
[0209]
与所述显示器通信的处理器;以及
[0210]
存储在非暂时性存储器中的计算机程序,所述计算机程序由所述处理器执行以通过指令来实施动作,以便:
[0211]
当电子设备处于待机状态时,在相机的虚拟检测范围内检测用户的存在;
[0212]
当检测到用户的存在时,将所述电子设备转换为交互状态;
[0213]
通过处理由所述相机捕获的伸出的手指的图像与存储在所述电子设备的所述非暂时性存储器中的多个图像的比较来检测伸出的手指;
[0214]
由于检测到伸出的手指而在所述电子设备的所述显示器上呈现消息;以及
[0215]
通过检测伸出的手指的移动来发送消息。
[0216]
11.根据实施例10所述的电子设备,其中由于伸出的手指沿着预定轨迹移动而发生对所述消息的发送。
[0217]
12.根据实施例10所述的电子设备,还包括用于在识别出的手势不对应于伸出的手指时禁止响应于对手势的检测而执行任务的指令。
[0218]
13.根据实施例10所述的电子设备,还包括用于在识别出的手势移动不对应于所存储的轨迹路径时禁止响应于对手势的检测而执行任务的指令。
[0219]
14.根据实施例10所述的电子设备,还包括用于禁止响应于检测到不对应于四分之一臂移动的手势而执行任务的指令。
[0220]
15.根据实施例10所述的电子设备,其中所述非暂时性存储器驻留在云存储设备中。
[0221]
16.根据实施例10所述的电子设备,还包括用于对跟踪所述伸出的手指的移动的图像执行逐帧比较的指令。
[0222]
17.根据实施例10所述的电子设备,还包括通过执行三维三角测量来检测所述伸出的手指的存在的指令。
[0223]
18.根据实施例17所述的电子设备,还包括通过使得经由四个坐标呈现对边界框的预测来检测伸出的手指的存在的指令。
[0224]
19.根据实施例10所述的电子设备,还包括响应于手臂手势的检测而引起发送所述消息的指令。
[0225]
20.根据实施例19所述的电子设备,其中所述手臂手势包括用户的手臂到第一位置的移动。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1