本发明一般地涉及用于辨识用户的意图(DIU)并且随后利用可选的辅助输入支持主要使用一个人的眼球来控制计算及其它设备并与其交互的系统和方法。该系统利用人机界面(HMI)、可穿戴计算、人类生理学、图像处理和深度学习的领域内的技术。DIU能够被实现在能够可选地与头戴式显示器(HMD)、远程显示器和/或其它可穿戴传感器或致动器相关联的不引人注目的眼球跟踪头饰和/或远程眼球跟踪硬件内。该系统可以给用户提供易于使用、直观且灵活的输入机制来控制本地或远程计算设备并与其交互。
背景技术:
计算机鼠标、游戏杆以及其它手动跟踪设备是用于在人机交互期间指定位置信息的普遍存在的工具。随着可穿戴计算的出现,例如为了合适的操作一般地需要固定表面的这些笨重且突兀的设备与被设计成穿戴在身体上的装置的便携性质不相容。
可穿戴显示设备包括:虚拟现实(VR)显示器,诸如由Sony、Samsung、Oculus、Carl Zeiss所制造的那些;头戴式显示器(HMD),诸如由Google(例如,)和Vuzix所生产的那些;增强现实(AR)显示器,诸如由Microsoft、Vuzix和DigiLens所制造的那些;以及类似设备。眼球跟踪能够被用来查看这些显示器并且指定位置信息。然而,在正常的人类活动期间还广泛地使用眼球。
因此,当将眼球位置作为输入数据流以用于交互和控制时的挑战是为了基于眼球运动来辨识用户的意图(DIU)。本文的系统和方法的目标之一是为了区分与正常的日常活动相关联的眼球的运动以及旨在与智能设备交互并且控制智能设备的在本文中被称为“眼球信号”的有意识的或有意的运动。智能设备是一般地经由能够在一定程度上交互式地且自主地操作的诸如蓝牙、NFC、Wi-Fi、3G等的不同无线协议连接到其它设备或网络的电子设备。
眼球信号跟踪能够被认为是使得人类能够与机器进行通信的机器视觉的领域内的组件。眼球信号与“手势”控制不同,因为必须根据与日常生活相关联的眼球的连续运动来辨识它们。此外,眼球信号可能受用户的环境(例如,日光与黑暗的关系)、分心、疲劳、精神状态、认知负荷、疾病、药物等影响。
眼球信号能够被用来替换或者补充基于手势的HMI。当前,手势控制的最常见形式涉及跟踪面部、手或一个或多个手指。HMI手势控制的其它示例涉及两只手、步态、整个身体运动、腿、手链、手指、戒指、笔等的监视。术语“手势控制”也已被应用来解释针对触摸屏、平板以及其它运动或触摸感测表面的运动。在几乎所有情况下当使用这些设备时,能够做出在有意的(即,有意识的)控制下并且与正常的日常活动不同的手势。
使用一只或两只眼球的眼球信号跟踪涉及特定神经通路和电机控制。六块肌肉(上直肌、下直肌、外直肌、内直肌、上斜肌和下斜肌)控制所有形式的眼球运动。此外,提肌眼睑上直肌控制眼睑的运动。这些肌肉受胞核在脑干中的三条神经(动眼神经、外展神经和滑车神经)支配。包括与眼球运动的神经控制耦合的肌肉附着点的眼球的结构对眼球运动构成解剖和生理束缚(例如,在水平轴、垂直轴和旋转轴上的运动的范围;每个维度上的最大速率;保持不动的能力;运动精度;等)。
眼球运动被分类为隆起、内旋、内转、下转、外旋、内扭转和/或外转。除非盲,否则眼球被认为对进行正常的日常活动是至关重要的。因此,解释眼球信号的算法必须在眼球运动期间辨识用户的意图(即,运动是眼球信号的一部分还是为某个其它功能服务)。
此外,至关重要的是考虑特定于眼球运动的认知处理。例如,对于大多数个体来说在没有任何线索或指南的情况下利用手产生圆形运动是相对容易的。这与控制一个人的眼球的能力形成鲜明对比。在没有任何视觉线索的情况下使用一只或两只眼球,难以产生几个以上圆形旋转,并且例如甚至更难以在不提供参考视觉目标来跟踪的情况下控制这些运动的半径。在缺少看着真实或虚拟视觉线索的情况下有意的眼球运动是困难的并且一般地产生不舒适的感觉。在没有关于看哪里的方向的情况下简单地被告诉“看向别处”可能容易地产生焦虑。
因此,在不提供供替换的凝视点的情况下告诉设备穿戴者简单地从一个对象“看向别处”导致能够一般地被执行的动作,但是是不舒适的并且不是一致地可重复的。例如在以附近为主的(例如,室内)环境中看向别处与在更广阔的(例如,室外)环境中看向别处相比很可能产生一系列非常不同的眼球运动。即便当被指示在特定方向(例如,左、右、上、下)上“看向别处”并且/或者返回到查看原始位置时,这些眼球运动在没有视觉线索的情况下也是不一致的。与现有的眼球跟踪控制设备不同,视觉线索应该理想地在特定凝视位置处,以便利用诸如记忆引导的扫视眼球运动的生理机制。
另一方面,眼球和视皮质被精巧地设计来随着真实或虚拟对象按照不同的图案动来动去而跟踪它们。对于大多数个体来说跟踪按照圆形图案移动的参考对象(例如,球或光标的图像)是容易的。通过跟随这些视觉参照物或线索(在对设备已知的凝视位置处),能够使用眼球来产生几乎任何图案的运动。
沿着类似的线路,手指或手姿势的“挥击”或“扫掠”运动是用于机器控制的一个手势类型。如果一个人试图利用一个人的眼球“扫掠”,则除非眼球与真实或虚拟对象相结合地移动,否则一个人很少或不会感知到扫掠通路内的任何对象并且一个人失去查看在扫掠被发起所在的位置处发生了什么的能力。也难以区分对例如在设备用户的外围视场内可能已吸引注意的对象的故意的眼球扫掠和暂时的一瞥或扫视。
除此之外,眼球的查看在正常功能期间常常被眼睑和睫毛遮掩。此外,眼睑完全阻挡眼球的位置的查看的眨眼为了持续功能必须周期性地发生,以便维持眼球的表面的润滑和水环境。眨眼持续时间(通常持续从0.3至0.4秒)和速率可能受疲劳、注意力、损伤、药物治疗、药物、酒精和疾病影响。眨眼能够遮掩个体的视觉和眼球的查看达到时间的10%以上。
因此,需要新范例以在保持个体目视并且与他们的环境交互的能力的同时根据眼球运动来辨识意图。
技术实现要素:
鉴于上文,在本文中提供了用于实质上基于一只或多只眼球的有目的的运动来基本上连续地辨识一个或多个用户的各种意图或操作目标的系统和方法。
在一个方面,示例性计算机实现的方法可以涉及:将参考光投影到一只或两只眼球上;监视参考光的反射的改变;对眼球和/或光的图像数据进行处理以确定眼球位置或运动;对照上下文、生理、解剖和/或神经学准则来对眼球位置或运动数据进行过滤;从经过滤的眼球位置或运动数据得到指示用户的操作意图或目的的眼球信号;使所述眼球信号与应用或交互设备相关联;使所述眼球信号与一个或多个控制指令相关以在操作上控制所关联的应用或设备;将眼球信号或控制指令传送到所关联的应用或设备;以及使应用或设备按照用户的意图执行适当的指令或功能。
在另一方面,示例性系统可以包括用于监视光的反射的改变的一个或多个相机或至少一个传感器以及一个或多个处理单元,和非暂时性计算机可读介质以及存储在该非暂时性计算机可读介质上的程序指令。程序指令可以可由至少一个处理器执行以将参考光投影到一只或多只眼球上,监视参考光的反射的改变,对眼球和/或光的图像数据进行处理以确定眼球位置或运动,对照上下文、生理、解剖和/或神经学准则来对眼球位置或运动数据进行过滤,从经过滤的眼球位置或运动数据得到指示用户的操作意图或目的的眼球信号,使所述眼球信号与应用或交互设备相关联,使所述眼球信号与一个或多个控制指令相关以在操作上控制所关联的应用或设备,将眼球信号或控制指令传送到所关联的应用或设备,并且使应用或设备按照用户的意图执行适当的指令或功能。
供替换的实施例可以包括被布置到一个或多个便携式装置(电话、平板、web相机、膝上型电脑、相机、视频相机、游牧设备、电子附属组件等)或可穿戴设备(例如,眼镜、手表、帽子、珠宝、衣服、个人附件等)上或者嵌入在其内的一个或多个照明源、相机或其它传感器,或者可以被类似地结合到其它电子设备(例如,计算机、安全系统、家庭自动化、电力管理系统、ATM、显示器、电视、冰箱、身份认证设备、电子卡阅读器、终端设备、处理逻辑控制器、网络路由器、无线接入点、收银机、分发机等)、交通工具(例如,车辆控制台/仪表板、仪表盘、信息娱乐系统、反射镜、座椅、转向轮、门、在操作上耦合以得到有限持续时间和/或特定功能的基于目的的设备等)或环境中的其它结构(例如,标志、窗口显示器、信息亭、门、照明、通信系统、交互游乐设施、控制台游戏、体育场馆等)中并且远程定位在一个或多个用户的一般附近以便将参考光图像、环境光或结构化光照明或者存放到一个或多个用户的一只或两只眼球、用于监视光的反射的改变的一个或多个相机或至少一个传感器以及一个或多个处理单元和非暂时性计算机可读介质以及存储在该非暂时性计算机可读介质上的程序指令上。程序指令可以可由至少一个处理器执行以将参考光投影到一只或多只眼球上,监视参考光的反射的改变,对眼球和/或光的图像数据进行处理以确定眼球位置或运动,对照上下文、生理、解剖和/或神经学准则来对眼球位置或运动数据进行过滤,从经过滤的眼球位置或运动数据得到指示用户的操作意图或目的的眼球信号,使所述眼球信号与应用或交互设备相关联,使所述眼球信号与一个或多个控制指令相关以在操作上控制所关联的应用或设备,将眼球信号或控制指令传送到所关联的应用或设备,并且使应用或设备按照用户的意图执行适当的指令或功能。
在另一实施例中,系统可以包括眼球跟踪装置,诸如布置到一只或多只眼球的表面上的接触透镜,或植入在眼球、眼窝内或者附着到视神经和/或肌肉以跟踪眼球位置和运动的生物力学或生物电传感器。传感器可以在操作上耦合到一个或多个处理器,并且可以包括非暂时性计算机可读介质以及存储在该非暂时性计算机可读介质上的程序指令。程序指令可以可由至少一个处理器执行以:从一个或多个生物力学传感器接收眼球位置或运动数据,对照上下文、生理、解剖和/或神经学准则来对眼球位置或运动数据进行过滤,从经过滤的眼球位置或运动数据得到指示用户的操作意图或目的的眼球信号,使所述眼球信号与应用或交互设备相关联,使所述眼球信号与一个或多个控制指令相关以在操作上控制所关联的应用或设备,将眼球信号或控制指令传送到所关联的应用或设备,并且使应用或设备按照用户的意图执行适当的指令或功能。
依照另一实施例,提供了使用检测器来基于用户的眼球相对于电子显示器的运动来提供图形用户界面的方法,所述方法包括:识别眼球的凝视何时指向显示器上的对象;识别眼球从对象朝向包括与动作相对应的显示器上的第一图标的目标位置的运动;用与在目标位置处的对象相对应的第二图标代替第一图标;确认眼球的凝视在运动之后落在目标位置处;以及对对象执行动作。
依照又一个实施例,提供了用于基于用户的眼球的运动来提供图形用户界面的系统,所述系统包括:检测器,所述检测器被配置成监视用户的眼球的运动;电子显示器;以及处理单元,所述处理单元在操作上耦合到检测器和电子显示器以识别眼球的凝视何时指向显示器上的对象;识别眼球从对象朝向包括与动作相对应的显示器上的第一图标的目标位置的运动;用与在目标位置处的对象相对应的第二图标代替第一图标;确认眼球的凝视在运动之后落在目标位置处;并且对对象执行动作。
依照再一个实施例,提供了使用检测器来基于用户的眼球相对于电子显示器的运动来提供图形用户界面的方法,所述方法包括:识别眼球朝向包括所对应的显示器上的第一图标的第一目标位置的第一运动;用在与第一位置不同的多个第二位置处的多个第二图标代替显示器上的第一图标;确认眼球的凝视在第一运动之后落在第一目标位置处;以及此后监视眼球以识别眼球是否执行朝向多个第二目标位置中的一个的第二运动。
依照又一个实施例,提供了基于用户的眼球的运动来提供图形用户界面的系统,所述系统包括:检测器,所述检测器被配置为检测用户的眼球的运动;电子显示器;以及处理单元,所述处理单元在操作上耦合到检测器和电子显示器以识别眼球朝向包括所对应的显示器上的第一图标的第一目标位置的第一运动;用在与第一位置不同的多个第二位置处的多个第二图标代替显示器上的第一图标;确认眼球的凝视在第一运动之后落在第一目标位置处;并且此后监视眼球以识别眼球是否执行朝向多个第二目标位置中的一个的第二运动。
在另一实施例中,诸如MEMS(微机电系统)反射镜的可切换布拉格光栅或其它光转向机构可以被用来控制指向眼球的光的位置并且/或者相反地在空间上选择已从眼球收集的光,从而允许减少数目的照明和/或检测源(包括单个源(例如,发光二极管)和/或检测器(例如,光电二极管))获取图像。
在另一实施例中,眼球图像数据的照明和获取可以使用来自所谓的“热反射镜”、夫琅和费(Fraunhoffer)透镜和/或全息透镜或者其它光学组件的反射来捕获。
在另外的实施例中,“间隙效应”的生理原理可以被用来从视场中移除一个或多个对象,以一般地减少感知对象所需要的认知处理并且允许用户的眼球的“释放”以及朝向后续目标的更快速运动。
在另外的实施例中,特别是当目标是眼球信号动作的目的地时,屏幕的先前查看的或“熟悉的”对象或区域的图像或“缩略图”能够被显示在目标目的地处。
在另外的实施例中,与眼球信号“语言”相关联的一个或多个显示器可以包括吸引朝向可能计划中的目标位置的眼球运动或者相反地使用被设计成不吸引用户注意的方法来引入目标的步骤。
在另外的实施例中,“变化盲”的生理原理可以被用来对显示器或交互设备引起慢慢地或者在观察者不在看以便不吸引注意时引入的视觉改变。
在另一实施例中,由设备控制的显示器可以更改视场的近中心凹和/或外围区域内的目标细节,其中,可以慢慢地或者在观察者“盲”期间例如在扫视眼球运动的快速部分期间引入新目标。
在另外的实施例中,新目标能够使用控制例如在图形在视觉上对用户“叫喊”时吸引注意的一个或多个对象的亮度、透明度、颜色和/或运动的技术来引入,并且可以包括通过将用户的眼球重新指向广告来引导用户在游戏环境内的视觉注意,或者可以经由对关键方法或过程的定向曝光来教导。
在另外的实施例中,系统可以包括同时测量设备穿戴者的两只眼球的位置的双目设备,其中,来自两只眼球的测量结果能够被用来确定两只眼球在相反方向上的眼球辐辏或运动以在离观察者不同的距离处维持场景的单个双目视图。
在另外的实施例中,可以经由出现在离设备穿戴者不同的距离处的多个二维显示平面来呈现并且随后选择一个或多个对象。
在另外的实施例中,“连续激活”眼球信号可以包括或者排除基于特定眼球信号或一系列眼球信号的上下文的眼球运动分量,其中对象的合集可以与特定动作相关联。
在另一实施例中,眼球信号可以与其它模态组合以利用有意的头运动(例如,点头)或包括手势、通过其它身体部分的运动、语音、开关激活、面部表情等的其它模态来传达用户意图。
在其它的实施例中,被跟踪眼球运动和几何形状(例如,瞳孔扩张、反扫视)可以与关于正由用户查看的真实或虚拟对象的信息组合,从而以基本上连续的方式辨识个体的生理和/或情绪状态。
在其它实施例中,算法过滤器可以评估眼球运动(例如,定时、方向、扫视序列等)以确定可以被用来辨识正被执行的特定类型的活动(例如,阅读、检查)的立体眼球运动图案的存在。
在另外的实施例中,“过程坚持”处理可以被用来对对象或动作进行识别、地理定位、加上时间戳、作注解和/或归档,以便识别并验证环境内的各种对象(例如,阀、门、开关、灯、指示器)或特定位置(例如,由可查看标志、QR(即,快速响应)码、条形码、唯一成形的对象来指示),从而允许用户验证特定列表、规定序列或检查表内的各种步骤被审视并且履行至完成或者至完成的程度。
在其它实施例中,可变的视频帧速率能够被用来基于眼球运动来显示内容,其中,可以减小视频速率以保存电力和计算资源,或者可以增加视频速率以使得能实现诸如“间隙效应”的方法,其中可以快速地激活语法元素并且/或者从显示中移除目标元素,从而消除对于校正扫视和/或允许更快速地选择新目标的必要性。
在其它实施例中,预测可以被用来分析为有目的的眼球运动的弹道发起的眼球运动(例如,“扫视启动”)并且可以针对速度和方向被测量,以便计算扫视将“落”的时间和事件位置,从而允许控制相机和其它处理资源。
在另外的实施例中,可以例如在眨眼期间、在扫视的中间部分期间或者在眼球不指向显示器或者朝向任何交互对象时减少或者暂时消除详细的眼球跟踪,从而允许减少的功耗、增强的安全或者启用其它设备。
在另外的实施例中,可以更改显示器的透明度、亮度或其它特性并且可以在大小、形状、颜色和/或运动方面使由用户查看的各种对象匹配,从而允许在一个或多个可穿戴或远程显示设备上跟踪真实或虚拟环境中的真实或虚拟对象,包括在显示设备内真实世界与虚拟世界之间的基本上连续的转变。
在另外的实施例中,眼球信号可以被用来通过控制一个或多个显示器的分辨率、内容和/或其它特性来将显示资源集中于仅观察者的视场的大致中心凹区域内的内容。
在另外的实施例中,机器学习技术(包括“深度学习”)可以将眼球运动图案和其它输入转换成预测或预期的眼球位置并且相应地使用户显示器适应,从而允许系统适于个别用户的解剖和生理能力和限制。
在另外的实施例中,记忆引导的扫视眼球运动技术可以被用来基于内容和用户体验以自适应方式动态地控制材料和对象在显示器内的呈现的速率,从而允许眼球信号最终被更快速地执行。
在下面在示例性实施例的附图和具体实施方式中描述这里所呈现的系统和方法的各方面和应用。
附图说明
可以通过在与以下说明性图相结合地考虑时参考详细描述来得到对本发明的更完全理解。在图中,相同的附图标记在图中自始至终指代相同的元素或行为。目前示例性实施例被图示在附图中,附图中:
图1A-1E图示包括采用“间隙效应”来快速地执行二取一选择的眼球运动的系列。
图2A和图2B示出基于眼球信号和被查看手指的用户选择的激活。
图3是图示扫视、微扫视、平滑追踪眼球运动和注视的分类的流程图。
图4是图示辐辏和前庭眼眼球运动的分类的流程图。
图5是实现摇摄和变焦功能以查看图像的眼球信号菜单的示例。
图6示出眼球信号主(即,顶级)菜单。
图7示出需要更低分辨率凝视跟踪的眼球信号主菜单的供替换的版本。
图8示出用来查看并对用户电子邮件做出响应的眼球信号子菜单的示例。
图9是为眼球信号数据输入而设计的数字小键盘。
图10是图示对文本的页面的查看的眼球信号控制的一系列屏幕截图。
图11图示用来做出二取一眼球选择的显示对象(即,所谓的“追踪对象”)的时间序列。
图12A-12H示出能够被用来做出N取一眼球选择的显示对象的示例,其中N=2、3、4或5。
图13A-13E图示能够被用来做出四取一眼球选择的不同的图形设计和原理的示例。
图14A和图14B图示用来使用眼球信号语言来滚动文本的屏幕截图和覆盖图。
图15A-15C示出在查看地图期间的眼球信号多级菜单选择的示例。
图16是用来基于眼球信号执行动作的步骤的流程图。
图17是使用眼球信号语言来检索并显示关于“真实世界”对象的补充信息的步骤的流程图。
图18图示针对图像获取速率的逐帧控制的定时考虑事项中的一些。
图19A和图19B示出基于投影眼球运动的感兴趣区域控制。
图20图示对象在设备用户在扫视眼球运动期间盲时通过快速地改变透明度的引入。
图21图示对象在设备用户在扫视眼球运动期间盲时通过逐渐地改变透明度的引入。
图22图示对象通过慢慢地改变亮度的引入。
图23图示对象在设备用户在多个扫视眼球运动期间盲时通过改变透明度的引入。
图24示出作为确定用户意图的神经网络的输入的时间系列位置数据的控制。
图25示出初始隐藏层被划分成单独地对眼球信号语言菜单中的每一个进行寻址的分段神经网络的示例。
图26A-26G图示用于将一系列采样的眼球位置变换成一系列眼球运动的步骤。
图27图示能够将时间系列眼球运动变换成包括意图的用户状态的神经网络架构。
具体实施方式
在以下描述中,并且出于说明的目的,许多特定细节被阐述以便提供对示例性实施例的各个方面的彻底理解。然而,相关领域的技术人员将理解,可以在没有这些特定细节的情况下实践本文的装置、系统和方法。应当理解,在不脱离本文的装置、系统和方法的范围的情况下,可以利用其它实施例并且可以做出结构和功能改变。在其它实例中,更一般地示出或者讨论了已知结构和设备,以便避免使示例性实施例混淆。在许多情况下,操作的描述足以使得一个人能够实现各种形式,特别是当操作将用软件实现时。应该注意,存在所公开的实施例可以被应用于的许多不同和替代配置、设备和技术。实施例的全部范围不限于在下面所描述的示例。
在所图示的实施例的以下示例中,参考形成其一部分的附图,并且在附图中通过图示各种实施例来示出。
在本文中提供了用于实质上基于一只或两只眼球的运动来基本上连续地辨识设备穿戴者的意图的系统和方法。本文的系统和方法的一个方面正在具体考虑眼球运动的解剖学和生理学以及视觉信息在对视场内的场景进行处理并做出响应的中枢神经系统(包括头脑)内的各种通路中的处理。
设备方面和示例
作为设备的示例,装置能够被不引人注目地远程定位或者安装在头饰上以便查看一只或两只眼球。例如,装置还能够被嵌入在常见的眼镜框架内或者附着到常见的眼镜框架或者在诸如被称为Google(Google公司)的那些的所谓的可穿戴计算设备或诸如由SensoMotoric Intruments(SMI)生产的那些的远程眼球跟踪设备内。附加地或可替选地,用于跟踪眼球运动的装置可以被包含在接触透镜内或者与接触透镜相结合地操作。另外,装置可以被植入在眼球、眼窝内,或者附着到视神经和/或肌肉以跟踪运动。
作为附加示例,装置可以被嵌入在智能手机、平板、计算机、智能手表或者包括计算机、显示器、汽车仪表板、标志牌的任何其它远程对象或位置或者由其他人穿戴的可穿戴设备内。在这些情况下,与头戴式可穿戴设备相比一般地在离眼球更大的距离处执行眼球的成像。一个或多个相机或感测设备被用来在用户正在设备的一般方向上看时从这些距离监视眼球运动。
可穿戴和/或远程定位的设备一般地需要安全通信,特别是当传输可能包含个人、金融、法律和/或其它形式的高价值信息时。
在附加示例中,能够通过各种波导技术来控制眼球的图像的照明和/或获取。更具体地,诸如由Digilens公司生产的那些的可切换布拉格光栅(SBG)、电可切换液晶光栅、表面起伏光栅(SRB)、可切换波导显示器或基于MEMS的反射镜(即,光束控制)设备能够被用来随着光被导向眼球而控制光的原点的位置并且/或者相反地在空间上选择已从眼球收集的光。在这种情况下,减少数目的照明源(包括单个源(例如,发光二极管,LED))和/或检测器(包括单个检测器(例如,光电二极管))能够被用来照明和/或获取图像。照明源可以是非相干的(例如,LED)或相干的,包括超低功率(为了眼球安全)二极管激光器。空间分辨率能够由电子选择性波导(例如,SBG、SRG、液晶、MEME反射镜)来提供。照明和图像捕获可以附加地或者可替选地涉及所谓的“热反射镜”、夫琅和费(Fraunhoffer)透镜、微透镜阵列、波导合成器、全内反射(TIR)全息波导和/或全息透镜或其它光学组件的反射或折射。
系统的各方面可以包括眼球信号“语言”,其包括考虑眼球的生理学和解剖学以及视皮质的认知特性的眼球运动的集合。在正常的日常活动期间眼球能够随着它们执行既有意的又无意的活动而被跟踪。这些实施例的一个方面将随着用户的眼球例行地执行两种类型的运动而辨识用户的意图。这要求区分用来传达意图的有意的运动和无意的眼球运动。
有意的运动能够与进行正常的日常活动相关联或者它们能够被用来基于眼球信号“语言”传达有目的的意图。因此,算法“过滤器”和/或其它编程方法被用来基于一只或两只眼球的视频图像来辨识意图。算法能够用软件、固件加以编码,被嵌入在基于硅的逻辑器件内,或者是这些方法的组合。还能够在本地、远程地执行处理或者这些方法的组合包括所谓的“云计算”。
可以传达有目的的意图的有意的运动包括具有定义明确范围的角速度和弹道剖面(基于眼球的生理学)的扫视、用来在离观察者不同的距离处查看的辐辏运动、与头运动相关联的前庭眼眼球运动以及用来跟随特定(真实或虚拟)对象的平滑追踪运动。可以根据诸如瞳孔扩张、透镜适应、眼睑运动、面部肌肉运动、身体和头运动、手运动以及相关上下文信息的其它因素来确定用于确定用户意图的附加信息。
在另外的方面,眼球信号“语言”以及关联的视觉显示可以包括用于使眼球信号变得更直观和/或用于加快用户传达意图的能力的组件。例如,眼球信号“语言”能够利用记忆引导的扫视来快速地传达计划中的激活序列。类似地,所谓的“间隙效应”(涉及从视场中移除一个或多个对象)能够被用来减少感知对象并且因此为了朝向其它目标的更快速运动而“释放”眼球(即,传达进一步意图)所需要的认知处理的量。
在另外的方面,特别是当目标是眼球信号动作的目的地时,能够例如在目标目的地处显示屏幕的先前查看的对象或区域的图像或“缩略图”。对这个缩略图的最近“熟悉”(视皮质内的特定形式的识别)减少用于识别对象的认知负荷和时间,从而允许设备用户更快速地转变到后续动作。最近查看的对象尤其在紧跟从对象起的扫视之后的注视期间的拷贝或相似性的呈现也确认意图,从而减少焦虑,并且/或者方便从用户的意图得到的更令人愉快且有效的结果。
在仍然另外的方面,与眼球信号“语言”相关联的一个或多个显示可以包括用于吸引朝向可能计划中的目标位置的眼球运动或者相反地使用被设计成不吸引注意的方法来引入目标的步骤。作为此策略基础的是引导眼球或者跟踪什么也没有观察到的位置(诸如区域在颜色或纹理上似乎均匀的地方)是心理上不舒适的且常常生理上不可能(在没有专门训练的情况下)的事实。因此,可以以被设计来吸引注意的方式引入特定眼球运动序列中的目标。相反地,可以使用不吸引注意的方法来引入可能需要可用于选择但是不太常用的或者是大量可能的选择中的一个的目标。
在另外的方面,作为眼球信号“语言”的一部分的目标可以以不招致无意的或非计划中的眼球运动的方式使用要在显示内引入的人类视觉系统的认知特性。这允许用户随着新潜在目标被引入而在没有由于朝向新潜在目标的无意的或非计划中的眼球运动而导致的“不注意的激活”(即,导致事故动作的眼球运动)的情况下故意地传达意图。例如,认知上难以辨识外围视场内的细节的改变,然而对象相对于背景的辉度或运动的更大改变往往吸引眼球“注意”。因此,能够在不吸引注意的情况下更改外围视场内的目标细节。在被称为“变化盲”的过程中,也难以在改变慢慢地或者在观察者不在看时(即,在观察者“盲”时)被引入的情况下辨识视觉改变(其吸引注意)。因此,在另外的实施例中,能够慢慢地或者在当观察者“盲”时期间(诸如在扫视眼球运动的快速部分期间)引入新目标。
相反地,当在另外的示例中期望时,能够使用在图形在视觉上对用户“叫喊”时吸引注意的技术来引入新目标。这能够包括在游戏环境内引导用户的视觉注意、将用户的眼球重新指向(付费)广告或者通过对关键方法或过程的定向曝光来教导。
在附加示例中,系统可以包括同时测量设备穿戴者的两只眼球的位置的双目设备。来自两只眼球的测量结果能够被用来确定眼睛的辐辏或在相反方向上的两只眼球运动,以在离观察者不同的距离处维持场景的单个双目视图。眼球朝向彼此旋转(即,会聚)以查看附近的对象。相反地,眼球远离彼此旋转(即,发散)以查看更遥远的对象。
尽管辐辏运动比扫视运动慢得多(即,限于高达25°/秒的角速度),然而它们能够被用来确定和跟踪被查看对象离观察者的距离。水平(即,X维度)和垂直(即,Y维度)查看方向与离观察者的基于辐辏距离(即,Z维度)的组合使得能实现被查看对象的三维(3D)确定。被查看真实或虚拟对象的(X,Y,Z)确定在眼球信号创建和/或对象选择期间允许三维选择。例如,眼球信号能够包括有意地在附近看(即,所谓的“跨越”一个人的眼球)。能够经由出现在离设备穿戴者不同的距离处的多个二维显示面板来呈现并且随后选择对象选择。
在附加示例性方面,眼球信号“语言”可以包括或者排除基于特定眼球信号或眼球信号的序列的上下文的眼球运动分量。例如,“连续激活”状态能够被用来指定可以与特定动作相关联的对象的合集。在“连续激活”期间,能够简单地以顺序与执行特定眼球运动的关系来看感兴趣对象以“激活”或者指示每个对象是某种形式的动作的主体。
在附加方面,眼球信号能够与其它模态组合以传达用户意图。例如,眼球信号能够与作为眼球信号“语言”的分量的有意的头运动(例如,点头)组合。能够例如使用加速度计或者通过在面向外相机中检测总体场景的运动来检测头运动。在这个模态下,无意的眼球运动常常与有意的头运动(即,所谓的前庭眼运动)相关联。因此,在与头运动相反的方向上反射地发生的前庭眼眼球运动在有意的头运动期间能够被包括在眼球信号控制中。可以与眼球信号语言组合的其它模态包括手势、通过其它身体部分的运动、语音、开关激活、面部表情等。
在其它方面,被跟踪的眼球运动和几何形状能够被用来以连续方式辨识个体的生理和/或情绪状态。例如,瞳孔扩张的程度能够被用来辨识诸如恐惧、感兴趣或认知负荷的情绪状态。反扫视运动可以是查看使人不愉快的事情的指示。当与关于正由用户查看的真实或虚拟对象的信息组合时,例如,能够辨识例如引出惊吓、吸引或兴趣的对象的类别的指示。这种信息例如能够被用来修整信息的后续显示。
在其它方面,眼球的刻板运动图案能够被用来辨识正被执行的特定类型的活动。例如,扫视以及其它形式的眼球运动的定时、方向和序列能够被用来确定正在执行阅读的过程。确定这些刻板眼球运动的存在的算法过滤器例如能够随后被用来控制显示内容(例如,翻页),为眼球信号语言元素提供上下文并且/或者产生和归档特定内容(例如,检查表)已被查看和/或阅读的记录。
在另外的示例中,能够强迫设备穿戴者确保特定列表、规定序列或检查表内的所有步骤被审视。可以使用对象识别来识别对象(例如,阀、门、开关、灯、指示器)的状态或者设备穿戴者的环境内的特定位置(例如,由可观察到的标牌、QR(即,快速响应)码、条形码、唯一成形对象来指示)。识别的对象或动作能够被地理定位、加上时间戳、作注解和/或归档。
确保已遵守检查表内的特定序列被称为“程序遵守”。检查表内的特定对象或步骤的识别的缺少能够被用来强迫校正动作。程序遵守在诸如消防员、第一响应者、士兵、警察、飞行员、安全检查员、石油钻井监督员、建筑检查员和机修工的学科中是特别重要的。还能够出于训练、法律检验、警察取证、用户状况、过程优化等的目的对凝视活动的确切序列和图案进行归档。
在其它示例中,可变的视频帧速率能够被用来基于眼球运动显示内容。例如,人们广泛接受观察者在快速扫视眼球运动的中心部分期间功能上是“盲的”。因此,在这个时间期间显示信息可能不起作用。在这些时段期间,能够使显示更新暂停以保存电力和/或计算资源,或者能够使用“变化盲”的生理原理来在不吸引注意的情况下引入新虚拟对象。
另一方面,在扫视的发起期间,可能需要高帧速率以预期扫视的落区。这能够被例如用来快速地激活语法元素(即,无需甚至感知目标元素)并且/或者从显示中移除目标元素以便消除校正扫视和/或允许使用所谓的“间隙效应”来更快速地选择新目标。
沿着类似的线路并且在附加方面,眼球运动能够被用来对相机和其它处理资源执行“感兴趣区域”控制。例如,在扫视期间,眼球运动是“弹道的”。换句话说,能够基于扫视启动期间的测量结果来计算扫视“落”的时间和位置。能够在相机在扫视期间被关掉并且在眼球落时重新打开的情况下保存电力和计算资源。此外,仅眼球被预期落的区域(和相机的整个视场对比)需要最初被一个或多个眼球查看相机感测到。
类似地,平滑追踪眼球运动在生理上有限的角速度范围内发生。当跟踪平滑追踪和其它眼球运动时,生理限制能够被用来将感兴趣区域限于生物学上可行的范围。感兴趣区域控制在使用分布式和/或专用处理资源(例如,在ASIC[即,专用集成电路]或FPGA[即,现场可编程门阵列]内)经由快速计算来实现时可能是特别有效的。ASIC或FPGA的快速计算能力能够在多达逐帧速率基础上允许感兴趣区域(和帧速率)控制。
在另外的方面,当眼球未指向显示器或者朝向任何可交互对象时能够减少或者暂时消除与具体眼球跟踪相关联的过程。这些技术能够被用来减少电力和其它资源,并且增强安全。
在另外的示例中,当使用一个人的眼球来跟踪对象以辨识意图时,被跟踪对象可以是设备用户的环境中的真实对象、显示在一个或多个可穿戴或远程显示设备上的虚拟对象或者包括真实世界与虚拟世界之间的显示设备内的基本上连续的转变的真实对象和虚拟对象的组合。这能够例如通过控制增强现实显示的透明度或辉度或者通过和在显示器的边缘附近的对象的大小、形状、颜色和/或运动匹配来执行。
在另外的方面,凝视跟踪能够被用来控制在设备用户的中心凹视图内的一个或多个显示的分辨率、内容和/或其它特性。人类眼球的生理学是这样的,即高分辨率查看由视网膜的内表面的1.5mm宽区域内的锥受体来执行。这对应于观察者的视场内的约1°至3°的角范围。使用凝视跟踪,能够保存资源并且能够通过将显示资源集中于视场的中心凹区域内的内容来避免分散注意力的内容。
在另外的示例中,包括所谓的“深度学习”的机器学习技术能够被用来转换眼球运动图案和其它输入以辨识用户意图。深度学习能够被用来将眼球运动(通过眼球的六块肌肉而形成,如上所述)的广义图案识别为眼球信号语言的分量。除识别传达意图的“有目的的”眼球图案之外,眼球运动图案也能够被用来确定设备穿戴者的情绪和生理状态。
相同的机器学习技术能够被用来预测或者预期眼球位置并且相应地使用户显示适应。这能够被用来大大地使眼球信号加速并且适于个别用户的解剖及生理能力和限制。
在另外的方面,能够在控制对象在显示器内的呈现的定时时考虑特定设备用户的表现和/或体验。随着用户变得更熟悉设备操作,眼球运动能够变得更快;例如,通过更多地依靠记忆引导的(与搜索相对)扫视眼球运动。因此,材料的呈现的速率能够以自适应方式基于用户体验,从而允许眼球信号最终被更加快速地执行。
生理眼球运动
眼球信号“语言”和系统的基本组件是与人类视觉处理的解剖学和生理学的显式集成。因此,有必要理解人类眼球运动的生理学。
一般地接受存在四种基本类型的眼球运动:1)前庭眼、2)辐辏、3)平滑追踪以及4)扫视。能够基于诸如运动的范围、速度剖面、两只眼球是否执行共轭(与相异方向相对)运动以及头或视场是否也在移动的参数来区分每种类型的运动。在每种类型的眼球运动中涉及不同的神经回路。不同的眼球运动涉及不同程度的有意的(即,连续控制)对无意的(即,反射)神经通路。在辨识眼球信号的过程中,特别重要的是能够识别传达连续意图的眼球的有意的运动。
前庭眼运动通过使眼球移动与头旋转相同的角度但是在相反方向上来补偿头运动。这具有使投影到眼球的敏感高分辨率中心凹区域上的外部世界的图像稳定的效应。前庭眼运动在来自半圆形管的感觉输入情况下是快速且纯粹反射的。尽管前庭眼运动在性质上是反射的,然而前庭眼运动的检测能够被用来间接地辨识一般地为有意的头运动的绝对位置(特别是当与例如来自随着头而移动的加速度计的其它输入耦合时)。
辐辏眼球运动被用来独立地使每只眼球的中心凹区域对齐以查看远离观察者有一段距离的对象。与其它眼球运动不同,辐辏移动是不共轭的,其中每只眼球在不同方向上移动。合成辐辏角然后能够被用来估计观察者与观察中的目标对象之间的距离。在中枢神经系统内,这个过程涉及枕叶以及延髓中脑网状结构。通过同时测量两只眼球的运动和位置,能够估计观察者与观察中的目标对象之间的距离。这例如能够包括,作为设备穿戴者正在查看显示器上的图像的指示,到显示器的基于辐辏的距离是否对应于实际距离。
平滑追踪眼球运动是使运动目标对象的投影保持被定中心在眼球的高分辨率中心凹区域上的眼球的慢慢的有意的运动。因此,平滑追踪运动的总体速度一般地对应于观察中的运动目标的速度。大多数个体难以在不用实际上查看运动目标的情况下执行平滑追踪运动。换句话说,除非观察者的必要和专门训练已发生,否则在缺少跟踪运动目标的能力的情况下发起平滑追踪的尝试简单地导致观察者做出一个或多个扫视运动。
扫视眼球运动是突然改变眼球的注视点的快速运动。扫视在一旦被发起由该扫视覆盖的方向和距离就独自受扫视启动支配的意义上是“弹道的”。换句话说,即使目标的位置在扫视发起和/或其执行的时间期间改变,中间过程校正在扫视期间也是不可能的。扫视是由人体产生的最快运动,达到高达900°/秒的角速度。
扫视在其速度剖面方面也是“弹道的”。响应于未预期到的刺激,扫视的发起部分耗费大约200毫秒。发起导致(与其它弹道速度剖面类似)峰值速度与待行进的距离大致成比例的快速加速的阶段。根据行进的总角距离,扫视的运动阶段持续从20至200毫秒。通常,只要头保持不动,扫视就不在扭转轴上使眼球旋转(即,所谓的Listing定律)。大于约20°的扫视频繁地伴随头运动,但是这从个体到个体广泛地变化。
当视线方向落在新目标位置上时存在快速加速阶段。紧跟非常短的延迟之后,大扫视频繁地伴随至少一个较小的校正扫视以进一步接近目标位置。即使已经使目标消失了也可能发生校正扫视,从而进一步支持经投影的扫视运动的弹道性质。然而,校正扫视在目标保持可见的情况下更频繁。
通过注视点的仔细控制,预运动扫视等待时间能够通过关闭任何注视点而显著地减少(一半多)。注视点的关闭似乎既用作给观察者的警报且减少与维持注视点相关联的精神处理。在扫视运动之前关闭注视点以注视于新目标位置在视觉处理中留下“间隙”。这个状况被称为“间隙效应”。
在“间隙”情形期间更经常发生具有80-120毫秒的发起等待时间的表达扫视。注视点和目标的出现的仔细控制以及用户实践和训练能够显著地提高连续目标选择的最大速率。布置目标位置使得能够利用记忆引导的扫视能够进一步提高目标选择的最大速率。
图1A-1E图示基本“间隙效应”以及二取一菜单选择过程。设备用户133的凝视可以指向真实或虚拟对象130。如图1A中所图示,在眼球信号语言内发起对动作的选择通过沿着路径131(经由扫视眼球运动)将眼球凝视指向激活图标132而发生。图1B示出沿着这个路径指向的眼球凝视133。然而,这时能够从显示中移除激活图标132,当在扫视落地点135处没有观察到什么时,在时间上留下空位135和“间隙”。这个“间隙”释放视觉认知以快速地追踪后续目标。
在图1B-1E中所示出的示例中,引入了两个新目标134、136,从而允许设备用户通过将凝视指向两个目标134、136中的一个进一步做出二取一选择。在扫视落地点135上方引入了星形图标134,并且在相反方向上引入了平行四边形图标136。如图1C中所图示,在眼球凝视落在不存在对象133的地点处时,眼球被容易地“释放”以做出对两个新近引入的对象134、136中的一个的选择。
图1D图示通过向下指向平行四边形图标136的眼球凝视33所触发的选择。在达到所选择的目标(图1E)136时,与这个特定目标相关联的动作被执行。间隙效应能够减少眼球做出这个激活和/或选择序列所需要的总时间。
能够将扫视进一步细分成1)作为与(较慢的)生理漂移和震颤一起的注视过程的分量的较小运动(即,微扫视);以及2)用来探查外部环境的较大扫视运动。微扫视是在小于约0.2°的范围上的排他地无意的运动,其中它们确切的生理作用是有争议的。较大扫视运动可能是无意的,特别是当个体受惊吓时,但是当着观察者审视外部世界时通常在有意的控制下。
眼球的生理漂移、震颤以及其它较小运动的测量结果能够作为分量被用来辨识设备穿戴者的生理和精神状态。这些运动在确定并监视各式各样的病态状况(特别地,神经肌肉紊乱)以及药物和其它化合物的效应时也是有价值的。
扫视还能够基于它们的发起或意图被分类。1)反射扫视通过可能在外围视觉系统内的外部事件的出现或消失而被触发。2)反扫视涉及远离目标对象的眼球运动。3)扫描扫视是用于连续地查看并探查外部环境的主要模式。4)记忆引导的扫视允许个体的眼球在不存在视觉刺激的情况下朝向记忆位置移动。5)预测扫视帮助使眼球保持被指向正以时间和/或空间预测方式移动的目标。
有意的扫描扫视、记忆引导的扫视以及预测扫视能够用于帮助在眼球信号语言内辨识用户的意图。
眼球信号
依照示例性实施例,系统和方法被提供来基本上连续地或者周期性地对眼球信号进行分类。眼球信号由针对由用户传达意图的眼球的运动组成。眼球信号的序列可能随后导致由一个或多个智能设备执行的动作。
眼球信号还能够容易地耦合到从其它可穿戴输入设备获得的辅助信息,所述其它可穿戴输入设备诸如开关、麦克风、GPS(全球位置系统)设备、温度计、用于感测设备用户的环境内的位置的RFID(射频识别)标记对象和/或例如嵌入在戒指、纽扣或手镯中的用于感测运动的加速度计中的一个或多个。应用还能够耦合到使用脑电图(EEG)、心电图(ECG)、心率(其能够被以许多方式(包括经由脉搏血氧计或者在眼球的图像内)感测到)、用于监视呼吸和其它运动的应变仪、其它生物计量学和/或用于监视从身体的其它区域发出的姿势的附加相机中的一个或多个所获取的信息。
以下描述集中于主要使用仅一个人的眼球的人机控制。通过比较,诸如使用手指来控制平板或触摸屏所生成的那些的手势在现代计算设备内是普遍存在的。能够排他地使用手指手势来完全控制许多计算设备,特别是便携式的那些计算设备。与眼球信令不同,一个或多个手指的运动在性质上是完全有意的并且触摸屏幕的物理行为(其能够由计算设备感测到)能够被用作设备用户正在表达要控制计算设备的意图的明显指示器,但是不会发生偶然的非计划中的屏幕触摸。相反,使用眼球信号来控制计算设备具有数个独特挑战:
1.眼球在恒定运动中,从而获取关于日常生活的几乎每个方面的信息。特别地,必须在查看显示器或视网膜投影设备的过程中使用眼球。为了辨识意图,审视用来查看和探查显示器的眼球运动必须与故意的眼球信号区分开。
2.在任何时间段内查看“没有东西”(即,没有视觉参考、边缘或线索)的位置是困难且不舒适的。类似地,(在没有广泛训练的情况下)难以在没有要跟随的参考对象的情况下按照特定图案移动眼球。因此,可以在眼球信号控制操作期间使用对象的布局和边界以及它们在视场内的受控运动。
3.眼球的大多数有意的运动能够被分类为1)平滑追踪或2)扫视,其中扫视可以是有意的或无意的。在每种类型的运动的控制中涉及头脑的不同区域。此外,在每种类型的眼球运动内存在不可改变的限制。例如,平滑追踪必须涉及不能够超过约30°/秒的角速度的对象或边缘的跟踪。试图跟踪超过这个角速度的目标对象导致多个短扫视运动以“追逐”视场周围的对象。能够以高达900°/秒的角速度产生扫视;但是一旦被发起,即使目标已移动或者消失了,也没有能力做出调整以校正目标位置。和平滑追踪眼球运动对比,扫视在没有感知的情况下越过视场的区域。在眼球信号的检测期间,特别重要的是在算法上对平滑追踪、扫视以及其它形式的眼球运动进行区分(例如,过滤)。
4.在中心凹的区域内,眼球能够感知显示器或视网膜投影内的精细细节。事实上,在正常的照明条件下,眼球能够以接近于瑞利准则(Raleigh Criterion)的分辨率辨识细节。假定大约三毫米的瞳孔直径,这对应于用于检测约0.013°的角分辨率。这和与眼球凝视相关联的眼球跟踪系统相反,所述眼球凝视甚至在最佳条件下,也能够生成比用于用户感知的分辨率大至少一个数量级的角分辨率测量结果。眼球信号必须考虑感知分辨率(即,能够在显示屏幕上感知到的对象的最小大小)与实测凝视跟踪分辨率(即,能够在眼球信号形成期间可靠地选择的对象的最小大小)之间的这个大的不同。
这些挑战与其它形式的手势控制相比导致对于用于眼球信号的高效生成和检测的唯一视觉布局和策略的要求。
另一方面,存在与诸如计算机鼠标、游戏杆或平板的设备相比利用眼球信号作为人机界面(HMI)机制并且显示使用某种形式的手势控制的表面的优点。
1.控制眼球的肌肉能够生成在人体内最远的运动。因此,利用在策略上设计的图形用户界面(“GUI”,在本文的眼球信号系统和方法内被称为“iUi”TM),存在快速眼球信号控制的可能性。
2.眼球信号控制的感测和致动组件在位于离用来协调眼球信号控制的生物“处理器”(即,头脑)仅短距离的同一器官(即,眼球及其控制运动的六块肌肉)内。短神经通路还导致利用精心设计的iUiTM GUI的快速眼球信号控制的可能性。
3.在人类中,眼球是用来感测外部环境的最高带宽器官。使用眼球凝视,能够精确地找到并随后使在环境中虚拟化的真实世界对象与选择的动作相关联。在基于眼球凝视的选择期间,从物理或认知观点看未必涉及其它感觉或效应器器官。例如,不需要所谓的“手眼协调”来在眼球信号期间选择真实或虚拟对象。
4.不仅对于设备穿戴者而言,而且对于中间环境中的个体而言,被自包含在护目镜或头饰设备内的眼球信号控制可以是不引人注目的。眼球信号可能涉及除与眼球和头饰分别相关联的那些以外的不明显的运动、声音或可见照明。紧挨着设备用户的个体可能完全不知道眼球信号正被利用。
眼球信号语言
为了描述用于眼球信号控制的范例,开发并将特定意义指派给新术语是方便的。特别对于不熟悉眼球的神经控制或生理运动的那些人而言,这个术语许可眼球信号的更简明描述并且可能是更有意义的。下文是这些术语的列表:
“可交互对象”是可在显示器内查看的可能与图标类似的虚拟对象。图标是它们被用来在最小显示区域内传达意义的GUI的区域内的熟悉概念,可以是可选择的,并且常常是语言无关的。在本申请内,除了可交互对象选择过程涉及一只或两只眼球之外,“可交互对象”也能够被用于类似目的。
可交互对象的一个形式涉及以吸引注意和/或传达意义的方式标记或者加标签于真实对象。例如,在增强现实显示内,一个或多个字母数字字符、光晕、光标、箭头或其它符号可以被叠加在特定对象上或者与特定对象相邻的显示内。这些可以向设备用户指示被指派给对象的特定意义,使得它能够被(以与虚拟图标相同的一般方式)包括在眼球信号语言中。作为示例,光晕能够被放置在物理灯开关周围,使得它可以是动作(例如,打开)的对象或者人的名字能够被显示为与该人的(真实)面部相邻,从而允许文本或邮件被发送到使用眼球信号语言的那个人。
“选择”是使用一个人的眼球的对象的选择。对象可以是:1)被查看的(例如,与显示器相邻或者通过半透明显示器(指示使用刚刚所描述的相同技术来给可交互对象作注解)查看的)真实世界中的实体。这还能够包括在一个或多个远程屏幕(TV、计算机显示器、标牌等)全息图或其它远程虚拟或物理可见构图上查看的对象或图形;2)由面向外相机捕获并且然后在可以为远程或可穿戴的显示器上查看或者增强的真实世界中的实体;或者3)在诸如用来发起诸如与文本、电子邮件、地图、天气预报等相关联的那些的应用的那些显示设备的显示设备上查看的虚拟对象(例如,可交互对象)。
随着设备用户审视他的/她的可查看环境,能够被拾取的对象在被查看时通常被以某种方式加亮或者变更,从而提供实时地指示凝视方向的有价值的用户反馈。在对“激活”可交互对象的扫视之前的最终眼球查看位置(参见下面的“进行”)是“选择”的位置。激活使动作被执行(对所选择的对象,如果该对象需要执行所选择的动作)。术语“选择”能够被用作指代已被选择的对象的名词,或者用作指示选择对象的过程的动词。
在实施例中,眼球信号语言内的常见序列是对正被查看的对象施加动作。换句话说,动作在指定对象之后被指定。在眼球信号语言内的罕见实例中,在指定一个或多个对象之前指定动作的分量可能是有利的。作为示例,在下面所描述的连续激活模式允许重复地对一个或多个对象执行动作。在这种情况下,能够首先指定动作(或动作的至少某个分量)。
“看”是经由扫视眼球运动将眼球从真实或虚拟对象(即,从扫视启动位置)移动到另一对象(扫视落位置)的过程。如先前所描述的,扫视是眼球的快速的弹道运动。“看”的有意性质及其快速地覆盖大角距离的可能性(当需要时)在眼球信号控制的快速形成期间是特别有价值和重要的。
与看相关联的扫视可以是反射的、扫描或记忆引导的。看能够包括跟随大距离扫视以在目标位置上磨练的小校正扫视。看的关键特征是实时地在算法上辨识看的发生的能力,使得在看的路径中(即,不在启动或登录地点处)的可交互对象或其它对象未被选择。看允许未必彼此相邻的两个对象或过程在眼球信号的形成期间关联或者连接。
“进行”是激活目标。从“选择”到“进行”目标的看是选择或激活由用户预定的指示。“进行”可交互对象可以位于固定的(即,为有经验的用户所知的)位置处,使得能够在眼球信号形成期间使用记忆引导的看。有经验的用户学习除了在选择或激活是期望的时之外避免查看“进行”位置。
眼球信号语言内的控制事件的序列显著地与基于手势的控制系统不同。差异因为在系统设计内眼球被不变地用来进行日常活动并且它们容易地执行诸如扫视和平滑追踪的仅特定类型的运动的清楚接受而出现。在简单术语中,这个转化为“让眼球做它们自然地做的事情”的原理。
与基于手势的系统的一个差异是“对象”和“动作”耦合在一起的序列。在其它系统中的许多手势序列中,动作(例如,改变颜色、删除)被首先指定并且然后应用于一个或多个对象。当使用眼球信号语言时,识别了对象被无所不在地查看。如果动作将被执行,则该动作通过扫视或者从例行观察中的对象到发起动作序列的位置(即,“进行”)的“看”来发起。照此类推,如果对象是“名词”或“主语”并且动作是“动词”,则在眼球信号语言中,名词/主语优先于动词(即,与英语语言的常见次序类似)。
这个序列利用大多数眼球运动的审视性质。我们经常使用我们的眼球来“查找要做的事情”。如果序列为:1)查找对象、2)选择动作、然后3)重新定位动作将被施加到的对象,则浪费眼球运动。替代地,在眼球信号语言中,能够立即对在我们的真实或虚拟世界中(即,通过到激活位置的单个扫视眼球运动)查看的“可行动的”任何事情施加动作。
真实或虚拟对象是“可行动的”知识加强用户反馈的重要性的观念。反馈对于设备用户不感到“迷失”来说是极其重要的。在下面所描述的用户反馈的示例中,同样重要的是,反馈其本身不干扰眼球的正常操作。因此,例如,在可行动的虚拟对象周围的外形或者在虚拟现实系统内的真实对象周围的光晕的特性(例如,大小、厚度、位置、颜色)被仔细地选择,以便不使正常的眼球运动分心或者中断。
在这些条件下当查看世界时,有经验的设备用户使用到记忆位置的记忆引导的扫视来发起动作。那时,附加屏幕提示或对象移除被非常仔细地定时(在毫秒范围内)和控制(以吸引或者不吸引注意),以当附加交互被执行时引导或者“保持”眼球。此外,因为快速眼球运动在毫秒的时间帧中发生,所以为了舒适操作眼球信号动作反馈必须在同一时间帧中。
在另一个示例性实施例中,用户能够通过执行所谓的“斗鸡眼”动作来指示有意的“选择”或激活。除非一个人正在观察极其靠近面部的对象,否则一个人的眼球的内斜视是清楚地可识别的且有意的动作。这能够作为替代激活动作被结合在眼球信号“语言”内。然而,一个人的眼球的频繁内斜视能够被感知为使人疲劳的。因此,眼球信号语言可以将很少使用的动作指派给使一个人的眼球内斜视。例如,短暂的内斜视能够被用来“回到”前一个菜单选择并且延长的斗鸡眼动作能够被用来将设备重置为“起始”状态。
“追踪”是用于指示激活或动作由用户预定的附加机制。“追踪”是围绕人类眼球使用平滑追踪来跟随对象的能力而具体地设计的。能够在两个功能模式中的一个下使用“追踪”:1)如果N取1选择是期望的,则两个或更多个图形元素被以恒定速度径向向外投影,从而远离原始目标位置的近似中心位置移动,或者2)如果不需要选择(仅激活),则目标追踪可交互对象其本身可以远离其原始位置移动。在一定时间段和/或距离内跟随追踪对象导致激活。在达到阈值时间和/或距离之前远离平滑追踪的扫视(或者在罕见情况下,前庭眼或辐辏)眼球运动在没有激活的情况下终止眼球运动序列。所有运动被仔细地控制(例如,角速度被很好地维持在30°/秒以下),使得能够经由平滑追踪、神经调节机制查看它们。
在N取1选择的情况下,术语“追踪对象”被用来随着N个个别子可交互对象或对象从原始目的位置向外以类似输送机的方式平滑地且连续地移动而描述它们。在选择的距离上(可能也考虑时间)跟随N个“追踪对象”中的一个的过程被用来识别做出N取1(其中N是投影追踪对象的数目)选择和激活的用户意图。N取1状态的有意的用户选择主要通过平滑追踪眼球运动的方向来传达。这个区别在简化辨识用户跟随追踪对象的意图所必需的过滤和处理时是重要的。这可以与为了安全或其它控制而需要系统辨识用户的凝视正在跟随特定路径对比。本文中所提出的方法在广泛适用性情况下更简单。
当经由平滑追踪跟踪单个追踪可交互对象时,可能存在眼球信号控制的两种模式:1)离散,或2)连续。在离散模式的情况下,一旦在选择的距离上基本上连续地跟随运动追踪目标,然后就满足激活准则并且设备对选择做出响应。在连续模式下,由眼球随着其跟随追踪可交互对象(即,一般地相对于其起始位置)而跟踪的距离被用作可用于算法控制(与典型GUI中的“滑块”控制类似)的基本上连续的“量度”或标度。
以编程方式,连续模式也可用于通过指定动作中途停止。例如,根据移动的距离,页面可以在用户把目光从追踪可交互对象移开时在书阅读应用内保持在部分地移动的位置中。这个动作可以被称为用户的眼球“跳过跟踪”以使将以其它方式通过用户对对象的持续追踪而继续的某个活动慢下来或者停止。这以自然方式给用户提供实时的粒度控制。在这些情况下,可以提供用户的眼球“跳”(即,作为扫视而移动)到的特定目标。可以或者可以不包括用户必须看着特定目标的要求。
在平滑追踪期间,当眼球(以及关联的追踪对象)达到终止位置时,只要终止位置的区域被查看程序就可以重复所选择的操作。以编程方式,这通常被称为循环或重复结构。与循环或重复次数有关的视觉指示能够被显示在终止位置处。这是眼球停留时间起显著作用以传达用户意图的几个实例中的一个。图10的下面板中所图示的在阅读文本的同时控制多个翻页的过程是通过眼球注视控制的“循环”或“重复”过程的示例。
在追踪过程期间,如果用户不跟随运动可交互对象或追踪对象,或者如果用户在已遍历足够的距离之前向另一位置看,则不发生激活。与扫视眼球运动对比,个体基本上连续地查看并感知到什么正在平滑追踪期间被跟踪的能力是基于追踪的眼球信号的关键元素。追踪对象一旦被激活就可能消失或者在未被跟踪的情况下在短时间/距离之后消失或者逐渐消失。一旦特定追踪对象正被跟踪,几乎被跟踪的追踪对象就可以消失、逐渐消失或者为半透明的和/或很少可见。
作为另一个实施例,追踪对象能够不仅在由水平(即,X方向)和垂直(即,Y方向)轴限定的平面中操作,而且在使用了用于确定设备用户的焦点距离的方法的第三维度(即,Z方向)上操作。这些方法包括双目辐辏或者评估组成眼球的左和/或右透镜的曲率、厚度或其它几何形状。能够使追踪对象似乎朝向或者远离设备穿戴者移动。能够基于设备穿戴者是否在Z方向上有意地跟随虚拟运动来推理设备穿戴者的意图。
还能够按照X、Y和Z方向的任何组合来组合追踪对象的有意跟踪的检测。当使用所有可用的维度时,追踪对象微粒似乎在所有方向上“爆炸”,从而允许用户跟踪单个微粒以做出N取1选择。
“显露”是与进行不同不需要优先于选择的目标可交互对象,虽然它能够优先于从与“显露”相关的追踪对象起的看。“显露”可交互对象的特殊实例是“主显露”。这个“显露”被放置在可被用户在所有(或大多数)屏幕上可访问的固定的(即,为有经验的用户所知的)位置处,并且例如,可以提供对“起始”、“返回”、“设定”和/或“菜单”可交互对象的访问。在查看“主显露”可交互对象时,附加可交互对象能够被进一步“显露”或者叠加在现有显示上。
主显露的关键方面是一旦用户看一下主显露就显露的可交互对象的显示的时间控制。经显露的可交互对象仅可在短时间段内查看。在指定的时间段内查看(一般地经由看)附加“显露”可交互对象中的一个的失败使附加可交互对象逐渐消失或者消失,从而导致无选择。设备用户的意图通过对主显露可交互对象的初始查看、然后在固定时间段(一般地少于1秒)内向经重新显露的目标可交互对象中的一个“看”来辨识。
如在下面更详细地描述的,显露特别可用于提供对附加选择和/或信息的上下文访问。主显露可交互对象显露不需要任何附加选择信息的可交互对象。从主显露到经显露的“起始”或“返回”可交互对象的看立刻激活所选择的可交互对象。
在通常依赖于上下文(例如,检查占去显示器的大部分的图像)的一些情况下,一定量的“摩擦力”能够被添加到诸如“返回”可交互对象的一些菜单选择过程。这能够例如通过使与可交互对象相关联的凝视选择区域变得更小来实现。上下文敏感定制是用于尤其在密集显示内避免不注意的激活的数个策略中的一个。
显露本身可以被嵌套或者分层,其中重新显露的可交互对象用其它(一般地不同的)显露可交互对象替换。显露图标的这个嵌套能够针对任何数目的层继续。在每个层内,所选择的显露可交互对象可以用“返回”功能和关联图形替换。这个方案许可多个“返回”操作以优雅地返回到先前显示的分层的显露层或组。此外,如在下面更详细地描述的,用户总是能够通过使用通过主显露所触发的“起始”可交互对象来返回到顶级(即,起始)菜单。可交互对象的显露分层和上下文敏感显示使对可用于基于眼球的选择的显示不动产的使用最大化。
“显露”是由此能够随后被立即(在应用不需要其它信息的情况下)或者紧跟菜单显露功能被应用于的位置或对象的后续选择之后应用的功能(在一些基于手势的GUI中常常被称为“工具”)被选择的过程。
另一类型的显露是“菜单显露”。菜单显露在正从大量可能的选择中选择功能的情况下是特别有用的。这与在存在包括“起始”和“返回”的少量频繁地使用的选择的情形下有用的主显露形成对比。与主显露不同,菜单显露和其它显露不是时间相关的。
典型的(非主)显露选择过程通过将上下文敏感的一组显露的可交互对象作为初始选择可能根据占据了滑动条之间的中心显示区域的内容(例如,图片、文本、apps)的菜单来呈现而开始。菜单项目通过叠加(例如,半透明的或不透明的)在这个中心显示区域上被展开。菜单选择能够由设备用户审视(再次,在没有时间约束的情况下)。然后能够使用上面所描述的经建立的看且进行序列来选择个别菜单显露。在其它情况下,可以通过从其向显示器中或在别处的对象(诸如在真实世界中查看的对象)“看”来激活显露的菜单可交互对象。
这些显露步骤内的转变对于令人愉快的用户体验来说是特别重要的。改变选择的不透明度和/或移动显示的片段使得眼球自然地跟随到新选择菜单是这些转变的示例。相反地,涉及对象尤其在多个位置中同时出现或者消失的突然改变一般地被感知为在视觉环境内刺目且使人疲劳。
菜单显露选择导致与下拉菜单(其在许多其它GUI中是熟悉的)类似的菜单的显示。当菜单项目被选择时,能够立即将包含了原始(即,选择的)菜单显露的区域变换成“返回”按钮,从而允许用户颠倒选择并且/或者往表示菜单选择的过程的树结构上爬。
能够重复子菜单选择过程任意次数,从而允许用户从(理论上)可能是无限大的选择的池中选择。通过对菜单和子菜单结构的战略选择,能够在有限的屏幕显示不动产内(例如,在无需屏幕滚动的情况下)生成可交互对象的上下文敏感显示。一旦菜单显露已被选择并激活,显示就返回到其原始状态(诸如图片或文本的正文)并且能够应用并视需要重新应用通过经显露的可交互对象所表示的操作(例如,放大)。
在各式各样的其它菜单选择设备上采用的GUI内普遍存在的工具是所谓的“拖放”。由于眼球运动的生理约束,眼球信号语言必须以不同的方式处理“拖放”功能。不能够使用弹道扫视沿着特定路径“拖”对象。类似地,平滑追踪必须由显示器(不是用户)引导。这些与能够使用诸如存在对指示设备的清楚有意的控制的手持式计算机鼠标的其它控制设备来执行的动作形成对比。
替代地,可以通过眼球运动来指定对象或区域的边缘。这利用眼球辨识边缘的先天能力。这还需要仔细的用户界面布局以在适当的选择位置处提供边缘以用作焦点(例如,其可以包括网格、点阵列或周期波形)。合成动作(即当被激活时)然后能够考虑当前的眼球选择以及一个或多个先前的眼球选择两者。用来使用眼球信号描述这个过程的(区分)术语是“取放”。
表1概括了可经由这些眼球信号得到的功能或编程元素中的一些。这些元素由应用开发人员用作利用在眼球信号上构建的外壳框架(shell framework)的iUi GUI构造的“原语”或构建块。
表1眼球语言原语操作
眼球信号序列的其它示例性组合包括:1)选择区域:通过跨越作为框架呈现的网格上的交叉点的合集执行一系列看以对照可能的均匀背景(对眼球注视来说不友好)来使得能实现选择并且从最后点向进行看。可替选地,在一个可交互对象处开始,沿着多个点向对可交互对象的最终看触发选择并且经由多个区域加亮来指示选择的最终位置看。2)在文本的区域的选择期间,向显露看;向“文本选择”显露的可交互对象看;向选择的第一个单词看并且可选地向中间单词看;向最终单词看;向文本选择(或者“删除文本”、“替换文本”或其它文本可行动的可交互对象)看。当向“替换文本”可交互对象“看”时,用户可能利用针对所选择的一个或多个单词的显示的即时替换说能够由麦克风捕获以用于语音到文本转换的替换单词。
眼球语言的一般“语法”适用于许多眼球跟踪平台。眼球运动和交互图案能够使用包括不引人注目的相机的基于头饰的设备(诸如在本文中别处所描述的系统)来辨识。头饰可以包括虚拟现实、增强现实和/或其它近场显示器,和/或远离头饰的一个或多个显示器。眼球运动和图案还能够使用包括嵌入在手机、平板、膝上型计算机以及台式计算机内的那些的非头戴式相机来辨识。
还能够使用在诸如经由USB(通用串行总线)、无线地(例如,经由Wi-Fi或蓝牙)连接的那些的处理单元“外围”、附加到汽车的仪表板、安装在电视或其它显示器附近、附着在标牌内以及其它眼球成像配置的眼球跟踪相机。还能够从相机辨识眼球运动和交互图案,所述相机基于来自镜面的反射从反射选择的波长的表面(例如,所谓的“热反射镜”)、光纤图像导向装置、直通透镜以及能够传达一只或两只眼球的图像的其它光学配置对眼球的区域进行成像。包含在iUi GUI(用户界面)中的语法和眼球信号可以是相关的、有用的,并且/或者被部署在这些场境中的任一个中。
通过头运动补充的眼球信号
眼球信号语法能够可选地通过跟踪小头运动或“点头”来增强。以与扫视和平滑追踪类似的方式,有意的头运动是眼球运动的自然的(即,舒适的)扩展。事实上,在凝视方面大于大约20°的任何移位(但是这个值从个体到个体广泛地变化)通常与头运动相关联。这可能在没有显著有意识的努力的情况下在日常活动期间例行地发生。已经研究了涉及扫视关联的头运动的大脑的不同区域,其中例如,在倾向上生成头运动的(知之甚少的)差异根据年龄而变化。
加速度计通常被嵌入在可穿戴设备内。基于头戴式多轴加速度计的输出相对于地球的重力场的加速度和定向能够提供关于相对头运动的信息。当与前庭眼眼球运动的眼球凝视方向和跟踪耦合时,能够辨识参考被查看对象的绝对头位置和运动。这提供用于将头姿势与眼球信号控制集成的车辆。
用来传达意图的小、有意的“点头”能够基于1)运动的相对较小的幅度、2)运动速度以及3)运动在眼球正在查看不动位置(例如,可交互对象、真实或虚拟对象、边缘、点)的同时的性能与典型的头运动区分开。这些头运动利用前庭眼眼球运动(先前所描述的四种基本类型的眼球运动中的一种)。
如上所述,前庭眼运动是纯粹反射的,通过与头的运动相同的旋转来移动眼球,但是在相反方向上。这被用来使外部世界到眼球的中心凹区域上的图像稳定。因此,尽管前庭眼运动其本身是无意的,然而产生前庭眼运动的头的运动可能是有意的。因此,这些头运动能够被用作在眼球信号语言内传达用户意图的一个分量。
当关于如何使用点头来传达意图而指示个体时,使用表达“用你的鼻子指”有时是有用的。换句话说,当看着对象时,如果一个人利用一个人的鼻子在一方向上点头(即,使眼球在相反方向上移动),则一个人能够基于一个人的鼻子的运动方向(例如,左、右、上、下)来传达意图。
“点头”可以返回到其原点或者它能够以与追踪对象类似的方式在给定方向上继续(参见上文)。在四个方向:1)左、2)右、3)上或4)下中的一个上生成头点头是舒适的。利用稍多的努力,一个人还能够在以下四个附加方向上生成点头:1)左上、2)右上、3)左下或4)右下。点头的“幅度”(即,运动的范围)还能够被用作特定动作的“幅度”的连续可变控制。
装备有这个灵活性,能够以许多方式在眼球信号内识别和结合点头。首先,点头的存在能够被用作“激活”的指示。这些有意的头运动的存在能够基于运动范围、速度、方向以及用户界面上下文与头的其它运动在算法上被区分开或者被过滤(例如,参见图4)。在一些眼球信号序列中,这能够避免对于用于执行“激活”序列的眼球的扫视或其它运动的需要。
第二,头运动的方向能够被用来做出N取1选择,其中N可以是二与上面所描述的至少八个不同的方向(即,1)左、2)右、3)上、4)下、5)左上、6)右上、7)左下或8)右下)之间的任何值。例如,一个人能够使用单个点头来从一周的7天的选择中取一个选择以便查看事件的日历。作为另一示例,一个人能够通过上或下点头来选择“是”回答,或者利用向左或右的点头选择“否”。
第三,点头的幅度能够被用来指示特定动作的幅度(即,在非离散模式下)。例如,一个人能够使用点头的方向和幅度两者来对图像、对象的大型表或地图执行“摇摄(pan)”功能。点头的幅度越大,所显示的摇摄运动越大。
第四,点头能够包括旋转。旋转可以是在顺时针或逆时针方向上。在一定程度上,头旋转能够被分级(即,较大的或较小的)。头旋转一般地未被很好地反映为眼球的旋转(Listing定律的分量);然而,能够通过包括附加到头的相机、加速度计或者能够查看面部或头的远程相机中的总体场景旋转的其它手段来检测它们。
第五,能够重复点头任意次数。根据场境,这能够被用来重复单个动作许多次或者用来指示从扩展菜单(例如,在由八个不同的点头方向所指定的一个外)中选择动作。前者的示例将对图像(例如,图片、地图)重复地放大,只要在上下方向上发生点头即可。能够类似地实现缩小,只要发生左右重复点头即可。在其它场境中,例如当读书时,左右点头能够被用来控制在书中翻页的方向(即,在左对右方向上的第一次点头)和速度(左右点头的数目)。点头姿势中的最复杂的能够被保留用于不太使用的但是重要的功能,诸如后面是将设备置于低功率或“睡眠”模式下的两次上下点头的两次左右点头。
眼球跟踪的对象信号
在另一实施例中,一个人能够颠倒使用虚拟对象来触发或者发起动作的常见角色。例如,面向外相机能够跟踪在用户的视场中在大约10°至20°的范围内移动的伸出手指。一个人能够在跟踪真实对象时应用支配追踪可交互对象的跟踪的相同的眼球跟踪规则。当例如足够范围的被跟踪手指运动已发生(即,对于需要更夸张的运动的应用来说小于10°,但是更典型地小于1°)时,系统能够启动照片的动作(例如,拍摄)。手指的属性(例如,它正指向什么、是否弯曲)能够被用来帮助确定哪一个动作被执行。
在设备用户的视觉视场内放置和使用手指(或可由用户控制的任何其它对象,诸如指示器、灯、激光束、手持式对象等)能够帮助辨识意图。例如臂、手和手指的运动是纯粹有意的(但是它们可能与非关联的活动有关)。因此,使用一个人的眼球来根据运动以及被承载、指向等的对象来辨识意图可能更容易。在设备内当被配置用于真实和虚拟对象的不同的激活角色时还可能在功耗方面存在差异。环境中查看的对象与眼球信号的耦合是有用的特征,在下面进一步描述。
除看着环境中的真实对象之外,用户也能够选择环境内的显示器或屏幕内的其它虚拟对象。这些显示器能够包括智能手表、医疗保健装置上的屏幕、工业屏幕(在制造装置内)、电视等。用户能够利用可穿戴屏幕上或者这些远程屏幕中的任一个上的显示反馈来执行眼球信号。
图2A和图2B示出眼球跟踪的对象信号的示例。在这个图示中,设备用户的凝视位置由星232来指示。与特定动作相关联的真实或虚拟目标由十字瞄准线230来指示。如图2A中所图示,即便当手指231碰巧与激活目标230相邻时,只要设备用户不具体地看着手指231,就不会发生激活。另一方面并且如图2B中所图示,当用户看着手指231并且它在激活目标230附近时,发生激活。
通过语音补充的眼球信号
能够通过将语音包括在命令序列内来大大地提高多模态眼球信号的便利性和效率。用于将用户的语音转录成例如文本的检测和能力在与眼球信号一起使用时是特别强大的组合。发声和/或其它形式的人机控制与眼球信号自然地交互。一般而言,眼球信号的制定可以被用来指定动作的形式以及动作何时将发生两者。发声然后可以为这些目标动作供应一个或多个“主体”。
这能够通过使用语音识别来生成所谓的“文本消息”并且然后使用眼球信号和发声的组合来对该消息做出校正的示例来图示。眼球信号被首先用来向设备指示用户的语音将被转录成文本。语音输入的开始和结束两者在眼球信号控制下。这允许单词的任何组合被转录。换句话说,不存在可能使转录中断的关键单词或短语。使用眼球信号的后续序列,能够利用眼球指定文本内的地方以用于校正或插入。再一次,使校正发声(包括拼出校正的可能性)是通过发声和眼球信号的同时应用来控制的。
具有协同语音命令输入的眼球信号控制与眼球可能简单地被用来凝视或者指向(在基于非信号的模式下)在作为命令的一部分时制定的对象的语音控制不同。基于非眼球信号的语音激活一般地需要关键单词或短语的使用。为了避免不注意的激活,必须在正常会话期间避免这些单词或短语。发声类似的短语和/或由附近的另一人说的单词是不经意的语音激活的附加源。
附加地,当一个人正在给设备提供任何形式的自由形式口头输入(例如,用于电子邮件消息的短语)时,需要自由形式输入已结束的某个指示。这常常通过检测延长的暂停或特定关键词或声音来实现。再一次,这经受不经意的终止,因为例如语音的暂停能够指示一个人正在简单地考虑主题。眼球信号的有经验的用户简单地通过看着只有当激活或完成是期望的时才表示激活或完成的位置来避免不经意的激活。
描述具有协同语音输入的眼球信号的优点的另一方式涉及将眼球信号视为指定1)做什么(即,动词)以及2)何时执行动作两者。语音是用于帮助执行动作的数据的附加源(即,主体)。这与在设备必须总是侦听某种形式的警报或动作短语(即,动词)的情况下单独利用语音命令发起动作相反。在语音命令时通过眼球查看的位置或对象变成补充输入。
音频的这种眼球信号调用的滤波在可能存在具有仅偶尔的语音的高环境声音时也是有用的。总是在侦听的系统比通过简单的眼球信号激活的系统消耗更多的功率,特别是当眼球跟踪系统采用低功率方法(在下面描述)来确定眼球何时凝视显示位置时。
经由眼球信号来指定动作还避免与口头动作控制相关联的歧义。对眼球信号菜单的仔细选择允许设备致力于执行特定(即,明显的)动作。相比之下,使用诸如“查找Jane”的口头命令的请求不向设备提供“Jane”是否将作为文本的正文内的单词、使用一组图像内的面部识别、作为音频记录内说的名字被找到、Jane物理上位于哪里、是否显示关于Jane的重要个人资料等的指示。
通过其它模态补充的眼球信号
在其它实施例中,眼球信号可以与其它输入模态组合以控制设备动作。这些模态可以包括诸如摇动、倾斜或倚靠的头运动(例如,指示“是”、“否”、兴趣、惊讶、反射);肌肉抽搐和运动,(其中相机被安装面向眼球/头/面部);利用适当的面向外相机的手运动和手势;利用适当的音频、力或运动传感器的上颚运动和磕牙;以及诸如键盘、鼠标和触摸屏的传统计算机输入设备。
眼球信号与其它人机控制模态自然地且协同地交互。例如,个体需要很少或没有训练来学习指向手指或者看着灯开关并且发声“打开”或者执行诸如微笑的动作(相反地,利用皱眉来关闭)。用一个人的眼球指以及动作的识别的组合能够被容易地理解并推广到其它情形。对于设备用户而言随后审视家庭或办公室并且开始执行命令(例如,举起指向恒温器的眉毛以“升高温度”或者在查看门锁时说“开门”)将是直观的。使用眼球凝视的控制能够增强许多其它设备的正常操作和动作。
感测到的信息的另一强大的组合可通过收集由FACS作为主动作单元(AU)的一系列“代码”所指定的数据、头运动、眼球运动、可见性状态(面部的区域的,由面朝内相机、面向外相机以及惯性测量单元来确定)和总体行为来实现。考虑到确切地知道用户在凝视什么的附加场境,这个信息然后能够与时间同步的凝视信息合并以提供有关情绪状态和用户意图的大量信息。这进一步支持通过在本地在可穿戴头戴式显示设备上或者远程地在世界中的任何设备上发起活动来将用户意图变换成动作的目标。
用于辨识有意的眼球运动的算法“过滤器”
在眼球信号的形成期间,算法过滤器利用所有基本类型的眼球运动的生理基础:1)扫视(记忆引导的或视觉引导的);2)平滑追踪(包括在适当的生理速度下的对象跟踪);3)辐辏(利用双目眼球跟踪来在对象选择期间产生第三维度);以及4)前庭眼(结合点头选择)。
附加地,在组成眼球信号的一系列眼球运动期间,间隙效应能够被用来以释放眼球运动并且加速眼球信号的方式移除对象在视场内的出现;当导致眼球动作的目标位置被查看时,“熟悉的”缩略图能够作为用户反馈被显示,从而需要减少的视觉处理以及到附加动作的更快速转变;与变化盲相关联的技术被用来在不吸引注意的情况下引入对象;对象被定制(例如,大小、亮度、相对于背景的颜色、对比度、不透明度、细节、重复屏幕位置)以调节在更改视场时由视觉皮质产生的注意的程度;并且对象的定时和特性被以依赖于用户的凝视方向及其关联的中心凹、旁中心凹和外围视图的方式进一步定制。
这些生理概念也被用来控制对象何时、在哪里并如何在眼球信号的形成期间被引入到视场中或者从视场移除。
本文的系统和方法的基础是眼球运动的生理基础和限制。如先前描述的,能够在有意的控制下直接地或间接地执行的最常见类型的眼球运动是:1)扫视、2)平滑追踪、3)辐辏以及4)前庭眼。使用从一系列眼球图像确定的眼球位置数据,算法“过滤器”能够被构造成实时地识别并区分扫视或平滑追踪眼球运动的存在。
扫视过滤器主要依靠扫视是快速的事实。事实上,如先前所提及的,扫视是在人体中具有多达每秒900°的角速度的最快速运动。扫视速度剖面是弹道的,其中(多达大约60°的位移)峰值速度是行进距离的线性函数。例如,10°扫视具有粗略每秒300°的角速度,然而30°位移的峰值角速度粗略是每秒500°。
在本文的系统和方法内基于扫视实现眼球信号的一个方面是在没有被沿着两个位置之间的视觉通路的对象干扰的情况下明显地耦合或者连接位于观察者的视场内任何地方的两个位置(即,扫视启动位置和扫视落位置)处的虚拟或真实对象的能力。通过执行一系列扫视,能够在有意的用户控制下逻辑上连接任何数目的对象或位置以辨识意图。
扫视运动比与平滑追踪相关联的最快运动快一个数量级。这个速度差异是平滑追踪过滤器内的关键区别。平滑追踪眼球运动的总体方向和速度还必须和在观察中的对象的速度剖面匹配(除非观察者已受到密集训练以避免此)。因此,平滑追踪能够容易地基于速度与扫视区分开,并且基于与显示的或真实对象的速度剖面相比是否存在匹配而与其它眼球运动(即,辐辏和前庭眼运动)区分开。
更具体地,当查看慢慢地移动的对象时,能够在约100毫秒的等待时间之后通过对象的紧密跟随来识别平滑追踪。平滑追踪一般地在小于大约每秒30°的角速度下被识别;但是可能发生稍微更高的速度,特别是在水平方向上。在比可能后面是平滑追踪的那些(所谓的“急起直追扫视”)大的对象运动速度下由人类用来跟踪环境中的对象。这个扫视-注视序列基于扫视序列的总体速度以及开始/停止速度剖面容易地与平滑追踪区分开。
在本文的系统和方法内实现平滑追踪过滤器的另一方面是明显地确定用户何时在有意地跟随屏幕上的特定对象的能力。通过将意义或目的指派给能够在屏幕上四处移动的不同对象,能够通过测量哪一个对象(若有的话)正被跟随来辨识用户意图。这个方法在存在在屏幕上四处移动的N个“可跟踪的”对象的情况下选择N个状态中的一个(或跟踪任何对象的缺少)时是特别强大的。
图3示意性地图示用于识别扫视和平滑追踪眼球运动的算法方法。当在330处获取了眼球的新图像时,它被添加到在331处眼球图像和/或策略测量结果的先进先出(FIFO)缓冲器。在332处从331处的FIFO缓冲器丢弃最旧图像和/或测量结果。在333处基于图像内的眼球跟踪测量眼球速度。如果在334处眼球速度大于扫视运动的最小阈值(通常为每秒30°),则在335处系统表示已发生某种形式的扫视运动。如果在335处在一般地在中心凹视图内(即,在约1°至3°内)的距离上发生了扫视运动,则在336处眼球运动被记录为微扫视。另一方面,如果在335处由眼球行进的角距离大于这个范围,则在337处事件被注册为扫视。
如果在334处眼球运动的速度小于扫视运动的阈值并且在338处运动(若有的话)在中心凹视图内,则眼球基本上不动并且在339处事件被记录为注视。另一方面,如果在310处眼球正以和真实或虚拟对象的速度和方向匹配的速度和方向行进,则在311处位移被分类为平滑追踪眼球运动。
另一类别的眼球信号是使用双目眼球跟踪来检测的“辐辏”。即使辐辏眼球运动一般地是反射的,用户也能够有意地控制哪些对象(即,定位在不同的距离上)正被查看。因此,存在对用户的辐辏的间接控制。
辐辏信号一般地比平滑追踪慢(特别随着一个人变老,由于诸如远视眼的条件而导致),但是随着一个人利用用于与对象交互的三维调色板工作而提供非常的灵活性。辐辏控制难以在没有目标的情况下实现,但是在当存在大场深度(即,附近对象,诸如窗户的玻璃上的灰尘,与沿着相同视线的远方对象相对)时的情形下存在对焦点距离的某种程度的连续控制。
重要地,一个人能够考虑利用双目显示器(即,每只眼球一个显示器)呈现的一组对象,使得对象随着凝视而对焦和失焦(可能通过双目地跟踪辐辏来控制),使得用户能够在平面上的对象当中看或者追踪并且在不同距离/深度上呈现和感知到的平面上的对象之间“变焦”。辐辏运动限于多达约每秒25°的角速度。对在不同深度下的虚拟对象的选择字面上将新维度添加到对象选择调色板,从而大大地扩展能够被显示和/或选择/激活的对象的数目。
前庭眼眼球运动还响应于头运动被一般地认为是反射的。然而,头运动本身是频繁地有意的,特别是当设备用户集中于一个对象时。因此,存在对用户的前庭眼眼球运动的间接控制。
图4示意性地图示用于区别辐辏和前庭眼运动的算法方法。在辐辏运动的情况下,必须考虑来自右眼球430a和左眼球430b两者的眼球位置测量结果。如果右431a眼球位置或左431b眼球位置在设备用户的中心凹视图内(与先前的眼球位置测量(未示出)相比),则不进一步考虑辐辏或前庭眼运动。如果运动超出中心凹视图,则针对右眼球433a和左眼球433b计算速度。同时,在432处使用加速度计、图像在场景相机内的总体运动或其它方法来确定头位置。如果在434处头运动不明显,则不做出进一步比较。否则,基于432处的头位置来计算435处的头速度。
如果在436处右眼球和左眼球在同一方向上移动并且这个方向在437处与在运动大小方面具有近似对应的头的方向相反,则在439处眼球运动被分类为前庭眼。如果右眼球和左眼球在436处按粗略相同的运动大小在相反方向上移动,则在438处眼球运动被分类为辐辏。
在算法上识别表达用户意图的眼球运动的另一策略是同时识别也不与传达意图相关联的眼球运动。一旦被识别,就能够在有意的眼球运动的总体解释中忽视、减去或者以其它方式说明这些运动。例如,高频率振荡或震颤(生理眼球震颤)被叠加在几乎所有形式的注视上。这些振荡在视网膜受体上使图像位移,从而使边界附近的新鲜视网膜受体恢复并且每隔0.1秒在两个相邻的中心凹锥之间近似地移动该距离。
除“正常”(即,非病态)过滤器之外,算法过滤器也能够被构造成区分和识别不与有意地传达意图相关联的病态眼球运动。再一次,能够在有意的眼球运动的总体解释中忽视、减去或者以其它方式说明这些运动。例如,每秒3至6次循环振荡与帕金森震颤相关联。精神分裂症可能导致眼球肌肉的僵硬和/或痉挛。最近已表征了在视觉刺激的预期阶段期间具有注意力缺陷多动障碍的个体中的无意的眼球运动。沿着类似的路线,包括酒精的药品和其它药物可以影响眼球运动(以及眼睑运动),从而可能强迫用于辨识有目的的眼球运动的一个或多个准则在这些条件下被更改。
附加地,一些眼球运动图案(诸如与癫痫或脑震荡相关联的那些)可以指示对于中间医疗救助的需要或对于特定药物治疗(例如,胰岛素)的需要。设备能够发起用于自动地呼叫医疗协助并且/或者向用户报警需要药物治疗或其它动作的步骤。用于辨识正常和病态眼球运动的算法过滤器也可能是个体的健康状况的长期监视中的关键要素。这能够包括监视各式各样的神经肌肉、眼科或中枢神经系统紊乱;以及作为年龄的函数的眼球运动和行为的“正常”进度。
本文的系统和方法的另一特征是它们一般缺少对用于辨识意图的停留时间(除执行如先前所描述的重复结构的情况之外)或延长的眨眼的依赖。许多商用的眼球跟踪系统需要用户集中于虚拟对象(即,停留)达一定时间段或者作为用于指示意图的选择过程的一部分眨眼。停留需要感知(需要大约0.25秒)和焦点维持。常常,停留已发生的指示涉及对正被查看的区域进行放大。这在通过视觉皮质的感知期间招致进一步精神图象处理。眨眼花费甚至更长的时间段,从而需要复杂的一系列肌肉收缩。眨眼的最小时间是大约0.3至0.4秒。
当眼球信号的分量被级联以产生可行动的选择时,延迟累积并且可能变得显著。眼球(和不平稳显示器)的不平稳运动感觉不自然,从而导致不舒适和不安。长期使用变得费力并且招致疲劳。
用于在阅读期间辨识刻板眼球运动图案的算法过滤器
作为用于辨识设备穿戴者的意图的另一个实施例,可以在观察虚拟或真实世界对象的场境中分析眼球的运动的更复杂图案。与眼球运动耦合的被观察对象的序列和/或身份的知识能够被用来识别正由设备穿戴者所执行的刻板眼球动作。除被查看对象的序列和身份之外的动作可以作为区别用户意图的分量被包括。能够在离散模式(即,在一个时间段期间)或连续模式下执行辨识这些动作和意图。
能够通过眼球运动识别的刻板眼球动作的示例是文本的阅读。当文本的正文被显示时,通过设备用户的扫视运动和短暂注视的序列能够被用来辨识正在执行阅读的过程的事实。平均来说在涉及英语语言的典型阅读过程期间,扫视运动花费20-40毫秒横跨7-9(范围1-20)个字符。注视持续200-500毫秒,允许每秒约四次阅读扫视实现。时间的约10-15%(取决于材料的困难),阅读者的眼球复归(即,移回到先前阅读的材料)。算法过滤器能够被用来自动地识别后面是注视的扫视的重复序列的系列。
脚本的位置以及用来执行阅读的方向还能够被用来识别阅读过程正在发生的事实。阅读过程的识别为用户界面提供上下文。能够随后基于正在执行阅读的事实来更改用户界面的组件。例如,在阅读期间,能够使翻页或滚动在达到显示器边界时(即,在没有特定翻页或滚动命令序列的情况下)自动地发生。
另外,针对阅读者的身体而观察和概括的或者被编纂为特定于个别阅读者的扫视标记图能够增强学生的学习简档,从而自动地记录下这些认知实例作为理解方面的困难(与阅读速度中的速率和变化、重新跟踪、暂停、包括生成注释的眼球离开页面、能够在哪里使用注视的这些眼球跟踪相关的观察和生成、交叉引用其它相关内容、失去兴趣、浓厚的兴趣、最近学习的Vigotsky区和/或故意的眼球运动(眼球在沮丧中滚动)有关)。凝视信息能够与诸如头运动(左右或上下摇头)和/或书写工具下划线、加亮或者扩展设备穿戴者的感兴趣区域的观察使用的其它感测到的数据耦合。
通过识别阅读过程期间的刻板眼球运动,还能够识别阅读可能已被跳过的任何文本和/或相反地吸引了延长注意的文本。复归次数、子发声(使用附加传感器)、扫视距离以及注视时间能够被用作对材料感兴趣和材料的复杂性两者的指示器。这些能够被用作用于识别和表征设备用户的兴趣(或无兴趣)的分量。这些表征能够被例如用来调谐搜索引擎结果,确定对指令集的理解的水平,控制内容显示的速率,对用户的诸如“重新跟踪”、流利等的阅读能力编索引。
正在阅读什么内容能够被用来进一步磨练用户界面。例如,将不必提供菜单选择以在超链接不存在于显示的文本内的情况下跟随嵌入式超链接。类似地,如果图像不存在于文本的正文内,则用于对图像放大的工具将不是必要的。不必要的用户界面工具的上下文敏感排除帮助避免不经意的激活并且能够简化菜单选择。
另一方面,如果例如正在读取一系列指令,则将有助于阅读者随着它们正被读取而使与那些指令相关联的用户界面工具变得可用。在许多情况下,像在别处所描述的那样使这些工具的目标变得“看不出地可见”(即,以不吸引注意的方式引入在显示器中)将是适当的。只要设备穿戴者继续读取指令,就能够基于正在读取什么来修改这些目标的形式和/或合成动作。
速读还能够被识别为具有与众不同的眼球运动。眼球的更少复归和更快速的垂直运动(例如,在扫描英语脚本的同时)区分速读过程。速读过程的识别能够被用来控制显示的信息的呈现的速率(例如,滚动或翻页速率)、Lexile水平和/或认知密度。
阅读期间的扫视-注视序列的一般方向和定时强烈地依赖于正被阅读的脚本的形式和结构。例如,一般地从左向右阅读英语、法语、德语和意大利语脚本,其中在达到行尾时,新行从极左处开始在下面继续。文本的句子和行被进一步组织成段落,所述段落能够在每个段落的开头和/或结尾处的文本中包括故意的间隙。
相比之下,阿拉伯语和希伯来语脚本从右向左书写。能够水平地或者垂直地书写中文、日语和韩语脚本的变例。在日语文本阅读期间,扫视运动的大小和定时基于日语文本是否被书写为形声字(即,平假名或片假名)或象形字(日文汉字)而变化。因此,必须将用于检测文本阅读的算法过滤器调谐到当阅读不同的脚本时存在的扫视运动和注视的顺序方向和精确定时。
如果显示的文本的内容不在设备的控制内,则凝视跟踪也能够被用来由设备用户识别聚焦的特定区域。这些区域可以在标牌、广告牌、电视、远程显示监视器等上。观察中的区域还能够视需要实时地由设备使用本领域中众所周知的光学字符识别(OCR)技术来“阅读”。这些文本内容能够被转移为诸如语音的其它形式并且/或者被归档以便在另一时间检索。通过设备佩戴者的凝视图案能够被用来识别特定脚本和被观察对象、观察结果的序列以及给予识别的脚本和对象的注意度的量度。
用于在检查对象的同时识别刻板眼球运动图案的过滤器
沿着类似的路线作为其它示例性实施例,能够开发算法过滤器以检测对诸如相片或艺术作品的图像的检查。已经开发了用于在查看图像时预测扫描路径的模型。在涉及这些模型的文献中对例如显着性是否与注视的持续时间相关仍然存在激烈争论。然而,通过使实际的眼球运动与通过这些数学模型预测的那些眼球运动相关,能够开发算法来识别设备穿戴者的意图是否是图像内的特定对象的密切检查。
具有机器学习的计算机视觉现在使得图像的自动化解释能够识别图像内的对象。大型计算机数据库当前被构造成允许所有对象被自动地在视觉上识别为已知对象或对象类。
一个实施例包括标记、索引或者以其它方式与个体相关联的对象、虹膜认证的凝视数据或者可由识别的用户经由眼球驱动交互模型利用与对象凝视数据库协同的图式地支持的眼球信号语言认可、访问和控制的聚合凝视数据的对象凝视数据库。
这种系统在许多场境中提供高价值。这个系统给予使人类思想和行为与和对象相关联的凝视图案相关联或者推理人类思想和行为以使得能实现人机界面的新生成的机会。
用于识别用户对静态图像内的对象的检查的可辨识的眼球运动行为的扩展是真实世界内或视频图像内的运动对象的跟踪。在这种情况下,作为时间的函数的特定对象的位置的知识能够提供对象正由用户积极地查看的附加保证。
可以利用针对由人查看的特定对象或者针对各类相关对象所记录的凝视数据针对个体来捕获对象凝视数据。还可以针对观察同一对象、相似对象的实例和/或各类对象的用户来聚合对象凝视数据。
可以在通过与增强现实或虚拟现实一起使用的交互模型所启用的基于凝视的用户界面内使用这种对象凝视数据。这种用户界面还可以是结合头运动、手运动、语音以及其它物理或可测量的大脑生成的信号的多模态。
能够通过存储在对象凝视数据库中的凝视图案的标记图来启用或者增强将用户的意图变换成通过眼球运动的动作的这种交互模型。能够针对由用户观察的特定对象来捕获和分析这些对象凝视标记图。能够通过特定对象的第一观察结果、后续观察结果和/或场境数据来对对象凝视标记图进行分类。对象凝视数据还可以被捕获并且用于类似的对象或各类对象。术语对象指代任何可识别的图像–人、地方、事物,或任何可识别的一组反射光线。
对象凝视标记图数据通知在娱乐、游戏、信息、控制、行为改变、心理或生理治疗、学习、增加的创造性、改进的体育运动表现、战斗、通信等的领域中提供重叠在用户的他的/她的物理环境的视图上的视觉刺激作为“增强现实”意象的系统之间发生的对话。
在增强现实显示中呈现图形信息时,交互模型能够确定要呈现什么视觉增强、何时呈现它以及要在用户的视场内哪里呈现它。针对一个或多个对象的一个或多个用户的前者对象凝视标记图的知识允许增强引擎放置图形,以实现所希望的凝视图案或者以避免不希望的凝视图案作为交互模型内的眼球信号语言的分量。
在增强现实或虚拟现实眼驱动交互模型中,存在用户可以锻炼以实现特定结果的连续的显式注视和追踪动作。例如,用户可以看着对象然后看着激活元素以激活该对象,或者用户可以跟随按照规定图案移动的运动对象以发起动作。系统将图形放置在用户的视场内以基于可预测的凝视图案来确定用户的意图。在这个实施例中,预期的对象凝视标记图的知识被用来在可通过注视和追踪区分开并且与用户针对该组对象的注视和追踪的自然凝视图案不同的位置处放置静态和动态激活图形。
其它刻板眼球运动图案的生成和识别
在体育运动中,专业运动员的对象凝视标记图伴随体育活动的关键时刻。例如,在网球中在发球之前和期间,在篮球中在扣篮之前和期间,在足球中在传球之前和期间,在高尔夫中在挥杆之前和期间,并且在其它体育运动中,这些对象凝视标记图已被观察以示出跨越专家的公共元素。在增强现实(“AR”)环境中,图形可以被放置在相对于关键目标对象-网球、篮球框、接球员、高尔夫球等的适当位置处以引导用户的凝视以模仿专家的凝视。相反地,可以示出图形以引导用户的凝视远离其它位置。随着时间的推移而监视用户的对象凝视标记图可以允许系统分析并开展图形交互。适当的刺激能够使初学者在各种活动方面的技能的开发加速。
在游戏环境中,游戏可以被设计成将对象内的各位置中的“看不出地可见的”图形元素隐藏在通常未查看的、频繁地查看的或者按照可预测顺序查看的位置中。可以具体地设计其它对象的引入以吸引注意。可以在这些图形被查看、未被查看或者依次查看时通过交互模型和游戏来采取动作。可以基于限定的凝视活动来授予或者玩游戏更改这些点。
解决具有有限的或没有移动性和/或眼科或神经紊乱的个体(包括被“锁定”的那些人)的需要呈现特殊组需要和模式分析。眼球信号语言和原理能够被适配成满足这些特殊情况。例如,能够消除对前庭眼反射的依赖。其它形式的神经紊乱能够导致左眼球和右眼球中的运动之间减少同步。在这些情况下,辐辏能够作为通信分量被消除。许多神经紊乱导致运动方面的叠加震颤或振荡。能够以数字方式对这些运动进行过滤。在包括可能被锁定以对垂直眼球运动具有增加依赖的那些人的一些高级脊髓横断个体中存在趋势。眼球信号方法的自适应性质能够被用来适应这些个体。
还能够在眼球信号语言方法内适应其它情况。例如,能够向非常年轻的人呈现简化的非文本菜单。眼球信号步骤尤其涉及感知(特别包括对亮度或深度的改变的响应)的定时可能适于老年人。能够避免或者消除使用颜色来区分选择以适应可能是色盲的那些人。
认知负荷管理
在对象凝视数据库中捕获的场境敏感凝视图案识别可以被用来通知认知负荷的设备管理。调谐信息在AR显示器中或者在虚拟现实(“VR”)环境内的呈现是认知负荷管理的关键分量。例如,有时,可能期望直接地在物理或虚拟对象上显示信息或用于访问信息的选项。在其它时间,为了管理认知负荷,可能期望提供对隐藏菜单或者可以被显露给跟随规定的一组动作(眼球信号、手势、头运动、惯性或隐式脑波活动)的用户的其它可视性的显式访问,或者经由与系统的涉及系统/用户刺激响应的交换的对话。
例如,考虑执行紧急援救功能的个体。这个个体的意图极其集中于收集信息以确定动作的计划,后面是建立动作的计划。收集阶段可能包括访问并参考特定场境相关的过程,并且随后集中于这种在视觉上呈现的信息。
系统可能针对陷入在大火中的倒置汽车里从而允许用户仅有几分钟抽出牺牲者的个体来确定关于该情形的特定信息(例如,汽油罐的位置、火焰温度)可能在文本中作为弹出的窗口出现在屏幕的一个区域上。如果援救者的眼球证明暗示对情形不熟悉的图案,则信息的呈现可能通过阻挡一些意象或者通过使仅关键区域加亮来消除分心。如果救援者似乎对场景有经验,则信息的呈现可能是更密集且快速的,从而由救援者基于知识和经验来支持更快速的动作。
专家/初学者场境信息和动作交换的这些示例延伸到范围从第一响应者-警察、消防员、护理人员、EMT(即,紧急医疗技术人员)到智能社区的成员到军事的各式各样的情况和角色以及各式各样的专业人员-外科医生、运动员(如所指出的)、执行者等。
当在AR场景中呈现信息时,该信息可以采取一系列图形形式。信息可以是重叠文本、符号、对象,或者可以形式为诸如辉光、电风的物理对象的显示的变更、颜色或纹理的改变、大小的改变、一个对象用另一对象的替换,或者运动或上述中的任一个的动态改变或转变或其组合。
这种信息被提供有用于支持前述活动中的任一个或者简单地通知设备用户的目的。这种信息的呈现可以与预期的对象凝视标记图协调以增强其计划中的使用。
支持与在视觉上呈现的信息交互的可视性的选择对引导和/或实现适当的用户意图是关键的。例如,可能最好在一些情况下使用扫视上可辨识的可视性,在其它情况下使用间隙效应可视性,或者在其它情况下使用追踪-跟踪可视性。在适于动作的对象上和/或附近的iUi用户界面眼球信号放置在一些应用中可能是重要的。例如,能够自动地产生具有适当的可视性的眼球信号,其激发放置在对象上或者与对象相邻的具有动态可视性的扫视的得到的序列、对象凝视数据库中的数据通过扫视的可区分图案来指示典型的观察结果的S[diaa](具有动态不经意的激活避免的信号)或者将不通过用户的自然扫视标记图重复的扫视的特定序列。因此,S[diaa]能够由系统动态地创建和设置。
与其它感觉数据耦合的对象凝视的更复杂标记图能够被用来得到系统与用户之间的对话的非常范围以实现意图,管理认知负荷,实现情绪上令人满足的体验,改进人机效率,将人类心智与AI实体合并等。可能发生增强智能动态对话的其它类别包括娱乐、游戏、信息、行为改变、心理或生理治疗、学习、增加的创造性、改进的体育运动表现、战斗、改进的通信等。
辨识用户的心智状态
在另外的实施例中,能够基于眼球运动以及眼球的不同部分的几何形状的改变来辨识不同的情绪。例如,诸如认知负荷和恐惧的因素可能导致瞳孔的容易地可检测的扩张。当与正由设备穿戴者查看的对象的知识组合时,能够进一步辨识意图。例如,如果查看蜘蛛或者蜘蛛的图片导致瞳孔扩张,则能够断定设备穿戴者可能害怕蜘蛛(即,为蜘蛛恐惧症)。个体一般地能够具有许多不同的恐惧症。通过由设备穿戴者考虑各种恐惧症,例如能够定制内容(例如,特别由广告主)以避免招致可怕的响应。
类似地,如果瞳孔扩张由对诸如数学方程或宠物的对象的呈现和查看产生,则能够辨识对与方程相关联的数学或与被查看动物的关联感兴趣。在这种情况下,能够将显着性因素指派给方程或动物。这些因素例如能够被用来通过检索特定方程或动物或密切相关的项目来增强搜索。
同样众所周知,瞳孔扩张能够由查看产生恐惧的对象产生。因此,能够包括诸如心率或特定图案的眼球运动(例如,反扫视运动,在下面描述)的其它因素以解析这些歧义。在下面更详细地描述用于对设备用户的总体状态和条件进行分类的多因素方法。
相反地并且作为另外的示例性实施例,反扫视眼球运动能够被检测为与远离特定对象或一类对象避开设备穿戴者的眼球相关联的运动。根据这些反扫视眼球运动以及对作为反扫视运动的主体的真实或虚拟对象的识别,设备能够“学习”特定对象和/或通过设备穿戴者所避免的各类对象。与恐惧症类似,能够视需要避免与通过特定设备穿戴者的反扫视相关联的对象的显示。
从对象凝视测量结果汲取以理解用户的心智状态并且支持iUi GUI行为的其它解释涉及区分“有目的的”凝视运动和“空想”凝视运动以及其它记录的感觉或场境数据。
在做广告时,例如,可能在个体正在早上驾驶去工作的同时针对凝视给牛奶做广告的广告牌的个体来收集凝视数据和被查看对象数据。凝视数据可能随着用户的活动(汽车中的讨论、工作或休闲驾驶、他/她是否已吃早餐以及他/她是否随着牛奶吃谷类)以及其它感觉数据被进一步加上时间戳、加上位置戳、加上场境戳。凝视对象数据库能够由所有被观察对象与在延长时间段内给定个体的类似的具体凝视、场境、感觉等数据一起构建。这种记录的凝视数据的使用能够对与牛奶有关的信息的后续呈现作出贡献,或者对用户可能从事的特定品牌作出贡献,以激发诸如购买的动作。
与搜索场景相关联的眼球运动的图案对场景的复杂性具有强烈的依赖。“感知跨度”(即,有效视觉的区域)与阅读或场景感知相比在搜索眼球运动期间扩展了。扫视一般地更短并且注视因场景的特定区域中的更混乱或密度而延长了。还存在看着正被口头地描述或者正考虑的对象的强烈趋势。因此,能够区分搜索眼球运动(即,更长的扫视和更短的注视)和与感兴趣对象相关联的那些眼球运动(即,更长的注视和成群的扫视)。用户的凝视方向与真实世界或视频图像内的运动对象的路径之间的高相关指示用户对特定运动对象的注意。
作为另一个实施例,对个体有吸引力或反感的对象和各类对象能够共同地被用在机器学习或人工智能(AI)方案中以增强推理过程。例如,感兴趣的或者强迫增加认知的主题的知识能够被用来构造数据检索和搜索引擎结果以帮助高级思维。在这个场景中,设备穿戴者的焦点可能是在实时认知过程上,而不在搜索和信息显示的运作方式上花费智力资源。偏好将基于过去的交互而为设备所知,并且/或者由设备用户选择和修改。
沿着类似的路线,能够在化身的行为中反映个体的兴趣和厌恶(包括通过眼球运动辨识的那些)。能够将化身构造成反映经识别的个体的特性中的一个或多个(包括全部)。能够在游戏、角色扮演、行为治疗方法、预测个体的响应等时使用这些行为特性。
如所指出,各种感觉数据可以被维持在凝视和对象数据库中,并且还可能在辨识用户意图时有用。例如,通过Eckman's FACS所解释的观察用户的面部、面部的区域、皮肤运动的区域的相机数据能够被用来辨识用户情绪。这样的一个或多个相机可以被部署在任何形式的HMD或没有显示器的可穿戴头戴式设备内。一旦可以辨识用户的情绪状态,虚拟字符或者真实远程字符或混合AI/人类字符的化身就可以对这种情绪通信做出响应。一个实施例能够通过使用其面部和/或眼球模仿或者传送穿戴者的被监视情绪状态和转变的化身。
作为另一个实施例,各种分类方法能够被用来根据眼球运动以及包括例如时刻、头运动以及视场中的真实及虚拟项目的其它可用输入来辨识意图。用户意图的这些分类的主要问题是与眼球相关联的运动能够具有许多不同的目的。不仅眼球在日常活动的执行期间审视并且更紧密地观察环境时是关键的,而且运动也能够与吃惊响应、所谓的白日梦、手势、平衡、认知负荷等相关联。眼球运动甚至能够与很少处理查看环境的活动(诸如响应于新闻的接收而滚动一个人的眼球)相关联。
眼球信号显示技术
在不同的实施例中,能够既在眼球近旁又从眼球远程地使用许多不同的显示设备和/或图像投影技术来执行眼球信号语言和命令集。安装在头饰上的显示设备能够包括HMD、AR显示器、VR显示器等。显示设备能够覆盖穿戴者的视场的一部分,覆盖整个视场,为半透明的,或者为不透明的。在从离眼球0.1至0.5米的范围内最经常使用的显示设备包括智能电话、迷你平板、放大的电话、迷你膝上型电脑、壁装显示器(例如,恒温器)、信用卡阅读器等。在离用户的眼球约0.5至几米的距离上使用的显示设备包括计算机显示监视器、平板、膝上型电脑、敞篷汽车、电视、收银机显示器等。甚至可能存在使用眼球信号与大规格显示设备(常常由多个显示器组成)例如与体育场内的特大屏幕或广告牌的交互。
该系统可以包括可由用户查看的显示设备。该显示设备能够阻挡用户查看设备穿戴者的诸如在VR眼镜中找到的显示器的环境的全部或任何部分的视线。可替选地,显示设备能够允许设备穿戴者通过在半透亮模式或半透明模式下在屏幕或投影显示的全部或一部分内显示信息来查看用户的环境的全部或一部分。这些方案通常被用在可穿戴头戴显示设备和AR设备内。该显示设备还能够远离设备穿戴者位于,但是在它能够被查看的位置中。显示器能够包括一个或多个显示屏幕、一个或多个投影设备、标牌等。
一些显示设备可能具有有限的分辨率(例如,标牌)或区域(例如,智能眼镜)以显示信息。类似的考虑事项在显示监视器小和/或远离用户/观察者位于时开始起作用。
眼球信号屏幕布局
差屏幕布局、不一致的响应、不考虑眼球运动的生理学以及延长的延迟能够使用户在眼球信号语言内重复地丢失上下文。诸如不同眼球运动的凝视跟踪分辨率、延迟和峰值速度、在不同的查看区域(中心凹、旁中心凹以及外围)内“吸引”眼球的元素、可交互对象的形式和放置方面的一致性的因素以及各式各样的其它因素影响与眼球信号有效地进行通信的能力。
作为示例,“显露”在与中心凹(多达大约2°)和近中心凹场相对位于旁中心凹区域中(离视轴多达大约10°)时支持上下文维持。在±0.5°的凝视准确度情况下,或者在对覆盖约16°的范围的显示区域内的6x3(参见例如图6)或5x3(参见例如图7)个可选择区域的成形的一般限制内,显露例如可以被放置在旁中心凹区域内的对象附近以建立并维持更多的可视上下文。
本系统和方法的附加策略是可交互对象的策略放置和分组上下文。在示例性实施例内,甚至在用于传达意图的一些过程期间有经验的用户也不需要用于“感知”对象的时间。例如,为了(在任何时间)返回到示出主菜单的起始屏幕,用户可以将记忆引导的扫视部署到右上部特殊的主显露可交互对象(参见图6-10),然后对正好在下面的经显露的“起始”显露立即执行记忆引导的扫视。这完成返回到起始屏幕主菜单的过程。不需要实际上感知主显露可交互对象,并且事实上,初始扫视一达到其目标可交互对象就可以消失,或者甚至在眼球达到可交互对象之前,为了后续扫描而“释放”眼球(即,所谓的间隙效应)。因此,主显露可交互对象对于后面是在没有感知的情况下执行的紧接的第二扫视的记忆引导的扫视来说在大部分(若非全部的话)时间位于同一地方中。
在一些实施例内的一些情形下,可能期望在目标的位置处留下图像达一定时间段。这个时间可以是这样的,即:1)存在对目标的认识,但是它未被完全地感知(即,一般地小于约200毫秒)包括仅几毫秒到几十毫秒之后的“闪光般”移除,2)存在对目标图像的感知,但是它不再持续或者“徘徊”比感知所需的长,3)存在对目标的清楚感知直到眼球开始从所述位置离开为止,或者4)目标持续直到动作或某个其它操作被执行为止。
相比之下,作为平滑追踪眼球运动的目标的可交互对象首先必须在能够发起运动之前被感知到并且随后维持在正好低于生理平滑追踪的最大值(每秒30°)的速度下。最初出现在感知的区域内的追踪对象能够避免在被放置足够靠近(例如,正好在1°至3°的中心凹视图区域内)或者甚至在目标可交互对象的结构内时干预扫视运动(参见图13)。扫视(占去不必要的时间)可能被迫在例如追踪对象在感知之前已远离所选择的可交互对象移动了一定距离(例如,在1°至3°的中心凹视图区域外部)的情况下发生。因此,初始显示的定时、在运动开始之前的任何延迟以及运动的速率对于使用平滑追踪机制的眼球信号控制来说全部是关键的。定时必须考虑预期的眼球运动的生理学并且最佳地包括能够被调谐给随着体验被获得而包括的每个设备用户的自适应分量。
还能够修改追踪过程以包括可能以非线性方式移动的对象的追踪,例如,具有路径点停止和分叉(即,双向分裂)以进一步使得能实现选择和一般形状创建。
本系统和方法的附加策略和实施例涉及将“熟悉的”缩略图作为已经达到眼球运动序列的终止位置并且动作发起了的反馈显示给用户。在生理学的领域内,一般地接受存在用于视觉对象的识别的两种模式。1)对象的再收集(也被称为“记忆”)涉及从先前体验的记忆中回想细节。2)另一方面,熟悉(也被称为“知道”)产生对象已在不用执行导致回想的(相对慢的)长期记忆搜索的情况下被先前体验到的感觉。避免从长期记忆中回想最近查看的对象或显示区域的需要减少认知负荷并且能够加快用眼球交互传达意图。
使用这些原理,用于在眼球信号语言内注册步骤的“熟悉的”确认是显示刚刚查看的场景的缩略图。例如,扫视启动站点的区域(例如,可交互对象、图像的切去段、文本的小块)能够在扫视落站点处重复以确认正在执行动作(或选择的分量)。熟悉的图像的这个转移也具有在视觉上将选择与动作“链接”的心理效应,从而使眼球信号语言变得更直观。
本系统和方法的另一策略是考虑人类对旁中心凹和外围视场中的对象的感知的不同特性。对象内的突然改变(例如,出现、大小、辉度、包括振动的运动)吸引注意并且为眼球运动提供视觉参考(即使实际上从未被查看到感知点)。例如,遥远的(即,未必在中心凹视图内)选择可交互对象在显露过程期间的快速出现为扫视轨迹提供靶向位置。
进一步采取这个构思,选择可交互对象和追踪可追踪对象两者的快速出现(和/或颜色、透明度、大小或运动的改变)可以是出现在旁中心凹或外围视场中的目标。旁中心凹和/或外围可交互对象可以是一般菜单选择过程(不只是显露)的一部分。为了充分利用外围视觉,从屏幕的中心区域起开始选择序列从而为外围对象留下空间是有利的。在追踪可交互对象的情况下,追踪对象图形元素(即,组件)可能已经甚至在被感知为目标之前在适当的时间并且以适当的速度移动(吸引注意)。这在记忆引导的眼球运动被执行以执行眼球信号语言元素时是特别有效的。
屏幕布局的附加特征以及用于选择/激活的序列可以被设计成避免不经意的激活。例如,激活可交互对象可以一般地位于能够避免不经意的一瞥的屏幕边界附近。如果不经意的激活确实发生,则容易地可得到的序列可用于“收回”。需要特定有意的生理眼球运动来指示激活。能够被选择用于激活的对象在场境敏感模式下被显示并且仅在“按需”基础上可用/显示。
在一些情形下,提供网格、点阵列、周期波形或者对于用于汲取、选择、包含等的输入的更自由形式模式能够用作图形帮助的其它形式的叠加参考点是有用的。输入任意形状的能力通过在这个框架内使用级联眼球扫视的这些视觉框架来促进。
追踪过程还能够被应用于在环境中不动或运动的真实对象。对象识别软件能够被采用来辨识用户选择的对象的身份、大小和形状。如果对象正在移动,则能够通过对连续的视频帧进行比较以确定哪些区域相对于背景移动来独立地确立对象的大小和形状。
此外,在双目眼球信号系统中,辐辏测量结果能够被用来估计到选择的对象的实际距离。这能够被例如用来计算对象的实际大小(即,不只是图像内的大小或与其它对象相比较的相对大小)。这些数据例如在显示关于物理上最靠近用户的对象或者(大对小)对象的诸如必须基于实测大小的鸟的种类的身份的信息时可能是有用的。
可交互对象和/或(简要的)关键词的总体使用是抵消在眼球信号期间对凝视准确度和行进的限制的另一策略。可交互对象被调整大小以符合用于可靠的基于眼球的选择的水平和垂直分辨率。可交互对象的数目(更确切地说,由可交互对象占据的空间)可能在水平轴上更大,因为与垂直眼球运动相比眼球能够进一步在这个方向上行进。在侧边栏内使用适当的半宽度眼球凝视可选择的区域进一步扩展致密性和更大水平行进的观念。眼球能够扫视到定位在屏幕边缘附近的对象并且在附近包括在屏幕的显示区域外移动。还能够允许凝视跟踪不准确“溢出”到屏幕边缘外的这些区域中,而不显著地影响可交互对象选择过程。使用在边缘处和在屏幕外的不动产对空间准确度构成限制。
一个人还能够采用包括与一般地离开屏看耦合的靶向可交互对象的语言组件。语言还能够包括诸如标志、符号、图标、耳机的边界或其它对象的离屏已知目标。还存在能够例如照明或者增加一个或多个选择的对象上的照明的离屏永久或动态目标照明的机会。
在另外的实施例中,iUi GUI考虑功能并且将意义指派给由扫视、平滑追踪和辐辏过滤器所识别的目标对象或位置。基于典型的眼球运动序列,能够在策略上放置可交互对象以使眼球运动最小化(即,使疲劳最小化),使性能(即,选择和激活定时)最大化,使不注意的激活最小化,并且/或者使学习曲线加紧以便于设备使用。
例如,在图6和图7中所图示的菜单选择方案中,主显露可交互对象总是被定位在右上部拐角中,而不管可用的菜单项目的数目和类型如何。“进行”(即,激活)可交互对象在一个实施例中可以作为其在侧边栏中间的垂直位置被设计成使离屏幕的中心区域中眼球可选择的区域的平均或聚合“看”运动距离最小化的绿色(例如,交通)“通行”信号而出现。
总体显示布局的一致性和紧凑性是影响性能和易于使用的附加因素。中心查看区域(如图6-7中所图示)一般地被用作能够查看和/或选择对象的工作空间(与“桌面”类似)。左右侧边栏中的可交互对象一般地是用于从中心桌面启动的扫视的目标位置。尽管每个配置不严格地符合这个总体方案,然而一致性随着新应用被引入而大大地增强学习曲线并且促进更快的记忆引导的使用。屏幕布局的一致性是能够被用来促进易用性的哲学、指南和标准的重要分量。
在另外的实施例中,考虑到屏幕分辨率和凝视跟踪准确度两者,基于用户朝向显示器的视场(FOV,单位为角度)的大小和形状,可能存在可交互对象在显示器内的动态缩放和/或成形。还可以动态地缩放和/或使目标对象、可选择的“工具”、文本以及其它形式的呈现成形。动态显示缩放(即,在设计屏幕和屏幕行为时)的功能是产生被维持在“成形的”区域内的一件艺术品(即,可交互对象或其它对象),使得大小不太小以致强迫用户凝视到凝视“选择框”内的大均匀的背景区域中,并且不那么大以便激发用户落在已成形的区域的外边缘附近并且随后随着头脑的自然地发生的视觉适应而完成的凝视。如果用户看着延伸到选择框区域的全范围的可交互对象,则凝视测量系统中的小不准确或用户的视图中的飘移(震颤或其它运动)可以使相邻框被不经意地选择。
在附加实施例中,当可交互对象(或其它目标)被以任何形式的显示(例如,远程、VR、AR)动态地构建和/或放置时,应该相对于用户的中心凹区域考虑项目的大小和位置。可能期望靠近用户的凝视位置或者紧挨着用户正凝视的对象放置目标,以允许用户立即查看和/或与新目标交互。在这种情况下,如果例如目标微小且遥远,则它将不在用户的“认识”区域内。相反,目标的自动调整大小(例如,圆周、高度x宽度)和/或放置(例如,对象的中心,或其它参考点)能够被设计成在用户的高密度中心凹区域或甚至旁中心凹区域内。动态地控制的对象可以允许用户更快速地看见和/或与后续目标交互。
在另外的实施例中,可交互对象可能太小(即,不提供足够的细节或者“要求”吸引眼球和/或留下没有对比的背景的大区域)或者太大(即,延伸到眼球选择区域的边界)的观念还能够被应用于可交互对象或其它虚拟对象内的细节的显示。太小的细节未被设备用户感知到。事实上,能够在确定可以组成可交互对象或虚拟对象的细节元素的设计时具体地考虑特定设备穿戴者的视敏度。
针对减小的视敏度或视觉缺陷的适应能够包括细节的减少(例如,由更少的高对比边缘组成的对象的显示)。这些适应能够由系统基于细线或细节周围的实测眼球运动(或者在一些情况下,眼球运动和感知的缺少)自动地执行。可替选地或此外,设备用户能够指定基于设备用户的视敏度的优选或表观水平来显示对象。
在光谱的另一端,对象或对象内的细节可能太大。如果可交互对象具有不足的细节,则对象可能在对象的中心区域中没有眼球焦点。如果替代地,眼球必须通过辨识眼球选择区域的边界附近的外边缘来审视对象,则可能更频繁地发生对相邻激活区域的不经意的选择或激活。即使在可选择的区域之间存在“死区”(即,不发生激活的缓冲区或区域)也可能发生这个,但是死区一般地是不希望的,因为它们可能在不存在用户反馈(其可以被感知为“不舒适的”)时产生。在图6和图7中在633、634、535处并且在图10中在1037、1038、1039处图示了包括的中心细节。
作为特定(简单)示例,用作反馈来指示特定可交互对象或区域已被选择的框(例如,图6和图7中的选择框638)、圆或其它形状的线厚度可能太细或太粗。太细的线(例如,发丝)可能简单地难以检测。这对于眼球信号语言在搜索眼球运动的情况下的流程而言将是特别破坏性的或者需要用于眼球信号集成的必要时间,以便检测由太细而不能被容易地检测到的一条或多条线段组成的反馈指示的存在。
相反地,线(或对象内的其它细节)对于最佳感知来说可能太粗。因为人类视觉过程中的第一步骤中的一个涉及视网膜的初始层将图像变换成“边缘”,所以粗线最终被观察为内边缘和外边缘的精神组合(即,被单独地感知)。在粗线的内边缘与外边缘之间无对比的区域不提供用于眼球“休息”(即,集中于)的区域。
因此,在另外的实施例中,组成显示的可交互对象或其它视觉对象的细节的线段和其它组件对于足够大以致被感知到但是足够详细以致提供中心凹区域的眼球要求能够具有最佳范围的厚度。针对这个范围的指导能够来自编码在视网膜内的人类(和其它动物)神经节细胞内的感知的“中心围绕”模型。可替选地,可以呈现其它图形以识别用户的凝视指向的可交互对象,所述用户的凝视基本上不修改该可交互对象,然而提供用户的凝视的位置的清楚指示。例如,不是围绕整个可交互对象的框,而是可以呈现仅框的拐角或其它线段以识别所选择的可交互对象,而不使用户分心。
神经节细胞的中心围绕回路能够对视网膜内的查看区域中心的光产生所谓的“关闭”或抑制反应。围绕区域产生“开启”或兴奋性反应。与一些基于计算机的边缘检测算法类似,在边缘处产生通过这个回路布置的最大神经反应。这些感受域(一般地被认为在形状上为高斯型曲线)的大小在视网膜的表面上是大约四微米。这对应于遍历约一分弧度的边缘(或运动)。为了参考,这对应于当在一米处查看时宽度为0.3毫米的线。
因此在实施例中,甚至在最佳人类视敏度情况下,以小于大约一分弧度的分辨率产生细节变得无效。能够一般地很好地辨识几个弧度分的范围内的线和细节。因为在人类视网膜中,视网膜中的相邻感受域可能重叠,所以一个人看见使线段的各侧分离的分离更多基于视觉感知(与神经节视网膜细胞的连线相对)。因此,使“粗线”的边缘分离能够开始在几个感受域的范围内被感知到。能够在超过十分弧度下辨识粗线或“带状物”的两个边缘。
在更实用的术语中,一个弧度分非常粗略地对应于当在舒适的查看距离上查看中等分辨率显示监视器时像素的宽度。清楚地,容易地辨识线的能力受包括显示器的亮度、线(或细节)与相邻像素之间的对比的程度、实际的查看距离、实际上发出光的像素的部分等的许多因素影响。在AR显示器的情况下,显示器的不透明度以及与区别“真实世界”背景的对比能够扮演加添角色。
设备校准
目标对象内的特定位置(即,为设备所知)中的高对比图形元素帮助将设备用户的凝视集中于对象或可交互对象内的特定点。可交互对象的这些图形元素和/或总体已知位置能够被(离散地)用来执行动态或连续校准。校准包括相机、显示器、照明源和透镜的已知几何形状的知识。
显示器上的对象(例如,可交互对象)的已知位置能够由遵循所谓的“回溯”(即,用户重新移动并且随后替换设备)、头上的单位位移的算法或者在眼球被从不同位置远程地查看时使用。这种跟踪能够协助确定设备是否已移位并且/或者向校准算法提供信息以用于遵循单位运动的校正。
校准过程被主要要求来说明个体的解剖学(以及在更小程度上,神经生理学)方面的变化以及可穿戴设备如何尤其支撑在鼻子上。基于解剖的校准能够被用来确定与被用来将眼球结构(例如,瞳孔、角膜缘)和闪光在相机图像内的位置转化成为凝视方向的眼球结构有关的因素(例如,眼球半径、角膜曲率、视轴与光轴之间的偏移)。
完整校准过程能够涉及通过设备穿戴者在短暂时间段内对三个或更多个已知位置的慎重查看的序列。考虑相机图像内的参考位置以及正被查看的已知位置,能够计算将相机图像参考位置转化为显示器或真实世界查看位置的一组最佳的校准因素。内插技术然后能够被用来转化在校准位置之间或周围的图像内的参考位置。
在正常操作期间,头饰可能稍微滑动或者移动,从而将不准确添加到校准。只要设备运动(相对于头)以及与校准相关联的不准确是有限的,就能够随着设备穿戴者在正常使用期间形成眼球信号而执行基本上连续的校准。基本上连续的校准使用设备穿戴者看着在已知位置处的可交互对象和其它参考物的序列以形成眼球信号的原理。因为在眼球信号形成期间选择参考位置时存在空间容差,所以在校准使凝视位置稍微不对准的情况下仍然能够执行眼球信号;然而,然后能够重新计算校准因素,因为相机参考位置和预定凝视位置两者是已知的。这在使用期间允许基本上连续的校准。与可能已经在初始校准过程期间确定的点相比这还允许形成已知校准点的更详细的表。
在眼球跟踪期间,使用简单的查找表来将闪光在眼球和/或角膜的表面上的位置映射到眼球凝视位置常常是方便的。表使用其它凝视确定技术基于眼球和/或角膜缘的实测位置以及已知查看方向来构造。表的使用能够保存电力,减少针对照明的要求,并且/或者在眼球内的“可跟踪的”结构被例如眼睑或睫毛遮掩时方便凝视跟踪。
能够采取数个步骤来提高查找表的跟踪准确度:
1.查找表内的点之间的内插(当闪光位置不确切地在先前确定的位置上时)能够基于眼球、相机和光源的实际几何形状。基于这个几何形状的映射函数的“形状”的知识与例如简单的线性内插(其在物理设置方面没有基础)相比提供更优良的内插。
2.能够通过开发表示相机相对于眼球的位置的测量结果(即,偏移)并且对表应用校正的测量结果来使表变得对头饰的运动不太敏感(所谓的回溯不敏感)。这个两步过程允许单个表表示与相机位置无关的映射函数。
3.使用多个闪光,“选举”过程能够被用来基于来自多个闪光的测量结果而确定最可能的凝视位置。
4.历史数据(特别是在高帧速率下)能够被用来消除将在人类眼球运动的速度的生理范围外的“界外值”眼球运动。
5.当在实测眼球凝视方向(即,使用其它技术)与通过映射函数预测的方向之间检测到差异时表能够被逐渐地更新(或者在例如新用户穿戴设备的情况下被完全修订)。
启发式和数据融合方法
与对眼球进行成像并且可靠地识别感兴趣特征相关联的挑战包括跨越宽的用户人口统计和不可预测的环境条件操作的需要。从这些困难条件沉淀的许多挑战包括在算法上检测并跟踪眼球特征的不同方法针对特定用户或者针对特定环境条件表现更好、然而其它方法针对其它用户或环境条件表现更好的事实。
例如,能够煞费苦心地调谐眼球跟踪软件、固件和硬件以在具有一致的可见照明和低环境红外光水平的办公室环境中格外好地执行。然而,投身于具有高环境红外水平和明亮照明源的室外环境中的同一眼球跟踪方法可能立即失败。相反地,在室外情形下为了良好性能而调谐的软件、固件和硬件可能在更暗的室内环境中立即失败。
这些跟踪方法在特定环境中或者跨越特定用户人口成功或者失败的主要原因在于正被检测和跟踪的眼球特征。作为示例,瞳孔可能在眼球被环境红外辐射淹没时在室外容易地可见,但是可能在更低环境红外辐射情况下在室内不可见。然而,在室外情况下,太阳可以对眼球产生明亮且不需要的反射,然而在室内情况下,对眼球的唯一反射可以是系统从它自己的照明源产生的那些反射。
因此,在室外情况下,能够拒绝不需要的反射但是依靠可检测的瞳孔的存在的软件、固件和硬件可以很好地执行,然而在室内情况下,不依靠可检测的瞳孔的存在并且能够适应更低曝光水平的软件、固件和硬件可以很好地执行。
为了使眼球跟踪设备变得可为大众消费所接受,设备必须在它被暴露于的所有情形下可预见地起作用。因为能够给设备装备能够确定它被放置于的操作环境的特性的软件和固件,所以作为顶级算法的结束结果设备能够协调那些过程被采用来确定用户的凝视的方向。这个协调可以以许多方式(包括以下示例性实例)发生。
出于本公开的目的,顶级算法能够被定义为个别过程的合集,其中,在这种情况下,顶级算法用来确定用户的凝视的方向。每个个别过程可以属于涉及确定用户的凝视的方向的目标(诸如眼球特征检测、针对设备相对于用户的眼球的运动的补偿和/或用于由眼球跟踪系统利用的硬件组件的适当设定的确定)的数个技术中的一个。
在一个示例性实例中,系统可以识别用户的睫毛在重复地封闭瞳孔的足够大的部分,使得瞳孔检测算法不能够可靠地跟踪瞳孔。结果,负责检测和操纵基于瞳孔的数据的过程可以产生对应于不正确的瞳孔大小、瞳孔中心或瞳孔法向矢量(其中的全部可以在顶级算法中对用户的凝视方向的不正确确定作出贡献)的输出。在这个实例中,协调方法可以指示算法丢弃瞳孔数据并且替代地在最终凝视确定步骤中依靠闪光数据或虹膜数据。这个方法是算法仲裁、或者丢弃使性能降级输入数据与它们相关联的一个或多个贡献过程并且保持将使最适合的输入数据与它相关联的贡献过程的范例。
在另一示例性实例中,系统可以识别所有组成过程正被供应有能够产生所希望的顶级算法输出的数据。因此,瞳孔可能是可见的并且在产生稳定的边缘,正确数目的很好地隔开的角膜闪光可以由系统的照明电路产生,可以检测角膜缘及其在人口平均数范围内的直径,并且虹膜可能在能够确定其姿态的足够信息情况下是可见的。这种情况下,每个组成过程能够对顶级算法贡献足够的信息以在没有来自其它过程的情况下确定用户凝视方向。另外,每个组成过程使其准确度通过考虑其输入数据的特性、作为“误差度量”呈现的计算来估计。
这个误差度量能够基于它检测到的眼球特征的类型以及产生特定眼球跟踪性能的那些特征的特性被指派给每个过程。例如,角膜上的闪光之间的像素分离、每个角膜闪光的矩心的稳定性以及瞳孔边缘的大小和形状的稳定性能够被用来计算瞳孔-闪光组成过程的理论准确度。误差度量的其它示例包括在角膜缘上检测到的点的数目、在角膜缘的“近”边与“远”边之间检测到的点(相对于眼球跟踪相机位置)的分布以及在瞳孔上检测到的点的数目。
利用每个组成过程的定义明确的误差度量,针对每个过程执行误差估计跨越关于其对最终凝视确定的贡献将重要性指派给每个过程的过程导致定量比较。为每个组成过程计算误差分数并且然后为该组组成过程计算加权平均导致接受来自所有可用过程的输入以用于输入给算法的凝视确定计算。这个方法例示了算法融合。
可以在凝视确定算法中的协调过程的方法中采用的另一技术是马尔可夫随机场的应用。在这个实施方式中,能够建立各种操作条件与眼球特征之间的依赖。在这些依赖被建立之后,对应于将过程贡献于顶级凝视确定算法的选择的输出被产生。
这个方法的可论证优点是其在条件以及展示困难环境条件的设定下改进眼球跟踪性能的能力。例如,如果角膜上的环境反射变得不可与所希望的闪光区分开则完全依靠特定数目的角膜闪光的存在的凝视确定过程被折衷。因此,将这个过程与其它过程组合并且对依赖闪光的凝视确定过程应用更低加权(这进而减少其对顶级凝视确定算法的贡献)确保用户的凝视被更准确地且稳定地计算。相反地,如果环境条件导致由于用户的眼球太暗而不能够可靠地跟踪瞳孔的情况,则更重地依靠角膜闪光检测的凝视确定过程对来自顶级算法的改进输出作出贡献。
因此,可检测的并因此是用于包括在凝视确定过程中的候选的每个眼球特征也经受环境条件。随着那些环境条件改变并且使特定眼球特征变得更难以跟踪,减少或者消除那些特征对顶级凝视确定算法的贡献导致更精确且更准确的输出。
除对不可预测的环境因素进行补偿之外,能够利用凝视确定过程的协调来帮助管理可穿戴设备中的电池电力。在包含头戴式显示器和眼球跟踪子系统的设备中,不适当地管理的电力是可能在不利地少量时间中使设备耗尽其电池容量的问题。因此,能够采用仔细的模式来使这些设备的电池寿命延长。可以通过采用考虑期望的系统操作的协调方法来进一步改进这些模式。
可以论证的是用于确定用户的凝视方向的不同方法能够与不同水平的计算负荷相关。这些负荷能够进而与对设备的电池电荷的不同影响相关。这些差异可能归因于两个主要因素以及各种次要因素。主要因素是:1)检测诸如瞳孔、角膜闪光或角膜缘的眼球特征的计算成本,以及2)利用这个眼球特征作为输入来计算凝视方向的计算成本。
出于基于计算循环以及随后功耗来管理协调方法的目的,能够被应用的一个技术是为每个凝视确定过程维持成本表。成本表包含关于每个组成过程的各种特征信息。在这个示例性表中,以下信息被呈现:两个组成过程、每个组成过程的三个凝视区域、在设备的处理器上运行组成过程的计算负荷、针对组成过程适当地照明眼球所需要的电力、沿着眼球特征和角膜闪光的点的各种度量、过程检测和/或对在用户的头上的设备的运动鲁棒的能力以及该组成过程在所对应的条件下的理论最大准确度。此外,度量是针对每个组成过程以及以定量地指示每个方法如何将使设备的能力负重担的方式组合理论最大准确度、照明功率和计算负荷的条件的集合而计算的。
表2示例性功耗和度量分解
表2表示用作协调过程的查找实用程序的大得多的表的一小部分。全表可以包括更大的多个组成过程以及据此计算理论最大准确度的操作条件的许多组合。这个示例性表旨在论证这个方法在可以在使用会话期间考虑数个组成过程、凝视区域和操作条件时的实用性。这个成本表能够被应用于电池电力的管理是头等考虑事项的许多特定用例。在下面呈现了这些情况中的数个。
在示例性实例中,系统的电池可能正接近耗尽,但是不是使眼球跟踪子系统完全关掉或者相反地对电池的比所必需的更早耗尽作出贡献,而是协调算法可以确定具有最低计算成本(以及因此,对电池电力的影响)的凝视确定方法将接替所有其它凝视确定方法。在这个实例中,这可以允许设备在不过早地耗尽其电池的情况下保持可接受水平的眼球跟踪功能。
在另一示例性实例中,设备的与其它传感器组合的处理器可以确定用户正回家并且将不能够在从目前时刻起的估计时间段中对设备充电。可以基于历史的(例如,以24小时为周期的)设备使用做出这些确定。在这种情况下,可以通过采用比将以其它方式在用户不能在令人满意的时间内对设备充电的情况下更复杂的凝视确定过程来维持进一步的眼球跟踪功能。
可以根据设备的配置而修改用于为凝视确定算法协调组成过程的方法。在一个示例性实例中,设备可以被配置有能够跟踪用户的眼球中的一个的眼球跟踪子系统。在这个实例中,凝视确定计算必须不顾用户的另一眼球正看哪里而发生。然而,在设备被配置有能够跟踪用户的眼球中的两者的眼球跟踪子系统的示例性实例中,协调过程可以包括将用户的眼球中的一个的可能的凝视方向的轨迹与用户的另一眼球的可能的凝视方向的轨迹进行比较的步骤。
在这个实例中,重要的是指出对用户的第一眼球的凝视确定作出贡献的组成过程不必与对用户的第二眼球的凝视确定作出贡献的组成过程相关。在这种情况下,用户的第一眼球可以具有与瞳孔-闪光凝视确定相关的可靠的输入数据,但是用户的第二眼球的相同数据可能不是可靠的,其中对应是针对第二眼球的角膜缘法向凝视确定。
还应该注意的是在双目眼球跟踪配置中,能够计算眼球之间的会聚度以及因此进入到场景中的深度(即,辐辏)。利用这个能力,对来自每个眼球的可能的凝视方向的轨迹进行比较可以包括每个眼球的凝视方向彼此一致的一组解。这组解的成员将因此对应于在场景内的不同深度下的凝视方向。可以在这一点上应用另外的技术以确定解集合的哪一个成员是最适用的。
在一些实例中,协调过程可以仅使用来自眼球跟踪子系统的视频的当前帧作为输入数据。这可以被称为没有先前帧的任何记忆的方法。然而,在其它实例中,协调过程被提供有由来自眼球跟踪子系统的先前视频帧的凝视确定数据组成的输入数据可能是有利的。在这些实例中,在先凝视确定数据以及设备的用户界面元素的在先和当前状态两者的知识能够被用来通知为来自眼球跟踪子系统的视频的当前帧而协调组成过程的过程。
在一些实例中,可以关于用户可能初步地被确定为正凝视向的选择的视场的区域而协调可以被用来最终确定用户的凝视方向的组成过程。在一个示例性实例中,所选择的视场对应于通过用户的实际视场的某个部分所表示的视场。在这种情况下,如果初步的凝视确定导致用户正朝向缺乏用户界面元素的区域凝视的高可能性,则任何另外的凝视确定过程能够被弃用为低成本方法。然而,在相同情况下,如果初步的凝视确定导致用户正朝向包含用户界面元素的视场的区域凝视的高可能性,则能够提升另外的凝视确定过程以提供适当量的精度、准确度或稳定性。
在另一示例性实例中,所选择的视场对应于由设备的显示器所表示的视场。应该注意的是,这个对应可以包括在设备的显示器的物理范围周围的边界区域。在这个实例中,如果用户的凝视方向被预测为落入这个视场内则更高优先级被给出,而不管这个显示视场落入用户的实际视场内如何。然而,如果能够预测用户的凝视方向为落在这个视场外部,则可以将更低优先级指派给协调过程的期望输出。
一些凝视跟踪系统是为作为用户的视场的子区域的“甜蜜”点跟踪区域而设计的。在这个区域中,需要最大准确度和可靠性。能够在这个区域中为了性能而调谐结果的系统设计,例如,放置相机和闪光产生LED使得在视场中偏离中心的一个区域被以最大准确度跟踪。这可以使公共闪光跟踪方法和瞳孔发现方法由于其它凝视方向而失败。示例性实施例是在“甜蜜点”中使用闪光/瞳孔跟踪,从而测量眼球与传感器和显示器的绝对关系。然后,随着眼球到相机角度增加并且闪光或瞳孔不再是“可跟踪的”,切换到另一基于特征的跟踪方法。
一些眼球跟踪方法在一些眼球凝视角度下更好地工作。例如,瞳孔跟踪可能在直接看着相机时很好地工作,但是在远离相机以更大角度看时失败。眼球上的特征(诸如边缘上查看的虹膜、巩膜或甚至瞳孔)的位置是相对于“最后已知”良好位置的位置来跟踪的。瞳孔跟踪可能比例如角膜缘跟踪更准确,但是当角度使得瞳孔跟踪失败或者预期失败时,角膜缘法向跟踪(或某个其它方法)可能是优良的。这个示例性实施例的关键是根据凝视方向、眼球类型、眼睑状态、接触透镜等而组合数个算法以在各种凝视角度上改进眼球凝视鲁棒性的能力。
许多眼球凝视测量结果依靠使用LED来投射从用户的角膜表面反射的特定图案的闪光以便测量角膜球的3D位置。与瞳孔位置估计组合,能够计算凝视矢量以推理凝视。闪光和瞳孔位置估计取决于被保证为存在于捕获的图像中的特定几何形状。因此,为了实现鲁棒的凝视估计,一个人需要仲裁/融合/协调来自不同测量结果的估计。用于实现这个的一个鲁棒的方式是构建固有地结合每个测量结果在特定情况下的鲁棒性并且将测量结果组合成最终凝视估计的统计模型。
下文是用于凝视测量的一些示例性算法方法以及每个的优点和缺点(表3):
1.瞳孔/闪光(PG)测量(传统方法)
2.只依靠瞳孔边缘轮廓来推理瞳孔表面的3D定向以估计凝视的瞳孔法向(PN)测量
3.通过提取角膜缘边缘轮廓并且确定角膜缘轮廓的3D定向来测量的角膜缘法向(LN)测量
4.通过提取虹膜图案的空间纹理化特征来计算凝视并且估计凝视的3D定向的基于虹膜(IN)的凝视估计
表3不同跟踪方法的利弊
通过利用校准方案,能够知道真实的凝视位置。利用这个反馈,能够在诸如照明、用户度量、用户与设备之间的几何形状等的不同的条件下估计不同的算法的准确度。利用足够大的样本集,能够为每个算法候选获得在先准确度估计。算法的误差度量能够包括:
·所检测到的闪光的数目
·闪光间隔
·瞳孔的边缘上的点的数目
·角膜缘上的点(可能分割近侧点和远侧点)的数目
·量度随着时间的推移的稳定性
针对每个算法的加权可能取决于这些误差度量。一些算法固有地比其它算法更精确并且因此能够被加权。还能够根据凝视方向而协调算法(例如,降低的准确度在离开显示器的凝视方向上可能是可接受的)。双目会聚度能够被用来帮助确定错误的凝视方向。不必对于每个眼球使用相同的算法。
对不同的算法进行切换或者加权能够基于环境条件(例如,照明)或甚至诸如认知负荷的生理因素。误差监视还能够被例如用来确定是否在校准期间一直存在设备运动。还能够为了准确度和优美降级而考虑功率。这能够运行由针对精度的要求所驱动的或者由电力可用性所驱动的两种方式。机器学习方法还能够被用来确定不同量度的最佳选择或融合。
下文是用于数据融合的更直接示例性方法中的两个。
1.仲裁
假定被命名为Ai(其中i=1、2、...、n)的算法以及被命名为Pi(其中P1+P2+...+Pn=1)的基于校准的在先准确度估计。来自每个算法的输出被描绘为Oj。最终凝视估计被选择为
O=Oi,其中Pi=max{P1,P2,...Pn}
2.加权平均
在这个方案中,输出未被扔掉并且它们基于以在先准确度估计为基础的加权平均被融合。最终凝视估计被选择为
O=Ρ1*Ο1+Ρ2*O2+...+Ρn*Οn
耦合到其它用户界面的眼球信号语言
眼球信号控制还可以被构造成(至少在可能程度上)与部署在现有个人计算机、膝上型电脑、显示器、平板、智能电话或其它移动设备上使用的屏幕的设计中的对象交互。近年来一直存在远离例如基于文本的选择和描述而朝向基于图标的选择工具的演进。这个演进主要通过对基于鼠标的指示设备的引入来驱动以补充基本键盘输入。然而,传统的手持式鼠标不适合移动环境。最近,基于手指的手势尤其在便携式设备内已使数据输入发生巨大变化。现在存在用户对传达意义的图标以及传达意图的运动的接受的广泛基础。
眼球信号语言能够被适配成(一般地在不完全地利用如上所述的屏幕布局的效率的“子集”模式下)与这些设备内的对象和图标交互。在许多情况下,可能有必要增强(例如,放大、使特定选择元素加亮等)选择的显示以便符合凝视分辨率和眼球运动限制;然而,眼球信号添加能够单独或者与其它输入控件相结合地使用来支配各式各样的设备的额外水平的控制。
硬件性能和演进也已驱动朝向跨平台统一(从台式机到移动电话)的转变以及尺寸(包括高分辨率显示器的大小)的惊人减小。这个转变直接进入眼球信号控制的演进中。
使计算和显示硬件、软件的演进以及例如web页面或移动应用内的图形的复杂化平行已导致例如查找期望信息的能力方面的巨大进步。搜索引擎已从简单词搜索转变为针对由词的合集所暗示的场境敏感意义的搜索,甚至结合图像和声音。朝向更多的“视觉”以及甚至“视频”用户界面(即,图标、缩略图、图片等的使用)的转变单独或者与其它形式的输入相结合地适用于眼球信号的使用。因此,基于一个或多个(真实或虚拟)图像和/或视频的眼球定向搜索将向基于搜索的信息检索添加很大灵活性和速度。
虽然一些眼球信号交互将在现有屏幕布局/设计情况下高效地工作,但是眼球信号设计将驱动屏幕设计(包括跨HMI平台)的演进,以支持并且使得能实现解决速度、上下文、效率、认知处理的增加、协作参与等的新水平的交互。
眼球信号上下文
在下一个抽象级下,相对于显示的可交互对象的眼球凝视的1)空间、2)时间以及3)顺序特性全部被在策略上用来辨识用户意图。例如,只要“激活”可交互对象(例如,进行)未被查看,就能够在有限周期内严密地检查或者一般地查看菜单/应用选择环境的空间区域。除非存在激活的意图,否则用户快速地学习以避免激活(例如,“看”或者凝视)显示器的空间区域。
相比之下,主显露严密地束缚于选择的定时。如果在特定时间内发生选择则暗示由主显露可交互对象显露的可交互对象的“激活”(而无需进一步扫视到“激活”可交互对象)。在特定时间内选择/激活失败(针对临时“选择可交互对象”与持续“选择可交互对象”的关系,其中“菜单显露”可交互对象是一类)使显露的可选择对象消失,从而消除对于特定“决定退出”操作的需要。
附加地,能够在不同的条件下使用不同的序列。如果例如“进行”激活被认为是要执行的动作(即,启动应用或选择),则在激活它之前在选择-看-进行序列中首先执行(例如,应用的)选择。另一方面,在选择诸如“放大”的主显露的情况下,要执行的动作被首先选择,然后作为动作的“受体”的区域(例如,地图的或文本的正文)其次被选择。
所有顺序组合能够被串在一起并且可被应用开发者利用。除软件工具之外,一致的哲学、指南和标准变得可被开发者利用。这些能够被用来引导屏幕布局、菜单结构、决策树、定时和空间分辨率考虑事项、代码构造等。作为示例,能够遍及所有可交互对象使指示可交互对象是选择还是追踪的高对比中心目标变得一致,以除了确保所有可交互对象具有吸引的中心视点之外还关于使用帮助指导用户。
还可以使用为了可交互对象的类别(诸如颜色、纹理、大小、图形元素、加亮、半透明度等)的易于用户识别而创建视觉语言的任何其它形式的与众不同的图形处理。相同的策略还能够被应用于未被安装在头饰内(例如,在用户的环境内)但是指向眼球的眼球成像相机。这些很好地构造的系统和应用的最终目标是快速地且直观地辨识用户意图以将眼球信号变成动作。
通过眼球信号控制方便的另一重要领域是多用户交换。这包括针对常见群组中的人们之间的1:1、1:n以及甚至n:m同时聊天的眼球聊天的方法。这涉及屏幕和时间分割以及新通信字形的引入,全部都基于用机器智能补充的用户配置文件经由智能来启用,并且通过信息的用户到用户交换来简化。“聊天”可以是不用稿子的、部分使用稿子的或高度地使用稿子的。
连续激活模式内的眼球信号
在另一操作方法中,设备用户能够选择“连续激活”模式。在这种模式下,一旦已经选择连续激活功能(例如,经由可交互对象选择),后续眼球运动就被解释为具有基本上连续地或者重复地执行一个或多个动作的可能性。通过进入连续激活模式,设备用户变得不必执行离散的“进行”或激活眼球信号以便重复地或者基本上连续地执行特定功能或功能集。
连续激活可能保持有效直到设备穿戴者经由特定眼球信号(诸如激活“停止”534命令)或者诸如头运动、说的词或短语、可由场景相机查看的手势或与连接或者无线地链接到处理器的控制设备的交互的其它多模态终止指示来终止模式。在罕见情况下,还可以在延长周期(即,“超时”)之后例如当设备当在连续激活模式下时被从头部移除时终止激活模式。
如图5中所描绘,“连续激活”模式能够通过执行“摇摄和变焦”操作以利用图像的内容的示例来图示。在这个场景中,用户能够查看图像并且然后使用典型的“进行”眼球信号序列来选择“摇摄和变焦”可交互对象。这将设备置于连续“摇摄和变焦”激活模式下。在进入“摇摄和/或变焦”连续激活模式时,“+”(即,加号)535和“-”(即,减号)536符号被显示,通常在图像和/或可显示区域530的中心附近。连续激活区域或“轻推”531a、531b、531c和531d通过显示区域530的边缘处的虚线矩形来表示。能够查看“轻推”以执行摇摄功能。用户然后能够基本上连续地激活以下命令中的任一个:
·当“+”535被查看时,图像533被基本上连续地扩大(即,放大),只要“+”535被查看或者直到用户看着终止图标534为止。在一个实施方式中,用户一看别处或者当达到图像533的最大可显示分辨率时放大就停止。在另一实施方式中,一旦已经在连续功能期间发出了连续命令用户就能够自由环顾四周-例如,以在正在放大的图片中寻找面部,以在正在摇摄的地图上寻找期望位置,以在大滚动段中寻找文本,或者以在正在播放的视频中寻找项目。
·当“-”536被查看时,图像533可能基本上连续地收缩(即,缩小),只要“-”536被查看或者直到采取了显式终止动作为止。用户一看别处或者当达到图像533的最小可显示分辨率时变焦就可能停止。
·当图像533的顶部边缘531a被查看时,图像533向下“摆动”,从而显示位于原先显示的区域530上方的新内容。轻推继续直到用户把目光从显示器530的顶部边缘531a移开或者达到了可用图像533的顶部为止,或者轻推可能继续直到采取了显式终止动作为止。
·当图像533的右边缘531c被查看时,图像533向左“摆动”,从而显示位于原先显示的区域530右边的新内容。轻推继续直到用户把目光从显示器530的右边缘531c移开或者达到了整个图像533的最右边缘为止。
·当图像533的底部边缘531d被查看时,图像533向上“摆动”,从而显示位于原先显示的区域530下方的新内容。轻推继续直到用户把目光从显示器530的底部边缘531c移开或者达到了整个图像的底部为止。
·当图像533的左边缘531b被查看时,图像533向右“摆动”,从而显示位于原先显示的区域530左边的新内容。轻推继续直到用户把目光从显示器530的左边缘531b移开或者达到了整个图像533的最左边缘为止。
·同时在两个方向上轻推能够通过查看图像533的对应拐角来执行。
查看图像533的任何其它区域使“摇摄和变焦”功能暂停,从而允许图像533的更精细检查。连续激活许可直观且自然的眼球信号执行特定功能。
能够利用“连续应用”模式的应用或功能的其它示例包括能够基本上连续地选择图像的亮度与暗度的关系、调整音频输出的音量、通过移动表示闹钟的小时和分钟的刻度盘来建立唤醒时间、控制“滑块”或其它图标以调整基本上连续地可变的设置参数(例如,字体大小、轻推距离)以及控制被重叠到世界的物理视图中的虚拟对象的引入或修改。
连续激活模式的主要优点是在允许用户“让他们的眼球做他们的眼球做的事情”使得他们能够在没有眼球疲劳的情况下并且在没有不自然的、不舒适的或困难的眼球运动的情况下实现目标的同时快速地且重复地执行指定的一组眼球信号的能力。另外,这能够允许用户随着扫视而移动他们的眼球,或者随着平滑追踪而跟随变化景象,以改进对变化景色的认知。
然而,当在连续激活模式下时,其它命令集一般地不可用(以便避免命令歧义和/或不经意的激活)直到用户对连续激活执行“停止”534为止。“停止”534可交互对象例如能够代替为“进行”激活可交互对象所保留的位置,因为当在连续激活模式下时不需要执行进一步激活。这个位置还促进采用记忆引导的扫视来停止连续激活的能力,因为“进行”和“停止”534命令的位置被频繁地访问。
眼球信号控制的阅读文本
能够利用连续激活模式的另一示例性应用涉及文本或者需要比在单个显示器内可得到的区域大的区域来查看的任何其它信息(例如,地图、电路图、建筑图纸)的多个页面的可视化和浏览。在进入连续地激活的“文本滚动”模式时,文本滚动命令的有限子集可能变得可用。在示例性实施例中,这些可以包括:快速反向滚动、反向滚动、向前滚动以及快速向前滚动。
滚动动作它本身能够被以许多方式实现,所述方式包括与“浏览图表”、模仿书内的翻页、从顶部/底部或侧面基本上连续地馈送文本、以依赖于眼球位置的可变速率在显示器边缘处引入文本等类似的动作。滚动可以在向前(即,增加页号)或反向(即,减小页号)方向上。连续激活模式内的动作在查看与滚动命令中的每一个相关联的显示的区域时被立即发起。当设备穿戴者把目光从连续地激活的滚动命令的区域移开时页面滚动停止并且能够查看选择的页面。
当阅读文本的个别页面时,可在文本的边缘周围的区域内得到附加命令。这些命令被设计成与眼球随着页面正被阅读的自然进度相容。当阅读左右和上下布置的文本时,当特定页面的查看完成时达到屏幕的右下部拐角是自然的。因此,在达到屏幕的这个区域时“翻1页”(即,前进到下一页)是自然的。除实际的眼球凝视位置之外,能够可选地考虑查看位置的时间以确保足以完成页面的阅读的时间。
在达到页面的结尾并且转向新页面时,生理原理能够被用来引导用户的眼球以便于到新页面的自然转变。首先,能够通过从屏幕的右下部拐角移除“单页翻”可交互对象来招致间隙效应。这使用户更快速地将他的/她的眼球移动到另一位置。通过快速地引入新文本的画面,能够避免将眼球指向本文内的特定位置。相反,视需要,能够可选地在屏幕的左上部拐角中显示高度有吸引力的(从眼球信号观点看)“呼喊”。这个“眼球呼喊”能够为了下一页上的文本的继续和顺序阅读而帮助引导眼球。从显示器的右下部拐角到左上部拐角的扫视眼球运动也能够由有经验的用户记忆引导。
在通过文本排程序的渐进地增加的速率下,用户可能想要阅读、扫描或者跳过页面。阅读的过程涉及(用英语和其它语言)从显示器的左上部到显示器的右下部部分的具有完全感知的渐进式眼球运动。扫描一般地可能涉及眼球运动在更快速步子下的类似渐进。常常在扫描期间,用户正在搜索或者寻找一个或多个关键词、短语、图片、与众不同的颜色(例如,指示超文本链接)或其它与众不同的特征。当“跳过”页面时,用户一般地正在试图定位文档的特定页面或一般区域(例如,通过方式的四分之三)。
类似的考虑事项和控制被用来浏览“插入页面”(即,不占去全屏幕的可查看区域)以及可能作为小文档的结果或者在更大文档的开头或结尾出现的部分页面。
如上所述,连续激活能够涉及一系列单步骤激活(即,而不必每次经由“进行”扫视重复地激活)或基本上连续地执行过程。在后者情况下,过程被基本上连续地执行直到特定“停止”眼球信号被执行为止。连续执行的示例是扫描/滚动书的页面直到遇到特定页面或区域为止(当“停止”信号被执行时)。连续扫描使眼球自由在不用关心不经意的激活或者维持停留在正被显示的信息的特定区域上的情况下查看内容。
自适应眼球信号滤波器
在眼球控制的菜单周围导航的速率将随着用户经验以及适度量的训练而自然地增加。理想地,用于用户导航的眼球信号方案应该与用户内显然的经验程度相容并且自适应用户内显然的经验程度。例如,如果用户注视于主显露可交互对象并且该可交互对象的显示被从场景中移除,则初学者用户可能继续查看所选择的可交互对象的位置(与由更有经验的用户执行的立即记忆引导的扫视相对)。在示例性实施例中,紧跟选择的图标从显示中的初始移除之后,可交互对象的显示被重新引入达短暂周期并且然后被从显示中重新移除。如果被允许继续,则这个具有通过使可交互对象的显示闪烁(开和关)来向初学者用户指示对可交互对象的选择的效应。
随着用户变得更训练有素,需要更少的闪烁直到被训练到在没有可交互对象的扩展感知或闪烁的情况下仅产生记忆引导的扫视的专家用户的程度为止。在这个阶段,能够利用间隙效应来进一步提高眼球信号速率。类似策略可能要求随着时间的推移按更快速地逐渐消失的颜色改变或其它改变而退色或者改变颜色的可交互对象。
为了制定导致眼球受控激活的过程的进一步增强,算法知道特定用户的经验程度是有利的。这些量度能够被用来调节自适应系统。用户的专门技能的量度的示例是扫视到主显露可交互对象或另一临时显露可交互对象并且然后扫视到新近显露的可交互对象上(识别了到该显露可交互对象它本身上的扫视速率未必改变)所花费的时间。这些临时测量结果由短间隔指示很可能在主要使用记忆引导的扫视的更有经验的用户的系统容易地做出。
不太有经验的用户等待,并且可能感知到新近显示的可交互对象。这些量度能够被用来控制菜单呈现,特别是选择的显露的显示在它们的显示被移除之前的长度、在追踪对象运动之前的任何延迟、追踪对象速度等以便优化选择菜单周围的导航的速率。
示例性眼球信号菜单
进一步转向附图,图6示出眼球信号受控设备的主(即,顶级)菜单画面530的示例性实施例。屏幕在被调整大小以符合可靠凝视检测和区域选择的角分辨率的区域内包含表示用户应用的可交互对象。屏幕截图示出能够使用一只或两只眼球来选择的三行乘六列区域(总共18个区域)。
可选择区域的最左列631和最右列632被称为“侧边栏”,GUI内的常见记法。在这个主菜单示例中,左侧边栏631不用于眼球信号控制。右侧边栏632包含表示以下动作(从上到下)的可交互对象:主显露633、进行634以及页面向左滚动635。
如先前所描述的,可交互对象内的高对比边缘或区域帮助设备穿戴者的眼球查看或者注视可交互对象内的特定目标区域。在包含在图6中的侧边栏内的可交互对象的情况下,小高对比圆被定位在每个侧边栏可交互对象633、634和635内以为靶向和/或注视提供特定点。这除了将眼球的中心凹更精确地指向可选择区域的中心之外还给予用户“要看的一些东西”。使朝向可选择区域的中心的眼球凝视保持很好地远离边缘改进区域选择过程的可靠性,从而使选择变得不太易受眼球跟踪噪声和误差的影响。
左滚动功能635(即,位于右侧边栏的底部处的可交互对象)允许用户使屏幕“滚动”过一系列页面。页面滚动特征移除关于能够与功能的特定桌面/工作空间或分组相关联的信息(例如,可交互对象、文本、图片)的量的上限。页面滚动是公共GUI方法,但是使用眼球信号的实施方式需要唯一策略(参见例如图10)。
在如图6中所示出的样本屏幕截图中,不存在显示在左侧边栏631的最低位置中的页面滚动可交互对象。这是因为不存在实际上定位在当前屏幕左边的页面(即,这个屏幕截图是页面1)。沿着屏幕的最低部分的条636是页面位置指示器(有时在GUI内被称为一种进度条)。条636的填充部分的宽度是页面的总数目的指示。因为宽度象征被查看页面在页面的总数目内表示的一小部分,所以更宽的填充部分表示页面的更少总数目。条的填充部分的水平位置表示所选择的页面在总数目的页面内的位置。例如,所示出的样本屏幕截图是4个页面中的第一个。
在显示器530的中心区域内的侧边栏中间,图6的上部面板中的屏幕被划分成眼球可选择区域的三行乘四列637。可交互对象位于这些区域中的每一个内作为可被设备穿戴者利用的潜在动作或应用的视觉线索。在该屏幕截图中,图形可交互对象表示以下应用选择(从左向右到自顶向下)。
1.文本消息传送-其中所显示的值指示未读文本消息的数目
2.邮件-其中所显示的值表示未读电子邮件的数目
3.相机-为了拍摄快照或视频
4.数字小键盘-例如用来打电话
5.日历-其中显示了当前日期
6.时钟-其中显示了当前时间
7.文件夹-其包含包括存储的图片、文本和视频的文件
8.天气-具有能够显示当前天气状况和预报的嵌入式链接
9.记事本-存储的文本的档案
10.地图-其能够包括当前交通状况
11.音乐-存储在设备上或者其能够被下载
设置-以适应用户的视觉能力和/或经验
能够使用选择、看和进行的眼球信号序列来选择这些可交互对象中的任一个。在上部面板中所示出的示例中,框638围绕“文本”可交互对象,指示这个区域正被用户查看。
图7是眼球信号受控设备的主屏幕菜单530的另一实施例的图示。在这种情况下,包含可选择的可交互对象737的中心区域由三行乘三列网格(总共九个可交互对象)组成。与图6类似,右侧边栏632包含表示主显露633、进行634以及页面向左滚动635的可交互对象;并且进度条636位于菜单的底部附近。与每个可交互对象相关联的眼球可选择的区域与图6相比在水平方向上更大,从而使选择变得更容易。这个特征能够被例如用来适应涉及对眼球或头的运动的更少控制的视觉或神经状况(例如,帕金森氏病)。
图6和图7中所示出的中心菜单内的右下部可交互对象639能够被用来启动“设定”画面。设定能够被用来调整诸如在许多便携式计算设备内常见的通信控制、飞行模式、通知中心、下载、更新等的性能因素。用于眼球信号的唯一设定包括对追踪对象的延迟和定时、追踪对象风格、眼球可选择的区域的大小(与能够被显示在单个屏幕上的可交互对象的数目相对)、文本或页面滚动的速率等的控制。
图8是可能在主菜单“邮件”可交互对象(例如,参见图6和图7)的选择和激活时查看到的屏幕截图530的示例。侧边栏之间的中心区域列举例如根据邮件接收的时间戳排序的邮件的来源。这个面板还图示能够在策略上(针对眼球信号)并且动态地构造(即,根据在给定时间可被设备利用的信息)和/或与静态可交互对象一起使用多少不同类型的可交互对象。能够基于缩写名称831、昵称832、多行名称833、截断名称(即,以在眼球可选择的区域内适合)、全名称、相片或缩略图834、漫画835、企业徽标836等经由组成的可交互对象来识别电子邮件的来源。
作为在显示的上下文中使用眼球信号(即,在单个屏幕外)显示大量信息的示例:1)未读邮件的文本或邮件项目的眼球信号可选择的列表(如果超过一个邮件项目未读)在选择表示电子邮件发送者的可交互对象时被显示。2)已由设备穿戴者发送给特定实体(例如,个体或公司)的邮件能够通过执行眼球信号序列以选择实体接着激活位于左侧边栏838内的“sent”可交互对象837来查看。3)电子邮件发送者的附加页面可经由页面滚动得到。
图9是能够在诸如键入数值或者拨电话号码的应用中被用作数字小键盘的显示器530的屏幕截图的示例。显示937的中心三乘四网格包含可在典型电话上得到的基本选择。左侧边栏631和右侧边栏632包含能够由设备用户触发动作的可交互对象。右侧边栏632维持与表示主显露633、进行634以及页面向左滚动635的可交互对象位于一致位置中的图6和图7中所示出的主菜单的一致性。还存在位于菜单的底部附近的进度条636。与这个菜单不同的图标被添加到包括将人添加到呼叫(用于会议电话)的图标939以及将呼叫置于“保持”940上的图标的左侧边栏631。
图6至图9中所示出的示例性屏幕截图遵守常见哲学以及指南和标准的集合。遵守这些原理使用户体验变得更加直观,缩短学习曲线,避免不经意的激活,增强记忆引导的扫视的使用等。
图10图示使用滚动来管理并且使大于能够被显示在单个屏幕上的量(和/或还可能未被设备穿戴者完全地可视化)的一块信息可视化。图10示出在阅读文本的正文过程中被相继地显示的四个面板1030a、1030b、1030c和1030d。主显露633、进行634以及页面向左滚动635a被示出在它们在右侧边栏632内的通常位置(参见图6至图9)中。进度条636也被示出在其沿着显示器的底部的通常位置处。表示放大1037、文本摇摄1038以及页面向右滚动1039的新目标可交互对象(即,专用于文本阅读显示)被引入在左侧边栏631内。
滚动使用可交互对象的追踪风格来实现。当设备用户查看能够使用追踪过程激活的可交互对象时,可以产生一个或多个视觉对象的运动和视觉跟踪以允许用户经由平滑追踪传达意图。在简单激活(即,没有N取1选择)的情况下,整个被查看可交互对象能够移动并且激活通过用户是否跟随该可交互对象来确定。在这种情况下,页面向左滚动是通过查看位于右侧边栏632的下部中的“向左滚动”追踪可交互对象635而发起的。
在文本滚动的情况下,追踪可交互对象635b、635c不仅由设备穿戴者移动以方便平滑追踪眼球运动,而且文本1030b、1030c的整个页面以相同速度移动,进一步支持平滑追踪眼球运动的神经基础(即,使总体中心凹视图稳定)。
在除运动“向左滚动”可交互对象635a、635b、635c的方向以外的任何方向上的眼球运动中止滚动过程。在选择的距离(例如,跨越屏幕1030b的三分之一)上,达到“不返回点”并且页面不管眼球运动都继续滚动。这个眼球信号序列可用于滚动单个页面。
如果用户继续跨越屏幕跟随向左滚动可交互对象635a、635b、635c(如第三面板1030c中所图示),则页面继续滚动直到向左滚动可交互对象635a、635b、635c达到屏幕的左侧为止。那时,向左滚动可交互对象635c用页面计数器1039代替,如左侧边栏的底部面板中所图示。如果用户继续注视于页号可交互对象1039,则文本的全部页面随着页号递增而顺序地出现。翻完整页面的过程继续直到眼球的凝视点离开左侧边栏的最低区域或者达到最后页面为止。这允许设备穿戴者快速地选择并查看大块信息内的任何页面。
用于向右运动的过程是类似的,除了向右滚动可交互对象1039选自左侧边栏631并且所有方向是相反的。使用眼球信号来控制页面的过程能够被应用于文本文档、相片、列表、地图、绘图、图表以及对象的其它群组;以及群组内的任何数目(其超过从单个页面中选择的能力)的菜单选择。
类似的策略和布局能够被用来上下滚动。辐辏能够被用来滚入和滚出(即,在离设备穿戴者不同的距离上查看)。眼球控制的组合能够被用来通过与左/右、上/下和入/出可交互对象的各种组合交互来滚动(并且随后阅读、交互、摇摄、变焦等)。
示例性眼球信号语言元素
当使用追踪过程来做出N取1选择时,必须依次产生N个运动子对象以允许用户使用平滑追踪来指定追踪选择。图11图示使用追踪操作所执行的二取一选择的时间序列。顶部面板是当追踪可交互对象1130(被表示为中心圆角正方形)被查看时的初始设置的示例。两个追踪对象1131a、1131b被呈现,一个将被朝向左1131a投影并且另一个朝向右1131b。追踪对象包含至少一个高对比焦点(其能够包括整个图标)以通过眼球帮助平滑追踪跟踪过程。
追踪对象1132a、1132b、1133a和1133b像中间面板中所图示的那样向外连续地(且平滑地)行进。如果追踪对象1134a、1134b像底部面板中所图示的那样达到它们的行进范围的末端,则可以重复整个序列(从顶部面板到底部面板)直到一个追踪对象被充分地跟踪为止,从而指示选择;或者眼球远离追踪可交互对象扫视,从而终止选择过程。运动的重复图案一般地不是有经验的用户所需要的(并且能够针对初学者用户使速度慢下来)。
在二取一选择过程的情况下,眼球向追踪可交互对象(由虚线1138指示)的中心的左边或右边看花费的时间和/或离中心的距离两者能够被用来确定选择何时由设备穿戴者打算。N取1选择过程中的关键要素是确定平滑追踪的方向以辨识意图。
自顶向下,图12A-12H中的面板图示针对N等于二1232a、1232b;三1233a、1233b、四1234a、1234b以及五1235a、1235b的N取1追踪选择的示例性投影。能够特别在相对于扩展投影不存在边界约束的位置处(例如,当追踪可交互对象在显示区域内的中心位置中时,参见例如图6)使用在左侧的可交互对象1232a、1233a、1234a和1235a。在右侧的面板1232b、1233b、1234b和1235b是能够与上边界(例如,显示区域的上边缘)相邻使用的投影方向的示例。能够通过使所图示的投影旋转90°、180°或270°来处理位于与左边缘、底部边缘或右边缘相邻的追踪可交互对象。
位于拐角中的追踪可交互对象能够使用类似的策略来管理,但是拐角投影的有限方向范围强迫投影的数目保持相对低。为了清楚地区分方向以做出选择,行进以辨识用户意图(即,当眼球信号被确定为存在时)的阈值距离还可能取决于N。
图13A-13E示出针对四取一选择过程的不同风格的追踪可交互对象以及对应的追踪对象的示例。从左向右的快照1330a、1330b、1330c示出追踪对象序列中的每一个的时间进度。
图13A是原始可交互对象分割成向外扩展的四片的追踪可交互对象“爆炸”。没有留下原始可交互对象的部分。图13B示出仅可交互对象外壳“爆炸”从而留下原始可交互对象的内部部分的可交互对象。在图13C中,颜色或辉度编码的追踪对象从中心可交互对象向外扩展,从而留下原始可交互对象。在图13D中,追踪对象从可交互对象内开始以开始它们的向外扩展。图13E图示向新点随着时间进展而被添加的地方外辐射的点的“输送机”。这个后者方案的优点是随着任何追踪对象形成并且从中心可交互对象向外辐射而注视于它的能力,与等待单个追踪对象循环并且重新开始向外投影相对。
追踪对象外观方面的许多附加变体能够传达意义或者简单地区分在它移动的方向外的移动者。例如,不同的移动者能够具有不同的形状、大小、颜色、标签等。形状和标签可能是有意义的(例如,在形状如数字或者标记有数字的情况下)或任意的。
图14A的上部面板1430a图示用来实现主显露过程的覆盖图的示例。“主显露”在固定位置主显露可交互对象(即,图6-9的右上部拐角中所示出的星)被设备用户查看时被发起。查看使覆盖图可交互对象1431a、1431b、1432、1433和1434出现达短暂时间。此外,主显露可交互对象能够消失以便利用间隙效应,其中与新可交互对象的出现耦合的被查看可交互对象的消失帮助眼球更快速地扫视到另一位置,包括新近暴露的主显露选择1431a、1431b、1432、1433和1434。如果在指定周期内未选择新近暴露的主显露可交互对象,则顶级主显露可交互对象重新出现并且重叠可交互对象1431a、1431b、1432、1433和1434在没有任何进一步动作的情况下消失。
如果在主显露过程期间,设备用户在选择的时间内扫视到新近显露的可交互对象中的任何一个,则与该可交互对象相关联的动作被执行。如图14B的下部面板1430b中所图示,显露的可交互对象被在策略上重叠和定位,以便使对已经被示出在显示器上的内容的干扰最小化。如顶部面板中所示,显露的可交互对象被构造成具有高对比焦点(与侧边栏可交互对象类似)以在被查看时帮助引导眼球。最右边显露的可交互对象1434是导致主菜单或起始菜单的显示的“起始”可交互对象(参见图6至图9)。除了屏幕(在这种情况下,文本1435)在上下方向上滚动之外,位于上下显示器边缘附近的已显露的可交互对象1431a、1431b还以与图10中所示出的左右滚动可交互对象类似的方式操作。位于在屏幕左侧的中间位置处的主显露可交互对象1433表示“返回”按钮,将任何菜单选择过程向上(即,朝向主菜单)提升一个级别。屏幕的左上部拐角中的可交互对象1432发起取放功能。
图15A-15C中所示出的屏幕截图1530a、1530b、1530c图示演示显露菜单选择过程的示例性序列。选择过程是通过向作为最上部可交互对象定位在左侧边栏中的菜单显露633“看”而发起的。这使工具1536a、1536b、1536c、1536d的菜单出现,如中间面板1530b中所示。考虑到图更具体地巴黎的地图1537正被查看,这些工具是场境敏感的。所显示的菜单选择(即,对比1536a、变焦1536b、旋转1536c和编辑1536d)表示能够被应用于这些图的功能的组。视需要,能够利用指示用户的眼球凝视位置的基于强光的反馈来审视所有菜单选项。使用选择-看-进行序列来激活变焦选择使变焦工具的子菜单出现,如下部面板1530c中所示。
能够进而选择子菜单内的元素。重复这个过程允许工具选择像由应用开发者所期望的那样被深深地嵌套。特定菜单项目的选择使未用选择消失并且使表示所选择的功能的可交互对象用“返回”可交互对象1538代替。随着选择被做出而移除显露(其未必在个别菜单层的上下文内)也确保菜单嵌套(利用适当的算法规划)能够和期望的一样深并且仍然以坚持选择凝视分辨率的格式显示。
当设计具有三乘四凝视可选择的区域的布局时,始终能够在屏幕的中心区域的顶部行1539a上(在先前做出了选择的列位置处)显示“返回”可交互对象1538,能够在中间行1539b中显示多达四个显露的可交互对象,并且(随着每个组可交互对象被查看)能够在下部行1359c中显示多达四个子菜单选项。
激活“返回”功能1538将菜单选择过程向上(即,向后)移动一层,从而允许工具集被重新选择。例如,如果图15C的下部面板内的“返回”可交互对象被选择(即,使用选择-看-进行序列),则图15B的中间面板1530b将重新出现。查看用“返回”可交互对象代替的左侧边栏内的原始菜单显露可交互对象633的位置立即终止菜单选择过程并且移除任何重叠显露的可交互对象。
变焦子菜单图示(从左向右)正变焦1536a、负变焦1536b以及原始图像分辨率1536c变焦可交互对象。这些表示选择过程的最低水平(即,实际工具本身)。因此,随着显露的可交互对象被审视不再显示子菜单。一旦工具被选择(即,使用选择-看-进行序列),由该工具指定的动作就在不需要其它位置信息的情况下被执行(例如,变焦到原始分辨率),或者在需要位置坐标来执行功能的情况下位置一被选择所述功能就被应用(例如,当放大时的中心参考位置)。能够通过再次选择位置(即,使用选择-看-进行序列)来重复功能,或者能够通过查看显露可交互对象来发起另一工具选择序列。
眼球信号语言选择
图16示出用来检测可能导致动作的执行的眼球信号的算法步骤的总体序列。眼球的图像在1630处被获取和分析以确定凝视通路。如果在1631处因为眼球被眼睑覆盖或者以其它方式遮掩所以不能够找到眼球,则定时寄存器被简单地更新并且分析进行到下一个相机帧。滤波器在1632处被应用于眼球位置的所有系列以确定主要扫视或平滑追踪(或辐辏或前庭眼)眼球运动是否存在。如果找到与这些形式的有意的眼球运动的匹配,则凝视通路在1633处进一步与屏幕位置进行比较以确定与可交互对象或真实对象相对应的区域是否正被查看。在1634处凝视图案然后被进一步分析以确定它们是否一般地对应于显示在屏幕上的激活可交互对象。如果匹配被找到,则在1635处执行与所选择的可交互对象相对应的动作。
平滑追踪和扫视眼球运动在眼球信号的形成中作为分量的使用不限于在显示器上跟随或者使视觉对象(即,可交互对象)可视化。眼球信号还可以结合选择设备穿戴者的真实世界环境中的实际对象。这种形式的眼球信号选择和控制在用本领域中众所周知的对象识别技术(在场景相机图像内)补充时是特别强大的。
图17示出可以被用来获得关于真实世界中识别的对象的补充信息的一系列眼球信号选择的示例性实施例。这个流程图表示可以启用或者禁用是否显示关于在设备穿戴者的环境中被观察和识别的对象的补充信息的用户偏好的小代码段的结构。
该流程图图示扫视眼球运动和平滑追踪眼球运动两者被用来(无缝地)形成真实世界和虚拟显示器内的信号以及两者之间的转变的步骤。例如,“跟踪”菜单项目1710的用来在1720处产生进行选择的看是虚拟显示内的对象的扫视运动。在1730处可以使用扫视眼球运动来查看设备穿戴者的真实世界环境。在1740处识别环境中对设备穿戴者感兴趣的项目涉及对真实世界中的对象的平滑追踪。
如果感兴趣对象碰巧在透明或半透明显示器的查看区域内,并且在1750处可以通过在显示屏幕内画对象的轮廓(或者选择的某个其它指示,诸如十字、箭头、变化半透明度等)来做出对象已被选择和识别的指示。扫视眼球运动然后可以被用来在虚拟显示1760上查看关于特定感兴趣项目的信息。指向虚拟显示的平滑追踪运动可以被用来在1770处浏览关于感兴趣的真实世界对象的附加补充信息。
扫视运动然后可以被用来在显示的信息与真实世界之间转变以审视其它感兴趣对象。在1740处平滑追踪可以再次被用来选择另一感兴趣对象。在1760处用户可以扫视回到另一补充信息的显示。可以通过重复这以后的步骤任何次数来获得关于任何数目的对象的信息。最后,可以通过使用1790处的进行(即,扫视)在显示器上显示1780处的“退出”菜单选择以完成所期望的操作来终止“跟踪”模式。
帧速率的动态控制
另一示例性实施例涉及查看一只或两只眼球的区域的一个或多个相机的帧速率(即,每单位时间获取的图像的数目)的动态控制。相机帧速率是确定和测量眼球的图像内的对象的运动的速率和方向(即,速度)的主要决定因素。如先前所描述的,眼球内的肌肉能够为人体内的所有肌肉中的最快的运动。因此,为了更准确地且鲁棒地测量眼球和/或其组件的动态运动增加的相机帧速率在一些情况下是关键的。
现代相机能够在各式各样的帧速率上操作。瞬时帧速率还能够被像在逐图像基础上一样频繁地调整(即,受所谓的“时钟”电路支配)。
在示例性实施例内的频谱的低端处,在数秒周期内和一个帧一样低的帧速率能够被例如用来在眼球跟踪设备似乎已被从头移除并且不在使用中时保存资源。为更高性能使用作准备,以这些低帧速率获取的图像能够被用来在指示设备已被重新安装到头上的相机图像内搜索眼球的存在。在频谱的另一端,每秒1,000个帧或更大的速率能够被用来准确地测量眼球的图像内的快速扫视运动或震颤的速度。
用来控制相机的现代振荡器(即,“时钟”)电路内的时间准确度、抖动和精度用百万分率(PPM)测量。确定眼球运动的速度涉及眼球的“可跟踪的”组件在按时间划分从而使那些图像分离的多个图像之上的空间位置的量度。在获取数个帧的过程中,与相机图像内的对象的空间位置的量度相比100PPM的甚至相对低准确度的振荡器电路的时间准确度导致不显著的误差。因此,在做出眼球内的组件的速度测量时时钟准确度一般地不是限制因素。总体准确度主要受确定相机图像内的对象的空间位置的准确度支配。
与相机帧速率精密地对准是收集每个图像所需要的获取时间。相机获取图像可能花费的最大时间是帧速率的倒数(即,帧的总时间=1/帧速率)。然而,现代数码相机也具有限制它们在图像获取过程期间检测光子的时间的能力。限制用于获取光子的时间在本领域中被称为“电子快门”。非常短暂的间隔(通常为大约数微秒至数毫秒)的快门光(包括红外)收集时间“冻结”图像,从而允许运动对象的更清楚视图,因为对象边缘遍布几个像素。另一方面,更长的获取时间允许在每个图像期间检测更多的光子,从而提高相机图像的幅度(即,每个像素内的强度)并且一般地提高信噪比。
具有对相机性能的这种控制,示例性实施例利用可调整的帧速率和获取时间来保存电力,使与图像处理相关联的计算资源的使用最大化,使眼球测量(特别是与运动对象的测量相关联的那些)的精度最大化,调节足够的照明,并且/或者减少与即便当观察者集中于单个对象时眼球也在恒定运动(例如,微扫视、震颤)中的事实相关联的空间“噪声”。
尽管微运动能够可用来推理用户的状态的一些方面(参见下面),然而它们可能干扰平滑追踪和有意的扫视的方向和距离测量。更高的帧速率允许算法方法通过移除在这些频率下的振荡/运动来对微运动进行补偿的算法方法或诸如平均结果的其它数学方法。短暂的获取时间也能够被用来减少与微运动相关联的图像模糊。
图18图示在可变帧速率的控制中涉及的定序考虑事项中的一些。因为图像处理一般地可能在与图像获取相同的时间发生(其中获取由一个或多个相机独立地执行),所以在逐帧基础上控制速率涉及在基本上同时收集另一帧并且为下一个顺序地获取的图像的控制作准备的同时分析图像。
一旦在1830处从相机中检索到图像,就在1831处执行图像分析以确定后续帧速率。这些分析能够考虑是否正在发生扫视运动、凝视方向、眼球是否闭合、菜单选择要求等。一旦帧速率被确定,所有相机时钟和寄存器设定就在1832处被预计算并且加载到临时缓冲器(其能够位于相机上)中。然后在1833处暂停进一步处理直到当前图像的收集在1836处完成(例如,通过简单循环)为止。那时,在1834处设置实际的相机时钟和寄存器设定并且在1835处发起后续帧的获取。
尽管对用于分析眼球的图像的算法方法没有限制,然而能够一般地在三个范围中考虑帧速率:1)能够在不需要主动眼球跟踪时一般地使用范围从十个帧/秒到每隔数秒一个帧的低帧速率。应用包括知道已被从头移除的设备何时返回到查看一只或两只眼球能够被设备相机看到的位置或者特定应用何时不需要眼球跟踪并且仅重要的是知道设备是否且何时被从头移除;2)从10到100个帧/秒的中间范围帧速率能够被用于例行眼球跟踪;3)从100到1,000个帧/秒及之外的高帧速率能够被用来分析诸如在扫视的初始阶段期间的眼球运动以确定速度和剖面。
除调整帧速率之外,还能够动态地调整照明水平以例如帮助补偿更短的帧获取时间、移动到图像的照明差区域中的感兴趣对象等。在美国专利No.8,890,946中更充分地描述了基于相机图像的眼球的照明的动态控制。
眼球位置的预测
控制相机性能的特别有用的应用是在快速扫视眼球运动期间对目标位置的跟踪和预测期间。如先前所描述的,扫视眼球运动在性质上是“弹道的”。换句话说(与无制导导弹的发射类似),扫视的目标位置主要在扫视启动时被确定。没有“中间过程校正”被应用于扫视。通过仔细地测量扫视运动的初始部分的方向和速度,因此能够使用与应用于弹道导弹的那些数学方法类似的数学方法来预测扫视的目标位置。
准确地确定初始扫视方向和速度的关键是以高帧速率(通常为每秒数百帧)获取相机图像。数个技术可用于紧跟扫视启动之后立即获取图像的快速序列:1)一旦当以更低的帧速率采样时检测到扫视启动,相机就被立即切换到更高的帧速率。2)能够以高帧速率不变地运行相机电路(仅),从而将图像存储在环形缓冲器内。并非所有图像在正常操作期间被转移出相机缓冲器并处理。当检测到扫视时,能够检索已被存储在相机缓冲器中的快速地采样的图像以用于处理。3)能够基于眼球信号控制的“上下文”来调整帧速率。例如,当正被查看的对象具有使用“进行”被选择的可能性时能够增加帧速率。类似地,进行关联的扫视常常后面是诸如“起始”或“显露”的附加选择。能够遍及这些序列维持高帧速率。
能够以许多方式利用预测扫视眼球运动的目标位置的能力以改进眼球信号性能(例如,速度)和可靠性。
示例性实施例包括:
1.如果所预测的目标位置是命令序列的终点(例如,当某个动作将由设备执行时),则能够以各种方式中的任一种(在目标图标周围绘制框或圆、改变目标图标的颜色、改变图标的亮度、改变图标、改变围绕图标的背景等)使所选择的端点加亮。如果激活目标指示将对先前选择的对象或显示区域执行动作,则还能够显示该对象或显示区域的图形表示(例如,缩略图)。在这种情况下,能够显示“中心凹视图”缩略图。这些具有指示已经做出选择、吸引对选择图标的注意以引导通常紧跟长距离扫视之后发生的任何小校正扫视以及/或者减少用户甚至在眼球达到选择点之前感知到已经通过改变选择做出选择的时间并且通过显示为了识别不需要针对长期记忆的回想的“熟悉的”图像来进一步减少认知处理时间的效果。
2.如果所预测的目标位置是选择序列内的中间点(例如,在移动到“起始”或“显露”上之前的进行位置),则能够通过在弹道扫视期间(即,在达到目标位置之前)移除目标可交互对象的图像来实现增加的用户选择速率。目标可交互对象移除减少对于典型校正扫视的需要(因为校正目标已被移除)并且/或者利用间隙效应来允许眼球快速地移动到选择序列中的下一个目标上。这些策略能够大大地减少基于目标的串行序列来执行眼球信号所需要的时间。
3.在其它情况下,目标可以是诸如显示在下拉菜单中的那些选择的附加选择的启动点。在这种情况下,可能期望以辉度和/或不透明度被以受控方式引入的逐渐方式显示这些菜单或其它图标。还能够减弱最终辉度和/或不透明度。这些步骤的一个目的是避免吸引不经意的注意。人类和许多其它动物种类的大脑在辉度、边缘或运动中的快速改变而“连线”到至少一瞥;特别是如果在外围视觉系统内的话。图标或对象的突然和/或高强度引入将产生强迫设备穿戴者看着对象的趋势。通过使可选择选项的引入保持更平缓,能够在没有可能导致不经意的激活的分心的情况下发生有意的选项选择。
4.通过知道扫视运动的范围或距离,能够(实时地)调整眼球信号选择的严格性。例如,如果正基于从遥远位置发起的扫视做出选择,则能够扩展围绕被用来确定是否已经做出肯定选择的目标的区域以说明长距离弹道扫视期间的更大误差的可能性。相反地,能够在短扫视运动期间使用更高的严格性(即,更小的选择空间)以在用户正在简单地审视场景时避免非计划中的激活。
5.沿着类似的路线,如果扫视目标位置是已知的,则能够增加沿着扫视的路径的选择目标的严格性(即,变得更严格)以避免对这些目标的不经意的激活。
预测感兴趣区域控制
在高速率成像期间特别适用的另一策略是使由相机收集的图像的转移和处理与特定“感兴趣区域”(ROI)隔离。明确选择的ROI能够通过优化最可能包含必要的眼球结构的透射区域的可用带宽来方便高帧速率。与控制帧和获取速率类似,能够在现代相机内在逐帧基础上调整ROI。
在高速率成像期间,帧之间的对象的位置方面的空间差异减少,从而允许给定帧内检测到的对象的位置帮助为后续帧定义ROI。特别地在扫视眼球运动(而且适用于平滑追踪)期间,弹道扫视的轨迹能够被用来针对许多后续帧来预测眼球结构(以及因此,ROI)的位置。
图19A和图19B图示给定帧的ROI(虚线)1910以及基于预测运动的后续帧内的ROI 1920。在图19A中,ROI 1910被用来使基于运动的眼球100的区域与瞳孔的中心1925在先前帧1915(先前帧未示出)内的位置隔离。ROI的新位置是基于瞳孔的中心1925的先前位置与当前瞳孔位置1935之间的差异来计算的。对当前ROI应用这个差异导致了图19B中所示出的后续帧的预测ROI 1920。如所预测的,瞳孔的中心移动到其新位置1935。新近测量到的瞳孔位置1935与先前的瞳孔中心位置1925之间的差异能够被用来预测下一个帧(下一个帧未示出)的新瞳孔中心位置1945。
在确定用户是否正在经由平滑追踪执行眼球信号的过程中,在选择过程期间通过头饰确定的基本问题是:眼球凝视跟踪和特定追踪对象的位置和速度(即,方向和速度两者)匹配吗?如先前所描述的,这种类型的测量的复杂化是眼球即便在注视时的恒定叠加背景运动(例如,微扫视、震颤)的存在。减少这些快速小运动的效果的关键方法是以高帧速率采样。缺少更高的帧速率,发生本领域中被称为“混叠”(受由哈利·奈奎斯特开发的公式支配)的现象。
在以低帧速率离散采样期间,混叠能够使高频运动在可能取决于诸如高频分量内的频率以及帧速率的各种因素(即,未必基于眼球的宏观运动)的方向上似乎为低频运动。因此,更高的帧速率能够被用来满足奈奎斯特采样理论,以确定总体眼球凝视速度的更准确量度。这允许平滑追踪运动是否为眼球信号(即,用户意图)的确定更快且更鲁棒地发生。
信息显示的预测控制
术语“中心凹视场”或“中心凹视图”指代在个体的存在例如在阅读期间使用的清晰视力的视场内的中心区域。中心凹视图对于与眼球信号相关联的有意的运动的感知和形成来说是重要的。支持这个观念的解剖和生理特征包括尽管中心凹占据总体视网膜表面的不到1%然而视觉皮质的50%以上致力于处理来自中心凹的信息的事实。因此,在眼球信号期间与语法元素的构造相关联的感知主要涉及中心凹视图。
中心凹视图占去总体视场的约中心两度(不到1°至不到3°的报告范围)。如果这个视图是在眼球信号期间执行的动作的主体,则中心凹视图(或中心凹视图内的元素)能够被用来构造能够在眼球信号动作的图形表示内使用的缩略图或图标。例如,如果对象被查看并且“进行”扫视运动被执行,则用中心凹视图的缩略图代替进行目标能够用作动作正被执行的指示。这个视图对于设备用户而言既直观又令人喜爱。这个形式的指示还导致在不正确的主体被选择并且随后指示的情况下快速地收回或者颠倒操作的能力。
能够在各种模式中的任一个下构造中心凹视图的缩略图:
1.如果处理器不能够或者确实不识别中心凹视图内的对象或远景,则能够基于固定大小(例如,2°正方形)中心凹视图构造简单的缩略图。
2.如果中心凹视图的前景对背景区域被识别(例如,看与屏幕“背景”相比的屏幕上的图标、壁纸上的前景对象、对照天空设置的对象等),则能够移除背景并且前景能够作为中心凹视图缩略图被显示。
3.如果能够识别中心凹视图内的诸如面部的不同对象,则该对象(或对象的表示)能够作为中心凹视图缩略图被显示。
4.如果中心凹视图内的多个对象被识别,则对象的分组(或组的表示)能够作为中心凹视图缩略图被显示。
5.中心凹视图内的识别的对象或区域能够被增强(例如,使用例如GIF[图形交互格式]协议来加亮、不同地着色、画轮廓、标记或者动画绘制)。
6.中心凹视图对象的音频剪辑或表示能够补充识别和指示过程。
在另一示例性实施例中,设备穿戴者的视图的方向能够被用来控制显示器的辉度和透明度。知道中心凹视图的区域允许1)显示在中心凹视图内的信息以及2)显示在中心凹视图外(在旁中心凹和外围视图内)的信息的智能控制。
如果用户把目光从正被显示在中心凹视图中的信息移开,则继续显示或者更新该信息是非生产性的。这特别适用于诸如视频剪辑的任何形式的动画。因此,在把目光从中心凹视图移开时,能够暂停或/或抑制正被查看的信息(例如,减小辉度和/或增加透明度)。如果新中心凹视图被建立,则该区域内的信息能够被增强(例如,加亮和/或变得更不透明)。正好在中心凹视图的边缘外部(特别是当在对象之间存在边界时)的信息能够被“轻推”离开以使中心凹视图内的更多可见的对象隔离和/或放大或者在中心凹视图内做出更多可见的对象。
这些方案是多模态的原因在于它们1)用作区域正被查看的指示,2)通过抑制可能吸引不需要的扫视的对比度、运动或边缘来减少外围“分心”并且3)保存电力和计算资源。作为当使用HUD时的极端的(但常见的)情况,当用户把目光从显示器移开达延长周期时,能够使更多或所有的显示变得透明。这允许用户在不从头饰分心的情况下与他的/她的环境交互。还能够将显示器置于减少的处理能力模式下以进一步保存电池寿命。
在中心凹视图外部的智能控制包括抑制或者消除不与中心凹视图内的对象相容的眼球信号的语法分量。例如,如果正在中心凹视图内查看到面部,则用于获得关于对象的“成本”的信息的路径是不适合的,并且能够被抑制或者消除。相比之下,可以增强用于获得关于观察中的面部的“简档”信息(例如,名字、年龄)的可交互对象或路径。另一方面,当查看可能被购买的项目的条形码时,“成本”可交互对象能够被带到前面。智能上下文敏感菜单选择组合选择的上下文显示以及对那些选择在水平上下文以及当前中心凹视图内的对象两者内的数目和布置。
要显示或者抑制的特定项目的智能和上下文控制具有与用来向设备穿戴者呈现信息的速率的智能控制类似的考虑事项。在另一示例性实施例中,用来向设备穿戴者呈现信息的速率是基于上下文和用户表现(包括设备穿戴者的体验)而调节的。两类因素能够影响有用的信息能够由设备穿戴者感知到的速率:1)生理和2)人为因素或更具体地,认知人类工程学。用来调节信息显示的速率的原理适用于包括列表、动画、文本、图表、视频、图片/指令串等的各式各样的信息格式。出于在下面图示的目的,文本信息的呈现的速率被用来图示概念。
信息的控制的生理基础包括能够在阅读的过程期间产生扫视运动的速率。因此,以超过基于这些运动的感知的速率将信息呈现给设备穿戴者是无效的。还存在设备穿戴者当在延长周期内连续地查看内容时的“舒适”的问题,但是这可能依赖于包括正被查看的特定主题的许多认知人类工程学因素。此外,还存在与信息的感知能够被“分组”成更大块的所谓的“速度阅读”相关联的技术。
用于信息的控制的认知人类工程学基础包括与设备穿戴者相关联的许多因素(例如,感知和推理的速率)。在人类计算机交互的情况下,它还能够包括被显示的信息内的决策的密度。如果许多问题或选项被呈现给设备穿戴者,则不能够和当用户是扫描或被动接收模式时一样快速地显示信息。
生理和认知人类工程学导致信息的速率基于包括问题或选项的数目、内容的信息密度、设备穿戴者的体验和偏好等的许多因素被控制的实施例。在呈现文本的情况下,文本被滚动的速率不仅能够依赖于眼球运动和信号的最大速率,而且依赖于实际文本的上下文和内容。例如,如果文本包含到其它内容的“链接”(即,超链接),则能够使滚动慢下来以提供选择该链接的机会。测试的小区域内的多个链接或问题能够进一步使呈现速率慢下来。一旦经放大的文本已被查看被放大(例如,为了强调)的文本就能够导致更快速的滚动。滚动速率能够基于内容被自动地确定或者由个体在这些指示例如由内容作者提供时调节。
还能够应用这些技术来避免不经意的激活。例如,可以是动作(即,其能够被激活)的主体的“链接”可以仅当在屏幕的指定区域(例如,中心)内时被激活。当链接被选择(即,发生对作为超链接的文本的看)时,滚动能够冻结以1)向用户指示链接已被选择和/或2)给用户提供用于经由进行信号激活链接的更好机会。
信息显示的分辨率的预测控制
在另外的实施例中,信息显示的分辨率的智能控制能够基于用户的实测凝视位置以及预测将来的凝视位置并且随后“准备”用于查看的显示的区域。高分辨率图像的中心凹渲染在眼球被以在中心凹区域中感测到的高分辨率构造的意义上是仿生的。人类已进一步进化并且/或者被布置为感知并集中于在一定距离上或者在一个人的外围中的另一实体的面部和眼球。
中心凹渲染的使用被理解成解决与渲染过程和数据到显示器的递送相关联的许多问题。这在中心凹区域中允许高分辨率,并且在用户的视场的旁中心凹区域中允许合理高的渲染,同时在一个人的外围区域中允许更低的分辨率。将资源集中在高分辨率显示器上能够在当从远程设备获取了显示信息时的情况下保存电力、计算资产和/或带宽。
能够特别在当平滑追踪或扫视眼球运动被执行时的时间期间做出预测注定要变成中心凹查看的对象的显示器的区域的能力。在对象(例如,追踪对象)的平滑追踪跟随期间观察者往往跟随并且预期统一路径。对象的路径中的突然改变不与平滑追踪机制一致。在视觉对象的情况下,路径(以及因此所预期的凝视方向)是已知的。因此能够“领先于”平滑追踪,从而在中心凹区域中维持高分辨率显示。
扫视运动的弹道性质许可扫视落区域在扫视启动之后短时间内被预测到。这允许落区域被及时“准备”有高分辨率显示渲染以便于用户的凝视的达到。
基于认知的视觉对象的引入和移除
在另一实施例中,能够采取步骤来控制在显示器内被引入或者修改的对象是否被以以下方式呈现:1)吸引注意或者2)避免分心。在应用的一些阶段期间,可能期望吸引对对象或位置的注意。例如,如果文本将被插入在段落内的特定位置处或者特定地图位置将被放大以便于利用,则可能期望将眼球拉回到动作正被执行的焦点(例如,跟随激活扫视)。
另一方面,如果可交互对象将被引入以便发起选择过程(即,为有意的扫视提供多个目标),则可能期望以避免审视对新近引入的对象中的每一个或全部的扫视的产生的方式引入那些可交互对象。能够结合设计因素以在不吸引注意的情况下引入对象。这在别处被称为使对象似乎是“看不出地可见的”。
能够被用来控制吸引到对象的注意的程度的广泛类别的因素能够通过简单的术语来描述:1)什么、2)在哪里、3)何时和/或4)如何。以下部分描述这些类别的因素中的每一个如何能够被利用来吸引注意或者避免分心。它们在通过应用设计者形成直观且在视觉上舒适的眼球信号时是重要的组件。
1.术语“什么”指代正被引入的一个或多个对象的视觉特性。对象结构能够包括以下特性中的一个或多个:大小、颜色、辉度、透明度、与背景相比较的对比度、对象内的对比度、结构复杂性和/或动态控制。
被设计来吸引注意的对象的引入可以是大的,在其颜色方面是大胆的,按高辉度显示,不透明的并且呈现有与背景相比的高对比度,包含显著的量的高对比度细节和/或具有变化动态特性(例如,亮度、颜色变化、运动、动画;参见下文)。这些特征的任何组合能够被用作设计旨在吸引眼球的对象或可交互对象的基础。其它因素包括预定意义、使用的频率、关联动作的“重要性”,并且动作的分组也能够影响对象设计。
另一方面,设计来避免分心的对象的引入可能更小,在着色方面柔和,按低辉度显示,部分地透明,与背景相比在对比度上低,呈现有很少或甚至模糊的内部/环形边缘,并且/或者按相对简单的形式放置。具有柔和颜色的最简单的对象和可交互对象设计例如能够被保留用于与被频繁地显示和/或使用的动作的关联。
对象的视觉特性(例如,大小、辉度等)中的一个或多个的分级等级还能够被用来指示考虑到眼球信号的序列的上下文和概率性质被包含在眼球信号中的“重要性”或可能性。
2.术语“在哪里”指代对象相对于下列中的一个或多个的放置位置:相同或类似的对象的历史放置、总体显示(包括显示边缘和边界)、相邻对象(聚类)、当前凝视位置以及紧接在当前对象放置之前的对象或背景。
记忆能够在确定新近呈现的对象是否吸引注意并且在探查的扫视被唤起的情况下眼球运动是否是记忆引导的(即,快速的)时起极其重要的作用。在特定位置处在多个场合上先前看到的对象往往不吸引进一步注意。能够通过在同一位置处重复地(即,在不同的活动和应用中自始至终)引入频繁地使用的对象和可交互对象来利用这个。
空间参考也在个体关于新近引入的对象是否是“新颖的”(即,需要注意)的确定方面起重要的作用。显示边缘和形状以及固定位置显示参考为更多“例行程序”与新颖信息可能出现在哪里提供空间线索。应用设计者能够利用空间线索来将对象特别是作为用于记忆引导的扫视的目标的那些对象定位在基于这些视觉线索可容易地识别的位置处。例如,设计者能够选择在显示器的更中心区域以及更靠近外围边缘的可选择的可交互对象中显示信息内容(图片、视频、文本等)。
为了避免探查的扫视,具有类似外观和/或功能的对象能够例如沿着显示器的一条或多条边在空间上聚类。这往往避免“寻找”特定菜单选择的过度审视扫视。例如,所有文本编辑功能(例如,删除、替换、插入)能够被放置在显示器的特定区域内。记忆引导的扫视能够被用来查看这个区域。即使设备穿戴者未回想特定功能的精确位置,搜索扫视也可能随后限于该区域。
设备穿戴者的当前凝视位置的知识还提供用于在新显示对象的引入期间吸引注意或者避免分心的有价值的输入。存在当在观察者的中心凹视图内查看时在精细结构细节内发生改变的情况下维持注意的强烈趋势。因此,能够通过在查看的同时产生和/或修改结构细节来实现维持注意。另一方面,减少或者消除(即,产生间隙效应)精细结构能够产生向另一位置看的趋势。
相比之下,对象的精细结构方面的改变在显示器的不在中心凹视图内的区域(即,旁中心凹和外围视图)内变得很不引入注意。能够通过将精细结构添加到对象或可交互对象或者修改现有对象而在显示器的在设备穿戴者的中心凹视图外部的区域中不吸引注意来利用这个。当凝视位置改变时,能够随后在不吸引探查扫视的情况下修改显示的不同区域。以这种方式,能够随着用户查看不同的区域而在没有分心的情况下渐进式地“更新”全屏幕。通过菜单对象和布局的仔细设计,还能够在维持从多种多样的上下文敏感菜单选项中选择的能力的同时使分心的可能性最小化。能够通过使粗对象或可交互对象轮廓内的改变最小化并且指示主要在中心凹视图内可查看的精细结构内的不同选择来经由设计实现这个。
沿着类似的线路,通过仔细地选择对象的位置,在对象之间的转变和/或对象与显示背景之间的区别期间的时间差异能够被利用来由设备用户增强或者抑制注意。如果新近引入的对象与正被替换的对象相比在大小、形状和/或中心位置方面基本上不同,则先前对象的外观以及新对象的引入用来吸引注意。另一方面,如果新近呈现的对象被定位为使得它被叠加在先前对象上(即,使转变的像素的数目最小化),则能够使分心的可能性最小化。
3.术语“何时”指代对象的引入相对于下列中的一个或多个的定时:激活和其它眼球信号时间参考、眼球的扫视和其它运动以及眨眼。
基于眼球信号的初始步骤被“预期”的对象或可交互对象的引入往往不使设备穿戴者对产生探查扫视吃惊。如果用户先前已重复地看见和/或使用了该序列则这是特别真的。因此,应用设计者能够在一致且期望的时间重复地引入可交互对象以改进舒适和性能。
被称为“变盲”的概念指代能够将视觉刺激引入到观察者的视场中而不被注意的技术。这些技术包括在闪烁或分心期间(例如,在所谓的“泥喷溅”期间)更改、在集中于背景的同时改变图像的背景、在区域不在查看中时引入改变或者以被认为向大脑内的神经处理(即,与注意广度有关)机制提出挑战的速率慢慢地改变颜色或形状(即,变形)。
在扫视期间,设备穿戴者基本上是“盲的”(即,视觉皮质不是出于感知的目的而处理神经输入)。这个时间能够被用来在不引起注意的情况下将新对象引入到视场中(或者从视场中移除旧对象)。事实上,使用“变盲”,将甚至未感知到在“盲”时(例如,在扫视期间)引入的对象直到它们在中心凹视图内被具体地看到之外。这提供不时引入对象和/或可交互对象的理想机会。
图20图示在扫视期间经由不透明度的阶跃改变引入新对象的时间。上部迹线表示实测X(即,水平)2030和Y(即,垂直)2031凝视位置。当在2032处检测到扫视眼球运动的发起时,在2033处不透明度在扫视的时间期间被改变为期望水平。相对于扫视的发起的类似的定时考虑事项能够被用来改变包括颜色、对比度、辉度、细节等的对象的其它主要特性中的一个或多个。
类似的策略能够被用来在眨眼期间在不吸引注意的情况下引入对象(即,对象在眼球闭合时被引入)。相反地,能够在设备用户在清楚地查看显示器时或者在眨眼与扫视之间显示旨在吸引注意的引入的对象。
4.术语“如何”指代在引入一个或多个对象的过程期间对以下动态元素中的一个或多个的调制或控制:大小、颜色、辉度、透明度、结构细节、位置(即,水平和/或垂直运动)和旋转。
被设计来吸引注意的对象的初始形成的动态特性一般地集中于对象的大小、颜色、辉度、透明度和/或结构细节方面的快速引入。一旦被引入,就能够以对于大多数人类而言容易地可感知的速率(即,以从约0.2至5秒的重复率)动态地对这些元素中的任一个或全部进行调制。在对对象的辉度进行调制的情况下,这个将被感知为“闪烁”。对对象的大小进行调制将被感知为“放大和缩小”。动态地对对象的位置和/或旋转进行调制由于被设计来检测旁中心凹和外围视场中的运动的神经电路而在吸引注意时是特别有效的。对象的位置和/或旋转的动态控制将一般地由观察者描述为“振动”。
用于在吸引注意(以及后续探查扫视)的情况下引入对象的关键技术包括引入以下动态元素中的一个或多个:1)逐渐地和/或2)在当设备穿戴者是“盲的”时的周期期间。图21图示利用这两个原理的对象显示序列。上部迹线表示实测X(即,水平)2130和Y(即,垂直)2131凝视位置。在这个示例中,对象不透明度的调制被用来将对象引入到视场中。对象是在2134处以分级方式引入的(即,与先前所描述的透明度的“阶跃”改变相比),在2132处首先检测到扫视时开始并且在2133处在扫视的结束之前结束。分级引入还能够被用来改变对象的包括颜色、对比度、辉度、细节等的其它单独的或多个(即,同时)特性。
与个体的注意广度相比,对象的分级引入在限于单个扫视的周期的情况下仍然是相对快速的。利用“变盲”的另一技术是在更延长的周期内引入对象。已经开放了基于一般地不被观察者感知到的图像内的改变的逐渐引入的许多视错觉。视错觉基于在数秒期间发生的改变。能够在更短的时间段期间引入被设计来简单地不吸引注意的改变(即,更少挑战)。改变可以或者可能未被选择成在扫视的时间期间被发起。
在图22中图示了逐渐改变的时间依赖的示例。上部迹线表示实测X(即,水平)2230和Y(即,垂直)2231凝视位置。在这个示例中,对象的辉度在2233处逐渐地增加直到它被观察者清楚地看见(即,当被搜寻时)为止。这个辉度剖面图2233还图示对象特性中的“非线性”改变的引入。在这种情况下,辉度的周期改变的开始和结束被以比辉度剖面的中心部分慢的速率改变。这避免辉度增加剖面的改变速率的突然改变(与“加速度”类似)。
随着时间的推移而逐渐地转变对象的结构细节在本领域中被称为“变形”。当慢慢地完成时,变形对象内的改变未被注意到。使对象变形以使它可被用户利用(而不产生分心)能够从显示背景或占据同一位置的在先对象开始执行。当例如对象从相对均匀的背景变形时,在结构细节上可能存在渐进式增加。
另一方面,具有大胆对象特性的变形技术能够被采用来吸引注意。例如,通过使对象逐渐变大来“使”对象“生长”往往吸引审视扫视。在大距离上(例如,从当前眼球对象位置朝向凝视正指向的位置、从显示区域的边缘或中心等)移动对象能够被用来具体地引导眼球运动。
涉及“看不出地可见的”对象特性的已调制引入的方法的另一变体是在数个扫视和/或眨眼期间在对象特征方面引入更小的幅度改变。如上所述,能够在“盲”周期期间例如在扫视或眨眼期间引入对象的特征(例如,大小、颜色、辉度、透明度)。在图23中图示了多个扫视和调制特征引入的使用。
图23中的上部迹线表示在2330凝视位置处的实测X(即,水平)以及在2331凝视位置处的实测Y(即,垂直)。在这个示例中,对象不透明度在2332a、2332b和2332c处的三个扫视的周期期间递增地增加。完全可见的状态在2333a、2333b和2333c处三个对应的时间段期间被实现。更一般地,能够在设备穿戴者把目光从显示器移开时在任何数目的扫视、眨眼或周期期间引入任何特征或这些特征的组合。
许多相同的策略还能够被用来控制对象从显示器的消失。对象用另一对象替换还是用背景替换、对象移除的定时和构造(更频繁地以避免使扫视分心)能够利用被采用来引入新对象的相同原理和技术。
用于辨识用户意图的机器学习方法
在眼球信号的形成期间特别有用的意图的眼球运动分类的示例是对眼球运动是否是“有目的的”的确定。这一般地与生理“无意的”眼球运动与“有意的”眼球运动之间的区别有关。无意的眼球运动不在连续控制下并且因此相对于与眼球进行通信贡献很少。有意的眼球运动在连续控制下并且因此能够被用来在眼球信号的形成中传达有目的的意图。
特定眼球运动是否是“有目的的”的知识例如能够被用来在执行眼球信号时避免不经意的激活。这能够通过调整用来辨识(即,变得更严格)激活序列的执行的准则(例如,目标空间位置、时间)来实现。如果眼球运动似乎是无目的的则能够不理对激活可交互对象的短暂注视。相反地,如果眼球运动似乎是有目的的,则例如能够使对朝向激活区域凝视的响应加速;从而允许眼球信号被更快速地执行。甚至能够在已经辨识了正在做出“有目的的”眼球运动的情况下减少或者消除一些眼球信号序列。
另外,能够通过其它感测到的数据来通知目的性的确定。这种感觉数据的示例包括头运动、面部运动、手运动和其它可量化数据。另外,如概述的上下文以及对象凝视特定上下文能够协助确定目的性。
对于“有目的的”对无意的眼球运动的鲁棒分类,需要同时考虑许多量度。这些量度可以包括扫视启动延迟、峰值扫视速度、被扫视覆盖的角距离、在平滑追踪期间行进的距离、校正扫视的数目、注视时间等。换句话说,这些分类一般地是多元的。针对这种数据的分类方法能够使用:1)统计方法学和2)神经网络方法学。
统计方法涉及本领域中众所周知的技术。这些方法的示例包括线性分类器、二次分类器和贝叶斯统计。一般地,监督学习(即,其中正确地识别结果的数据集是可用的)能够被用于机器学习。训练和验证数据集例如能够通过使设备穿戴者随着眼球信号被执行而实时地指示眼球运动是否是“有目的的”(例如,通过按开关)来收集。用于获取这种数据的典型且易于使用的设置涉及随着有目的的眼球运动被做出而按下计算机鼠标上的按钮。具有已知结果的这些数据集然后通常被划分成用于训练(即,机器学习)的集合以及用于验证的那些集合。
类似地,具有正确地识别的结果的数据集也能够被用于神经网络或深度学习分类方法的训练和验证。用于训练神经网络的方法(诸如反向传播)在本领域中是众所周知的。具有大量的中间(或所谓的“隐藏”层和互连(在数百万至数十亿的范围内)的神经网络的应用常常被称为“深度学习”。这些理想地适于基于眼球运动图案和其它感觉数据来辨识用户的意图。
当使用许多基于人工智能(AI)或神经网络的分类方法时,通常难以探知诸如不同输入之间的相对重要性或交互的因素或者难以插入概率信息以改进网络。这在一些情形下可能是不利的。然而,一旦被训练,基于神经网络的实施方式就可能是极其快的,并且既存储高效又能量高效。神经网络还能够容易地用固件逻辑(在例如FPGA内)实现,而无需利用中央处理单元(CPU)资源。
图24示出在2413处在算法上将凝视位置2400和其它输入2407变换成用户意图的神经网络的示例。实测凝视位置2400被转移到“n”个位置(Χ0,Υ0)、(Χ1,Υ1)、...(Xn,Yn)的先进先出(FIFO)缓冲器。坐标X0 2401、Y0 2402表示最近获取的凝视位置。当获取了新凝视位置时,先前存储为X0 2401和Y0 2402的值被转移到坐标X1 2403和Y1 2404。这个转移过程在FIFO缓冲器内重复直到最终坐标Xn 2401和Yn 2402中的值被丢弃为止。包括眼球信号2407的目标位置的附加输入还可以被供应给神经网络。
在图24中所图示的网络的情况下凝视坐标(Xi,Yi)作为神经网络的主要输入被示出。这将适合于被以恒定采样速率确定的凝视坐标。在当非均匀采样速率被利用时或者当采样的数据像在下面所描述的那样被变换成眼球运动时的情况下,做出测量的Ti能够作为神经网络的输入(Xi,Yi,Ti)被包括。
这个示例性网络由输入层2408组成。这个输入层2048在2409处与中间层2410完全互连。这个中间层2410进而在2411处与表示输出层2412的单个节点(在这个示例中)完全互连。互连2409、2411是表示将值从一个层携带到下一层的权重系数的算法的关键组件。这个简单表示的最终输出是表示诸如“目的性”的某种形式的意图的值2413。
针对个体的最准确的分类方案基于来自个体的数据和训练。这作为个体当中的诸如控制眼球周围的眼球运动、肌肉强度和组织的精确神经通路的因素的变化的结果而出现。在基于个体的训练之前,能够使用已经基于个体的种群训练的“通用”分类方案。一旦个体的数据已被用来训练分类方法(例如,统计或神经网络)与该个体相关联的系数就能够成为在设备被重新安装时针对每个个体检索并且重新加载的校准包的一部分。
在示例性实施例中,用于辨识“有目的的”用户意图的分类过程的主要输入是眼球凝视位置的坐标。为了考虑眼球运动的序列以及暂停、速度和加速度(即,其能够从眼球运动的序列得到),在直到当前时间前的时间获取的图像中测量到的眼球位置的坐标能够作为输入被包括。
为了避免混叠,特别是在快速扫视眼球运动期间,用于确定眼球位置的获取的图像的帧速率需要在每秒数百帧的范围内。用于分类的输入的总数目还能够考虑与意图相关联的动作的“注意广度”。例如,约一秒钟或更多秒钟的这种数据可以被用来辨识“有目的的”动作。因此,当数据使用恒定采样速率来表达时,与凝视位置相关联的网络输入的总数目等于采样速率乘以“注意广度”再乘以二,用来表示凝视位置的坐标(X,Y)的数目。
其它输入能够(可选地和/或当可用时)被包括在分类计算中以辨识是否正在执行有目的的眼球运动。相对于凝视坐标表示的对象在用户的视图的位置可以是区别输入。作为有目的的眼球运动的潜在目标的可选择的可交互对象的坐标是特别有价值的。相反地,在视场中不是用于激活的目标的对象的位置更可能通过审视眼球被利用。用于帮助辨识有目的的眼球运动是否正在发生的其它输入包括大小以及瞳孔几何形状的改变(例如,收缩或扩张)、头运动等。
预测和结构化深度学习网络
所谓的“深度学习”机器学习方法利用大量的隐藏层和关联的权重或突触连接。深度学习网络使用能够表示不同的抽象级的非线性处理单元的级联。已经开发了大量不同的深度学习架构,包括卷积深度网络、深度波尔兹曼机、深度内核机和深度Q网络。深度学习网络已被应用于计算机视觉、语音识别、生物信息学以及许多其它领域。
对眼球信号使用深度学习方法能够被分类为“时间系列”数据分析。换句话说,能够根据随着时间的推移而测量到的一只或两只眼球的(X,Y)位置的系列来识别眼球信号。语音识别也是时间系列分类问题。因此,语音识别中使用的数学和分类方法能够一般地被应用于眼球信号识别,其明显区别是具有语音一般地是从单个音频数据通道(通常转换为傅里叶系列)识别的然而眼球位置每次通过至少两个(在单眼球的情况下)或四个(在两只眼球的情况下)值(表示水平和垂直位置)来表示。这个区别能够容易地由深度网络的输入层处理。
时间系列神经网络分析能够被应用于执行1)识别和/或2)预测。在眼球信号分析的情况下,能够利用这些能力中的两种。识别一系列眼球运动以指示设备穿戴者的动作或意图是眼球信号语言的关键。在时间上提前(即使仅一秒钟的若干分之几)预测或者投影的能力具有许多实际且增强的用户体验后果:
·通过投影眼球运动的预期位置,能够在相机图像内指定特定“感兴趣区域”(ROI)。最初能够将仅这个ROI从相机转移到一个或多个处理器以用于分析,从而节约电力和资源。
·在一些可预测的眼球运动(例如,扫视)期间,可以能够在短周期内关掉相机,从而节约电力。
·搜索一只或两只眼球的位置的算法能够首先在这些投影位置处搜索,从而节约电力和计算资源。
·能够修改给用户的信息的显示以预期眼球运动。例如,扫视眼球运动的目标虚拟对象(即,“可交互对象”)能够被替换或者从显示器中移除,并且其它对象在扫视落之前被引入到显示器。用已被查看的对象的缩略图图像替换落地点使用不需要从长期记忆回想的“熟悉的”场景(在下面描述)的原理。
·可替选地,目标对象的移除利用所谓的“间隙效应”来“释放”通过视觉皮质的处理,使得眼球能够更快速地移动到下一个可查看的对象上。
·还能够预测能够随后通过单个简单运动激活的动作(更像当使用键盘时的预测文本输入)的眼球信号系列。
在扫视落的预期中的显示区域的“准备”是“加速”眼球信号语言的使用的一个重要分量。能够在许多附加情形下应用将向前或预期事件投影成将来的能力。
例如,眼睑和/或眼睫毛的运动能够被用来预期眨眼将发生。随着眨眼被发起,系统能够预期用户将在功能上盲持续眨眼的持续时间(通常从0.3秒至0.4秒)。在这个时间期间,能够通过减小帧速率来保存电力并且/或者能够以不吸引注意的方式引入可交互对象和/或其它对象。此外,用于在眼球信号语言内选择或者激活的功能能力能够被置于“暂停”上。这个模式能够被用来针对特定操作调整定时考虑事项。
平滑追踪比扫视慢得多(即,花费更多时间)。因此,除非系统知道被跟踪对象的运动已停止,否则一个人能够预期平滑追踪将继续一会儿。在这个时间期间,系统能够“抑制”与扫视或其它形式的眼球运动相关联的用户可选择的选项。
振荡、震颤以及其它形式的更小眼球运动具有特征重复图案(其可能特定于个体)。一旦这种重复图案已被识别,就能够在时间上提前将这个图案的贡献投影到眼球的总体位置。通过投影(并且“减去”)这些无意的(即,不是有目的的)振荡对实测眼球位置的贡献,能够确定眼球运动的任何有目的的分量的更准确的评估。
尽管在时间上不严格地是向前投影,然而能够基于眼球的位置来“预测”当通过二维成像系统监视时由于眼球的三维结构而导致的极端眼球位置(即,左右、上下)的测量中的空间失真。再一次,能够将实测位置“减去”在这些运动期间产生的空间失真以更准确地确定有目的的分量。
能够基于实测方向和速度使用神经网络或更传统的分析方法来执行在时间上提前投影的能力。重复强调,用于提前投影并且预期眼球信号和其它事件差甚至最小量(数十到数百毫秒)的能力能够通过将眼球信号更直接地链接到动作来完全变换用户体验的舒适水平。在类似的情形下,观看人在来自发言者的声音被延迟即使仅一秒的若干分之几时说话的嘴的视频是“不舒适的”。
使用深度学习来辨识眼球信号的特定优点是眼球运动的相对有限数目的自由度或“全部技能”。如上所述,眼球由能够施加收缩力的六块肌肉来控制。与生理和神经逻辑处理限制(也在上面描述)耦合的这个解剖约束对在人类中可能的眼球运动的类型和范围设置边界。因此,能够针对这些眼球运动的全部技能的识别“训练”适度大小的深度网络。
将神经网络用于眼球信号运动的另一优点是注意导致激活并且识别“错误”的成功系列的眼球运动的持续能力。不经意的激活或“错误”能够被识别为被执行以“撤消”或者校正动作的眼球运动的后续系列。因此,产生不注意的激活的眼球运动图案或者相反地产生预定动作的图案可容易地且连续地用于连续的神经网络训练(即,反馈)。
在附加实施例中,类似的分类方法能够被用来辨识用户的“意图”的其它方面。这些分类输出能够包括“显着性”(其能够被进一步分成兴趣和重要性)、无兴趣、想要“记忆”正在看什么(即,个人增强记忆[PAM])、不喜欢、快乐或生气(例如,在玩游戏期间)等。在这种情况下,用于向分类方法提供附加区分能力的附加输入能够变得可用。这些包括时刻、日期、用户位置(例如,室外、在卧室中)、活动(例如,驾驶、看电视)、头以及身体的其余部分的运动等。用于训练和验证的数据集可以包括用户在按各种意图执行活动的同时的报告活动和/或意图。
在另外的附加实施例中,类似的分类方法能够被用来辨识用户的“心智状态”的其它方面。在“心智状态”与先前所描述的“意图”之间划分的区别是“心智状态”分类的更被动或能接受的性质。然而,这个区别不是刚性区域,因为例如,一个人可能一般地在玩游戏(其中眼球运动能够反映这种心智状态)期间高兴或者一个人能够随着使一个人变得高兴而对图像的显示做出响应。“心智状态”结果能够包括疲劳、恐惧、憎恶、认知负荷、应力、吸引性等。再一次,用于训练和验证的数据集可以由用户在查看不同的场景和图像并且/或者参与不同的活动的同时的报告心智状态构成。
这些更大网络的构造例如能够基于场境。网络的一部分能够变得对在特定菜单选择被显示时或者在看特定类别的对象时辨识意图更负责。使网络“知道”设备用户正在查看什么允许更结构化和/或更快的神经网络训练以及更鲁棒从而导致对眼球信号的更快且更准确的响应的深度学习结果。
图25是已知量被具体地编码在网络区域和特定网络层中的深度学习(或所谓的深度信念)网络的示例。在眼球信号的情况下,显示的眼球信号菜单为系统所知。因此,深度神经网络的特定区域能够致力于每个可能的菜单。初始网络层内的四个区域2530a、2530b、2530c、2530d被示出为对不同的菜单执行初始处理。此外,每个眼球信号菜单内的目标(例如,可交互对象)位置2531是已知的并且能够被供应给网络。此外,诸如追踪对象的关键元素的运动剖面为系统所知。还能够将这些位置供应给网络以用于增强训练和鲁棒性。
分段区域2530a、2530b、2530c、2530d能够与网络内的更抽象的或一般的隐藏层2533组合。在另外的实施例中,眼球运动的生理和解剖局限2532(在上面描述)能够在网络层用来对学习剖面设置界限并且协助分类(例如,平滑追踪对扫视运动)。在更深的抽象级下,能够对特定结果设置附加边界或约束2534。例如,设备穿戴者不能够用信号通知超过一个不同的过程或者同时被分类为既“高兴”又“悲伤”。最终,网络将包括眼球运动的输入2535变换成表示设备穿戴者的意图和状态的输出2536。
机器学习计算资源的分布
一般而言,可穿戴计算对本地可用的计算资源设置限制。这作为设备能力要求、物理大小和放置限制、散热等的结果而出现。因此,可能有必要使用一个或多个远程处理器来执行与分类和预测相关联的处理中的一些或全部。取决于计算资源的分布以及舒适操作所需要的响应时间,能够以各种方式执行处理任务的分布。
神经网络方法能够被分成阶段,其中能够远程执行一个或多个阶段。例如,能够在本地执行用于根据图像识别眼球位置的深度学习方法以便在获取结果时特别是在高帧速率下避免时间延迟。确定的眼球位置能够随后被馈送给远程处理资源以便辨识用户意图。这些结果(例如,用户疲劳)通常不受时间约束。
还能够将深度学习子任务分布到各种本地和远程处理单元。这些计算资源中的一些能够涉及多个处理单元、图形处理单元(GPU)以及诸如FPGA和ASIC的嵌入式处理的混合物。
基于云的方法还可以包括对特定于单独的设备用户的信息的访问。例如,基于用户的特定解剖学和生理学的校准和执行特性以及用户偏好(例如,电信响应时间、期望画面复杂性)能够被包括在基于云的分类和预测方法内。这还许可设备用户在无需重新校准或其它设置过程的情况下采用任一组硬件(视需要)。
机器学习输入和架构
为了优化神经网络性能,应该理想地将输入数据变换成包含所有必要的但不冗余的信息的最小形式。这与将输入数据转换成独立坐标的集合类似。
这个变换的关键是眼球执行通过这些眼球运动产生的通路一般地是线性的特定运动(即,凝视图案一般地遍历直线)的查看结果。如先前所描述的,扫视运动是弹道的,没有线性通路,而且没有定义明确的速度剖面。类似地,当平滑追踪被用来跟踪或者跟随沿着线性路径行进的(真实或虚拟)对象时,眼球凝视运动是重复地线性的。因此,将眼球位置表达为一系列线性运动与准确地表示眼球运动通路的大多数以及眼球运动的生物学两者一致。
能够根据已在给定时间获取的图像来确定眼球位置。眼球在图像被获取时的位置未必与眼球运动的启动或目的地位置相对应。相反,眼球位置在已知时间被“采样”并且必须根据这些样本推理眼球运动。只要以足够的速率(即,受包括奈奎斯特采样定理的原理支配)执行成像,就能够根据这些采样的数据来推理眼球运动。
在算法上,在图26A-26G中示出了用于将采样的数据变换成一系列运动和注视的方法。如图26A中所图示,实测眼球凝视位置由实心圆2639表示。与眼球的位置相对应的坐标能够被表示为(Xi,Yi),其中最近获取的图像被表示为(Χ0,Υ0)2630a。如图26B中所示,当来自新图像的眼球位置的坐标被获取(X0,Y0)2630b时,关于新位置是否位于沿着由前一点(Χ1,Υ1)2631c及其预处理器(图26B中未示出)限定的线(在容差内)的确定被做出。如果是这样的话,则当前线性通路被延伸到当前位置并且分析继续以考虑下一个帧。
图26C图示当新近获取的眼球凝视位置(X0,Y0)2630c与其预处理器(Χ1,Υ1)2631c和(X2,Y2)相比2632c不在直线上时的情形。前一条线(Χ1,Υ1)2631c的终止与自前一个事件以来的时间T1一起配准,并且对新线的搜索开始。图26D图示这条新线到新近获取的眼球位置(X0,Y0)2630d的延伸。
确定新样本点何时在线性通路上的例外是当在图像之间行进的凝视距离为零时(在某个容差内)。生理上,这表示眼球“注视”并且是在图26E中基于最近获取的帧(Χ0,Υ0)2630e内的凝视位置与其预处理器(Χ1,Υ1)2631e之间的距离的测量结果而确定的。在这种情况下,线性眼球运动(Χ1,Υ1)31e的结束被配准并且注视(在不动位置(Χ1,Υ1)2631e周围)开始。如图26F中所图示,可能存在注视点(Χ1,Υ1)2631f周围的眼球位置(Χ0,Υ0)2630f的持续测量结果。当发生远离注视的点的运动(在某个容差内)时,注视持续时间T1以及注视的位置(Χ1,Υ1)2631g被记录并且对包括(X0,Y0)2630g的新线的搜索开始。这个被图示在图26G中。
每当通路偏离到新线或者逃离注视时,新事件被存储在先进先出(FIFO)缓冲器中。这个缓冲器包含终止线或注视的时间Ti和坐标位置(Xi,Yi)。能够通过坐标位置(Xi,Yi)与前一个事件相同(在容差内)的事实来识别注视。FIFO缓冲器能够被用作神经网络的输入。
图27是能够被用来根据眼球运动的系列来辨识意图的神经网络的架构的示例。N+1个事件被作为输入2730提供给神经网络,其中每个事件被表示为二维坐标和时间的群集(Xi,Yi,Ti)。能够选择N以确保足够数目的眼球运动和注视被包括以确定任何眼球意图(例如,最近的16个运动或注视)。如果N被选择为过量的,则网络学习在这种情况下忽视遥远的历史事件但是处理资源被浪费。
图27图示用于对时间系列(Xi,Yi,Ti)输入进行分类的三个隐藏层2735a、2735b、2735c的使用。眼球目标位置2733(例如,可交互对象的)在显示菜单内的已知坐标、菜单的身份以及任何其它已知信息能够作为输入2733被供应给决定过程。支持向量机2738是用于确定设备穿戴者的最可能的意图的机器学习方法的示例性实施例。过程的输出可以是指示“无动作”的空或设备穿戴者的一个或多个意图和/或状况2739的集合。意图例如能够包括预定动作(即,二进制分类)的激活。同时确定的状况能够包括诸如认知负荷或疲劳程度的用户状态(即,一般地在连续范围上分类)。
将了解的是,根据实施例的预定使用,可以添加、删除并且/或者用其它实施例取代利用特定实施例所描述的各种组件和特征。
另外,在描述代表性实施例时,本说明书可能已将方法和/或过程呈现为步骤的特定序列。然而,就方法或过程不依靠本文中所阐述的步骤的特定次序而言,方法或过程不应该限于所描述的步骤的特定顺序。随着本领域的普通技术人员将了解,步骤的其它顺序可能是可能的。因此,本说明书中所阐述的步骤的特定次序不应该被解释为对权利要求构成限制。
虽然本发明对各种修改和替代形式敏感,但是已经在附图中示出并且在本文中详细地描述了其特定示例。应该理解的是,本发明不限于所公开的特定形式或方法,而是相反,本发明将涵盖落入所附权利要求的范围内的所有修改、等同物和替代方案。