一种眼动结合语音辅助交互装置及方法与流程

文档序号:23394757发布日期:2020-12-22 14:02阅读:272来源:国知局
一种眼动结合语音辅助交互装置及方法与流程

本申请涉及人机交互技术领域,尤其涉及一种眼动结合语音辅助交互装置及方法。



背景技术:

基于眼动的人机交互的基础技术是眼球跟踪技术,该技术是通过外部设备(如光学摄像头、红外线发射与接收装置)采集包含眼部信息的电信号,运用算法对电信号进行处理,来提取出眼部的特征信号,如注视、眼跳、眨眼等。眼动人机交互是通过运用眼球跟踪技术的特征信号,转换为屏幕上光标的移动命令或控件的选择命令(如点击、长按等),以实现人机交互的功能。

现有技术中提供了不少眼球跟踪的相关技术,然而也存在以下问题:在仅使用眼动作为交互通道中,以眨眼作为触发信号时,双眼闭合并不是同步的,而是一前一后,相差在几毫秒,而眨眼识别算法是基于瞳孔检测,即检测不到瞳孔时,会识别为一次眨眼,这造成了一次眨眼过程的实际识别结果为:单眼闭合→双眼闭合→单眼睁开→双眼睁开,这使得即使是正常眨眼,也会造成误识别;人的眼部在闭合时,瞳孔会逐渐消失,计算机检测算法中会识别出瞳孔大小的改变,而在屏幕注视点定位算法中,会根据眼部注视屏幕不同位置的瞳孔形状确定注视点位置,这使得闭合检测算法与注视点定位算法容易混淆,造成的结果是眨眼过程中实际识别结果为:注视点变化→瞳孔消失(眨眼)→瞳孔出现→注视点变化,即闭眼的过程中,屏幕上呈现的注视位置会发生改变,用户期望点击位置与实际点击位置会有出现偏差。

不足之处二:眼动是单一的控制通道,实现的均为简单的单击功能,而实际场景中,除了点击,常用的交互方式还有长按、拖拽与滚动等,这使得用户操作较为单一,需要另外设计交互场景或者反复切换控件,造成不便。通过基于眼动的多模态人机交互来解决这一问题是一个可发展的方向,但具体如何进行,未有详细明确的方案。



技术实现要素:

本申请提供了一种眼动结合语音辅助交互装置及方法,解决了现有的眼动交互装置操作模式单一,难以进行复杂操作的技术问题。

有鉴于此,本申请第一方面提供了一种眼动结合语音辅助交互装置,所述装置包括:

包括:语音单元、定位单元以及主控单元;

所述语音单元用于获取用户的声音信号,将所述声音信号传输至所述主控单元;

所述定位单元用于获取注视点信号,并识别所述注视点信号对应的位置信息,将包含所述位置信息的所述注视点信号传输至所述主控单元;

所述主控单元用于获取所述注视点信号,并将包含位置信息的注视点信号转换成屏幕坐标;还用于获取所述声音信号,识别所述声音信号中的控制指令,在相应的所述屏幕坐标上实施所述控制指令。

可选的,所述定位单元还用于对包含所述位置信息的所述注视点信号进行滤波。

可选的,所述主控单元还包括缓存单元;

所述缓存单元用于缓存预设时间段内的所述注视点信号。

可选的,还包括显示单元,用于显示所述注视点信号对应的所述屏幕坐标位置上的标识。

可选的,还包括电源单元,用于为交互装置提供稳定的供电。

本申请第二方面提供一种眼动结合语音辅助交互方法,所述方法包括:

获取用户瞳孔数量以及注视点信号;

识别所述注视点信号对应的位置信息;

识别所述注视点信号对应于屏幕上的屏幕坐标;

获取用户的声音信号,识别所述声音信号中的控制指令,在相应的所述屏幕坐标上实施所述控制指令。

可选的,在所述获取用户瞳孔数量以及注视点信号,之后还包括:

若未获取到所述瞳孔数量以及所述注视点信号,则判断用户当前状态为闭眼;

记录未获取到所述瞳孔数量以及所述注视点信号的时长,当所述时长大于预置闭合时长时,则装置停止运行。

可选的,在所述识别所述注视点信号对应的位置信息,之后还包括:

对包含所述位置信息的所述注视点信号进行滤波。

可选的,所述对包含所述位置信息的所述注视点信号进行滤波,具体为:

式中,为滤波处理后的注视点位置;n为滑动窗口;p0为第一个注视点位置;e为注视点的影响系数;i为第i个注视点。

可选的,所述控制指令包括左键、右键、双击以及释放。

从以上技术方案可以看出,本申请具有以下优点:

本申请中,提供了一种眼动结合语音辅助交互装置,包括:语音单元、定位单元以及主控单元;语音单元用于获取用户的声音信号,将声音信号传输至主控单元;定位单元用于获取注视点信号,并识别注视点信号对应的位置信息,将包含位置信息的注视点信号传输至主控单元;主控单元用于获取注视点信号,并将包含位置信息的注视点信号转换成屏幕坐标;还用于获取声音信号,识别声音信号中的控制指令,在相应的屏幕坐标上实施控制指令。

本申请通过定位单元与语音单元的结合,由定位单元确定屏幕上的位置信息,再结合语音单元在该位置上执行相应的操作,从而完成一次操作指令的执行;并能够通过连续性的识别位置信息以及识别语音信号中带有的操作指令,从而完成连续性的操作,使得本申请的装置能够不依赖鼠标键盘完成多且复杂的操作。

附图说明

图1为本申请一种眼动结合语音辅助交互装置的一个实施例中的装置结构图;

图2为本申请一种眼动结合语音辅助交互装置的另一个实施例中的装置结构图;

图3为本申请一种眼动结合语音辅助交互方法的一个实施例中的方法流程图;

图4为本发明实施例定位单元的一种定位流程示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

实施例一、

图1为本申请一种眼动结合语音辅助交互装置的一个实施例中的装置结构图,图1中包括:

定位单元101,用于获取注视点信号,并识别注视点信号的位置信息,将包含位置信息的信号传输至主控单元103。

需要说明的是,定位单元101可以是常用的商业眼动仪,其原理是通过光学摄像头、红外线发射装置以及接收装置采集眼部信息的电信号,从而采集到用户眼睛的注视点信号。当采集到的注视点信号后,定位单元101可以将注视点信号发送至主控单元103进行分析处理。

语音单元102,用于获取用户的声音信号,将声音信号传输至主控单元。

需要说明的是,语音单元102可以采用麦克风、扬声器实现对声音信号的采集,并将采集到的声音信号传输给主控单元103。

主控单元103,用于获取注视点信号,并识别注视点信号对应的位置信息,并将包含注视点信号转换成屏幕坐标;还用于获取声音信号,识别声音信号中的控制指令,在相应的屏幕坐标上实施控制指令。

需要说明的是,本申请中可以通过主控单元对注视点信号进行分析识别,从而确定注视点信号对应于屏幕上的像素点坐标的位置,获取到像素点位置后,语音单元102若识别到声音信号时,主控单元103通过识别声音信号对应的控制指令,从而在该像素点位置完成控制指令对应的操作,即执行一次操作指令。当用户需要完成较多的操作时,可以重复上述步骤,执行多次操作指令,从而能够完成多且复杂的操作。

本申请通过定位单元与语音单元的结合,由定位单元确定屏幕上的位置信息,再结合语音单元在该位置上执行相应的操作,从而完成一次操作指令的执行;并能够通过连续性的识别位置信息以及识别语音信号中带有的操作指令,从而完成连续性的操作,使得本申请的装置能够不依赖鼠标键盘完成多且复杂的操作。

实施例二、

本申请还提供了一种眼动结合语音辅助交互装置的另一个实施例,如图2所示,图2中包括定位单元201、语音单元202以及主控单元203。

其中,定位单元可以参考图4所示的原理流程示意图;另外,定位单元202还用于对包含位置信息的注视点信号进行滤波。

需要说明的是,考虑到眼动数据收集的实时性与随机噪音(眨眼带来的误差),实际采集的数据会出现较为明显且频繁的偏移,可以设计滤波算法对采集的注视点信号进行实时处理,具体为:

将读入的首个注视点命名为p0,将注视点的初始影响系数e赋值为1,针对每一新采集的注视点pi,定义聚类中心pcluster,通过长度为n的滑动窗口进行平均计算,其公式如下:

式中,为滤波处理后的注视点位置;e为注视点的影响系数;i为第i个注视点。影响系数e实为经验性的0-1权值,通过新采集的注视点pi与pcluster之间的欧氏距离确定,欧式距离d满足如下关系:

式中,为新采集的注视点pi的位置,为聚类中心pcluster的位置

d为以像素为单位度量的两点间距离。当d大于某一距离阈值t(可以认为是经验值)时,将影响系数ei置0,即拒绝采纳当前注视点;当d小于距离阈值时,则将e置1,具体定义如下:

通过计算聚类中心与新采集数据的欧氏距离,比较距离阈值得到影响系数ei,继而为新采集注视点pi计算滤波处理后的注视位置其计算公式如下:

本实施例中,主控单元203还包括缓存单元,用于缓存预设时间段内的注视点信号。

需要说明的是,缓存单元可以用于缓存一定长度的来自定位单元的注视点信息的位置序列(格式为(x,y),对应屏幕上的二维坐标)。当采集到的第一个注视点p0时,同时为缓存单元中的缓存位置赋值pt,针对每一滤波处理后的注视点给定平稳阈值s,若则将当前位置的注视点赋值给缓存位置pt,即否则将缓存位置定为原值,即pt=pt,这使得因为眼球震颤而引起的轻微坐标改变被滤过,而长距离的眼跳(眨眼)依然可以识别,使选择的精度提高。

本实施例还包括:显示单元204,用于显示注视点信号对应的屏幕坐标位置上的标识。

需要说明的是,本申请中显示模块可以是显示屏幕,例如,可以是带有鼠标箭头的显示屏幕,即可以将用户的注视点作为鼠标箭头,通过用户的语音信号控制鼠标箭头的操作,语音信号中的控制指令可以包括左键、右键、双击以及释放。

电源单元205,用于为交互装置提供稳定的供电。

本申请通过引入滤波算法避免因为闭眼时屏幕注视点的改变而造成的位置识别偏差;通过定位单元与语音单元的结合,由定位单元确定屏幕上的位置信息,再结合语音单元在该位置上执行相应的操作,从而完成一次操作指令的执行;并能够通过连续性的识别位置信息以及识别语音信号中带有的操作指令,从而完成连续性的操作,使得本申请的装置能够不依赖鼠标键盘完成多且复杂的操作。

本申请还包括一种实际应用的实施例,具体的,语音单元可以由麦克风与扬声器组成,麦克风可以用于记录用户实时发出的语音信号,并传送回主控单元;扬声器可以用作交互状态的声音反馈输出。主控单元对语音单元的麦克风信号主要检测的特征语音为:“左键”、“右键”、“双击”与“释放”。

当识别出“左键”时,主控单元输出“左键按下“命令,同时主控单元中的缓存单元记录ld=1,即左键按下(leftdown);

当识别出“右键”时,主控单元输出“右键按下“命令,同时主控单元中的缓存单元记录rd=1,即右键按下(rightdown);

当识别出“双击”时,主控单元以0.2s的间隔连续输出“左键按下“-”左键抬起“命令2次,同时记录ld=0,实现左键双击;

当识别出“释放”时,若ld=1,则主控单元输出“左键抬起”命令,同时记录ld=0;若rd=1,则主控单元输出“右键抬起”命令,同时记录rd=0;通过以上命令,可以实现单击、长按、拖动与滚动功能。其具体实现逻辑如下:

单击:用户注视某一区域,说出“左/右键”,“释放”;

长按:用户注视某一区域,说出“左/右键”;

拖动:用户注视某一区域,说出“左键”,通过定位模块移位后说出“释放”;

滚动:用户注视某一区域,说出“右键”,此时交互装置在记录x轴位置时,统一乘以0,即只记录y轴(垂直轴)上的移动动作,主控单元输出滚动命令,长度为垂直轴上前后两注视点对应的距离差。滚动完成后后说出“释放”,滚动结束。

以上是本申请的装置的实施例,本申请还包括一种眼动结合语音辅助交互方法的一个实施例,如图3所示,图3中包括:

301、获取用户瞳孔数量以及注视点信号;

302、识别注视点信号对应的位置信息;

303、识别注视点信号对应于屏幕上的屏幕坐标;

304、获取用户的声音信号,识别声音信号中的控制指令,在相应的屏幕坐标上实施控制指令。

在一种具体的实施方式中,在步骤301之后还包括:

若未获取到瞳孔数量以及注视点信号,则判断用户当前状态为闭眼;

记录未获取到瞳孔数量以及注视点信号的时长,当时长大于预置闭合时长时,则装置停止运行。

在步骤302之后还包括:

对包含位置信息的注视点信号进行滤波。

对包含位置信息的注视点信号进行滤波的具体为:

式中,为滤波处理后的注视点位置;n为滑动窗口;p0为第一个注视点位置;e为注视点的影响系数;i为第i个注视点。

本实施例中的控制指令可以包括左键、右键、双击以及释放。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

本申请中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“a和/或b”可以表示:只存在a,只存在b以及同时存在a和b三种情况,其中a,b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1