本发明涉及地理信息技术领域领域,尤其涉及到手势识别方法、基于手势识别的交互方法与混合现实眼镜。
背景技术:
目前存在手势识别算法以帮助聋哑人和普通人正常交流,但是大部分基于深度学习的三维手势识别算法首先是对普通镜头获取的rgb图像进行深度预测获得深度信息,再对预测的深度信息进行手势识别。该方法的手势识别的精度受到深度预测的算法的误差限制,精度比较低。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
技术实现要素:
本发明的主要目的在于提供一种手势识别方法、基于手势识别的交互方法与混合现实眼镜,旨在解决现有的基于深度学习的手势识别算法受到深度图的预设算法的误差限制精度低的技术问题。
为实现上述目的,本发明提供一种手势识别方法,所述方法包括以下步骤:
获取待识别手势的深度图序列;
基于所述深度图序列,获取所述深度图序列的关键帧序列;
将所述关键帧序列输入预先训练的手势识别模型,以获得所述待识别手势的第一语义序列;
基于所述第一语义序列,获得所述待识别手势的语义结果。
可选的,所述将所述关键帧序列输入预先训练的手势识别模型,以获得所述待识别手势的第一语义序列的步骤,包括:
通过卷积层3dcnn提取所述关键帧序列中每帧图像的图像空间特征;
通过时间递归层lstmrnn提取所述关键帧序列的时间关系特征;
结合所述图像空间特征与所述时间关系特征,获得所述关键帧序列的时空特征;
将所述时空特征输入所述分类器输出层,以获得所述待识别手势的语义序列。
可选的,所述基于所述语义序列,获得所述待识别手势的语义结果的步骤,包括:
将所述语义序列输入预先训练的语义翻译模型,以获得所述语义结果。
可选的,所述获取待识别手势的深度图序列的步骤,包括:
获取深度摄像头采集的待识别手势的深度图序列。
此外,为了解决上述问题,本发明还提供一种基于手势识别的交互方法,所述方法应用于混合现实设备,所述方法包括以下步骤:
获取待识别手势的深度图;
基于所述深度图,获取所述深度图的关键帧序列;
将所述关键帧序列输入预先训练的手势识别模型,以获得所述待识别手势的第一语义序列;
基于所述第一语义序列,获得所述待识别手势的语义结果;
输出所述语义结果;
获取针对所述语义结果的语音应答信息;
基于所述语音应答信息,提取语音片段;
将所述语音片段输入预先训练的语音翻译模型,以获得所述语音应答信息的第二语义序列;
基于所述第二语义序列,获取手势图形序列;
显示所述手势图形序列。
可选的,所述将所述关键帧序列输入预先训练的手势识别模型,以获得所述待识别手势的第一语义序列的步骤,包括:
通过卷积层3dcnn提取所述关键帧序列中每帧图像的图像空间特征;
通过时间递归层lstmrnn提取所述关键帧序列的时间关系特征;
结合所述图像空间特征与所述时间关系特征,获得所述关键帧序列的时空特征;
将所述时空特征输入所述分类器输出层,以获得所述待识别手势的语义序列。
可选的,所述基于所述语义序列,获得所述待识别手势的语义结果的步骤,包括:
将所述语义序列输入预先训练的语义翻译模型,以获得所述语义结果。
可选的,所述获取待识别手势的深度图序列的步骤,包括:
获取深度摄像头采集的待识别手势的深度图序列。
此外,为了解决上述问题,本发明还提供一种手势识别装置,所述装置包括:
第一获取模块,用于获取待识别手势的深度图序列;
第二获取获取模块,用于基于所述深度图序列,获取所述深度图序列的关键帧序列;
识别模块,用于将所述关键帧序列输入预先训练的手势识别模型,以获得所述待识别手势的语义序列;
获得模块,基于所述语义序列,获得所述待识别手势的语义结果。
此外,为了解决上述问题,本发明还提供一种基于手势识别的交互装置,应用于混合现实设备,所述基于手势识别的交互装置包括:
第一获取模块,用于获取待识别手势的深度图;
第二获取获取模块,用于基于所述深度图,获取所述深度图的关键帧序列;
识别模块,用于将所述关键帧序列输入预先训练的手势识别模型,以获得所述待识别手势的第一语义序列;
获得模块,基于所述第一语义序列,获得所述待识别手势的语义结果;
交互模块,用于输出所述语义结果并获取针对所述语义结果的语音应答信息;
提取模块,用于基于所述语音应答信息,提取语音片段;
翻译模块,用于将所述语音片段输入预先训练的语音翻译模型,以获得所述语音应答信息的第二语义序列;
第四获取模块,用于基于所述第二语义序列,获取手势图形序列;
显示模块,用于显示所述手势图形序列。
此外,为了解决上述问题,本发明还提供一种电子设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的手势识别程序,所述手势识别程序配置为实现如前所述的手势识别方法的步骤;或者
所述电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于手势识别的交互程序,所述基于手势识别的交互程序配置为实现如前所述的基于手势识别的交互方法的步骤。
此外,为了解决上述问题,本发明还提供一种混合现实眼镜,所述混合现实眼镜包括如前的电子设备。
此外,为了解决上述问题,本发明还提供一种存储介质,所述存储介质上存储有手势识别程序,所述手势识别程序被处理器执行时实现如前所述的手势识别方法的步骤;或者
所述存储介质上存储有基于手势识别的交互程序,所述基于手势识别的交互程序被处理器执行时实现如前所述的基于手势识别的交互方法的步骤。
本发明实施例提出的一种手势识别方法、基于手势识别的交互方法与混合现实眼镜。该手势识别方法直接获取用户做出的手势的深度图,避免了传统深度学习方法对普通rgb图估计得到深度信息所带来的误差以及相应的时间成本,从而提高了手势识别的准确度和手势识别的效率。也利于使用该手势识别的交互方法在实际运用中的交互的意思表达的准确率和即时性。
附图说明
图1为本发明实施例中一种混合现实眼镜示意图;
图2为本发明手势识别方法实施例的流程示意图;
图3为图2中步骤s300步骤的细化流程示意图;
图4为本发明基于手势识别的交互方法实施例的流程示意图;
图5为本发明手势识别装置实施例的结构框图;
图6为本发明基于手势识别的交互装置实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
大部分的基于深度学习的三维手势识别算法首先是对普通的rgb图像进行深度预测获得深度信息,再基于预测的深度信息进行手势识别。例如,通过手机或者平板终端上搭载的镜头对手势进行采集,获得普通的rgb图像,然后通过手机或者平板终端上搭载深度预测的算法对rgb图像进行深度预测获得深度信息,再基于预测的深度信息进行手势识别。但是该类手势识别算法的识别精度受限于深度预测的算法的误差,即手势识别的精度有限。
为了解决上述问题,本发明实施例提供一种手势识别方法直接获取用户做出的手势的深度图,避免了传统深度学习方法对rgb图像估计所带来的误差以及相应的时间成本,从而提高了手势识别的准确度和手势识别的效率。也利于使用该手势识别的交互方法在实际运用中的交互的意思表达的准确率和即时性。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的手势识别方法与基于手势识别的交互方法的推荐设备结构示意图。
设备可以是混合现实眼镜、移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理(pda)、平板电脑(pad)等用户设备(userequipment,ue)、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备、移动台(mobilestation,ms)等。设备可能被称为用户终端、便携式终端、台式终端等。
通常,设备包括:至少一个处理器301、存储器302以及存储在所述存储器上并可在所述处理器上运行的手势识别程序,所述手势识别程序配置为实现如前所述的手势识别方法或者基于手势识别的交互方法的步骤。
处理器301可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器301可以采用dsp(digitalsignalprocessing,数字信号处理)、fpga(field-programmablegatearray,现场可编程门阵列)、pla(programmablelogicarray,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器301也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称cpu(centralprocessingunit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器301可以在集成有gpu(graphicsprocessingunit,图像处理器),gpu用于负责显示屏所需要显示的内容的渲染和绘制。处理器301还可以包括ai(artificialintelligence,人工智能)处理器,该ai处理器用于处理有关手势识别操作,使得手势识别模型可以自主训练学习,提高效率和准确度。
存储器302可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器302还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器302中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器801所执行以实现本申请中方法实施例提供的手势识别方法。
在一些实施例中,终端还可选包括有:通信接口303和至少一个外围设备。处理器301、存储器302和通信接口303之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与通信接口303相连。具体地,外围设备包括:射频电路304、显示屏305和电源306中的至少一种。
通信接口303可被用于将i/o(input/output,输入/输出)相关的至少一个外围设备连接到处理器301和存储器302。通信接口303通过外围设备用于接收用户上传的多个移动终端的移动轨迹以及其他数据。在一些实施例中,处理器301、存储器302和通信接口303被集成在同一芯片或电路板上;在一些其他实施例中,处理器301、存储器302和通信接口303中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路304用于接收和发射rf(radiofrequency,射频)信号,也称电磁信号。射频电路304通过电磁信号与通信网络以及其他通信设备进行通信,从而可获取多个移动终端的移动轨迹以及其他数据。射频电路304将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路304包括:天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路304可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2g、3g、4g及5g)、无线局域网和/或wifi(wirelessfidelity,无线保真)网络。在一些实施例中,射频电路304还可以包括nfc(nearfieldcommunication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏305用于显示ui(userinterface,用户界面)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏305是触摸显示屏时,显示屏305还具有采集在显示屏305的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器301进行处理。此时,显示屏305还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏305可以为一个,电子设备的前面板;在另一些实施例中,显示屏305可以为至少两个,分别设置在电子设备的不同表面或呈折叠设计;在再一些实施例中,显示屏305可以是柔性显示屏,设置在电子设备的弯曲表面上或折叠面上。甚至,显示屏305还可以设置成非矩形的不规则图形,也即异形屏。显示屏305可以采用lcd(liquidcrystaldisplay,液晶显示屏)、oled(organiclight-emittingdiode,有机发光二极管)等材质制备。
电源306用于为电子设备中的各个组件进行供电。电源306可以是交流电、直流电、一次性电池或可充电电池。当电源306包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
本领域技术人员可以理解,图1中示出的结构并不构成对该电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明实施例提供了一种手势识别方法,参照图2,图2为本发明手势识别方法的第一实施例的流程示意图。
本实施例中,一种手势识别方法,方法包括以下步骤:
步骤s100,获取待识别手势的深度图。
具体而言,上述步骤中,待识别手势可以是静态手势和动态手势。相对于静态手势,动态手势可以由很多的手部动作组合而成,例如可以是聋哑人使用的手语,即该待识别手势可以是单独的一个手势,也可以是连贯的、且存在前后联系的多个手势组成的动态手势序列。
上述步骤用于直接获取深度图,相比于普通镜头获得的rgb图而言,深度图包括不仅包括手势的平面图像,还包括手势的位置和尺寸信息。
例如,该深度图可以通过深度摄像头获得,此时步骤s100获取待识别手势的深度图,适应性修改为:
步骤s100′,获取深度摄像头采集的待识别手势的深度图序列。
具体而言,上述步骤中,深度图序列由若干帧深度图构成,深度图序列的图像信号中每个像素点的坐标为三维坐标,该三维坐标可以基于以深度摄像头为原点建立的空间坐标系而获得。该深度图的像素点的三维坐标,可以用来准确地捕捉用户的手势。
例如,在一实施例中,混合现实眼镜上配备了使用cmos光感原件的深度摄像头用于获取当前场景的深度信息,可使用cmos光感原件的深度摄像头采集用户或者交互对象的待识别手势的深度图。比如,三维坐标系可以是以深度摄像头为原点,以深度摄像头所在位置处的水平方向为x轴方向,以深度摄像头所在位置处的垂直方向为y轴方向,以深度摄像头所在位置处垂直于前述x轴和y轴的方向为z轴方向。因此,在深度摄像头获取的图像信号中,每个像素点的坐标中的z值可以用于指示与该像素点对应的位置点距离深度摄像头的远近,也即是z值可以用于指示景深。
步骤s200,基于深度图序列,获取深度图序列的关键帧序列。
具体而言,关键帧序列用于表示待识别手势的意思意思。由于手势的意思表达需要手势之间的连贯表示,因此,提取的关键帧需要按照时序排列,即获取的是深度图序列的关键帧序列。例如,深度摄像头采集的对象为聋哑人做出的手语手势,此时,该手语手势包括多个手势,以及相应的衔接手势。即相应的深度图序列中包括有用于意思表示的关键帧序列,以及非意思表示的非关键帧序列。因此,上述步骤用于获取意思表示的关键帧序列。
步骤s300,将关键帧序列输入预先训练的手势识别模型,以获得待识别手势的第一语义序列。
具体而言,上述步骤用于对手势动作进行识别操作,以获得待识别手势的所表达的意思。上述步骤中,可以利用基于特征点提取进行二维的手势识别,也可以使用基于深度学习的手势识别方法,本申请对此并不限制。
可选的,由于传统的手势识别网络大多采用2dcnn的模型进行训练与识别。但是对于待识别手势为聋哑人使用的手语时,由于不同手势之间的衔接性,特别强调上下文语意的连贯性。此时,传统的主要针对机器交互的静态手势识别的手势识别网络难以满足手语识别的需求。
为此,在一实施例中,参阅图3,步骤s300,将关键帧序列输入预先训练的手势识别模型,以获得待识别手势的第一语义序列,包括:
步骤s301,通过卷积层3dcnn提取关键帧序列中每帧图像的图像空间特征。
步骤s302,通过时间递归层lstmrnn提取关键帧序列的时间关系特征。
步骤s303,结合图像空间特征与时间关系特征,获得关键帧序列的时空特征。
步骤s304,将时空特征输入分类器输出层,以获得待识别手势的第一语义序列。
具体而言,该手势识别网络为一组合神经网络,组合神经网络包括卷积层3dcnn和时间递归神经层lstmrnn。卷积层3dcnn具有转换不变的特性,可以用来提取动态手势序列中每张手势图像的手掌形状和方向特征等具有尺度不变特性的空间特征。卷积层3dcnn的层数预设,例如卷积层3dcnn具体可以包括3个卷积层和3个下采样层,所有卷积层的卷积核可以一致,例如卷积核大小均为5*5。
一层的时间递归神经网络lstmrnn的作用是提取动态手势序列的时间关系特征,时间关系特征即用于表达手势序列的上下文联系,时间递归神经网络lstmrnn的作用对相邻帧的特征上下文分析,从而进行整合与传递,即结合前面卷积层3dcnn得到的空间特征就可以得到最后分类所需的时空特征。具体而言,1层lstmrnn网络串接在卷积层3dcnn网络的最后一层。
分类器输出层可以是包括若干个softmax单元,分类器输出层的作用已经进行上下文特征分析获得的时间关系特征与空间特征向结合得到时空特征,并把时空特征输入到具有softmax单元的分类器进行分类输出,以获得待识别手势的第一语义序列。
步骤s400,基于第一语义序列,获得待识别手势的语义结果。
具体而言,上述步骤中,语义结果可以是普通话文本之类可以由直接通过显示器或者播放器或者其他交互设备输出的数据。上述步骤用于将得到的第一语义序列转换为其他交互设备可以处理的数据,从而便于输出待识别手势的意思表达。
例如,在一实施例中,步骤s400,基于语义序列,获得待识别手势的语义结果,包括:
步骤s400′,将语义序列输入预先训练的语义翻译模型,以获得语义结果。
上述步骤中,可以将第一语义序列输入到语义翻译模型,通过语义翻译模型得到相应的普通话文本,该普通话文本即为待识别手势的语义结果。容易理解的,语义翻译模型为本领域技术人员知晓如何实施的现有技术,此处不再赘述。
相较于现有的手势识别方法中首先是对普通的rgb图像进行深度预测获得深度信息,再基于预测的深度信息进行手势识别的识别精度受限于深度预测的算法的误差,本实施例提供的手势识别算法可通过深度摄像头等设备直接获取用户做出的手势的深度图序列,避免了传统深度学习方法对深度图估计所带来的误差以及相应的时间成本,从而提高了手势识别的准确度和手势识别的效率。也利于使用该手势识别的交互方法在实际运用中的交互的意思表达的准确率和即时性。从而利于使用于聋哑人等特殊群体,以帮助该类特殊群体与普通人交流。
此外,为了解决上述问题,本发明还提供一种基于手势识别的交互方法实施例,该方法实施例应用于混合现实设备。下文以该基于手势识别的交互方法使用于混合现实眼镜为例进行具体说明。容易理解的,混合现实眼镜仅仅为举例进行说明,并不构成对本申请实施例的限定。
参阅图4,图4为本发明基于手势识别的交互方法实施例的流程示意图。
本实施例中,基于手势识别的交互方法包括以下步骤:
步骤s100,获取待识别手势的深度图。
具体而言,上述步骤中,待识别手势可以是静态手势和动态手势。相对于静态手势,动态手势可以由很多的手部动作组合而成,例如可以是聋哑人使用的手语,即该待识别手势可以是单独的一个手势,也可以是连贯的、且存在前后联系的多个手势组成的动态手势序列。
上述步骤用于直接获取深度图,相比于普通镜头获得的rgb图而言,深度图包括不仅包括手势的平面图像,还包括手势的位置和尺寸信息。
例如,该深度图可以通过深度摄像头获得,此时步骤s100获取待识别手势的深度图,适应性修改为:
步骤s100′,获取深度摄像头采集的待识别手势的深度图序列。
具体而言,上述步骤中,深度图序列由若干帧深度图构成,深度图序列的图像信号中每个像素点的坐标为三维坐标,该三维坐标可以基于以深度摄像头为原点建立的空间坐标系而获得。该深度图的像素点的三维坐标,可以用来准确地捕捉用户的手势。
例如,在一实施例中,混合现实眼镜上配备了使用cmos光感原件的深度摄像头用于获取当前场景的深度信息,可使用cmos光感原件的深度摄像头采集用户或者交互对象的待识别手势的深度图。比如,三维坐标系可以是以深度摄像头为原点,以深度摄像头所在位置处的水平方向为x轴方向,以深度摄像头所在位置处的垂直方向为y轴方向,以深度摄像头所在位置处垂直于前述x轴和y轴的方向为z轴方向。因此,在深度摄像头获取的图像信号中,每个像素点的坐标中的z值可以用于指示与该像素点对应的位置点距离深度摄像头的远近,也即是z值可以用于指示景深。
步骤s200,基于深度图序列,获取深度图序列的关键帧序列。
具体而言,关键帧序列用于表示待识别手势的意思意思。由于手势的意思表达需要手势之间的连贯表示,因此,提取的关键帧需要按照时序排列,即获取的是深度图序列的关键帧序列。例如,深度摄像头采集的对象为聋哑人做出的手语手势,此时,该手语手势包括多个手势,以及相应的衔接手势。即相应的深度图序列中包括有用于意思表示的关键帧序列,以及非意思表示的非关键帧序列。因此,上述步骤用于获取意思表示的关键帧序列。
步骤s300,将关键帧序列输入预先训练的手势识别模型,以获得待识别手势的第一语义序列。
具体而言,上述步骤用于对手势动作进行识别操作,以获得待识别手势的所表达的意思。上述步骤中,可以利用基于特征点提取进行二维的手势识别,也可以使用基于深度学习的手势识别方法,本申请对此并不限制。
可选的,由于传统的手势识别网络大多采用2dcnn的模型进行训练与识别。但是对于待识别手势为聋哑人使用的手语时,由于不同手势之间的衔接性,特别强调上下文语意的连贯性。此时,传统的主要针对机器交互的静态手势识别的手势识别网络难以满足手语识别的需求。
为此,在一实施例中,参阅图3,步骤s300,将关键帧序列输入预先训练的手势识别模型,以获得待识别手势的第一语义序列,包括:
步骤s301,通过卷积层3dcnn提取关键帧序列中每帧图像的图像空间特征。
步骤s302,通过时间递归层lstmrnn提取关键帧序列的时间关系特征。
步骤s303,结合图像空间特征与时间关系特征,获得关键帧序列的时空特征。
步骤s304,将时空特征输入分类器输出层,以获得待识别手势的第一语义序列。
具体而言,该手势识别网络为一组合神经网络,组合神经网络包括卷积层3dcnn和时间递归神经层lstmrnn。卷积层3dcnn具有转换不变的特性,可以用来提取动态手势序列中每张手势图像的手掌形状和方向特征等具有尺度不变特性的空间特征。卷积层3dcnn的层数预设,例如卷积层3dcnn具体可以包括3个卷积层和3个下采样层,所有卷积层的卷积核可以一致,例如卷积核大小均为5×5。
一层的时间递归神经网络lstmrnn的作用是提取动态手势序列的时间关系特征,时间关系特征即用于表达手势序列的上下文联系,时间递归神经网络lstmrnn的作用对相邻帧的特征上下文分析,从而进行整合与传递,即结合前面卷积层3dcnn得到的空间特征就可以得到最后分类所需的时空特征。具体而言,1层lstmrnn网络串接在卷积层3dcnn网络的最后一层。
分类器输出层可以是包括若干个softmax单元,分类器输出层的作用已经进行上下文特征分析获得的时间关系特征与空间特征向结合得到时空特征,并把时空特征输入到具有softmax单元的分类器进行分类输出,以获得待识别手势的第一语义序列。
步骤s400,基于第一语义序列,获得待识别手势的语义结果。
具体而言,上述步骤中,语义结果可以是普通话文本之类可以由直接通过显示器或者播放器或者其他交互设备输出的数据。上述步骤用于将得到的第一语义序列转换为其他交互设备可以处理的数据,从而便于输出待识别手势的意思表达。
例如,在一实施例中,步骤s400,基于语义序列,获得待识别手势的语义结果,包括:
步骤s400′,将语义序列输入预先训练的语义翻译模型,以获得语义结果。
上述步骤中,可以将第一语义序列输入到语义翻译模型,通过语义翻译模型得到相应的普通话文本,该普通话文本即为待识别手势的语义结果。容易理解的,语义翻译模型为本领域技术人员知晓如何实施的现有技术,此处不再赘述。具体而言,上述步骤具体实施过程可参照上述实施例,由于上述步骤采用了上述所有实施例的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再一一赘述。
步骤s500,输出语义结果,并获取针对语义结果的语音应答信息。
具体而言,上述步骤用于将获得待识别手势的语义结果通过显示器或者播放器或者其他交互设备输出。例如,通过显示屏显示,或者通过扬声器播放或者其他类似交互设备输出。容易理解,该输出可以被待识别手势的表达对象所接收,并在接收到该语义结果的表达后作出相应的应答。
在一实施例中,混合现实眼镜的用户为聋哑人,该聋哑人与普通人面对面沟通交流,混合现实眼镜识别聋哑人用户做出的手语,并将其手语识别为语义结果,然后可通过搭载的扬声器输出语义结果,例如,手语的意思表示的普通话意思表达。正常人在接收到扬声器播放的普通话意思表达后,做出相应的应答,该应答可以是语音应答信息。
例如,聋哑人配搭混合现实眼镜在商场买东西,通过做出相应的手语“这件衣服打几折”,混合现实眼镜上搭载的深度摄像头直接获取该手语的深度图序列,并识别为相应的语义结果:普通话文本“这件衣服打几折”。然后通过混合现实眼镜上搭载的扬声器通过普通话播放:“这件衣服打几折”。商场的导购员听到扬声器播放的语音后,做出相应的语音应答“您好,这件衣服打7折”,此时混合现实眼镜上搭载的听筒获取并获取针对语义结果“这件衣服打几折”的语音应答信息“您好,这件衣服打7折”。
步骤s600,基于语音应答信息,提取语音片段。
具体而言,上述步骤中的语音片段为记载有应答信息的关键的语音片段。具体而言,可对获取的语音应答信息进行降噪处理,然后提取相应的语音片段。
步骤s700,将语音片段输入预先训练的语音翻译模型,以获得语音应答信息的第二语义序列。
具体而言,上述步骤用于将语音片段转换为相应的第二语义序列。该第二语义序列记载了语音应答信息的意思表达。
步骤s800,基于第二语义序列,获取手势图形序列。
具体而言,上述步骤中,可通过语义分析将该第二语义序列转换为相应的手语表示,并从相应的手语数据库中加载对应的手语模型动画,并通过第二语义序列的时序将相应的手语模型动画转换为手势图形序列。
步骤s900,显示手势图形序列。
具体而言,该步骤即用于实现混合现实眼镜与聋哑人用户之间的交互。该交互可通过将手势图形序列显示于混合现实眼镜上实现,即在现实场景进行部署与播放。佩戴混合现实眼镜的聋哑人可直接通过视觉接收到手势图形序列,从而获取相应的语音应答信息的意思表示。
相较于现有的单端的手势识别或者语音识别方法,本实施例提供的基于手势的交互方法提供的交互方法将手势识别或者语音识别整合为一体,形成一个端到端的闭合,从而实现聋哑人等特殊人群与普通人群的实时交流与沟通。并且该方法使用于混合现实设备,从而可以通过混合现实眼镜对交互进行真实而生动的模型动画演示,提高沟通质量。
此外,本发明还提供一种手势识别装置实施例,参阅图5,图5为本实施例的结构框图,装置包括:
第一获取模块10,用于获取待识别手势的深度图;
第二获取获取模块20,用于基于深度图,获取深度图的关键帧序列;
识别模块30,用于将关键帧序列输入预先训练的手势识别模型,以获得待识别手势的第一语义序列;
获得模块40,基于第一语义序列,获得待识别手势的语义结果。
相较于现有的手势识别装置中首先是对普通的rgb图像进行深度预测获得深度信息,再基于预测的深度信息进行手势识别的识别精度受限于深度预测的算法的误差,本实施例提供的手势识别装置可通过深度摄像头等设备直接获取用户做出的手势的深度图序列,避免了传统深度学习方法对深度图估计所带来的误差以及相应的时间成本,从而提高了手势识别的准确度和手势识别的效率。也利于使用该手势识别的交互方法在实际运用中的交互的意思表达的准确率和即时性。从而利于使用于聋哑人等特殊群体,以帮助该类特殊群体与普通人交流。
此外,本发明还提供一种基于手势识别的交互装置实施例,应用于混合现实设备。参阅图6,图6为本实施例的结构框图。
本实施例中,基于手势识别的交互装置包括:
第一获取模块10,用于获取待识别手势的深度图;
第二获取获取模块20,用于基于深度图,获取深度图的关键帧序列;
识别模块30,用于将关键帧序列输入预先训练的手势识别模型,以获得待识别手势的第一语义序列;
获得模块40,基于第一语义序列,获得待识别手势的语义结果;
交互模块50,用于输出语义结果,并获取针对语义结果的语音应答信息;
提取模块60,用于基于语音应答信息,提取语音片段;
翻译模块70,用于将语音片段输入预先训练的语音翻译模型,以获得语音应答信息的第二语义序列;
第四获取模块80,用于基于第二语义序列,获取手势图形序列;
显示模块90,用于显示手势图形序列。
相较于现有的单端的手势识别或者语音识别方法,本实施例提供的基于手势的交互装置提供的交互方法将手势识别或者语音识别整合为一体,形成一个端到端的闭合,从而实现聋哑人等特殊人群与普通人群的实时交流与沟通。并且该方法使用于混合现实设备,从而可以通过混合现实眼镜对交互进行真实而生动的模型动画演示,提高沟通质量。
本发明手势识别装置与基于手势识别的交互装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
此外,为了解决上述问题,本发明还提供一种混合现实眼镜,混合现实眼镜包括如前电子设备。
具体而言,该混合现实眼镜上搭载有深度摄像头、扬声器以及听筒,深度摄像头用于采集深度图,容易理解的,深度摄像头不仅可以采集用户做出的手势动作,还可以采集用户交流的对象做出的手势动作,即该混合现实眼镜不仅可以用于聋哑人,还可以由普通人佩戴以与正常人交流。扬声器用于输出语义结果,从而将利于提高聋哑人与普通人交流的即时性。
此外,为了解决上述问题,本发明还提供一种存储介质,所述存储介质上存储有手势识别程序,所述手势识别程序被处理器执行时实现如前所述的手势识别方法的步骤;或者
所述存储介质上存储有基于手势识别的交互程序,所述基于手势识别的交互程序被处理器执行时实现如前所述的基于手势识别的交互方法的步骤。因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。确定为示例,程序指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)或随机存储记忆体(randomaccessmemory,ram)等。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用cpu、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。