一种基于第一人称视角的动作识别方法及装置

文档序号:26434568发布日期:2021-08-27 13:31阅读:235来源:国知局
一种基于第一人称视角的动作识别方法及装置

本发明涉及动作识别技术领域,尤其涉及一种基于第一人称视角的动作识别方法及装置。



背景技术:

虽然机器人可以通过从人类的演示视频中学习动作,从而很好地了解人类的行为意图并自主学习人类的行为,但在实际应用中,机器人对人类行为的学习需要一个细致的理解过程,尤其是对来源于日常活动的行为学习,对于机器人来说是特别具有挑战性的,例如:基于穿戴式相机拍摄的第一人称视频中,机器人只能从单一的角度获取人类手部的操作动作,在这种情况下,充满着诸如手部移动较快,以及手部操作时候出现遮挡现象等,从而产生很大程度的不可预测性。因此,机器人对于人类动作的细微差异的识别,并对人类动作加以学习和执行的过程,仍然是目前机器人技术领域的一大难题,尤其是在研究热点之一的第一人称视角的动作识别方向上。

基于第一人称视角动作识别的方法,现今的方法主要包括三种:(1)利用传感器如leapmtion,采集演示视频中手关节的信息,进而辅助动作识别,这种方法需要硬件的支持,并且要求操作人员需要在特定的环境下演示动作;(2)对于演示视频,利用稠密轨迹表示运动特征,以及利用hog采集手势特征,这种方法往往会受到背景和相机移动带来的干扰,并且计算量较大;(3)分割出演示视频中操作者的手部再输入到深度神经网络中进行识别,这种方法虽然可以有效的减少背景的干扰,但是缺失了大部分的原始信息。显而易见,现有的基于第一人称视角的动作识别方法都存在一定的缺陷。

综上所述,提出一个能摆脱对外部硬件设备的依赖,并且对于光照和场景变化有强鲁棒性的第一人称视角的动作识别方案,具有重要的意义。



技术实现要素:

本发明提供了一种基于第一人称视角的动作识别方法及装置,能够摆脱对外部硬件设备的依赖,并且对于光照和场景变化有强鲁棒性。

第一方面,本发明提供的一种基于第一人称视角的动作识别方法,包括:

获取待处理rgb视频帧;所述待处理rgb视频帧包含基于第一人称视角的手部动作图像信息;

将所有所述待处理rgb视频帧输入到预先训练的hope-net深度神经网络,得到对应的手部关节点位置信息;

从所有所述待处理rgb视频帧中挑选预定数量的目标rgb视频帧,并输入i3d模型中识别,得到对应的视频帧特征;

将所述手部关节点位置信息输入agcn模型,得到对应的位置信息特征;

将所述视频帧特征和所述位置信息特征一一对应融合,得到识别动作指令的概率。

可选地,所述hope-net深度神经网络包括:resnet10网络和自适应图u-net网络;将所有所述rgb视频帧输入到预先训练的hope-net深度神经网络,得到对应的手部关节点位置信息,包括:

通过resnet网络对所有所述rgb视频帧进行编码和预测,得到多个对应的目标平面直角坐标点;

将多个所述目标平面直角坐标点输入自适应u-net网络,得到所述rgb视频帧对应的手部关节点位置信息。

可选地,通过resnet网络对所有所述rgb视频帧进行编码和预测,得到多个对应的目标平面直角坐标点,包括:

对所有所述rgb视频帧进行编码,得到编码后的视频帧;

对所有所述编码后的视频帧进行预测,得到对应的初始平面直角坐标点;

将所有所述初始平面直角坐标点和对应的rgb视频帧进行卷积,得到目标平面直角坐标点。

可选地,获取待处理rgb视频帧,包括:

获取待处理视频;所述待处理视频中包含有基于第一人称视角的手部动作影像信息;

通过opencv将所述手部动作影像信息转换所述待处理rgb视频帧。

可选地,将所述视频帧特征和所述位置信息特征一一对应融合,得到识别动作指令的概率,包括:

通过预先建立的关系图卷积网络,分析所述视频帧特征和所述位置信息特征的距离关系,并基于所述距离关系创建每一个所述视频帧特征与每一个位置信息特征的连接;

分别将所述视频帧特征和所述位置信息特征输入卷积网络,得到卷积后的视频证特征和卷积后的位置信息特征;

将处于同一连接的卷积后的视频证特征和卷积后的位置信息特征融合,得到融合后的信息特征输入全连接层网络,得到所述识别动作指令的概率。

第二方面,本发明提供的一种基于第一人称视角的动作识别装置,包括:

获取模块,用于获取待处理rgb视频帧;所述待处理rgb视频帧包含基于第一人称视角的手部动作图像信息;

第一输入模块,用于将所有所述待处理rgb视频帧输入到预先训练的hope-net深度神经网络,得到对应的手部关节点位置信息;

挑选模块,用于从所有所述待处理rgb视频帧中挑选预定数量的目标rgb视频帧,并输入i3d模型中识别,得到对应的视频帧特征;

第二输入模块,用于将所述手部关节点位置信息输入agcn模型,得到对应的位置信息特征;

融合模块,用于将所述视频帧特征和所述位置信息特征一一对应融合,得到识别动作指令的概率。

可选地,所述hope-net深度神经网络包括:resnet10网络和自适应图u-net网络;所述第一输入模块包括:

编码子模块,用于通过resnet网络对所有所述rgb视频帧进行编码和预测,得到多个对应的目标平面直角坐标点;

第一输入子模块,用于将多个所述目标平面直角坐标点输入自适应u-net网络,得到所述rgb视频帧对应的手部关节点位置信息。

可选地,所述编码子模块包括:

编码单元,用于对所有所述rgb视频帧进行编码,得到编码后的视频帧;

预测单元,用于对所有所述编码后的视频帧进行预测,得到对应的初始平面直角坐标点;

卷积单元,用于将所有所述初始平面直角坐标点和对应的rgb视频帧进行卷积,得到目标平面直角坐标点。

可选地,所述获取模块包括:

获取子模块,用于获取待处理视频;所述待处理视频中包含有基于第一人称视角的手部动作影像信息;

转换子模块,用于通过opencv将所述手部动作影像信息转换所述待处理rgb视频帧。

可选地,所述融合模块包括:

连接子模块,用于通过预先建立的关系图卷积网络,分析所述视频帧特征和所述位置信息特征的距离关系,并基于所述距离关系创建每一个所述视频帧特征与每一个位置信息特征的连接;

第二输入子模块,用于分别将所述视频帧特征和所述位置信息特征输入卷积网络,得到卷积后的视频证特征和卷积后的位置信息特征;

融合子模块,用于将处于同一连接的卷积后的视频证特征和卷积后的位置信息特征融合,得到融合后的信息特征输入全连接层网络,得到所述识别动作指令的概率。

从以上技术方案可以看出,本发明具有以下优点:

本发明通过获取待处理rgb视频帧;所述待处理rgb视频帧包含基于第一人称视角的手部动作图像信息;将所有所述待处理rgb视频帧输入到预先训练的hope-net深度神经网络,得到对应的手部关节点位置信息;从所有所述待处理rgb视频帧中挑选预定数量的目标rgb视频帧,并输入i3d模型中识别,得到对应的视频帧特征;将所述手部关节点位置信息输入agcn模型,得到对应的位置信息特征;将所述视频帧特征和所述位置信息特征一一对应融合,得到识别动作指令的概率。将视频帧依次进行手骨骼关节提取,rgb和骨骼动作特征提取,最后进行特征融合得到动作指令概率,从而摆脱对外部硬件设备的依赖,并且对于光照和场景变化有强鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图;

图1为本发明的一种基于第一人称视角的动作识别方法实施例一的步骤流程图;

图2为本发明的一种基于第一人称视角的动作识别方法实施例二的步骤流程图;

图3为本发明的从待处理视频到手部关节位置信息的处理原理图;

图4为本发明的一种自适应图卷积模块的结构示意图;

图5为本发明的关系图卷积网络的使用原理图;

图6为本发明的一种基于第一人称视角的动作识别装置实施例的结构框图。

具体实施方式

本发明实施例提供了一种基于第一人称视角的动作识别方法及装置,能够摆脱对外部硬件设备的依赖,并且对于光照和场景变化有强鲁棒性。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

实施例一,请参阅图1,图1为本发明的一种基于第一人称视角的动作识别方法实施例一的步骤流程图,包括:

s101,获取待处理rgb视频帧;所述待处理rgb视频帧包含基于第一人称视角的手部动作图像信息;

s102,将所有所述待处理rgb视频帧输入到预先训练的hope-net深度神经网络,得到对应的手部关节点位置信息;

s103,从所有所述待处理rgb视频帧中挑选预定数量的目标rgb视频帧,并输入i3d模型中识别,得到对应的视频帧特征;

s104,将所述手部关节点位置信息输入agcn模型,得到对应的位置信息特征;

s105,将所述视频帧特征和所述位置信息特征一一对应融合,得到识别动作指令的概率。

在本发明实施例中,通过获取待处理rgb视频帧;所述待处理rgb视频帧包含基于第一人称视角的手部动作图像信息;将所有所述待处理rgb视频帧输入到预先训练的hope-net深度神经网络,得到对应的手部关节点位置信息;从所有所述待处理rgb视频帧中挑选预定数量的目标rgb视频帧,并输入i3d模型中识别,得到对应的视频帧特征;将所述手部关节点位置信息输入agcn模型,得到对应的位置信息特征;将所述视频帧特征和所述位置信息特征一一对应融合,得到识别动作指令的概率。将视频帧依次进行手骨骼关节提取,rgb和骨骼动作特征提取,最后进行特征融合得到动作指令概率,从而摆脱对外部硬件设备的依赖,并且对于光照和场景变化有强鲁棒性。

实施例二,请参阅图2,图2为本发明的一种基于第一人称视角的动作识别方法实施例二的步骤流程图,具体包括:

步骤s201,获取待处理视频;所述待处理视频中包含有基于第一人称视角的手部动作影像信息;

步骤s202,通过opencv将所述手部动作影像信息转换所述待处理rgb视频帧;

在本发明实施例中,首先将待处理视频利用opencv转换为多个待处理rgb视频帧。

需要说明的是,opencv是一个跨平台计算机视觉和机器学习软件库,可以运行在linux、windows、android和macos操作系统上。opencv具有轻量和高效的特定——由一系列c函数和少量c++类构成,同时提供了python、ruby、matlab等语言的接口,进而实现图像处理和计算机视觉方面的很多通用算法。

步骤s203,通过resnet网络对所有所述rgb视频帧进行编码和预测,得到多个对应的目标平面直角坐标点;

在一个可选实施例中,通过resnet网络对所有所述rgb视频帧进行编码和预测,得到多个对应的目标平面直角坐标点,包括:

对所有所述rgb视频帧进行编码,得到编码后的视频帧;

对所有所述编码后的视频帧进行预测,得到对应的初始平面直角坐标点;

将所有所述初始平面直角坐标点和对应的rgb视频帧进行卷积,得到目标平面直角坐标点。

在本发明实施例中,利用resnet10网络对所有rgb视频帧进行特征编码,得到编码后的视频帧,并基于编码后的视频帧进行预测得到初始平面直角坐标点,然后将初始平面直角坐标点和rgb视频帧进行卷积,得到更为精确的目标平面直角坐标点。

步骤s204,将多个所述目标平面直角坐标点输入自适应u-net网络,得到所述rgb视频帧对应的手部关节点位置信息;

在本发明实施例中,在得到步骤s203提及的目标平面直角坐标点之后,将其输入自适应u-net网络,计算手部关节点的深度值,即对应的手部关节点位置信息,而手部关节点位置信息为最终的21个手关节的三维直角坐标信息,从而实现手部关节点从目标平面直角坐标到三维直角坐标的转变。

请查阅图3,图3为从待处理视频到手部关节位置信息的处理原理图,其中1为hope-net网络,hope-net网络中包含有resnet10网络2和u-net网络3,在resnet10网络2的协助下得到初始平面直角坐标点,然后再次在resnet10网络2的协助得到目标平面直角坐标点,接着在u-net网络3的协助下得到所述rgb视频帧对应的手部关节点位置信息。

步骤s205,从所有所述待处理rgb视频帧中挑选预定数量的目标rgb视频帧,并输入i3d模型中识别,得到对应的视频帧特征;

在本发明实施例中,为了能够从待处理rgb视频帧中提取更多的特征细节,使用i3d模型对从待处理rgb视频帧中挑选的目标rgb视频帧进行识别,该模型从二维卷积扩展到三维卷积,即在卷积核和池化层增加时间维,利用三维卷积来提取目标rgb视频帧对应的视频帧特征。

需要说明的是,三维卷积的滤波器是n*n*n的,即沿着时间维度重复n*n的滤波器权重n次,并且通过除以n进行归一化,且除了最后一层卷积层外,在每一层卷积之后都加上bn函数和relu激活函数。

在具体实现中,从待处理rgb视频帧中挑选32帧作为一组输入到i3d模型,通过i3d模型生成对应的视频帧特征。

步骤s206,将所述手部关节点位置信息输入agcn模型,得到对应的位置信息特征;

需要说明的是,agcn模型包括9层自适应的图卷积组合模块,针对不同的gcn单元和不同的样本,会自动生成不同的拓扑结构图。请查阅图4,图4为本发明的一种自适应图卷积模块的结构示意图,包括空间图卷积4、时间图卷积5和附加的dropout层6,每个图卷积层后面都有bn层7和relu层8,通过5种不同类型图层的组合,生成对应的拓扑结构图。为了得到更为稳定的效果,agcn模型中每一层自适应的图卷积组合弄快均为残差连接。此外,通过agcn网络模型得到的是n*256的特征,其中n为样本数。

在本发明实施例中,利用agcn模型,将以手部关节点位置信息为主的手的自然骨架结构,通过拓补图表示。该模型建立在一系列手部骨架图,即手部关节点位置信息的基础上,手部骨架图的每个节点代表一个时刻手的一个关节,以三维坐标表示。图的边有两种类型,一种是在某一个时刻手的关节自然连接间的空间边,一种是跨越连续时间步长连接相同关节的时间边。在此基础上构造了多层时空图卷积,从而实现信息在空间和时间维度上的聚合。

步骤s207,通过预先建立的关系图卷积网络,分析所述视频帧特征和所述位置信息特征的距离关系,并基于所述距离关系创建每一个所述视频帧特征与每一个位置信息特征的连接;

步骤s208,分别将所述视频帧特征和所述位置信息特征输入卷积网络,得到卷积后的视频证特征和卷积后的位置信息特征;

步骤s209,将处于同一连接的卷积后的视频证特征和卷积后的位置信息特征融合,得到融合后的信息特征输入全连接层网络,得到所述识别动作指令的概率。

请查阅图5,图5为关系图卷积网络的使用原理图,其中9为视频帧特征,10为位置信息特征,11为gcn单元,12为融合后的信息特征,13为识别动作指令的概率。分别将视频帧特征9和位置信息特征10输入多个gcn单元进行卷积,得到卷积后的视频证特征和卷积后的位置信息特征,然后将其融合得到融合后的信息特征12,进而得到识别动作指令的概率13。进而实现在不需要对演示视频和演示环境约束,不依赖于额外的辅助传感器的情况下,对操作视频进行动作识别。

在本发明实施例所提供的一种基于第一人称视角的动作识别方法,通过通过获取待处理rgb视频帧;所述待处理rgb视频帧包含基于第一人称视角的手部动作图像信息;将所有所述待处理rgb视频帧输入到预先训练的hope-net深度神经网络,得到对应的手部关节点位置信息;从所有所述待处理rgb视频帧中挑选预定数量的目标rgb视频帧,并输入i3d模型中识别,得到对应的视频帧特征;将所述手部关节点位置信息输入agcn模型,得到对应的位置信息特征;将所述视频帧特征和所述位置信息特征一一对应融合,得到识别动作指令的概率。将视频帧依次进行手骨骼关节提取,rgb和骨骼动作特征提取,最后进行特征融合得到动作指令概率,从而摆脱对外部硬件设备的依赖,并且对于光照和场景变化有强鲁棒性。

请参阅图6,示出了一种基于第一人称视角的动作识别装置实施例的结构框图,装置包括:

获取模块101,用于获取待处理rgb视频帧;所述待处理rgb视频帧包含基于第一人称视角的手部动作图像信息;

第一输入模块102,用于将所有所述待处理rgb视频帧输入到预先训练的hope-net深度神经网络,得到对应的手部关节点位置信息;

挑选模块103,用于从所有所述待处理rgb视频帧中挑选预定数量的目标rgb视频帧,并输入i3d模型中识别,得到对应的视频帧特征;

第二输入模块104,用于将所述手部关节点位置信息输入agcn模型,得到对应的位置信息特征;

融合模块105,用于将所述视频帧特征和所述位置信息特征一一对应融合,得到识别动作指令的概率。

在一个可选实施例中,所述hope-net深度神经网络包括:resnet10网络和自适应图u-net网络;第一输入模块102包括:

编码子模块,用于通过resnet网络对所有所述rgb视频帧进行编码和预测,得到多个对应的目标平面直角坐标点;

第一输入子模块,用于将多个所述目标平面直角坐标点输入自适应u-net网络,得到所述rgb视频帧对应的手部关节点位置信息。

在一个可选实施例中,所述编码子模块包括:

编码单元,用于对所有所述rgb视频帧进行编码,得到编码后的视频帧;

预测单元,用于对所有所述编码后的视频帧进行预测,得到对应的初始平面直角坐标点;

卷积单元,用于将所有所述初始平面直角坐标点和对应的rgb视频帧进行卷积,得到目标平面直角坐标点。

在一个可选实施例中,所述获取模块101包括:

获取子模块,用于获取待处理视频;所述待处理视频中包含有基于第一人称视角的手部动作影像信息;

转换子模块,用于通过opencv将所述手部动作影像信息转换所述待处理rgb视频帧。

在一个可选实施例中,所述融合模块105包括:

连接子模块,用于通过预先建立的关系图卷积网络,分析所述视频帧特征和所述位置信息特征的距离关系,并基于所述距离关系创建每一个所述视频帧特征与每一个位置信息特征的连接;

第二输入子模块,用于分别将所述视频帧特征和所述位置信息特征输入卷积网络,得到卷积后的视频证特征和卷积后的位置信息特征;

融合子模块,用于将处于同一连接的卷积后的视频证特征和卷积后的位置信息特征融合,得到融合后的信息特征输入全连接层网络,得到所述识别动作指令的概率。

对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1