1.一种基于视频图像的人体交互行为识别方法,其特征在于,所述方法包括:
步骤1、将输入的人体视频分割为个体左运动视频、个体右运动视频,所述个体左运动视频和个体右运动视频分别是运动视频个体分割后左边运动人视频和右边运动执行人视频;
步骤2、对所述人体视频及所述个体左运动视频、个体右运动视频进行预处理,所述预处理包括数据扩大及数据归一化,获得处理后视频数据;
步骤3、对所述处理后视频数据提取初步特征,将所述初步特征通过多层感知机建立所述初步特征的非线性关系;
步骤4、基于所述初步特征的非线性关系,采用分类器进行交互行为特征的分类。
2.根据权利要求1所述的方法,其特征在于,所述步骤1进一步包括:
步骤101、将输入图像转换为灰度图,并对所述灰度图进行颜色空间的标准化;
步骤102、计算每个像素位置的梯度方向值;
步骤103、为每个细胞单元构建梯度方向直方图,并将细胞单元组合成块,在块内归一化梯度直方图;
步骤104、将检测窗口中所有重叠的块进行hog特征的收集。
3.根据权利要求1所述的方法,其特征在于,所述步骤2中,所述数据扩大,采用如下方式:对视频图像进行翻转,并进行随机裁剪,以扩大数据;
所述数据归一化通过如下方式:
xi:=xi-μ
其中,每帧图片有n个像素,xi(i=1,2,…,n)是每帧图片的每一个像素大小,μ是每张图片的平均强度。
4.根据权利要求1所述的方法,其特征在于,所述步骤3中,所述多层感知机的激活函数为:
relu(x)=max(x,0);
所述多层感知机加入优化器,所述优化器中动量直接并入梯度一阶矩的估计,并在所述优化器中加入偏置修正,以修正从原点初始化的一阶矩和二阶矩估计。
5.根据权利要求1所述的方法,其特征在于,所述步骤4中,所述分类器采用概率加权融合得到识别概率:
rfinal=ru×pu+rl×pl+rr×pr
其中,rfinal是最后识别结果概率,ru是双人视频分类结果,rl是左侧行为人视频分类结果,rr是右侧行为执行人视频的分类结果,pu、pl、pr为对应的分类结果相应的加权概率。
6.一种基于视频图像的人体交互行为识别系统,其特征在于,所述系统包括:
运动个体分割模块,用于将输入的人体视频分割为个体左运动视频、个体右运动视频,所述个体左运动视频和个体右运动视频分别是运动视频个体分割后左边运动人视频和右边运动执行人视频;
图像视频预处理模块,用于对所述人体视频及所述个体左运动视频、个体右运动视频进行预处理,所述预处理包括数据扩大及数据归一化,获得处理后视频数据;
神经网络特征提取模块,用于对所述处理后视频数据提取初步特征,将所述初步特征通过多层感知机建立所述初步特征的非线性关系;
人体交互行为识别模块,用于基于所述初步特征的非线性关系,采用分类器进行交互行为特征的分类。
7.根据权利要求6所述的系统,其特征在于,所述图像视频预处理模块进一步包括:
数据扩大单元,通过对视频图像进行翻转,并进行随机裁剪,以扩大数据;
归一化单元,对扩大后的数据进行数据归一化,所述数据归一化通过如下方式:
xi:=xi-μ
其中,每帧图片有n个像素,xi(i=1,2,…,n)是每帧图片的每一个像素大小,μ是每张图片的平均强度。
8.根据权利要求6所述的系统,其特征在于,所述神经网络特征提取模块还包括优化器单元,所述优化器单元中的动量直接并入所述多层感知机梯度一阶矩的估计,并在所述优化器单元中加入偏置修正,以修正从原点初始化的一阶矩和二阶矩估计。
9.根据权利要求6所述的系统,其特征在于,所述人体交互行为识别模块中,所述分类器采用概率加权融合得到识别概率:
rfinal=ru×pu+rl×pl+rr×pr
其中,rfinal是最后识别结果概率,ru是双人视频分类结果,rl是左侧行为人视频分类结果,rr是右侧行为执行人视频的分类结果,pu、pl、pr为对应的分类结果相应的加权概率。
10.一种基于视频图像的人体交互行为识别装置,其特征在于,所述装置包括存储器,以及一处理器,所述处理器可以访问所述存储器,调用所述存储器中的指令,并执行所述指令,以执行如权利要求1-5任一所述的人体交互行为识别方法。