本公开涉及图像识别,特别涉及一种手势识别系统和手势识别方法。
背景技术:
1、在有交通警察指挥的路口,无人驾驶汽车必须能够准确识别并服从交警的手势指令,以保障行车秩序和安全。而在日常行驶中,车辆与行人之间的互动也同样不可避免。因此,能够智能识别交警和行人手势动作信息的手势识别系统成为了智能驾驶技术不可或缺的一环。
2、相关技术中,手势识别系统包括:骨骼关键点识别传感器和手势识别模块,骨骼关键点传感器用于识别人体骨骼关键点,手势识别模块用于基于识别出的人体骨骼关键点进行手势识别。
3、然而,骨骼关键点传感器造价较高,导致手势识别系统的成本较高。
技术实现思路
1、本公开提供了一种手势识别系统和手势识别系统,能够低成本、高效且准确地实现手势识别。所述技术方案至少包括如下方案:
2、第一方面,提供了一种手势识别系统,包括依次连接的骨骼关键点提取模块、骨骼矢量构建模块、时序特征提取模块以及全连接层,所述骨骼关键点提取模块用于基于检测器和追踪器,提取第一图像中的人体的第一骨骼关键点集合,所述第一骨骼关键点集合中包括多个第一骨骼关键点,所述检测器用于确定所述第一图像中的第一roi感兴趣区域,所述第一roi为存在所述第一骨骼关键点的区域,所述追踪器用于基于所述第一roi确定所述第一骨骼关键点集合,所述第一图像为视频中的第一帧存在人体的图像;所述骨骼矢量构建模块用于基于所述第一骨骼关键点集合中的部分第一骨骼关键点,确定第一骨骼矢量集合,所述第一骨骼矢量集合中包括多个第一骨骼矢量,所述多个第一骨骼矢量构成第一人体骨骼矢量图,以及基于所述第一图像中的人体的躯干长度,确定所述多个第一骨骼矢量的长度特征;所述时序特征提取模块用于基于连续的多帧图像中,每帧图像中的人体的骨骼矢量的长度特征,提取所述视频中人体的骨骼矢量的时序特征,所述连续的多帧图像为所述视频中连续的多帧图像,所述连续的多帧图像包括所述第一图像;所述全连接层用于基于所述视频中人体的骨骼矢量的时序特征,对所述第一图像中的人体的手势进行分类。
3、可选地,所述追踪器包括编码器、解码器和回归编码器,所述骨骼关键点提取模块用于采用如下方式实现所述基于检测器和追踪器,提取第一图像中的人体的骨骼关键点:基于检测器,以所述第一图像中的人体的臀部中心为基准,确定第一人体外接圆大小,并旋转所述第一人体外接圆,使旋转后的所述第一人体外接圆中,所述第一图像中的人体的肩部中心与所述臀部中心的连线与地面垂直,得到所述第一roi;基于所述编码器,确定所述第一roi中人体的全部第一关节特征;基于所述解码器,确定每个所述第一关节特征的热图,每个所述第一关节特征的热图用于对第一关节特征进行第一次预测;基于所述回归编码器,在每个所述第一关节特征的热图的基础上进行第二次预测,确定所述第一骨骼关键点集合。
4、可选地,所述骨骼关键点提取模块还用于:基于所述追踪器,在所述第一骨骼关键点集合的基础上确定第二图像中的第二roi,所述第二图像为所述第一图像的下一帧图像,所述第二roi为存在所述第二图像中人体的第二骨骼关键点的区域;基于所述编码器,确定所述第二roi中人体的全部第二关节特征;基于所述解码器,确定每个所述第二关节特征的热图,每个所述第二关节特征的热图用于对第二关节特征进行第一次预测;基于所述回归编码器,在每个所述第二关节特征的热图的基础上进行第二次预测,确定第二图像中的人体的第二骨骼关键点集合。
5、可选地,所述多个第一骨骼矢量包括:第一左大臂矢量、第一右大臂矢量、第一左小臂矢量、第一右小臂矢量、第一左躯干矢量、第一右躯干矢量、第一左大腿矢量、第一右大腿矢量、第一左小腿矢量和第一右小腿矢量。
6、可选地,所述手势识别系统与训练模块连接,所述训练模块用于对训练数据集合中的多个视频进行预处理,每个所述视频包括多帧在时间上连续的图像;其中,所述训练模块用于采用如下方式实现所述对训练数据集合中的多个视频进行预处理:对第一视频中的第三图像,将所述第三图像分为阵列布置的多个子块,每个子块之间各不相同,所述第一视频为所述多个视频中的任一个,所述第三图像为所述第一视频中的任一帧图像;对所述多个子块进行灰度直方图均衡化处理,得到每个所述子块的灰度映射表;基于每个所述子块的灰度映射表,确定所述第三图像中每个像素的灰度值。
7、可选地,所述训练模块用于采用如下方式实现所述基于每个所述子块的灰度映射表,确定所述第三图像中每个像素的灰度值:确定第一像素的第一依赖子块,所述第一像素为第一子块中的任一个像素,所述第一子块为所述多个子块中的任一个;基于所述第一依赖子块,确定第二依赖子块、第三依赖子块和第四依赖子块;基于所述第一像素在所述灰度直方图均衡化处理前的灰度值和每个所述子块的灰度映射表,分别确定所述第一像素在所述第一依赖子块、所述第二依赖子块、所述第三依赖子块和所述第四依赖子块中的灰度映射值,得到四个灰度映射值;基于所述四个灰度映射值,对所述第一像素在所述灰度直方图均衡化处理前的灰度值进行双线性插值,得到所述第一像素的灰度值。
8、可选地,所述训练模块还用于采用如下方式实现所述对训练数据集合中的多个视频进行预处理:
9、基于空间域的高斯滤波器和值域的高斯滤波器,对所述第三图像中每个像素的像素值进行双边滤波去噪处理,得到修正后的每个像素的像素值;
10、所述空间域的高斯滤波器采用如下公式实现:
11、
12、所述值域的高斯滤波器采用如下公式实现:
13、
14、其中,gs为空间域的高斯滤波器,gr为值域的高斯滤波器,e为自然底数,o为像素点o的坐标,q为像素点q的坐标,所述像素点o和所述像素点q为空间域上所述第三图像中的任意两个相邻的像素,ip为像素点p的像素值,iq为像素点q的像素值,为平滑参数。
15、可选地,所述训练数据集合中的多个视频中的每个视频均与标签集合中的一个标签对应,所述标签集合与所述多个视频的时序同步,所述标签集合中的标签用于标注视频中存在手势的多帧图像;所述训练模块还用于:在基于所述多个视频训练所述手势识别系统时,调整所述标签集合与所述多个视频的时序,以使所述标签集合的时序相对于所述多个视频的时序滞后第一时间长度。
16、可选地,所述骨骼矢量构建模块还用于基于每个所述第一骨骼矢量与重力矢量的正弦值和余弦值,确定每个所述第一骨骼矢量的角度特征;所述时序特征提取模块还用于基于连续的多帧图像中,每帧图像中的人体的骨骼矢量的长度特征和角度特征,提取所述视频中人体的骨骼矢量的时序特征。
17、第二方面,还提供了一种手势识别方法,包括:将待识别视频输入至第一方面所述的手势识别系统,得到所述待识别视频的手势类型。
18、本公开实施例提供的技术方案带来的有益效果至少包括:
19、在本公开实施例中,手势识别系统100通过骨骼关键点提取模块11中的检测器和追踪器实现提取第一图像中的人体的第一骨骼关键点集合,相较于骨骼点传感器而言,该方式更加经济,适用于移动设备,且骨骼点的识别速度也能够得到保证。骨骼矢量构建模块12通过第一图像中的人体的躯干长度,确定多个第一骨骼矢量的长度特征,从而提高了确定出的长度特征的准确程度,全连接层14通过第一骨骼矢量的时序特征实现对手势进行分类,既确保了识别的精确度,又有效降低了计算成本,避免了对高性能硬件的依赖,更适用于实时移动场景。
20、此外,通过骨骼点数据实现手势识别,可以减少光照、背景噪声等对识别结果的影响,更简单而完整的表达人体动作姿态,并在小样本数据集上获取更高的鲁棒性。