手势数据集合的生成方法及生成系统、存储介质与流程

文档序号:30301870发布日期:2022-06-05 00:35阅读:211来源:国知局
手势数据集合的生成方法及生成系统、存储介质与流程

1.本发明涉及计算机视觉技术领域,尤其涉及一种手势数据集合的生成方法及生成系统、存储介质。


背景技术:

2.近年来,随着深度学习理论和计算机算力的不断发展,深度学习已经在计算机视觉中的图像识别、图像检测、图像分割、生成式对抗网络等方向取得了重大突破,并成功应用在人脸识别、车辆检测、人物换脸和视频修复等多个领域并取得了良好的效果。然而,由于任务的复杂性,深度学习的神经网络模型通常含有以百万为单位的参数,训练如此巨大的网络模型需要大量充分的数据,例如著名的imagenet数据集包含了20000多个类别,1500万左右的图片。因此,大规模的标记数据对于深度学习来说至关重要。
3.现有公开的手势数据集存在一些不足,包括:一是数据中大部分为rgb,而ir图像数据(ir图像数据为红外图像传感器输出的红外图像数据)相对较少;二是数据通常以采集者的需求进行采集,对于不是采集者外的使用人来说就不友好且不灵活,无法根据使用人的实际需求来定义采集内容,受限过多;三是采集环境条件存在差异,如采集相机差异,导致采集的数据也存在差异,兼容性差而无法得到较好的效果;四是数据多样性不够,如在采集器的不同位置,不同距离等情形下的手势在细节、亮暗程度上有较大区别,能覆盖的应用场景显得不足。
4.虽然红外图像的应用越来越广并被人们普遍接受,但是实际采集数据却不是一件容易的事,任务量太大,需要消耗大量的人力、财力、时间及精力,导致采集足够多的数据变得比较困难,但是没有新的数据集又很难开展后续的工作,这将面临到进退两难的囧境。


技术实现要素:

5.为了解决现有技术中获得足够数量的手势数据集合比较困难的技术问题,本发明提出了手势数据集合的生成方法及生成系统、存储介质。
6.本发明提出的手势数据集合成的生成方法,包括:
7.步骤1,利用红外相机采集原始图像,所述原始图像包括手势分析数据、手势目标数据和背景数据;
8.步骤2,对原始图像进行预处理,得到分割后的手势分析数据、分割后的手势目标数据和待合成的背景数据;
9.步骤3,根据分割后的手势分析数据对分割后的手势目标数据进行调整,生成目标数量的待合成的手势目标数据;
10.步骤4,将待合成的手势目标数据和待合成的背景数据进行合成处理,获得初始手势合成图像。
11.进一步,还包括:步骤5,对初始合成图像进行后处理,获得最终的手势合成数据。
12.进一步,利用所述红外相机采集预设数量的有效范围内不同距离、同视场内不同
位置且空白背景的手势图像形成所述手势分析数据;
13.和/或利用所述红外相机采集预设数量的预设距离内、同视场内中心位置、单一角度且空白背景的手势图像形成所述手势目标数据;
14.和/或利用所述红外相机采集预设数量的有效范围内不含手势的各种场景的图像形成所述背景数据。
15.进一步,所述预处理包括对所述手势分析数据、手势目标数据进行数据转换使得原始图像的像素值满足阈值区间[0,255],和/或调整原始图像的大小,和/或对原始图像进行滤波、平滑、降噪处理当中的至少一种。
[0016]
进一步,所述预处理包括对所述背景数据进行旋转、裁剪、缩放、对比度调整、明暗度调整中的一种或组合操作,得到目标合成数量的待合成的背景图像。
[0017]
进一步,所述步骤3包括:
[0018]
步骤31,对分割后的手势分析数据进行统计,得到手势数据的均值和方差的对应关系式,并确定所述均值和方差的取值范围,形成参考基准条件;
[0019]
步骤32,选择分割后的手势目标数据,计算得到待调整的手势数据的方差s1和均值m1;
[0020]
步骤33,从所述参考基准条件中随机选择一个手势数据的均值m2和方差s2,根据公式h2=(h1-m1)/s1*s2+m2逐点对待调整的手势数据的像素点的灰度值进行调整,若调整后的像素点的灰度值超出了阈值区间,则将像素点的灰度值赋值为最接近的阈值;
[0021]
步骤34,通过重复步骤33或者步骤32和步骤33,对每一张分割后的手势目标数据的图像的像素点的灰度值进行调整,直至达到所述目标数量的待合成的手势目标图像。
[0022]
进一步,所述手势数据的均值和方差的对应关系为max(0.28465*m+15.27581,0.1)≤s≤0.28465*m-25.27581,所述s为均值,m为方差。
[0023]
进一步,所述步骤4中,在进行初始手势合成图像的合成过程中,待合成的手势目标图像在贴合时,含有手势目标图像可以在外围形成一个闭合的手势框,所述手势框在背景图像上的位置采用位置l表示,位置l为初始的手势合成图像的标注信息。
[0024]
进一步,所述步骤5包括:
[0025]
将所述初始合成图像构造为矩阵a,使所述初始手势合成图像与矩阵a的行列数相等;随机在不同的视场取该处的最大衰减值,按照与圆心的距离关系进行拟合,将初始手势合作图像和矩阵a的对应元素逐个相乘,从而拟合出镜头中不同位置的手势数据作为最终的手势合成数据。
[0026]
进一步,将所述拟合出的镜头中不同位置的手势数据中随机加入散点噪音、直线噪音和曲线噪音当中的至少一种或其组合之后,再作为最终的手势合成数据。
[0027]
本发明的手势数据集合的生成系统,采用上述技术方案所述的手势数据集合的生成方法得到手势合成数据,包括:
[0028]
采集模块,用于采集所述原始图像;
[0029]
预处理模块,对所述原始图像进行预处理;
[0030]
调整模块,对预处理模块的处理结果进行调整处理;
[0031]
合成模块,对待合成的手势目标数据和待合成的背景数据进行合成处理。
[0032]
本发明的计算机可读存储介质,用来存储计算机程序,该计算机程序在运行时执
行上述技术方案所述的手势数据集合的生成方法得到手势合成数据。
[0033]
本发明不需要投入大量的人力、物力和财力等资源就可以便捷快速地建立基于红外相机采集的手势数据集。通过红外相机采集到少量的ir图像数据,在经过预处理后分别得到手势目标数据、背景数据、以及所需要的调整基础参考条件,从而快速生成更多数量的手势目标数据,并与背景数据进行快速生成更多的原始手势合成数据,再经过后处理使得合成后的手势数据符合类似于实际采集的数据,同时还自动生成其标注信息,避免了标注的工作量,为深度学习提供较为充实的数据保障。相对于传统的方法,极大地提升了数据采集和标注效率,在较少的投入下就可以高效地获得所需要的训练数据集。
附图说明
[0034]
下面结合实施例和附图对本发明进行详细说明,其中:
[0035]
图1为本发明一实施例的流程图。
[0036]
图2为本发明单一手势均值和方差的关系图。
[0037]
图3为本发明大量手势均值和方差的关系图。
[0038]
图4为ir图中心亮四周案的表示图。
具体实施方式
[0039]
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
[0040]
由此,本说明书中所指出的一个特征将用于说明本发明的一个实施方式的其中一个特征,而不是暗示本发明的每个实施方式必须具有所说明的特征。此外,应当注意的是本说明书描述了许多特征。尽管某些特征可以组合在一起以示出可能的系统设计,但是这些特征也可用于其他的未明确说明的组合。由此,除非另有说明,所说明的组合并非旨在限制。
[0041]
本发明的手势数据集合成的生成方法,可以根据少量采集到的ir手势数据快速合成大批量的手势图片形成新数据集,在训练手势分类网络的时候提供充实的训练数据,在训练手势检测网络的时候还可以提供手势框的坐标信息,极大的提升了训练数据集的多样性和采集效率。
[0042]
如图1所示,本发明的手势数据集合的生成方法至少包括4个步骤,在一个较优实施例中,包括5个步骤。
[0043]
步骤1(s1)中利用红外相机采集原始图像,原始图像包括手势分析数据、手势目标数据和背景数据。
[0044]
其中手势分析数据集的采集是利用红外相机采集有效范围内不同距离、同视场内不同位置下、空白背景的手势图像,并达到一定数量从而形成原始的手势分析数据集。即利用红外相机采集预设数量的有效范围内不同距离、同视场内不同位置且空白背景的手势图像形成手势分析数据。
[0045]
手势目标数据集的采集是利用红外相机采集有效范围内中距离、同视场内中心位置、单一角度、空白背景的手势图像,并达到一定的数量形成原始的手势目标数据集。即利
用红外相机采集预设数量的预设距离内、同视场内中心位置、单一角度且空白背景的手势图像形成手势目标数据。
[0046]
背景数据的采集:利用红外相机采集有效范围内不含有手势在内的各种场景的图像,并达到一定的数量形成原始的背景数据集。即利用红外相机采集预设数量的有效范围内不含手势的各种场景的图像形成背景数据。
[0047]
上述原始图像的采集顺序不分先后。
[0048]
步骤2(s2)对原始图像进行预处理,得到分割后的手势分析数据、分割后的手势目标数据和待合成的背景数据。具体的,预处理包括对手势分析数据、手势目标数据进行数据转换使得原始图像的像素值满足阈值区间[0,255],和/或调整原始图像的大小,和/或对原始图像进行滤波、平滑、降噪处理当中的至少一种。
[0049]
对手势分析数据进行预处理是在原始的手势分析图像数据中,每个像素点的数据值都是不一样的,可以大也可以小,所以需要进行数据类型的转换。在本实施例中,使用的红外相机是tof相机,经过统计后发现原始数据范围为[0,1023]。由于设置原始数据范围的像素值超出值域区间[0,255],这样不利于后面的计算,需要再对原始的采集数据进行归一化处理。
[0050]
归一化的处理包括:若采集到的像素点灰度值为p,归一化后的灰度值设置为p/1023*255。接着截取手势框,在保证手势框长宽比不变情况下调整图片大小,并使最长边的边长为180,得到较为统一的手势分析图片。
[0051]
接着再进行中值滤波,把噪音极值去掉,并使手势边界平滑,之后使用自适应阈值法来分割出手势部位,最大的连通域作为保留有效手势部位,小的连通域作为去掉的噪音。接着再将背景填充灰度值255,有效手势中若某一点灰度值为255,则将其变为254,于是得到分割后的手势分析数据。
[0052]
对手势目标数据进行预处理与对手势分析数据的预处理为相同的步骤及过程。
[0053]
对背景图像进行预处理是为了适应更多现实中的各种场景,可以分别进行旋转、裁剪、缩放、对比度、明暗度等中的一种或组合进行调整,从而得到更多的待合成的背景图像。
[0054]
步骤3(s3)中根据分割后的手势分析数据对分割后的手势目标数据进行调整,生成目标数量的待合成的手势目标数据,具体包括如下步骤。
[0055]
步骤31,对分割后的手势分析数据进行统计,得到手势数据的均值和方差的对应关系式,并确定所述均值和方差的取值范围,形成参考基准条件。
[0056]
在实际相机中,不同距离的手势灰度会有差异,距离相机近的手势亮并且亮暗变化大,距离相机远的手势暗并且亮暗变化小。这种“手势距离远的亮度低且变化小,距离近的亮度大且变化大”的情形可以作为对手势目标进行调整的参考,因而需要找出手势目标的调整所对应的参考基准条件。具体的做法是将分割后的手势分析数据进行统计,将实际得到一个手势均值和方差的分布情况及对应关系(参见图2和图3),即满足以下关系式:
[0057]
max(0.28465*m+15.27581,0.1)≤s≤0.28465*m-25.27581
[0058]
其中,s为均值,m为方差。
[0059]
从图2中,可以发现如果分析的是单一手势,那么手势均值和方差的分布情况更集中一些;从图3中,可以发现如果采集的是多种手势,那么手势均值和方差的分布情况更零
散一些;但是都可以看到,手势均值和方差的对应关系都是满足上面的关系式,这说明它们之间是存在高度关联的。也就是说,手势分析数据集是有效的,可以被用于手势目标数据集上,考虑到手势分析数据集的采集时并没有覆盖到更多真实情况,于是我们根据实际情况对手势均值和标准方差进行限定;同时为了保证用于训练集可以覆盖所有更多真实情况,可以对训练集的均值m和标准差s进行适当放宽。在本实施例中,分别对均值m和标准差s进行取值为:45≤m≤225和s≥0.1。
[0060]
具体参见图3中的分布情况,m的取值是位于图中的横轴线,s的取值是位于图中的竖轴线,但是考虑到为了避免标准差小于等于0,此时取s最小值为0.1。训练所需要的数据应是分布将介于图3中的两条斜线之间。
[0061]
接下来,可以选择一张分割后的手势目标数据(一张分割后的手势目标数据图像数据),计算后得到其的均值为m1和方差为s1;然后从上述手势目标的调整所对应的参考基准条件中随机选择一个均值m2和方差s2,于是逐点满足以下的关系式进行调整:
[0062]
(h1-m1)/s1=(h2-m2)/s2
[0063]
其中,h1为一张图像中的某个像素点的原始灰度值,h2为调整后的灰度值。
[0064]
即执行步骤32和步骤33。步骤32选择分割后的手势目标数据,计算得到待调整的手势数据的方差s1和均值m1。步骤33从参考基准条件中随机选择一个手势数据的均值m2和方差s2,根据公式h2=(h1-m1)/s1*s2+m2逐点对待调整的手势数据的像素点的灰度值进行调整,如果调整后的像素点的灰度值超出了阈值区间,则将像素点的灰度值赋值为最接近的阈值。例如调整后,若h2《0则h2=0,若h2》254,则h2=254。
[0065]
步骤34通过重复步骤33或者步骤32和步骤33,对每一张分割后的手势目标数据的图像的像素点的灰度值进行调整,直至达到目标数量的待合成的手势目标图像。通过不断重复对每一张分割后的手势目标图像进行调整,可以分别得到越来越多的不同场景下所需要的待合成的手势目标图像。
[0066]
步骤4(s4)中将待合成的手势目标数据和待合成的背景数据进行合成处理,获得初始手势合成图像,具体的做法是统计待合适的手势目标图像的边长的最大值和最小值,在此区间内随机生成数字作为最长边,然后对待合成手势目标图像进行长宽比不变的放大或缩小。接着再随机进行旋转或/与镜像;将手势目标图像中数据值不为255部分作为前景贴到待合成的背景图像中,同时记录手势框的位置l,从而得到初始的手势合成图像,基于位置l得到这个手势在初始的手势合成图像的标注信息,可被用于后续的深度学习中。在一些特殊案例中,初始手势合成图像就可以作为具有较大采样数量的手势相关的数据集。每张合成的图片,在合成的过程中已经进行了标注同步的工作了,在步骤4中,在进行初始手势合成图像(第四图像集)中,待合成的手势目标图像在贴合时,含有手势目标图像可以在外围形成一个闭合圈,这个圈被称为手势框,这个框(如用长方形框来把含有手势目标的框出来)在背景图像上的位置就被指定了,用位置l来表示,位置l就是初始的手势合成图像的标注信息。
[0067]
在一个优选实施例中,还可以进一步包括步骤5(s5),在步骤5中对初始合成图像进行后处理,获得最终的手势合成数据。如图4所示,通常情况下,相机采集到的图像,由于镜头原因会产生图像中心处最亮,然后向四周呈现同心圆越来越暗,又称为lens shading(镜头均匀度)。待合成的手势目标图像是不会存在这种情况下的,这会造成初始合成图像
失真,那么这是用户不想见到的。为了得到类似或接近相机采集的原始图像,步骤5中将初始合成图像构造为矩阵a,使初始手势合成图像与矩阵a的行列数相等;随机在不同的视场角取该处的最大衰减值(可以理解为随机取点或者随机取一个区域,在处理不同视场角的图像时,最大衰减值就是该点或者该区域在当前选定的视场角图像中的最大衰减值),按照与圆心的距离关系进行拟合,将初始手势合作图像和矩阵a的对应元素逐个相乘,从而拟合出镜头中不同位置的手势数据作为最终的手势合成数据。经过步骤5的手势数据是拟合了镜头中不同位置的手势数据,可以满足更多样化的需求。即根据镜头从中心向四周性线衰减关系,以图像的正央位置点为圆心向四周逐渐减少,于是通过随机在不同的视场取该处的最大衰减值,按照与圆心的距离关系进行拟合,将初始手势合作图像和矩阵a的对应元素逐个相乘,从而拟合出镜头中不同位置的手势数据。
[0068]
在一个进一步的实施例中,将拟合出的镜头中不同位置的手势数据中随机加入散点噪音、直线噪音和曲线噪音当中的至少一种或其组合之后,再作为最终的手势合成数据。这样使得得到的手势数据集包容了更多种情况的采样样本,基本上可以满足所有不同的针对手势的各种数据需求。由于一张图可以被合成多张数据,会容易出现过拟合,这是不利于深度学习网络检测出不同人的手势,以及戒指、手链等物体的影响。为了提高网络的鲁棒性,让网络可以更好的识别出不同人的手势,并减少戒指、手链等物体的影响,需要通过增加噪音。可以随机选择若干个像素点(u)加入散点噪音,随机决定噪音的半径、亮度是否从中心向周边衰减等参数;然后随机生成若干条直线(v)加入线性噪音,并随机生成曲线的半径、亮度等参数,加入曲线噪音,通过一些外置条件还原到带有更多噪声的合成图像。
[0069]
经过上述后处理后获得最终的手势合成数据集。这个数据集可以被应用于训练,若应用于手势检测,可以使用这个数据集以及步骤4中记录下来对应位置坐标l作为检测数据集。若应用于手势分类,可以根据步骤4中记录下的位置坐标l裁剪对应区域作为分类数据集。
[0070]
本发明还保护对应的手势数据集合的生成系统,采用了上述技术方案的手势数据集合的生成方法得到手势合成数据,包括:
[0071]
采集模块,用于采集所述原始图像;
[0072]
预处理模块,对所述原始图像进行预处理;
[0073]
调整模块,对预处理模块的处理结果进行调整处理;
[0074]
合成模块,对待合成的手势目标数据和待合成的背景数据进行合成处理。
[0075]
本发明的计算机可读存储介质,用来存储计算机程序,该计算机程序在运行时执行上述技术方案所述的手势数据集合的生成方法得到手势合成数据。
[0076]
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1