手势结合AR特效的方法、存储介质、设备及系统与流程

文档序号：20082621发布日期：2020-03-13 05:49阅读：211来源：国知局

本发明涉及智能交互领域，具体涉及一种手势结合ar特效的方法、存储介质、设备及系统。

背景技术：

当前，人们在拍照或录像时，为了增加图像中画面的美观或趣味性，通常会选择一些静态或动态的装饰元素贴于图像画面中，如：在自拍时，选择圣诞树样式的贴纸贴于人脸的脸颊上，或者选择帽子样式的贴纸贴于额头上，从而增加自拍画面的美感；在录像时，选择跳动的小鹿3d动画贴于画面的中心处。

但是，对于画面中所贴的图案或动画，需要用户拍摄时手动对装饰元素的样式进行选择，并对装饰元素在画面中的位置进行手动设置，操作过程较为繁琐，影响用户的使用体验。

技术实现要素：

针对现有技术中存在的缺陷，本发明的目的在于提供一种手势结合ar特效的方法，能够在特定手势处自动生成对应于特定手势的装饰元素，优化用户体验。

为达到以上目的，本发明采取的技术方案是，包括：

获取多个含有特定手势的图像作为训练样本，对神经网络模型进行训练；

截取直播画面作为待检测图像，使用训练完成后的神经网络模型，对待检测图像中的手势进行检测；

当检测到待检测图像中包含特定手势时，对特定手势进行判断：

当特定手势仅为一只手所形成时，在特定手势处生成相对应的静态装饰元素，并将生成的动态装饰元素显示于直播画面的相同位置处；

当特定手势为二只手所形成时，在特定手势处生成相对应的动态装饰元素，并将生成的动态装饰元素显示于直播画面的相同位置处；

当特定手势为三只及以上手所形成时，则结束。

在上述技术方案的基础上，

对于训练样本图像中的特定手势，对构成特定手势的手的数目进行标记，然后使用训练样本对神经网络模型进行训练，以使神经网络模型具有识别特定手势及构成特定手势的手数目的能力；

当检测到待检测图像中包含特定手势时，对特定手势以及构成特定手势的手数目进行判断。

在上述技术方案的基础上，

所述静态装饰元素为2d贴纸；

所述动态装饰元素为3d动画模型；

当特定手势仅为一只手所形成时，在特定手势处生成相对应的静态装饰元素，并获取特定手势在待检测图像中的位置坐标，然后在直播画面的相同位置处显示所生成的静态装饰元素；

当特定手势为二只手所形成时，在特定手势处生成相对应的动态装饰元素，并获取特定手势在待检测图像中的位置坐标，然后在直播画面的相同位置处显示所生成的动态装饰元素。

在上述技术方案的基础上，所述神经网络模型包括fasterr-cnn、ssd和yolo。

在上述技术方案的基础上，当图像为视频画面的图像时，对于装饰元素的生成，具体步骤为：

使用训练完成后的神经网络模型对图像中出现特定手势的第一帧画面进行检测；

在第一帧画面的特定手势处生成装饰元素；

通过跟踪算法，对图像之后每一帧画面中的特定手势的位置进行跟踪，同时特定手势显示于跟踪到的特定手势的位置处。

在上述技术方案的基础上，所述通过跟踪算法，对图像之后每一帧画面中的特定手势的位置进行跟踪，具体为：

对图像第一帧画面中特定手势所在区域进行建模，图像之后每一帧画面中，与建模最相似的区域即为特定手势所在区域，从而完成对于特定手势的跟踪。

在上述技术方案的基础上，

所述训练样本的图像中特定手势的位置已进行标注，

所述神经网络模型对待检测图像中的特定手势及特定手势位置进行检测，基于检测到的特定手势及特定手势位置，在特定手势处生成对应的装饰元素；

对于同一特定手势，在待检测图像中位置不同，对应的装饰元素不同。

本发明还提供一种存储介质，该存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取多个含有特定手势的图像作为训练样本，对神经网络模型进行训练；

截取直播画面作为待检测图像，使用训练完成后的神经网络模型，对待检测图像中的手势进行检测；

当检测到待检测图像中包含特定手势时，对特定手势进行判断：

当特定手势仅为一只手所形成时，在特定手势处生成相对应的静态装饰元素，并将生成的动态装饰元素显示于直播画面的相同位置处；

当特定手势为二只手所形成时，在特定手势处生成相对应的动态装饰元素，并将生成的动态装饰元素显示于直播画面的相同位置处；

当特定手势为三只及以上手所形成时，则结束。

本发明还提供一种电子设备，所述电子设备包括：

训练单元，其用于获取多个含有特定手势的图像作为训练样本，对神经网络模型进行训练；

检测单元，其用于截取直播画面作为待检测图像，使用训练完成后的神经网络模型，对待检测图像中的手势进行检测；

生成单元，其用于当特定手势仅为一只手所形成时，在特定手势处生成相对应的静态装饰元素，并将生成的动态装饰元素显示于直播画面的相同位置处；

当特定手势为二只手所形成时，在特定手势处生成相对应的动态装饰元素，并将生成的动态装饰元素显示于直播画面的相同位置处；

当特定手势为三只及以上手所形成时，则结束。

本发明还提供一种手势结合ar特效的系统，包括：

训练模块，其用于获取多个含有特定手势的图像作为训练样本，对神经网络模型进行训练；

检测模块，其用于截取直播画面作为待检测图像，使用训练完成后的神经网络模型，对待检测图像中的手势进行检测；

生成模块，其用于当检测到待检测图像中包含特定手势时，对特定手势进行判断：

当特定手势仅为一只手所形成时，在特定手势处生成相对应的静态装饰元素，并将生成的动态装饰元素显示于直播画面的相同位置处；

当特定手势为二只手所形成时，在特定手势处生成相对应的动态装饰元素，并将生成的动态装饰元素显示于直播画面的相同位置处；

当特定手势为三只及以上手所形成时，则结束。

与现有技术相比，本发明的优点在于：基于神经网络模型训练的方式，使得训练后的神经网络模型具有识别图像中特定手势的能力，当识别出图像中的特定手势后，在特定手势处自动生成对应于特定手势的装饰元素，进行虚拟装饰物和现实的结合，且整个过程无需手动对装饰物进行选择，有效保证用户的使用体验。

附图说明

图1为本发明实施例中一种手势结合ar特效的方法的流程图；

图2为本发明实施例中一种电子设备的结构示意图。

具体实施方式

以下结合附图及实施例对本发明作进一步详细说明。本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

参见图1所示，本发明实施例提供一种手势结合ar特效的方法，其用于当用户进行拍照或录像时，基于图像中出现的手势，自动在手势处生成装饰元素。本发明实施例的一种手势结合ar特效的方法，具体包括以下步骤：

s1：获取多个含有特定手势的图像作为训练样本，对神经网络模型进行训练。神经网络模型包括fasterr-cnn、ssd和yolo。fasterr-cnn为一种常见的目标检测算法，是现有很多检测算法的基础；ssd(singleshotmultiboxdetector)是采用单个深度神经网络模型实现目标检测和识别的算法；yolo(youonlylookonce)是2015年提出的基于单个神经网络的目标检测算法。当然，本发明实施例中的神经网络模型还可以为其它深度神经网络模型，或者为基于滑动窗口的检测算法。

特定手势包括单手比心、竖起大拇指、双手合围爱心等，特定手势可以为大众均知道含义的常见手势动作，或者个人自定义的手势动作。作为训练样本的图像可以为图片或者视频，将训练样本输入到神经网络模型，进行训练，从而使得神经网络模型具有识别特定手势的能力，为提升神经网络模型对于特定手势的识别精度，可以增加训练样本的量。若采用基于滑动窗口的检测算法，对待测测图像中的特定手势进行识别，则可以采用hog(histogramoforientedgradient，方向梯度直方图)+svm(supportvectormachine，支持向量机)的方式，先提取hog特征，再通过svm分类器判断当前滑动窗口区域是否是含有特定手势的区域，从而实现对于待测测图像中特定手势的识别。

s2：截取直播画面作为待检测图像，使用训练完成后的神经网络模型，对待检测图像中的手势进行检测。神经网络模型训练完成后，即具有识别特定手势的能力，因此使用训练完成后的神经网络模型对待检测图像进行检测，以识别待检测图像中的手势。进一步的，对于训练样本图像中的特定手势，对构成特定手势的手数目进行标记，通过手所构成的手势可以有多种样式，且手的数目不同，所能形成的手势样式也不同，如“ok”的手势可以通过一只手完成，“抱拳”的手势需要二只手完成，“比爱心”需要二只手完成，为方便后续装饰元素的展示更具有针对性，给予主播和直播观众带来更好的使用体验，因此可以对构成特定手势的手数目进行标记。然后使用训练样本对神经网络模型进行训练，以使神经网络模型具有识别特定手势及构成特定手势的手数目的能力。

s3：当检测到待检测图像中包含特定手势时，对特定手势以及构成特定手势的手数目进行判断：

当特定手势仅为一只手所形成时，在特定手势处生成相对应的静态装饰元素，并将生成的动态装饰元素显示于直播画面的相同位置处。对于一只手所形成的特定手势，可以为“ok”手势、“竖大拇指”手势等。

当特定手势为二只手所形成时，在特定手势处生成相对应的动态装饰元素，并将生成的动态装饰元素显示于直播画面的相同位置处。对于一只手所形成的特定手势，可以为“比爱心”手势、“抱拳”手势等。

当特定手势为三只及以上手所形成时，则结束。因为当特定手势为三只及以上手所形成时，表明待检测图像中的人数至少为2人，即直播画面中至少有2人，若此时再添加装饰元素的显示，直播画面中显示内容过多，会使整个直播画面显得比较混乱，故当特定手势为三只及以上手所形成时，便不再进行装饰元素的显示操作。

静态装饰元素为2d贴纸。动态装饰元素为3d动画模型。当特定手势仅为一只手所形成时，在特定手势处生成相对应的静态装饰元素，并获取特定手势在待检测图像中的位置坐标，然后在直播画面的相同位置处显示所生成的静态装饰元素。当特定手势为二只手所形成时，在特定手势处生成相对应的动态装饰元素，并获取特定手势在待检测图像中的位置坐标，然后在直播画面的相同位置处显示所生成的动态装饰元素。

因为待检测图像是截取的直播画面，故待检测图像中特定手势的位置和直播画面中特定手势的位置相同，据此，可以通过特定手势在待检测图像中的位置坐标，然后在直播画面的相同位置处显示所生成的动态装饰元素，保证直播画面中动态装饰元素生成位置的正确性。

装饰元素即相当于ar特效，ar特效在图像中的实物处生成，使得实物与虚拟物共存。特定手势为多个，且不同的特定手势对应不同的装饰元素。装饰元素为2d贴纸或3d动画模型，当装饰元素为2d贴纸时，待检测图像中的出现特定手势时，2d贴纸张贴于特定手势处；当装饰元素为3d动画模型，待检测图像中的出现特定手势时，3d动画模型生成于特定手势处并播放，给人的感觉是虚拟与现实进行了结合，实现ar特效的展示。且无论是2d贴纸还是3d动画模型，均在直播画面中显示设定时间后，采用淡出的方式在直播画面中消失。

2d贴纸可以为某个物品或动物的图画，3d动画模型可以为动态的动物动画。如，当神经网络模型检测到的特定手势为双手合围爱心，此时若装饰元素为2d贴纸，则在双手合围爱心处展示一爱心的图画，若此时装饰元素为3d动画模型时，则在双手合围爱心处展示一跳动的卡通爱心动画；当神经网络模型检测到的特定手势为双手抱拳时，若此时装饰元素为2d贴纸，则在双手抱拳处展示含有恭喜发财字样的图片，若此时装饰元素为3d动画模型，则在双手抱拳处展示一作双手抱拳动作的卡通小孩，同时小孩不断弯腰。2d贴纸和3d动画模型的样式根据需要灵活设计。

通过对构成特定手势手数目的判断，然后决定显示2d贴纸形式的静态装饰元素，还是3d动画模型形式的动态装饰元素，给本发明实施例方法的使用者一种层次感，类似于进阶的感觉，因为二只手所形成的手势类型从样式上来说必然比单只手所形成的手势样式复杂，同时3d动画模型所带来的观感效果必然也比2d贴纸所带来的观感效果好，故可以通过此种设定间接地鼓励主播多做一些复杂的手势，增加直播画面上动态装饰元素的显示频率，增加直播观看用户对于直播的观赏性，同时也能提升主播自己直播间的人气，一举多得。

在一种实施方式中，当图像为视频画面的图像时，由于为视频图像，故图像中人物的手势位置会随着时间而发生改变，此时对于装饰元素的生成，具体步骤为：

使用训练完成后的神经网络模型对图像中出现特定手势的第一帧画面进行检测，相当于仅对直播画面出现手势时所截图的画面进行检测，由于检测算法通常耗时较长，此为基于性能的考虑；

在第一帧画面的特定手势处生成装饰元素；

通过跟踪算法，对图像之后每一帧画面中的特定手势的位置进行跟踪，同时特定手势显示于跟踪到的特定手势的位置处。

上述通过跟踪算法，对图像之后每一帧画面中的特定手势的位置进行跟踪，具体为：

跟踪算法包括生成模型方法和判别模型方法，其中对图像第一帧画面中特定手势所在区域进行建模即为生成模型方法，常见的有卡尔曼滤波，粒子滤波，mean-shift等，图像之后每一帧画面中，与建模最相似的区域即为特定手势所在区域即为判别模型方法，其实质为图像特征和机器学习。

对于视频图像中特定手势的跟踪，当前比较流行的为相关滤波和深度学习方法，传统的跟踪算法效果较差，但跟踪耗时短，相关滤波和深度学习的跟踪算法效果较好，但耗时更长，在实际的应用中具体使用哪种算法，结合特定的业务背景情况进行考虑选择，若本发明实施例的手势结合ar特效的方法在pc端使用，则使用基于相关滤波和深度学习的跟踪算法，若本发明实施例的手势结合ar特效的方法在移动端使用，则使用传统的跟踪算法。

在一种实时方式中，当使用训练样本对神经网络模型进行训练时，对训练样本的图像中特定手势的位置已进行标注，神经网络模型对待检测图像中的特定手势及特定手势位置进行检测，基于检测到的特定手势及特定手势位置，在特定手势处生成对应的装饰元素，对于同一特定手势，在待检测图像中位置不同，对应的装饰元素不同，提升可玩性。

本发明实施例的手势结合ar特效的方法，基于神经网络模型训练的方式，使得训练后的神经网络模型具有识别图像中特定手势的能力，当识别出图像中的特定手势后，在特定手势处自动生成对应于特定手势的装饰元素，进行虚拟装饰物和现实的结合，且整个过程无需手动对装饰物进行选择，有效保证用户的使用体验。

本发明实施例还提供一种存储介质，该存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取多个含有特定手势的图像作为训练样本，对神经网络模型进行训练；

使用训练完成后的神经网络模型，对待检测图像中的手势进行检测；

当待检测图像中的出现特定手势时，在特定手势处生成对应于特定手势的装饰元素。

当检测到待检测图像中包含特定手势时，对特定手势以及构成特定手势的手数目进行判断。

静态装饰元素为2d贴纸；动态装饰元素为3d动画模型；当特定手势仅为一只手所形成时，在特定手势处生成相对应的静态装饰元素，并获取特定手势在待检测图像中的位置坐标，然后在直播画面的相同位置处显示所生成的静态装饰元素；当特定手势为二只手所形成时，在特定手势处生成相对应的动态装饰元素，并获取特定手势在待检测图像中的位置坐标，然后在直播画面的相同位置处显示所生成的动态装饰元素。

参见图2所示，本发明实施例还提供一种电子设备，电子设备包括训练单元、检测单元和生成单元。

训练单元用于获取多个含有特定手势的图像作为训练样本，对神经网络模型进行训练；检测单元用于使用训练完成后的神经网络模型，对待检测图像中的手势进行检测；生成单元用于当待检测图像中的出现特定手势时，在特定手势处生成对应于特定手势的装饰元素。

本发明实施例还提供一种手势结合ar特效的系统，包括训练模块、检测模块和生成模块。

训练模块用于获取多个含有特定手势的图像作为训练样本，对神经网络模型进行训练；检测模块用于使用训练完成后的神经网络模型，对待检测图像中的手势进行检测；生成模块用于当待检测图像中的出现特定手势时，在特定手势处生成对应于特定手势的装饰元素。

本发明实施例的手势结合ar特效的系统，基于神经网络模型训练的方式，使得训练后的神经网络模型具有识别图像中特定手势的能力，当识别出图像中的特定手势后，在特定手势处自动生成对应于特定手势的装饰元素，进行虚拟装饰物和现实的结合，且整个过程无需手动对装饰物进行选择，有效保证用户的使用体验。

本发明不局限于上述实施方式，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李亮
技术所有人：武汉斗鱼网络科技有限公司
我是此专利的发明人

上一篇：一种充电控制电路及其控制方法与流程
上一篇：电子产品用压花设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。