本申请涉及网络直播,尤其涉及一种直播视频手势检测方法、装置、设备及介质。
背景技术:
1、网络直播场景中,主播用户向直播间推送视频流,实现才艺展示、信息分享、知识教育等应用目的,使主播用户通过这些活动参与社会劳动获取收益,促进整体社会效益。
2、网络直播中手势识别不仅应用于和观众互动,还有其他多种应用。根据不同的手势,产生不同的特效,主播利用手势表达自己的意愿与观众互动,可以做一个特定手势进行表示,这样有利于提高观众观看网络直播的热情,主播也能获得一定的打赏收益,而且利用手势进行信息展示也是一个很好的应用,例如,主播做一个特定手势,屏幕就出现了某种信息,可起到信息传递的作用。
3、目前常用的手势识别方法,多数是基于人手检测结合手势分类的方法,由于直播过程中场景丰富,受背景及人物动作复杂等多种因素影响,其直播场景复杂且人手过小而容易出现遗漏检测或将背景相似图像误检测等问题。
技术实现思路
1、本申请的目的在于解决上述问题而提供一种直播视频手势检测方法、相应的装置、电子设备及计算机可读存储介质。
2、为满足本申请的各个目的,本申请采用如下技术方案:
3、适应本申请的目的之一而提出的一种直播视频手势检测方法,包括如下步骤:
4、获取直播视频流中的当前图像帧;
5、基于当前图像帧进行人脸目标检测,当检测到人脸位置信息时,根据所述人脸位置信息估计出人手高频活动区域,获取所述人手高频活动区域的图像作为待检图像;当未检测到所述人脸位置信息时,将当前图像帧作为待检图像;
6、基于所述待检图像进行人手目标检测确定出所述当前图像帧相对应的人手区域图像;
7、根据所述当前图像帧的所述人手区域图像确定出其对应的手势类别。
8、可选地,所述基于当前图像帧进行人脸目标检测的步骤之前,包括如下步骤:
9、获取当前图像帧的前一图像帧相对应的人手位置信息,根据该人手位置信息从所述当前图像帧中裁剪获得人手区域图像;
10、计算所述当前图像帧的人手区域图像与前一图像帧的人手区域图像的图像相似度,当所述图像相似度达到预设的相似度阈值时,将前一图像帧相对应的人手位置信息作为当前图像帧相对应的人手位置信息,跳转执行根据所述当前图像帧的所述人手区域图像确定出其对应的手势类别的步骤;
11、当所述图像相似度未达到所述相似度阈值时,继续执行所述基于当前图像帧进行人脸目标检测的步骤。
12、可选地,所述计算所述当前图像帧的人手区域图像与前一图像帧的人手区域图像的图像相似度的步骤,包括如下步骤:
13、分别对所述当前图像帧及其前一图像帧进行图像预处理;
14、应用感知哈希算法计算所述当前图像帧和所述前一图像帧各自的哈希值;
15、计算所述当前图像帧和所述前一图像帧各自的哈希值之间的数据距离作为所述图像相似度。
16、可选地,所述基于所述当前图像帧进行人脸目标检测的步骤,包括如下步骤:对所述当前图像帧进行人脸目标检测以获得一个或多个人脸位置信息;
17、根据各个所述人脸位置信息综合确定出所述人手高频活动区域。
18、可选地,所述根据各个所述人脸位置信息综合确定出所述人手高频活动区域的步骤,包括如下步骤:
19、根据所述各个人脸位置信息计算出所述各个选择框的中心点坐标、长度及宽度,所述人脸位置信息表示为相应人脸的选择框在所述当前图像帧中的坐标位置;
20、基于各个选择框的中心点坐标、长度、高度的均值确定出平均位置信息;
21、以所述平均位置信息的中心点坐标为基础,应用相应预设参数调节所述平均位置信息中的长度和高度,确定出调整后的位置信息以表示所述人手高频活动区域。
22、可选地,所述基于所述待检图像进行人手目标检测确定出所述当前图像帧相对应的人手区域图像的步骤,包括如下步骤:
23、基于所述待检图像进行人手目标检测,确定出所述当前图像帧的人手位置信息;
24、根据所述人手位置信息从所述待检图像中裁剪,获得所述当前图像帧相对应的人手区域图像。
25、可选地,所述根据所述当前图像帧的所述人手区域图像确定出其对应的手势类别的步骤之后,包括如下步骤:
26、触发所述手势类别相对应的特效控制指令;
27、响应于所述特效控制指令,获得相应的动画特效;
28、将所述动画特效中的各个图像帧对应添加到所述当前图像帧及其之后的图像帧中;
29、将所述直播视频流推送到直播间。
30、适应本申请的目的之一而提供的一种直播视频手势检测装置,包括:
31、图像获取模块,设置为获取直播视频流中的当前图像帧;
32、人手高频活动区域确定模块,设置为基于当前图像帧进行人脸目标检测,当检测到人脸位置信息时,根据所述人脸位置信息估计出人手高频活动区域,获取所述人手高频活动区域的图像作为待检图像;当未检测到所述人脸位置信息时,将当前图像帧作为待检图像;
33、人手区域确定模块,设置为基于所述待检图像进行人手目标检测确定出所述当前图像帧相对应的人手区域图像;
34、手势类别确定模块,设置为根据所述当前图像帧的所述人手区域图像确定出其对应的手势类别。
35、适应本申请的目的之一而提供的一种电子设备,包括中央处理器和存储器,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请一种直播视频手势检测方法的步骤。
36、适应本申请的另一目的而提供的一种计算机可读存储介质,其以计算机可读指令的形式存储有依据所述直播视频手势检测方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行相应的方法所包括的步骤。
37、相对于现有技术,本申请针对由于直播场景复杂且人手过小而容易出现遗漏检测或将背景相似图像误检测等问题,在直播视频流图像中检测人脸信息,基于人脸信息与人手之间的空间位置关系,估计出人手高频检出区域,由于人脸信息因为人脸形变较小,其肢体位置相对固定,画面可辨识度高等优点,其准确率及召回率均较高,因此可信度高,而基于人体结构,人手与人脸的相对位置比较固定,基于人手与人脸的相对位置确定人手高频活动区域,在人手高频活动区域中进行人手目标检测,从而得到其对应的手势类别,提高了人手检测的准确率及召回率,优化了手势识别效果且解决了直播过程中,由于直播场景复杂且人手过小而容易出现遗漏检测,或将背景相似图像误检测为人手等问题,其在舞蹈直播、户外直播等较复杂的背景下优化效果明显,并且本申请无额外的运算消耗,整体方案耗时与常用方案一致。
1.一种直播视频手势检测方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的直播视频手势检测方法,其特征在于,所述基于当前图像帧进行人脸目标检测的步骤之前,包括如下步骤:
3.根据权利要求2所述的直播视频手势检测方法,其特征在于,所述计算所述当前图像帧的人手区域图像与前一图像帧的人手区域图像的图像相似度的步骤,包括如下步骤:
4.根据权利要求1所述的直播视频手势检测方法,其特征在于,所述基于所述当前图像帧进行人脸目标检测的步骤,包括如下步骤:
5.根据权利要求4所述的直播视频手势检测方法,其特征在于,所述根据各个所述人脸位置信息综合确定出所述人手高频活动区域的步骤,包括如下步骤:
6.根据权利要求1所述的直播视频手势检测方法,其特征在于,所述基于所述待检图像进行人手目标检测确定出所述当前图像帧相对应的人手区域图像的步骤,包括如下步骤:
7.根据权利要求1至6中任意一项所述的直播视频手势检测方法,其特征在于,所述根据所述当前图像帧的所述人手区域图像确定出其对应的手势类别的步骤之后,包括如下步骤:
8.一种直播视频手势检测装置,其特征在于,包括:
9.一种电子设备,包括中央处理器和存储器,其特征在于,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,其以计算机可读指令的形式存储有依据权利要求1至7中任意一项所述的方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行相应的方法所包括的步骤。