一种基于超大卷积核的人体姿态估计方法及系统与流程

文档序号:32763516发布日期:2022-12-31 10:25阅读:46来源:国知局
一种基于超大卷积核的人体姿态估计方法及系统与流程

1.本发明涉及人体姿态估计技术领域,尤其涉及一种基于超大卷积核的人体姿态估计方法及系统。


背景技术:

2.2d人体姿态估计(human pose estimation,hpe)是视觉的重要任务,核心任务是检测视频或图片里的人体手部、肩、胯部等各个关节点信息,是很多任务的铺垫工作。人体姿态估计在智慧社区、安全校园、ai游戏互动等领域应用越来越广。为了确保各个场景的速度和精度,提高人体姿态估计的速度和精度是及其核心的任务。
3.最近十年,深度学习蓬勃发展,已经广泛应用到2d人体姿态估计中。在深度学习领域,效果较好的人体姿态关键点算法有基于resnet为主干网络的simplebaseline方法,保持多分辨率并行的hrnet,并行子网络的多尺度特征融合让速度很慢。
4.当前的2d人体姿态研究存在精度不高,有些复杂的关键点检测不到,尤其对于遮挡的情况。现有的移动端人体姿态估计方法无法对复杂的场景有好的鲁棒性,无法对人体姿态进行高精度和高速度的估计。


技术实现要素:

5.本发明主要解决现有技术的人体姿态估计方法无法对复杂的场景有好的鲁棒性,无法对人体姿态进行高精度和高速度的估计等技术问题,提出一种基于超大卷积核的人体姿态估计方法及系统,以更好的提取特征、提高对人体姿态估计的准确率。
6.本发明提供了一种基于超大卷积核的人体姿态估计方法,包括以下过程:
7.步骤100,获取检测图片;
8.步骤200,将检测图片输入人体姿态估计模型的主干网络中,进行特征提取,得到特征图;其中,所述主干网络采用slak网络;所述slak网络结构,包括:stem模块、res2模块、res3模块、res4模块、res5模块;
9.步骤300,将主干网络输出的特征图,依次输入多个反转置卷积层和一个卷积层,得到人体关键点的热力图;
10.步骤400,输出人体姿态热力图。
11.优选的,所述res2模块、res3模块、res4模块、res5模块的重复个数依次为3、3、9、3。
12.优选的,所述res2模块、res3模块、res4模块、res5模块均拥有超大卷积核卷积,超大卷积核卷积大小依次为51、49、47、13或61、59、57、13。
13.优选的,所述res2模块、res3模块、res4模块、res5模块均具有slak block子模块、1
×
1的卷积子模块、1
×
1的卷积子模块。
14.优选的,所述slak block子模块采用51
×
5和5
×
51和5
×
5三个卷积核进行卷积。
15.优选的,输入检测图片大小为256
×
192,经过主干网络的处理后,最后特征图的尺
寸大小为8
×
6;
16.反转置卷积层的卷积核均采用4
×
4,最终的热力图大小为64
×
48,损失函数采用l2 loss。
17.对应的,本发明还提供一种基于超大卷积核的人体姿态估计系统,包括:采集模块、特征提取模块、反转置卷积处理模块和输出模块;
18.所述采集模块,用于获取检测图片;
19.所述特征提取模块,用于将检测图片输入人体姿态估计模型的主干网络中,进行特征提取,得到特征图;其中,所述主干网络采用slak网络;所述slak网络结构,包括:stem模块、res2模块、res3模块、res4模块、res5模块;
20.所述反转置卷积处理模块,用于将主干网络输出的特征图,依次输入多个反转置卷积层和一个卷积层,得到人体关键点的热力图;
21.所述输出模块,用于输出人体姿态热力图。
22.本发明提供的一种基于超大卷积核的人体姿态估计方法及系统,通过包含超大卷积核的网络作为骨干网络,把拥有超大卷积核的backbone对图片进行特征提取。不同于传统的广泛应用的3
×
3卷积核,本发明网络具有大卷积核,卷积核的大小最大可以到达61
×
61,超大卷积网络具有更强的计算能力和更大的感受野,学习和建模能力更强大,进而进一步提升模型对人体姿态估计的准确度和性能,增大卷积核从而提高特征性能,用于最后的人体姿态识别,提高对人体姿态估计的准确率。由于使用超大卷积核,网络具体更大的感受野,学习能力更强,可以提高复杂环境下人体姿态估计的精度。
23.本发明选定拥有超大卷积核的slak网络作为基准网络,该基准网络整合了大量最前沿的计算机视觉技术,改善了纯卷积神经网络的性能,可以更好的提取特征。同时,模型的参数量和计算复杂度没有大量增加,保持了网络的轻便。
附图说明
24.图1是本发明提供的基于超大卷积核的人体姿态估计方法的实现流程图;
25.图2是本发明提供的基于超大卷积核的人体姿态估计方法的模块处理示意图;
26.图3是本发明提供的slak网络的示意图;
27.图4是本发明提供的slak block子模块的示意图;
28.图5是本发明提供的downsample模块的示意图;
29.图6是本发明提供的基于超大卷积核的人体姿态估计系统的结构示意图。
具体实施方式
30.为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
31.实施例一
32.如图1所示,本发明实施例提供的基于超大卷积核的人体姿态估计方法,包括以下过程:
33.步骤100,获取检测图片。
34.检测图片可通过图像采集设备进行采集,也可以上传设备自身保存的图片。所述图像采集设备不限于手机、高速运动相机等。采集后的检测图片,进行数据预处理。
35.步骤200,将检测图片输入人体姿态估计模型的主干网络中,进行特征提取,得到特征图。
36.所述主干网络(backbone)采用slak网络;slak网络结构清晰,是拥有超大卷积核的卷积神经网络,卷积核的大小最大可以到达61
×
61,增大卷积核从而提高特征性能,用于最后的人体姿态识别,提高对人体姿态估计的准确率。
37.如图3所示,所述slak网络结构,有5个stage(阶段);具体包括:stem模块、res2模块、res3模块、res4模块、res5模块;其中,stem模块由2d卷积层搭建,其卷积核和stride(步长)都是4。
38.在本步骤中,检测图片依次经过stem模块、res2模块、res3模块、res4模块、res5模块。res2模块、res3模块、res4模块、res5模块的重复个数依次为3、3、9、3。res2模块、res3模块、res4模块、res5模块均拥有超大卷积核卷积,超大卷积核卷积大小依次为51、49、47、13或61、59、57、13。
39.res2模块、res3模块、res4模块、res5模块均具有slak block子模块、1
×
1的卷积子模块、1
×
1的卷积子模块;如图4所示,slak block子模块采用51
×
5和5
×
51和5
×
5三个卷积核进行卷积。
40.利用slak网络结构对检测图片进行五次下采样(downsample,如图5),最后特征图的分辨率变为原图高度(h)和宽度(w)的1/32。
41.步骤300,将主干网络输出的特征图,依次输入多个反转置卷积层和一个卷积层,得到人体关键点的热力图。
42.本发明采用slak作为backbone(主干网络)提取数据,经过五次下采样后,在网络的结尾处加3个deconv layers(反转置卷积层)和一个1
×
1的卷积层,得到人体关键点的热力图(heatmaps),根据热力图预测出最终的人体关键点信息。其中,三个反转置卷积层的卷积核均采用4
×
4。
43.步骤400,输出人体姿态热力图,实现人体姿态估计。
44.本发明的方法,输入检测图片大小为256
×
192,经过backbone的处理后,最后特征图的尺寸大小为8
×
6。三个deconv layers层的卷积核均采用4
×
4,最终的热力图大小为64
×
48,损失函数采用l2 loss。
45.本发明采用slak网络作为主干网络进行特征提取,整个网络结构是非常简单的,如图5所示,图片首先经过一个高质量的backbone进行特征提取,然后经过多次反转置卷积直接生成最终的热力图,用于最终的人体姿态估计。由于包含超大卷积核模块,网络学习能力强,能保证网络轻量化的同时学习到更好的特征。
46.更重要地,为了节省参数和计算量,slak block子模块采用51
×
5和5
×
51和5
×
5三个卷积核进行卷积,具体地,超大的方形卷积核分解为长方形卷积核,这种分解不仅继承了大卷积核捕获远程依赖关系的能力,而且可以利用短边提取局部上下文特征。由于超大卷积核拆分为小卷积核的组合,因此模型的参数量并未大幅度上升,计算的复杂度基本保持不变。
47.本发明鉴于人体姿态估计的复杂性,相较于普通小卷积核,超大卷积核的使用使模型拥有几乎整个图片的感受野,能够提取更优的特征,从而提高整个图片人体估计的准确率。
48.实施例二
49.如图6所示,本发明提供一种基于超大卷积核的人体姿态估计系统,包括:采集模块、特征提取模块、反转置卷积处理模块和输出模块;
50.所述采集模块,用于获取检测图片;
51.所述特征提取模块,用于将检测图片输入人体姿态估计模型的主干网络中,进行特征提取,得到特征图;其中,所述主干网络采用slak网络;所述slak网络结构,包括:stem模块、res2模块、res3模块、res4模块、res5模块;
52.所述反转置卷积处理模块,用于将主干网络输出的特征图,依次输入多个反转置卷积层和一个卷积层,得到人体关键点的热力图;
53.所述输出模块,用于输出人体姿态热力图。
54.最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1