一种人手识别方法、装置、电子设备及存储介质与流程

文档序号：30419458发布日期：2022-06-15 12:36阅读：140来源：国知局

1.本发明实施例涉及人工智能技术领域，尤其涉及一种人手识别方法、装置、电子设备及存储介质。

背景技术：

2.随着科技的发展，对图像中的人手进行识别的应用越来越广泛，如虚拟/增强现实、人机交互、动作识别、辅助驾驶等领域，人手识别作为手势理解、手指关键点检测等任务的上游任务，也备受人们的重视。
3.在不同场景下(如站立、坐姿或手持物品)，人手离摄像头的远近不同，导致人手在图像中的大小不一，人手识别难以学习，而且存在物体遮挡部分手的情况(如握住物体，部分手指不可见)，为人手识别增加了难度。手的形态会随着手势的改变而改变，各个手指的相对位置也并非固定的，这又增大了学习难度。手都是由皮肤覆盖，缺乏明显辨别的特征，故当手贴在脸上或者接近肤色的地方，以及手指并拢的情况，会加大识别的难度。
4.目前，主要的人手识别方法通常是直接预测人手矩形框，或者，通过预测预设的人手矩形框的偏移量，选择最匹配的预测人手矩形框作为输出，预测人手矩形框一般是左上角或矩形框中心点的坐标，以及矩形框的宽高。发明人在实现本发明的过程中，发现：直接预测矩形框或者矩形框的偏移量，手中心点没有固定的位置，无法清晰定义手中心点，需要拟合的样例变得无穷多，也即需要很多预设的矩形框，导致人手识别过程中运算量较大，而且需要进行矩形框匹配选择，导致人手识别过程中复杂度较高。

技术实现要素：

5.本发明实施例提供一种人手识别方法、装置、电子设备及存储介质，能够减少人手识别过程中的计算量，简化人手识别任务，从而提高人手识别效率。
6.根据本发明的一方面，提供了一种人手识别方法，包括：
7.获取待识别图像，并在待识别图像中提取低层图像特征；
8.对低层图像特征进行形变卷积处理，并获取与形变处理结果匹配的掌心点；
9.对低层图像特征进行标准卷积处理，并获取与标准处理结果匹配的人手描述信息，人手描述信息包括：掌心点与人手中心点间的偏移量，和人手宽高值；
10.根据掌心点和人手描述信息，在待识别图像中识别人手区域。
11.根据本发明的另一方面，提供了一种人手识别方法，包括：
12.获取待识别图像，并将所述待识别图像输入至预先训练的人手识别模型中；所述人手识别模型包括：第一标准卷积网络，以及分别与第一标准卷积网络相连的形变卷积分支网络和第二标准卷积分支网络；
13.通过第一标准卷积网络，在待识别图像中提取低层图像特征，并将低层图像特征分别输入至形变卷积分支网络和第二标准卷积分支网络中；
14.通过形变卷积分支网络，对低层图像特征进行形变卷积处理，并获取与形变处理
结果匹配的掌心点；
15.通过第二标准卷积分支网络，对低层图像特征进行标准卷积处理，并获取与标准处理结果匹配的人手描述信息，人手描述信息包括：掌心点与人手中心点间的偏移量，和人手宽高值；
16.根据所述人手识别模型输出的掌心点和人手描述信息，在待识别图像中识别人手区域。
17.根据本发明的另一方面，提供了一种人手识别装置，包括：
18.低层图像特征提取模块，用于获取待识别图像，并在待识别图像中提取低层图像特征；
19.掌心点获取模块，用于对低层图像特征进行形变卷积处理，并获取与形变处理结果匹配的掌心点；
20.人手描述信息获取模块，用于对低层图像特征进行标准卷积处理，并获取与标准处理结果匹配的人手描述信息，人手描述信息包括：掌心点与人手中心点间的偏移量，和人手宽高值；
21.人手区域识别模块，用于根据掌心点和人手描述信息，在待识别图像中识别人手区域。
22.根据本发明的另一方面，提供了一种人手识别装置，包括：
23.待识别图像处理模块，用于获取待识别图像，并将所述待识别图像输入至预先训练的人手识别模型中；所述人手识别模型包括：第一标准卷积网络，以及分别与第一标准卷积网络相连的形变卷积分支网络和第二标准卷积分支网络；
24.待识别图像处理模块，用于通过第一标准卷积网络，在待识别图像中提取低层图像特征，并将低层图像特征分别输入至形变卷积分支网络和第二标准卷积分支网络中；
25.第一低层图像特征处理模块，用于通过形变卷积分支网络，对低层图像特征进行形变卷积处理，并获取与形变处理结果匹配的掌心点；
26.第二低层图像特征处理模块，用于通过第二标准卷积分支网络，对低层图像特征进行标准卷积处理，并获取与标准处理结果匹配的人手描述信息，人手描述信息包括：掌心点与人手中心点间的偏移量，和人手宽高值；
27.人手区域识别模块，用于根据所述人手识别模型输出的掌心点和人手描述信息，在待识别图像中识别人手区域。
28.根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：
29.至少一个处理器；以及
30.与所述至少一个处理器通信连接的存储器；其中，
31.所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的人手识别方法。
32.根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的人手识别方法。
33.本发明实施例的技术方案，通过获取待识别图像，并在待识别图像中提取低层图
像特征，对低层图像特征进行形变卷积处理，以获取与形变处理结果匹配的掌心点，并对低层图像特征进行标准卷积处理，以获取与标准处理结果匹配的人手描述信息，从而根据掌心点和人手描述信息，在待识别图像中识别人手区域，解决了现有的人手识别方法在人手识别过程中运算量较大以及复杂度较高等问题，能够减少人手识别过程中的计算量，简化人手识别任务，从而提高人手识别效率。
34.应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
35.为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
36.图1是本发明实施例一提供的一种人手识别方法的流程图；
37.图2是本发明实施例二提供的一种人手识别方法的流程图；
38.图3是本发明实施例三提供的一种人手识别方法的流程图；
39.图4是本发明实施例三提供的一种人手识别方法的示例流程图；
40.图5是本发明实施例三提供的可形变卷积模块的结构示意图；
41.图6是本发明实施例三提供的识别人手区域的示意图；
42.图7是本发明实施例四提供的一种人手识别装置的示意图；
43.图8是本发明实施例五提供的一种人手识别装置的示意图；
44.图9是实现本发明实施例的人手识别方法的电子设备的结构示意图。
具体实施方式
45.为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。
46.需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
47.实施例一
48.图1是本发明实施例一提供的一种人手识别方法的流程图，本实施例可适用于减少人手识别过程中的计算量，简化人手识别任务的情况，该方法可以由人手识别装置执行，
该装置可以通过软件和/或硬件的方式实现，并一般可以直接集成在执行本方法的电子设备中，该电子设备可以是终端设备，也可以是服务器设备，本发明实施例并不对执行人手识别方法的电子设备的类型进行限定。具体的，如图1所示，该人手识别方法具体可以包括如下步骤：
49.s110、获取待识别图像，并在待识别图像中提取低层图像特征。
50.其中，待识别图像可以是任意需要进行人手识别的图像。可以理解的是，待识别图像中可以包括至少一只人手。低层图像特征可以是在待识别图像中提取到的低层次的图像特征，例如可以是线条特征，也可以是角特征等，本发明实施例对此并不进行限制。
51.在本发明实施例中，获取待识别图像，并在待识别图像中提取低层图像特征。可选的，在待识别图像中提取低层图像特征之前，还可以对待识别图像进行图像缩放处理，以将待识别图像缩放至待识别图像对应的预设图像大小。在待识别图像中提取低层图像特征之后，还可以对低层图像特征进行图像缩放处理，以将低层图像特征缩放至低层图像特征对应的预设图像大小，从而避免计算量太大。
52.s120、对低层图像特征进行形变卷积处理，并获取与形变处理结果匹配的掌心点。
53.其中，形变卷积处理可以是卷积核作用区域为中心点周围不规则的卷积核大小的矩形区域的卷积处理。形变处理结果可以是形变卷积处理操作后得到的图像特征结果。可以理解的是，由于形变卷积处理过程中矩形区域的不固定，导致形变卷积处理会影响特征的相对位置，从而使得形变卷积处理后的特征的相对位置并不完全和低层图像特征对齐。
54.在本发明实施例中，在待识别图像中提取低层图像特征之后，可以进一步对低层图像特征进行形变卷积处理，并获取与形变处理结果匹配的掌心点。
55.上述技术方案，通过对低层图像特征进行形变卷积处理，能够扩大感受野，从而更好的对人手进行识别，提高人手识别的效果。
56.s130、对低层图像特征进行标准卷积处理，并获取与标准处理结果匹配的人手描述信息，人手描述信息包括：掌心点与人手中心点间的偏移量，和人手宽高值。
57.其中，标准卷积处理可以是卷积核作用区域为中心点周围标准卷积核大小的矩形区域的卷积处理。标准处理结果可以是标准卷积处理操作后得到的特征结果。人手描述信息可以是能够描述人手的信息。具体的，人手描述信息可以包括掌心点与人手中心点间的偏移量，和人手宽高值。可以理解的是，掌心点与人手中心点间的偏移量可以包括掌心点与人手中心点间的水平偏移量，以及掌心点与人手中心点间的垂直偏移量。人手宽高值可以包括人手的高度值，以及人手的宽度值。
58.在本发明实施例中，在待识别图像中提取低层图像特征之后，可以进一步对低层图像特征进行标准卷积处理，并获取与标准处理结果匹配的掌心点与人手中心点间的偏移量，以及，获取与标准处理结果匹配的人手宽高值。
59.s140、根据掌心点和人手描述信息，在待识别图像中识别人手区域。
60.其中，人手区域可以是人手所在的区域。可以理解的是，如果待识别图像中包括多只人手，则识别人手区域可以是多个。
61.在本发明实施例中，在获取与形变处理结果匹配的掌心点，以及获取与标准处理结果匹配的人手描述信息之后，可以进一步根据掌心点和人手描述信息，在待识别图像中识别人手区域。
62.本实施例的技术方案，通过获取待识别图像，并在待识别图像中提取低层图像特征，对低层图像特征进行形变卷积处理，以获取与形变处理结果匹配的掌心点，并对低层图像特征进行标准卷积处理，以获取与标准处理结果匹配的人手描述信息，从而根据掌心点和人手描述信息，在待识别图像中识别人手区域，解决了现有的人手识别方法在人手识别过程中运算量较大以及复杂度较高等问题，能够减少人手识别过程中的计算量，简化人手识别任务，从而提高人手识别效率。
63.实施例二
64.图2是本发明实施例二提供的一种人手识别方法的流程图，本实施例是对上述各技术方案的进一步细化，给出了对低层图像特征进行形变卷积处理，并获取与形变处理结果匹配的掌心点，以及对低层图像特征进行标准卷积处理，并获取与标准处理结果匹配的人手描述信息的多种具体可选的实现方式。本实施例中的技术方案可以与上述一个或多个实施例中的各个可选方案结合。如图2所示，该方法可以包括如下步骤：
65.s210、获取待识别图像，并在待识别图像中提取低层图像特征。
66.可选的，获取待识别图像可以包括：在检测到满足单人直播场景，或者单人短视频场景条件时，获取待识别图像。
67.具体的，在检测到满足单人直播场景条件时获取待识别图像，并在待识别图像中提取低层图像特征。或者，在检测到满足单人短视频场景条件时获取待识别图像，并在待识别图像中提取低层图像特征。
68.s220、对低层图像特征进行特征偏移量提取，获取与所述低层图像特征中各特征点分别对应的水平偏移矩阵和垂直偏移矩阵。
69.其中，特征偏移量提取可以是提取低层图像特征中各特征点的偏移量。水平偏移矩阵可以是低层图像特征中各特征点的水平偏移量构成的矩阵。垂直偏移矩阵可以是低层图像特征中各特征点的垂直偏移量构成的矩阵。
70.在本发明实施例中，在获取待识别图像，并在待识别图像中提取低层图像特征之后，可以进一步对低层图像特征进行特征偏移量提取，获取与低层图像特征中各特征点分别对应的水平偏移矩阵和垂直偏移矩阵，以按照预设的限制规则，对水平偏移矩阵和垂直偏移矩阵中的矩阵元素进行缩限处理。
71.s230、按照预设的限制规则，对所述水平偏移矩阵和垂直偏移矩阵中的矩阵元素进行缩限处理，以约束低层图像特征中各特征点的偏移范围。
72.其中，预设的限制规则可以是预先设置的限制水平偏移矩阵和垂直偏移矩阵中的矩阵元素的规则，可以用于限制各特征点的偏移量的区域，也即可以用于约束低层图像特征中各特征点的偏移范围。在本发明实施例中，在按照水平偏移矩阵和垂直偏移矩阵，对低层图像特征进行特征重排，得到重排图像特征之前，还可以按照预设的限制规则，对水平偏移矩阵和垂直偏移矩阵中的矩阵元素进行缩限处理，以约束低层图像特征中各特征点的偏移范围。示例性的，可以将tanh函数作为激活函数，对水平偏移矩阵和垂直偏移矩阵中的矩阵元素进行缩限处理，以将低层图像特征中各特征点的偏移范围约束在[-1,1]之间。
[0073]
s240、按照所述水平偏移矩阵和所述垂直偏移矩阵，对所述低层图像特征进行特征重排，得到重排图像特征。
[0074]
其中，重排图像特征可以是对低层图像特征进行特征重排得到的图像特征。
[0075]
在本发明实施例中，在对低层图像特征进行特征偏移量提取，获取与低层图像特征中各特征点分别对应的水平偏移矩阵和垂直偏移矩阵之后，可以进一步按照水平偏移矩阵和垂直偏移矩阵，对低层图像特征进行特征重排，以得到重排图像特征，从而对重排图像特征进行标准卷积处理。
[0076]
s250、对所述重排图像特征进行标准卷积处理，得到重排特征提取结果，并根据所述重排特征提取结果，获取所述掌心点。
[0077]
其中，重排特征提取结果可以是对重排图像特征进行标准卷积处理得到的图像特征结果。
[0078]
在本发明实施例中，在按照水平偏移矩阵和垂直偏移矩阵，对低层图像特征进行特征重排，得到重排图像特征之后，可以进一步对重排图像特征进行标准卷积处理，以得到重排特征提取结果，从而根据重排特征提取结果获取掌心点。
[0079]
可选的，根据所述重排特征提取结果，获取所述掌心点，可以包括：将所述重排特征提取结果输入至掌心点热力图生成网络中，获取左手掌心点热力图和右手掌心点热力图；在所述左手掌心点热力图和所述右手掌心点热力图中，分别提取左手掌心点和右手掌心点。
[0080]
其中，掌心点热力图生成网络可以是用于生成掌心点热力图的网络。示例性的，掌心点热力图生成网络可以是多层卷积层网络。左手掌心点热力图可以是将左手掌心点按照受关注程度的不同加以标注后得到的图像。右手掌心点热力图可以是将右手掌心点按照受关注程度的不同加以标注后得到的图像。
[0081]
具体的，在按照水平偏移矩阵和垂直偏移矩阵，对低层图像特征进行特征重排，得到重排图像特征之后，可以进一步对重排图像特征进行标准卷积处理，得到重排特征提取结果，并将重排特征提取结果输入至掌心点热力图生成网络中，以获取左手掌心点热力图和右手掌心点热力图，从而在左手掌心点热力图和右手掌心点热力图中，分别提取左手掌心点和右手掌心点。
[0082]
s260、将所述低层图像特征逐次输入至多个标准卷积层，获取与左右手的每项人手描述信息分别对应的标准特征提取结果。
[0083]
其中，标准特征提取结果可以是对低层图像特征输入至多个标准卷积层后提取到的图像特征的结果。
[0084]
在本发明实施例中，在获取待识别图像，并在待识别图像中提取低层图像特征之后，可以进一步对低层图像特征进行逐次输入至多个标准卷积层，获取与左右手的每项人手描述信息分别对应的标准特征提取结果。示例性的，可以将低层图像特征逐次输入至包含五次下采样的标准卷积模块，获取左手的掌心点与人手中心点间的偏移量对应的标准特征提取结果，左手的人手宽高值对应的标准特征提取结果，右手的掌心点与人手中心点间的偏移量对应的标准特征提取结果，以及右手的人手宽高值对应的标准特征提取结果。
[0085]
s270、对各所述标准特征提取结果进行平均池化处理，得到与左右手分别对应的各所述人手描述信息。
[0086]
在本发明实施例中，在将低层图像特征逐次输入至多个标准卷积层，获取与左右手的每项人手描述信息分别对应的标准特征提取结果之后，可以进一步对各标准特征提取结果进行平均池化处理，以得到与左右手分别对应的各人手描述信息。
[0087]
需要说明的是，图2仅是一种实现方式的示意图，步骤s220-s250和步骤s260-s270并没有先后顺序关系，可以先实施步骤s220-s250，再实施步骤s260-s270，也可以先实施步骤s260-s270，再实施步骤s220-s250，还可以两者并行实施或择一实施。
[0088]
s280、根据掌心点和人手描述信息，在待识别图像中识别人手区域。
[0089]
本实施例的技术方案，通过获取待识别图像，并在待识别图像中提取低层图像特征，对低层图像特征进行特征偏移量提取，获取与低层图像特征中各特征点分别对应的水平偏移矩阵和垂直偏移矩阵，以按照水平偏移矩阵和垂直偏移矩阵，对低层图像特征进行特征重排得到重排图像特征，并对重排图像特征进行标准卷积处理得到重排特征提取结果，从而根据重排特征提取结果获取掌心点。再将低层图像特征逐次输入至多个标准卷积层，获取与左右手的每项人手描述信息分别对应的标准特征提取结果，对各标准特征提取结果进行平均池化处理，以得到与左右手分别对应的各人手描述信息，从而根据掌心点和人手描述信息，在待识别图像中识别人手区域，解决了现有的人手识别方法在人手识别过程中运算量较大以及复杂度较高等问题，能够减少人手识别过程中的计算量，简化人手识别任务，从而提高人手识别效率。
[0090]
实施例三
[0091]
图3是本发明实施例三提供的一种人手识别方法的流程图，本实施例可适用于减少人手识别过程中的计算量，简化人手识别任务的情况，该方法可以由人手识别装置执行，该装置可以通过软件和/或硬件的方式实现，并一般可以直接集成在执行本方法的电子设备中，该电子设备可以是终端设备，也可以是服务器设备，本发明实施例并不对执行人手识别方法的电子设备的类型进行限定。具体的，如图3所示，该人手识别方法具体可以包括如下步骤：
[0092]
s310、获取待识别图像，并将所述待识别图像输入至预先训练的人手识别模型中；所述人手识别模型包括：第一标准卷积网络，以及分别与第一标准卷积网络相连的形变卷积分支网络和第二标准卷积分支网络。
[0093]
其中，第一标准卷积网络可以是任意一个标准的卷积网络。形变卷积分支网络可以是一个形变卷积构成的分支网络。第二标准卷积分支网络可以是一个标准卷积构成的分支网络。可以理解的是，形变卷积分支网络的输入是第一标准卷积网络的输出。同时，第二标准卷积分支网络的输入也是第一标准卷积网络的输出。
[0094]
在本发明实施例中，获取待识别图像，并将待识别图像输入至预先训练的人手识别模型中。可选的，获取待识别图像可以包括：在检测到满足单人直播场景，或者单人短视频场景条件时，获取待识别图像。可选的，在待识别图像中提取低层图像特征之前，还可以对待识别图像进行图像缩放处理，以将待识别图像缩放至待识别图像对应的预设图像大小。在待识别图像中提取低层图像特征之后，还可以对低层图像特征进行图像缩放处理，以将低层图像特征缩放至低层图像特征对应的预设图像大小，从而避免计算量太大。
[0095]
可选的，在训练得到所述人手识别模型时，所使用的损失函数可以包括：掌心点热力图损失项、人手宽高值损失项以及掌心点与人手中心点间的偏移量损失项，其中：在确定所述掌心点热力图损失项中，分别计算掌心点预测值，与掌心点标注值以及掌心点标注值周围的各掌心点偏移值之间的损失值，并将各损失值的最小值，确定为所述掌心点热力图损失项的损失值；在所述人手宽高值损失项以及掌心点与人手中心点间的偏移量损失项
中，均使用平滑损失函数。
[0096]
其中，掌心点热力图损失项可以是在确定掌心点热力图过程中的损失函数。人手宽高值损失项可以是在确定人手宽高值过程中的损失函数。掌心点与人手中心点间的偏移量损失项可以是在确定掌心点与人手中心点间的偏移量的过程中的损失函数。掌心点预测值可以是通过人手识别模型预测得到的掌心点坐标值。掌心点标注值可以是通过标注得到的掌心点坐标值。掌心点标注值周围的各掌心点偏移值，可以是掌心点标注值右下方的掌心点偏移值，也可以是掌心点标注值左下方的掌心点偏移值，也可以是掌心点标注值右上方的掌心点偏移值，还可以是掌心点标注值左上方的掌心点偏移值等，本发明实施例对此并不进行限制。
[0097]
具体的，在训练得到人手识别模型时，所使用的损失函数可以包括：掌心点热力图损失项、人手宽高值损失项以及掌心点与人手中心点间的偏移量损失项。可选的，在训练得到人手识别模型时，所使用的损失函数可以根据以下公式计算：
[0098]
l＝λ0l
heatmap
+λ1l
hw
+λ2l
offset
[0099]
其中，l表示在训练得到人手识别模型时所使用的损失函数；l
heatmap
表示掌心点热力图损失项；λ0表示掌心点热力图损失项的权重；l
hw
表示人手宽高值损失项；λ1表示人手宽高值损失项的权重；l
offset
表示掌心点与人手中心点间的偏移量损失项；λ2表示掌心点与人手中心点间的偏移量损失项的权重。
[0100]
具体的，在确定掌心点热力图损失项中，分别计算掌心点预测值，与掌心点标注值以及掌心点标注值周围的各掌心点偏移值之间的损失值，并将各损失值的最小值，确定为掌心点热力图损失项的损失值。在人手宽高值损失项以及掌心点与人手中心点间的偏移量损失项中，均使用平滑损失函数。
[0101]
可选的，可以根据以下公式确定掌心点热力图损失项：
[0102][0103]
其中，h
pred
可以是掌心点预测值；h
gt
可以是掌心点标注值；h
gt
++可以是掌心点标注值右下方的掌心点偏移值；h
gt
‑‑
可以是掌心点标注值左上方的掌心点偏移值；h
gt
±
可以是掌心点标注值右上方的掌心点偏移值；可以是掌心点标注值左下方的掌心点偏移值。
[0104]
可选的，可以根据以下公式确定人手宽高值损失项：
[0105]
l
hw
＝smoothl1(height
pred
,height
gt
)+smoothl1(width
pred
,width
gt
)
[0106]
其中，height
pred
表示人手高度预测值；height
gt
表示人手高度标注值；width
pred
表示人手宽度预测值；width
gt
表示人手宽度标注值。
[0107]
可选的，可以根据以下公式确定掌心点与人手中心点间的偏移量损失项：
[0108]
l
offset
＝smoothl1(x
pred
,x
gt
)+smoothl1(y
pred
,y
gt
)
[0109]
其中，x
pred
表示掌心点与人手中心点间的水平预测偏移量；x
gt
表示掌心点与人手中心点间的水平标注偏移量；y
pred
表示掌心点与人手中心点间的垂直预测偏移量；y
gt
表示
掌心点与人手中心点间的垂直标注偏移量。
[0110]
上述技术方案，通过掌心点热力图损失项、人手宽高值损失项以及掌心点与人手中心点间的偏移量损失项，确定在训练得到人手识别模型时所使用的损失函数，能够避免由于标注数值的不准确导致的人手识别模型学习过多数据误差。通过使用smoothl1损失函数，能够避免l1损失为0时，导数不平滑的问题。
[0111]
s320、通过第一标准卷积网络，在待识别图像中提取低层图像特征，并将低层图像特征分别输入至形变卷积分支网络和第二标准卷积分支网络中。
[0112]
s330、通过形变卷积分支网络，对低层图像特征进行形变卷积处理，并获取与形变处理结果匹配的掌心点。
[0113]
可选的，通过形变卷积分支网络，对低层图像特征进行形变卷积处理，并获取与形变处理结果匹配的掌心点，可以包括：通过形变卷积分支网络,对低层图像特征进行特征偏移量提取，获取与低层图像特征中各特征点分别对应的水平偏移矩阵和垂直偏移矩阵；通过形变卷积分支网络，按照水平偏移矩阵和垂直偏移矩阵，对低层图像特征进行特征重排，得到重排图像特征；通过形变卷积分支网络，对重排图像特征进行标准卷积处理，得到重排特征提取结果，并通过形变卷积分支网络，根据重排特征提取结果，获取掌心点。
[0114]
可选的，在通过形变卷积分支网络，按照水平偏移矩阵和垂直偏移矩阵，对低层图像特征进行特征重排，得到重排图像特征之前，还可以包括：通过形变卷积分支网络，按照预设的限制规则，对水平偏移矩阵和垂直偏移矩阵中的矩阵元素进行缩限处理，以约束低层图像特征中各特征点的偏移范围。
[0115]
可选的，通过形变卷积分支网络，根据重排特征提取结果，获取掌心点，可以包括：通过形变卷积分支网络，将重排特征提取结果输入至掌心点热力图生成网络中，获取左手掌心点热力图和右手掌心点热力图；通过形变卷积分支网络，在左手掌心点热力图和右手掌心点热力图中，分别提取左手掌心点和右手掌心点。
[0116]
s340、通过第二标准卷积分支网络，对低层图像特征进行标准卷积处理，并获取与标准处理结果匹配的人手描述信息，人手描述信息包括：掌心点与人手中心点间的偏移量，和人手宽高值。
[0117]
可选的，通过第二标准卷积分支网络，对低层图像特征进行标准卷积处理，并获取与标准处理结果匹配的人手描述信息，可以包括：通过第二标准卷积分支网络，将低层图像特征逐次输入至多个标准卷积层，获取与左右手的每项人手描述信息分别对应的标准特征提取结果；通过第二标准卷积分支网络，对各标准特征提取结果进行平均池化处理，得到与左右手分别对应的各人手描述信息。
[0118]
s350、根据所述人手识别模型输出的掌心点和人手描述信息，在待识别图像中识别人手区域。
[0119]
在本发明实施例的一个具体示例中，以单人直播场景或者单人短视频场景为具体应用场景，图4是本发明实施例三提供的一种人手识别方法的示例流程图，如图4所示，该方法具体可以包括以下内容：
[0120]
(1)获取待识别图像，并将待识别图像输入至预先训练的人手识别模型，以通过人手识别模型对待识别图像进行图像缩放处理，得到统一192*192尺寸大小的待识别图像。具体的，人手识别模型可以包括：第一标准卷积网络，以及分别与第一标准卷积网络相连的形
变卷积分支网络和第二标准卷积分支网络。在训练得到所述人手识别模型时，所使用的损失函数包括：掌心点热力图损失项、人手宽高值损失项以及掌心点与人手中心点间的偏移量损失项。
[0121]
(2)将图像缩放处理后的待识别图像输入至普通卷积模块(也即第一标准卷积网络)，以通过普通卷积模块在待识别图像中提取低层图像特征。
[0122]
(3)将低层图像特征进行图像缩放处理，以得到统一96*96尺寸大小的低层图像特征，并将图像缩放处理后的低层图像特征分别输入至可形变卷积层(也即形变卷积分支网络)和普通卷积模块(也即第二标准卷积分支网络)中。
[0123]
(4)通过可形变卷积层对低层图像特征进行形变卷积处理，并获取与形变处理结果匹配的掌心点。具体的，图5是本发明实施例三提供的可形变卷积模块的结构示意图，如图5所示，通过可形变卷积层的第一普通卷积层对低层图像特征进行特征偏移量提取，获取特征偏移量(也即与低层图像特征中各特征点分别对应的水平偏移矩阵和垂直偏移矩阵)。并通过tanh激活函数，对水平偏移矩阵和垂直偏移矩阵中的矩阵元素进行缩限处理，以约束低层图像特征中各特征点的偏移范围。按照水平偏移矩阵和垂直偏移矩阵，对低层图像特征进行特征重排，得到重排图像特征；通过可形变卷积层的第二普通卷积层对重排图像特征进行标准卷积处理，得到重排特征提取结果，并将重排特征提取结果输入至普通卷积层(也即掌心点热力图生成网络)中，经过多层卷积层逐级进行特征提取融合，获取左手掌心点热力图和右手掌心点热力图，在左手掌心点热力图和右手掌心点热力图中，分别提取左手掌心点和右手掌心点。
[0124]
上述技术方案，形变卷积处理过程中，特征点的操作区域不固定，能够扩大感受野。按照水平偏移矩阵和垂直偏移矩阵，对低层图像特征进行特征重排能够使得分散的手指特征聚拢起来，特别是手指姿态，手持物体的时候，大感受野使得网络更好的检测手的整体，从而更容易预测手掌心点。
[0125]
(5)通过普通卷积模块对低层图像特征进行标准卷积处理，并获取与标准处理结果匹配的人手描述信息。具体的，通过普通卷积模块将低层图像特征逐次输入至五个下采样标准卷积层，获取与左右手的每项人手描述信息分别对应的标准特征提取结果，其中，标准特征提取结果的特征图尺寸为3*3，并对各标准特征提取结果进行平均池化处理，得到与左右手分别对应的各人手描述信息。
[0126]
(6)根据人手识别模型输出的掌心点和人手描述信息，在待识别图像中识别人手区域。图6是本发明实施例三提供的识别人手区域的示意图，如图6所示，根据人手识别模型输出的掌心点、人手宽高值以及掌心点与人手中心点间的偏移量，可以在待识别图像中识别人手区域。
[0127]
上述技术方案，改变了现有人手识别的算法流程，不直接预测矩形框或矩形框的偏移量，能够简化人手识别任务，提升人手识别效果；能够较好的解决由于手在图像中的大小不一导致的多尺度问题，减少计算量；通过可变形卷积层能够解决由于手的形态会随着手势改变以及手指的相对位置不固定所导致的非刚性形变问题。
[0128]
本实施例的技术方案，通过获取待识别图像，将待识别图像输入至预先训练的人手识别模型中，并通过人手识别模型中的第一标准卷积网络，在待识别图像中提取低层图像特征，并将低层图像特征分别输入至形变卷积分支网络和第二标准卷积分支网络中。通
过人手识别模型中的形变卷积分支网络，对低层图像特征进行形变卷积处理，以获取与形变处理结果匹配的掌心点，并通过人手识别模型中的第二标准卷积分支网络，对低层图像特征进行标准卷积处理，以获取与标准处理结果匹配的人手描述信息，从而根据人手识别模型输出的掌心点和人手描述信息，在待识别图像中识别人手区域，解决了现有的人手识别方法在人手识别过程中运算量较大以及复杂度较高等问题，能够减少人手识别过程中的计算量，简化人手识别任务，从而提高人手识别效率。
[0129]
实施例四
[0130]
图7是本发明实施例四提供的一种人手识别装置的示意图，如图7所示，所述装置包括：低层图像特征提取模块710、掌心点获取模块720、人手描述信息获取模块730以及人手区域识别模块740，其中：
[0131]
低层图像特征提取模块710，用于获取待识别图像，并在待识别图像中提取低层图像特征；
[0132]
掌心点获取模块720，用于对低层图像特征进行形变卷积处理，并获取与形变处理结果匹配的掌心点；
[0133]
人手描述信息获取模块730，用于对低层图像特征进行标准卷积处理，并获取与标准处理结果匹配的人手描述信息，人手描述信息包括：掌心点与人手中心点间的偏移量，和人手宽高值；
[0134]
人手区域识别模块740，用于根据掌心点和人手描述信息，在待识别图像中识别人手区域。
[0135]
本实施例的技术方案，通过获取待识别图像，并在待识别图像中提取低层图像特征，对低层图像特征进行形变卷积处理，以获取与形变处理结果匹配的掌心点，并对低层图像特征进行标准卷积处理，以获取与标准处理结果匹配的人手描述信息，从而根据掌心点和人手描述信息，在待识别图像中识别人手区域，解决了现有的人手识别方法在人手识别过程中运算量较大以及复杂度较高等问题，能够减少人手识别过程中的计算量，简化人手识别任务，从而提高人手识别效率。
[0136]
可选的，掌心点获取模块720，可以具体用于：对低层图像特征进行特征偏移量提取，获取与低层图像特征中各特征点分别对应的水平偏移矩阵和垂直偏移矩阵；按照水平偏移矩阵和垂直偏移矩阵，对低层图像特征进行特征重排，得到重排图像特征；对重排图像特征进行标准卷积处理，得到重排特征提取结果，并根据重排特征提取结果，获取掌心点。
[0137]
可选的，掌心点获取模块720，可以进一步用于：按照预设的限制规则，对水平偏移矩阵和垂直偏移矩阵中的矩阵元素进行缩限处理，以约束低层图像特征中各特征点的偏移范围。
[0138]
可选的，掌心点获取模块720，还可以进一步用于：将重排特征提取结果输入至掌心点热力图生成网络中，获取左手掌心点热力图和右手掌心点热力图；在左手掌心点热力图和右手掌心点热力图中，分别提取左手掌心点和右手掌心点。
[0139]
可选的，人手描述信息获取模块730，可以具体用于：将低层图像特征逐次输入至多个标准卷积层，获取与左右手的每项人手描述信息分别对应的标准特征提取结果；对各标准特征提取结果进行平均池化处理，得到与左右手分别对应的各人手描述信息。
[0140]
可选的，低层图像特征提取模块710，可以具体用于：在检测到满足单人直播场景，
或者单人短视频场景条件时，获取待识别图像。
[0141]
本发明实施例所提供的人手识别装置可执行本发明任意实施例所提供的人手识别方法，具备执行方法相应的功能模块和有益效果。
[0142]
实施例五
[0143]
图8是本发明实施例五提供的一种人手识别装置的示意图，如图8所示，所述装置包括：待识别图像处理模块810、待识别图像处理模块820、第一低层图像特征处理模块830、第二低层图像特征处理模块840以及人手区域识别模块850，其中：
[0144]
待识别图像处理模块810，用于获取待识别图像，并将所述待识别图像输入至预先训练的人手识别模型中；所述人手识别模型包括：第一标准卷积网络，以及分别与第一标准卷积网络相连的形变卷积分支网络和第二标准卷积分支网络；
[0145]
待识别图像处理模块820，用于通过第一标准卷积网络，在待识别图像中提取低层图像特征，并将低层图像特征分别输入至形变卷积分支网络和第二标准卷积分支网络中；
[0146]
第一低层图像特征处理模块830，用于通过形变卷积分支网络，对低层图像特征进行形变卷积处理，并获取与形变处理结果匹配的掌心点；
[0147]
第二低层图像特征处理模块840，用于通过第二标准卷积分支网络，对低层图像特征进行标准卷积处理，并获取与标准处理结果匹配的人手描述信息，人手描述信息包括：掌心点与人手中心点间的偏移量，和人手宽高值；
[0148]
人手区域识别模块850，用于根据所述人手识别模型输出的掌心点和人手描述信息，在待识别图像中识别人手区域。
[0149]
本实施例的技术方案，通过获取待识别图像，将待识别图像输入至预先训练的人手识别模型中，并通过人手识别模型中的第一标准卷积网络，在待识别图像中提取低层图像特征，并将低层图像特征分别输入至形变卷积分支网络和第二标准卷积分支网络中。通过人手识别模型中的形变卷积分支网络，对低层图像特征进行形变卷积处理，以获取与形变处理结果匹配的掌心点，并通过人手识别模型中的第二标准卷积分支网络，对低层图像特征进行标准卷积处理，以获取与标准处理结果匹配的人手描述信息，从而根据人手识别模型输出的掌心点和人手描述信息，在待识别图像中识别人手区域，解决了现有的人手识别方法在人手识别过程中运算量较大以及复杂度较高等问题，能够减少人手识别过程中的计算量，简化人手识别任务，从而提高人手识别效率。
[0150]
可选的，在训练得到人手识别模型时，所使用的损失函数可以包括：掌心点热力图损失项、人手宽高值损失项以及掌心点与人手中心点间的偏移量损失项，其中：在确定掌心点热力图损失项中，分别计算掌心点预测值，与掌心点标注值以及掌心点标注值周围的各掌心点偏移值之间的损失值，并将各损失值的最小值，确定为掌心点热力图损失项的损失值；在人手宽高值损失项以及掌心点与人手中心点间的偏移量损失项中，均使用平滑损失函数。
[0151]
本发明实施例所提供的人手识别装置可执行本发明任意实施例所提供的人手识别方法，具备执行方法相应的功能模块和有益效果。
[0152]
实施例六
[0153]
图9示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助
理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。
[0154]
如图9所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器(rom)12、随机访问存储器(ram)13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器(rom)12中的计算机程序或者从存储单元18加载到随机访问存储器(ram)13中的计算机程序，来执行各种适当的动作和处理。在ram 13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、rom 12以及ram 13通过总线14彼此相连。输入/输出(i/o)接口15也连接至总线14。
[0155]
电子设备10中的多个部件连接至i/o接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0156]
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如人手识别方法。
[0157]
在一些实施例中，人手识别方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由rom 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到ram 13并由处理器11执行时，可以执行上文描述的人手识别方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行人手识别方法。
[0158]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0159]
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0160]
在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存
储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0161]
为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0162]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)、区块链网络和互联网。
[0163]
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与vps服务中，存在的管理难度大，业务扩展性弱的缺陷。
[0164]
应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。
[0165]
上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：林哲
技术所有人：广州虎牙科技有限公司
我是此专利的发明人

上一篇：一种用于化工安全生产保护装置的制作方法
上一篇：夹笔组件、进笔装置及削笔机的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。