姿态分类方法和姿态分类模型的训练方法、装置与流程

文档序号:28689152发布日期:2022-01-29 11:11阅读:299来源:国知局
姿态分类方法和姿态分类模型的训练方法、装置与流程

1.本公开涉及人工智能领域,具体涉及计算机视觉和深度学习技术领域,更具体地涉及一种姿态分类方法和姿态分类模型的训练方法、装置、电子设备和存储介质。


背景技术:

2.在姿态识别中,通常需要目标检测、关键点检测和姿态分类等多个阶段。通常,多个阶段中的每个阶段都需要运行一个处理模型。因此,存在需要消耗较多算力资源和耗时较长的技术问题。


技术实现要素:

3.提供了一种降低算力资源的消耗和计算时长的姿态分类方法、姿态分类模型的训练方法、装置、电子设备和存储介质。
4.本公开的一个方面提供了一种姿态分类方法,包括:提取包括至少一个目标对象的待处理图像的特征,得到第一特征图;针对至少一个目标对象中的每个目标对象,基于第一特征图,确定针对每个目标对象的位置信息;以及基于针对每个目标对象的位置信息和第一特征图,确定每个目标对象的姿态类别。
5.本公开的另一个方面提供了一种姿态分类模型的训练方法,其中,姿态分类模型包括特征提取网络、位置确定网络和类别预测网络;该训练方法包括:将样本图像输入特征提取网络,得到第二特征图,样本图像包括至少一个目标对象中每个目标对象的实际位置信息和实际姿态类别;将第二特征图输入位置确定网络,得到至少一个预测位置信息;基于实际位置信息和第二特征图,采用类别预测网络确定每个目标对象的预测姿态类别;以及基于预测姿态类别、实际姿态类别、至少一个预测位置信息和实际位置信息,对对象分类模型进行训练。
6.本公开的另一个方面提供了一种姿态分类装置,包括:第一特征提取模块,用于提取包括至少一个目标对象的待处理图像的特征,得到第一特征图;第一位置确定模块,用于针对至少一个目标对象中的每个目标对象,基于第一特征图,确定针对每个目标对象的位置信息;以及第一姿态确定模块,用于基于针对每个目标对象的位置信息和第一特征图,确定每个目标对象的姿态类别。
7.本公开的另一个方面提供了一种姿态分类模型的训练装置,其中,姿态分类模型包括特征提取网络、位置确定网络和类别预测网络;该训练装置包括:第二特征提取模块,用于将样本图像输入特征提取网络,得到第二特征图,样本图像包括至少一个目标对象中每个目标对象的实际位置信息和实际姿态类别;第二位置确定模块,用于将第二特征图输入位置确定网络,得到至少一个预测位置信息;第二姿态确定模块,用于基于实际位置信息和第二特征图,采用类别预测网络确定每个目标对象的预测姿态类别;以及模型训练模块,用于基于预测姿态类别、实际姿态类别、至少一个预测位置信息和实际位置信息,对对象分类模型进行训练。
8.本公开的另一个方面提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开提供的姿态分类方法和/或姿态分类模型的训练方法。
9.根据本公开的另一个方面提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开提供的姿态分类方法和/或姿态分类模型的训练方法。
10.根据本公开的另一个方面提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开提供的姿态分类方法和/或姿态分类模型的训练方法。
11.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
12.附图用于更好地理解本方案,不构成对本公开的限定。其中:
13.图1是根据本公开实施例的姿态分类方法和姿态分类模型的训练方法的应用场景示意图;
14.图2是根据本公开实施例的姿态分类模型的训练方法的流程示意图;
15.图3是根据本公开一实施例中姿态分类模型的训练方法的原理示意图;
16.图4是根据本公开另一实施例中姿态分类模型的训练方法的原理示意图;
17.图5是根据本公开实施例的姿态分类方法的流程示意图;
18.图6是根据本公开实施例的姿态分类方法的原理示意图;
19.图7是根据本公开实施例的姿态分类模型的训练装置的结构框图;
20.图8是根据本公开实施例的姿态分类装置的结构框图;以及
21.图9是用来实施本公开实施例的姿态分类方法和/或姿态分类模型的训练方法的电子设备的结构框图。
具体实施方式
22.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
23.本公开提供了一种姿态分类方法,该方法包括特征提取阶段、位置预测阶段和姿态预测阶段。在特征提取阶段中,提取包括至少一个目标对象的待处理图像的特征,得到第一特征图。在位置预测阶段中,针对至少一个目标对象中的每个目标对象,基于第一特征图,确定针对每个目标对象的位置信息。在姿态预测阶段中,基于针对每个目标对象的位置信息和第一特征图,确定每个目标对象的姿态类别。
24.以下将结合图1对本公开提供的方法和装置的应用场景进行描述。
25.图1是根据本公开实施例的姿态分类方法和姿态分类模型的训练方法的应用场景
示意图。
26.如图1所示,该实施例的应用场景100可以包括电子设备110,该电子设备110可以为具有处理功能的任意电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和服务器等等。
27.该电子设备110例如可以对输入的待处理图像120进行分类,得到分类结果130。例如可以识别待处理图像120中的目标对象,根据识别得到的目标对象的姿态类别来对待处理图像120进行分类。该分类结果130例如可以包括图像中目标对象属于多个预定姿态类别中每个姿态类别的概率。目标对象例如可以包括整个对象(例如人),也可以为对象的某个部位。预定姿态类别例如可以为坐姿类别,也可以为手势类别等,本公开对此不做限定。
28.根据本公开的实施例,如图1所示,该应用场景100还可以包括服务器140。电子设备110可以通过网络与服务器140通信连接,该网络可以包括无线或有线通信链路。
29.示例性地,服务器140可以用于训练姿态分类模型,并响应于电子设备110发送的模型获取请求,将训练好的姿态分类模型150发送给电子设备110,便于电子设备110对图像进行分类。在一实施例中,电子设备110还可以通过网络将图像发送给服务器140,由服务器根据训练好的姿态分类模型对获得的待处理图像120进行分类。
30.根据本公开的实施例,如图1所示,该应用场景100还可以包括数据库160,该数据库160可以维护有海量的样本图像,该些样本图像可以具有指示图像的实际姿态类别的标签。服务器140可以访问该数据库160,并从数据库160中抽取部分样本图像,以对姿态分类模型进行训练。
31.在训练姿态分类模型150时,可以根据分类结果130与标签指示的实际姿态类别,采用损失函数来确定姿态分类模型的损失,通过最小化模型损失来完成模型的训练。
32.需要说明的是,本公开所提供的姿态分类模型的训练方法可以由服务器140执行,本公开所提供的姿态分类方法可以由电子设备110或服务器140执行。相应地,本公开所提供的姿态分类模型的训练装置可以设置于服务器140中,本公开所提供的姿态分类装置可以设置于电子设备110或服务器140中。
33.应该理解,图1中的电子设备、服务器和数据库的数目和类型仅仅是示意性的。根据实现需要,可以具有任意数目和类型的电子设备、服务器和数据库。
34.以下将结合图2~图4对本公开提供的姿态分类模型的训练方法进行详细描述。
35.图2是根据本公开实施例的姿态分类模型的训练方法的流程示意图。
36.如图2所示,该实施例的姿态分类模型的训练方法200可以包括操作s210~操作s240。其中,姿态分类模型可以包括特征提取网络、位置确定网络和类别预测网络。
37.在操作s210,将样本图像输入特征提取网络,得到第二特征图。
38.根据本公开的实施例,样本图像包括至少一个目标对象中每个目标对象的实际位置信息和实际姿态类别。样本图像可以为包括至少一个目标对象的图像。目标对象为人、动物、人的部分肢体(例如手)等对象。实际位置信息可以为每个目标对象所对应的真实检测框(ground truth box)在样本图像中的位置信息,该位置信息例如可以包括真实检测框的中心点在样本图像中的坐标值,以及该真实检测框的高度和宽度。例如目标对象为人,目标对象的实际姿态类别可以包括正常坐姿、弯腰低头、歪头、肩不平等多个预定类别中的任意一个。
39.可以理解的是,针对具有不同目标对象的样本图像,该实际姿态类别可以不同,本公开对此不做限定。样本图像可以具有标签,以作为指示实际位置信息和实际姿态类别的信息。
40.根据本公开的实施例,特征提取网络可以为卷积神经网络、空间金字塔池化(spatial pyramid pooling,spp)网络、特征金字塔网络(feature pyramid networks,fpn)等。对应一个样本图像,得到的第二特征图可以为尺寸为(c1,h,w)的特征图。其中,c1为特征提取网络中最后一个卷积层的卷积核个数,h、w分别为特征图的高度和宽度。
41.在操作s220,将第二特征图输入位置确定网络,得到至少一个预测位置信息。
42.根据本公开的实施例,位置确定网络可以为回归网络或其他能够根据特征图确定图像中目标对象的位置的网络。采用位置确定网络对第二特征图进行处理,可以得到样本图像中的每个目标对象对应的预测框。预测位置信息可以包括每个预测框在样本图像中的位置信息,该位置信息例如可以包括预测框的中心点在样本图像中的坐标值,以及该预测框的高度和宽度。
43.需要说明的是,在操作s210和操作s220中,可以采用一个网络提取样本图像中的特征,采用另一个网络预测目标对象的位置,也可以采用一个网络来实现特征提取和位置预测。例如,可以采用单次查看检测器(you only look once,yolo)或ssd目标检测框架(single shot multibox detection,单发多框检测框架)提取特征并预测位置。
44.在操作s230,基于实际位置信息和第二特征图,采用类别预测网络确定每个目标对象的预测姿态类别。
45.根据本公开的实施例,将第二特征图输入类别预测网络,可以得到至少一个概率向量,每个概率向量指示样本图像中的一个目标对象属于多个预定类别中每个类别的概率。该实施例可以确定每个概率向量中的最大概率所对应的类别为一个目标对象的预测姿态类别,从而可以得到至少一个预测姿态类别。由于样本图像中的目标对象与实际位置信息一一对应,至少一个预测位置信息与至少一个预测姿态类别一一对应,因此根据实际位置信息与预测位置信息之间的距离,可以建立至少一个预测姿态类别与至少一个目标对象之间的对应关系,从而确定每个目标对象的预测姿态类别。具体可以先确定与每个预测位置信息之间的距离最短的实际位置信息,然后将该实际位置信息所对应的目标对象的预测姿态类别确定为与该每个预测位置信息对应的预测姿态类别。
46.在操作s240,基于预测姿态类别、实际姿态类别、至少一个预测位置信息和实际位置信息,对姿态分类模型进行训练。
47.在一实施例中,可以采用预定损失函数,根据预测姿态类别、实际姿态类别、至少一个预测位置信息和实际位置信息,计算姿态分类模型的整体损失。通过反向传播算法等来调整姿态分类模型中的网络权重,完成对姿态分类模型的训练。预定损失函数可以包括交叉熵损失函数等,本公开对此不做限定。
48.例如,可以采用交叉熵损失函数来确定姿态分类模型对姿态类别进行预测的损失,采用二值交叉熵损失函数来确定姿态分类模型对位置信息进行预测的损失。在一实施例中,位置确定网络在确定预测位置信息的同时,还可以确定每个预测位置信息的置信度,则该实施例还可以计算姿态分类模型确定该置信度的损失。例如,该实施例可以将三部分损失的加权和作为姿态分类模型的整体损失。
49.根据本公开的实施例,由于采用本公开实施例的训练方法训练姿态训练模型后,仅利用该姿态训练模型即可实现对目标对象的姿态的识别。相较于相关技术中需要加载目标检测模型、关键点检测模型和分类模型等多个模型的技术方案,可以在一定程度上降低算力资源的消耗和计算时长。
50.在另一实施例中,可以针对姿态训练模型中的不同网络,采用不同的损失函数。例如,操作s240可以包括:基于至少一个预测位置信息和实际位置信息,对特征提取网络和位置确定网络进行训练;以及基于预测姿态类别和实际姿态类别,对特征提取网络、位置确定网络和类别预测网络进行训练。
51.例如,特征提取网络和位置确定网络可以采用yolo模型,可以根据前述三部分损失来对yolo模型进行训练。采用姿态分类模型对姿态类别进行预测的损失来对类别预测网络进行训练。如此,可以针对性地对姿态分类模型中的各个网络进行训练,利于提高模型训练的收敛效率。
52.图3是根据本公开一实施例中姿态分类模型的训练方法的原理示意图。
53.根据本公开的实施例,在采用类别预测网络确定每个目标对象的预测姿态类别时,可以首先基于每个目标对象的实际位置信息,确定第二特征图中针对每个目标对象的局部特征,从而得到至少一个局部特征。随后基于该至少一个局部特征,采用类别预测网络得到与至少一个目标对象一一对应的至少一个预测姿态类别。通过该方式,可以在一定程度上避免背景特征等对姿态预测的干扰,并提高姿态预测的准确率。
54.需要说明的是,第二特征图包括样本图像中全部目标对象的特征信息,局部特征表示一个目标对象在第二特征图中的特征信息,第二特征图中局部特征的数量与样本图像中目标对象的数量一致。例如,一个尺寸为416*416的样本图像中包括10个目标对象,每个目标对象具有一个实际位置信息。利用特征提取网络对样本图像进行处理,得到一个尺寸为3*52*52的第二特征图,该第二特征图中包括10个局部特征,并且10个局部特征与10个目标对象一一对应。
55.根据任意一个目标对象的实际位置信息,可以确定该目标对象在第二特征图中对应的局部特征,并将该局部特征从第二特征图中提取出来。然后采用类别预测网络对提取出来的局部特征进行处理,得到针对该目标对象的预测姿态类别。例如该类别预测网络可以设置卷积层来对局部特征进行卷积运算,并将卷积运算得到的特征经由全连接层映射至姿态类别空间,从而得到概率向量,根据该概率向量确定预测姿态类别(例如将概率向量中的最大概率对应的预定类别作为预测姿态类别)。例如,在全连接层之后,还可以设置有归一化层,用于对全连接层输出的数据进行归一化。通过根据每个目标对象的实际位置信息,采用上述方法可以得到每个目标对象对应的预测姿态类别。通过基于目标对象的实际位置信息提取局部特征,并确定预测姿态类别,可以提高姿态分类模型的训练效率,并在一定程度上简化训练姿态分类模型时的模型框架的结构。
56.在一个实施例中,考虑到样本图像中包括多个目标对象的情况下,多个目标对象对应的局部特征的尺寸可能不同。而输入全连接层特征尺寸应为固定尺寸。因此,在采用类别预测网络得到至少一个预测姿态类别之前,还可以对至少一个局部特征进行区域对齐处理,以使得处理后的局部特征具有相同尺寸。例如,本公开的实施例中,上文描述的基于至少一个局部特征,采用类别预测网络得到至少一个预测姿态类别的操作,可以包括以下操
作:首先,对至少一个局部特征分别进行区域对齐处理,得到至少一个处理后特征。随后,将至少一个处理后特征输入类别预测网络,得到至少一个预测姿态类别。如此,可以提高姿态分类模型的鲁棒性和精度。
57.需要说明的是,可以利用感兴趣区域对齐(roi-align)方法进行区域对齐处理。从第二特征图中提取到的每个局部特征对象经过区域对齐处理后,可以得到指定尺寸的处理后特征。然后将处理后特征输入类别预测网络进行处理,得到预测姿态类别。
58.例如,如图3所示,该实施例300中,姿态分类模型包括特征提取网络、位置确定网络和类别预测网络320。
59.特征提取网络和位置确定网络可以采用yolo v3 310。yolo v3 310可以包括主干网络311、第一卷积层312、第一上采样层313、第二卷积层314、第二上采样层315、第三卷积层316以及逻辑回归层317。样本图像301输入yolo v3 310之后,依次得到尺寸不同的第一尺寸特征图302、第二尺寸特征图303和第三尺寸特征图304(作为第二特征图),将第三尺寸特征图304输入逻辑回归层317可以得到预测位置信息305。
60.在类别预测网络与特征提取网络之间可以设置有感兴趣区域对齐网络330,类别预测网络320可以包括依次连接的卷积层321、全连接层322和归一化层323。样本图像301输入特征提取网络得到第二特征图之后,可以根据每个目标对象的实际位置信息306,从第二特征图中提取表征每个目标对象的局部特征307。然后将局部特征307输入感兴趣区域对齐网络330,得到预定尺寸的处理后特征。然后将处理后特征输入卷积层321,从而得到尺寸小于处理后特征的低维特征。然后,可以将该低维特征经由全连接层322和归一化层323处理后,得到概率向量。基于概率向量可以确定预测姿态类别308。
61.图4是根据本公开另一实施例中姿态分类模型的训练方法的原理示意图。
62.根据本公开的实施例,在采用类别预测网络确定每个目标对象的预测姿态类别时,可以先基于至少一个预测位置信息,确定第二特征图中针对至少一个目标对象的至少一个局部特征。随后基于至少一个局部特征,采用类别预测网络得到至少一个预测姿态类别。同时,可以基于至少一个预测位置信息和至少一个目标对象的至少一个实际位置信息,确定至少一个预测位置信息中的每个预测位置信息与实际位置信息之间的匹配关系。最后可以基于匹配关系,确定至少一个预测姿态类别中每个目标对象的预测姿态类别。
63.需要说明的是,第二特征图输入位置确定网络后可以得到至少一个预测位置信息,预测位置信息的数量与样本图像中的目标对象的数量一致。然后根据得到的至少一个预测位置信息,可以从第二特征图中提取到至少一个局部特征,至少一个预测位置信息与至少一个局部特征一一对应。然后将提取到的至少一个局部特征输入类别预测网络,可以得到至少一个预测姿态类别。在目标对象为多个时,为了确定预测姿态类别与目标对象之间的对应关系,可以先确定预测位置信息与实际位置信息之间的匹配关系。预测位置信息与实际位置信息匹配,表示该预测位置信息与该实际位置信息对应于同一个目标对象。由于实际位置信息与目标对象是一一对应的,因此可以根据匹配关系,从至少一个预测姿态类别中确定每个预测姿态类别代表的目标对象。
64.在一个实施例中,在采用类别预测网络得到至少一个预测姿态类别之前,还可以对至少一个局部特征进行区域对齐处理,以使得处理后的局部特征具有相同尺寸。
65.根据本公开的实施例,上文描述的基于至少一个局部特征,采用类别预测网络得
到至少一个预测姿态类别的操作,可以包括以下操作:首先,对至少一个局部特征分别进行区域对齐处理,得到至少一个处理后特征。随后,将至少一个处理后特征输入类别预测网络,得到至少一个预测姿态类别。该实施例可以采用前文描述的感兴趣区域对齐方法来进行区域对齐处理,在此不再赘述。
66.例如,如图4所示,该实施例400中,姿态分类模型包括特征提取网络、位置确定网络和类别预测网络420。特征提取网络和位置确定网络可以采用yolo v3 410。在类别预测网络420与特征提取网络之间可以设置有感兴趣区域对齐网络430,在特征提取网络之后还可以设置有匹配网络440。类别预测网络420可以包括依次连接的卷积层421、全连接层422和归一化层423。
67.将样本图像401输入yolo v3,可以得到第二特征图(图4中的第三尺寸特征图404)和至少一个预测位置信息405。根据至少一个预测位置信息405,从第二特征图中提取至少一个局部特征406,将至少一个局部特征406输入感兴趣区域对齐网络430,可以得到预定尺寸的至少一个处理后特征。一方面,将至少一个处理后特征输入类别预测网络420,可以得到至少一个预测姿态类别409。另一方面,匹配网络440将预测位置信息405与实际位置信息407进行匹配,得到描述同一个目标对象的位置信息对408。基于位置信息对408中的预测位置信息所提取的局部特征,经由处理而得到的预测姿态类别即为该位置信息对中的实际位置信息所对应的目标对象的预测姿态类别。因此,经过以上两方面的处理,可以确定至少一个预测姿态类别409中对应每个目标对象的预测姿态类别。然后可以根据每个对象的实际姿态类别和预测姿态类别计算姿态误差。
68.在一个实施例中,上述操作中的基于至少一个预测位置信息和至少一个目标对象的至少一个实际位置信息,确定至少一个预测位置信息中的每个预测位置信息与实际位置信息之间的匹配关系的操作,可以包括以下操作:针对至少一个预测位置信息中的每个预测位置信息,确定至少一个实际位置信息中与每个预测位置信息的交并比最高的位置信息,作为与每个预测位置信息相匹配的实际位置信息。
69.例如,预测位置信息可以表示样本图像中针对某个目标对象的预测框,实际位置信息可以表示样本图像中该某个目标对象的真实检测框。针对每个预测框,可以基于预测位置信息计算该每个预测框与至少一个目标对象的至少一个真实检测框中每个真实检测框的交并比。其中,交并比为预测框与真实检测框之间的交集面积除以预测框与真实检测框之间的并集面积所得到的比值。交并比与表示预测框与真实检测框的重合区域的面积呈正相关。得到交并比之后,针对每个预测框,选出一个与该预测框重合最多的真实检测框,并将该真实检测框与该预测框匹配起来。
70.在另一实施例中,可以通过其他方式实现上述确定匹配关系的操作。例如,针对每个预测框,确定预测框与每个真实检测框彼此之间的重合区域,然后确定重合区域的面积与该预测框的面积的比值,并将包含有比值最大的重合区域的真实检测框与该每个预测框匹配起来。
71.需要说明的是,该图4中,部分元素与前文描述的具有类似标号的元素表示同一元素,为了描述简便,在该实施例中未详述。
72.基于上文描述的姿态分类模型的训练方法,本公开还提供了一种姿态分类方法。以下将结合图5对该姿态分类方法进行详细描述。
73.图5是根据本公开实施例的姿态分类方法的流程示意图。
74.如图5所示,该实施例的姿态分类方法500可以包括操作s510~操作s530。
75.在操作s510,提取包括至少一个目标对象的待处理图像的特征,得到第一特征图。该操作s510可以通过与前文操作s210描述的方法类似的方法,来确定第一特征图。在此不再赘述。
76.在操作s520,针对至少一个目标对象中的每个目标对象,基于第一特征图,确定针对每个目标对象的位置信息。该操作s520可以通过与前文操作s220描述的方法类似的方法,来确定每个目标对象的位置信息。在此不再赘述。
77.在操作s530,基于针对每个目标对象的位置信息和第一特征图,确定每个目标对象的姿态类别。该操作s530可以通过与前文操作s230描述的方法类似的方法,来确定每个目标对象的姿态类别。在此不再赘述。
78.需要说明的是,上述姿态分类方法可以采用上文描述的姿态分类模型的训练方法得到的姿态分类模型来实现。
79.本公开实施例的姿态分类方法,由于无需加载多个模型,因此相较于相关技术可以在一定程度上降低算力资源的消耗和计算时长。
80.根据本公开另一实施例,上文描述的基于针对每个目标对象的位置信息和第一特征图,确定每个目标对象的姿态类别的操作,可以包括以下操作:首先基于位置信息,确定第一特征图中针对每个目标对象的局部特征。随后基于局部特征,确定每个目标对象的姿态类别。
81.需要说明的是,第一特征图包括待处理图像中全部目标对象的特征信息,局部特征表示一个目标对象在第一特征图中的特征信息。根据每个目标对象的位置信息,可以确定该目标对象在第一特征图中对应的局部特征,将该局部特征从第一特征图中提取出来。然后采用类别预测网络对提取出来的局部特征进行处理,得到针对该目标对象的姿态类别。
82.图6是根据本公开实施例的姿态分类方法的原理示意图。
83.根据本公开的实施例,在采用类别预测网络得到至少一个预测姿态类别之前,还可以对局部特征进行区域对齐处理,以使得处理后的局部特征具有相同尺寸。相应地,上文描述的基于局部特征,确定每个目标对象的姿态类别的操作,可以包括以下操作:首先对局部特征进行区域对齐处理,得到处理后特征。随后基于处理后特征,采用卷积运算确定每个目标对象的姿态类别。该实施例可以采用前文描述的感兴趣区域对齐方法来进行区域对齐处理,在此不再赘述。
84.例如,如图6所示,该实施例600中,姿态分类模型包括特征提取网络、位置确定网络和类别预测网络620。特征提取网络和位置确定网络可以采用yolo v3 610。在类别预测网络620与特征提取网络之间可以设置有感兴趣区域对齐网络630。类别预测网络620包括依次连接的卷积层621、全连接层622和归一化层623。
85.将待处理图像601输入特征提取网络,可以得到第一特征图(图中第三尺寸特征图604)之后,可以根据每个目标对象的位置信息605,从第一特征图中提取每个目标对象的局部特征606。然后将局部特征606输入感兴趣区域对齐网络630,得到预定尺寸的处理后特征。然后将处理后特征输入卷积层621得到低维特征。然后,可以将该低维特征经由全连接
层622和归一化层623处理后,得到概率向量。基于概率向量可以确定待处理图像中目标对象的姿态类别607。
86.需要说明的是,该图6中,部分元素与前文描述的具有类似标号的元素表示同一元素,为了描述简便,在该实施例中未详述。
87.基于本公开提供的姿态分类模型的训练方法,本公开还提供了一种姿态分类模型的训练装置。以下将结合图7对该装置进行描述。
88.图7是根据本公开实施例的姿态分类模型的训练装置的结构框图。
89.如图7所示,该实施例的姿态分类模型的训练装置700,包括第二特征提取模块710、第二位置确定模块720、第二姿态确定模块730以及模型训练模块740。姿态分类模型可以包括特征提取网络、位置确定网络和类别预测网络。
90.第二特征提取模块710用于将样本图像输入特征提取网络,得到第二特征图,样本图像包括至少一个目标对象中每个目标对象的实际位置信息和实际姿态类别。在一实施例中,第二特征提取模块710可以用于执行前文描述的操作s210,在此不再赘述。
91.第二位置确定模块720用于将第二特征图输入位置确定网络,得到至少一个预测位置信息。在一实施例中,第二位置确定模块720可以用于执行前文描述的操作s220,在此不再赘述。
92.第二姿态确定模块730用于基于实际位置信息和第二特征图,采用类别预测网络确定每个目标对象的预测姿态类别。在一实施例中,第二姿态确定模块730可以用于执行前文描述的操作s230,在此不再赘述。
93.模型训练模块740用于基于预测姿态类别、实际姿态类别、至少一个预测位置信息和实际位置信息,对姿态分类模型进行训练。在一实施例中,模型训练模块740可以用于执行前文描述的操作s240,在此不再赘述。
94.根据本公开的实施例,第二姿态确定模块730包括:第二特征确定子模块和第二姿态确定子模块。第二特征确定子模块用于基于每个目标对象的实际位置信息,确定第二特征图中针对每个目标对象的局部特征,得到至少一个局部特征。第二姿态确定子模块用于基于至少一个局部特征,采用类别预测网络得到至少一个预测姿态类别,至少一个预测姿态类别与至少一个目标对象一一对应。
95.根据本公开的实施例,第二姿态确定模块730包括:匹配子模块、第三特征确定子模块、第二姿态确定子模块以及姿态匹配子模块。匹配子模块用于基于至少一个预测位置信息和至少一个目标对象的至少一个实际位置信息,确定至少一个预测位置信息中的每个预测位置信息与实际位置信息之间的匹配关系。第三特征确定子模块用于基于至少一个预测位置信息,确定第二特征图中针对至少一个目标对象的至少一个局部特征。第二姿态确定子模块用于基于至少一个局部特征,采用类别预测网络得到至少一个预测姿态类别。姿态匹配子模块用于基于匹配关系,确定至少一个预测姿态类别中每个目标对象的预测姿态类别。
96.根据本公开的实施例,第二姿态确定子模块包括第二对齐单元和第二姿态确定单元。第二对齐单元用于对至少一个局部特征分别进行区域对齐处理,得到至少一个处理后特征。第二姿态确定单元用于将至少一个处理后特征输入类别预测网络,得到至少一个预测姿态类别。
97.根据本公开的实施例,匹配子模块还用于针对至少一个预测位置信息中的每个预测位置信息,确定至少一个实际位置信息中与每个预测位置信息的交并比最高的位置信息,作为与每个预测位置信息相匹配的实际位置信息。
98.根据本公开的实施例,模型训练模块740包括:第一训练子模块和第二训练子模块。第一训练子模块用于基于至少一个预测位置信息和实际位置信息,对特征提取网络和位置确定网络进行训练。第二训练子模块用于基于预测姿态类别和实际姿态类别,对特征提取网络、位置确定网络和类别预测网络进行训练。
99.图8是根据本公开实施例的姿态分类装置的结构框图。
100.如图8所示,该实施例的姿态分类装置800,包括第一特征提取模块810、第一位置确定模块820以及第一姿态确定模块830。
101.第一特征提取模块810用于提取包括至少一个目标对象的待处理图像的特征,得到第一特征图。在一实施例中,第一特征提取模块810可以用于执行前文描述的操作s510,在此不再赘述。
102.第一位置确定模块820用于针对至少一个目标对象中的每个目标对象,基于第一特征图,确定针对每个目标对象的位置信息。在一实施例中,第一位置确定模块820可以用于执行前文描述的操作s520,在此不再赘述。
103.第一姿态确定模块830用于基于针对每个目标对象的位置信息和第一特征图,确定每个目标对象的姿态类别。在一实施例中,第一姿态确定模块830可以用于执行前文描述的操作s530,在此不再赘述。
104.根据本公开的实施例,第一姿态确定模块830包括第一特征确定子模块和第一姿态确定子模块。第一特征确定子模块用于基于位置信息,确定第一特征图中针对每个目标对象的局部特征。第一姿态确定子模块用于基于局部特征,确定每个目标对象的姿态类别。
105.根据本公开的实施例,第一姿态确定子模块包括第一对齐单元和第一姿态确定单元。第一对齐单元用于对局部特征进行区域对齐处理,得到处理后特征。第一姿态确定单元用于基于处理后特征,采用卷积运算确定每个目标对象的姿态类别。
106.需要说明的是,本公开的技术方案中,所涉及的用户个人信息的获取、收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
107.根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
108.图9示出了可以用来实施本公开实施例的姿态分类方法和/或姿态分类模型的训练方法的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
109.如图9所示,设备900包括计算单元901,其可以根据存储在只读存储器(rom)902中的计算机程序或者从存储单元908加载到随机访问存储器(ram)903中的计算机程序,来执行各种适当的动作和处理。在ram 903中,还可存储设备900操作所需的各种程序和数据。计
算单元901、rom 902以及ram 903通过总线904彼此相连。输入/输出(i/o)接口905也连接至总线904。
110.设备900中的多个部件连接至i/o接口905,包括:输入单元906,例如键盘、鼠标等;输出单元907,例如各种类型的显示器、扬声器等;存储单元908,例如磁盘、光盘等;以及通信单元909,例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
111.计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理,例如姿态分类方法和/或姿态分类模型的训练方法。例如,在一些实施例中,姿态分类方法和/或姿态分类模型的训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由rom 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到ram 903并由计算单元901执行时,可以执行上文描述的姿态分类方法和/或姿态分类模型的训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行姿态分类方法和/或姿态分类模型的训练方法。
112.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
113.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
114.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
115.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机
具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
116.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
117.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。其中,服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务(

virtual private server

,或简称

vps

)中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
118.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
119.上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1