图像识别的方法、装置、介质和设备与流程

文档序号:31225665发布日期:2022-08-23 19:17阅读:85来源:国知局
图像识别的方法、装置、介质和设备与流程

1.本公开涉及人工智能领域,尤其涉及一种图像识别的方法、装置、存储介质和电子设备。


背景技术:

2.目前,针对汽车座舱内儿童的关怀服务,例如儿童遗留提醒、儿童危险行为报警、安全座椅正确佩戴提示等,需要从座舱内设置的摄像头采集的图像中识别出儿童。
3.相关技术中,识别座舱内儿童的方法通常包括以下两种:第一种是基于图像中的人脸特征进行年龄估计,以预测对象是否为儿童;第二种是基于图像中的骨骼关键点,通过像素级运算估计骨骼长度,进而根据骨骼长度估计对象身高,然后通过对比对象身高与预设的身高阈值,预测对象的年龄。受限于座舱内摄像头的类型、安装位置以及座椅遮挡等诸多因素,这两种识别方法在实际应用中的表现不佳,例如当人脸被遮挡时,可能导致无法通过第一种方法进行识别;而当对象的身体部分被遮挡时,可能导致第二种方法的识别准确率较低。


技术实现要素:

4.为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种图像识别的方法、装置、存储介质和电子设备。
5.根据本公开实施例的一个方面,提供了一种图像识别的方法,包括:从待识别图像中确定出待识别对象的人脸图像、人体区域信息和人体骨骼的关键点信息;利用预先训练的第一预测模型,基于人脸图像,预测待识别对象的年龄,得到待识别对象的预测年龄;利用预先训练的第二预测模型,基于人体区域信息和人体骨骼的关键点信息预测待识别对象所处的年龄区间,得到待识别对象的预测年龄区间;基于预测年龄和预测年龄区间,确定待识别对象是否为儿童。
6.根据本公开实施例的又一个方面,提供了一种图像识别的装置,包括:信息获取单元,被配置成从待识别图像中确定出待识别对象的人脸图像、人体区域信息和人体骨骼的关键点信息;第一预测单元,被配置成利用预先训练的第一预测模型,基于人脸图像,预测待识别对象的年龄,得到待识别对象的预测年龄;第二预测单元,被配置成利用预先训练的第二预测模型,基于人体区域信息和人体骨骼的关键点信息预测待识别对象所处的年龄区间,得到待识别对象的预测年龄区间;结果确定单元,被配置成基于预测年龄和预测年龄区间,确定待识别对象是否为儿童。
7.根据本公开实施例的再一方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于实现上述方法。
8.根据本公开实施例的又一方面,提供了一种电子设备,该电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述方法。
9.本公开的图像识别的方法,可以利用待识别图像中的人脸信息预测待识别对象的年龄,同时利用待识别图像中的人体区域信息和人体骨骼的关键点信息。预测待识别对象的年龄区域,并融合预测年龄和预测年龄区间,确定待识别对象是否为儿童。克服了依赖单一特征信息进行识别的局限性,降低了人脸或身体被遮挡对图像识别带来的不利影响,有助于提高图像识别的泛化性、容错性以及儿童识别的准确度。
10.下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
11.通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
12.图1是本公开的图像识别的方法所适用的场景示意图;
13.图2是本公开的图像识别的方法的一个实施例的流程示意图;
14.图3是本公开的图像识别的方法的一个实施例中确定人脸图像、人体区域信息和人体骨骼的关键点信息的流程示意图;
15.图4是本公开的图像识别的方法的一个实施例中预测年龄区间的流程示意图;
16.图5是本公开的图像识别的装置的一个实施例的结构示意图;
17.图6是本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
18.下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
19.应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
20.本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
21.还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
22.还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
23.另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
24.还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
25.同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际
的比例关系绘制的。
26.以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
27.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
28.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
29.本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
30.终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
31.申请概述
32.在实现本公开的过程中,发明人发现,相关技术中利用人脸特征或身体特征识别图像中的对象是否为儿童时,容易受到环境因素的干扰,导致图像识别的表现不佳。例如,依赖人脸特征进行识别时,当对象的脸部区域存在遮挡时,容易导致人脸识别失败或难以保证准确率;依赖身体特征进行识别时,当对象的身体存在遮挡时,容易导致骨骼长度的像素级计算误差较大,同样难以保证准确率,且该方法的泛化性较差,无法适应复杂场景。
33.由此可见,上述方法容易受到环境因素的限制,导致图像识别的准确率和泛化性较差。
34.示例性系统
35.图1是本公开的图像识别方法的所适用的一个场景的示意图,如图1所示,安装于汽车座舱内的摄像头100可以采集座舱内部的图像110,图像110中通常可以包括一个或多个乘坐人员,为了识别乘坐人员是否是儿童,以便提供对应的关怀服务,摄像头100可以将将采集到的图像110发送至用于图像识别的电子设备120,例如可以是车载电脑或云端服务器。
36.电子设备120可以从图像110中确定出一个或多个待识别对象(即座舱内的乘坐人员)的人脸图像111、人脸区域信息112和人体骨骼的关键点信息113。然后利用第一预测模型130对人脸图像111进行处理,预测出待识别对象的预测年龄;同时,利用第二预测模型140对人体区域信息112和人体骨骼的关键点信息113进行处理,预测出待识别对象的预测年龄区间;之后,根据预测年龄和预测区间,确定待识别对象是否为儿童。
37.示例性方法
38.图2是本公开的图像识别的方法的一个实施例的流程示意图。本实施例可应用在图1所示的电子设备120上,如图2所示,该流程包括如下步骤:
39.步骤210、从待识别图像中确定出待识别对象的人脸图像、人体区域信息和人体骨骼的关键点信息。
40.在本实施例中,待识别图像通常是指包含有待识别对象的图像,例如可以是汽车座舱内设置的摄像头采集的座舱内部图像,其中可以包含一个或多个乘坐人员,一个乘坐人员即为一个待识别对象。
41.人体区域信息可以表征待识别对象的人体在待识别图像中的位置和区域,例如可以是人体检测框的坐标信息。
42.人体骨骼的关键点信息可以表征待识别对象的骨骼关键点在待识别图像中的位置信息,例如可以是骨骼关键点的像素坐标。作为示例,人体骨骼的关键点信息可以包括人体的15个关节在待识别图像中的像素坐标及其置信度。需要说明的是,关节数量可以根据实际需求或算法进行设定,本公开对此不做限定。
43.作为示例,执行主体(例如图1所示的电子设备120)可以采用目标检测算法,从待识别图像中分割出每个待识别对象分别对应的人脸图像、人体区域信息和人体骨骼的关键点信息。
44.步骤220、利用预先训练的第一预测模型,基于人脸图像,预测待识别对象的年龄,得到待识别对象的预测年龄。
45.在本实施例中,第一预测模型表征人脸图像与预测年龄的对应关系,例如可以采用全连接网络、卷积神经网络或循环神经网络作为第一预测模型,通过对人脸图像进行特征提取、特征映射等处理,输出预设的多个年龄值的置信度,然后将置信度最高的年龄值作为人脸图像对应的待识别对象的预测年龄。
46.步骤230、利用预先训练的第二预测模型,基于人体区域信息和人体骨骼的关键点信息预测待识别对象所处的年龄区间,得到待识别对象的预测年龄区间。
47.在本实施例中,第二预测模型表征人体区域信息、人体骨骼的关键点信息与预设的年龄区间的对应关系。
48.作为示例,第二预测模型可以是卷积神经网络或循环神经网络,通过对人体区域信息和人体骨骼的关键点信息进行特征编码和逻辑回归(例如可以是softmax函数),估计出预设的多个年龄区间的置信度,然后将置信度最高的年龄区间作为待识别对象的预测年龄区间。
49.可选地,第二预测模型可以采用轻量化的全连接网络,以降低网络模型的参数量,有助于降低预测过程对执行主体的性能需求,进而提高运行帧率。
50.在本实施例中,年龄区间可以与人的年龄阶段相对应,例如可以根据儿童、青少年和成人,分别设置不同的年龄区间。例如0-6岁为儿童对应的年龄区间,7-12岁为青少年对应的年龄区间,13-99岁为成人对应的区间。
51.步骤240、基于预测年龄和预测年龄区间,确定待识别对象是否为儿童。
52.在本实施例中,执行主体可以根据预设的融合策略对步骤220得到的预测年龄和步骤230中得到的预测年龄区间进行融合,以此确定待识别对象是否为儿童。
53.可以理解的是,当预测年龄处于预测年龄区间时,表示两个预测结果是匹配的,此
时可以根据两者中的任意一个确定待识别对象的是否为儿童。
54.当预测年龄不处于预测年龄区间时,可以根据预设的融合策略选择其中一个预测结果作为依据,并以此判断待识别对象是否为儿童。
55.作为示例,可以根据待识别对象的人脸和人体的遮挡程度,确定预测年龄和预测年龄区间的优先级,例如,当人脸遮挡程度(例如可以是人脸的被遮挡区域与人脸区域的比值)大于人体遮挡程度(例如可以是人体的被遮挡区域与人体区域的比值)时,可以为预测年龄区间设置更高的优先级,当预测年龄与预测年龄区间冲突时,可以根据预测年龄区间确定待识别对象是否为儿童。具体的,假设待识别对象的预测年龄为18岁,预测年龄区间为0-6岁,此时,可以根据预测年龄区间确定待识别对象为儿童。反之,当人脸遮挡程度小于人体遮挡程度时,可以将为预测年龄设置更高的优先级。
56.再例如,还可以根据第一预测模型和第二预测模型在测试阶段的准确率为两者设置优先级,当预测年龄与预测年龄区间存在冲突时,选择优先级更高的预测结果作为判断依据。
57.本实施例中的图像识别的方法,可以利用待识别图像中的人脸信息预测待识别对象的年龄,同时利用待识别图像中的人体区域信息和人体骨骼的关键点信息,预测待识别对象的年龄区域,并融合预测年龄和预测年龄区间,确定待识别对象是否为儿童。克服了依赖单一特征信息进行识别的局限性,降低了人脸或身体被遮挡对图像识别带来的不利影响,有助于提高图像识别的泛化性、容错性以及儿童识别的准确度。
58.此外,申请人在实现本公开的过程中还发现,相关技术中根据骨骼信息预测年龄时,通常是根据人体关键点的坐标计算显式的骨骼长度,进而获得显式的身高信息,然后根据预设的身高与年龄的对应关系估计对象的年龄。与此相比,本实施例中的图像识别的方法是通过端到端的方式直接得到待识别对象是否为儿童,无需计算骨骼长度、身高信息以及设定身高与年龄的对应关系等复杂流程,简化了识别流程。
59.接着参考图3,图3是本公开的图像识别的方法的一个实施例中确定待识别对象的人脸图像、人体区域信息和人体骨骼的关键点信息的流程示意图,如图3所示,该流程包括以下步骤:
60.步骤310、利用预先训练的多任务检测网络中的人脸分支网络对待识别图像进行人脸检测,得到人脸检测框。
61.在本实施例中,人脸检测框可以表征待识别对象的人脸在待识别图像中的覆盖区域。
62.步骤320、基于人脸检测框,从待识别图像中提取人脸图像。
63.步骤330、利用多任务检测网络中的人体分支网络,对待识别对象进行人体检测,得到人体检测框,并将人体检测框的坐标确定为人体区域信息。
64.在本实施例中,人体检测框可以表征待识别对象的身体在待识别图像中的覆盖区域。
65.步骤340、利用多任务检测网络中的人体分支网络,基于人体检测框,预测待识别对象的人体骨骼关键点的坐标和置信度,得到人体骨骼的关键点信息。
66.在一个具体的示例中,执行主体可以通过多任务检测模型的主干网络从待识别图像中提取图像特征,然后利用人脸分支网络对图像特征进行人脸检测处理,估计出待识别
图像中的人脸区域,并通过人脸检测框表征人脸区域;同时,利用人体分支网络对图像特征进行人体检测处理,估计出待识别图像中的身体区域,并通过人体检测框表征身体区域。之后,可以针对人体检测框所标定的图像区域中的像素点作回归处理,预测每个像素点为人体骨骼关键点的置信度(即概率值),具体的,假设预先设定的人体骨骼关键点的数量为15,则每个像素点可以包括分别对应于15个人体骨骼关键点的置信度。然后,针对每个人体骨骼关键点,选取置信度最高的像素点作为该人体骨骼关键点,从而得到了待识别对象的人体骨骼关键点的坐标和置信度,以得到人体骨骼的关键点信息。这样一来,利用多任务检测模型,可以得到人脸检测框的坐标、人体检测框的坐标以及人体骨骼关键点的坐标和置信度,之后,可以根据人脸检测框的坐标,从待识别图像中提取出人脸图像。
67.图3所示的实施例中,利用多任务检测模型对待识别图像进行处理,识别出待识别图像中待识别对象的人脸检测框、人体检测框以及人体骨骼的关键点信息,然后基于人脸检测框从待识别图像中提取人脸图像,可以提高后续预测步骤所需的特征信息的获取效率。
68.在上述任一实施例的一些可选的实施方式中,在执行上述步骤220之前,还可以对待识别图像进行如下预处理:将所述人脸图像调整至预设尺寸;对调整尺寸后的人脸图像中的像素值进行归一化处理。
69.在本实施方式中,预设尺寸可以表征第一预测模型的输入尺寸。
70.作为示例,执行主体可以通过如下公式(1)对调整尺寸后的人脸图像中的像素值进行归一化处理。
[0071][0072]
其中,x表示像素值,a表示归一化参数。例如,当a为128时,可以将像素值归一化到[-1,1]的区间;当a为255时,可以将像素归一化到[0,1]的区间。
[0073]
在本实施例中,通过对人脸图像进行预处理,有助于进一步提高第一预测模型的准确度。
[0074]
进一步地,对人脸图像的预处理还可以包括:从所述人脸图像中识别出面部关键点,得到面部关键点的坐标信息;基于所述面部关键点的坐标信息,将所述人脸图像中的人脸姿态调整至预设姿态。
[0075]
在本实施例方式中,预设姿态通常是指人脸正对图像采集装置时的姿态。通过对人脸姿态进行调整,可以降低人脸朝向造成的信息缺失,有助于进一步提高第一预测模型的准确度。
[0076]
作为示例,执行主体可以通过关键点检测模型从人脸图像中识别出面部关键点的坐标信息,关键点检测模型例如可以是resnet(deep residual network,深度残差网络)、densenet(densely connected convolutional networks,密集连接的卷积网络)或mobilenetv2等,面部关键点可以根据实际需求设定,例如可以包括两个眼睛、鼻子、两个嘴角5个关键点。之后,可以通过面部关键点之间的相对位置估计人脸姿态,然后通过仿射变换将估计出的人脸姿态调整至预设姿态。
[0077]
在上述任一实施例的一些可选的实施方式中,上述步骤220还可以进一步包括:利用第一预测模型对人脸图像进行预测,输出第一概率向量,第一概率向量包括第一预设数
量的年龄数值的置信度;基于概率向量中大于预设概率阈值的置信度的数量,确定预测年龄。
[0078]
在本实施方式中,第一概率向量的维度表示预设的年龄值的数量,例如,第一预测模型预测的年龄范围为1-85岁时,第一概率向量的维度即为85,其中,每一个维度对应一个年龄值。
[0079]
预设概率阈值可以根据经验设定,也可以通过统计分析的方式确定。作为示例,第一预测模型可以是全连接网络、卷积神经网络或循环神经网络,其输出的第一概率向量的维度为85。假设第一概率向量中大于0.5的置信度的数量为6,则待识别对象的预测年龄为6岁。
[0080]
在本实施方式的一个示例中,预测年龄可以通过如下公式(2)获得:
[0081][0082]
其中,n表示第一概率向量的维度数量,i表示人脸图像,fk(i)表示人脸图像对应的第一概率向量中的第k维度的概率值,1[fk(i)>0.5]表示当fk(i)>0.5时,作为1参与加和运算。
[0083]
示例性的,假设第一概率向量的维度为85维(即第一预测模型的预测范围是1-85岁),对于一个人脸图像,预测获得85维的第一概率向量p=[p1,p2,

,p
85
],pi=fi(i)(i=1,2,

,85)表示该人脸图像对应的预测年龄大于或等于年龄值i的概率。假设人脸图像对应的真实年龄为20岁,则p1为接近1的概率值,比如p1=0.9,同理,p
2-p
20
均为接近1的概率值,同时,p
21-p
85
为接近0的概率值,比如0.1、0.2。据此,可以确定出85个维度中概率值大于预设概率阈值(例如可以去0.5)的数量,其中p
1-p
20
均为大于0.5的概率值,p
21-p
85
均为小于0.5的概率值,由此得到的预测年龄为20岁。
[0084]
作为示例,第一预测模型可以通过如下方式训练得到:获取样本人脸图像及其样本标签,样本标签可以包括样本人脸图像对应的各个维度的概率值,概率值可以设置为0或1,具体可以根据样本人脸图像表征的对象的真实年龄与该维度对应的年龄值的大小关系确定。例如样本人脸图像表征的对象的真实年龄大于或等于该维度对应的年龄值,则该维度对应的概率值为1,否则为0;将样本人脸图像作为输入,将样本标签作为期望输出,以此训练初始第一预测模型,可以得到训练后的第一预测模型。
[0085]
在本实施方式中,通过第一概率向量中的置信度估计待识别对象的预测年龄,采用更细粒度的方式预测待识别对象的预测年龄,有助于提高年龄预测的准确度。
[0086]
接着参考图4,图4示出了本公开的图像识别的方法的一个实施例中预测年龄区间的流程示意图,在上述任一实施例的一些可选的实施方式中,上述步骤230还可以采用图4所示的流程。如图4所示,该流程包括以下步骤:
[0087]
步骤410、基于人体区域信息,确定人体检测框的高度和面积。
[0088]
步骤420、基于人体骨骼的关键点信息,确定待识别对象的上半身高度。
[0089]
作为示例,可以根据肩关节和髋关节对应的关键点坐标,确定待识别对象的上半身高度。
[0090]
步骤430、将人体区域信息、人体检测框的高度和面积、上半身高度以及人体骨骼的关键点信息编码成特征向量。
[0091]
在本实施例中,特征向量可以表征待识别图像中包含的待识别对象的人体特征信
息。人体区域信息、人体检测框的高度和面积、上半身高度以及人体骨骼的关键点信息均为数值形式,可以直接将多个数值编码成特征向量的形式。
[0092]
在一个具体示例中,人体区域信息可以包括两个对角点的像素坐标,对应4个数值;人体检测框的高度和面积、上半身高度分别对应1个数值;人体骨骼的关键点信息可以包括15个关节对应的关键点的像素坐标及其置信度,每个像素坐标的横坐标和纵坐标分别对应1个数值,该像素坐标的置信度对应1个数值,如此一来,人体骨骼的关键点信息可以对应45个数值,结合人体区域信息对应的4个数值以及人体检测框的高度和面积、上半身高度对应的3个数值,可以得到52个数值,以此形成的特征向量可以包括52个维度。
[0093]
在本实施例的一些可选的实施方式中,可以通过如下方式生成特征向量:基于待识别图像的分辨率,对人体检测框的坐标以及人体骨骼的关键点的坐标进行归一化处理;将处理后的人体检测框的坐标和人体骨骼的关键点的坐标、人体骨骼的关键点的置信度、上半身高度以及人体检测框的高度和面积编码成特征向量。
[0094]
作为示例,待识别图像的分辨率为m
×
n,则可以利用m对人体检测框的横坐标以及人体骨骼的关键点的横坐标进行归一化处理,利用n为人体检测框的纵坐标以及人体骨骼的关键点的纵坐标进行归一化处理。
[0095]
在本实施方式中,对人体检测框的坐标以及人体骨骼的关键点的坐标进行归一化后,再进行编码以生成特征向量,可以进一步提高第二预测模型的预测准确度。
[0096]
步骤440、将特征向量输入第二预测模型,得到第二概率向量,第二概率向量中包括第二预设数量的年龄区间的置信度。
[0097]
作为示例,第二预测模型可以是多层感知机,通过对特征向量进行分类预测,可以输出第二概率向量,第二概率向量中的每个数值表征一个预设年龄区间的置信度。例如,预设的年龄区间为3个时,第二概率向量的维度为3,分别对应3个年龄区间的置信度。
[0098]
步骤450、基于第二概率向量,确定预测年龄区间。
[0099]
例如,可以将第二概率向量中最高的置信度对应的年龄区间确定为预测年龄区间。
[0100]
在图4所示的实施例中,可以根据人体区域信息和人体骨骼的关键点信息,确定人体检测框的高度和面积以及待识别对象的上半身高度,并对人体区域信息、人体检测框的高度和面积、上半身高度以及人体骨骼的关键点信息进行编码以生成高维的特征向量,并基于特征向量预测待识别对象所处的预测年龄区间。一方面,无需计算人体骨骼的长度信息以获取显式的身高信息,即可实现对年龄区间的预测;另一方面可以提高第二预测模型的预测过程所需的特征信息的维度,从而提高第二预测模型的预测准确度。
[0101]
在上述任一实施例的一些可选的实施方式中,上述步骤240可以进一步包括:当满足第一预设条件时,基于预测年龄区间确定待识别对象是否为儿童,第一预设条件包括以下之一:人脸图像中的人脸遮挡区域大于预设区域阈值且人体骨骼的关键点中可见的关键点数量大于预设数量;或,人脸遮挡区域不大于预设区域阈值且预测年龄所处的年龄区间与预测年龄区间的差异大于预设差异阈值;当不满足第一预设条件时,基于预测年龄所处的年龄区间确定待识别对象是否为儿童。
[0102]
在本实施方式中,针对不同的场景,采用不同的策略对预测年龄和预测年龄区间进行融合,以此确定识别结果,使得本实施方式中的图像识别的方法可以适用于不同场景,
有助于提高图像识别的方法的适用范围,并确保不同场景下的准确度。
[0103]
本公开实施例提供的任一种图像识别的方法可以由任意适当的具有图像识别能力的设备执行,包括但不限于:终端设备和服务器等。或者,本公开实施例提供的任一种图像识别的方法可以由处理器执行,如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种图像识别的方法。下文不再赘述。
[0104]
示例性装置
[0105]
接着参考图5,图5示出了本公开的图像识别的装置的一个实施例的结构示意图,如图5所示,该装置包括:信息获取单元510,被配置成从待识别图像中确定出待识别对象的人脸图像、人体区域信息和人体骨骼的关键点信息;第一预测单元520,被配置成利用预先训练的第一预测模型,基于人脸图像,预测待识别对象的年龄,得到待识别对象的预测年龄;第二预测单元530,被配置成利用预先训练的第二预测模型,基于人体区域信息和人体骨骼的关键点信息预测待识别对象所处的年龄区间,得到待识别对象的预测年龄区间;结果确定单元540,被配置成基于预测年龄和预测年龄区间,确定待识别对象是否为儿童。
[0106]
在其中一个实施方式中,信息获取单元510包括:人脸检测模块,被配置成利用预先训练的多任务检测网络中的人脸分支网络对待识别图像进行人脸检测,得到人脸检测框;人脸图像提取模块,被配置成基于人脸检测框,从待识别图像中提取人脸图像;人体检测模块,被配置成利用多任务检测网络中的人体分支网络,对待识别对象进行人体检测,得到人体检测框,并将人体检测框的坐标确定为人体区域信息;关键点预测模块,被配置成利用人体分支网络,基于人体检测框,预测待识别对象的人体骨骼关键点的坐标和置信度,得到人体骨骼的关键点信息。
[0107]
在其中一个实施方式中,第一预测单元520进一步包括:向量输出模块,被配置成利用第一预测模型对人脸图像进行预测,输出第一概率向量,第一概率向量包括第一预设数量的年龄数值的置信度;年龄预测模块,被配置成基于概率向量中大于预设概率阈值的置信度的数量,确定预测年龄。
[0108]
在其中一个实施方式中,该装置还包括预处理单元,被配置成:将人脸图像调整至预设尺寸;对调整尺寸后的人脸图像中的像素值进行归一化处理。
[0109]
在其中一个实施方式中,预处理单元还被配置成:从人脸图像中识别出面部关键点,得到面部关键点的坐标信息;基于面部关键点的坐标信息,将人脸图像中的人脸姿态调整至预设姿态。
[0110]
在其中一个实施方式中,第二预测单元530进一步包括:检测框计算模块,被配置成基于人体区域信息,确定人体检测框的高度和面积;高度计算模块,被配置成基于人体骨骼的关键点信息,确定待识别对象的上半身高度;向量编码模块,被配置成将人体区域信息、人体检测框的高度和面积、上半身高度以及人体骨骼的关键点信息编码成特征向量;预测模块,被配置成将特征向量输入第二预测模型,得到第二概率向量,第二概率向量中包括第二预设数量的年龄区间的置信度;区间确定模块,被配置成基于第二概率向量,确定预测年龄区间。
[0111]
在其中一个实施方式中,向量编码模块被进一步配置成:基于待识别图像的分辨率,对人体检测框的坐标以及人体骨骼的关键点的坐标进行归一化处理;将处理后的人体检测框的坐标和人体骨骼的关键点的坐标、人体骨骼的关键点的置信度、上半身高度以及
人体检测框的高度和面积编码成特征向量。
[0112]
在其中一个实施方式中,结果确定单元540被进一步配置成:当满足第一预设条件时,基于预测年龄区间确定待识别对象是否为儿童,第一预设条件包括以下之一:人脸图像中的人脸遮挡区域大于预设区域阈值且人体骨骼的关键点中可见的关键点数量大于预设数量;或,人脸遮挡区域不大于预设区域阈值且预测年龄所处的年龄区间与预测年龄区间的差异大于预设差异阈值。当不满足第一预设条件时,基于预测年龄所处的年龄区间确定待识别对象是否为儿童。
[0113]
示例性电子设备
[0114]
下面,参考图6来描述根据本公开实施例的电子设备。图6图示了根据本公开实施例的电子设备的框图。如图6所示,电子设备600包括一个或多个处理器610和存储器620。
[0115]
处理器610可以是中央处理单元(cpu)或者具有图像识别能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备600中的其他组件以执行期望的功能。
[0116]
存储器620可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本公开的各个实施例的图像识别的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
[0117]
在一个示例中,电子设备600还可以包括:输入装置630和输出装置640,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
[0118]
例如,该输入装置630可以是上述的麦克风或麦克风阵列,用于捕捉声源的输入信号,还可以是通信网络连接器,用于接收采集的输入信号。
[0119]
此外,该输入设备630还可以包括例如键盘、鼠标等等。
[0120]
该输出装置640可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出设备640可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
[0121]
当然,为了简化,图6中仅示出了该电子设备600中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备600还可以包括任何其他适当的组件。
[0122]
示例性计算机程序产品和计算机可读存储介质
[0123]
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的图像识别的方法中的步骤。
[0124]
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如java、c++等,还包括常规的过程式程序设计语言,诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备
或服务器上执行。
[0125]
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的图像识别的方法中的步骤。
[0126]
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0127]
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
[0128]
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0129]
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
[0130]
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
[0131]
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
[0132]
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
[0133]
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1