本公开涉及计算机视觉技术,尤其是一种对图像中的目标物进行识别的方法、装置、设备和介质。
背景技术:
1、注意力网络凭借其强大的全局感知能力,在计算机视觉的目标检测任务中应用越来越广泛。
2、在使用卷积神经网络训练目标检测模型时,相关技术根据特征图设置对应的锚点或锚框,进而根据预设规则将锚点或锚框划分到不同的真值上从而添加不同的约束。基于锚点或锚框的卷积神经网络,需要正负样本分布均衡,且需要进行例如非最大值抑制等大量的后处理,导致目标检测模型的收敛速度较慢。
3、在基于注意力网络对图像中目标物的检测模型中,通常提供多个可学习的编码向量作为模板,通过模板在特征图上的查询获得要检测的目标,在训练过程中将模板预测与真值框一一匹配,实现正负样本的平衡。这种通过模板实现与真值框匹配的方式,在模板覆盖场景受限的情形下,图像中目标物的检测精度会降低。
技术实现思路
1、为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种对图像中的目标物进行识别的方法、装置、设备和介质。
2、根据本公开实施例的一些方面,提供了一种对图像中的目标物进行识别的方法,包括:
3、基于图像中目标物的初始位置进行空间位置编码,得到多个第一空间位置编码;
4、对所述多个第一空间位置编码和所述多个第一空间位置编码对应的多个查询向量、以及所述图像的图像特征和所述图像特征匹配的第二空间位置编码进行处理,得到所述目标物在所述图像上的表观特征和位置特征;
5、基于所述位置特征和所述多个第一空间位置编码,确定所述目标物相对于所述初始位置的位置偏移量;
6、基于所述表观特征,确定所述目标物在所述图像中的尺寸信息;
7、基于所述目标物的初始位置和所述位置偏移量,确定所述目标物在所述图像中的最终位置。
8、根据本公开实施例的另一些方面,提供了一种对图像中的目标物进行识别的装置,包括:
9、空间位置编码模块,用于基于图像中目标物的初始位置进行空间位置编码,得到多个第一空间位置编码;
10、第一处理模块,用于对所述多个第一空间位置编码和所述多个第一空间位置编码对应的多个查询向量、以及所述图像的图像特征和所述图像特征匹配的第二空间位置编码进行处理,得到所述目标物在所述图像上的表观特征和位置特征,其中,所述查询向量为针对图像中所述目标物检测时用于查询的向量;
11、位置偏移量确定模块,用于基于所述位置特征和所述多个第一空间位置编码,确定所述目标物相对于所述初始位置的位置偏移量;
12、尺寸信息确定模块,用于基于所述表观特征,确定所述目标物在所述图像中的尺寸信息;
13、第二处理模块,用于基于所述目标物的初始位置和所述位置偏移量,确定所述目标物在所述图像中的最终位置。
14、根据本公开实施例的又一些方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述对图像中的目标物进行识别的方法。
15、根据本公开实施例的再一些方面,提供了一种电子设备,包括:
16、处理器;
17、用于存储所述处理器可执行指令的存储器;
18、所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述对图像中的目标物进行识别的方法。
19、基于本公开上述实施例提供的对图像中的目标物进行识别的方法、装置、设备和介质,对图像中目标物的初始位置进行空间位置编码得到多个第一空间位置编码后,可以根据预设的注意力机制对多个第一空间位置编码和多个第一空间位置编码对应的多个查询向量、以及图像的图像特征和图像特征匹配的第二空间位置编码进行处理,得到目标物在图像上的表观特征和位置特征,实现了表观特征和位置特征的解耦。由于目标物在图像上的表观特征可以表征目标物在图像上外观尺寸的特征,因此根据目标物在图像上的表观特征,可以准确地确定出目标物在图像中的尺寸信息。由于目标物在图像上的位置特征可以表征目标物在图像上最终空间位置的特征,且多个第一空间位置编码是根据目标物在图像上的初始位置编码得到,因此根据目标物在图像上的位置特征和多个空间位置编码,可以得到相对于目标物初始位置的位置偏移量,结合目标物的初始位置可以得到目标物的最终位置,实现对图像中目标物的高精度定位。
20、下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
1.一种对图像中的目标物进行识别的方法,包括:
2.根据权利要求1所述的方法,其中,所述对所述多个第一空间位置编码和所述多个第一空间位置编码对应的多个查询向量、以及所述图像的图像特征和所述图像特征匹配的第二空间位置编码进行处理,得到所述目标物在所述图像上的表观特征和位置特征,包括:
3.根据权利要求2所述的方法,其中,所述基于所述第一融合特征,对所述图像的图像特征和所述第二空间位置编码进行采样,得到所述目标物在所述图像上的多个表观特征采样值和多个位置特征采样值,包括:
4.根据权利要求2所述的方法,其中,所述利用所述注意力网络中的多头跨注意力网络层,基于所述多个表观特征采样值、所述多个位置特征采样值、所述第一融合特征和所述多个第一空间位置编码进行处理,得到所述表观特征和所述位置特征,包括:
5.根据权利要求2-4任一所述的方法,其中,所述利用所述注意力网络中的多头自注意力网络层,基于所述查询项、所述键值项值项和所述多个第一空间位置编码进行处理,得到第一融合特征,包括:
6.根据权利要求5所述的方法,其中,所述利用所述多头自注意力网络层,对所述查询项、所述键值项、所述值项和所述多个空间位置编码进行处理,得到第三融合特征,包括:
7.根据权利要求2-4任一所述的方法,其中,在所述基于所述第一融合特征、所述图像的图像特征和所述图像的第二空间位置编码进行特征采样处理,得到所述图像的多个表观特征采样值和多个位置特征采样值之前,还包括:
8.一种对图像中的目标物进行识别的装置,包括:
9.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-7任一所述的方法。
10.一种电子设备,所述电子设备包括: