1.本发明涉及计算机视觉和对象交互技术领域,尤其是涉及一种对象间关系的识别方法、装置和电子系统。
背景技术:2.近年来,随着深度学习和计算机硬件技术的飞速发展,目标检测和识别技术在准确度和运算速度两个维度都取得了突破性进展。然而用户对目标检测和识别技术有了更高的需求,除了需要感知到环境中的目标位置及其类别,还需要搞清楚目标之间的关系,而研究人与环境中物体的关系,变得更具有现实意义。
3.hoi(human
‑
object interactions,人
‑
物交互关系,也可简称为人物关系)技术是一种基于视觉图像来研究人与物体之间关系(简称人
‑
物关系)的技术,用来研究人与环境中物体的关系,近来颇受关注。
技术实现要素:4.有鉴于此,本发明的目的在于提供一种对象间关系的识别方法、装置和电子系统,以在保证模型精度的基础上提升模型的处理效率。
5.第一方面,本发明实施例提供了一种对象间关系的识别方法,所述方法应用于电子设备,所述方法包括:对待处理图像进行特征提取处理,得到所述待处理图像对应的基础特征向量;基于注意力模块对所述基础特征向量进行处理,确定所述待处理图像中对象之间的关联关系,得到关系特征向量;基于所述关系特征向量进行分类,得到至少一个分类结果集合,所述分类结果集合包括所述待处理图像中对象之间的关系类别。
6.结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,对待处理图像进行特征提取处理,得到所述待处理图像对应的基础特征向量的步骤,包括:对待处理图像进行特征提取,得到初始特征图;对所述初始特征图进行降维处理,得到降维特征图;将所述降维特征图进行变换,得到所述待处理图像对应的基础特征向量。
7.结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述电子设备预存有对象间关系模型,所述对象间关系模型包括注意力网络;所述注意力网络包括编码器和解码器;所述编码器和所述解码器均包括注意力模块;所述基于注意力模块对所述基础特征向量进行处理,确定所述待处理图像中对象之间的关联关系,得到关系特征向量的步骤,包括:根据所述基础特征向量确定所述编码器的位置编码信息和所述解码器的位置解码信息;将所述位置编码信息和所述基础特征向量输入所述编码器进行编码处理,得到所述待处理图像对应的全局特征向量;将所述全局特征向量、所述位置编码信息和所述位置解码信息输入所述解码器进行解码处理,得到所述待处理图像对应的关系特征向量。
8.结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所述编码器包括多个所述注意力模块,所述注意力模块为自注意力
网络层;所述编码器进行编码处理包括:对所述位置编码信息和所述基础特征向量进行求和计算,得到第一中间特征向量;通过多个所述注意力模块对所述位置编码信息和所述基础特征向量进行处理,确定所述待处理图像对应的关系权重系数;根据所述关系权重系数对所述第一中间特征向量进行加权,得到所述全局特征向量。
9.结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所述解码器包括第一注意力模块和多个第二注意力模块,所述第一注意力模块为自注意力网络层,所述第二注意力模块为交叉注意力网络层;所述解码器进行解码处理包括:通过所述第一注意力模块对所述位置解码信息进行处理,确定所述位置解码信息对应的各个空间位置间对应的第二中间特征向量;通过多个所述第二注意力模块对第二中间特征向量、所述位置编码信息和所述全局特征向量进行处理,得到所述关系特征向量。
10.结合第一方面,本发明实施例提供了第一方面的第五种可能的实施方式,其中,所述电子设备预存有分类与回归网络,基于所述关系特征向量进行分类,得到至少一个分类结果集合的步骤包括:将所述关系特征向量输入所述分类与回归网络进行检测处理,得到至少一个分类结果集合,所述分类结果集合包括:第一对象的类别、第一对象的位置、第二对象的类别、第二对象的位置和所述第一对象与所述第二对象的关系类别,其中,所述待处理图像包括第一对象和第二对象。
11.结合第一方面的任一上述实施例方式,本发明实施例提供了第一方面的第六种可能的实施方式,其中,所述方法还包括:对初始关系模型进行训练,得到训练后的所述对象间关系模型;该训练过程包括:将图像样本输入所述初始关系模型,得到所述图像样本对应的多个预测信息;其中,所述图像样本有多个标注信息,所述标注信息包括所述图像样本中对象间的关系标注类别,所述预测信息包括所述图像样本中对象间的关系预测类别;将所述标注信息和所述预测信息进行匹配,基于匹配结果确定训练的总损失值,并根据所述总损失值对所述初始关系模型的参数进行更新,直至满足训练结束条件时,停止训练,将训练结束时的所述初始关系模型确定为所述对象间关系模型。
12.结合第一方面的第六种可能的实施方式,本发明实施例提供了第一方面的第七种可能的实施方式,其中,所述多个标注信息包括:第一对象的标注类别、第一对象的标注位置、第二对象的标注类别、第二对象的标注位置以及第一对象与所述第二对象的关系标注类别;所述预测信息包括:第一对象的预测类别、第一对象的预测位置、第二对象的预测类别、第二对象的预测位置,以及所述第一对象与所述第二对象的关系预测类别;所述将所述标注信息和所述预测信息进行匹配,基于匹配结果确定训练的总损失值的步骤,包括:根据所述预测信息和所述标注信息,得到多个候选匹配组合,其中每个所述候选匹配组合均包括多个匹配对,每个匹配对包括所述标注信息中的任一项和所述预测信息中的任一项;根据每个候选匹配组合的匹配代价(也可称为匹配代价值),从所述多个候选匹配组合中确定最终匹配组合;根据所述最终匹配组合计算所述总损失值。
13.结合第一方面的第七种可能的实施方式,本发明实施例提供了第一方面的第八种可能的实施方式,其中,根据每个候选匹配组合的匹配代价,从所述多个候选匹配组合中确定最终匹配组合的步骤,包括:根据预测信息与所述标注信息的对应关系,通过预设的第一代价函数计算每个候选匹配组合的第一总分类损失值和第一总位置损失值,并根据所述第
一总分类损失值和所述第一总位置损失值确定每个候选匹配组合的匹配代价值;将所述多个候选匹配组合中匹配代价最小的候选匹配组合确定为所述最终匹配组合。
14.结合第一方面的第七种或第八种可能的实施方式,本发明实施例提供了第一方面的第九种可能的实施方式,其中,所述根据所述最终匹配组合计算所述总损失值的步骤,包括:对于所述最终匹配组合中的每个匹配对,均基于预设的第二代价函数和该匹配对对应的标注信息和预测信息,计算所述第二总分类损失值和第二总位置损失值;根据所述第二总分类损失值和所述第二总位置损失值确定所述总损失值。
15.第二方面,本发明实施例还提供了一种对象间关系的识别装置,所述装置应用于电子设备,所述装置包括:基础特征获取模块,用于对待处理图像进行特征提取处理,得到所述待处理图像对应的基础特征向量;关系特征获取模块,用于基于注意力模块对所述基础特征向量进行处理,确定所述待处理图像中对象之间的关联关系,得到关系特征向量;关系分类模块,用于基于所述关系特征向量进行分类,得到至少一个分类结果集合,所述分类结果集合包括所述待处理图像中对象之间的关系类别。
16.第三方面,本发明实施例提供了一种电子系统,所述电子系统包括:图像采集设备、处理设备和存储装置;所述图像采集设备,用于获取待处理图像;所述存储装置上存储有计算机程序,所述计算机程序在被所述处理设备运行时执行如前述实施例中任一项所述的对象间关系的识别方法。
17.第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理设备运行时执行如前述实施例中任一项所述的对象间关系的识别方法的步骤。
18.本发明实施例带来了以下有益效果:
19.本发明实施例提供了一种对象间关系的识别方法、装置和电子系统,通过对待处理图像进行特征提取处理,得到该待处理图像对应的基础特征向量,基于注意力模块对该基础特征向量进行处理,确定该待处理图像中对象之间的关联关系,得到关系特征向量,基于该关系特征向量进行分类,得到待处理图像中对象之间的关系类别。上述识别方式中,通过引入注意力模块得到待处理图像中对象之间的关系特征向量,进而基于该关系特征向量直接识别出待处理图像中对象之间的关系类别,在保证了识别关系类别准确度的基础上,提升了识别效率。
20.本公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。
21.为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
22.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
23.图1为本发明实施例一提供的一种电子系统的结构示意图;
24.图2为本发明实施例二提供的一种对象间关系的识别方法的流程示意图;
25.图3为本发明实施例二提供的对象间关系模型的结构示意图;
26.图4为本发明实施例二提供的一种对象间关系的识别方法的流程示意图;
27.图5为本发明实施例三提供的一种对象间关系模型的训练方法的流程示意图;
28.图6为本发明实施例四提供的一种对象间关系模型的示意图;
29.图7为本发明实施例四提供的一种对象间关系模型的训练方法的流程示意图;
30.图8为本发明实施例四提供的1对1匹配策略的一种情形的示意图;
31.图9为本发明实施例四提供的1对1匹配策略的另一种情形的示意图;
32.图10为本发明实施例五提供的一种对象间关系的识别装置的结构示意图;
33.图11为本发明实施例六提供的另一种对象间关系的识别装置的结构示意图。
具体实施方式
34.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
35.相关技术中,可以通过两阶段(two
‑
stage)方法或一阶段(one
‑
stage)方法,确定人物关系hoi。
36.在two
‑
stage方法中,先使用一个预先训练好的目标检测网络检测图片中人和物体的位置和类别,得到多个<人,物体>对;再通过一个关系识别网络去识别每个<人,物体>对中的动作关系类别。这类方法,由于目标检测网络和关系识别网络是两个相互独立且串行执行的网络,因此效率不高,不易在实际应用中部署。
37.在one
‑
stage方法中,在目标检测网络的基础上,增加一个分支,用来检测交互关系点或者交互关系框,其本质依然是执行两个任务(即目标检测和关系识别),仅仅是将目标检测和关系识别并行处理,提升处理效率的同时降低了一定的精度。另外,目标检测分支和关系识别分支的输出结果通常需要由npu(neural
‑
network processor units,神经网络处理单元)拷贝至cpu(center processing units,中央处理单元)上进行后处理,而目标检测分支和关系识别分支的输出结果包含了大量的检测框,这些检测框需要在cpu侧基于阈值确定出最终的预测框,且上述输出结果中的特征图具有较高的维度,也进一步加重了数据的拷贝开销,影响了整个系统的性能。
38.为了在保证模型精度基础上,提升模型处理效率,本发明实施例提供的一种对象间关系的识别方法、装置以及电子系统,该技术在保证模型精度的基础上,主要通过降低模型的数据处理量,提升模型处理效率。
39.为便于对本实施例进行理解,首先对本发明实施例所公开的一种对象间关系的识别方法进行详细介绍。
40.实施例一
41.首先,参照图1所示的电子系统100的结构示意图。该电子系统可以用于实现本发明实施例的对象间关系的识别方法和装置。
42.如图1所示的一种电子系统的结构示意图,电子系统100包括一个或多个处理设备
102、一个或多个存储装置104、输入装置106、输出装置108以及一个或多个图像采集设备110,这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意,图1所示的电子系统100的组件和结构只是示例性的,而非限制性的,根据需要,电子系统也可以具有其他组件和结构。
43.处理设备102可以为服务器、智能终端,或者是包含中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元的设备,可以对电子系统100中的其它组件的数据进行处理,还可以控制电子系统100中的其它组件以执行对象间关系的识别的功能。
44.存储装置104可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理设备102可以运行程序指令,以实现下文的本发明实施例中(由处理设备实现)的客户端功能以及/或者其它期望的功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据,例如应用程序使用和/或产生的各种数据等。
45.输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。
46.输出装置108可以向外部(例如,用户)输出各种信息(例如,图像或声音),并且可以包括显示器、扬声器等中的一个或多个。
47.图像采集设备110可以获取待处理图像,并且将该图像存储在存储装置104中以供其它组件使用。
48.示例性地,用于实现根据本发明实施例的对象间关系的识别方法、装置和电子系统中的各器件可以集成设置,也可以分散设置,诸如将处理设备102、存储装置104、输入装置106和输出装置108集成设置于一体,而将图像采集设备110设置于可以采集到图像的指定位置。当上述电子系统中的各器件集成设置时,该电子系统可以被实现为诸如相机、智能手机、平板电脑、计算机、车载终端等智能终端。
49.实施例二
50.参见图2,本发明实施例提供了一种对象间关系的识别方法,该方法应用于电子设备,如带有图1所示电子系统的电子设备。该方法主要包括以下步骤:
51.步骤s202,对待处理图像进行特征提取处理,得到待处理图像对应的基础特征向量。
52.上述待处理图像可以是上述图像采集设备110获取到的图像,也可以是第三方提供的图像。提供对待处理图像进行特征提取处理,可以得到基础特征向量,该基础特征向量可以理解为包含该待处理图像的高层语义信息的特征向量,这里的特征提取处理可以应用卷积神经网络进行处理,总之可以得到待处理图像的高层语义信息方面的特征即可,对此本发明实施例不进行限定。
53.步骤s204,基于注意力模块对上述基础特征向量进行处理,确定待处理图像中对象之间的关联关系,得到关系特征向量。
54.上述注意力模块可以采用带有注意力机制的网络模型,通过注意力模块可以得到
待处理图像中对象之间的关联关系,本发明实施例中的对象可以是同类型的对象和/或不同类型的对象。例如该对象的类型可以是人,该对象的类型也可以物,或者该对象的类型既包括人,也包括物。而物类型的对象也可以根据物的具体类型进一步细分,例如分为车辆类型、穿戴物类型或者便携物等,人类型的对象也可以进一步细分,例如分为男人和女人、成人或儿童、健康人和残障人等等。具体应用中,可以根据实际应用场景对对象的类型进行设定。
55.上述关联关系用于表征两对象间的关系,该关系可以是直接接触交互类型方面的关系,如:踢、打等;也可以是间接交互类型方面的关系,如朝向、前进方向等等。基于此,上述关系特征向量用于表征带有上述对象间关系的特征向量。
56.步骤s206,基于上述关系特征向量进行分类,得到至少一个分类结果集合,该分类结果集合包括待处理图像中对象之间的关系类别。
57.上述分类结果集合可以包括多个对象对应的分类结果,具体地,分类结果集合包括第一对象与第二对象间的关系类别,第三对象和第四对象间的关系类别,也可以包括第一对象和第三对象间的关系类别等。例如,以对象类型为人和物为例,上述分类结果集合可以包括a人和a球拍间的关系类别,b人和b球拍间的关系类别等。
58.上述对象间关系的识别方法,通过对待处理图像进行特征提取处理,得到该待处理图像对应的基础特征向量,基于注意力模块对该基础特征向量进行处理,确定该待处理图像中对象之间的关联关系,得到关系特征向量,基于该关系特征向量进行分类,得到待处理图像中对象之间的关系类别。上述识别方式中,通过引入注意力模块得到待处理图像中对象之间的关系特征向量,进而基于该关系特征向量直接识别出待处理图像中对象之间的关系类别,在保证了识别关系类别准确度的基础上,提升了识别效率。
59.为了提升上述识别效果,减少冗余数据的处理量,上述对待处理图像进行特征提取处理,得到待处理图像对应的基础特征向量的步骤,包括:对待处理图像进行特征提取,得到初始特征图;对初始特征图进行降维处理,得到降维特征图;将降维特征图进行变换,得到待处理图像对应的基础特征向量。其中,上述降维处理可以基于经验确定降维特征图中的维度,也可以通过模型训练确定。上述降维特征图的变换可以是对降维特征图的空间维度进行变换,将二维的空间维度拉伸为一维的向量形式,参见表1所示的基础特征向量的一种表示形式。其中,列代表空间位置标记,行代表特征维度标记,表1相当于一个二维矩阵,表1中的每个元素代表对应的空间位置在该特征维度上的高层语义特征信息。
60.表1
61.c/tt1t2t3t4t5c1m11m12m13m14m15c2m21m22m23m24m25c3m31m32m33m34m35
62.为了进一步提升上述识别方法的效率和简化识别过程,上述电子设备预存有对象间关系模型,上述对象间关系模型包括注意力网络,该注意力网络包括编码器和解码器;本实施例的编码器和解码器均包括注意力模块;相应地,上述基于注意力模块对所述基础特征向量进行处理,确定待处理图像中对象之间的关联关系,得到关系特征向量的步骤,包括:(1)根据基础特征向量确定编码器的位置编码信息和解码器的位置解码信息;(2)将位
置编码信息和基础特征向量输入编码器进行编码处理,得到待处理图像对应的全局特征向量;(3)将全局特征向量、位置编码信息和位置解码信息输入解码器进行解码处理,得到待处理图像对应的关系特征向量。
63.上述编码器包括多个注意力模块,该注意力模块为自注意力网络层;基于此,上述编码器进行编码处理包括:对位置编码信息和基础特征向量进行求和计算,得到第一中间特征向量;通过多个注意力模块对位置编码信息和基础特征向量进行处理,确定待处理图像对应的关系权重系数;根据关系权重系数对上述第一中间特征向量进行加权,得到全局特征向量。
64.上述解码器包括第一注意力模块和多个第二注意力模块,第一注意力模块为自注意力网络层,第二注意力模块为交叉注意力网络层;基于此,上述解码器进行解码处理包括:通过第一注意力模块对位置解码信息进行处理,确定位置解码信息对应的各个空间位置间对应的第二中间特征向量;通过多个第二注意力模块对第二中间特征向量、位置编码信息和上述全局特征向量进行处理,得到上述关系特征向量。
65.为了简化上述图像分类过程,上述电子设备还预存有分类与回归网络,该分类与回归网络可以是上述对象间关系模型的一部分,与上述注意力网络连接。基于此,上述基于关系特征向量进行分类,得到至少一个分类结果集合的步骤包括:将上述关系特征向量输入分类与回归网络进行检测处理,得到至少一个分类结果集合,该分类结果集合包括:第一对象的类别、第一对象的位置、第二对象的类别、第二对象的位置和所述第一对象与所述第二对象的关系类别,其中,所述待处理图像包括第一对象和第二对象。
66.参见图3所示的一种对象间关系模型的示意图,该对象间关系模型包括骨干网络、与骨干网络连接的注意力网络以及与注意力网络连接的分类与回归网络(例如mlp(muti
‑
layer perception,多层感知机)网络),骨干网络的结构可以为resnet、vgg、xception等,具体可根据实际需要自行选择,注意力网络可以包括自注意力层(self
‑
attentionlayer)、前馈神经网络(feedforwardneuralnetwork,fnn)层或交叉注意力层(cross
‑
attentionlayer,各网络层的个数和连接关系可以根据模型需要搭建,分类与回归网络可以包括用于分类的分类网络和用于位置定位的回归网络。
67.为了避免npu拷贝大量的数据至cpu,本实施例的分类与回归网络直接输出至少一个分类结果集合,该分类结果集合包括待处理图像中对象之间的关系类别,该分类结果集合可以包含五元组信息,该五元组信息可以包括第一对象的类别、第一对象的位置、第二对象的类别、第二对象的位置和所述第一对象与所述第二对象的关系类别。其中,上述对象(包括第一对象和第二对象)的类别以及对象间的关系类别均可以用各个类别对应的置信度表示,其中,置信度最大的类别为该对象或对象间关系的类别。以第一对象为人,第二对象为物为例,上述五元组信息可以具体包括:人对象的置信度、人对象的位置、物体对象对应于各个物体类别的置信度、物体对象的位置以及人对象与物体对象对应于各个交互关系的置信度。
68.在上述对象间关系模型已经预先训练好的基础上,参见图4,本发明实施例提供了一种对象间关系的识别方法,该方法可以应用于上述电子系统,该方法主要包括以下步骤:
69.步骤s402,将待处理图像输入骨干网络进行特征提取处理,得到待处理图像对应的基础特征向量;其中,基础特征向量的特征维度包含所述待处理图像对应的高层语义信
息,且所述基础特征向量的空间维度为一维。
70.将待处理图像输入骨干网络进行特征提取,经骨干网络中的网络层处理先得到高维特征向量,该高维特征向量会以高维特征图的形式表示,每个特征图中均包含了待识别的目标对象对应的高层语义方面的特征信息。
71.考虑到本实施例的注意力网络的输入数据通常为二维数据,本发明实施例将上述高维特征向量在空间维度上进行展开,变成一维的空间维度。
72.步骤s404,将基础特征向量输入注意力网络进行特征转换处理,得到待处理图像对应的关系特征向量。其中,该关系特征向量包含有待处理图像中对象间关系方面的特征信息,例如人和物的交互关系信息,具体可以包含人对象的特征信息和位置信息,物对象的特征信息和位置信息,以及人对象和物对象间的关系特征等。
73.本发明实施例中的人对象通常指人体中的一个或多个部位,这些部位通常与物对象直接或间接接触。物对象通常可以根据应用场景预先设定物品库,物品库中的每个物品可以视为一个物对象。
74.步骤s406,将关系特征向量输入分类与回归网络进行检测处理,得到至少一个分类结果集合,该分类结果集合包括:第一对象的类别、第一对象的位置、第二对象的类别、第二对象的位置和所述第一对象与所述第二对象的关系类别,其中,该待处理图像包括第一对象和第二对象。
75.上述分类与回归网络包括分类网络和回归网络,其中,分类网络包含第一指定个数的全连接层;回归网络包含第二指定个数的全连接层。
76.回归网络用于确定关系特征向量中目标对象(人或物)的位置信息,该位置信息包括人对象的位置、物体对象的位置。这些位置可以用预测框的位置坐标表示,以预测框为矩形框为例,该位置坐标通常可以用矩形框的中心点坐标和矩形框的宽以及高表示,或者,用矩形框的左上角和右下角的坐标来表示。
77.分类网络用于确定关系特征向量的分类信息,该分类信息包括人对象的置信度、物体对象对应于各个物体类别的置信度(如自行车对应的置信度、狗对应的置信度等)以及人对象与物体对象对应于各个交互关系的置信度(如人骑自行车的置信度、人修自行车的置信度、人遛狗的置信度、人给狗喂食的置信度等)。
78.上述对象间关系的识别方法中,通过骨干网络获取待处理图像对应的基础特征向量;通过注意力网络对基础特征向量进行特征转换处理,得到待处理图像对应的关系特征向量;通过分类网络对关系特征向量进行检测处理,得到至少一个上述分类结果集合。通过这种方式,模型能够直接输出所要关注的目标对象之间的关系,而无需先检测后识别关系的繁琐过程,在保障识别精度的基础上,大大降低了模型的数据处理量,且提高了对象间关系的识别效率,使模型的普适性得到了加强。
79.上述对象间关系的识别方法,可以直接在npu上进行,而得到的分类结果集合可以传输给cpu,通过cpu将分类结果集合显示在显示设备上。这种方式下,npu只需要向cpu传输分类结果集合,而分类结果集合的数量相对于目标检测网络输出的目标检测框以及关系识别网络识别出的交互关系点或者交互关系框的数据量,要小很多,因此本实施例得到分类结果集合对npu与cpu间数据拷贝的负荷较小,保证了关系识别场景下的系统性能。
80.本发明实施例为了减少后续模型的计算复杂度和数据占用的存储空间,进而提升
模型的处理效率,骨干网络中的网络层可以对上述高维特征向量进行特征维度的降维处理。这里的降维处理具体可通过控制骨干网络中的隐层节点数目实现,使隐层节点的数目与降维到指定维度的数目相等,具体降维后的特征维度的多少可以根据对象间关系模型的训练确定。基于此,上述步骤s402可以包括:(1)将待处理图像输入骨干网络进行特征提取,得到高维特征向量;(2)对高维特征向量进行特征维度的降维处理,得到待处理图像对应的降维特征向量;(3)将降维特征向量在空间维度上展开成一维向量,得到待处理图像对应的基础特征向量。
81.本发明实施例中的注意力网络可以包括编码器和解码器。基于此,上述步骤s404可以包括以下步骤:
82.(1)根据基础特征向量确定编码器的位置编码信息(position encoding)和解码器的位置解码信息(query);
83.继续接续前例,仍以基础特征向量为表1所示的形式,则位置编码信息可以表示为表2所示形式。
84.表2
85.c/tt1t2t3t4t5c1n11n12n13n14n15c2n21n22n23n24n25c3n31n32n33n34n35
86.其中,偶数列:n
(t,2i)
=sin(t/10000
2i/3
),奇数列:n
(t,2i+1)
=cos(t/10000
2i/3
),c表示元素n对应的行标号,公式里用2i表示,t表示元素n对应的列标号。
87.与位置编码信息类似,位置解码信息也可以采用表2的方式确定,或者将上述偶数列与奇数列的公式对调确定位置解码信息。当然,位置解码信息也可以基于其它方式确定,只要位置解码信息中各个位置对应的向量不同即可。
88.(2)将位置编码信息和步骤s402中得到的基础特征向量输入编码器进行编码处理,得到待处理图像对应的全局特征向量。其中,该全局特征向量包含有待处理图像中空间位置有关系的特征。
89.以编码器包括多个自注意力网络层(self
‑
attentionlayer)为例,上述编码器进行编码处理可以包括:(21)对位置编码信息和基础特征向量进行求和计算,得到第一中间特征向量;(22)通过多个自注意力网络层对位置编码信息和基础特征向量进行自注意力机制处理,确定所述待处理图像对应的关系权重系数;(23)根据得到的关系权重系数对第一中间特征向量进行加权,得到待处理图像对应的全局特征向量。
90.在进行编码处理的过程中,通过自注意力机制可以从基础特征向量中学习到哪些空间位置之间存在关系,以及该关系的紧密程度,进而确定出对应的关系权重系数,基于该关系权重系数得到的全局特征向量含有空间位置间的关系信息。
91.(3)将全局特征向量、位置编码信息和位置解码信息输入解码器进行解码处理,得到待处理图像对应的关系特征向量。
92.以解码器包括自注意力网络层和多个交叉注意力网络层(cross
‑
attentionlayer)为例,上述解码器进行解码处理可以包括:通过自注意力网络层对位置解码信息(query向量)进行自注意力机制处理,确定位置解码信息对应的各个空间位置间对
应的第二中间特征向量;通过多个交叉注意力网络层对上述位置解码信息对应的第二中间特征向量、位置编码信息和全局特征向量进行交叉注意力机制处理,确定待处理图像对应的关系特征向量。
93.在进行解码处理的过程中,通过自注意力机制和交叉注意力机制可以确定出空间位置之间有哪些关系是识别过程比较关注的关系,进而确定出这些关系的第二中间特征向量,使得基于该第二中间特征向量确定出的关系特征向量能够含有带有这些关系的空间位置间相关信息。
94.作为一种可能的实施例方式,上述编码器和解码器的结构为:编码器和解码器均由多个网络块依次连接堆叠而成,网络块的个数可根据需要确定。编码器中的每个网络块包括依次连接的一个自注意力层(self
‑
attentionlayer)和一个fnn层。解码器中的每个网络块包括依次连接的一个自注意力层、交叉注意力层(cross
‑
attentionlayer)和一个fnn层。
95.基于编码器和解码器的上述结构,编码器输出的全局特征向量以及解码器输出的关系特征向量均是经过self
‑
attention层加工过的特征向量,因此全局特征向量和关系特征向量仅包括了用户所要关注的待识别目标的特征信息,排除了其他信息的干扰,利于后续准确高效地确定对象间的关系,得到比较全面且可靠的分类结果集合。
96.实施例三
97.在上述实施例二的基础上,参见图5,本发明实施例提供了一种对象间关系模型的训练方法,在上述方法还包括对初始关系模型进行训练,得到训练后的对象间关系模型,该训练方法主要包括以下步骤:
98.步骤s502,将图像样本输入初始关系模型,得到该图像样本对应的多个预测信息;其中,该图像样本有多个标注信息,该标注信息包括图像样本中的对象间的关系标注类别,该预测信息包括图像样本中对象间的关系预测类别。
99.上述标注信息也可以称为关系标注实例。具体地,上述多个标注信息可以包括:第一对象的标注类别、第一对象的标注位置、第二对象的标注类别、第二对象的标注位置以及第一对象与第二对象的关系标注类别。以人物关系识别的场景为例,图像样本集中的图像样本可以标注有至少一个标注信息,该标注信息包括:第一人对象的类别(例如标识为1,表明该实例的标注真值框对应的是人对象,标识为0,则说明该实例中的标注真值框对应的不是人)、第一人对象的位置、第一物体对象的类别、第一物体对象的位置,以及第一人对象与第一物体对象的关系标注类别。
100.具体地,上述图像样本可以是从图像采集设备接收到的视频中提取的图像,也可以是从网络或第三方得到的图像。在初始关系模型的训练阶段开始前,可以预先对图像样本进行标注,本实施例的标注信息主要包括图像样本中的对象间的关系标注类别。以hoi识别为例,该标注信可以包括:每一个图像样本包含的人对象的真值框、物体对象的真值框、物体对象的类别以及人对象与物体对象的关系标注类别,而人对象的类别可以均设置为1。其中,上述真值框可以用该真值框的位置坐标表示。
101.将多个标注信息的图像样本组成图像样本集,组成图像样本集中的图像样本的个数可以根据需要预先设定,本发明实施例对此不进行限定,每轮模型训练过程,可以从图像样本集中选取一定数量的图像样本参与模型训练,下一轮训练再重新选取图像样本进行训
练。对于每一个参与模型训练的图像样本,均执行下述步骤s504。
102.步骤s504,将标注信息和预测信息进行匹配,基于匹配结果确定训练的总损失值,并根据该总损失值对初始关系模型的参数进行更新,直至满足训练结束条件时,停止训练,将训练结束时的初始关系模型确定为对象间关系模型。
103.上述预测信息具体可以包括:第一对象的预测类别、第一对象的预测位置、第二对象的预测类别、第二对象的预测位置,以及第一对象与第二对象的关系预测类别;相应地,将标注信息和预测信息进行匹配,基于匹配结果确定训练的总损失值的步骤,包括:(1)根据预测信息和标注信息,得到多个候选匹配组合,其中每个候选匹配组合均包括多个匹配对,每个匹配对包括标注信息中的任一项和预测信息中的任一项;具体地,可以将各个预测信息与各个标注信息进行一对一配对,得到多个候选匹配组合;其中,每个候选匹配组合中的预测信息与标注信息为一对一的对应关系;(2)根据每个候选匹配组合的匹配代价,从多个候选匹配组合中确定最终匹配组合;(3)根据最终匹配组合计算总损失值。
104.上述根据每个候选匹配组合的匹配代价,从多个候选匹配组合中确定最终匹配组合,可以将匹配代价最小的候选匹配组合确定为最终匹配组合;
105.上述匹配代价可以通过以下步骤计算:根据预测信息与标注信息的对应关系,通过预设的第一代价函数计算每个候选匹配组合的第一总分类损失值和第一总位置损失值,并根据第一总分类损失值和第一总位置损失值确定每个候选匹配组合的匹配代价。
106.相应地,根据最终匹配组合计算总损失值的步骤,包括:对于最终匹配组合中的每个匹配对,均基于预设的第二代价函数和该匹配对对应的标注信息和预测信息,计算第二总分类损失值和第二总位置损失值;根据第二总分类损失值和第二总位置损失值确定上述总损失值。
107.以初始关系模型的结构如上述图3所示结构且关系识别为hoi识别为例,上述训练过程可以具体包括如下步骤:
108.(1)将图像样本输入骨干网络,得到图像样本对应的基础特征训练向量。
109.这里的图像样本标注的标注信息包括:第一人对象的类别、第一人对象的位置、第一物体对象的类别、第一物体对象的位置,以及第一人对象与第一物体对象的关系标注类别;
110.本实施例的基础特征训练向量也是低维度的特征向量,基础特征训练向量的降维过程与上述实施例中基础特征向量的降维过程类似,在此不再赘述。
111.(2)将基础特征训练向量输入注意力网络,得到图像样本对应的关系特征训练向量。
112.关系特征训练向量的获得方式与上述关系特征向量的获得方式类似,在此不再赘述。
113.(3)将关系特征训练向量输入分类与回归网络,得到图像样本对应的预测信息;其中,该预测信息的个数与上述标注信息的个数相同,且该预测信息包括:第二人对象的预测类别、第二人对象的位置、第二物体对象的预测类别、第二物体对象的位置,以及第二人对象与第二物体对象的关系预测类别。
114.通过分类与回归网络中的回归网络生成第二对象和第二物体对象的预测框并确定每个预测框的位置坐标,通过分类与回归网络中的分类网络确定第二人对象的预测类
别、第二物体的预测类别以及第二人对象与第二物体对象的关系预测类别。而第二物体对象的预测类别可以用第二物体对象对应于各个类别的置信度表示,该置信度可以表明该第二物体对象最可能属于哪类物体,比如,将置信度最大值对应的类别作为该第二物体对象的预测类别。同理,第二人对象与第二物体对象的关系预测类别也可以用对应于各个关系的置信度表示,该关系的置信度也可以表明该第二人对象与第二物体对象之间最可能的关系类别,例如:将置信度最大的关系类别作为第二人对象与第二物体对象的关系预测类别。
115.(4)将各个预测信息与各个标注信息进行一对一配对,得到多个候选匹配组合;其中,每个候选匹配组合均包括多个匹配对,每个匹配对包括上述标注信息中的任一项和所述预测信息中的任一项;
116.根据预测信息例与标注信息的个数不同,得到的候选匹配组合的个数也将不同,以预测信息与标注信息的个数均为3举例,假设预测信息用a,b,c表示,标注信息用x,y,z表示,则预测信息与标注信息一对一组合,则有六个候选匹配组合,分别为组合1:ax,by,cz;组合2:ay,bx,cz;组合3:az,by,cx;组合4:ax,bz,cy;组合5:ay,bz,cx;组合6:az,bx,cy。
117.(5)对于每个候选匹配组合,均根据该候选匹配组合中的预测信息与标注信息的对应关系,计算该候选匹配组合的匹配代价值;具体操作步骤可以如下:
118.(51)根据该候选匹配组合中的预测信息与所述标注信息的对应关系,计算该候选匹配组合的总分类损失值和总位置损失值;
119.(52)根据总分类损失值和总位置损失值确定该候选匹配组合的匹配代价值;其中,总分类损失值包括:人对象分类损失值、物对象分类损失值和交互关系类型分类损失值;所述总位置损失值包括人对象位置损失值和物对象位置损失值。
120.每个匹配对对应的匹配代价值可采用以下公式计算:
[0121][0122]
其中,在该公式中,l
match
表示匹配代价值,h表示人对象,o表示为物体对象、r表示交互关系,l
cls
表示人对象、物体对象和交互关系的分类损失值,l
box
表示人对象和物体对象的位置损失值。α和β为超参。在计算分类损失值和位置损失值时,可根据实际需要调用合适的损失函数进行计算。在计算匹配代价值时,可根据实际需要设置合适的超参。
[0123]
得到每个匹配对对应的匹配代价值之后,每个候选匹配组合的匹配代价值为该候选匹配组合中的所有上述匹配对对应的匹配代价值的总和。参见下述表3所示的匹配对,即预测信息与标注信息间的对应关系示例:
[0124]
表3
[0125][0126]
[0127]
表3中的各元素值为基于上述公式计算得到的匹配代价值。接续上述例子,预测信息与标注信息一对一的六个匹配对,分别用()中的数值表示各个匹配对对应的匹配代价值,则具体如下:
[0128]
组合1:ax(2),by(3),cz(3),该组合1对应的匹配代价值=2+3+3=8;
[0129]
组合2:ay(0),bx(1),cz(3),该组合2对应的匹配代价值=0+1+3=4;
[0130]
组合3:az(1),by(1),cx(1),该组合3对应的匹配代价值=1+1+1=3;
[0131]
组合4:ax(2),bz(1),cy(4),该组合4对应的匹配代价值=2+1+4=7;
[0132]
组合5:ay(0),bz(1),cx(1),该组合5对应的匹配代价值=0+1+1=2;
[0133]
组合6:az(1),bx(1),cy(4),该组合6对应的匹配代价值=1+1+4=6;
[0134]
(6)将匹配代价值最小的候选匹配组合确定为最终匹配组合;其中,该候选匹配组合中具有对应关系的预测信息与标注信息为匹配对;
[0135]
以上述表3为例,则组合5对应的匹配代价值最小,该组合为最终匹配组合,具体的ay,bz,cx为匹配对。
[0136]
(7)基于最终匹配组合计算训练的总损失值,并根据总损失值调整对初始关系模型的参数进行更新,继续训练,直至满足训练结束条件时(例如:直至总损失值收敛至预设值或训练次数达到预设次数),停止训练,将训练结束时的初始关系模型确定为所述对象间关系模型。
[0137]
基于最终匹配组合计算训练的总损失值,该总损失值包括总分类损失值和总位置损失值;其中,总分类损失值包括:人对象分类损失值、物对象分类损失值和交互关系类型分类损失值;所述总位置损失值包括人对象位置损失值和物对象位置损失值。根据总分类损失值和总位置损失值确定该最终匹配组合的总损失值。
[0138]
本实施例可以将最终匹配组合中各对匹配对对应的总损失值之和,作为最终匹配组合对应的训练总损失值。
[0139]
在计算上述最终匹配组合的总损失值时,所采用的计算公式在形式上可以与上述匹配代价值的计算公式相同,但超参α和β的取值可以与匹配代价函数中的不同,为了描述简洁,在此不再赘述。
[0140]
上述对象间关系模型的训练方法中,通过骨干网络获取图像样本对应的基础特征训练向量,将基础特征训练向量输入注意力网络,得到图像样本对应的关系特征训练向量;将关系特征训练向量输入分类与回归网络,得到图像样本对应的预测信息;对于每个预测信息与各个标注信息组合得到的候选匹配组合,均计算该候选匹配组合的匹配代价值,将匹配代价值最小的候选匹配组合作为最终匹配组合;基于最终匹配组合计算训练的总损失值,并根据总损失值调整初始关系模型的参数继续训练,直至训练结束,得到训练完成的对象间关系模型。通过这种方式,利用注意力网络的注意力机制能够得到关系特征向量,通过上述一对一的预测信息与标注信息的匹配方式,可以确定出全局最优的组合方式,进而提升了预测信息与标注信息的匹配准确度,保证了模型的训练准确度和效率。
[0141]
实施例四
[0142]
在上述实施例二的基础上,本实施例提供了一种对象间关系模型的训练方法,该对象间关系模型的具体结构可参见图6。以对象间关系模型中的骨干网络为resnet50模型为例,对该对象间关系模型的训练方法进行具体描述,其中,注意力网络包括编码器和解码
器。参见图7所示的一种检测模型的训练方法的流程示意图,该方法主要包括以下步骤:
[0143]
步骤s702,为训练图像样本人工标注多个标注信息。
[0144]
标注信息的标注方式与上述步骤s502中图像样本的标注方式相同,在此不再赘述。这样就得到了标注有标注信息的训练图像样本。
[0145]
步骤s704,通过resnet50模型获取训练图像样本的特征图。
[0146]
具体地,在用resnet50模型提取特征图时,需要对resnet50模型输出的高维特征图进行降维,然后在空间维度上,将二维拉伸成一维,以便于后续注意力网络的处理。例如,输入图像样本的原始图像尺寸为(h,w,3),经过resnet50后,得到的特征图的尺寸为(h/32,w/32,2048),降维后得到(h/32,w/32,256),拉伸成一维后得到(h/32
×
w/32,256)。
[0147]
对resnet50输出的高维特征图进行降维时,可通过控制隐层节点数目以实现降维,以便模型有针对性地提取所需特征信息。将降维后的特征图拉伸成一维的操作方式具体可采用调用reshape函数进行,也可以使用其他方式,可根据需要自行选择。
[0148]
步骤s706,通过注意力网络获得固定数量的关系特征向量。
[0149]
具体地,注意力网络包括编码器和解码器,编码器由多个自注意力层依次连接而成,解码器由自注意力层和交叉注意力层连接而成,将低维特征图和预先设置好的位置编码信息输入到编码器的第一个自注意力层,对低维特征图进行编码处理,编码器输出样本图像的全局特征向量。将预先设置好的位置解码信息输入到解码器的第一个自注意力层,得到中间关系特征向量;将上述全局特征向量和预先设置好的位置编码信息以及中间关系特征向量输入解码器的交叉注意力网络层,进行解码处理,得到固定数量的关系特征向量。
[0150]
上述位置解码信息具体可以是多个不同的查询向量,该查询向量解码器输出的固定数量的关系特征向量,其数量由查询向量的数量决定。为便于描述,以查询向量有三个为例,在图6中分别用q1、q2、q3来表示,相应地,解码器输出了三个关系特征向量。
[0151]
在本实施例中,骨干网络输出图像样本对应的特征图,例如形状是20x20x256,将其在空间维度展开成一维,形状变成400x256。400x256可以理解为一个400x256的大网格,每个格子的位置是不同的,为了标记这些格子的位置,一种最简单的方式就是从1开始编码,直到102400结束,但这样在实践中并不是最有效。更有效的方式就是位置编码,按照给定的编码公式编码。以上面的例子来说明,编码公式如下:
[0152][0153][0154]
其中,pos的变化范围为0
‑
399,i的变化范围为0
‑
127,d
model
为特征图经特征维度降维后的维度数量,则通过位置编码就可以区分特征图上的不同位置对应的位置编码信息pe。解码位置信息与其类似,这里不再详述。
[0155]
步骤s708,通过分类与回归网络预测出多个预测信息。
[0156]
在分类与回归网络中,分类网络包含1个全连接层,回归网络包含3个全连接层。参见图6,以关系特征向量有三个为例,将解码器输出的三个关系特征向量输入分类与回归网络,分类与回归网络预测出三个预测信息,在图6中分别用预测信息1、预测信息2、预测信息3来表示。
[0157]
参见图6,每一个预测信息均是一个五元组,该五元组包含人分类(即人的置信
loss损失函数的加权和的方式进行计算。在计算匹配代价值时,可根据实际需要设置合适的超参。对于每个上述组合,均将该组合中的<预测信息,标注信息>对的匹配代价值之和作为该组合的匹配代价值,然后使用匈牙利算法求解出各个组合的匹配代价值中的最小值,将匹配代价值最小的<预测信息,标注信息>对的候选匹配组合确定为最优<预测信息,标注信息>对组合,即最终匹配组合。
[0167]
本实施例的1对1匹配策略,考虑到预测信息和标注信息的匹配因素同时包含:(1)预测框与真值框的位置是否接近;(2)人对象预测框与物对象预测框间的交互关系是否与人真值框与物真值框间的交互关系是否一致。因此能够比较准确合理得到一一对应的最优<预测信息,标注信息>对组合。
[0168]
步骤s714,基于上述<预测信息,标注信息>对组合计算对象间关系模型训练的总损失值,并根据总损失值调整初始关系模型的参数继续训练,直至总损失值收敛至预设值或训练次数达到预设次数,得到训练完成的对象间关系模型。
[0169]
在计算上述总损失值时,所采用的计算公式在形式上与上述匹配代价值的计算公式相同,但超参的取值可以与匹配代价函数中的不同,为了描述简洁,在此不再赘述。
[0170]
在上述对象间关系模型的训练方法中,对resnet50模型输出的高维特征图进行降维处理,以及通过注意力网络的注意力机制获得关系特征向量的操作方式,能够减少模型训练过程中的数据计算量,进而提高了模型的训练效率。此外,在建立预测信息与标注信息之间的匹配关系时,同时考虑了预测框与真值框之间相对位置关系以及预测信息中的人
‑
物交互关系类别是否与标注信息对应一致,根据匹配代价值最小原则建立标注信息与预测信息之间的最优匹配关系,且基于最优匹配关系计算对象间关系模型训练的总损失值,进一步提升了模型训练的准确度。
[0171]
实施例五
[0172]
对于实施例二中所提供的对象间关系的识别方法,本发明实施例还提供了一种对象间关系的识别装置,参见图10所示的一种对象间关系的识别装置的结构示意图,该装置包括以下模块:
[0173]
基础特征获取模块1002,用于对待处理图像进行特征提取处理,得到所述待处理图像对应的基础特征向量。
[0174]
关系特征获取模块1004,用于基于注意力模块对所述基础特征向量进行处理,确定所述待处理图像中对象之间的关联关系,得到关系特征向量。
[0175]
关系分类模块1006,用于基于所述关系特征向量进行分类,得到至少一个分类结果集合,所述分类结果集合包括所述待处理图像中对象之间的关系类别。
[0176]
本发明实施例提供的对象间关系的识别装置,通过对待处理图像进行特征提取处理,得到该待处理图像对应的基础特征向量,基于注意力模块对该基础特征向量进行处理,确定该待处理图像中对象之间的关联关系,得到关系特征向量,基于该关系特征向量进行分类,得到待处理图像中对象之间的关系类别。上述识别方式中,通过引入注意力模块得到待处理图像中对象之间的关系特征向量,进而基于该关系特征向量直接识别出待处理图像中对象之间的关系类别,在保证了识别关系类别准确度的基础上,提升了识别效率。
[0177]
基础特征获取模块1002还用于:对待处理图像进行特征提取,得到初始特征图;对所述初始特征图进行降维处理,得到降维特征图;将所述降维特征图进行变换,得到所述待
处理图像对应的基础特征向量。
[0178]
上述装置预存有对象间关系模型,所述对象间关系模型包括注意力网络;所述注意力网络包括编码器和解码器;所述编码器和所述解码器均包括注意力模块;关系特征获取模块1004还用于:根据所述基础特征向量确定所述编码器的位置编码信息和所述解码器的位置解码信息;将所述位置编码信息和所述基础特征向量输入所述编码器进行编码处理,得到所述待处理图像对应的全局特征向量;将所述全局特征向量、所述位置编码信息和所述位置解码信息输入所述解码器进行解码处理,得到所述待处理图像对应的关系特征向量。
[0179]
所述编码器包括多个所述注意力模块,所述注意力模块为自注意力网络层;关系特征获取模块1004还用于:对所述位置编码信息和所述基础特征向量进行求和计算,得到第一中间特征向量;通过多个所述注意力模块对所述位置编码信息和所述基础特征向量进行处理,确定所述待处理图像对应的关系权重系数;根据所述关系权重系数对所述第一中间特征向量进行加权,得到所述全局特征向量。
[0180]
其中,所述解码器包括第一注意力模块和多个第二注意力模块,所述第一注意力模块为自注意力网络层,所述第二注意力模块为交叉注意力网络层;关系特征获取模块1004还用于:通过所述第一注意力模块对所述位置解码信息进行处理,确定所述位置解码信息对应的各个空间位置间对应的第二中间特征向量;通过多个所述第二注意力模块对第二中间特征向量、所述位置编码信息和所述全局特征向量进行处理,得到所述关系特征向量。
[0181]
所述装置预存有分类与回归网络,关系分类模块1006还用于:将所述关系特征向量输入所述分类与回归网络进行检测处理,得到至少一个分类结果集合,所述分类结果集合包括:第一对象的类别、第一对象的位置、第二对象的类别、第二对象的位置和所述第一对象与所述第二对象的关系类别,其中,所述待处理图像包括第一对象和第二对象。
[0182]
上述装置还包括训练模块,用于对初始关系模型进行训练,得到训练后的所述对象间关系模型;该训练过程包括:将所述图像样本输入所述初始关系模型,得到所述图像样本对应的多个预测信息;其中,所述图像样本有多个标注信息,所述标注信息包括所述图像样本中对象间的关系标注类别,所述预测信息包括所述图像样本中对象间的关系预测类别;将所述标注信息和所述预测信息进行匹配,基于匹配结果确定训练的总损失值,并根据所述总损失值对所述初始关系模型的参数进行更新,直至满足训练结束条件时,停止训练,将训练结束时的所述初始关系模型确定为所述对象间关系模型。
[0183]
其中,所述多个标注信息包括:第一对象的标注类别、第一对象的标注位置、第二对象的标注类别、第二对象的标注位置以及第一对象与所述第二对象的关系标注类别;所述预测信息包括:第一对象的预测类别、第一对象的预测位置、第二对象的预测类别、第二对象的预测位置,以及所述第一对象与所述第二对象的关系预测类别;所述训练模块用于:根据所述预测信息和所述标注信息,得到多个候选匹配组合,其中每个候选匹配组合均包括多个匹配对,每个匹配对包括所述标注信息中的任一项和所述预测信息中的任一项;根据每个候选匹配组合的匹配代价,从所述多个候选匹配组合中确定最终匹配组合;根据所述最终匹配组合计算所述总损失值。
[0184]
上述训练模块还用于:根据预测信息与所述标注信息的对应关系,通过预设的第
一代价函数计算每个候选匹配组合的第一总分类损失值和第一总位置损失值,并根据所述第一总分类损失值和所述第一总位置损失值确定每个候选匹配组合的匹配代价;将所述多个候选匹配组合中匹配代价最小的候选匹配组合确定为所述最终匹配组合;所述根据所述最终匹配组合计算所述总损失值的步骤,包括:对于所述最终匹配组合中的每个匹配对,均基于预设的第二代价函数和该匹配对中的标注信息和预测信息,计算所述第二总分类损失值和第二总位置损失值;根据所述第二总分类损失值和所述第二总位置损失值确定所述总损失值。
[0185]
上述对象间关系的识别装置的技术效果与上述方法中的技术效果类似,这里不再赘述。
[0186]
实施例六
[0187]
参见图11的一种对象间关系的识别装置的结构示意图,本发明实施例还提供一种对象间关系的识别装置200,包括:处理器40,存储器41,总线42和通信接口43,处理器40、通信接口43和存储器41通过总线42连接;处理器40用于执行存储器41中存储的可执行模块,例如计算机程序。
[0188]
其中,存储器41可能包含高速随机存取存储器(ram,random access memory),也可能还包括非易失存储器(nvm,non
‑
volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口43(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
[0189]
总线42可以是isa总线、pci总线或eisa总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图11中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
[0190]
其中,存储器41用于存储程序,处理器40在接收到执行指令后,执行程序,前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器40中,或者由处理器40实现。
[0191]
处理器40可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器40中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器40可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(digital signal processing,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现成可编程门阵列(field
‑
programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器41,处理器40读取存储器41中的信息,结合其硬件完成上述方法的步骤。另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒
介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
[0192]
在本发明的描述中,需要说明的是,上述检测模型可以是单阶段的检测模型,也可以是双阶段的检测模型。上述术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
[0193]
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
[0194]
本发明实施例所提供的一种对象间关系的识别方法、装置和电子系统的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
[0195]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0196]
在本发明所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0197]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0198]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0199]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read
‑
only memory)、随机存取存储器(ram,randon access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0200]
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。