本申请涉及图像处理技术领域,尤其涉及一种基于有限标签构造场景图的方法、装置及计算机设备。
背景技术:
现有技术中,对视觉图像的描述,要尽可能对图像中的场景内容进行描述,除了图像中显著的对象之外,对象之间的关系也是图像中内容交互的重点。
然而,目前的场景图的构造方法,采用人工标注的方式对缺失的对象进行补充描述,即仅仅对对象的信息进行标注,而不能对对象与其它对象之间的缺失关系进行补充描述。
可见,现有技术中存在场景图构造精准性较差的技术问题。
技术实现要素:
本申请提供一种基于有限标签构造场景图的方法、装置及计算机设备,以解决相用于解决现有技术中场景图构造精准性较差的技术问题。本申请的技术方案如下:
第一方面,提供一种基于有限标签构造场景图的方法,所述方法包括:
获取待构造场景图的图像;
通过训练后的场景图生成模型对所述图像进行实体检测处理,以确定所述图像中各个实体对应的边界框和标签,其中,所述实体对应图像中出现的人和/或物品,所述标签用于表征识别所述实体的信息;
通过训练后的场景图生成模型对所述各个实体的边界框和标签进行实体关系预测处理,以获得所述各个实体的初始场景图,其中,所述初始场景图包括所述各个实体的标签和所述各个实体对应的多种关系,每个实体对应的多种关系用于表征该实体与除自身之外的其他实体之间关联关系。
在一种可能的实施方式中,通过训练后的场景图生成模型对所述各个实体的边界框和标签进行实体关系预测处理,包括:
根据所述各个实体对应的边界框,确定所述各个实体位置信息;
根据所述各个实体中的主体实体与客体实体之间的位置信息,获得所述各个实体中的所有主体实体对应的实体对的空间特征向量,其中,当确定第一实体对应的实体对的空间特征向量时,所述实体对中的主体实体用于表征所述图像中的第一实体,所述实体对中的客体实体用于表征所述图像中除第一实体之外的其他实体;
将所述所有主体实体对应实体对空间特征向量进行聚类处理,确定实体对关系的空间多样性特征向量;
对所述各个实体的标签进行词嵌入方式处理,以确定所述各个实体中的所述主体实体的类别标签和所述客体实体的类别标签,并对所述各个实体中的所述主体实体的类别标签和所述客体实体的类别标签进行统一向量化处理,获得实体对关系的类别特征向量,其中,类别标签用于表征所述图像中实体的类别属性;
统计所述实体对对应的关系对应的实体对数量,以确定所述实体对关系的类别多样性特征向量。
在一种可能的实施方式中,通过训练后的场景图生成模型对所述各个实体的边界框和标签进行实体关系预测处理,以获得所述各个实体的初始场景图,包括:
对所述实体对关系的空间特征向量、类别特征向量、空间多样性特征向量以及类别多样性特征向量进行特征向量选择处理;
根据所述特征向量选择处理后的信息和所述标签,获得所述各个实体的初始场景图。
在一种可能的实施方式中,所述方法还包括:
确定所述待构造场景图的全局信息,其中,所述全局信息中包括所述待构造场景图对应的特定场景相关的信息;
对所述初始场景图添加所述全局信息,获得所述图像的全局场景图,其中,所述全局场景图中包括所述图像中的实体对应的标签、所述实体对应的多种关系以及所述图像对应的特定场景的信息。
在一种可能的实施方式中,所述训练后的场景图生成模型通过以下方式训练得到,包括:
确定第一场景图像数据集,并对所述第一场景图像数据集中的实体和实体关系进行有限标注,以获得待训练的第一场景的有限图像语义数据集,其中,所述实体关系至少包括实体与实体之间的位置关系以及实体与实体之间的互动关系;
将所述待训练的第一场景的有限图像语义数据集和预先确定的多个包含所述第一场景中实体的场景图像语义数据集输入到预设场景图生成模型中进行训练,获得多个输出结果,其中,所述多个输出结果为对所述预设场景图进行多次训练所获得的;
根据所述多个输出结果与所述有限图像语义数据集进行比对,以获得多个比对结果,并根据所述多个比对结果对所述预设的场景图生成模型的模型参数进行调整,以得到训练后的场景图生成模型。
在一种可能的实施方式中,根据所述多个比对结果对所述预设场景图生成模型的模型参数进行调整,以得到训练后的场景图生成模型,包括:
确定整体损失函数,其中,所述整体损失函数为对所述图像进行所述实体检测处理确定的第一损失函数和对所述图像进行所述实体关系预测确定的第二损失函数进行加权计算所获得的;
在对所述预设场景图生成模型进行训练之后,通过所述整体损失函数对训练后的所述预设场景图生成模型进行收敛检验;
当确定所述训练后的所述预设场景图生成模型已收敛,则获得所述训练后的场景图生成模型。
第二方面,提供一种基于有限标签构造场景图的装置,所述装置包括:
获取单元,用于获取待构造场景图的图像;
实体检测处理单元,用于通过训练后的场景图生成模型对所述图像进行实体检测处理,以确定所述图像中各个实体对应的边界框和标签,其中,所述实体对应图像中出现的人和/或物品,所述标签用于表征识别所述实体的信息;
生成单元,用于通过训练后的场景图生成模型对所述各个实体的边界框和标签进行实体关系预测处理,以获得所述各个实体的初始场景图,其中,所述初始场景图包括所述各个实体的标签和所述各个实体对应的多种关系,每个实体对应的多种关系用于表征该实体与除自身之外的其他实体之间关联关系。
在一种可能的实施方式中,所述生成单元,用于:
根据所述各个实体对应的边界框,确定所述各个实体位置信息;
根据所述各个实体中的主体实体与客体实体之间的位置信息,获得所述各个实体中的所有主体实体对应的实体对的空间特征向量,其中,当确定第一实体对应的实体对的空间特征向量时,所述实体对中的主体实体用于表征所述图像中的第一实体,所述实体对中的客体实体用于表征所述图像中除第一实体之外的其他实体;
将所述所有主体实体对应实体对空间特征向量进行聚类处理,确定实体对关系的空间多样性特征向量;
对所述各个实体的标签进行词嵌入方式处理,以确定所述各个实体中的所述主体实体的类别标签和所述客体实体的类别标签,并对所述各个实体中的所述主体实体的类别标签和所述客体实体的类别标签进行统一向量化处理,获得实体对关系的类别特征向量,其中,类别标签用于表征所述图像中实体的类别属性;
统计所述实体对对应的关系对应的实体对数量,以确定所述实体对关系的类别多样性特征向量。
在一种可能的实施方式中,所述生成单元,用于:
对所述实体对关系的空间特征向量、类别特征向量、空间多样性特征向量以及类别多样性特征向量进行特征向量选择处理;
根据所述特征向量选择处理后的信息和所述标签,获得所述各个实体的初始场景图。
在一种可能的实施方式中,所述装置还包括处理单元,所述处理单元用于:
确定所述待构造场景图的全局信息,其中,所述全局信息中包括所述待构造场景图对应的特定场景相关的信息;
对所述初始场景图添加所述全局信息,获得所述图像的全局场景图,其中,所述全局场景图中包括所述图像中的实体对应的标签、所述实体对应的多种关系以及所述图像对应的特定场景的信息。
在一种可能的实施方式中,所述训练后的场景图生成模型通过模型训练单元训练得到,所述模型训练单元,用于:
确定第一场景图像数据集,并对所述第一场景图像数据集中的实体和实体关系进行有限标注,以获得待训练的第一场景的有限图像语义数据集,其中,所述实体关系至少包括实体与实体之间的位置关系以及实体与实体之间的互动关系;
将所述待训练的第一场景的有限图像语义数据集和预先确定的多个包含所述第一场景中实体的场景图像语义数据集输入到预设场景图生成模型中进行训练,获得多个输出结果,其中,所述多个输出结果为对所述预设场景图进行多次训练所获得的;
根据所述多个输出结果与所述有限图像语义数据集进行比对,以获得多个比对结果,并根据所述多个比对结果对所述预设的场景图生成模型的模型参数进行调整,以得到训练后的场景图生成模型。
在一种可能的实施方式中,所述模型训练单元,用于:
确定整体损失函数,其中,所述整体损失函数为对所述图像进行所述实体检测处理确定的第一损失函数和对所述图像进行所述实体关系预测确定的第二损失函数进行加权计算所获得的;
在对所述预设场景图生成模型进行训练之后,通过所述整体损失函数对训练后的所述预设场景图生成模型进行收敛检验;
当确定所述训练后的所述预设场景图生成模型已收敛,则获得所述训练后的场景图生成模型。
第三方面,提供一种计算机设备,该计算机设备包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行第一方面中的任一方法包括的步骤。
第四方面,提供一种存储介质,该存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机设备执行第一方面中的任一方法包括的步骤。
第五方面,提供一种计算机程序产品,当所述计算机程序产品在计算机设备上运行时,使得计算机设备能够执行第一方面中任一方法包括的步骤。
本申请的实施例提供的技术方案至少带来以下有益效果:
在本申请实施例中,可以获取待构造场景图的图像,然后通过训练后的场景图生成模型对图像进行实体检测处理,从而确定图像中各个实体对应的边界框和标签;再通过训练后的场景图生成模型对所述各个实体的边界框和标签进行实体关系预测处理,从而获得各个实体的初始场景图。具体的,初始场景图包括各个实体的标签和各个实体对应的多种关系,每个实体对应的多种关系用于表征该实体与除自身之外的其他实体之间关联关系。
也就是说,在本申请实施例中,通过训练后的场景图生成模型可以对图像中的实体、以及实体对应的实体对之间的多种关系进行预测。以及,本申请实施例中利用机器学习的方式来模拟替代人工的数据分析和方式构建,尽量消除由于分析人员的分析能力限制和主观性而导致的误判和分析不全面而导致的负面影响,从而可以在一定程度上提高分析和检测的准确性,提高场景图的精准性。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或通过实施本而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例。
图1为本申请实施例中应用场景的示意图;
图2为本申请实施例中的基于有限标签构造场景图的方法的流程图;
图3为本申请实施例中的基于有限标签构造场景图的装置的结构框图;
图4为本申请实施例中的计算机设备的结构示意图;
图5为本申请实施例中的计算机设备的又一结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请的说明书和权利要求书中的术语“第一”和“第二”是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的保护。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
现有技术中的视觉场景图的构造,一般是在原有数据集的基础上进行整合扩充,且整合扩充的方式是基于文本信息的补充,可能会存在标注的信息不准确以及标注的关系是不对应的,甚至是错误的问题,从而导致采用该数据集确定出的场景图的精准性较低。
鉴于此,本申请实施例提供一种有限标签构造场景图的方法,通过该方法可以通过机器学习的方式对待构造的图像中的实体以及实体对的多种关系进行预测并生成场景图,从而提高构造场景图精准性。
介绍完本申请实施例的设计思想之后,下面对本申请实施例中的基于有限标签构造场景图的技术方案适用的应用场景做一些简单介绍,需要说明的是,本申请实施例描述的应用场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着新应用场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
在本申请实施例中,该技术方案可以应用于校园、商场等需要场景构造的任一场景,本申请实施例中不做限制,为了便于更好的理解方案,本申请中以校园场景构造为例进行说明。
在具体实施过程中,请参见图1所示的一种应用场景示意图,图1包括包含数据集处理单元的处理设备和计算机设备两部分,需要说明的是,图1中仅以三个包含数据集处理单元的处理设备(即处理设备1、处理设备2以及处理设备3)和一个计算机设备示出,在具体实施过程中,可以是多个处理设备与1个计算机设备之间进行交互,也可以是多个处理设备和多个计算机设备之间进行交互。
在本申请实施例中,处理设备可以对预先获取多个含有校园场景中实体的数据信息集,然后将前述获取多个含有校园场景中实体的数据信息集发送给计算机设备,计算机设备可以采用多个含有校园场景中实体的数据信息集进行场景图生成模型训练,从而获得训练后的场景图生成模型,进而可以使用训练后的场景图生成模型对处理设备发送的待构造场景图的图像进行处理,获得待构造场景图的图像的全局场景图。此外,需要说明的是,在本申请实施例中,实体可以理解为图像中的人和/或物品。
为进一步说明本申请实施例提供的有限标签构造场景图的方案,下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤,但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中,这些步骤的执行顺序不限于本申请实施例提供的执行顺序。所述方法在实际的处理过程中或者装置执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的应用环境)。
以下结合图2所示的方法流程图对本申请实施例中基于有限标签构造场景图的方法进行说明,图2所示的各步骤可以由如图1所示的计算机设备执行。在具体实施过程中,该计算机设备可以是服务器,例如是个人计算机、大中型计算机、计算机集群,等等。
下面结合说明书附图介绍本申请实施例提供的技术方案。
在介绍基于有限标签构造场景图的方法之前,以下先介绍本申请实施例中获得训练后的场景图生成模型的过程。
在本申请实施例中,可以先确定校园场景图像数据集,具体的,该校园场景数据集可以是小学校园场景中的多个图像数据,也可以是中学或者是大学校园场景中的多个图像数据,本申请实施例中不做限定。
在本申请实施例中,当确定校园场景图像数据集之后,可以采用人工标注的方式对校园场景图像数据集中的实体和实体关系进行有限标注,从而可以获得待训练的校园场景的有限图像语义数据集。
在具体的实施过程中,本申请实施例中的有限标注可以理解为对校园场景图像中的预定个数的典型场景的图像数据进行人工标注,例如对小学校园场景3个图像数据、中学校园场景的4个图像数据以及大学校园的5个图像数据进行人工标注;还可以理解为对不同地区典型场景的预定个数图像数据进行标注持处理。也就是说,本申请实施例中的有限标注可以理解为对某些典型校园场景的完整标注。
在具体的实施过程中,可以标注实体与实体之间的互动关系、实体与实体之间的位置关系,以及实体与实体之间的存在关系。例如,可以标注学生a站在桌子前,可以标注学生b坐在学生a后面,还可以标注老师l在黑板画图等等。
在本申请实施例中,还可以采用获得待训练的校园场景的有限图像语义数据集同样的方式,对多个包含校园场景中实体的场景图像数据集(例如室内家居场景、商场场景、户外运动场等场景)进行处理,从而可以获得多个包含校园场景中实体的场景图像语义数据集。当获得待训练的校园场景的有限图像语义数据集和多个包含校园场景中实体的场景图像语义数据集之后,可以将前述数据集中的图像数据输入到预设场景图生成模型中进行训练,获得多个输出结果。采用前述的训练数据集,即不仅采用校园场景的图像数据集,还采用包含校园场景中实体的信息,从而可以获得更为全面的关系信息和标注信息,进一步地提升场景图构造的精准性。
在本申请实施例中,还可以当前对场景图生成模型进行训练获得的输出结果和有限图像语义数据集进行比对,并根据比对结果对预设的场景图生成模型的模型参数进行调整,然后再次对调整后的场景图生成模型进行训练,并根据输出结果再次与有限图像语义数据集进行比对,并根据比对结果对调整后的场景图生成模型的模型参数进行调整。也就是说,可以根据多个对场景生成模型的输出结果与有限图像语义数据集进行比对,从而可以获得多个比对结果,并根据多个比对结果对预设的场景图生成模型的模型参数进行调整,进而得到训练后的场景图生成模型。
在具体的实施过程中,在对预设场景图生成模型进行训练之后,可以通过整体损失函数对训练后的预设场景图生成模型进行收敛检验,具体的,可以将进行实体检测处理确定的第一损失函数和实体关系预测确定的第二损失函数进行加权计算,从而可以获得整体损失函数。例如,可以采用满足图置换不变性原则的rnn(recurrentneuralnetwork,循环神经网络)算法,在整体损失函数添加关系标签预测误差和实体检测误差,从而确定整体损失函数。当确定训练后的预设场景图生成模型已收敛,则获得训练后的场景图生成模型。
在本申请实施例中,可以通过待训练的多个待训练的校园场景的有限图像语义数据集和多个包含校园场景中实体的场景图像语义数据集对预设场景图生成模型进行训练,从而获得训练后的场景图生成模型,通过前述的训练方式,可以知晓训练后的场景图生成模型可以实现对图像中实体和实体关系的确定,从而生成场景图。
进一步地,在本申请实施例中,当获得训练后的场景图生成模型之后,可以根据该模型对待构造场景图的图像进行处理,具体的,请参见如图2所示的流程图。
步骤201:获取待构造场景图的图像。
步骤202:通过训练后的场景图生成模型对图像进行实体检测处理,以确定图像中各个实体对应的边界框和标签,其中,实体对应图像中出现的人和/或物品,标签用于表征识别实体的信息。
步骤203:通过训练后的场景图生成模型对各个实体的边界框和标签进行实体关系预测处理,以获得各个实体的初始场景图,其中,初始场景图包括各个实体的标签和各个实体对应的多种关系,每个实体对应的多种关系用于表征该实体与除自身之外的其他实体之间关联关系。
在本申请实施例中,可以获取待构造场景图的图像,然后通过前述方式训练获得的训练后的场景图生成模型对图像进行实体检测处理,例如,可以采用maskr-cnn算法进行处理,从而可以获得图像中各个实体对应的边界框和标签,也就是说,对图像经过实体检测处理之后,可以获得图像中各个物品或人的标签和边界框信息,具体的,标签可以是用于表征知晓其所指示实体的信息的标识,即标签用于表征识别实体的信息,例如人、桌子、椅子等,即通过实体检测处理可以确定该图像中存在哪些实体,以及可以确定实体的检测框即实体处于的大致范围。
在本申请实施例中,当确定图像中各个实体对应的边界框和标签之后,还可以根据各个实体对应的边界框,采用深度网络算法,确定各个实体的位置信息,然后可以根据各个实体中的主体实体与客体实体之间的位置信息,获得各个实体中的实体主体和实体客体对应的实体对空间特征向量。需要说明的是,在本申请实施例中,当确定第一实体的关系特征时,可以将与该第一实体可以建立关系的其它实体称为客体实体,将第一实体称为主体实体,即图像中的任一实体,可以是主体实体,也可以是客体实体,即在任意一种主体实体对应的关系中,主体实体和客体实体可以称为实体对。进一步地,当确定出实体对空间特征向量之后,可以将实体对的空间特征向量进行聚类处理,确定实体对关系的空间多样性特征向量。也就是说,本申请中是对图像中所有的主体实体对应的实体对的空间特征向量进行聚类处理,从而可以准确的确定出实体对关系的空间多样性特征向量。
在本申请实施例中,还可以对各个实体的标签进行词嵌入方式处理,从而可以确定各个实体中的主体实体的类别标签和客体实体的类别标签。具体的,可以理解为通过神经网络对预存的关系和主体实体标签或客体实体标签之间的关系进行处理,从而可以获得主体实体的类别标签或客体实体标签的类别标签,其中,类别标签用于表征图像中实体的类别属性。例如,桌子和凳子属于教室内固定物品,跳绳和足球属于活动用品。也就是说,通过预存的关系与主体实体或客体实体的关系映射来确定主体实体的类别或客体实体的标签。进一步地,可以对各个实体中的主体实体的类别标签和客体实体的类别标签进行统一向量化处理,从而可以获得实体对关系的类别特征向量。
在本申请实施例中,还可以统计实体对对应的关系所对应的实体对数量,即确定某一种实体对关系的类别多样性特征。
也就是说,在本申请实施例中,可以通过对图像中各个实体的位置信息和标签的处理,确定出实体对应的实体对关系的类别多样性特征、实体对关系的类别特征、实体对关系的空间多样性特征以及实体的空间特征。即本申请实施例中通过训练后的场景图生成模型,不仅可以确定实体的关系,还可以确定实体对的多种关系,从而提高构造场景图的精准性。
进一步的,在本申请实施例中,还可以对各个实体对的空间特征向量、实体对关系的类别特征向量、空间多样性特征向量以及类别多样性特征向量进行特征向量选择处理。
在具体的实施过程中,可以利用cart决策树对每个实体对关系的空间特征向量、类别特征向量、空间多样性特征向量以及类别多样性特征向量进行初步的启发式特征选择,即从多个特征向量中确定出与该关系显著相关的特征。具体的,可以是将确定出的多种特征输入到基于图的因子生成模型,从而可以对图像数据集中的每个实体进行预测得到与该实体对应的关系。
在本申请实施例中,可以根据特征选择处理后的信息和标签,获得各个实体的初始场景图,即根据实体对应的多种关系和实体的标签,获得各个实体初始场景图。
在一种可能的实施方式中,还可以确定待构造场景图的全局信息,其中,全局信息中包括待构造场景图对应的特定场景相关的信息,然后再对初始场景图添加全局信息,从而可以获得图像的全局场景图,其中,全局场景图中包括图像中的实体、实体对应的多样关系以及图像对应的学校类型信息和场景区域信息。即,可以将确定出的各个实体的标签和对应的各种关系,以及该图像对应的学校类型信息和场景区域信息同时构成在一个全局场景图中,从而可以获的实体关系较为全面且图像信息完整的场景图。
基于同一发明构思,本申请实施例提供了一种有限标签构造场景图的装置,该有限标签构造场景图的装置能够实现前述的有限标签构造场景图的方法对应的功能。该有限标签构造场景图的装置可以是硬件结构、软件模块、或硬件结构加软件模块。该有限标签构造场景图的装置可以由芯片系统实现,芯片系统可以由芯片构成,也可以包含芯片和其他分立器件。请参见图3所示,该有限标签构造场景图的装置包括获取单元301、实体检测处理单元302以及生成单元303。其中:
获取单元301,用于获取待构造场景图的图像;
实体检测处理单元302,用于通过训练后的场景图生成模型对所述图像进行实体检测处理,以确定所述图像中各个实体对应的边界框和标签,其中,所述实体对应图像中出现的人和/或物品,所述标签用于表征识别所述实体的信息;
生成单元303,用于通过训练后的场景图生成模型对所述各个实体的边界框和标签进行实体关系预测处理,以获得所述各个实体的初始场景图,其中,所述初始场景图包括所述各个实体的标签和所述各个实体对应的多种关系,每个实体对应的多种关系用于表征该实体与除自身之外的其他实体之间关联关系。
在一种可能的实施方式中,所述生成单元303,用于:
根据所述各个实体对应的边界框,确定所述各个实体位置信息;
根据所述各个实体中的主体实体与客体实体之间的位置信息,获得所述各个实体中的所有主体实体对应的实体对的空间特征向量,其中,当确定第一实体对应的实体对的空间特征向量时,所述实体对中的主体实体用于表征所述图像中的第一实体,所述实体对中的客体实体用于表征所述图像中除第一实体之外的其他实体;
将所述所有主体实体对应实体对空间特征向量进行聚类处理,确定实体对关系的空间多样性特征向量;
对所述各个实体的标签进行词嵌入方式处理,以确定所述各个实体中的所述主体实体的类别标签和所述客体实体的类别标签,并对所述各个实体中的所述主体实体的类别标签和所述客体实体的类别标签进行统一向量化处理,获得实体对关系的类别特征向量,其中,类别标签用于表征所述图像中实体的类别属性;
统计所述实体对对应的关系对应的实体对数量,以确定所述实体对关系的类别多样性特征向量。
在一种可能的实施方式中,所述生成单元303,用于:
对所述实体对关系的空间特征向量、类别特征向量、空间多样性特征向量以及类别多样性特征向量进行特征向量选择处理;
根据所述特征向量选择处理后的信息和所述标签,获得所述各个实体的初始场景图。
在一种可能的实施方式中,所述装置还包括处理单元,所述处理单元用于:
确定所述待构造场景图的全局信息,其中,所述全局信息中包括所述待构造场景图对应的特定场景相关的信息;
对所述初始场景图添加所述全局信息,获得所述图像的全局场景图,其中,所述全局场景图中包括所述图像中的实体对应的标签、所述实体对应的多种关系以及所述图像对应的特定场景的信息。
在一种可能的实施方式中,所述训练后的场景图生成模型通过模型训练单元训练得到,所述模型训练单元,用于:
确定第一场景图像数据集,并对所述第一场景图像数据集中的实体和实体关系进行有限标注,以获得待训练的第一场景的有限图像语义数据集,其中,所述实体关系至少包括实体与实体之间的位置关系以及实体与实体之间的互动关系;
将所述待训练的第一场景的有限图像语义数据集和预先确定的多个包含所述第一场景中实体的场景图像语义数据集输入到预设场景图生成模型中进行训练,获得多个输出结果,其中,所述多个输出结果为对所述预设场景图进行多次训练所获得的;
根据所述多个输出结果与所述有限图像语义数据集进行比对,以获得多个比对结果,并根据所述多个比对结果对所述预设的场景图生成模型的模型参数进行调整,以得到训练后的场景图生成模型。
在一种可能的实施方式中,所述模型训练单元,用于:
确定整体损失函数,其中,所述整体损失函数为对所述图像进行所述实体检测处理确定的第一损失函数和对所述图像进行所述实体关系预测确定的第二损失函数进行加权计算所获得的;
在对所述预设场景图生成模型进行训练之后,通过所述整体损失函数对训练后的所述预设场景图生成模型进行收敛检验;
当确定所述训练后的所述预设场景图生成模型已收敛,则获得所述训练后的场景图生成模型。
前述的如图2所示有限标签构造场景图的方法的实施例涉及的各步骤的所有相关内容均可以援引到本申请实施例中的有限标签构造场景图的装置所对应的功能模块的功能描述,在此不再赘述。
本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,另外,在本申请各个实施例中的各功能单元可以集成在一个处理器中,也可以是单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
基于同一发明构思,本申请实施例还提供一种计算机设备,如图4所示,本申请实施例中的计算机设备包括至少一个处理器401,以及与至少一个处理器401连接的存储器402和通信接口403,本申请实施例中不限定处理器401与存储器402之间的具体连接介质,图4中是以处理器401和存储器402之间通过总线400连接为例,总线400在图4中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线400可以分为地址总线、数据总线、控制总线等,为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
在本申请实施例中,存储器402存储有可被至少一个处理器401执行的指令,至少一个处理器401通过执行存储器402存储的指令,可以执行前述的有限标签构造场景图的方法中所包括的步骤。
其中,处理器401是计算机设备的控制中心,可以利用各种接口和线路连接整个故障检测设备的各个部分,通过运行或执行存储在存储器402内的指令以及调用存储在存储器402内的数据,计算设备的各种功能和处理数据,从而对计算设备进行整体监控。可选的,处理器401可包括一个或多个处理单元,处理器401可集成应用处理器和调制解调处理器,其中,处理器401主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。在一些实施例中,处理器401和存储器402可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
处理器401可以是通用处理器,例如中央处理器(cpu)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中申请的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所提供的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器402作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器402可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(randomaccessmemory,ram)、静态随机访问存储器(staticrandomaccessmemory,sram)、可编程只读存储器(programmablereadonlymemory,prom)、只读存储器(readonlymemory,rom)、带电可擦除可编程只读存储器(electricallyerasableprogrammableread-onlymemory,eeprom)、磁性存储器、磁盘、光盘等等。存储器402是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器402还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。通信接口403是能够用于进行通信的传输接口,可以通过通信接口403接收数据或者发送数据。
参见图5所示的计算机设备的进一步地的结构示意图,该计算机设备还包括帮助计算机设备内的各个器件之间传输信息的基本输入/输出系统(i/o系统)501、用于存储操作系统502、应用程序503和其他程序模块504的大容量存储设备505。
基本输入/输出系统501包括有用于显示信息的显示器506和用于用户输入信息的诸如鼠标、键盘之类的输入设备507。其中显示器506和输入设备507都通过连接到系统总线400的基本输入/输出系统501连接到处理器401。所述基本输入/输出系统501还可以包括输入输出控制器以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备505通过连接到系统总线400的大容量存储控制器(未示出)连接到处理器401。所述大容量存储设备505及其相关联的计算机可读介质为该服务器包提供非易失性存储。也就是说,大容量存储设备505可以包括诸如硬盘或者cd-rom驱动器之类的计算机可读介质(未示出)。
根据本申请的各种实施例,该计算机设备包还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即该计算机设备可以通过连接在所述系统总线400上的通信接口403连接到网络508,或者说,也可以使用通信接口403来连接到其他类型的网络或远程计算机系统(未示出)。
在示例性实施例中,还提供了一种包括指令的存储介质,例如包括指令的存储器402,上述指令可由装置的处理器401执行以完成上述方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
在一些可能的实施方式中,本申请提供的有限标签构造场景图的方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算机设备上运行时,所述程序代码用于使该计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的有限标签构造场景图的方法中的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。