1.本发明涉及目标检测技术领域,特别是涉及一种利用文本信息的跨模态图像目标检测方法和装置。
背景技术:2.一般的目标检测方法有2个限制:1、仅利用图像这一种模态信息,无法有效利用文本信息增加图像的语义信息;2、无法随意扩展需要检测的类别,如模型在训练时的类别只有10类,那么在推理时,检测到的目标也只会包含于10类。
技术实现要素:3.本发明所要解决的技术问题是提供一种利用文本信息的跨模态图像目标检测方法和装置,弥补了在开放词库的检测能力的缺陷。
4.本发明解决其技术问题所采用的技术方案是:提供一种利用文本信息的跨模态图像目标检测方法,包括以下步骤:
5.获取图像数据和待识别目标的标签信息;
6.采用候选框神经网络模块检测图像数据中的所有目标,并确定各个目标的位置,并基于所述位置将各个目标从图像数据中截取出来,得到多个感兴趣区域;
7.采用图像特征抽取神经网络模块对所述感兴趣区域进行图像特征的提取,得到第一特征;
8.采用文本特征抽取神经网络模块对所述待识别目标的标签信息进行文本特征的提取,得到第二特征;
9.将所述第一特征和第二特征进行合并,得到合并矩阵;
10.采用跨模态特征融合神经网络模块对所述合并矩阵中的第一特征和第二特征进行交互融合,得到融合矩阵,并将所述融合矩阵分离为2个分离矩阵;
11.计算2个分离矩阵的相似度矩阵,并根据相似度矩阵确定目标检测的类别。
12.所述候选框神经网络模块为detr目标检测网络。
13.所述图像特征抽取神经网络模块为vit预训练模型。
14.所述文本特征抽取神经网络模块为bert网络。
15.所述跨模态特征融合神经网络模块包括依次设置的3层自注意力网络层和2层全连接层,所述3层自注意力网络层用于对所述合并矩阵中的第一特征和第二特征进行交互融合,输出融合矩阵;所述2层全连接层用于将所述融合矩阵分离为2个分离矩阵。
16.本发明解决其技术问题所采用的技术方案是:提供一种利用文本信息的跨模态图像目标检测装置,包括:
17.获取模块,用于获取图像数据和待识别目标的标签信息;
18.候选框神经网络模块,用于检测图像数据中的所有目标,并确定各个目标的位置,并基于所述位置将各个目标从图像数据中截取出来,得到多个感兴趣区域;
19.图像特征抽取神经网络模块,用于对所述感兴趣区域进行图像特征的提取,得到第一特征;
20.文本特征抽取神经网络模块,用于对所述待识别目标的标签信息进行文本特征的提取,得到第二特征;
21.合并模块,用于将所述第一特征和第二特征进行合并,得到合并矩阵;
22.跨模态特征融合神经网络模块,用于对所述合并矩阵中的第一特征和第二特征进行交互融合,得到融合矩阵,并将所述融合矩阵分离为2个分离矩阵;
23.分类模块,用于计算2个分离矩阵的相似度矩阵,并根据相似度矩阵确定目标检测的类别。
24.所述跨模态特征融合神经网络模块包括依次设置的3层自注意力网络层和2层全连接层,所述3层自注意力网络层用于对所述合并矩阵中的第一特征和第二特征进行交互融合,输出融合矩阵;所述2层全连接层用于将所述融合矩阵分离为2个分离矩阵。
25.所述分类模块包括:计算单元,用于将两个2个分离矩阵做矩阵乘法,并将得到的结果做soft-max归一化操作,得到相似度矩阵;比较单元,用于将相似度矩阵中的标签的相似度与阈值进行比较,并去除小于阈值的标签,将保留的标签作为目标检测的类别。
26.本发明解决其技术问题所采用的技术方案是:提供一种电子设备,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的利用文本信息的跨模态图像目标检测方法的步骤。
27.本发明解决其技术问题所采用的技术方案是:提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的利用文本信息的跨模态图像目标检测方法的步骤。
28.有益效果
29.由于采用了上述的技术方案,本发明与现有技术相比,具有以下的优点和积极效果:本发明同时利用候选框神经网络模块、图像特征抽取神经网络模块、文本特征抽取神经网络模块和跨模态特征融合神经网络模块的共同作用,增加图像特征的语义信息,并可以在不增加类别训练的情况下,有效做到对任意类别的检测能力,弥补了在开放词库的检测能力的缺陷。
附图说明
30.图1是本发明第一实施方式的流程图;
31.图2是本发明第二实施方式的结构方框图。
具体实施方式
32.下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本技术所附权利要求书所限定的范围。
33.本发明的第一实施方式涉及一种利用文本信息的跨模态图像目标检测方法,如图1所示,包括以下步骤:
34.步骤1,获取图像数据和待识别目标的标签信息;
35.步骤2,采用候选框神经网络模块检测图像数据中的所有目标,并确定各个目标的位置,并基于所述位置将各个目标从图像数据中截取出来,得到多个感兴趣区域,。
36.本步骤中,候选框神经网络模块使用detr目标检测网络,其能够对图像数据中的m个目标进行定位,并输出m个坐标信息,每个坐标信息为矩形框包含目标的x轴左上角坐标、y轴左上角坐标、x轴右下角坐标,y轴右下角坐标。通过m个坐标信息,截取原始输入图片中的目标区域,即可得到目标的感兴趣区域。
37.步骤3,采用图像特征抽取神经网络模块对所述感兴趣区域进行图像特征的提取,得到第一特征。
38.本步骤中,图像特征抽取神经网络模块使用vit预训练模型,该vit预训练模型可以抽取roi的特征,从而能够获取到m个第一特征,m个第一特征构成第一特征向量,第一特征向量的长度为768dim,命名为a。
39.步骤4,采用文本特征抽取神经网络模块对所述待识别目标的标签信息进行文本特征的提取,得到第二特征。
40.本步骤中,文本特征抽取神经网络模块采用bert网络,由于文本特征抽取神经网络模块用来抽取文本特征,因此待识别目标的标签信息作为其输入时,需要将待识别目标的标签信息合并成一个句子,如待识别目标的标签信息类别有:鸟、鸭子、汽车,将这些类别当做句子分词后的结果输入至文本特征抽取神经网络模块,通过该文本特征抽取神经网络模块能够抽取输入文本的特征,n个第二特征,n个第二特征构成第二特征向量,第二特征向量的长度为768dim,命名为b。
41.步骤5,将所述第一特征和第二特征进行合并,得到合并矩阵,即将a+b,得到形状为(m+n,768)的合并矩阵;
42.步骤6,采用跨模态特征融合神经网络模块对所述合并矩阵中的第一特征和第二特征进行交互融合,得到融合矩阵,并将所述融合矩阵分离为2个分离矩阵。
43.本步骤中,跨模态特征融合神经网络模块包括依次设置的3层自注意力网络层和2层全连接层。所述3层自注意力网络层用于对所述合并矩阵中的第一特征和第二特征进行交互融合,输出融合矩阵,即通过自注意力网络层层的特性,交互图像特征和文本特征,输出为(m+n,768)的融合矩阵,命名为c;所述2层全连接层用于将所述融合矩阵分离为2个分离矩阵,即将融合矩阵c作为全连接层的输入,得到(m+n,512)的矩阵,将该矩阵进行分离,得到一个(m,512)和一个(n,512)的分离矩阵,并分别命名为d和e。
44.步骤7,计算2个分离矩阵的相似度矩阵,并根据相似度矩阵确定目标检测的类别。具体为,将分离矩阵d和分离矩阵e做矩阵乘法,紧接着做soft-max归一化操作,得到形状为(m,n)的相似度矩阵,其代表着有m个图像与n个标签的相似度。假设阈值为0.5,过滤掉小于0.5的相似度所对应的类别标签,保留大于或等于0.5相似的类别标签,并将保留的标签作为最后目标检测的类别。
45.不难发现,本发明同时利用候选框神经网络模块、图像特征抽取神经网络模块、文本特征抽取神经网络模块和跨模态特征融合神经网络模块的共同作用,增加图像特征的语义信息,并可以在不增加类别训练的情况下,有效做到对任意类别的检测能力,弥补了在开放词库的检测能力的缺陷。
46.本发明的第二实施方式涉及一种利用文本信息的跨模态图像目标检测装置,如图2所示,包括:
47.获取模块,用于获取图像数据和待识别目标的标签信息;
48.候选框神经网络模块,用于检测图像数据中的所有目标,并确定各个目标的位置,并基于所述位置将各个目标从图像数据中截取出来,得到多个感兴趣区域;
49.图像特征抽取神经网络模块,用于对所述感兴趣区域进行图像特征的提取,得到第一特征;
50.文本特征抽取神经网络模块,用于对所述待识别目标的标签信息进行文本特征的提取,得到第二特征;
51.合并模块,用于将所述第一特征和第二特征进行合并,得到合并矩阵;
52.跨模态特征融合神经网络模块,用于对所述合并矩阵中的第一特征和第二特征进行交互融合,得到融合矩阵,并将所述融合矩阵分离为2个分离矩阵;
53.分类模块,用于计算2个分离矩阵的相似度矩阵,并根据相似度矩阵确定目标检测的类别。
54.所述候选框神经网络模块为detr目标检测网络。
55.所述图像特征抽取神经网络模块为vit预训练模型。
56.所述文本特征抽取神经网络模块为bert网络。
57.所述跨模态特征融合神经网络模块包括依次设置的3层自注意力网络层和2层全连接层,所述3层自注意力网络层用于对所述合并矩阵中的第一特征和第二特征进行交互融合,输出融合矩阵;所述2层全连接层用于将所述融合矩阵分离为2个分离矩阵。
58.所述分类模块包括:计算单元,用于将两个2个分离矩阵做矩阵乘法,并将得到的结果做soft-max归一化操作,得到相似度矩阵;比较单元,用于将相似度矩阵中的标签的相似度与阈值进行比较,并去除小于阈值的标签,将保留的标签作为目标检测的类别。
59.本发明的第三实施方式涉及一种电子设备,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一实施方式的利用文本信息的跨模态图像目标检测方法的步骤。
60.本发明的第四实施方式涉及一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一实施方式的利用文本信息的跨模态图像目标检测方法的步骤。
61.本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。本发明实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言java和直译式脚本语言javascript等。
62.本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产
生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
63.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
64.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
65.尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
66.显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。