一种结合图文对和纯目标检测数据的零样本视觉定位方法

文档序号：37054570发布日期：2024-02-20 20:57阅读：15来源：国知局

本发明属于计算机视觉和自然语言处理领域，涉及一种结合图文对和纯目标检测数据的零样本视觉定位方法。

背景技术：

1、视觉定位是一种重要的视觉语言任务，要求模型根据查询语句理解图像中的视觉上下文，并捕捉对象之间的交互关系，以及各种空间和属性信息，从而定位出图像中与查询语句最相关的物体。然而，因为该任务需要详细分析图像中对象之间的交互以及理解图像中的各种空间和属性信息，导致该任务的标注流程十分繁琐，这导致了针对视觉定位的数据集的数量相对较少，这也导致了使用该数据集训练出来的视觉定位模型缺少泛化能力。

技术实现思路

1、针对上述问题，本发明提出了一种名为groundvlp的方法，该方法能够从图像文本对和纯物体检测数据中获取视觉定位能力，这两种数据相对于视觉定位注释数据更容易获得并且它们庞大的数据量及丰富的获取来源也提供了更广泛的图文对齐领域，如表1所示。

2、表1三种数据类型的数据量对比

3、

4、本发明方法的输入是一条查询语句与一张图片，查询语句描述了图片当中的一个物体，输出当前图片中最符合查询语句的物体的目标框的坐标值。

5、本发明的目的是通过以下技术方案实现的：一种结合图文对和纯目标检测数据的零样本视觉定位(zero-shot visual grounding)方法，该方法包括如下步骤：

6、(1)将视觉定位中的查询语句输入到视觉语言预训练模型(vision-languagepretraining)中，然后对视觉语言预训练模型使用注意力可视化技术，得到初步的注意力映射图；

7、(2)对步骤(1)中得到的注意力映射图进行后处理操作，具体为：

8、使用自然语言处理工具提取查询语句中易于可视化的词汇，包括名词、形容词和动词，计算每个图像标记对于提取的词汇对应的文本标记的平均注意力分数；获得查询语句输入视觉语言预训练模型后的热力图；

9、(3)使用自然语言处理工具提取查询语句的主语；

10、(4)将步骤(3)提取的主语输入到开放词表目标检测器(open-vocabulary objectdetection)中，获得一系列目标检测框作为候选框，将这些候选框与步骤(2)中得到的热力图通过加权评分机制进行结合，每个候选框的加权得分为框中包含的热力值的和×框的置信度÷框的面积的x次方，x为正数超参数，最终输出加权得分最高的候选框作为视觉定位结果。

11、进一步地，对视觉语言预训练模型使用gradient-weighted class activationmapping(后文简称gradcam)技术得到初步的注意力映射图，具体为：

12、将视觉定位中的查询语句输入到视觉语言预训练模型中，模型的图文匹配头(image-text matching head，简称itm头)会输出一个值，该值表示模型认为图像和文本的匹配程度；

13、对视觉语言预训练模型中的某一自注意力层进行操作，获得该层的query、key矩阵(后文简称q、k矩阵)，将q与k的转置做矩阵乘法，并对计算得到的矩阵的每行做softmax得到矩阵a，然后对视觉语言预训练模型的图文匹配头进行梯度反传，得到矩阵a中的每个元素对于图文匹配头的梯度，将矩阵a中的每个元素与元素对应的梯度相乘，即得到了初步的注意力映射图。

14、进一步地，对于一条输入的查询语句，在初步的注意力映射图中得到的是每个文本标记对应每个图像标记的注意力映射图，需要进一步将其转换为整个查询语句对应每个图像标记的注意力映射图；使用自然语言处理工具对查询语句进行分析，提取出其中的名词、形容词和动词，对于每个图像标记，仅计算这些词汇对应的文本标记的平均注意力分数。

15、进一步地，对于基于区域的视觉语言预训练模型，生成热力图的方法具体为：视觉语言预训练模型中的每个图像标记代表输入图像中的一个目标框区域，选出注意力分数最高的若干图像标记，然后将这些图像标记的注意力分数加在它们在原图像中对应的区域上，获得热力图。

16、进一步地，对于端到端的视觉语言预训练模型，生成热力图的方法具体为：视觉语言预训练模型中的每个图像标记代表输入图像的一个图像块(image patch)，使用双三次差值法将每个图像块的注意力分数映射到原图像的每一个像素点上，获得热力图。

17、进一步地，使用自然语言处理工具提取查询语句的主语，具体为：

18、使用自然语言处理工具stanza来处理查询语句，将其处理为一个语法树，找到语法树最左下角的np(noun phrase，名词短语)节点的最右边的nn(normal noun，普通名词)节点，即为该查询语句的主语。

19、进一步地，步骤(4)具体为：

20、开放词表目标检测器的输入参数包括以下3个：待检测类别、图片、输出的候选框的置信度阈值；输出参数为：一系列候选框以及每个框属于待检测类别的置信度；

21、将步骤(3)提取的主语作为待检测类别，将该主语以及图片输入到开放词表目标检测器中，得到一系列候选框，但现在面临一个问题：如何确定置信度阈值的大小；如果阈值设定得过小，那么会出现许多冗余的候选框；反之，如果阈值设定得过大，那么可能最终的正确答案会不包括在候选框中；针对此问题提出加权评分机制，每个候选框的加权得分为框中包含的热力值的和×框的置信度÷框的面积的x次方，x为正数超参数，最终输出加权得分最高的候选框作为视觉定位结果。

22、本发明的有益效果在于：

23、本发明将两种易于获得的数据——图文对和纯目标检测数据——训练得到的模型的能力使用一种高效的方式融合起来，从而可以利用由图文对得到的语义理解能力以及目标检测数据得到的类别检测能力来进行零样本的视觉定位任务，这样就可以将视觉定位能力泛化到图文对数据和纯目标检测数据涉及的视觉域上，而这两种数据集包含的视觉域又十分丰富，因此能有效地提升视觉定位的泛化能力。

24、另一方面，本发明并不涉及任何的模型参数训练，是一种高效的方法；而且可以将任意的视觉语言预训练模型以及开放词表目标检测器接入到本发明方法中，因此一个更强大的视觉语言和开放词表目标检测器会有效地提升本方法的性能，因此本方法又是一个十分通用的框架，适配性极佳。

技术特征：

1.一种结合图文对和纯目标检测数据的零样本视觉定位方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的结合图文对和纯目标检测数据的零样本视觉定位方法，其特征在于，对视觉语言预训练模型使用gradcam技术得到初步的注意力映射图，具体为：

3.根据权利要求1所述的结合图文对和纯目标检测数据的零样本视觉定位方法，其特征在于，对于一条输入的查询语句，在初步的注意力映射图中得到的是每个文本标记对应每个图像标记的注意力映射图，需要进一步将其转换为整个查询语句对应每个图像标记的注意力映射图；使用自然语言处理工具对查询语句进行分析，提取出其中的名词、形容词和动词，对于每个图像标记，仅计算这些词汇对应的文本标记的平均注意力分数。

4.根据权利要求1所述的结合图文对和纯目标检测数据的零样本视觉定位方法，其特征在于，对于基于区域的视觉语言预训练模型，生成热力图的方法具体为：视觉语言预训练模型中的每个图像标记代表输入图像中的一个目标框区域，选出注意力分数最高的若干图像标记，然后将这些图像标记的注意力分数加在它们在原图像中对应的区域上，获得热力图。

5.根据权利要求1所述的结合图文对和纯目标检测数据的零样本视觉定位方法，其特征在于，对于端到端的视觉语言预训练模型，生成热力图的方法具体为：视觉语言预训练模型中的每个图像标记代表输入图像的一个图像块，使用双三次差值法将每个图像块的注意力分数映射到原图像的每一个像素点上，获得热力图。

6.根据权利要求1所述的结合图文对和纯目标检测数据的零样本视觉定位方法，其特征在于，使用自然语言处理工具提取查询语句的主语，具体为：

7.根据权利要求1所述的结合图文对和纯目标检测数据的零样本视觉定位方法，其特征在于，步骤(4)具体为：

技术总结
本发明公开了一种结合图文对和纯目标检测数据的零样本视觉定位方法，该方法能够在视觉和语言信息之间进行高效的匹配，实现对复杂语义信息的理解。在传统的视觉定位任务中，由于复杂的注释过程，标注数据的数量相对较少，从而导致训练得到的模型在更广泛的领域中难以泛化。本发明方法能够从图像文本对和纯物体检测数据中获取视觉定位能力，这两种数据相对于视觉定位注释数据更容易获得并且提供了更广泛的图文对齐领域。本发明方法包括以下三个主要组成部分：(1)对视觉语言预训练模型使用GradCAM技术，用于识别与给定查询表达式最相关的图像区域；(2)用于检测候选物体的开放词表检测器；(3)通过加权评分机制将上述两部分组合起来，以智能选择答案。

技术研发人员：尹建伟,沈昊展,赵天成
受保护的技术使用者：浙江大学
技术研发日：
技术公布日：2024/2/19

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：尹建伟,沈昊展,赵天成
技术所有人：浙江大学
我是此专利的发明人

上一篇：基于康复辅助治疗的呼吸状态训练器
上一篇：一种基于边缘设备提升流媒体传输可靠性的方法和系统与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。