一种基于窗口局部和全局注意力多模态图像特征匹配方法

文档序号:37235196发布日期:2024-03-06 16:54阅读:19来源:国知局
一种基于窗口局部和全局注意力多模态图像特征匹配方法

本发明涉及图像处理,具体为一种基于窗口局部和全局注意力多模态图像特征匹配方法。


背景技术:

1、多模态图像数据间的特征匹配技术在很多方面都有广泛的应用场景,包括视觉定位、运动结构(sfm)、全球测绘等,以往的主流研究是基于检测器的两阶段局部特征匹配方法,常见步骤包括:特征检测、描述符提取和特征匹配,然而,基于检测器的方法依赖于特征点检测器的结果,这在一定程度上导致了有效性的缺失,导致模型匹配效率不高。为弥补这一缺陷,近年来的研究逐渐将先进的图像处理技术融入特征匹配流程。引入transformer模型是其中的一项关键发展,由于transformer在自然语言处理领域的卓越表现,越来越多的研究开始将其应用在计算机视觉领域。vision transformer(vit)因其出色的全局建模能力,被广泛应用在各种图像处理任务中。

2、vit可以帮助模型在空间上进行长程信息交互,具有出色的全局特征交互和特征提取能力。特征提取是图像处理重要的一环,特征匹配需要通过图像处理的方法来检测、匹配图像中的特征点。但是vit缺乏了局部信息交互的能力,而局部的特征对于特征匹配也很重要,vit在局部特征提取的匮乏对于多模态图像下的特征匹配是不利的。其次,如果运用窗口注意力,再运用全局注意力,将会带来较大的计算负担。


技术实现思路

1、(一)解决的技术问题

2、针对现有技术的不足,本发明提供了一种基于窗口局部和全局注意力多模态图像特征匹配方法,具备增强模型在局部信息之间的信息交互,提高模型定位重要特征的能力等优点,解决了上述技术问题。

3、(二)技术方案

4、为实现上述目的,本发明提供如下技术方案:一种基于窗口局部和全局注意力多模态图像特征匹配方法,包括以下步骤:

5、s1、使用fpn架构对一组数据增强后的图像进行初步特征提取;

6、s2、使用窗口注意力进行局部特征交互;

7、s3、选取每个窗口内部的重要特征;

8、s4、对所有特征进行全局信息交互,完成最终的特征提取,最后输出最终的增强特征输出xf;

9、s5、使用双向softmax函数处理注意力交互后的特征,对模型进行训练,并实现多模态图像下的特征匹配。

10、作为本发明的优选技术方案,所述步骤s1中的fpn架构包括多个神经网络层layer块、用于进行卷积操作的coarseconv块、用于卷积操作的fineconv块、用于上采样的upconv块、在卷积运算中引入空洞的iconv块和用于残差连接的skipconnect块组成,其中,coarseconv块和fineconv块均由一个大小为3×3的卷积核、一个规范化函数和一个激活函数组成,coarseconv块和fineconv块用于下采样并将维度映射到所需维度,所述upconv块,由一个双线性插值函数,一个大小为3×3的卷积核,一个规范化函数组成,所述skipconnect块由一个组合函数和用于添加字符串的pad函数组成。

11、作为本发明的优选技术方案,所述步骤s2中窗口注意力进行局部特征交互的具体过程如下:

12、设置空间注意力输入的两个特征图分别为x1和x2,并将x1和x2划分为窗口大小为w×w的格式,可由如下公式表达:

13、xw=window_partition(x)

14、其中,window_partition函数表示对输入x进行窗口划分并重新排列特征的操作,xw表示划分完成的窗口形式的特征图,即首先对输入x1∈rb×c×h×w,x2∈rb×c×h×w进行形状变换,变成如下表达式的特征格式

15、x1∈rb×c×(h/w)×(w/w)×w×w

16、x2∈rb×c×(h/w)×(w/w)×w×w

17、其中,b表示样本数量,c为特征图通道数,h和w分别代表特征图的高和宽,之后将x1或x2的维度进行重新排列,x1∈rb×(h/w)×(w/w)×w×w×c,x2∈rb×(h/w)×(w/w)×w×w×c,分别将x1和x2的前三个维度和第四、五个维度进行合并得到划分完成的表达式如下:

18、

19、其中,nw=(h/w)×(w/w)表示划分的窗口数量。

20、作为本发明的优选技术方案,所述窗口注意力进行局部特征交互在窗口划分完成后对xw进行自我主义交互,设置同一张特征图的查询向量q、键向量k和值向量v,其对应的自我注意力交互计算如下:

21、q=xwwq

22、k=xwwk

23、v=xwwv

24、

25、xs=attention(xw)

26、其中,矩阵w*是根据输入生成向量q,k,v的可学习的权重矩阵,d是缩放因子,kt表示键向量k的转置矩阵,xs是经过窗口信息交互的特征图,attention(*)表示自我注意力交互,月

27、作为本发明的优选技术方案,所述步骤s3选取每个窗口内部的重要特征的具体操作步骤如下:

28、s3.1、对xs的每个窗口特征做平均池化,得到一个窗口的代表特征,其对应计算公式如下:

29、xr=avgpool(xs)

30、其中,avgpool(xs)表示对xs的每个窗口进行平均池化,即对于每个窗口,窗口内的特征值取平均值,xs是经过窗口信息交互的特征图,xr表示是每个窗口内部的代表特征,且

31、s3.2、将步骤s3.1的代表特征和窗口内的每个特征做余弦相似性计算,得到相似性矩阵,计算公式具体如下:

32、s=cossimilarity(xr,xs)

33、其中,s表示相似性矩阵,cossimilarity(xr,xs)表示对xs内的每个特征均与xr计算余弦相似性进行计算;

34、s3.3、根据步骤s3.2的相似性矩阵的相似值,进行排序并从中选取topk个重要特征和其对应的索引,具体过程如下:

35、xn,indices=topk(s)

36、其中,xn表示每个窗口内部得到的重要特征,且indices是重要特征对应的索引,topk(s)表示对s进行排序并进行,并寻找前n个最大元素,之后返回n个元素对应的值和索引indices。

37、作为本发明的优选技术方案,所述步骤s4所有重要特征进行全局信息交互,完成最终的特征提取包括以下步骤:

38、s4.1、将每个窗口内部得到的重要特征xn转换成非窗口形状的特征;

39、s4.2、通过线性注意力,得到全局信息交互后增强的特征,并再将此特征划分为窗口注意的数据格式;

40、s4.3、根据索引indices,将增强后的特征同原始经过窗口注意的特征做残差,并将结果转换为原始输入的形状,得到最后的特征输出。

41、作为本发明的优选技术方案,所述步骤s4的计算公式如下:

42、xt=view1(xn)

43、xl=linearattention(xt)

44、xf=view2(xl)

45、xf=window_reverse[fusion(xs,xf,indices)]

46、其中,view1表示xn转换为非窗口形状的操作,xn表示每个窗口内部得到的重要特征,xt表示对xn转化后的输出值,linearattention表示线性注意力,xl表示对xt经过全局信息交互的输出,view2表示对xl转换为窗口形状的操作,xf表示对xl转化后的输出值,fusion(xs,xf,indices)表示根据索引indices,将xf的元素同xs对应位置的元素进行相加的操作,并将结果输出与xs相同格式的特征输出,window_reverse[*]表示将窗口形式的数据特征转换为原始输入特征格式的操作,xf表示最终的增强特征输出。

47、作为本发明的优选技术方案,所述线性注意力linearattention的表达式如下:

48、linearattention(q,k,v)=(qwq)(kwk)tv

49、其中,w*是根据输入生成向量q,k,v的可学习的权重矩阵,q为查询向量、k键向量和v值向量,(*)t表示转置运算。

50、作为本发明的优选技术方案,所述步骤s5中使用双向softmax处理增强后的特征的具体过程如下:

51、s5.1、根据xf,将计算xf各个元素之间的相似性,得到相似性矩阵sf;

52、s5.2、根据步骤s5.1的相似性矩阵sf,进行softmax操作来获取最近邻匹配概率,正确匹配概率矩阵p(i,j)的计算公式如下:

53、p(ij)=softmax(sf(i,·))j·softmax(sf(·,j))i

54、其中,softmax表示归一化操作,softmax(sf(i,·))j表示对第i行的所有元素做softmax的运算,softmax(sf(·,j))i表示对第j列的所有元素做softmax的运算,将两个结果相乘,变得到最后的正确匹配概率矩阵p(i,j);

55、s5.3、通过损失函数对模型进行监督训练。

56、作为本发明的优选技术方案,所述步骤s5.3中的损失函数如下:

57、

58、其中,|mconf|表示匹配的样本总数,∑k*表示对内部k个样本进行求和,gti,j表示第(i,j)个元素的标签,p(i,j)表示正确匹配的概率。

59、与现有技术相比,本发明提供了一种基于窗口局部和全局注意力多模态图像特征匹配方法,具备以下有益效果:

60、本发明通过窗口注意来进行局部信息交互,同时,基于窗口注意来选取topk个重要特征,并对所有窗口的topk个重要特征进行全局信息交互,在使得具有优秀的局部注意交互的基础上显著降低了全局信息交互的计算量,具有优秀的匹配能力和匹配精确度,并在多种多模态数据集上有非常好的泛化性,具有很高的实用价值,此外,在运用此方法实施特征匹配时,只需要将匹配的数据集输入训练好的深度学习网络中,即可全自动的进行特征匹配,增强模型在局部信息之间的信息交互,提高模型定位重要特征的能力。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1