基于多重特征匹配的多模态图像特征匹配方法与流程

文档序号：32619201发布日期：2022-12-20 22:12阅读：382来源：国知局

1.本发明属于图像处理技术领域，涉及一种基于多重特征匹配的多模态图像特征匹配方法。

背景技术：

2.图像间的局部特征匹配是计算机视觉中的一个关键问题，特别是对于具有不同形态的图像。例如，光学图像、sar图像、近红外图像、短波红外图像和深度图像是5种典型的模态图像，它们所包含的信息内容可以相互补充。图像分类、图像拼接、图像融合、图像匹配等多模态图像处理任务都是在配准良好的图像上进行的，因此设计一种高效的特征匹配方法是非常重要的。
3.特征匹配是多模态图像处理中最重要的任务，许多其他任务都是以特征匹配为基础的。近年来，人们提出了许多特征匹配方法，大致可分为两类：基于检测器的局部特征匹配和无检测器的局部特征匹配。
4.基于检测器的局部特征匹配方法减少了匹配的搜索空间，获得了足以满足各种类型任务的稀疏对应关系。基于特征描述符的方法大致可以分为三类，分别是基于区域的特征描述符方法、手工特征描述符方法和基于学习的特征描述符方法。基于区域的特征描述符方法是通过对区域变换后的像素信息和像素强度的相似性度量来实现两幅图像的配准；基于区域的特征描述符方法在图像细节较少的情况下可以获得良好的性能，但在计算复杂度高、图像失真、强度变化大的情况下性能较差。手工特征描述符方法是专家学者利用视觉领域的先进知识，在空间几何约束下推导和设计有效的局部特征描述符，建立可靠的对应关系；对于基于学习的特征描述符方法，通过深度学习技术学习深度特征和非线性表达式，可以发现更多有价值的隐藏信息。在处理多模态图像时，由于多模态图像的成像机制差异较大，且含有大量的几何畸变和散斑噪声，特征检测器可能无法在多模态图像之间提取出足够的特征点，使用特征描述符的方法是两阶段方法，两阶段方法的过程是首先通过关键点检测方法提取关键点，然后基于特征点生成图像补丁，并将图像补丁的正确对应作为模型训练的标签。传统方法要求关键点检测方法先检测关键点，再根据关键点训练特征描述符，误差较大，计算速度较慢。
5.无检测器的局部特征匹配方法是一阶段方法，它不需要提取关键点，减少了关键点检测的误差。像素级密集匹配方法从密集匹配中选择可靠性高的匹配。然而，卷积神经网络(cnn)提取的密集特征只有有限的接受域，可能无法区分模糊区域。大量的科学研究证明了大的接受区域在多模态图像的特征匹配中是非常重要的。
6.随着深度学习的发展，transformer已经成为自然语言处理(nlp)中序列建模的新标准。近年来，transformer逐渐被应用到计算机视觉领域的各种任务中，并取得了良好的效果。考虑到基于描述符的多模态图像特征匹配方法的局限性和transformer在计算机视觉领域的发展，提出了一种新的基于多重特征匹配的多模态图像特征匹配方法femit。

技术实现要素：

7.本发明实施例的目的在于提供一种基于多重特征匹配的多模态图像特征匹配方法，以更好地解决多模态图像的特征匹配问题，使其具有更佳的匹配能力和匹配精准度，并且在多种不同模态图像之间都具有很强的泛化性。
8.本发明所采用的技术方案是，一种基于多重特征匹配的多模态图像特征匹配方法包括以下步骤：
9.s1：使用数据增强方法，对不同模态的一组图像进行仿射变换和随机裁剪，生成增强后的图像数据和相应的匹配矩阵gt_matrix；
10.s2：设计卷积神经网络和特征金字塔提取多尺度的图像特征，分别为1/8尺寸特征和1/2尺寸特征；
11.s3：设计transformer网络进一步对1/8尺寸的粗粒度特征进行提取，生成粗粒度的注意力特征；
12.s4：使用双向softmax函数处理粗粒度的注意力特征，生成置信度矩阵，再以匹配矩阵gt_matrix为标签进行粗匹配；
13.s5：设计局部特征窗口，通过transformer和卷积神经网络特征融合和特征提取，进行精化回归；
14.s6：使用精化回归对粗匹配的预测结果进行再调整，最终实现精确的多模态图像特征匹配。
15.进一步的，所述s1中，生成增强后的图像数据和相应的匹配矩阵gt_matrix，具体如下：
16.输入为不同模态的索引图imgq和参考图imgr，输出分别为原始图像的随机增强图像iq、ir，以及增强图像iq和ir之间的补丁级匹配标签gt矩阵；
17.对两种不同模态的图像分别进行随机裁剪，如果裁剪后的imgq和imgr重叠，则重叠部分可以相互转化；iq和ir的获取方式如下：
18.iq＝randomcrop(qm
×
imgq)
19.ir＝randomcrop(rm
×
imgr)
20.其中，在图像增强过程中，rm是在索引图imgq上的随机仿射矩阵，qm是在参考图imgr上的随机仿射矩阵；randomcrop表示在图像上的随机仿射变换。
21.进一步的，所述s1中，生成相应的匹配矩阵gt_matrix，具体如下：
22.将增强图像iq划分为n＝w/p
×
h/p网格，其中n为网格数，w和h为图像的高度和宽度，p
×
p为网格单元格大小；对于每个网格单元，定义一个网格单元坐标，其中第n个网格单元坐标计算如下：
[0023][0024]
上式中，是iq图像的网格单元格坐标，n为网格数，w为图像的高度，p是网格单元格的边长，其中
[0025]
将增强图像iq中所有网格的中心点作为查询点，其索引点像素坐标定义如下：
[0026][0027]
上式中，是iq图像的网格单元格坐标，是获取索引点坐标的函数，p是网格单元格的边长；
[0028]
将参考图imgr中与查询点对应的点定义为参考点，其参考点的像素坐标定义为中与查询点对应的点定义为参考点，其参考点的像素坐标定义为参考点是通过从查询点获得的，使用的是与图像仿射变换相同的矩阵；通过变换从查询点得到参考点，其表达式如下：
[0029][0030]
上式中，是索引点像素坐标，是获取参考点坐标的函数；
[0031]
获得参考点的像素坐标后，提取参考点的网格单元坐标为：
[0032][0033]
上式中，是ir图像的网格单元格坐标，是获取网格单元格坐标的函数，[]表示向下取整数；
[0034]iq
的网格单元在ir中的映射计算如下：
[0035][0036]
上式中，由于ir只与iq部分重叠，可能在ir图像的内部或外部，如果在ir图像中，则：
[0037][0038]
gt矩阵是n
×
n的方阵，gt(i，j)表示gt矩阵第i行第j列的元素，如果gt(i，j)＝1，则表示图像iq中的第i个网格单元与图像ir中的第j个网格单元匹配。
[0039]
进一步的，所述s2中，设计卷积神经网络和特征金字塔提取多尺度的图像特征，具体如下：
[0040]
网络接受大小为320
×
320
×
3的数据，输出大小为1/8尺寸特征和1/2尺寸特征，1/8尺寸特征是40
×
40
×
512，1/2尺寸特征是160
×
160
×
320，结合带有特征金字塔的卷积神经网络融合低分辨率语义信息和高分辨率空间信息的特征图，增强后的数据通过带有特征金字塔的卷积神经网络生成两组不同尺度的特征。
[0041]
进一步的，所述s3中，设计transformer网络进一步对1/8尺寸的粗粒度特征进行提取，生成粗粒度的注意力特征，具体如下：
[0042]
设计的transformer网络使用线性注意力机制代替点积注意力机制；
[0043]
设计的transformer包含自我注意层和交叉注意层，输入序列f是由特征fq加上它的位置数据p得到的；位置编码以正弦格式为每个元素提供唯一的位置信息，通过添加位置
编码，转换后的特征变得与位置相关，使基于多重特征匹配的多模态图像特征匹配方法即使在模糊的区域也能生成匹配；
[0044]
在自我注意层中，q、k和v由相同的输入序列f产生，从而学习到一张图片内部特征之间的关系；在交叉注意层中，q由一个输入序列fi生成，k和v由另一个输入序列fj生成，从而学习不同模态的成对图像之间的关系；特征通过4个交替的自注意层和交叉注意层生成输出数据and用于进一步的粗匹配。
[0045]
进一步的，所述s4中，使用双向softmax函数处理粗粒度的注意力特征，生成置信度矩阵，具体如下：
[0046]
在粗匹配模块中，输出数据和先通过多重感知器进行特征提取，然后设计一个双向softmax算子来构造置信度矩阵，在这两个维度上都使用softmax算法来获得软互最近邻匹配的概率，匹配概率p可定义为：
[0047]
p(i,j)＝softmax(s(i,
·
))j·
softmax(s(
·
,j))i[0048]
上式中，softmax()是归一化指数函数，将多分类的结果以概率的形式展现出来；此处的函数是双向softmax函数，即softmax(s(i,
·
))j指的是对第i行的所有元素做softmax的运算，得到一个总和为1，不同概率分布的行向量；softmax(s(
·
,j))i指的是对第j列的所有元素做softmax的运算，得到一个总和为1，不同概率分布的列向量；再将两个结果相乘，可获得一个概率矩阵，即置信度矩阵。
[0049]
进一步的，所述s4中，以匹配矩阵gt_matrix为标签进行粗匹配，计算置信度矩阵和gt矩阵的交叉熵损失然后得到粗匹配，粗匹配度预测函数如下：
[0050][0051]
上式中，lc表示粗匹配度预测函数，n代表样本数量，∑k表示对k个样本求和，lk表示求第k个样本的概率预测函数，gt
i，j
为gt矩阵的具体的标签样本，p(i，j)表示匹配正确的概率。
[0052]
进一步的，所述s5中，设计局部特征窗口，通过transformer和卷积神经网络特征融合和特征提取，进行精化回归，具体如下：
[0053]
将和的粗匹配点位置分别在精细级位置上进行精确定位，定位分别为其中是1/8尺度的索引图上的单位向量；是1/8尺度的参考图上的单位向量；是1/2尺度的索引图上的单位向量；是1/2尺度的参考图上的单位向量；然后以精细级位置和为中心设计两组w
×
w-sized局部特征窗口；
[0054]
将d通道的精细特征图和粗特征图通过局部特征窗口合并在一起，生成2d通道的特征图和接下来将和送入transformer和卷积神经网络，生成d通道特征映射和在进行精化回归之前，和被合并到一个具有2d通道的特征图f
q+r
，最后，利用全连接层和l2距离损失得到最终的精化回归；
[0055]
精化回归具体过程如下：
[0056]
从映射到原始查询图像的坐标为从映射到参考图像的坐标为和通过如下公式可得和
[0057][0058][0059]
上式中是获取原始查询图像坐标的函数，表示原始查询图像上坐标的单位向量；是获取参考图像坐标的函数，是获取参考图像坐标的函数，表示原始参考图像上坐标的单位向量；
[0060]
接下来，原始查询图像上坐标为的点被映射到原始参考图像，其映射坐标为由如下公式可得：
[0061][0062]
上式中，是获取映射坐标的函数，rm是在索引图上的随机仿射矩阵，qm是在参考图上的随机仿射矩阵。
[0063]
进一步的，所述s5中，设计局部特征窗口，通过transformer和卷积神经网络特征融合和特征提取，进行精化回归的过程是在原始图像上自动生成像素级标签，使基于多重特征匹配的多模态图像特征匹配方法能够在只有图像级标签数据可用的情况下执行像素级匹配操作。
[0064]
进一步的，所述s6中使用精化回归对粗匹配的预测结果进行再调整，最终实现精确的多模态图像特征匹配，具体如下：
[0065]
将精化回归结果(δx，δy)定义为预测坐标与实际坐标的差值，
[0066][0067]
上式中，l是最终损失函数loss function的简略表示，s为特征点个数，表示原始查询图像映射到参考图像上的坐标的单位向量，δx和δy分别为精化回归得到的水平偏差和垂直偏差。
[0068]
本发明的有益效果是：本发明解决了多模态图像的特征匹配问题，具有优秀的匹配能力和匹配精准度，并且能够在各种不同模态间都有非常好的泛化性，具有很高的实用价值。
附图说明
[0069]
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本
发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0070]
图1是本发明实施例的基于多重特征匹配的多模态图像特征匹配方法的流程图。
[0071]
图2是本发明实施例所取的不同特征匹配方法在多模态图像上匹配效果对比图。由上到下使用的方法分别是：femit、matchosnet和hardnet。其中femit是无检测器方法，matchosnet和hardnet是基于检测器的方法。
[0072]
图3是本发明实施例的基于多重特征匹配的多模态图像特征匹配方法的总体架构图。
[0073]
图4是本发明实施例的数据增强方法示意图。
[0074]
图5是本发明实施例的gt矩阵生成图。
[0075]
图6是本发明实施例的带有特征金字塔(fpn)的卷积神经网络(cnn)结构图。
[0076]
图7是本发明实施例的transformer构造图。
[0077]
图8是本发明实施例的粗匹配模块图。
[0078]
图9是本发明实施例的精化回归的模块图。
[0079]
图10a是本发明实施例的sen12ms数据集下相同场景nir-rgb模态的多种方法的平均匹配精确率对比图。
[0080]
图10b是本发明实施例的sen12ms数据集下相同场景sar-swir模态的多种方法的平均匹配精确率对比图。
[0081]
图10c是本发明实施例的sen12ms数据集下相同场景sar-nir模态的多种方法的平均匹配精确率对比图。
[0082]
图10d是本发明实施例的sen12ms数据集下相同场景nir-swir模态的多种方法的平均匹配精确率对比图。
[0083]
图11a是本发明实施例的nyu-depth v2数据集下不同场景不同模态的多种方法的平均匹配精确率对比图。
[0084]
图11b是本发明实施例的optical-sar数据集下不同场景不同模态的多种方法的平均匹配精确率对比图。
[0085]
图11c是本发明实施例的rgb-nir scene数据集下不同场景不同模态的多种方法的平均匹配精确率对比图。
[0086]
图11d是本发明实施例的whu-opt-sar数据集下不同场景不同模态的多种方法的平均匹配精确率对比图。
[0087]
图12是本发明实施例的消融实验的平均匹配精确率对比图。图中(1)是将损失函数替换为l1损失函数。(2)是将transformer替换为cnn。(3)是将femit模型扩充两倍大小。(4)是完整的femit方法。
具体实施方式
[0088]
下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0089]
如图1、图3所示，本实施例公开了一种基于多重特征匹配的多模态图像特征匹配方法(femit)，实现了在多模态数据下的特征匹配，包括以下步骤：
[0090]
s1：使用数据增强方法，对不同模态的一组图像进行仿射变换和随机裁剪，生成增强后的图像数据和相应的匹配矩阵gt_matrix。
[0091]
进一步地，生成增强后的图像数据和相应的匹配矩阵gt_matrix，流程如图4所示，具体如下：
[0092]
输入为不同模态的索引图(imgq)和参考图(imgr)，输出分别为原始图像的随机增强图像iq、ir，以及增强图像iq和ir之间的补丁级匹配标签gt矩阵(ground truth matrix)，iq和ir保证了训练样本的多样性，在线生成的gt矩阵标签保证了femit对粗匹配训练过程的有效监督。
[0093]
对两种不同模态的图像分别进行随机裁剪，如果裁剪后的imgq和imgr重叠，则重叠部分可以相互转化；iq和ir的获取方式如下：
[0094]iq
＝randomcrop(qm
×
imgq)
[0095]
ir＝randomcrop(rm
×
imgr)
[0096]
其中，在图像增强过程中，rm是在索引图(imgq)上的随机仿射矩阵，qm是在参考图(imgr)上的随机仿射矩阵；randomcrop表示在图像上的随机仿射变换。
[0097]
进一步地，生成相应的匹配矩阵gt_matrix的过程如下，流程如图5所示，
[0098]
在图像之间进行粗匹配训练，需要图像之间的匹配标签，称为gt矩阵；上述在增强图像iq和ir之间的补丁级匹配标签gt矩阵(groundtruthmatrix)，在线生成的gt矩阵，将iq划分为n＝w/p
×
h/p网格，其中n为网格数，w和h为图像的高度和宽度，p
×
p为网格单元格大小；对于每个网格单元，定义一个网格单元坐标，其中第n个网格单元坐标计算如下：
[0099][0100]
上式中，是iq图像的网格单元格坐标，n为网格数，w为图像的高度，p是网格单元格的边长，其中
[0101]
将iq中所有网格的中心点作为查询点，其索引点像素坐标定义如下：
[0102][0103]
上式中，是iq图像的网格单元格坐标，是获取索引点坐标的函数，p是网格单元格的边长。
[0104]
将imgr中与查询点对应的点定义为参考点，其参考点的像素坐标定义为参考点是通过从查询点获得的，使用的是与图像仿射变换相同的矩阵；由于索引图(imgq)和参考图(imgr)是不同模态数据的对应集，因此可以通过一系列变换从查询点得到参考点，其表达式如下：
[0105]
[0106]
上式中，是索引点像素坐标，是获取参考点坐标的函数，rm是在索引图(imgq)上的随机仿射矩阵，qm是在参考图(imgr)上的随机仿射矩阵。
[0107]
获得参考点的像素坐标后，提取参考点的网格单元坐标为：
[0108][0109]
上式中，是ir图像的网格单元格坐标，是获取网格单元格坐标的函数，[]表示向下取整数。
[0110]iq
的网格单元在ir空间中的映射计算如下：
[0111][0112]
上式中，是iq中网格单元的坐标，是映射到ir空间的网格单元坐标，由于ir只与iq部分重叠，可能在ir图像的内部或外部，如果在ir图像中：
[0113][0114]
gt矩阵是n
×
n的方阵，gt(i，j)表示gt矩阵第i行第j列的元素，如果gt(i，j)＝1，则表示图像iq中的第i个网格单元与图像ir中的第j个网格单元匹配。
[0115]
s2：设计卷积神经网络(cnn)和特征金字塔(fpn)提取多尺度的图像特征，分别为1/8尺寸特征(粗粒度特征)和1/2尺寸特征(细粒度特征)。
[0116]
如图6所示，本发明设计了一种带有特征金字塔(fpn)的卷积神经网络(cnn)，用于提取不同层次的特征。网络接受大小为320
×
320
×
3的数据，输出大小为40
×
40
×
512(1/8大小)和160
×
160
×
320(1/2大小)的特征。结合特征金字塔(fpn)的卷积神经网络(cnn)可以融合低分辨率语义信息和高分辨率空间信息的特征图。增强后的数据通过带特征金字塔(fpn)的卷积网络生成两组不同尺度的特征。表示粗粒度特征，是扩充数据iq，ir的1/8大小，用于后续的粗级特征匹配。表示细粒度特征，是增强数据iq，ir的1/2大小，用于实现后续的精化回归模块。
[0117]
s3：设计transformer网络进一步对1/8尺寸的粗粒度特征进行提取，生成粗粒度的注意力特征。
[0118]
transformer是用来处理自然语言处理问题的，不适合用于图像特征匹配，因此在femit方法中，对transformer进行了修改和调整，去掉解码器组件。
[0119]
l层transformer的计算公式为：
[0120]
t
l
(f)＝h
l
(a
l
(f)+f)；
[0121]
上式中，t
l
(f)是transformer生成的特征，h
l
(a
l
(f)+f)是前馈网络的函数，a
l
(f)是作用于序列的自我注意函数，用于计算所有位置特征表示的加权平均值，f是输入序列。
[0122]
transformer的自我注意层和交叉注意层的输入向量均为查询向量q、键向量k和值向量v，其三者是由输入序列f通过三个矩阵导出：
[0123]
q＝fwq,
[0124]
k＝fwk,
[0125]
v＝fwv；
[0126]
上式中，wq、wk和wv分别表示查询向量q、键向量k和值向量v的权重。
[0127]
transformer原本采用点积注意，可表示为:
[0128][0129]
上式中，a
l
(f)是作用于序列的自我注意函数，用于计算所有位置特征表示的加权平均值；首先将查询向量q和键向量k做点积注意计算，之后将点积注意计算除以d为键向量k的维度，再将计算结果通过softmax归一化处理，得到我们所需要的权重值，最后，将权重值与值向量v进行点乘并加权求和，得到该序列的自我注意函数。
[0130]
原始transformer中，q和k的点积注意计算代价为o(n2)，其中n表示序列长度，但图像数据比自然语言数据大得多，处理图像问题时o(n2)的计算复杂度是不合适的，本文用线性注意代替点积注意。线性transformer用核函数代替指数核，定义如下：
[0131][0132]
φ(
·
)＝elu(
·
)+1
[0133]
上式中，是指数函数，sin(q,k)是相似度函数，elu(
·
)表示指数线性单位。
[0134]
根据以上两个公式，可以得到：
[0135][0136]
由于和可以计算一次并在每次查询中重用，所以线性transformer中的线性注意是o(n)，其中n表示序列长度。
[0137]
如图7所示，本发明设计的transformer包含自我注意层和交叉注意层。输入序列f是由特征fq加上它的位置数据p得到的。位置编码以正弦格式为每个元素提供唯一的位置信息。通过添加位置编码，转换后的特征变得与位置相关，使femit即使在模糊的区域也能生成匹配。在自我注意层中，q、k和v由相同的输入序列f产生，从而学习到一张图片内部特征之间的关系。在交叉注意层中，q由一个输入序列fi生成，k和v由另一个输入序列fj生成，从而学习不同模态的成对图像之间的关系。特征通过4个交替的自注意层和交叉注意层生成输出数据and用于进一步的粗匹配。
[0138]
s4：使用双向softmax函数处理粗粒度的注意力特征，生成置信度矩阵，再以匹配矩阵gt_matrix为标签进行粗匹配。
[0139]
如图8所示，在粗匹配模块中，和首先通过多重感知器(mlp)进行特征提取。然后设计一个双向softmax算子来构造置信度矩阵。在这两个维度上都使用softmax算法来
获得软互最近邻匹配的概率，匹配概率p可定义为：
[0140]
p(i,j)＝softmax(s(i,
·
))j·
softmax(s(
·
,j))i[0141]
上式中，softmax()是归一化指数函数，将多分类的结果以概率的形式展现出来。此处的函数是双向softmax函数，即softmax(s(i,
·
))j指的是对第i行的所有元素做softmax的运算，得到一个总和为1，不同概率分布的行向量；softmax(s(
·
,j))i指的是对第j列的所有元素做softmax的运算，得到一个总和为1，不同概率分布的列向量；再将两个结果相乘，即可获得一个概率矩阵，即为本发明需要的置信度矩阵。
[0142]
计算置信度矩阵和gt矩阵的交叉熵损失，得到最终的粗匹配。粗匹配度预测函数如下：
[0143][0144]
上式中，lc表示粗匹配度预测函数(loss_coarse)，n代表样本数量，∑k表示对k个样本求和，lk表示求第k个样本的概率预测函数，gt
i,j
为gt矩阵的具体的标签样本，p(i,j)表示匹配正确的概率。
[0145]
s5：设计局部特征窗口，通过transformer和卷积神经网络(cnn)特征融合和特征提取，进行精化回归。
[0146]
此过程在原始图像上自动生成像素级标签，使femit能够在只有图像级标签数据可用的情况下执行像素级匹配操作。
[0147]
如图9所示，粗粒度特征上的一个单元对应于细粒度特征上的4x4个单元，位置和的粗匹配点位于精细级位置分别为其中是粗匹配特征图(1/8尺度)的索引图(query)上的单位向量；是粗匹配特征图(1/8尺度)的参考图(refer)上的单位向量；是精匹配特征图(1/2尺度)的索引图(query)上的单位向量；是精匹配特征图(1/2尺度)的参考图(refer)上的单位向量。然后以精细级位置和为中心设计了两组w
×
w-sized局部特征窗口，将d通道的精细特征图和粗特征图通过局部特征窗口合并在一起，生成2d通道的特征图和接下来，和被送入transformer和卷积神经网络，生成d通道特征映射和在进行精化回归之前，和被合并到一个具有2d通道的特征图f
q+r
，最后，利用全连接层和l2距离损失得到最终的精化回归。
[0148]
其精化回归具体过程如下：
[0149]
从映射到原始查询图像的坐标为从映射到参考图像的坐标为和通过如下公式可得和
[0150]
[0151][0152]
上式中是获取原始查询图像坐标的函数，表示原始查询图像上坐标的单位向量；是获取参考图像坐标的函数，是获取参考图像坐标的函数，表示原始参考图像上坐标的单位向量。
[0153]
接下来，原始查询图像上坐标为的点被映射到原始参考图像，其映射坐标为由如下公式可得：
[0154][0155]
上式中，是获取映射坐标的函数，rm是在索引图上的随机仿射矩阵，qm是在参考图上的随机仿射矩阵。
[0156]
s6：使用精化回归对粗匹配的预测结果进行再调整，最终实现精确的多模态图像特征匹配。
[0157]
将精细回归结果(δx，δy)定义为预测坐标与实际坐标的差值。
[0158][0159]
上式中，l是最终损失函数loss function的简略表示，s为特征点个数，表示原始查询图像映射到参考图像上的坐标的单位向量，δx和δy分别为精化回归得到的水平偏差和垂直偏差。
[0160]
实施例1
[0161]
本实施例公开了一种基于多重特征匹配的多模态图像特征匹配方法(femit)，在其他客观环境相同的情况下，与其他多种方法进行对比实验，从而验证本发明设计的方法的匹配效果。
[0162]
一、评价指标：
[0163]
1、平均精度估计(mean matching accuracy(mma))
[0164]
对于每个图像对，平均精度估计(mma)使用只接受相互最近邻的算法来匹配每种方法提取的特征，如果同质性估计的重投影误差低于给定的匹配阈值，则认为匹配是正确的。mma得分是考虑多个像素错误阈值的图像对中正确匹配的平均百分比，并显示所有图像对中每个阈值的平均得分。
[0165]
2、单映性估计(homography estimation)
[0166]
在每个测试序列中，一幅参考图像与五幅其他图像配对，正确性标识符由经过估计的扭曲的图像与地面真实值h之间的角误差计算得到，角误差达到不同阈值的累积曲线下区域应单独报告。
[0167]
二、实验过程：
[0168]
1、验证在相同场景的不同模态下，不同方法的匹配效果。
[0169]
如图10a～图10d所示，在sen12ms数据集的多模态图像上测试不同的方法进行mma
估计。mma图的横坐标是像素阈值，纵坐标是平均匹配准确率，计算不同方法在像素值从1到10的平均匹配精度。mma曲线越靠上、靠左，说明该方法的特征匹配性能越好。从图10a～图10d可以看出，femit在sen12ms数据集不同模态下的mma曲线都是最好的，实施例1所取的不同特征匹配方法在多模态图像上特征匹配的效果对比图如图2所示，图2由上到下使用的方法分别是：femit、matchosnet和hardnet，其中femit是无检测器方法，matchosnet和hardnet是基于检测器的方法；实验结果见表1。
[0170]
表1 sen12ms数据集的相同场景的不同模态上多种方法进行单映性估计对比实验
[0171]
[0172][0173]
如表1所示，表中所展示的是单映性估计的累计曲线(auc)下角误差分别达到阈值3、5和10像素的区域。在相同像素阈值下，单映性估计的数值越高代表其特征匹配效果越好，在对同一幅图像的不同模态的实验中可以看出，femit在单应性估计方面具有良好的性能。实验证明，在相同图像的不同模态下，femit方法与其他方法相比具有良好的性能。
[0174]
2、验证在不同场景的不同模态下，不同方法的匹配效果。
[0175]
如图11a～图11d所示，在new-depth v2、optics-sar、rgb-nir和whu-opt-sar数据集的多模态图像上测试了不同的方法来进行平均精度估计。从图11a～图11d可以看出，在不同的多模态数据集上，femit方法的mma指数均优于其他方法，证明femit方法在处理多模态数据时具有良好的准确性和泛化性，实验结果见表2。
[0176]
表2不同数据集(不同场景)的不同模态上多种方法进行单映性估计对比实验
[0177]
[0178][0179]
如表2所示，不同的方法在nyu-depth v2、optical-sar、rgb-nir和whu-opt-sar数据集的多模态图像上进行单应性估计，单映性估计的数值越高代表其特征匹配效果越好，femit在对不同图像进行不同模态单应性估计的实验中表现最好。
[0180]
实施例2
[0181]
本实施例中，对femit分别设计不同的变体，对实施例1中的特征匹配方法进行对比实验，从而验证本发明设计的femit算法的性能。
[0182]
表3消融实验：对femit分别设计不同的变体，进行对比实验
[0183][0184]
本发明为了充分了解不同模块在femit中的作用，设计了几种不同的变体来进行消融实验。(1)将损失函数替换为l1损失函数。(2)将transformer替换为cnn。(3)将femit模型扩充两倍大小，nc＝8,nf＝2。(4)完整的femit方法。如图12和表3所示，femit的性能优于所有变体，说明目前femit算法的设计在网络结构和损失函数上都是最合理、最有效的。
[0185]
本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
[0186]
以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：廖赟邸一得周豪朱开军
技术所有人：云南览易网络科技有限责任公司
我是此专利的发明人

上一篇：一种用于大型工件加工的吊装转运装置的制作方法
上一篇：一种动物大肠自动清洗机的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。