一种深度语义理解的图像匹配方法与流程

文档序号：37346846发布日期：2024-03-18 18:22阅读：39来源：国知局

本发明涉及图像匹配的，尤其涉及一种深度语义理解的图像匹配方法。

背景技术：

1、图像匹配在图片查找，身份识别等任务中发挥着重要作用。目前，图像匹配领域存在多种方法和算法。常见的图像匹配方法包括特征提取与描述、基于深度学习的方法、局部特征匹配等。传统方法如sift、surf等通过提取关键点和特征描述子来进行匹配。而深度学习方法如cnn（卷积神经网络）可以自动学习图像表示并进行匹配。此外，一些基于图形模型、bag of visual words等方法也被广泛应用于图像匹配中。目前主流的图像度量学习网络结构是基于对比约束的监督学习算法，训练时需要大量的标注数据，耗费的成本是巨大的。此外，这些算法在相似性度量时只关注图像本身，即关注图像像素级的相似性而没有考虑图像内容，也就是图像语义的相似性。尤其是仅对图像外延内容稍作修改时极容易判别为不同图像，而没有考虑图像内涵。针对该问题，本发明提出一种深度语义理解的图像匹配方法，通过提取图像语义进行相似性判断，实现图像精准匹配。

技术实现思路

1、有鉴于此，本发明提供一种深度语义理解的图像匹配方法，目的在于：1）在保留原始支撑图像像素分布的基础上，采用掩膜自编码方式对支撑图像进行泛化处理，得到支撑图像像素非线性变换的变异支撑图像集合，扩展可进行匹配的支撑图像数目，以及实现支撑图像的泛化分割处理，利用图像深度语义理解模型分别提取变异支撑图像的自注意力特征与多尺度局部感知特征作为深度语义特征，并结合映射融合的方式获取更为稳定的尺度特征，对所提取深度语义特征进行融合处理，得到表征变异支撑图像在变异支撑图像集合中自注意力权重以及自身局部感知特征的稳定语义特征，实现变异支撑图像的语义特征提取；2）利用深层语义特征提取网络模型依次对查询图像进行多尺度卷积残差处理、池化操作、深度可分离卷积处理以及结合上下文的语义感知处理，得到查询图像的深层语义特征，通过结合深层语义特征与稳定语义特征的特征分布差异以及特征方向差异，对查询图像的深层语义特征和变异支撑图像的稳定语义特征进行相似度计算，选取相似度高于指定阈值的变异支撑图像所对应的支撑图像作为图像匹配结果，实现结合图像语义的图像匹配处理。

2、实现上述目的，本发明提供的一种深度语义理解的图像匹配方法，包括以下步骤：

3、s1：获取查询图像以及若干支撑图像，构建支撑图像泛化模型对支撑图像进行泛化处理，得到变异支撑图像集合，所述支撑图像泛化模型以支撑图像为输入，以变异支撑图像集合为输出，其中掩膜自编码为所述支撑图像泛化的主要实施方法；

4、s2：构造图像深度语义理解模型，提取变异支撑图像集合中变异支撑图像的稳定语义特征，所述图像深度语义理解模型以变异支撑图像为输入，融合全局的自注意力特征与多尺度局部感知特征，得到变异支撑图像的稳定语义特征；

5、s3：构造深层语义特征提取网络模型，提取查询图像的深层语义特征，其中深层语义特征提取网络模型包括多维提取网络模块、深层语义特征提取网络模块和语义感知网络模块；

6、s4：对查询图像的深层语义特征和变异支撑图像的稳定语义特征进行相似度计算，选取相似度高于指定阈值的变异支撑图像所对应的支撑图像作为图像匹配结果。

7、作为本发明的进一步改进方法：

8、可选地，所述s1步骤中获取查询图像以及若干支撑图像，并构建支撑图像泛化模型，包括：

9、获取查询图像i以及若干支撑图像，其中支撑图像为用于对查询图像进行图像匹配的候选图像，所采集支撑图像的表示形式为：

10、；

11、其中：表示所获取第n张支撑图像；

12、构建支撑图像泛化模型，利用支撑图像泛化模型对支撑图像进行泛化处理，得到变异支撑图像集合，其中支撑图像泛化模型包括输入层、图像泛化层以及输出层，输入层用于输入支撑图像，图像泛化层用于对支撑图像进行泛化映射处理，输出层用于将支撑图像的泛化映射处理结果作为变异支撑图像进行输出。

13、可选地，所述s1步骤中利用支撑图像泛化模型对支撑图像进行泛化处理，得到变异支撑图像集合，包括：

14、利用支撑图像泛化模型对支撑图像进行泛化处理，其中支撑图像的泛化处理流程为：

15、 s11：输入层接收支撑图像，并将支撑图像传输至图像泛化层；

16、 s12：图像泛化层对支撑图像进行m次泛化映射处理：

17、；

18、其中：

19、表示支撑图像的第m次泛化映射处理结果；

20、表示非线性映射函数；在本发明实施例中，所选取非线性映射函数为sigmoid函数；

21、表示第m次泛化映射处理模板；

22、表示hadamard积运算符；

23、 s13：输出层将支撑图像的泛化映射处理结果作为变异支撑图像进行输出，构成支撑图像的变异支撑图像集合：。

24、可选地，所述s2步骤中构造图像深度语义理解模型，包括：

25、构造图像深度语义理解模型，所述图像深度语义理解模型以变异支撑图像为输入，融合全局的自注意力特征与多尺度局部感知特征，得到变异支撑图像的稳定语义特征，其中图像深度语义理解模型包括输入层、深度语义特征提取层以及稳定语义特征构造层，输入层用于接收变异支撑图像，深度语义特征提取层用于分别提取变异支撑图像的自注意力特征与多尺度局部感知特征作为深度语义特征，稳定语义特征构造层用于将深度语义特征构造为变异支撑图像的稳定语义特征。

26、可选地，所述s2步骤中利用图像深度语义理解模型提取变异支撑图像集合中变异支撑图像的稳定语义特征，包括：

27、利用图像深度语义理解模型提取变异支撑图像集合中变异支撑图像的稳定语义特征，其中变异支撑图像集合中变异支撑图像的稳定语义特征提取流程为：

28、 s21：输入层接收变异支撑图像；

29、 s22：深度语义特征提取层分别提取变异支撑图像的自注意力特征与多尺度局部感知特征作为深度语义特征：

30、；

31、；

32、；

33、其中：

34、 t表示转置；

35、分别表示深度语义特征提取层中的卷积权重矩阵；

36、 d表示的维度；

37、表示分别利用像素大小的卷积核对变异支撑图像进行卷积处理，得到的三种尺度下的局部感知特征；

38、s23：稳定语义特征构造层将深度语义特征构造为变异支撑图像的稳定语义特征：

39、；

40、；

41、其中：

42、表示变异支撑图像的稳定语义特征；

43、表示relu激活函数；

44、表示以自然常数为底的指数函数；

45、表示使得达到最大的参数，其中。

46、可选地，所述s3步骤中构造深层语义特征提取网络模型，提取查询图像的深层语义特征，包括：

47、构造深层语义特征提取网络模型，利用深层语义特征提取网络模型提取查询图像i的深层语义特征，其中深层语义特征提取网络模型包括多维提取网络模块、深层语义特征提取网络模块和语义感知网络模块，多维提取网络模块用于接收查询图像，并对查询图像进行多尺度卷积残差处理，生成查询图像的多尺度特征图，深层语义特征提取网络模块用于将多尺度特征图转换为深层语义特征向量，语义感知网络模块用于对深层语义特征向量进行结合上下文的语义感知处理，生成查询图像的深层语义特征；

48、基于深层语义特征提取网络模型的查询图像i深层语义特征提取流程为：

49、 s31：多维提取网络模块接收查询图像i，对查询图像i进行多尺度卷积残差处理，其中多尺度卷积残差处理公式为：

50、；

51、其中：

52、表示查询图像i在第u个尺度下的卷积残差处理结果，u表示最大卷积残差尺度；

53、表示利用像素大小的卷积核进行的卷积操作；

54、根据多尺度卷积残差处理结果，生成查询图像i的多尺度特征图：

55、；

56、；

57、其中：

58、表示查询图像i的多尺度特征图；

59、表示查询图像i在第u个尺度下的特征图；

60、表示最大池化操作，表示平均池化操作，表示特征拼接处理符号；

61、 s32：深层语义特征提取网络模块将多尺度特征图转换为深层语义特征向量：

62、；

63、其中：

64、表示多尺度特征图对应的深层语义特征向量；

65、表示对特征图进行六次深度可分离卷积处理以及三次最大池化操作；

66、 s33：语义感知网络模块对深层语义特征向量进行结合上下文的语义感知处理，生成查询图像的深层语义特征：

67、；

68、其中：

69、 w表示语义感知网络模块的权重参数矩阵；

70、表示relu激活函数；

71、表示查询图像i的深层语义特征。

72、可选地，所述s4步骤中对查询图像的深层语义特征以及变异支撑图像的稳定语义特征进行相似度计算，选取相似度高于指定阈值的变异支撑图像所对应的支撑图像作为图像匹配结果，包括：

73、对查询图像的深层语义特征以及变异支撑图像的稳定语义特征进行相似度计算，其中深层语义特征与稳定语义特征的相似度计算公式为：

74、；

75、其中：

76、表示深层语义特征与稳定语义特征的相似度；

77、表示l1范数；

78、选取相似度高于指定阈值的变异支撑图像所对应的支撑图像作为查询图像i的图像匹配结果。在本发明实施例中，表示深层语义特征与稳定语义特征的特征分布差异，表示深层语义特征与稳定语义特征的特征方向差异。

79、为了解决上述问题，本发明提供一种电子设备，所述电子设备包括：

80、存储器，存储至少一个指令；

81、通信接口，实现电子设备通信；及处理器，执行所述存储器中存储的指令以实现上述所述的深度语义理解的图像匹配方法。

82、为了解决上述问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现上述所述的深度语义理解的图像匹配方法。

83、相对于现有技术，本发明提出一种深度语义理解的图像匹配方法，该技术具有以下优势：

84、首先，本方案提出一种支撑图像泛化以及语义特征提取方法，利用支撑图像泛化模型对支撑图像进行泛化处理，其中支撑图像的泛化处理流程为：输入层接收支撑图像，并将支撑图像传输至图像泛化层；图像泛化层对支撑图像进行m次泛化映射处理：

85、；

86、其中：表示支撑图像的第m次泛化映射处理结果；表示非线性映射函数；表示第m次泛化映射处理模板；表示hadamard积运算符；输出层将支撑图像的泛化映射处理结果作为变异支撑图像进行输出，构成支撑图像的变异支撑图像集合：。构造图像深度语义理解模型，所述图像深度语义理解模型以变异支撑图像为输入，融合全局的自注意力特征与多尺度局部感知特征，得到变异支撑图像的稳定语义特征，其中图像深度语义理解模型包括输入层、深度语义特征提取层以及稳定语义特征构造层，输入层用于接收变异支撑图像，深度语义特征提取层用于分别提取变异支撑图像的自注意力特征与多尺度局部感知特征作为深度语义特征，稳定语义特征构造层用于将深度语义特征构造为变异支撑图像的稳定语义特征。本方案在保留原始支撑图像像素分布的基础上，采用掩膜自编码方式对支撑图像进行泛化处理，得到支撑图像像素非线性变换的变异支撑图像集合，扩展可进行匹配的支撑图像数目，以及实现支撑图像的泛化分割处理，利用图像深度语义理解模型分别提取变异支撑图像的自注意力特征与多尺度局部感知特征作为深度语义特征，并结合映射融合的方式获取更为稳定的尺度特征，对所提取深度语义特征进行融合处理，得到表征变异支撑图像在变异支撑图像集合中自注意力权重以及自身局部感知特征的稳定语义特征，实现变异支撑图像的语义特征提取。

87、同时，本方案提出一种查询图像的深层语义特征提取方式以及特征相似度度量方式，构造深层语义特征提取网络模型，利用深层语义特征提取网络模型提取查询图像i的深层语义特征，其中深层语义特征提取网络模型包括多维提取网络模块、深层语义特征提取网络模块和语义感知网络模块，多维提取网络模块用于接收查询图像，并对查询图像进行多尺度卷积残差处理，生成查询图像的多尺度特征图，深层语义特征提取网络模块用于将多尺度特征图转换为深层语义特征向量，语义感知网络模块用于对深层语义特征向量进行结合上下文的语义感知处理，生成查询图像的深层语义特征，对查询图像的深层语义特征以及变异支撑图像的稳定语义特征进行相似度计算，其中深层语义特征与稳定语义特征的相似度计算公式为：

88、；

89、其中：表示深层语义特征与稳定语义特征的相似度；表示l1范数；选取相似度高于指定阈值的变异支撑图像所对应的支撑图像作为查询图像i的图像匹配结果。本方案利用深层语义特征提取网络模型依次对查询图像进行多尺度卷积残差处理、池化操作、深度可分离卷积处理以及结合上下文的语义感知处理，得到查询图像的深层语义特征，通过结合深层语义特征与稳定语义特征的特征分布差异以及特征方向差异，对查询图像的深层语义特征和变异支撑图像的稳定语义特征进行相似度计算，选取相似度高于指定阈值的变异支撑图像所对应的支撑图像作为图像匹配结果，实现结合图像语义的图像匹配处理。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王洪玲
技术所有人：湖南善禧文化股份有限公司
我是此专利的发明人

上一篇：一种防治土壤盐碱化的污水输送管道用清理装置的制作方法
上一篇：一种智慧城市的环境监测方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。