一种基于空间自注意力的地标检索识别与定位方法与流程

文档序号:33398362发布日期:2023-03-08 14:51阅读:208来源:国知局
一种基于空间自注意力的地标检索识别与定位方法与流程

1.本发明涉及图像识别领域,具体涉及一种基于空间自注意力的地标检索识别与定位方法。


背景技术:

2.地标识别(landmark recognition)是基于图像中标志性建筑和景点的特征在地标库中进行检索和判断的过程。地标定位是在地标识别的基础上,结合地理信息库进行图片定位的过程。网络社交平台上包含大量公众发布的地标图片,对图像进行地标识别与定位,对分析人员流动特征和精准信息推荐具有重要的作用与价值。图像的地标识别通常使用卷积神经网络来提取图片中地标的特征,在地标库进行地标特征相似度计算与识别。然而卷积神经网络具有显著的归纳偏置,在某些情况下不能很好地表示不同区域信息之间的联系。


技术实现要素:

3.本发明的目的在于提出一种基于空间自注意力的地标检索识别与定位方法。
4.实现本发明目的的技术解决方案为:一种基于空间自注意力的地标检索识别与定位方法,使用空间自注意力提取图片内部联系特征,实现图像地标识别,具体步骤如下:
5.步骤1:数据准备:收集包含地标建筑的图片,构建地标数据库和地标地理位置数据库,标准化处理后得到训练数据集;
6.步骤2:地标图片特征提取:构建基于空间注意力的特征提取模型,对地标图片进行特征提取,将地标图片信息转化为特征向量;
7.步骤3:地标图片向量转化:使用步骤2的模型对步骤1构建的训练数据集中的每一个地标图片进行特征提取并转化为特征向量,并为每一个地标图片构建相似图片集合;
8.步骤4:相似地标检索:对测试图片进行标准化处理和特征提取,并使用基于k近邻法在训练数据集中检索最相似的k个地标图片;
9.步骤5:地标识别:对检索得到的最相似的k个地标图片进行投票统计,票数最高的地标即为该测试图片的地标,结合地标地理位置数据库和相似图片集合,输出地标检索识别与定位结果。
10.进一步的,步骤1,收集包含地标建筑的图片,构建地标数据库和地标地理位置数据库标准化处理后得到训练数据集,具体步骤为:
11.步骤1.1:收集包含地标建筑的图片,将不同地标的图片分开保存,同一类别的图标放在同一个文件夹下进行存储,构建地标数据库;
12.步骤1.2:统计地标数据库中每个地标的名称信息,获取每个地标的经纬度信息,形成地标地理位置数据库;
13.步骤1.3:从不同类别的地标图片中随机抽取数量不等的图片,经过拉伸、缩放、裁剪操作,得到标准化的地标图片,构建训练数据集。
14.进一步的,步骤2中,地标图片特征提取,使用基于swin transformer的神经网络作为地标图片特征提取模型,具体为:
15.地标图片特征提取模型包含若干swin transformer block和全局平均池化层gap,地标图片输入地标图片特征提取模型经过patch嵌入转化为向量化小块;向量化小块依次输入两个swin transformer block、patch融合层、两个swin transformer block、patch融合层、六个swin transformer block、patch融合层以及两个swin transformerblock,得到不同尺度特征图;全局平均池化层gap融合各个尺度的特征图,得到输入图片的向量表示;
16.swin transformerblock,计算公式如下:
[0017][0018][0019][0020][0021]
其中,和z
l
分别表示第l个斑块经过注意力模块和mlp的输出,wmsa和swmsa分别表示固定窗口注意力模块和滑动窗口注意力模块,ln表示layer norm层。
[0022]
更进一步的,固定窗口注意力模块将降维后的特征张量均匀的划分为指定大小的窗口,在各个窗口内分别计算注意力,公式如下:
[0023][0024]
其中q,k,v分别为query,key和value矩阵;d为q/k的维度,b为相对位置编码矩阵;
[0025]
进一步的,步骤5,对检索得到的最相似的k个地标图片进行投票统计,票数最高的地标即为该测试图片的地标,结合地标地理位置数据库和相似图片集合,输出地标检索识别与定位结果,具体方法为:
[0026]
步骤5.1:对检索得到的最相似的k个地标图片进行投票统计,统计出现频率最高的地标,将该地标识别为测试输入地标图像所属的地标;
[0027]
步骤5.2:从检索结果中删除所属地标以外的其他地标图像,利用步骤3中得到的相似图片集合进行补充,使用余弦相似度重新对补充后的相似地标图像进行计算并按照从大到小排序;
[0028]
步骤5.3:结合地标地理位置数据库得到地标地理位置,输出识别的地标以及对应的地理位置坐标。
[0029]
一种基于空间自注意力的地标检索识别与定位系统,基于所述的地标检索识别与定位方法,实现基于空间自注意力的地标检索识别与定位。
[0030]
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,基于所述的地标检索识别与定位方法,实现基于空间自注意力的地标检索识别与定位。
[0031]
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,基于所述的地标检索识别与定位方法,实现基于空间自注意力的地标检索识别与定
位。
[0032]
本发明与现有技术相比,其显著优点为:1)基于空间注意力能够更好的提取图像全局特征,增强关键地物的特征信息。2)基于地标位置信息库,在地标识别的基础上可以得到准确地理位置,进行图片加载。
附图说明
[0033]
图1是基于空间自注意力的地标图像识别检索的流程图;
[0034]
图2是地标识别采用的transformer特征提取网络结构示意图;
[0035]
图3是swin transformer block计算流程图;
[0036]
图4是步骤5地标识别模块的流程图;
[0037]
图5是测试输入图片示例图。
具体实施方式
[0038]
为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
[0039]
步骤1:数据准备
[0040]
步骤1.1:收集包含地标建筑的相关图片,将不同地标的图片分开保存,同一类别的图标放在同一个文件夹下进行存储。
[0041]
步骤1.2:统计并收集样本集每个地标的名称信息,通过谷歌地球等手段获取每个地标的经纬度信息,形成数据库,结构示例如下表1所示。
[0042]
表1地标数据库样例表
[0043]
地标编码地标名称地标经度地标纬度1天安门116.397228
°
e39.909604
°
n2东方明珠塔121.506377
°
e31.245105
°
n3布达拉宫91.125230
°
e29.660348
°n…………
[0044]
步骤1.3:从不同类别的地标图片中随机抽取数量不等的图片,经过拉伸、缩放、裁剪等操作组成224*224的图片,构造训练数据集。
[0045]
步骤2:地标图片特征提取
[0046]
使用基于swin transformer的神经网络作为地标图片特征提取模型,模型包含若干swin transformerblock和全局平均池化层gap。首先,模型接收地标图片输入,使用patch embedding将图像转化为向量化小块;其次,将得到的向量化小块依次输入两个swin transformerblock、patch融合层、两个swin transformer block、patch融合层、六个swin transformer block、patch融合层以及两个swin transformerblock,得到不同尺度特征图;最后使用全局平均池化层gap融合各个尺度的特征图,得到输入图片的向量表示。模型的结构如图2所示,具体步骤如下:
[0047]
步骤2.1:数据预处理。使用patch嵌入将输入的图像转化为向量化的小块。首先将图片i均匀划分为若干个4*4的小块(i=[p1,p2,p3,

]),然后使用二维卷积将每个小块的
像素转换到指定的维度c。
[0048]
步骤2.2:使用swin transformerblock特征提取
[0049]
swin transformerblock包含layer norm层、固定窗口注意力层、滑动窗口注意力层以及mlp层,结构如图3所示,计算公式如下:
[0050][0051][0052][0053][0054]
其中,和zl分别表示第l个斑块经过注意力模块和mlp的输出,wmsa和swmsa分别表示固定窗口注意力层和滑动窗口注意力层,ln表示layer norm层。固定窗口注意力将降维后的特征张量均匀的划分为指定大小的窗口,在各个窗口内分别计算注意力,公式如下:
[0055][0056]
其中q,k,分别为query,key和value矩阵;d为q/k的维度,m2是patch的数量,b为相对位置编码矩阵。
[0057]
单独使用固定窗口注意力计算一定程度上限制了模型的建模能力,因此使用swintransformerblock加入移动窗口实现不同窗口间的注意力计算。滑动窗口注意力的计算方式与固定注意力一致,不同点在于计算窗口会循环移位,产生滑动的效果。
[0058]
经过patch嵌入得到若干向量化小块,使用swin transformerblock对这些小块进行特征提取。首先,使用layernorm层对输入的向量进行归一化,将归一化结果输入固定窗口注意力模块wmsa计算其注意力特征,将注意力特征计算结果与输入相加融合图片原始信息,再使用layernorm对融合后特征归一化,使用mlp层映射至与输入相同大小的维度向量;其次,同样先使用layer norm归一化后使用滑动窗口注意力模块swmsa计算其滑动注意力特征,与wmsa计算的固定窗口注意力特征相加得到融合多重窗口的注意力特征;最后,将注意力特征使用layer norm归一化后,使用mlp将其映射至与输入相同维度,与注意力特征相加后输出,得到swin transformerblock对向量块提取的特征信息。得到向量块特征信息后,使用patch merging方法将swin transformerblock提取得到的若干向量块特征进行拼接,得到整张输入图片的特征图。针对通道数为c的特征图,在行和列的方向上间隔2选取元素,形成4*c个降分辨率的特征图,然后拼接在一起作为一个张量,使用全连接层将特征数降为2*c。
[0059]
步骤2.3:多尺度特征提取
[0060]
如图2所示,将各个阶段的transformerblock输出的特征图提取出来,使用gap(global averageepooling)算子进行特征平均,最后使用全连接层进行图片特征维度转换,输出图片的特征向量。
[0061]
步骤3:地标图片向量转化。
[0062]
步骤3.1:使用步骤2的特征提取模型swin transformer网络对预先构建好的地标
样本数据集中的每一个地标图片进行特征提取,将每一个地标图片转化为一个特征向量。
[0063]
步骤3.2:根据得到的特征向量,使用knn为每一个地标图片计算同属于一个地标的最相似的5个地标图片。相似地标图片为后续地标检索和识别提供数据基础。
[0064]
步骤4:相似地标检索。
[0065]
输入测试图片,使用步骤2的特征提取模型将其转化为特征向量。使用基于k近邻和余弦相似度指标在地标样本数据库里进行地标的检索,选取最相似top-10的地标图像。
[0066]
步骤5:地标识别。
[0067]
基于步骤4检索得到的基于测试输入地标图片的数据库中top-10相似地标图像,统计这些top-10图像中出现频率最高的地标,将该地标识别为测试输入地标图像所属的地标。根据其得到的地标,从top-10检索结果中删除掉该地标以外的其他地标图像(负样本),使用从步骤3中得到的相似地标图像(正样本)进行补充。使用余弦相似度重新对补充后的相似地标图像进行计算并按照从大到小排序。最后,结合地标地理位置数据库得到地标地理位置,输出识别的地标以及对应的地理位置坐标。
[0068]
综上所述,本发明使用空间自注意力提取图片内部联系特征,有助于更有效地实现图像地标识别。
[0069]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0070]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1