一种结合场景文本语义信息的SLAM回环检测方法与流程

文档序号:22501525发布日期:2020-10-13 09:34阅读:168来源:国知局
一种结合场景文本语义信息的SLAM回环检测方法与流程

本发明属于同步定位与地图构建技术领域,具体涉及一种结合场景文本语义信息的slam回环检测方法。



背景技术:

智能移动机器人因其广阔的应用前景而受到广泛关注,随着人工智能技术的发展,机器学习等领域的技术创新也被融入到机器人技术中,提高了机器人的移动性和智能性。为了在工业和生活中发挥更大的作用,智能移动机器人需要具备自主移动的能力,即通过感知环境信息进行定位与导航,这就是同步定位与地图构建(simultaneouslocalizationandmapping,slam)技术需要解决的问题。基于slam技术的机器人可以在移动过程中根据位姿估计和传感器数据进行自身定位,同时对周围环境构造增量式地图,并进一步实现路径规划、导航等功能。

回环检测是slam的一个重要环节,即通过让机器人识别出曾经达到过的场景,解决位姿估计随时间漂移的问题;在视觉slam中,回环检测在于发现两帧图像之间的相似性。传统回环检测中一般通过词袋模型(bag-of-words,bow)来计算相似性:在提取出图像中人工设计的视觉特征后,bow模型将特征描述子进行聚类,得到单词,构建字典,然后找到每帧图像所包含的单词,形成描述向量,通过计算向量间的相似性,判断是否出现回环。bow模型的缺点在于仅关注图像中单词是否出现,忽略了单词在空间中的相对位置,而且完全依赖于人工设计的视觉特征,在光照变化或者发生抖动时,容易产生偏差。

如今深度学习的蓬勃发展推动了计算机视觉领域的极大进步,神经网络提取的特征比人工设计的特征更为鲁棒,能更好地代表原始数据。文本检测识别技术的发展也有助于挖掘文本这一在slam场景中经常出现的元素,利用其语义信息,这些都为回环检测提供了新思路。高翔等人在文献《loopclosuredetectionforvisualslamsystemsusingdeepneuralnetworks》中提出了用一种深度神经网络结构,即堆栈自编码器,来学习如何从图像中提取特征,并将学习到的特征用于检测回环。申请号为201910999570.9的中国专利提出了一种基于实例分割的视觉slam方法,该方法使用maskrcnn进行实例分割,并利用图像分类的语义信息构建语义地图,实现回环检测。boyingli等人在文献《textslam:visualslamwithplanartextfeatures》中提出了一种在slam中利用场景中文本信息的方法,但只把文本作为平面特征来对待,没有很好的挖掘文本本身包含的语义信息。

在视觉slam的一些应用场景中如超市、停车场、卖场等,文本图片经常出现,且包含丰富的纹理特征和语义信息,而之前的方法未能充分利用文本的这些纹理和语义特征,若能够结合这些文本特征到slam方法中,则可以期望能显著提升slam方法在这类场景下的性能。



技术实现要素:

鉴于上述,本发明提出了一种结合场景文本语义信息的slam回环检测方法,用于解决基于词袋模型的回环检测方法问题,利用神经网络自动提取图像特征,并与场景中文本路标的语义信息及其在空间中出现的相对位置信息进行融合。

一种结合场景文本语义信息的slam回环检测方法,包括如下步骤:

(1)搭建并训练基于轻量级神经网络的文本检测模型和文本识别模型;

(2)使用单目摄像头采集环境图像,利用文本检测模型对图像中的文本进行检测,输出文本框坐标,并保存文本检测模型特征提取部分第二阶段的特征图输出;

(3)利用文本识别模型对检测到的文本区域进行识别;

(4)由步骤(2)和步骤(3)得到的文本检测结果及识别结果,计算当前帧的特征信息向量和语义信息向量,并通过加权融合得到总信息向量;

(5)对于关键帧集合中的任一关键帧,计算其总信息向量与当前帧总信息向量的余弦相似度,取相似度大于一定阈值且不与当前帧直接相邻的关键帧作为回环候选帧;

(6)当出现三个连续相邻的回环候选帧,则判定出现回环。

进一步地,针对slam的实时性要求与嵌入式平台计算资源的限制,所述步骤(1)在east(efficientandaccuracyscenetext)模型的基础上进行改进,得到基于轻量级神经网络的文本检测模型:其输入为图片,先使用全卷积网络直接预测出文本信息在图片中对应的区域,在全卷积网络预测得到的区域中,对超过设定阈值的区域再进行非极大值抑制,经非极大值抑制的结果就是模型的最终输出,即图片上的文本框坐标。

进一步地,所述步骤(1)采用crnn(convolutionalrecurrentneuralnetwork)模型作为基于轻量级神经网络的文本识别模型。

进一步地,所述全卷积网络包括特征提取、特征融合、输出层三部分,其中特征提取部分采用shufflenetv2模型,输出四个级别的特征图f1,f2,f3,f4,大小分别是原图的1/32、1/16、1/8和1/4。

进一步地,所述特征融合部分对shufflenetv2模型输出的四个级别的特征图f1,f2,f3,f4进行逐级特征融合,一共有三个特征融合阶段,在每一个特征融合阶段中,先对从上一个阶段来的特征图进行上采样,使之与当前特征图大小相同,然后使其与当前特征图沿通道方向级联,进而利用一个1×1卷积层减少级联后特征图的通道数以减少计算量,最后用一个3×3卷积层对特征图做信息融合,产生当前特征融合阶段的结果;在最后一个特征融合阶段之后,利用一个3×3卷积层产生最终的特征图,并输入到输出层;三个特征融合阶段中1×1卷积层的通道数分别为1256、244、88,三个特征融合阶段中3×3卷积层的通道数分别为128、1256、32,最后一个特征融合阶段之后的3×3卷积层的通道数为32。

进一步地,所述步骤(4)中对于当前帧,取其在文本检测过程中模型特征提取部分第二阶段的特征图f2,将其每一个通道进行全局平均池化,得到当前帧的特征信息向量f,f中的每一个元素为特征图f2中相应通道的平均值。

进一步地,所述步骤(4)中对于当前帧,通过一个向量来描述其语义信息,记当前帧的语义信息向量为t=[e1,e2,…,en],其中ei=[pi,x1i,y1i,x2i,y2i],n表示文本路标的数量,ei描述第i个文本路标在当前帧中的信息,pi表示第i个文本路标是否在当前帧中出现,若出现pi=1,否则pi=0,(x1i,y1i)和(x2i,y2i)分别为当前帧中第i个文本路标对应文本框的左上角坐标和右下角坐标,这些信息均由经过训练的文本检测模型和文本识别模型输出。

进一步地,所述步骤(4)中通过公式s=λt+f对特征信息向量f和语义信息向量t进行加权融合得到总信息向量s,其中λ为语义信息向量f所占的权重,可设为0.1。

进一步地,所述步骤(5)中对于两个总信息向量m和n,通过以下公式计算两者的余弦相似度cos(m,n);

在视觉slam中利用场景中的文本信息的第一步,就是将文本信息从相机传感器捕捉到的图像中提取出来,为了避免人工视觉特征的单一性,本发明使用深度神经网络来自动提取图像特征,并且针对视觉slam算法常见的部署平台(嵌入式平台)计算资源有限的情况,设计了一种基于轻量级神经网络的文本检测模型east-light,满足slam对实时性的要求。本发明使用east-light模型同时提取图像特征和检测文本,使用另一个神经网络模型crnn识别文本,并将提取到的图像特征和文本语义信息用于slam回环检测,同时将每个检测到的文本对象的坐标信息添加到特征向量中,弥补语义信息不能完全代表图像特征的缺陷,提高回环检测的准确性。

相对现有技术,本发明具有以下优点:

1.本发明提供了一种结合场景文本语义信息的slam回环检测方法,利用深度神经网络提取图像特征,与人工设计的特征相比,深度神经网络提取的特征更为鲁棒,在场景发生轻微变化时能更好地代表原始数据。

2.本发明检测并识别场景中出现的文本对象,提取文本的语义信息;与orb等视觉特征相比,图像中的语义信息是一个更为稳定的变量,当场景中存在动态干扰时,对图像语义信息的影响要小于对图像视觉特征的影响;本发明视觉回环检测实质上是一种计算图像数据相似性的算法,特征点相似性和语义相似性的正确加权融合可以提高相似性判断的精度,从而提高回环检测的准确性,增强slam系统的鲁棒性。

3.本发明针对slam的实时性要求与嵌入式平台计算资源的限制,在改进east模型的基础上提出了轻量级的文本检测模型east-light,east-light模型将east模型的特征提取网格vgg16改成shufflenetv2网络,大大提高了模型运行速度,在jetsontx2开发板上处理分辨率为512×512的图像,east模型需要0.42秒,east-light模型则只需要0.06秒;在公开数据集icdar2015测试集上,east的准确率为80.46%,east-light的准确率为71.54%,因此east-light在速度和精度上实现了更好的平衡。

附图说明

图1为本发明east-light的模型流程示意图。

图2为本发明east-light中的全卷积网络结构示意图。

具体实施方式

为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

本发明结合场景文本语义信息的slam回环检测方法,包括以下步骤:

步骤1:搭建并训练基于轻量级神经网络模型的文本检测和识别模型。

本发明在east模型的基础上,提出了轻量级文本检测模型east-light:其输入为图片,输出为文本框坐标,如图1所示,east-light分为多通道全卷积网络和非极大值抑制两个部分:先使用全卷积网络直接给出文本信息预测,在全卷积网络得到的预测区域中,超过事先设定的阈值的预测区域会再进行非极大值抑制,非极大值抑制的结果就是模型的最终输出,即检测到的图片上的文本框坐标。

如图2所示,全卷积网络分为3个部分:特征提取、特征融合和输出层。

特征提取部分采用shufflenetv2模型,输出四个级别的特征图f1,f2,f3,f4,大小分别是原图的1/32、1/16、1/8和1/4。

特征融合部分对shufflenetv2模型输出的四个级别的特征图f1,f2,f3,f4进行逐级特征融合,一共有3个特征融合阶段,在每一个特征融合阶段,先对从上一个阶段来的特征图进行上采样,使之与当前特征图大小相同,然后与当前特征图沿通道方向级联,进而利用一个1×1卷积层减少通道数并减少计算量,最后用一个3×3卷积层将信息融合,产生本特征融合阶段的结果;在最后一个特征融合阶段之后,利用一个3×3卷积层产生最终的特征图,并输入到输出层;3个特征融合阶段的1×1卷积层的通道数分别为1256、244、88;3个特征融合阶段的3×3卷积层的通道数分别为128、1256、32;最后一个特征融合阶段之后的3×3卷积层的通道数为32;具体网络设置及各阶段的输出尺寸参见表1:

表1

输出层输出图像每个像素属于文本区域的概率以及文本框的几何信息,文本框的几何信息通过4维的轴向包围框参数(aabb:axis-alignedboundingbox)r和1维的旋转角度θ表示,r的4维参数分别表示像素点到矩形框上、右、下、左边界的距离。

利用开源深度学习框架pytorch搭建完模型后,使用单目摄像头采集应用场景中的图像,制作数据集,并在带有gpu的计算机上,用制作好的数据集对文本检测模型east-light和文本识别模型crnn进行训练,保存训练好的模型权重。

步骤2:使用英伟达公司的jetsontx2开发板作为slam回环检测方法的计算平台,接收单目摄像头传感器采集到的环境图像作为输入,并通过文本检测模型east-light对图像中的文本进行检测,输出文本框坐标,保存文本检测模型特征提取网络shufflenetv2第二阶段的特征图输出f2。

步骤3:通过文本识别模型crnn对检测到的文本区域进行识别。

步骤4:由步骤2和3得到的文本检测与识别结果,将shufflenetv2模型第二阶段的特征图f2的每一个通道进行全局平均池化,得到特征信息向量f,f中的每一个元素等于特征图f2中相应通道的平均值。

通过一个向量来描述图像的语义信息,记文本语义信息向量为t=[e1,e2,…,en],其中ei=[pi,x1i,y1i,x2i,y2i],n表示文本路标的数量,ei描述第i个文本路标在图像中的信息,pi表示第i个文本路标是否在图像中出现,(x1i,y1i)和(x2i,y2i)分别是文本框的左上角坐标和右下角坐标,这些信息都由经过训练的文本检测与识别模型输出。

通过加权融合当前帧的特征信息向量和语义信息向量,得到总信息向量:s=λt+f,其中λ表示语义信息向量所占的权重,可以设为0.1,进而通过余弦值来计算相似度,向量m与向量n之间的余弦相似度为

步骤5:对于关键帧集合中的每个关键帧,计算其总信息向量si与当前帧的总信息向量sj的余弦相似度取相似度大于一定阈值且不与当前帧直接相邻的关键帧作为回环候选帧。

步骤6:出现三个连续相邻的回环候选帧,则认为出现回环。

本发明利用深度神经网络提取图像特征,比人工设计的特征更为鲁棒,在场景发生轻微变化时能更好地代表原始数据,同时检测并识别场景中出现的文本对象,提取文本的语义信息,将特征点相似性和语义相似性进行加权融合,提高相似性判断的精度,提高回环检测的准确性,增强slam系统的鲁棒性。对于slam的实时性要求与嵌入式平台计算资源的限制,本发明east-light模型与east相比大大提高了模型运行速度,在速度和精度上实现了更好的平衡。

上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于上述实施例,本领域技术人员根据本发明的揭示,对于本发明做出的改进和修改都应该在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1