一种基于注意力机制和单目多视角的三维重建方法

文档序号:28171432发布日期:2021-12-24 23:43阅读:170来源:国知局
一种基于注意力机制和单目多视角的三维重建方法

1.本发明属于图像处理领域,尤其涉及一种基于注意力机制和单目多视角的三维重建方法。


背景技术:

2.近年来,深度学习技术在二维图像处理的各种任务中大放异彩,在各种数据集中的准确度远超传统方法的结果。随着三维视觉与三维结构数据的需求越来越大,研究人员开始将深度学习技术应用于3d视觉技术中。三维重建问题作为经典的计算机视觉问题,因此将其与神经网络进行结合从而获取更高精度的重建结果成为广泛研究的问题。
3.相比于采用激光雷达等方式,基于图像的三维重建技术所需的设备简单便宜,获取的模型应用更加广泛。采用单目多视角的方法进行三维重建的技术对输入图像要求低,图像序列可以是无序的。基于图像的三维重建技术本质上是对物体或者场景进行连续拍摄,计算相邻帧间的视差,通过视差与投影反射原理估计图像每个像素的深度,最终恢复场景几何纹理信息与相机参数信息。相比于传统方法进行三维重建,基于深度学习的单目多视角三维重建技术拥有更快的计算速度与更准确的重建结果。然而现有的基于深度学习的单目多视角三维重建神经网络还未考虑到大尺度特征的捕捉,在准确度和完整性上还存在着较大的提升空间。


技术实现要素:

4.本发明的技术目的是提供一种基于注意力机制和单目多视角的三维重建方法,以解决三维重建中准确度和完整性不足的技术问题。
5.为解决上述问题,本发明的技术方案为:一种基于注意力机制和单目多视角的三维重建方法,包括如下步骤:
6.s1:通过相机拍摄待测场景,采集待测场景的图像数据;
7.s2:将图像数据进行标序,并按序依次进行特征点提取和特征点匹配,得到特征点匹配对;
8.s3:对相机进行标定,得到相机位姿信息、相机内参和待测场景结构信息,并进行稀疏点云重建;
9.s4:将相机位姿信息、相机内参、待测场景结构信息以及图像数据输入至预设的注意力机制的单目多视角重建网络,得到若干待测场景的深度估计图;
10.s5:将若干深度估计图进行深度融合,得到稠密点云模型。
11.较优地,在步骤s3中,还进一步包括
12.通过光束平差法对相机位姿信息进行非线性优化,根据相机内参、相机位姿信息和待测场景结构信息通过重投影误差作为代价函数进行非线性优化。
13.较优地,还包括对相机内参去畸变,以消除径向畸变和切向畸变,公式为
14.x
distorted
=x(1+k1r2+k2r4+k3r6)+2p1xy+p2(r2+2x2)
15.y
distorted
=y(1+k1r2+k2r4+k3r6)+p1(r2+2y2)+2p2xy。
16.其中,步骤s4具体包括如下步骤
17.s41:基于特征金字塔的搭建尺度无关注意力机制网络;
18.s42:搭建基于点云的多视角三维重建神经网络,进而粗预测生成得到粗略深度图,将粗略深度图转换成点云进行迭代优化,得到深度估计图。
19.具体地,在步骤s41中,
20.设置尺度因子s={1,s1,s2,l,s
n
},基于non

local网络计算多尺度特征图的注意力,输出得到特征金字塔。
21.具体地,在步骤s42中,
22.搭建基于点云的多视角三维重建神经网络,进而粗预测生成粗略深度图,将粗略深度图与特征金字塔的输出相融合并生成特征增强的点云结果,对点云结果进行深度残差计算和迭代优化,得到深度估计图。
23.本发明由于采用以上技术方案,使其与现有技术相比具有以下的优点和积极效果:
24.本发明设置结合自注意力机制对三维重建算法进行优化,重建结果更准确,点云完整度高,且实现了任意相机拍摄任意图像的重建,流程简单、重建可靠、适应性强。可以针对任意设备上搭载的单目相机采集到的图像序列实现高精度的稠密三维重建,无需提前相机标定,适用于任意场景的重建。
附图说明
25.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。
26.图1为本发明的一种基于注意力机制和单目多视角的三维重建方法流程示意图;
27.图2为单一尺度下的非局部均值操作示意图;
28.图3为本发明输入图像示意图;
29.图4为经本发明所实现的重建结果深度图示意图;
30.图5为本发明得到的稠密点云模型示意图。
具体实施方式
31.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
32.为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
33.以下结合附图和具体实施例对本发明提出的一种基于注意力机制和单目多视角
的三维重建方法作进一步详细说明。根据下面说明和权利要求书,本发明的优点和特征将更清楚。
34.实施例
35.参看图1,本实施例提供一种基于注意力机制和单目多视角的三维重建方法,具体包括如下步骤。
36.首先,参看图1,在步骤s1中,通过相机拍摄待测场景,从多个角度上进行采集待测场景的图像数据。
37.接着,参看图1,在步骤s2中,将图像数据进行标序,得到一组图像序列。将图像序列并按序依次通过增量式sfm(运动恢复结构)算法对其进行特征提取与特征匹配,sfm算法的基本流程是获取图像、图像特征点提取与特征点对的匹配、稀疏重建和稠密重建,即得到场景稀疏结构信息——场景稀疏点云。采用sift(尺度不变特征变换)算法对步骤s1得到的图像进行特征点的提取以及特征描述子的匹配,得到sift特征点匹配对,并用通过ransac(random sample consensus,随机抽样一致)算法去除误匹配的特征点。其中,特征描述子从图像中提取有用信息,剔除无关信息,特征点是图像经过特征检测算法计算后得到的梯度极值点,反映图像的关键信息,特征描述子是对特征点进行后处理之后得到的,反映了图像的关键信息,是对图像的简单表示。
38.然后,参看图1,进入步骤s3,对相机进行标定,得到相机位姿信息、相机内参和待测场景结构信息,并进行稀疏点云重建。具体地,通过光束平差法即为bundler adjustment,即可得到相机位姿信息、相机内参和待测场景结构信息。由于光束平差法是一个最优化问题,选择重投影误差作为代价函数多次求解得到优化后的相机位姿信息、相机内参和待测场景结构信息。较优地,在步骤s3中,还进一步通过光束平差法对得到的相机位姿信息进行非线性优化。较优地,考虑到相机畸变问题,对获取的相机内参执行去畸变操作,以消除径向畸变和切向畸变,修正后的坐标与畸变坐标的公式为
39.x
distorted
=x(1+k1r2+k2r4+k3r6)+2p1xy+p2(r2+2x2)
40.y
distorted
=y(1+k1r2+k2r4+k3r6)+p1(r2+2y2)+2p2xy
41.其中,x、y为点坐标,k1、k2、k3为径向畸变参数,r为相机参数,p1、p2为切向畸变参数,x
distorted
,y
distorted
为修复后的坐标。
42.进而,在步骤s4中,将相机位姿信息、相机内参、待测场景结构信息以及图像序列输入至已训练好的注意力机制的单目多视角重建网络,通过该神经网络进行计算得到若干待测场景的深度估计图。
43.其中,步骤s4具体分成以下两步
44.在步骤s41中,设置尺度因子s={1,s1,s2,l,s
n
},基于non

local(non

local neural networks,为现有的卷积神经网络)网络计算多尺度特征图的注意力,输出得到一个多尺度的特征金字塔。基于特征金字塔的搭建尺度无关注意力机制网络,将non

local网络扩展到多尺度的特征图中,特征图为卷积神经网络经过卷积层计算后输出的结果。特征金字塔的输出生成不同尺度的特征图,将不同尺度的特征图进行融合得到一个最终的特征图。
45.参看图2,其中单一尺度下的非局部均值操作,即单一尺度下的基于特征金字塔的搭建尺度无关注意力机制网络,将non

local网络扩展到多尺度的特征图中的公式如下
[0046][0047]
其中,x
i
为输入像素,x
j
为遍历整张图像的像素,i、j分别为像素的行下标和列下标,且输入x和输出y的尺度相同。函数f计算x
i
,x
j
之间的成对近似性。特征变换函数g计算得到x
j
新的表示形式。输出响应通过c(x)执行归一化。表示非局部均值操作中遍历一帧图像中所有像素块,求像素i处的y值时,需要遍历所有j,通过x
i
与x
j
进行计算得到f,最终求和得到y
i
为待求像素点处经过非局部均值计算后得到的结果。
[0048]
对于通过卷积核进行降采样得到多尺度的图像金字塔可采用如下公式计算其注意力
[0049][0050]
其中,δ(s)表示中心为x
j
半径为s2的领域。
[0051]
采用embedded gaussian(嵌入式高斯函数)函数作为f进行计算
[0052][0053]
s42:搭建基于点云的多视角三维重建神经网络,进而粗预测生成粗略深度图,将粗略深度图与特征金字塔的输出相融合并生成特征增强的点云结果,对点云结果进行深度残差计算和迭代优化,得到深度估计图。
[0054]
其中,多视角三维重建神经网络使用的特征点是由从多尺度的最终特征图提取出来的图像2d特征和归一化的3d坐标组成,3d坐标即上述步骤的场景稀疏点云得到。本发明采用四个尺度的特征,一张图像的2d特征分别为j为特征金字塔的尺度,将这些不同尺度的特征通过下式实现特征融合:
[0055][0056]
考虑到在世界坐标系x
p
中归一化的3d坐标形式,再和点云的坐标位置进行融合,公式如下
[0057][0058]
其中,为点p处的c
j

[0059]
在此基础上进行深度残差计算,通过残差不断更新点云位置,对结果迭代优化。本实施例中,使用l1损失函数,求偏差的绝对值,如下公式
[0060][0061]
其中,λ
(i)
为一个可任意取值的参数,通常取小于1,d
gt
(p)为点p的真实值,d
(i)
(p)为求解得到的估计值,p∈p
valid
为在有效点的集合中进行计算。
[0062]
步骤4训多视角三维重建神经网络时阶段输入图像的分辨率设置为w*h=640*512,输入的视图数量为n=3。训练时迭代优化阶段设置迭代次数为2,最邻近点的数量设置为16。改进的神经网络基于pytorch开发,使用adam优化算法进行端到端的训练以加快模型收敛,初始的学习率取0.0005。网络训练环境条件为ubuntu 16.04,通过图像处理芯片进行运算。神经网络输入为二维图像序列,输出为所预测的场景的深度图。
[0063]
最后,在步骤s5中,参看图3至图5,运用步骤s4通过神经网络预测获得的每个角度的图像的深度图并进行深度融合,获取最终的场景稠密点云模型。输入为多张深度图,输出为点云数据。
[0064]
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式。即使对本发明作出各种变化,倘若这些变化属于本发明权利要求及其等同技术的范围之内,则仍落入在本发明的保护范围之中。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1