一种自适应交互的多视图三维物体重建算法及系统

文档序号:36826599发布日期:2024-01-26 16:38阅读:15来源:国知局
一种自适应交互的多视图三维物体重建算法及系统

本发明涉及计算机视觉,尤其涉及一种自适应交互的多视图三维物体重建算法。


背景技术:

1、基于多视角图像的三维重建具有观测结构完整和避免物体多义性的优点,在机器人导航、自动驾驶、场景理解、计算机动画等相关领域具有广泛的研究。然而,输入图像的顺序不同往往会影响重建模型的一致性。在传统算法中通常使用图像间特征匹配来解决多视角联系的问题,但是视图角度变化过大或违反相机姿态时,重建精度不高,例如运动结构(structure from motion,sfm)、多视角立体视觉(multiple view stereo,mvs)等方案根据多视几何理论将不同视角的同名特征进行关联匹配来解决这个问题。然而,传统算法利用人工制作的特征提取器来提取特征,受环境变化影响较大,鲁棒性较差,并且无法联系多个视角之间的隐式信息,在重建单个物体的细节和结构完整性方面存在着一定的局限性。

2、随着深度学习技术的快速发展,研究者通过卷积神经网络对单幅图像或多幅图像提取二维特征,再进行三维解码,最终重建出基于体素等方式的相应三维体。但这些算法大都是基于单幅图像单独训练或预测的,目标特征在多个视角间缺乏关联。目前一些研究采取了两种关联策略,第一种先对单个视角进行重建,然后对各个视角重建出的三维模型进行融合关联;第二种是利用transformer将图片分成n个patch再进行关联。例如pix2vox方法对多视图进行处理,利用提出的评分机制对每个视图重建的物体进行评分,保留评分高的部分,最后将每个视图评分高的部分进行融合。此方法无法解决同一物体在不同视图之间每一个像素点之间的关联,每个视角并没有结合其余视角之间的联系,会导致物体重建结构的缺失与空洞;legoformer中利用transformer将图片分成多个patch,将每个patch利用多头注意力进行多视图之间关联。这种关联会直接导致各个视角之间细节部分信息丢失等。3d-r2n2、lsm方法利用lstm的时序性解决物体完整一致的重建,但由于lstm长期的依赖缺陷导致输入视图需要一定的要求,视图的顺序、角度都不能相差较大,否则会直接导致重建的失败,同时此类方法对视图的数量也有一定的要求,只有在视图数量较多的情况下才能重建较完整地物体。另外,为了使预测模型逼近真实模型,目前大多数方法都利用二元交叉熵损失、dice损失。然而这些损失会缺失对物体体素的感知能力,导致重建物体缺乏细节表征。3d-r2n2、pix2vox算法出现物体细节缺失,而且在融合体素生成的时候会生成大量的冗余信息。


技术实现思路

1、鉴于上述现有存在的问题,提出了本发明。

2、因此,本发明提供了一种自适应交互的多视图三维物体重建算法,能够通过对各个视角像素点的特征相关性计算,使每个视角都携带其他视角的特征信息,解决了输入图像顺序不同导致物体重建不一致的问题。

3、为解决上述技术问题,本发明提供如下技术方案,一种自适应交互的多视图三维物体重建算法,包括,构建自适应多视图组合模块,对多个视图特征进行自适应关联,并且选择性融合相关视角,构造视角信息注意力增强模块,实现全局结构特征和局部细节特征的加权融合,通过一种体素细化损失,赋予物体细节部分体素损失的权重,构造一种自适应体素判别模块,对生成粗略的体素模型进行校准,并对重建质量进行定量评价。

4、作为本发明所述的自适应交互的多视图三维物体重建算法的一种优选方案,其中,所述构建自适应多视图组合模块包括在二维视图编码网络阶段,多视角图片数据经过主干网络特征提取之后,构建自适应多视图组合模块,主要细节设定主视角为视角1,则其余视角为参考视角,当输入主视角1的底层特征图后,对其进行1×1的卷积操作,而后归一化层,再进行3×3卷积操作,而后接relu层,将1×1卷积块得到的特征与3×3卷积块得到的特征相加,得到融合特征图f1。

5、作为本发明所述的自适应交互的多视图三维物体重建算法的一种优选方案,其中,所述对多个视图特征进行自适应关联,并且选择性融合相关视角包括参考视角2的两条支路并行操作,在第一条支路中,底层特征图f2进行全局平均池化,进行1×1的卷积,得到具有全局信息的特征图f′2;

6、在第二条支路上,对特征进行自适应池化,去除冗余信息,进行1×1卷积,调整通道数,得到相应的特征f″2,将特征图f′2与特征图f″2进行reshape操作,利用softmax归一化操作,得到权重系数wk,经计算得到融合多视角的特征,公式表示为:

7、

8、其中,a为归一化函数,f(xi,xj)为计算像素之间相关性的函数,xi为主视角的像素,xj为参考视角的像素,h(xj)为对参考视角的特征进行计算,fi为在i位置更新后的特征。

9、作为本发明所述的自适应交互的多视图三维物体重建算法的一种优选方案,其中,所述构造视角信息注意力增强模块包括建立了两种卷积方式,分别使用1×1和3×3的卷积核,通过结合这两种卷积产生的多层特征,获得更丰富的信息,利用全局平均池化来融入整体信息,并经过一个全连接层生成特定特征,对每个通道执行softmax标准化,并将得到的加权特征与原始特征结合。

10、作为本发明所述的自适应交互的多视图三维物体重建算法的一种优选方案,其中,所述一种体素细化损失包括在三维体素解码环节引入“体素精细化损失(lvr)”策略,损失表示为:

11、

12、其中,p(i,j,k)表示在(i,j,k)处预测体素的占用概率,a、b为权重平衡参数。

13、作为本发明所述的自适应交互的多视图三维物体重建算法的一种优选方案,其中,所述构造一种自适应体素判别模块,对生成粗略的体素模型进行校准包括由四组三维卷积块和两个卷积层构成,每层卷积之后都包含批处理归一化层和leakyrelu激活层,级联sigmoid激活层,将三维体素模型映射在区间(0,1)之间的体素占用概率值,同时概率值与ground truth进行体素自适应判别损失(lad)计算,对物体的每个部件进行概率判别,实现对三维模型中冗余体素的消除,将生成的体素与真实体素进行自适应判别,当真值与生成的三维体素相差在设定标准之上,则继续调整重建网络的参数,直到结果与ground truth值达到一种平衡状态,体素自适应判别损失(lad)表示为:

14、lad=log(a(gti))+log(a(v))

15、其中,gti表示体素真实值,v表示网络生成的体素结果。

16、作为本发明所述的自适应交互的多视图三维物体重建算法的一种优选方案,其中,所述对重建质量进行定量评价包括采用交并比和f1分数两个评价指标来对重建质量进行定量评价,交并比表示为:

17、

18、其中,i(x)为指标函数,p(i,j,k)表示在(i,j,k)处预测体素的占用概率,gt(i,j,k)表示在(i,j,k)处的真实体素占用概率,t表示体素化阈值;

19、f1分数(f-score@1%)作为三维重建的另一指标,公式为:

20、

21、其中,p(d)和r(d)分别表示在距离阈值d下的精确率和召回率,p(d)和p(d)的公式分别为:

22、

23、

24、其中,r、g分别表示为预测真值体素和真值体素,nr、ng分别为r、g中的体素点。

25、本发明的另一个目的是提供一种自适应交互的多视图三维物体重建算法的系统,其能从多个视角的图像或视频数据中提取特征点,并进行匹配和几何校正,最终实现三维物体的重建。一种自适应交互的多视图三维物体重建算法的系统,其特征在于:数据输入模块、特征提取模块、匹配和几何校正模块、三维重建模块、交互模块、优化模块;

26、所述数据输入模块,用于接收来自不同视角的图像或视频数据,数据来自多个深度传感器;

27、所述特征提取模块,用于提取图像或视频数据中的特征点,用于匹配不同视角的图像或视频数据;

28、所述匹配和几何校正模块,用于将不同视角的特征点进行匹配,并通过几何校正将这些点转化为一个统一的坐标系下;

29、所述三维重建模块,用于将几何校正后的特征点转化为三维点云数据,通过三角化、表面重建的算法实现;

30、所述交互模块,用于与用户进行交互,选择需要重建的区域、对象,调整重建参数;

31、所述优化模块,用于根据交互模块的反馈进行优化,通过优化相机参数、特征点匹配算法、表面重建算法提高重建质量和效果。

32、一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现一种自适应交互的多视图三维物体重建算法的步骤。

33、一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现一种自适应交互的多视图三维物体重建算法的步骤。

34、本发明的有益效果,本方法引入了一个自适应多视图组合模块,确保特征不受输入顺序的干扰,为三维重建提供了更加稳定的基础,同时构建视图信息注意力增强模块,建立物体局部特征与全局特征的联系;设计了体素精细化损失机制,促进更准确的体素生成,从而帮助重建出结构完整、细节丰富的三维物体;构建了一个自适应体素判别模块,提升整体重建质量的精度和完整性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1