一种基于分段平面算法的三维重建方法与流程

文档序号:35969464发布日期:2023-11-09 10:07阅读:48来源:国知局
一种基于分段平面算法的三维重建方法与流程

本发明涉及计算机视觉中目标及场景三维重建领域,具体涉及一种基于分段平面算法的三维重建方法。


背景技术:

1、场景的三维重建任务是计算机视觉领域研究的重要组成部分。在对场景进行观测时,通过对多平面区域的参数进行提取可以准确地预测出场景布局及目标的位姿。但是由于场景的复杂性,同一个空间中有大量的物体存在,会出现局部信息丢失的问题,同时纹理相似的区域会导致算法难以区分出物体或场景的边界,容易出现深度信息预测精度降低的情况;同时基于传统方法的深度预测算法在进行深度图和法向图的预测时存在计算速度过慢的问题。因此,需要研究一种预测方法在保证深度预测精度同时提高计算的速度。

2、随着2014年eigen等人第一次使用卷积神经网络对图像进行三维重建开始,基于深度学习的三维重建研究有了巨大的突破,该算法通过学习二维图像和深度信息之间的映射来生成各位置的深度图,再使用预测的深度图还原三维重建过程中所需要的原始图像信息,使深度预测的速度和精度有了很大的提高。为了更好地从单幅图像中获取场景的三维模型,liu等人于2018年提出了分段平面重建算法,该算法使用了深度学习的方法,通过使用一个端到端的深度神经网络从单幅图像中学习深度信息、平面参数和其对应的平面参数掩码。随着相关研究的发展,分段平面重建技术已经被广泛应用于各类三维重建方法中。

3、目前常见的分段平面算法均会因为环境中不同目标及场景的尺度不同而产生较小物体在下采样的过程中像素消失的问题,即类不平衡问题。特征提取网络会更关注较大的目标而忽略小目标,这将直接导致最后的三维重建结果效果变差。为了避免类不平衡问题,当前常用的方法是使用注意力机制,通过对图像的通道施加不同的权重从而获取到需要的图像信息,但这种方法对较小目标的特征提取能力有限。


技术实现思路

1、为克服上述现有技术的不足,本发明提供一种基于分段平面算法的三维重建方法,能够提高算法的特征提取能力,能够有效避免在重建过程中出现的类不平衡问题,并且对小目标能够实现精准重建。

2、为了实现上述目的,本发明是通过如下的技术方案来实现:

3、一种基于分段平面算法的三维重建方法,用于对采集到的对应目标或场景的单幅原始图像重建,包括如下步骤:

4、s1、构建带有自注意力机制的多尺度特征融合模块;

5、s2、基于高效均值偏移聚类算法对平面像素分类;

6、s3、通过双约束损失函数led对网络进行训练,

7、led=(1-ε)le-εlog(ld)

8、式中,le为平衡交叉熵损失函数;ε为权重,用于平衡这两种损失;ld为骰子损失函数,取值范围为(0,1);

9、s4、将像素聚类成平面,生成深度图;

10、s5、根据生成的深度图进行可视化三维模型重建。

11、步骤s3中,由于网络在提取场景像素的过程中,非平面区域会对特征获取过程产生干扰,所以使用平衡交叉熵损失函数来进行像素的分类:

12、

13、式中,α和β分别是平面区域像素和非平面区域像素的集合,pi是第i个像素属于平面区域的概率,ω是平面区域与非平面区域的像素数量之比。

14、同时,因为实际场景中小平面只占整幅图像很小的一部分,导致其不容易被区分,所以使用骰子损失函数来解决该问题:

15、

16、式中,w和h分别表示预测的宽和高,p表示预测结果,g表示地面真实值。该损失函数评估预测值和真实值之间的相似性,同时这种相似性不受前景像素和背景像素比例的影响,可以在最大程度上减轻类不平衡问题给算法造成的影响。

17、本技术所述的一种基于分段平面算法的三维重建方法,将交叉熵损失函数和骰子损失函数相结合,形成双约束损失函数,同时利用两种损失函数的特性训练网络。

18、进一步的,步骤s1包括如下步骤s101至s109:

19、s101、使用全局平均池化来提取全局的位置信息和局部的语义信息,并且将全局的位置信息压缩成一个编码了不同区域之间语义关系的注意力向量:

20、fa(x,y)=δ1[g(x)+biasα]+δ1[g(y)+biasβ]

21、式中,x和y分别是高层和低层的特征映射;δ1表示relu激活函数;g(·)是全局平均池化操作;biasα,biasβ表示两个偏置量。

22、s102、在经过上步操作强化关键特征并过滤背景像素后,将高尺度和低尺度的注意力向量进行卷积后相加,进一步获取语义相关信息;使用softmax函数作为激活函数对注意力向量进行归一化,随后将低层特征映射与注意力向量相乘,生成注意力特征映射:

23、a=δ2[fα(x,y)+biasγ]

24、式中,a表示注意力向量;δ2表示softmax激活函数;biasγ表示偏置。

25、s103、在得到融合的注意力特征映射后,将该特征映射分别经过一次1x1卷积、归一化和插值操作,改变特征映射的维度,将注意力特征映射的通道数降低至与高尺度特征y的通道数相同,最后再进行一次归一化得到a′。此时的a′包含了丰富的语义信息,y包含了丰富的场景细节信息,

26、s104、通过自注意力机制将a′和y两者融合,

27、对于y,先使用一个1x1卷积进行线性映射,使用两个线性映射函数wq和wk来减少y的维度,并获得特征映射q和k:

28、q=wq(y)

29、k=wk(y)

30、对于a′,先使用一个1x1卷积然后在通道维度上使用一个softmax函数并选择第二个通道作为特征映射;计算k和a′的哈达玛积,给每个像素分配不同的权重,增加边缘像素的权重值;

31、s105、使用自适应池化操作减少特征的位移并对其中心进行裁剪;使用线性映射函数wv得到特征映射v:

32、v=wv(ap(k☉a'))

33、式中,ap(·)表示自适应池化和裁剪操作,☉表示求哈达玛积。

34、s106、通过内积操作建立v和k之间每个像素的语义相关性f:

35、

36、式中,表示内积操作,kt表示将特征映射k进行一次转置。

37、s107、将f与q的内积输入进行一次图卷积操作进一步获得特征映射之间的关系f′:

38、

39、式中,gcn(·)表示进行一次轻量级的图卷积操作;

40、s108、通过1x1卷积将重构后特征映射的通道数调整为和y相同;

41、s109、合并所有特征得到最终的输出特征:

42、fout=w(f')+y

43、上述技术方案可以看出,本发明具有如下有益效果:

44、(1)利用深度学习的方法对传统三维重建过程进行优化,提高了深度预测过程的计算速度;

45、(2)通过多尺度融合的方法将不同尺度下的全局信息和语义信息进行融合,有效克服了特征提取过程中信息丢失的问题;

46、(3)针对场景中尺度相差过大导致的小目标丢失问题,提出了一种双约束损失函数,有效解决神经网络在进行三维重建时出现的类不平衡问题。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1