一种基于中心像素梯度融合和全局代价聚合的深度立体匹配算法

文档序号:33882069发布日期:2023-04-20 12:57阅读:63来源:国知局
一种基于中心像素梯度融合和全局代价聚合的深度立体匹配算法

本发明属于计算机视觉领域,主要是一种基于中心像素梯度融合和全局代价聚合的深度学习立体匹配算法。


背景技术:

1、深度估计是计算机视觉中最基本的问题之一,在机器人、虚拟现实和自动驾驶等领域有着广泛的应用。常规的深度估计方式主要基于单目、双目深度估计以及rgbd相机三种。对于单目深度估计来说,因为其测量原理是通过物体尺寸进行估计,所以存在尺度模糊的致命缺陷,在实际使用中非常受限;而rgbd相机主要是通过物理方式进行测距,依据结构光,或使用发射器和接收器来进行飞行时间的测量等方法得到深度,虽然精度较高,但是光信号易受到物体反射性质的影响,所以其不适合室外使用。而对于双目深度估计来说,其固有的测量原理自然而然的避免了单目深度估计的尺度模糊问题,采用视觉被动测量的方式在户外也可以很好的工作,成本低、分辨率高、工作范围长等优点使其成为了目前深度测量的主流技术。

2、双目深度估计的核心是立体匹配技术,根据发展主要分为全局、半全局、局部和基于深度学习的立体匹配算法四种类型。虽然目前主流基于深度学习的立体匹配算法发展迅速、精度较高,但是这些算法往往使用常规卷积提取特征,并且因为代价聚合的有限感受野,现有基于深度学习的方法在左右光照不一致、大面积无纹理、弱纹理等病态区域效果较差,算法鲁棒性较低。并且现有深度学习方法主要基于视差空间建模,使用4d视差代价体,先将其视为一个分类问题,在通过类别期望进行回归得到视差,这样的方式往往会使得模型受到视差空间中多峰分布的影响。

3、针对上述问题,本发明提出了一种新的深度学习立体匹配算法,在提高模型在病态区域的性能的同时,约束模型的多峰分布。


技术实现思路

1、有鉴于此,本发明的目的在于提供一种融合中心像素梯度和进行全局代价聚合的深度立体匹配算法,使得模型能够有效获取输入图像的结构信息,并且能在视差空间中充分融合不同视差之间的特征,建立鲁棒且全面的特征映射,并且通过回归约束降低视差代价体的多峰约束,从而获得更加准确的视差。

2、为了达到上述目的,本发明提供如下技术方案:

3、基于中心像素梯度融合和全局代价聚合的深度立体匹配算法,该算法具体包含以下步骤:

4、步骤1)提出一种对输入左右图像进行结构和强度信息有效融合提取的特征主干。引入中心差分卷积,结合残差网络形成像素差分卷积残差组对输入的左右图像结构信息和强度信息的进行提取,从而充分获得其的二维特征信息用于构建4d的视差代价体。

5、步骤2)提出一种新型的3dcnn代价聚合模块。引入transfomer和动态位置编码,建立全视差空间的依赖关系,进行信息聚合,有效的为无纹理或弱纹理区域的像素提供信息支撑。

6、步骤3)提出一种加窗视差回归和交叉熵协同约束。对优选视差进行加窗,促进正确的视差的概率,降低错误视差的概率,约束了视差空间的多峰分布,获得更加准确的视差。

7、进一步,所述步骤1)具体包括以下步骤:

8、步骤1.1)数据预处理。导入两张已经进行对极约束的左右目图片xi∈r3×h×w,h和w分别表示图像的高和宽,使用imgnet数据集的期望和方差数值对输出图片进行标准化,这使得所有输入都能基于此分布。

9、步骤1.2)将预处理后的左右目图像送入到特征提取网络进行特征提取。采用一种融合像素差分卷积的残差组构成特征提取部分的前段,每个差分卷积残差首先通过一个差分卷积,以此来充分提取对应图像的结构特征,像素差分卷积其对应的数学表述如下:

10、

11、公式中,y(p0)为对应像素的卷积输出;r为以像素p0为中心的3×3的像素范围;w(pn)为卷积对应的可学习权重;θ∈[0,1]为平衡梯度信息和强度信息的超参数,当为0时差分卷积退化为普通卷积,本发明设定其为0.7。而通过对强度信息的融合,在通过后面的残差结构后得到充分融合结构和强度混合编码的底层语义信息,构成图像的特征图。

12、步骤1.3)为了进一步获得较大的感受野而提取更丰富的特征信息,在特征提取后段,使用rfb模块进一步进行局部特征信息聚合。

13、步骤1.4)对左右图像都进行步骤1.1、1.2获得其对应的特征图,最后对左图特征fl∈r32×h/4×w/4和右图特征fr∈r32×h/4×w/4进行差分比较,组建成视差代价体c∈r64×d/4×h/4×w/4,其中d为设定的视差空间的最大视差值。

14、进一步,所述步骤2)具体包括以下步骤:

15、步骤2.1)对步骤1.3后的视差代价体进行3d卷积正则化。本发明采用类似unet结构的3dcnn网络,对视差体进行下采样,不断编码浅层的局部信息,滤出冗余信息,最后得到c∈r256×d/32×h/32×w/32的代价体。

16、步骤2.2)动态位置编码。在将步骤2.1中的视差代价体送入到transformer的模块进行全局建模之前需要对特征图的位置信息进行编码,为了充分利用卷积的旋转不变性以及适应图像数据的不固定尺寸,本发明使用条件位置编码的方式,使用一个三维卷积来进行隐式的地位置编码。其数据表达式为:

17、pe(xin)=3dwconv(xin)

18、公式中,xin∈rd×n是输入的token序列;3dwconv是一个可学习的3×3×3深度3d卷积。

19、步骤2.3)将经过位置编码的4d代价体送入到transfomer模块中,将其拉长并使用多头自注意力机制进行全局建模,随后通过全连接层输出最后的结果,经过维度变换后送入3d反卷积中不断的恢复代价体中的底层细节信息,对于步骤2.1、步骤2.2、步骤2.3三者可以用数学表述为:

20、x=pe(xin)+xin,

21、y=mha(norm(x))+x,

22、z=ffn(norm(y))+y

23、公式中,xin∈rd×n,n=d×h×w表示输入的token序列;norm(g)表示层归一化,而ffn则由两个具有gelu激活函数的线性层组成。

24、进一步,所述步骤3)具体包括以下步骤:

25、步骤3.1)经过步骤2得到聚合后的视差代价体c∈r1×d/4×h/4×w/4,随后对其进行维度压缩转换成3d的视差体c∈rd/4×h/4×w/4,然后对其进行上采样,恢复到视差体。

26、步骤3.2)对3d视差体进行视差回归。一般的视差回归使用192的视差值进行回归,而正确的视差却只接近其中的一个,这是一个严重的类别不平衡的分类问题,为了减轻对应视差回归中类别不平衡造成的多峰分布等情况,本发明使用加窗视差回归对视差计算进行约束。

27、步骤3.3)因为可以将视差回归粗略看成是一个分类问题,所以在常用的smoothl1损失的基础上使用交叉熵对视差预测进行协同监督。



技术特征:

1.一种基于中心像素梯度融合和全局代价聚合的深度立体匹配算法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述的一种基于中心像素梯度融合和全局代价聚合的深度立体匹配算法,其特征在于,所述步骤1中,具体过程如下:

3.根据权利要求1所述的一种基于中心像素梯度融合和全局代价聚合的深度立体匹配算法,其特征在于,所述步骤2中,具体过程如下:

4.根据权利要求1所述的一种基于中心像素梯度融合和全局代价聚合的深度立体匹配算法,其特征在于,所述步骤3中,具体过程如下:


技术总结
本发明属于计算机视觉领域,主要是一种基于中心像素梯度融合和全局代价聚合的深度学习立体匹配算法。虽然目前主流基于深度学习的立体匹配算法精度较高,但是这些算法往往使用常规卷积提取特征,并且因为代价聚合的有限感受野,所以在左右光照不一致、大面积无纹理、弱纹理等病态区域效果较差。本发明提出了一种新的深度学习立体匹配算法,首先,设计了差分卷积残差组,显式编码结构信息提高特征表达。然后,设计了全局代价聚合模块,使得有效聚合代价体并捕获全局上下文,最后,采用加窗视差回归降低了视差标签不平衡的影响。本发明可以在提高模型在病态区域的性能的同时,约束模型的多峰分布,从而获得更加准确的视差估计。

技术研发人员:陶洋,欧双江
受保护的技术使用者:重庆邮电大学
技术研发日:
技术公布日:2024/1/11
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1