一种稀疏视角输入下的快速辐射场重建方法

文档序号:31784528发布日期:2022-10-12 12:24阅读:226来源:国知局
一种稀疏视角输入下的快速辐射场重建方法

1.本发明涉及一种稀疏视角输入情况下的快速辐射场重建方法,适用于稀疏视角输入情况下的新视角合成领域。


背景技术:

2.新视角合成是计算机视觉领域和计算机图形学领域共同关注的热点话题。具体来说,新视角合成任务可以概括为在已知视角下对物体进行一系列的捕获(包括拍摄到的图像,以及每张图像对应的内外参),通过已拍摄的图像对物体进行三维重建(包括物体的几何形状、表面材质、光照条件等),从而在未知视角下合成该物体的图像。与传统的三维重建不同,新视角合成的目标是合成具有真实感的未知视角图片而不是显式的三维重建结果。近年来,辐射场的出现引起了人们对隐式场景表示的高度关注,并且引领了接下来的一系列针对辐射场表示方法进行分析、优化、扩展的研究工作,例如对辐射场的重建、绘制效率的提升,对场景泛化性的研究以及对更大尺度的场景辐射场进行重建等。
3.尽管辐射场可以合成高质量的新视角图片,但它还是存在两方面的问题。首先,辐射场的训练需要大量的不同视角输入的图片(在前向相机布局场景中需要约50个不同视角,在内向相机布局场景中需要约100个不同视角)。然而在实际的三维重建相关任务中,通常获取并且标定大量的不同视角图片是十分费力的。而当输入的视角十分稀疏时(例如4个不同视角),辐射场往往会在训练视角上过拟合而导致辐射场的几何重建的精度会有显著的下降。导致这一问题的原因是辐射场为了对物体的外观颜色随观察角度变化而变化这一性质进行了视角相关的辐射场建模方式所带来的了几何与颜色的歧义性。具体来说,对于一个待优化的场景或者物体,即使是一个完全错误的几何估计,也总存在一个合适的辐射场使得该辐射场与该错误的几何能够完美地对已知视角下图像进行拟合,而这样错误的几何估计导致了无法在新的视角下进行图像的合成。除此之外,辐射场的训练以及使用辐射场渲染新视角图片都需要花费大量的时间。这主要由两方面的原因造成:辐射场表示使用了一个包含8个256维隐藏层的多层感知机作为隐式辐射场表示,这意味着单次的辐射场查询需要耗费较多时间。此外,在训练和渲染新视角图像的过程中,对于图像中的每一个像素发出的光线,都需要进行上百次的辐射场查询。而其中大量的采样点都位于空间中的空白区域,不会对最终的颜色值产生贡献。通常情况下,在单个gpu上进行单场景的辐射场的训练需要耗费约10个小时的时间,使用一个已经训练好的辐射场渲染一个400*400分辨率的新视角图片需要花费数分钟的时间,难以实现实时渲染。
4.上面提到的辐射场的两个主要局限性使得其很难应用于增强现实、机器人导航等实际应用场景中,因此许多学者就如何将辐射场扩展到稀疏视角输入情况下以及如何提高辐射场的训练和渲染效率做出了很多努力。一方面,在稀疏视角输入情况下,研究者们主要通过使用引入额外的基于交叉场景预训练的网络以及加入正则化策略的方式来提高辐射场在稀疏视角输入情况下的重建精度。基于交叉场景的预训练网络需要数天的大规模数据集训练,同时也需要数小时的时间进行逐场景的优化以达到令人满意的辐射场重建结果。
而引入正则化策略的方法往往由于引入了额外的在未知视角下的光线采样和额外的损失函数的计算,使得其所需的收敛时间也大大增加。另一方面,在提高辐射场和训练和渲染效率方面,研究者们通常的做法是使用传统的显式表示与隐式表示相结合的方法来减少网络查询次数和简化原来的复杂的多层感知机结构。但是和传统的辐射场重建方法一样,这一类方法也无法在稀疏视角下有较好的表现。
5.因此,本发明的提出旨在同时克服辐射场表示的两大局限性,实现在稀疏视角输入下的快速辐射场重建。


技术实现要素:

6.本发明的技术解决问题是:克服现有技术不足,针对稀疏视角输入下辐射场重建精度差以及重建和渲染速度慢的问题,提供一种稀疏视角输入下的快速辐射场重建方法,通过图像轮廓计算的可视外壳为显示-隐式辐射场表示提供初始几何估计,缩小了解空间,提升了辐射场在稀疏视角下的重建精度和速度。
7.本发明的技术解决方案为:一种稀疏视角输入下的快速辐射场重建方法,实现步骤如下:
8.(1)将稀疏视角输入的rgb图像进行前景背景分割,得到每张输入图像的轮廓图。通过计算轮廓图的边缘像素在空间中的位置,计算得到一个待重建目标的轴对齐包围盒;与对整个欧式空间进行全局建模的传统辐射场重建算法相比,本发明通过将重建目标的轴对齐包围盒作为新的感兴趣区域,缩小了优化范围,使得重建速度提高。
9.(2)对步骤(1)中的轴对齐包围盒进行体素化,将包围盒划分成大小相等的体素,同时为每个体素顶点分配一个待优化的体素置信度和一个体素特征向量作为体素的局部三维场景属性表示,其中体素置信度被用于计算空间中任意点的密度从而得到场景的几何表示,而体素特征向量与一个共享权重的多层感知机被用于计算空间中任意点的颜色辐射,从而组成场景的外观表示。与仅包含多层感知机且无法加入几何约束的辐射场表示方法相比,本方法的创新性在于加入了体素表示,使得后续通过可视视角数初始化场景几何,提高重建的速度和准确性;
10.(3)对步骤(2)中的体素置信度进行初始化,通过将体素顶点投影到每张输入图像的轮廓图中进行该体素顶点的可视视角数,即该体素顶点被输入视角观察到的数量的计算,再依据可视视角数初始化该体素所对应的体素置信度,得到体素顶点的体素置信度初始值;通过引入体素置信度初始化,加速辐射场的重建,同时也避免空白区域内浮云的产生,提升辐射场的重建精度;
11.(4)对每个稀疏视角的rgb图像进行逐像素的体绘制。体绘制中每个像素所对应光线上每个查询点所需要的体密度通过相邻体素置信度的初始值进行插值计算,而查询点的颜色辐射则首先通过相邻体素特征向量进行插值得到查询点对应的特征向量,再将查询点对应的特征向量输入多层感知机解码得到查询点所需的颜色辐射。对于稀疏输入视角的每一个像素都进行上述过程完成对输入视角的rgb图像的绘制,通过最小化绘制的rgb图像与稀疏视角输入图像的重建光度误差损失和全微分误差损失迭代式的优化步骤(2)中每个体素顶点的体素置信度和体素特征向量以及共享权重的多层感知机;
12.(5)对于步骤(4)中的优化过程,通过周期性的进行体素裁剪来不断精细化辐射场
的几何估计,同时避免多余的辐射场查询。
13.相比于传统的辐射场表示方法,本发明中的显式-隐式结合的表示方法更有助于借助轮廓消息进行几何初始化,有效的减少了稀疏视角输入情况下在空白区域中产生浮云的问题,同时提升了辐射场重建的收敛速度和新视角图像的渲染效率。
14.所述步骤(1)中,将稀疏视角输入的rgb图像进行前景背景分割,得到每张输入图像的轮廓图。通过计算轮廓图的边缘像素在空间中的位置,可以计算得到一个待重建目标的轴对齐包围盒,方法如下:
15.针对稀疏视角输入的rgb图像i={i1,

,in},使用阈值分割的方法对前景和背景进行分割,得到对应的二值图s={s1,

,sn},首先初始化一个空集p,作为物体边缘投影点的集合,之后通过将轮廓图的边缘像素投影到空间中并通过其他轮廓进行剔除得到物体边缘点空间位置的估计,再计算得到物体的轴对齐包围盒,具体做法为:
16.对于每一张轮廓图sn,提取边缘m1个边缘像素点对于每一个边缘像素点,通过该轮廓sn对应的相机视角的相机光心发射一条通过该边缘像素点的光线r,在光线r上均匀的进行采样,得到m2个采样点对于每一个采样点将其投影到剩下的n-1张轮廓图中,若该采样点能位于所有剩余的轮廓图内,则保留该采样点作为一个物体边缘的投影点,将所有的保留下来的空间点添加到p中得到物体的边缘的空间位置估计。通过计算所有空间点在各个方向上坐标的极大值和极小值作为轴对齐包围盒的范围。
17.至此,得到了初始的待优化的感兴趣区域,并用一轴对齐包围盒对其进行表示,之后辐射场优化将在该区域内进行,通过这样的感兴趣区域搜索,跳过了空间中的绝大部分空白区域,同时由于轴对齐包围盒十分紧凑的包围着待重建的物体,因此可以在这样的一个小区域内进行高分辨率的体素化,与许多已有的基于体素的辐射场表示方法相比,本发明不需要消耗过多的计算资源即可实现对辐射场的高精度建模。
18.所述步骤(2)中,对步骤(1)中所获得的轴对齐包围盒进行体素化,同时为每一个体素顶点分配一个待优化的体素置信度和一个可学习的体素特征向量作为该局部区域的三维表示。每个待查询的采样点的特征向量和观察视角被输入到一个待优化的多层感知机对视角可变的辐射场进行建模,方法如下:
19.对步骤(1)中所获得的轴对齐包围盒,将其划分成k个大小相同的体素,对于每一个体素顶点,分配一个待优化的体素置信度γ和一个可学习的体素特征向量f,虽然对空间的建模是离散的,但是通过三线性插值的方法获得体素栅格中任意点的体密度和特征向量表示:
20.σ=g(relu(γ1,

,γ8))
21.f=g(f1,

,f8)
22.其中,γ1,

,γ8和f1,

,f8分别表示待查询的采样点的八个最近邻的体素所存储的体素置信度和体素特征向量,relu表示激活函数,g表示三线性插值函数。对于采样点的颜色,我们用一个含有四个隐藏层的64维多层感知机进行回归:
23.c=mlp(h(f),h(d)
24.h(f)=[sin(πf),cos(πf),

,sin(2
l-1
πf),cos(2
l-1
πf)]
[0025]
h(d)=[sin(πd),cos(πd),

,sin(2
l-1
πd),cos(2
l-1
πd)]
[0026]
其中,d表示该采样点的被观察方向,f表示插值所得到的采样点的特征向量,h表示位置编码函数,用于将输入映射到高维空间,以此来增强网络捕捉高频细节的能力。mlp表示多层感知机。至此,我们完成了对整个感兴趣区域中任意位置的待采样的查询点的密度和颜色辐射的建模。本发明的辐射场表示主要由两部分构成,一部分是存储在体素点中的待优化的体素置信度和体素特征向量表示,另一部分是一个用于回归待采样的查询点的颜色辐射多层感知机。
[0027]
所述步骤(3)中,对步骤(2)中所获得体素化辐射场表示,通过将体素顶点投影到各个输入图像的轮廓图中进行可视视角的计算,依据可视视角数来初始化体素置信度,方法如下:
[0028]
对于步骤(2)中的辐射场表示,通过步骤(1)中的物体轮廓图像进行几何初始化通过计算可视数量的方法判断某个体素是否包含场景内容,从而进行置信度的初始化。由于在进行密度的三线性插值时应用了relu激活函数,因此可以通过将体素置信度初始化为负数值,即relu激活函数的截止区的方式来跳过该区域的优化。首先将每个体素顶点记为v={v1,

,vk},对于每一个体素顶点都分配一个初始的体素置信度γ
init
,将每个体素顶点vk,投影到所有的输入视角成像平面上,计算其位于输入图像轮廓内的的视角数量,如果可视数量m等于输入视角数量n,则将体素置信度γ
init
初始化为1,否则为-1,具体计算方式为:
[0029][0030]
所述步骤(4)中,对输入rgb图像进行体绘制,通过重建光度误差和全微分损失对体素顶点的体素置信度和体素特征向量以及多层感知机进行优化,方法如下:
[0031]
和传统的辐射场优化方式类似,对每个稀疏视角上的rgb图像进行体绘制,通过最小化绘制图像与稀疏视角输入图像的重建光度误差损失l
photo
来对辐射场表示进行优化,优化目标为:
[0032][0033]
其中,r表示一组随机在图像轮廓内采样的光线,r表示一条随机采样的光线。c(r)表示光线r所对应像素的颜色值,表示通过辐射场表示进行体绘制后预测的像素颜色值。我们通过在一条光线上均匀采样点并累积所有采样点的密度和辐射值绘制该像素的颜色:
[0034][0035][0036]
其中,n表示沿着一条光线均匀采样点的数量,ti表示从最近的采样点到采样点i的累积不透明度,1-exp(-σiδi)衡量了采样点i对于最终绘累积的颜色值产生的贡献程度。δi表示采样步长。σi表示采样点i的体密度,在辐射场表示中,该体密度的计算通过最近邻8个体素顶点的体素置信度插值而得到。ci表示采样点i的辐射值,通过将该点对应的特征向
量和被观察方向输入一个多层感知机进行回归。由于体绘制过程是完全可微的,因此可以直接加入到损失函数的计算中实现有监督的优化。
[0037]
此外,发现由于显式体素表示的加入,物体的几何表示的优化很容易产生不连续的体密度分布,因此引入一个全微分误差损失l
variation
来正则化体素置信度的梯度。通过这样一个损失函数的加入,我们可以得到更光滑的几何分布。
[0038][0039]
其中,v表示一组随机采样的体素,δ
x
(v)表示体素v在方向x上的微分,δy(v)表示体素v在方向y上的微分,δz(v)表示体素v在方向z上的微分。
[0040]
因此,本发明的最终损失函数l为:
[0041]
l=l
photo

variation
l
variation
[0042]
其中,ω
variation
表示全微分损失函数所占的权重。
[0043]
所述步骤(5)中,对于步骤(4)中的优化过程,通过周期性的进行体素裁剪来不断精细化辐射场的几何估计,同时避免多余的辐射场查询。
[0044]
尽管体素置信度初始化策略已经剔除了大部分不包含实际内容的体素栅格,但依然有部分的空白体素没有被剔除。这一部分空白体素没有被剔除的原因一方面是轮廓图像的获取存在一定的误差,另一方面是由于稀疏视角输入情况下的形状重建往往会稍大于物体的实际形状,因此通过周期性的体素裁剪来有效的去除空白体素,不断精细化辐射场几何表示,同时也避免了多余的辐射场查询,提升了重建效率。具体实现方法为:
[0045]
以1000次迭代为周期,查询整个体素空间的体素置信度,并使用阈值0.1进行裁剪,将体素置信度小于0.1的体素进行去除。
[0046]
本发明与现有技术相比的优点在于:
[0047]
(1)本发明利用实际应用中易获取的轮廓信息提供了物体的初始几何估计,相比于传统的基于稀疏视角输入下的辐射场重建方法,本发明的重建精度更高,对于细节的捕获能力更强,有效的提升了辐射场在稀疏视角输入下的重建精度。
[0048]
(2)本发明将现有的辐射场重建方法的收敛时间缩短了30倍,有效的提升了辐射场在稀疏视角输入下的重建速度,使得辐射场表示在虚拟现实等场景中的应用更加方便。
[0049]
总之,本发明仅仅使用图像轮廓信息作为额外的辅助,到在稀疏视角输入下进行辐射场快速重建的目的。
附图说明
[0050]
图1为本发明稀疏视角输入下的快速辐射场重建方法流程图。
具体实施方式
[0051]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅为本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。
[0052]
如图1所示,本发明的具体实现步骤如下:
[0053]
步骤1、使用自适应阈值分割方法对于每一张稀疏视角输入的rgb图像i={i1,

,in}进行轮廓提取,得到对应的轮廓图s={s1,

,sn}。为了计算待重建目标的轴对齐包围盒,我们将轮廓图中的边缘像素投影到空间,通过剔除不满足轮廓一致性约束的点得到轮廓边缘的空间位置。
[0054]
为了储存这些空间点便于后续统计计算,初始化一个空集p作为轮廓图边缘像素在空间中坐标点的集合。对于每一张rgb图所提取的轮廓图sn,提取边缘m1个边缘像素点对于该轮廓图sn中的每一个边缘像素点,通过该轮廓sn对应的相机视角的相机光心发射一条通过该边缘像素点的光线r,在光线r上均匀的进行采样,得到m2个采样点对于每一个采样点将其投影到剩下的n-1张轮廓图中,若该采样点能位于所有剩余的轮廓图内,则将该采样点添加到集合p中。
[0055]
通过统计集合p中的所有采样点在各个方向上坐标的极大值和极小值,计算得到轴对齐包围盒八个顶点的坐标值,至此,得到了初始的待优化的感兴趣区域,之后辐射场优化将在该区域内进行,通过这样的感兴趣区域搜索,跳过了空间中的绝大部分空白区域,同时由于轴对齐包围盒十分紧凑的包围着待重建的物体,因此可以在这样的一个小区域内进行高分辨率的体素化,与许多已有的基于体素的辐射场表示方法相比,本发明不需要消耗过多的计算资源即可实现对辐射场的高精度建模。
[0056]
步骤2、对步骤(1)中的轴对齐包围盒进行体素化,将包围盒划分成k个大小相等的体素,同时为每个体素顶点分配一个待优化的体素置信度γ和一个体素特征向量f作为体素的局部三维场景属性表示,其中体素置信度被用于计算空间中任意点的体密度从而得到场景的几何表示,而体素特征向量与一个共享权重的多层感知机被用于计算空间中任意点的颜色辐射,从而组成场景的外观表示。
[0057]
为了实现了对空间中任意点进行体密度和颜色辐射的查询,采用了三线性插值的方法实现了连续的辐射场表示,计算方法如下:
[0058]
σ=g(relu(γ1,

,γ8))
[0059]
f=g(f1,

,f8)
[0060]
其中,σ表示待查询的采样点的体密度,f表示待查询的采样点的特征向量,γ1,

,γ8和f1,

,f8分别表示待查询的采样点的八个最近邻的体素所存储的体素置信度和体素特征向量,relu表示激活函数,g表示三线性插值函数,对于采样点的颜色辐射,采用一个含有四个隐藏层的64维多层感知机进行回归:
[0061]
c=mlp(h(f),h(d)
[0062]
h(f)=[sin(πf),cos(πf),

,sin(2
l-1
πf),cos(2
l-1
πf)]
[0063]
h(d)=[sin(πd),cos(πd),

,sin(2
l-1
πd),cos(2
l-1
πd)]
[0064]
其中,c表示待查询的采样点的颜色辐射,mlp表示多层感知机,d表示该采样点的观察方向,h表示位置编码函数,用于将输入映射到高维空间,以此来增强多层感知机捕捉高频细节的能力,l表示位置编码函数h所需要的超参数。由于可优化的体素特征向量的加入,使用了一个含有四个隐藏层的64维多层感知机的进行视角可变辐射的建模,相比于原有的16个隐藏层的256维的多层感知机,本发明的单次辐射场查询的时间更短,同时可以通过预先对体素置信度进行计算来避免在空白体素内进行辐射场查询,进一步缩短了单条光
线的绘制时间。
[0065]
步骤3、对于步骤(2)中所得到每一个体素顶点v={v1,

,vk},将其投影到步骤(1)所获得的轮廓图s={s1,

,sn}中,统计位于轮廓图内部的数量m,则该体素顶点的体素置信度初始值γ
init
的计算方式为:
[0066][0067]
其中,n表示稀疏视角输入数量。
[0068]
通过上述初始化方法,我们将不满足轮廓一致性的体素去除。与随机初始化的辐射场重建方法相比,本发明为重建提供一个紧凑的初始形状,避免了在空白区域内浮云的产生,从而避免了在大部分空白区域内的辐射场查询,加速了辐射场的重建。
[0069]
步骤4、通过查询步骤(2)每个体素顶点的体素置信度γ和体素特征向量f中得到的每一条光线上采样点的体密度和颜色辐射,从而对每个稀疏视角上的rgb图像进行体绘制,通过最小化重建光度误差和全微分损失对体素顶点的体素置信度和体素特征向量以及多层感知机进行迭代优化。
[0070]
其中,重建光度误差损失l
photo
的优化目标为:
[0071][0072]
上式中,r表示一组随机在图像轮廓内采样的光线,r表示一条随机采样的光线;具体地,我们在每轮迭代中在所有稀疏视角输入中随机采样8192条光线,c(r)表示光线r所对应像素的颜色值,表示通过的辐射场表示进行体绘制后预测的像素颜色值,具体地,我们通过在一条光线上均匀采样点并以每个采样点的体密度为权重累积所有采样点的颜色辐射绘制该像素的颜色,其计算方式为:
[0073][0074][0075]
其中,n表示沿着一条光线均匀采样点的数量,ti表示从最近的采样点到采样点i的累积不透明度,1-exp(-σiδi)衡量了采样点i对于最终绘累积的颜色值产生的贡献程度;δi表示采样步长;σi表示采样点i的体密度,在辐射场表示中,该体密度的计算通过最近邻8个体素顶点的体素置信度的初始值插值而得到,ci表示采样点i的辐射值,通过将该点对应的特征向量和被观察方向输入一个多层感知机进行回归计算得到;
[0076]
除了计算重建光度误差外,优化目标还包括一个全微分误差损失l
variation
,用于正则化体素置信度的梯度,其计算方式为:
[0077][0078]
其中,v表示一组随机采样的体素,δ
x
(v)表示体素v在方向x上的微分,δy(v)表示
体素v在方向y上的微分,δz(v)表示体素v在方向z上的微分。具体地,在每次迭代中随机采样2018个体素。
[0079]
综合以上两个损失函数,本发明的最终损失函数l为:
[0080]
l=l
photo

variation
l
variation
[0081]
其中,ω
variation
表示全微分损失函数所占的权重。本发明中将ω
variation
设置为0.1。通过引入全微分损失,本发明使得所重建的辐射场有更光滑的几何分布,更加接近真实的辐射场分布。
[0082]
步骤5、对于步骤(4)中的优化过程,本发明引入了一个周期性的进行体素裁剪来不断精细化辐射场的几何估计。
[0083]
尽管体素置信度初始化策略已经剔除了大部分不包含实际内容的体素栅格,但依然有部分的空白体素没有被剔除。这一部分空白体素没有被剔除的原因一方面是轮廓图像的获取存在一定的误差,另一方面是由于稀疏视角输入情况下的形状重建往往会稍大于物体的实际形状,因此我们通过周期性的体素裁剪来有效的去除空白体素,不断精细化辐射场几何表示,同时也避免了多余的辐射场查询,提升了重建效率。具体地,本发明以1000次迭代优化为周期,查询整个体素空间的体素置信度。并使用阈值0.1进行裁剪:将体素置信度小于0.1的体素进行去除,最终得到精细化后的显式-隐式辐射场表示。
[0084]
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,且应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1