基于深度图像和神经辐射场的新视角合成方法与流程

文档序号:27621529发布日期:2021-11-29 14:27阅读:794来源:国知局
基于深度图像和神经辐射场的新视角合成方法与流程

1.本发明涉及一种基于深度图像和神经辐射场的新视角合成方法。适用于计算机图形学以及深度学习领域,尤其适用于场景或物体的新视角合成领域。


背景技术:

2.新视角合成技术是计算机视觉和计算机图形学的一个重要研究课题,它已广泛应用于数字和娱乐行业,从电影制作到游戏,以及蓬勃发展的虚拟现实和增强现实应用。
3.目前,使用少量已知图像生成任意视角下的高真实感图像仍然是一个亟待解决的问题。如果拥有物体或场景精确的几何结构,可以通过渲染来生成任意视角下的高真实感图像,但这还需要了解物体的表面材质、光照环境等条件,渲染过程通过对渲染方程的积分求解,能得到非常逼真的结果。然而,针对现实世界中的物体或场景仍然充满挑战,一方面,现实世界中的物体或场景很难获得精确的几何、曲面法线和材质信息;另一方面,真实环境的光照非常复杂,多光源环境难以建模。
4.mildenhall等人的“nerf:representing scenes as neural radiance fields forview synthesis”首先提出了神经辐射场工作,利用全连接网络(mlp)和体渲染从图片中拟合重建场景的几何和外观,由于其简单的结构和令人惊艳的效果,吸引了大量关注。但它也存在着渲染速度过慢,实现理想的效果仍需要大量图片等问题,这导致其距离实际使用还存在着一定距离。
5.lingjie liu等人的“neural sparse voxel fields”提出使用稀疏体素组织场景,让光线上的采样点数量减少,加速了渲染时间,但他们的方法仍旧需要大量输入图片来完成体素的剪枝和细分。
6.alexyu等人的“pixelnerf:neural radiance fields from one orfew images”实现了仅从一幅或几幅输入图像进行新视角合成,该工作虽然减少了对输入图像数量的要求,但新视角生成的结果存在明显瑕疵,极大地影响了用户在实际使用中的体验。
7.ajay jain等人的“puttingnerf on a diet:semantically consistent few

shot view synthesis”同样致力于减少输入图片的数量,他们通过引入一种语义一致性损失函数,在新视角下保持场景属性不变。这种损失函数建立在预训练好的网络模块提取的语义信息上。
8.qianqianwang等人的“ibrnet:learning multi

view image

based rendering”在多个场景上训练,可以做到使用少量图片微调网络,即可泛化到新场景上,但该方法依赖相似场景的预训练,同时从输入图片上提取二维特征,在深度上存在歧义性,使用少量图片泛化到新场景上的效果难以满足用户需求。


技术实现要素:

9.本发明要解决的技术问题是:针对上述存在的问题,提供一种基于深度图像和神经辐射场的新视角合成方法,以实现利用少量拍摄视角完成高质量新视角合成。
10.本发明所采用的技术方案是:一种基于深度图像和神经辐射场的新视角合成方法,其特征在于:
11.获取场景多个视角的真实rgb

d图像;
12.基于场景多个视角的rgb

d图像生成该场景完整的场景彩色点云,场景彩色点云中每个点的颜色值与rgb

d图像相应位置的颜色对应;
13.基于场景完整的场景彩色点云生成该场景带颜色的三角网格表示;
14.渲染带颜色的三角网格表示生成大量渲染图像;
15.利用渲染图像作为网络真值预训练神经辐射场网络;
16.利用所述rgb

d图像对应的真实rgb图像作为网络真值继续训练所述神经辐射场网络;
17.通过经渲染图像和rgb图像训练的神经辐射场网络生成指定新视角的图像。
18.所述利用所述rgb

d图像对应的真实rgb图像作为网络真值继续训练神经辐射场网络,包括:
19.引入图像判别器网络d,将所述神经辐射场网络作为生成器g,形成生成对抗网络;
20.利用所述rgb图像和神经辐射场网络生成的生成图像训练所述生成对抗网络。
21.所述图像判别器网络d采用基于图像分块的判别器。
22.所述生成对抗网络的损失函数为:
[0023][0024]
其中p
fake
是假图像块的集合,而p
real
是真图像块的集合。
[0025]
所述利用所述rgb

d图像对应的真实rgb图像作为网络真值继续训练神经辐射场网络,包括:
[0026]
取场景每个体素所包含点云的平均颜色值作为该体素的体素颜色c
voxel

[0027]
将体素颜色特征enc(c
voxel
)作为条件输入到所述神经辐射场网络的颜色预测网络f
c
中。
[0028]
所述基于场景多个视角的rgb

d图像生成该场景完整的场景彩色点云,包括:
[0029]
在每个视角重建原始点云,并为每个视角下点云的每个点分配颜色值;
[0030]
采用带颜色的迭代最近点算法来对齐不同视角下的点云,对齐后使用盒式网格过滤器将来自不同视角的彩色点云合并在一起,获得场景完整的场景彩色点云。
[0031]
所述基于场景完整的场景彩色点云生成该场景带颜色的三角网格表示,包括:将完整的场景彩色点云通过泊松表面重建转换为带颜色的三角网格表示。
[0032]
所述神经辐射场网络的预训练过程由rgb损失函数监督,其公式为:
[0033][0034]
其中,r是分批训练中一个批次的光线集,c(r)是光线r对应像素点的真实颜色;
[0035][0036][0037]
其中,δ
i
=t
i+1

t
i
,表示第i+1个采样点和第i个采样点之间的距离;σ为神经辐射场网络中密度预测网络f
σ
预测的采样点体积密度;c为神经辐射场网络中颜色预测网络f
c
预测的采样点颜色值。
[0038]
一种基于神经辐射场的新视角合成装置,其特征在于:
[0039]
图像获取模块,用于获取场景多个视角的真实rgb

d图像;
[0040]
点云生成模块,用于基于场景多个视角的rgb

d图像生成该场景完整的场景彩色点云,场景彩色点云中每个点的颜色值与rgb

d图像相应位置的颜色对应;
[0041]
网格生成模块,用于基于场景完整的场景彩色点云生成该场景带颜色的三角网格表示;
[0042]
渲染模块,用于渲染带颜色的三角网格表示生成大量渲染图像;
[0043]
预训练模块,用于利用渲染图像作为网络真值预训练神经辐射场网络;
[0044]
继续训练模块,用于利用所述rgb

d图像对应的真实rgb图像作为网络真值继续训练所述神经辐射场网络;
[0045]
新视角合成模块,用于通过经渲染图像和rgb图像训练的神经辐射场网络生成指定新视角的图像。
[0046]
一种存储介质,其上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现所述基于深度图像和神经辐射场的新视角合成方法的步骤。
[0047]
一种电子设备,其特征在于,包括:
[0048]
处理器;
[0049]
存储器,存储有能被处理器执行的计算机程序,该计算机程序被执行时实现所述基于深度图像和神经辐射场的新视角合成方法的步骤;
[0050]
输入单元,用于输入指定新视角;
[0051]
显示单元,用于显示新视角图像。
[0052]
该电子设备还具有用于采集rgb

d图像的相机。
[0053]
本发明的有益效果是:本发明通过少量rgb

d图像,重建场景的完整彩色点云以及三角网格表示,获取场景的大致几何,为方法提供几何先验;采样生成大量采样视角,并从采样视角渲染重建的三角网格表示,得到大量的渲染图像,为网络提供充足的训练数据;使用拍摄得到的少量真实图片微调网络,最终完成高真实感的新视角图片合成。
[0054]
本发明提出引入深度,在拍摄图像的数量无法达到要求的数量时,提供大量接近真实的渲染图像来预训练网络,由于渲染图像具有精确的相机参数并且来自任意多视角方向,因此预训练过程可以为网络提供强大的先验。
附图说明
[0055]
图1为实施例的流程图。
[0056]
图2为实施例的流程各主要阶段示意图。
[0057]
图3为实施例中从rgb

d图像得到三角网格表示的示意图。
[0058]
图4为实施例中基于预训练

微调策略的神经辐射场网络结构示意图。
[0059]
图5、图6、图7、图8为实施例新视角合成方法与其他先进方法在不同场景上的比较示意图。
[0060]
图9为实施例中消融实验的结果示意图。
具体实施方式
[0061]
如图1、图2所示,本实施例为一种基于深度图像和神经辐射场的新视角合成方法,具体包括以下步骤:
[0062]
s1、获取某一场景n个视角的真实rgb

d图像,rgb

d图像由rgb图像和相应的深度图像组成。
[0063]
本实施例充分利用了通过消费级电子设备(例如apple ipad pro,具有lidar相机和rgb相机)捕获的rgb

d图像,rgb图像{i
i
,i=1,

,n}和相应的深度图像分别由电子设备的rgb相机和lidar相机捕获。
[0064]
本例中对rgb

d图像数量和具体拍摄视角不设限制,但需保证该多个视角的rgb

d图像能够构成场景完整的点云。
[0065]
s2、基于场景多个视角的rgb

d图像生成该场景完整的场景彩色点云,场景彩色点云中每个点的颜色值与rgb

d图像相应位置的颜色对应。
[0066]
本实施例借助从arkit导出的相机参数,在每个拍摄的视角下重建原始点云{p
i
,i=1,

,n}。需要注意的是,rgb图像的分辨率和lidar相机拍摄的深度图像的分辨率可能存在不同,本实施例将rgb图像缩放到与深度图像相同的分辨率,并为每个视角下重建点云的每个点根据相应rgb图像上相应位置的颜色分配颜色值。
[0067]
由于lidar相机存在深度估计的问题,重建的点云可能会有一些噪点,本例使用open3d软件库的异常值去除算法去除那些离群点。
[0068]
由于ipad pro的传感器估计得到的相机参数也可能存在问题,导致不同视角重建的点云在世界坐标系中无法完全对齐。由于点云包含颜色值,本实施例采用带颜色的迭代最近点算法(icp)来对齐不同视角下的点云,对齐后使用盒式网格过滤器将来自不同视角的彩色点云合并在一起,以获得该场景完整的场景彩色点云。其中,带颜色的迭代最近点算法适用于彩色点云,与常规迭代最近点算法相比,在优化目标上加入了颜色误差,会更加精确和鲁棒。对于彩色点云合并这一部分,我们对两个点云重叠的部分计算轴对齐包围盒,包围盒进一步被分割为小的体素格子,每个小体素格子内的点通过平均的方式合并,包括他们的位置,颜色和法向,重叠区域之外的部分不做改变。
[0069]
s3、基于场景完整的场景彩色点云生成该场景带颜色的三角网格表示,完整的场景彩色点云将通过泊松表面重建转换为带颜色的三角网格表示(见图3)。
[0070]
s4、渲染带颜色的三角网格表示生成大量渲染图像,一旦获得重建的三角网格表
示,就可以从任意视角渲染网格表示得到渲染图像。
[0071]
为了覆盖场景的大部分视角,本实施例在已知的相机视角{d
i
,i=1,

,n}之间进行插值,并在每个已知的相机视角处进行轻微扰动,生成大量新相机视角,将这些视角称作采样视角{d

i
,i=1,

,k},其中k为采样视角的数量。
[0072]
在采样视角下使用opengl渲染重建的带颜色的三角网格表示,生成大量渲染图像{i

i
,i=1,

,k},渲染图像的数量k可以满足训练一个令人满意的神经辐射场网络的需要,并且这些渲染图像对应的相机参数十分准确,比从rgb图像当中重建得到的相机参数更有利于网络的训练。
[0073]
s5、利用步骤s4生成的大量渲染图像作为网络真值预训练神经辐射场网络。针对当前场景,构建神经辐射场网络,完成从rgb图像隐式重建场景的几何和外观。
[0074]
本实施例利用点云或三角网格的体素化方法初始化场景的体素表示,初始的体素大小取决于场景大小。
[0075]
本实施例使用八叉树结构来组织场景的体素表示在每个体素顶点定义一个可学习的嵌入特征因为相机参数已知,可以在世界坐标系中,生成从相机位置出发,穿过图像像素的光线。对每条光线,应用轴对齐包围盒相交检测方法判断光线是否与体素格子相交,该方法对稀疏八叉树结构组织的体素非常高效。对于每个相交的体素,在相交的射线段上均匀采样,并使用下式获得每个采样点p的输入特征g
i
(p):
[0076][0077]
其中,是v
i
的八个顶点,是对应顶点的嵌入特征,χ(
·
)代表三线性插值。
[0078]
本实施例中神经辐射场网络的整个网络架构如图4所示,神经辐射场网络的输入是采样点的插值得到的特征g
i
(p)和光线r的方向d。输入特征g
i
(p)和光线方向d会经过一个编码过程enc(
·
),来捕捉高频细节(具体可参见“nerf:representing scenes as neural radiance fields for view synthesis”论文),编码后的输入特征enc(g
i
(p))将被输入到一个全连接(mlp)网络f
σ
(密度预测网络)预测采样点的体积密度σ,
[0079]
σ=f
σ
(enc(g
i
(p))),
[0080]
将输入特征enc(g
i
(p))和编码的光线方向enc(d)输入到另一个全连接(mlp)网络fc(颜色预测网络)预测采样点的颜色值c,
[0081]
c=f
c
(enc(g
i
(p)),enc(d))
[0082]
本实施例利用体渲染的离散化公式计算光线对应的像素点颜色
[0083][0084]
[0085]
其中,δ
i
=t
i+1

t
i
,表示相邻的第i+1个采样点和第i个采样点之间的距离。
[0086]
在预训练阶段,使用步骤s4中得到的接近真实的渲染图像{i

i
,i=1,

,k}作为网络真值训练神经辐射场网络。预训练过程由rgb损失函数监督,其公式为:
[0087][0088]
其中,r是分批训练中一个批次的光线集,c(r)是光线r对应像素点的真实颜色。在预训练过程中,为了保证场景的完整性,提出的方法不对体素进行剪枝操作,但是在必要的时候,会对体素进行细分,即体素的大小会是原来的一半。
[0089]
本实施例中预训练过程训练方法为自适应的矩估计方法(adam),训练次数为6000次,学习率从0.001开始,并随着迭代次数逐渐衰减,每次训练都将数据进行随机排序。
[0090]
s6、引入网络微调过程,利用rgb

d图像对应的真实rgb图像作为网络真值继续训练所述神经辐射场网络。
[0091]
由于步骤s5预训练过程使用了接近真实的渲染图像作为网络真值,所以网络生成的新视角图像也是渲染风格的,也只是接近真实,与真实拍摄的图像仍存在差异。为了使网络能够借助一些真实拍摄的图像在新视角下生成逼真的图像,本实施例引入网络微调过程来完成网络的小样本训练。
[0092]
在使用少量真实图像的小样本训练过程中,最简单地做法是将渲染图像{i

i
,i=1,

,k}替换为那些真实拍摄的rbg图像{i
i
,i=1,

,n}作为网络真值并继续训练神经辐射场网络。
[0093]
虽然直接替换网络真值的操作非常直接,但是这个简单的策略已经能够帮助网络生成真实风格的新视角图像。唯一的问题在于细节上仍然存在不足,尤其是当新视角与已知真实图像的视角有很大不同时。因此,本实施例引入了图像判别器网络d,并将神经辐射场网络的整个全连接(mlp)网络(包括密度预测网络f
σ
和颜色预测网络f
c
)视为图像生成器g,形成生成对抗网络架构改进网络训练和生成图像的细节。
[0094]
在训练过程中,不仅从已知的相机视角{d
i
,i=1,

,n}中采样光线并执行与预训练过程相同的rgb损失监督,而且还从采样视角{d

i
,i=1,

,k}生成图像生成的图像与实际拍摄的rgb图像{i
i
,i=1,

,n}组合来训练生成对抗网络架构。
[0095]
由于本实施例设定的背景是没有获取大量真实拍摄的rgb图像,因此“真”图像的数量少于“假”(生成)图像的数量。为了解决“真”样本不足的问题,本例中图像判别器网络d采用基于图像分块的判别器,基于图像分块的判别器全部由图像卷积层组成(具体可参见“high

resolution image synthesis and semantic manipulation with conditional gans”论文)。
[0096]
本实施例分别从真实图像和生成的假图像中随机采样一定大小的图像块,并将它们输入到判别器中来判断是“真”还是“假”。基于图像块的判别器不仅可以帮助增加训练中的“真”样本数量,还可以减少显存开销,图像块优选地的大小通常为32
×
32。
[0097]
生成对抗网络架构可以在采样视角下为网络微调过程提供除了已知视角下rgb损
失函数监督之外的额外监督。针对网络微调过程,除了增加监督之外,更好地利用少量的拍摄的rgb图像和深度图像提供的先验来增强新视角合成结果也是一个可行的思路。目前已有的工作使用二维卷积网络从图像中提取特征,并将采样点投影到图像平面上以获取像素点的特征,获取到的特征被用作网络输入的一部分。然而,这种方法不能消除深度上的歧义,可能会带来错误的先验信息。相反,本实施例通过收集深度信息,可以消除在网络中添加rgb先验时深度的模糊性。
[0098]
在步骤s2中,不同视角的rgb图像和深度图像已重建为场景的完整彩色点云,所以可以知道场景的每个体素包含点云中的哪些点,及这些点云的颜色信息。由于每个体素中包含的点数不一致,本例取一个体素中点云的平均颜色值作为该体素的体素颜色c
voxel
。rgb值c
voxel
只有三维,使用类似的编码方式enc(
·
),将三维颜色信息编码为高维特征,编码后的体素颜色特征enc(c
voxel
)被作为条件输入到颜色预测网络fc中,因此颜色预测网络fc重新定义为:
[0099]
c=f
c
(enc(g
i
(p)),enc(d),enc(c
voxel
))
[0100]
密度预测网络f
σ
与体素颜色无关,因此f
σ
的定义不变,并且密度仅由采样点处的编码位置特征决定。enc(c
voxel
)为相应体素中的采样点提供颜色先验,是来自真实场景的先验。与从2d图像中提取颜色特征的工作相比,本实施例从3d点云中提取颜色信息,可以解决深度的模糊性。
[0101]
网络微调过程的训练目标由rgb损失函数和生成对抗网络损失函数组成,其中rgb损失函数的定义与预训练过程中的相同;生成对抗网络损失函数定义为:
[0102][0103]
其中pfake是假图像块的集合,而preal是真图像块的集合。
[0104]
总训练损失函数是和的总和:
[0105][0106]
其中α是调节权重,优选地α=0.1。需要注意的是,rgb损失函数仅适用于生成器网络部分。
[0107]
网络微调过程训练方法为自适应的矩估计方法(adam),训练次数为20000次,学习率从0.001开始,并随着迭代次数逐渐衰减。每次训练都将数据进行随机排序。
[0108]
图5展示了本实施例在“盒子”场景和“哑铃”场景与其它基于深度图像和神经辐射场的新视角合成方法的比较。其中第一列到第五列为其它方法的在新视角下的合成图像结果,第六列为本实施例方法在新视角下的合成图像结果,最后一列为该视角下拍摄的真实图片。在“盒子”场景下,其它方法要么不能很好地保持两个盒子的外观,要么细节丢失,整个图像非常模糊。在“哑铃”场景下,其它方法要么不能很好地对物体的几何细节进行建模,物体的边界存在模糊,要么整个图像都很模糊。相比之下,本实施例方法的结果很好地保持了场景对象的几何结构和外观,是最接近真实图片的结果。
[0109]
图6展示了“盆栽”场景下的对比结果,这个场景具有极其精细的几何细节,如盆栽
上的枝干与叶子。其中第一列到第五列为其它方法的在新视角下的合成图像结果,第六列为本实施例方法在新视角下的合成图像结果,最后一列为该视角下拍摄的真实图片。第二列和第四列的结果整体非常模糊。第三列的结果能清楚地分辨出植物,但很多叶子缺失了。第一列和第五列的结果叶子模糊或缺失,尤其是第五列的结果中,叶子的颜色受到了地板颜色的影响。而本实施例方法引入基于图像块的判别器和三维体素颜色先验,一方面可以保证树叶不会模糊或消失,另一方面可以防止树叶的颜色受到场景中其他颜色的影响。
[0110]
图7展示了在“鳄鱼玩具”场景和“角色玩具”场景下的对比结果。这两个数据集中的一个展示了本实施例方法在毛绒物体上生成新视角图像的能力,另一个展示了本实施例方法在多个物体的场景中仍然可以获得较好的结果。其中第一列到第五列为其它方法的在新视角下的合成图像结果,第六列为本实施例方法在新视角下的合成图像结果,最后一列为该视角下拍摄的真实图片。与其他方法相比,本实施例方法的结果更清晰,细节更丰富。
[0111]
图8展示了在“石凳”场景和“石头艺术品”场景下的对比结果,这两个场景都包含比较大的物体。“石凳”场景包含一个具有十分光滑表面的石凳。可以看到,本实施例的结果可以重建与视角相关的视觉效果,例如石凳表面上的反射。在新视角合成图像中还可以保留一些表面几何图案。与此相比,其他方法的结果甚至不能保持基本的石凳形状。另一个场景,“石头艺术品”包含一个被放置在水面旁边的石头艺术品。从结果可以看出,本实施例的方法不仅很好地重建了石头的几何和外观,而且在合成新视角时很好地处理了水面的反射。其他方法甚至在合成图像的石头部分也会产生瑕疵。
[0112]
图9展示了在“盆栽”场景下消融实验的结果。总共有四种不同的实验方案。第一种方案去除预训练阶段,直接用体素颜色先验和图像块判别器对网络进行训练。另外三种方案都采用了预训练过程。第二种方案不使用体素颜色先验和图像块判别器,第三种方案使用体素颜色先验但不使用图像块判别器,最后一种方案同时使用体素颜色先验和图像块判别器,是本实施例使用的方法。四种方案分别对应图中四列。通过比较第一列的结果和最后一列的结果,可以得出结论,预训练+微调的策略效果更好。通过对比第二列的结果和第三列的结果,可以发现由于使用了体素颜色先验,第三列结果中的植物叶子不会受到地板颜色的影响,生成的颜色更生动,更接近真实。然而,由于植物本身的复杂结构,第三种方案的结果仍然无法在某些视角(第二排)中重建植物叶片。与第三种方案相比,最后一种方案增加了一个图像块判别器,可以在新视角下提供更好的监督。从第三列和最后一列的结果比较可以看出,在第三种方案缺少叶子的视图中,最后一种方案可以很好地保持外观,视觉效果更好。通过以上四种方案的比较,充分证明了预训练+微调策略的效果以及在小样本学习框架中引入体素颜色先验和图像块判别器的必要性。这些模块达到了预期的效果。
[0113]
通过上述仿真实验的结果可以看出,本实施例提出的基于深度图像和神经辐射场的新视角合成方法,能够显著较低拍摄视角的需要,同时保证理想的图像合成结果,相比已有方法具有更高的实用价值。
[0114]
本实施例还提供一种基于神经辐射场的新视角合成装置,包括图像获取模块、点云生成模块、网格生成模块、渲染模块、预训练模块、继续训练模块和新视角合成模块。
[0115]
其中图像获取模块用于获取场景多个视角的真实rgb

d图像;点云生成模块用于基于场景多个视角的rgb

d图像生成该场景完整的场景彩色点云;网格生成模块用于基于场景完整的场景彩色点云生成该场景带颜色的三角网格表示;渲染模块用于渲染带颜色的
三角网格表示生成大量渲染图像;预训练模块用于利用渲染图像作为网络真值预训练神经辐射场网络;继续训练模块用于利用所述rgb

d图像对应的真实rgb图像作为网络真值继续训练所述神经辐射场网络;新视角合成模块用于通过经渲染图像和rgb图像训练的神经辐射场网络生成指定新视角的图像。
[0116]
本实施例还提供一种存储介质,其上存储有能被处理器执行的计算机程序,该计算机程序被执行时实现本实施例中基于深度图像和神经辐射场的新视角合成方法的步骤。
[0117]
本实施例还提供一种电子设备,包括处理器、存储器、输入单元、显示单元和相机,其中存储器上存储有能被处理器执行的计算机程序,该计算机程序被执行时实现本实施例中基于深度图像和神经辐射场的新视角合成方法的步骤;输入单元用于输入指定新视角;显示单元用于显示新视角图像;相机包括rgb相机和lidar相机,用于采集rgb

d图像。
[0118]
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变形,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1