1.本公开涉及图像渲染技术领域,特别是涉及一种三维物体的图像渲染方法、装置及电子设备。
背景技术:2.三维物体的新视角图像渲染一直是计算机图形学领域的重要研究方向。新视角图像渲染是指根据三维物体的多个视角下所拍摄的图像,渲染出该三维物体在新的视角下的图像。相关技术中,利用预先训练完成的神经渲染网络来进行三维物体的新视角图像渲染。
3.然而,相关技术利用预先训练完成的神经渲染网络来进行三维物体的新视角图像渲染的方法,只利用了该三维物体多个视角下所拍摄的图像的位置信息和色彩信息,这会导致该神经渲染网络只能对单一物体进行新视角图像渲染,不具备通用性,即,针对每一不同的三维物体都要单独训练一个神经渲染网络,每次训练都要涉及到收集数据等复杂的操作。这大大增加了技术人员的工作量,且对于非专业领域的人非常不友好。
技术实现要素:4.本公开实施例的目的在于提供一种三维物体的图像渲染方法、装置及电子设备,以解决相关技术中利用神经渲染网络进行图像渲染时不具备通用性的问题。具体技术方案如下:
5.第一方面本公开实施例提供了一种三维物体的图像渲染方法,所述方法包括:
6.获取针对目标物体的目标视角信息;其中,所述目标视角信息为待进行图像渲染的视角的视角信息;
7.基于所述目标视角信息,确定对所述目标物体进行渲染时所利用的各个空间采样点的位置信息;
8.利用预先训练完成的神经渲染网络,基于每一所述空间采样点的位置信息,以及所述目标物体的各个待利用图像的特征图,生成每一所述空间采样点的颜色信息;其中,各个所述待利用图像为从所述目标物体的不同视角拍摄所得到的图像;所述神经渲染网络是基于样本采样点的位置信息、各个样本图像的特征图,以及待预测图像的真值,训练得到人工智能模型;各个所述样本图像和所述待预测图像为从样本物体的不同视角拍摄得到的图像;所述样本采样点为对所述待预测图像进行渲染时所利用的空间采样点;
9.基于每一所述空间采样点的颜色信息,生成所述目标物体的渲染图像。
10.可选地,所述目标视角信息包括:观察坐标,以及观察角度;
11.所述基于所述目标视角信息,确定对所述目标物体进行渲染时所利用的各个空间采样点的位置信息,包括:
12.以所述观察坐标为端点,根据所述观察角度,生成与待渲染的图像中的每一像素点相对应的虚拟射线;
13.对每一所述虚拟射线进行采样,得到对所述目标物体进行渲染时所利用的各个空
间采样点的位置信息。
14.可选地,任一所述空间采样点的颜色信息的生成方式,包括:
15.针对每一所述待利用图像,确定所述空间采样点在该待利用图像的映射位置,并从该待利用图像的特征图中,确定所述映射位置处的特征信息,作为所述空间位置点对应的采样特征;
16.将所述采样特征进行特征融合处理,得到所述空间采样点对应的融合特征;
17.将所述空间采样点的位置信息,以及所述空间采样点对应的融合特征,输入预先训练完成的神经渲染网络中,生成所述空间采样点的颜色信息。
18.可选地,所述针对每一待利用图像,确定所述空间采样点在该待利用图像的映射位置,包括:
19.针对每一待利用图像,基于拍摄该待利用图像的拍摄设备的相机标定信息,以及所述空间采样点的位置信息,确定所述空间采样点在该待利用图像中的映射位置。
20.可选地,所述将各个所述采样特征进行特征融合处理,得到所述空间采样点对应的融合特征,包括:
21.利用预先训练的自注意力机制transformer层,对各个所述采样特征进行特征融合处理,得到所述空间采样点对应的融合特征。
22.可选地,所述神经渲染网络和所述自注意力机制transformer层是基于所述样本采样点的位置信息、各个所述样本图像的特征图,以及所述待预测图像的真值联合训练得到。
23.可选地,所述神经渲染网络和所述自注意力机制transformer层的联合训练方式包括:
24.获取各个所述样本图像和所述待预测图像;
25.基于所述待预测图像对应的视角信息,确定对所述样本物体进行渲染时所利用的所述样本采样点的位置信息;
26.针对每一所述样本图像,确定所述样本采样点在该样本图像的映射位置,并从该样本图像的图像特征图中,确定所述映射位置处的特征信息,作为所述样本采样点对应的采样特征;
27.利用训练中的自注意力机制transformer层,将所述样本采样点的各个所述采样特征进行特征融合处理,得到所述样本采样点对应的融合特征;
28.将所述样本采样点的位置信息,以及所述样本采样点对应的融合特征,输入训练中的神经渲染网络中,输出所述样本采样点的预测颜色信息;
29.基于所述样本采样点的预测颜色信息,生成所述样本物体从指定视角观察时的图像,作为输出图像;其中,所述指定视角包括所述待预测图像对应的观察位置和观察角度;
30.利用所述输出图像,以及所述待预测图像的差异,计算模型损失;
31.当利用所述模型损失确定所述神经渲染网络未收敛时,调整所述神经渲染网络和所述自注意力机制transformer层的模型参数,直至所述神经渲染网络和所述自注意力机制transformer层收敛。
32.可选地,所述针对每一所述待利用图像,确定所述空间采样点在该待利用图像的映射位置,并从该待利用图像的特征图中,确定所述映射位置处的特征信息,作为所述空间
位置点对应的采样特征,包括:
33.若所述待利用图像的特征图与所述待利用图像的尺寸不同,基于所述待利用图像的尺寸,对所述待利用图像的特征图进行线性插值处理,得到与所述待利用图像的尺寸相同的目标特征图;
34.提取所述目标特征图中所述映射位置处的特征信息,得到所述空间采样点对应的采样特征。
35.可选地,所述颜色信息包括,色彩值,以及密度值;所述密度值用于表征利用所述空间采样点生成像素值时,所述空间采样点的权重;
36.所述基于每一所述空间采样点的颜色信息,生成所述目标物体的渲染图像,包括:
37.将每一所述虚拟射线上的空间采样点的色彩值根据所述密度值加权相加,得到该虚拟射线对应的待渲染的图像中的像素点的像素值;
38.基于所述待渲染的图像中的每一像素点的像素值,生成所述渲染图像。
39.第二方面,本公开实施例提供一种三维物体的图像渲染装置,所述装置包括:
40.获取模块,用于获取针对目标物体的目标视角信息;其中,所述目标视角信息为待进行图像渲染的视角的视角信息;
41.确定模块,用于基于所述目标视角信息,确定对所述目标物体进行渲染时所利用的各个空间采样点的位置信息;
42.第一生成模块,用于利用预先训练完成的神经渲染网络,基于每一所述空间采样点的位置信息,以及所述目标物体的各个待利用图像的特征图,生成每一所述空间采样点的颜色信息;其中,各个所述待利用图像为从所述目标物体的不同视角拍摄所得到的图像;所述神经渲染网络是基于样本采样点的位置信息、各个样本图像的特征图,以及待预测图像的真值,训练得到人工智能模型;各个所述样本图像和所述待预测图像为从样本物体的不同视角拍摄得到的图像;所述样本采样点为对所述待预测图像进行渲染时所利用的空间采样点;
43.第二生成模块,用于基于每一所述空间采样点的颜色信息,生成所述目标物体的渲染图像。
44.可选地,所述目标视角信息包括:观察坐标,以及观察角度;
45.所述基于所述目标视角信息,确定模块包括:
46.第一生成子模块,用于以所述观察坐标为端点,根据所述观察角度,生成与待渲染的图像中的每一像素点相对应的虚拟射线;
47.采样模块,用于对每一所述虚拟射线进行采样,得到对所述目标物体进行渲染时所利用的各个空间采样点的位置信息。
48.可选地,所述第一生成模块,包括:
49.第一确定子模块,用于针对每一所述待利用图像,确定所述空间采样点在该待利用图像的映射位置,并从该待利用图像的特征图中,确定所述映射位置处的特征信息,作为所述空间位置点对应的采样特征;
50.融合子模块,用于将所述采样特征进行特征融合处理,得到所述空间采样点对应的融合特征;
51.输入子模块,用于将所述空间采样点的位置信息,以及所述空间采样点对应的融
合特征,输入预先训练完成的神经渲染网络中,生成所述空间采样点的颜色信息。
52.可选地,所述第一确定子模块,具体用于:
53.针对每一待利用图像,基于拍摄该待利用图像的拍摄设备的相机标定信息,以及所述空间采样点的位置信息,确定所述空间采样点在该待利用图像中的映射位置。
54.可选地,所述融合子模块,具体用于:
55.利用预先训练的自注意力机制transformer层,对各个所述采样特征进行特征融合处理,得到所述空间采样点对应的融合特征。
56.可选地,所述神经渲染网络和所述自注意力机制transformer层是基于所述样本采样点的位置信息、各个所述样本图像的特征图,以及所述待预测图像的真值联合训练得到。
57.可选地,所述神经渲染网络和所述自注意力机制transformer层的联合训练方式包括:
58.获取各个所述样本图像和所述待预测图像;
59.基于所述待预测图像对应的视角信息,确定对所述样本物体进行渲染时所利用的所述样本采样点的位置信息;
60.针对每一所述样本图像,确定所述样本采样点在该样本图像的映射位置,并从该样本图像的图像特征图中,确定所述映射位置处的特征信息,作为所述样本采样点对应的采样特征;
61.利用训练中的自注意力机制transformer层,将所述样本采样点的各个所述采样特征进行特征融合处理,得到所述样本采样点对应的融合特征;
62.将所述样本采样点的位置信息,以及所述样本采样点对应的融合特征,输入训练中的神经渲染网络中,输出所述样本采样点的预测颜色信息;
63.基于所述样本采样点的预测颜色信息,生成所述样本物体从指定视角观察时的图像,作为输出图像;其中,所述指定视角包括所述待预测图像对应的观察位置和观察角度;
64.利用所述输出图像,以及所述待预测图像的差异,计算模型损失;
65.当利用所述模型损失确定所述神经渲染网络未收敛时,调整所述神经渲染网络和所述自注意力机制transformer层的模型参数,直至所述神经渲染网络和所述自注意力机制transformer层收敛。
66.可选地,所述第一确定子模块,包括:
67.线性插值单元,用于若所述待利用图像的特征图与所述待利用图像的尺寸不同,基于所述待利用图像的尺寸,对所述待利用图像的特征图进行线性插值处理,得到与所述待利用图像的尺寸相同的目标特征图;
68.提取单元,用于提取所述目标特征图中所述映射位置处的特征信息,得到所述空间采样点对应的采样特征。
69.可选地,所述颜色信息包括,色彩值,以及密度值;所述密度值用于表征利用所述空间采样点生成像素值时,所述空间采样点的权重;
70.所述第二生成模块,包括:
71.相加子模块,用于将每一所述虚拟射线上的空间采样点的色彩值根据所述密度值加权相加,得到该虚拟射线对应的待渲染的图像中的像素点的像素值;
72.第二生成子模块,用于基于所述待渲染的图像中的每一像素点的像素值,生成所述渲染图像。
73.第三方面,本公开实施例提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
74.存储器,用于存放计算机程序;
75.处理器,用于执行存储器上所存放的程序时,实现上述三维物体的图像渲染方法的步骤。
76.第四方面,本公开实施例提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述三维物体的图像渲染方法的步骤。
77.本公开实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述三维物体的图像渲染方法。
78.本公开实施例有益效果:
79.本公开实施例提供的三维物体的图像渲染方法,获取针对目标物体的目标视角信息;基于目标视角信息,确定对目标物体进行渲染时所利用的各个空间采样点的位置信息;利用预先训练完成的神经渲染网络,基于每一空间采样点的位置信息,以及目标物体的各个待利用图像的特征图,生成每一空间采样点的颜色信息;基于每一空间采样点的颜色信息,生成目标物体的渲染图像。可见,本方案中,由于神经渲染网络的训练过程中,引入了各个样本图像的特征图,从而神经渲染网络可以学习到不同样本物体的特征信息,因此,使得训练得到的神经渲染网络能够适用于不同物体。这样,针对不同的目标物体而言,可以利用目标物体的待利用图像的特征图和各个空间采样点的位置信息,通过预先训练得到的神经渲染网络,来确定各个空间采样点的颜色信息,从而进一步生成目标物体的渲染图像,从而具备通用性。可见,通过本方案,可以解决相关技术中利用神经渲染网络进行图像渲染时不具备通用性的问题。
80.当然,实施本公开的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
81.为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的实施例。
82.图1为本公开实施例提供的一种三维物体的图像渲染方法的流程图;
83.图2为本公开实施例提供的一种三维物体的图像渲染方法的另一流程图;
84.图3为本公开实施例提供的一种三维物体的图像渲染方法在特征处理阶段的流程图;
85.图4为本公开实施例提供的一种三维物体的图像渲染方法在输入预处理阶段的流程图;
86.图5为本公开实施例提供的一种三维物体的图像渲染方法在特征抠取阶段的流程
图;
87.图6为本公开实施例提供的一种三维物体的图像渲染方法在渲染阶段的流程图;
88.图7为本公开实施例提供的一种三维物体的图像渲染装置的结构示意图;
89.图8为本公开实施例所提供的一种电子设备的结构示意图。
具体实施方式
90.下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员基于本公开所获得的所有其他实施例,都属于本公开保护的范围。
91.三维重建和新视角图像渲染一直是计算机图形学领域的核心,三维重建可以通过新视角图像渲染来实现,当能够渲染出三维物体任意视角下的图像时,也就完成了对该三维物体的三维重建。
92.目前,随着数字孪生和元宇宙等新概念的提出,工业界对于新视角渲染的需求逐渐增加,虽然目前用于神经渲染网络的训练速度越来越快,规模越来越大,但是相关技术中的神经渲染网络不具备通用性,针对每一不同的三维物体都要单独训练一个神经渲染网络,而目前的对每个三维物体单独训练一个网络,都涉及到网络的设计、数据收集等等,是非常复杂的操作,只适合于专业研究领域人员使用。而对于非专业领域的人来说,这些操作无疑是非常不友好的,无形中形成了一个壁垒。为了达到让所有人员都能轻松的掌握和使用神经渲染网络,需要一个通用的新视角图像渲染方法,这样只需要三维物体在多个角度下的几张图片就可以轻松的完成三维重建,无需额外的复杂操作。
93.为了解决相关技术中利用神经渲染网络进行图像渲染时不具备通用性的问题,本公开实施例提供了一种三维物体的图像渲染方法、装置及电子设备。
94.下面首先对本公开实施例所提供的三维物体的图像渲染方法进行介绍。
95.其中,本公开实施例所提供的三维物体的图像渲染方法可以应用于电子设备中。在实际应用中,该电子设备可以为服务器或终端设备,例如,计算机,智能手机等,这都是合理的。
96.本公开实施例所提供的三维物体的图像渲染方法可以包括以下步骤:
97.获取针对目标物体的目标视角信息;其中,所述目标视角信息为待进行图像渲染的视角的视角信息;
98.基于所述目标视角信息,确定对所述目标物体进行渲染时所利用的各个空间采样点的位置信息;
99.利用预先训练完成的神经渲染网络,基于每一所述空间采样点的位置信息,以及所述目标物体的各个待利用图像的特征图,生成每一所述空间采样点的颜色信息;其中,各个所述待利用图像为从所述目标物体的不同视角拍摄所得到的图像;所述神经渲染网络是基于样本采样点的位置信息、各个样本图像的特征图,以及待预测图像的真值,训练得到人工智能模型;各个所述样本图像和所述待预测图像为从样本物体的不同视角所拍摄得到的图像;所述样本采样点为对所述待预测图像进行渲染时所利用的空间采样点;
100.基于每一所述空间采样点的颜色信息,生成所述目标物体的渲染图像。
101.本公开实施例提供的三维物体的图像渲染方法,获取针对目标物体的目标视角信息;基于目标视角信息,确定对目标物体进行渲染时所利用的各个空间采样点的位置信息;利用预先训练完成的神经渲染网络,基于每一空间采样点的位置信息,以及目标物体的各个待利用图像的特征图,生成每一空间采样点的颜色信息;基于每一空间采样点的颜色信息,生成目标物体的渲染图像。可见,本方案中,由于神经渲染网络的训练过程中,引入了各个样本图像的特征图,从而神经渲染网络可以学习到不同样本物体的特征信息,因此,使得训练得到的神经渲染网络能够适用于不同物体。这样,针对不同的目标物体而言,可以利用目标物体的待利用图像的特征图和各个空间采样点的位置信息,通过预先训练得到的神经渲染网络,来确定各个空间采样点的颜色信息,从而进一步生成目标物体的渲染图像,从而具备通用性。可见,通过本方案,可以解决相关技术中利用神经渲染网络进行图像渲染时不具备通用性的问题。
102.下面结合附图,对本公开实施例所提供的三维物体的图像渲染方法进行介绍。
103.如图1所示,本公开实施例所提供的三维物体的图像渲染方法,可以包括如下步骤:
104.s101,获取针对目标物体的目标视角信息;其中,所述目标视角信息为待进行图像渲染的视角的视角信息;
105.其中,目标物体可以是现实中的任意三维物体,目标视角信息可以用来表征观察该目标物体时的位置,以及角度。本公开实施例中的三维物体的图像渲染方法就是要渲染出,在目标视角信息所表征位置以及角度下观察该目标物体时,所呈现出的图像。
106.目标视角信息的获取方式可以为:通过人机交互界面,输入目标视角信息,或者,选定观察位置和角度等等,也可以对人机交互界面中显示的目标物体进行旋转、平移操作,以生成目标视角信息。
107.s102,基于所述目标视角信息,确定对所述目标物体进行渲染时所利用的各个空间采样点的位置信息;
108.为了渲染出三维场景中的某一个视角的图像,可以先确定出空间采样点,待渲染的图像中每一像素点都对应于多个空间采样点,且每一像素点都基于该像素点所对应的空间采样点来生成。此外,可以理解的,每一像素点对应的多个空间采样点还需要位于一条直线上。因此,当目标视角信息包括:观察坐标,以及观察角度时,所述基于所述目标视角信息,确定对所述目标物体进行渲染时所利用的各个空间采样点的位置信息,可以包括步骤a1-a2:
109.步骤a1,以所述观察坐标为端点,根据所述观察角度,生成与待渲染的图像中的每一像素点相对应的虚拟射线;
110.其中,观察角度可以用一个方向向量来表示。当从观察坐标观察该目标物体时,所观察到的区域是一个以该观察坐标为顶点的锥体,且该锥体的中心线与表征该观察角度的方向向量平行。当待渲染的图像为h*w的二维图像时,可以以观察坐标为端点在该椎体中均匀的生成h*w条虚拟射线,每一条虚拟射线对应于待渲染的图像中的一个像素点。
111.步骤a2,对每一所述虚拟射线进行采样,得到对所述目标物体进行渲染时所利用的各个空间采样点的位置信息。
112.在一种实现方式中,可以针对每一虚拟射线,从端点触发,以间隔预定的长度的方
式,采样预定数量个空间采样点,从而得到各个空间采样点的位置信息。或者,在另一种实现方式中,可以针对每一虚拟射线,从端点触发,首先设定采样的空间范围,再针对每一虚拟射线在该空间范围内,均匀地采样预定数量个空间采样点,从而得到各个空间采样点的位置信息。当然,对每一虚拟射线进行采用的方式并不限于此。
113.可见,通过对虚拟射线进行采样来生成空间采样点,符合光沿直线传播的物理规律,能够使得根据空间采样点渲染出的图像更加切合实际。
114.s103,利用预先训练完成的神经渲染网络,基于每一所述空间采样点的位置信息,以及所述目标物体的各个待利用图像的特征图,生成每一所述空间采样点的颜色信息;其中,各个所述待利用图像为从所述目标物体的不同视角拍摄所得到的图像;所述神经渲染网络是基于样本采样点的位置信息、各个样本图像的特征图,以及待预测图像的真值,训练得到人工智能模型;各个所述样本图像和所述待预测图像为从样本物体的不同视角拍摄得到的图像;所述样本采样点为对所述待预测图像进行渲染时所利用的空间采样点;
115.这里提取特征图时可以使用任何机器学习或者深度学习的特征提取器,例如resnet(残差神经网络)、mobilnet(一种轻量级神经网络)等,提取待利用图像的二维视觉特征。
116.相关技术中,神经渲染网络的输入是空间坐标和视角方向。神经渲染网络训练完成后,对于固定的空间位置和视角方向,输出的是一个定值。但是本公开实施例中将待利用图像的二维视觉特征作为一个先验条件。而不同的三维物体有着不同的二维视觉特征,这样输入的视觉特征不同,输出的值自然不同。这样,训练出的神经渲染网络有能力把不同的三维物体区分开,从而分而治之,对于三维物体1,输出三维物体1对应的值,对于三维物体2,输出三维物体2对应的值
……
,因此,利用了待利用图像的特征图来确定各个空间采样点的颜色信息,从而进一步生成目标物体的渲染图像,具备通用性。
117.神经渲染网络用于基于的空间采样点的位置信息,以及各个待利用图像的特征图,输出该空间采样点的颜色信息。为了训练该神经渲染网络,可以事先从样本物体的不同视角拍摄得到的图像一部分作为样本图像,另一部分作为待预测图像。这样,可以先根据任一待预测图像拍摄时的视角信息,生成样本采样点,以及利用该待预测图像标定出空间采样点的颜色信息的真值;再利用训练中的神经渲染网络基于样本采样点的位置信息,以及样本图像的特征图,输出样本采样点的颜色信息的预测值;最后利用颜色信息的预测值与颜色信息的真值计算神经渲染网络的损失值,从而基于损失值调整该神经渲染网络的参数,直到该神经渲染网络收敛,得到训练完成的神经渲染网络。其中,样本物体的数量可以为多个,也就是,在神经网络训练时,可以利用不同样本物体的样本图像和待预测图像。
118.本公开实施例中引入了二维的视觉特征,可以对不同的三维物体进行标记,从而使得神经渲染网络学到了理解三维物体的先验知识,可以得到泛化性能好的神经渲染网络。
119.为了方案清楚以及布局清晰,下面结合其他实施例介绍生成每一所述空间采样点的颜色信息的具体实现方式。
120.s104,基于每一所述空间采样点的颜色信息,生成所述目标物体的渲染图像。
121.每一空间采样点都对应待渲染的图像中的一个像素值,可以针对每一像素值对应的多个空间采样点,将该多个空间采样点的颜色信息所表征的色彩值加权相加,或者取平
均值等方式,确定该像素值。
122.在一种实现方式中,所述颜色信息包括,色彩值,以及密度值;示例性的,色彩值可以是三原色rgb值;所述密度值用于表征利用所述空间采样点生成像素值时,所述空间采样点的权重。
123.所述基于每一所述空间采样点的颜色信息,生成所述目标物体的渲染图像,包括:
124.将每一所述虚拟射线上的空间采样点的色彩值根据所述密度值加权相加,得到该虚拟射线对应的待渲染的图像中的像素点的像素值;
125.基于所述待渲染的图像中的每一像素点的像素值,生成所述渲染图像。
126.图像的渲染过程,就是针对每一虚拟射线,得到该虚拟射线对应的像素值,在一种实现方式中可以沿着该射线进行积分操作,具体公式如下:
[0127][0128]
其中小写c(r)表示该虚拟射线对应的像素值,c表示色彩值,例如三原色rgb值,r表示该虚拟射线,d表示该虚拟射线的方向,σ表示密度值,tf、tn表示积分的范围。
[0129]
在实际应用中,可以将积分操作转换为空间采样点的基于密度值的加权相加,得到该虚拟射线对应的待渲染的图像中的像素点的像素值,从而利用计算机实现图像的渲染。若每条虚拟射线有n个空间采样点,则需要查询神经渲染网络n次,这n个点的值经过计算后可以得到待渲染的图像中的一个像素点的像素值,从而实现了一个点的渲染。若待渲染的图像的分辨率大小为(h,w),则重复获取上述得到一个像素点的像素值的步骤h*w次就可以生成待渲染的图像。
[0130]
本公开实施例提供的三维物体的图像渲染方法,获取针对目标物体的目标视角信息;基于目标视角信息,确定对目标物体进行渲染时所利用的各个空间采样点的位置信息;利用预先训练完成的神经渲染网络,基于每一空间采样点的位置信息,以及目标物体的各个待利用图像的特征图,生成每一空间采样点的颜色信息;基于每一空间采样点的颜色信息,生成目标物体的渲染图像。可见,本方案中,由于神经渲染网络的训练过程中,引入了各个样本图像的特征图,从而神经渲染网络可以学习到不同样本物体的特征信息,因此,使得训练得到的神经渲染网络能够适用于不同物体。这样,针对不同的目标物体而言,可以利用目标物体的待利用图像的特征图和各个空间采样点的位置信息,通过预先训练得到的神经渲染网络,来确定各个空间采样点的颜色信息,从而进一步生成目标物体的渲染图像,从而具备通用性。可见,通过本方案,可以解决相关技术中利用神经渲染网络进行图像渲染时不具备通用性的问题。
[0131]
可选地,在另一实施例中,针对步骤s103而言,任一所述空间采样点的颜色信息的生成方式,可以包括步骤b1-b4:
[0132]
步骤b1,针对每一所述待利用图像,确定所述空间采样点在该待利用图像的映射位置,并从该待利用图像的特征图中,确定所述映射位置处的特征信息,作为所述空间位置点对应的采样特征;
[0133]
此时,提取的特征图还需要保持与原图位置的一致性,以使空间采样点可以映射到特征图的对应位置处,从而能够从特征图中得到空间采样点对应的特征。
[0134]
所述针对每一待利用图像,确定所述空间采样点在该待利用图像的映射位置,包
括:
[0135]
针对每一待利用图像,基于拍摄该待利用图像的拍摄设备的相机标定信息,以及所述空间采样点的位置信息,确定所述空间采样点在该待利用图像中的映射位置。
[0136]
示例性的,可以使用相机标定方法,例如colmap(一种三维重建方法),在拍摄该目标物体的待利用图像时,获取拍摄设备的相机标定信息。其中,相机标定信息为,相机内参和相机外参,相机外参用于将世界坐标系转换为相机坐标系,相机内参用于将相机坐标系转换到像素坐标系,利用相机内参和相机外参可以将空间中的任一点,例如空间采样点,对应到拍摄设备所拍摄的图像的像素点,即,映射位置。相机内参和相机外参均为现有技术,在这里不再进一步介绍。
[0137]
在实际应用时,针对每一待利用图像,可以利用空间采样点的位置信息所表征的坐标,以及相机标定信息的相机内参和相机外参,得到空间采样点在该待利用图像中的映射位置,用公式表示为:
[0138]
其中,k1为相机内参,k2为相机外参,都是已知的输入。u,v是像素坐标系下的二维坐标,xw,yw,zw是空间采样点的坐标。
[0139]
计算出u,v的值即可得到空间采样点在该待利用图像中的映射位置,从而得到空间采样点对应的采样特征。
[0140]
步骤b2,将所述采样特征进行特征融合处理,得到所述空间采样点对应的融合特征;
[0141]
每一采样点可以对应于各个待利用图像中的映射位置,得到多个采样特征,因此需要对每一采样点对应的各个采样特征进行特征融合处理,例如,拼接处理,线性相加处理等,得到该采样点融合特征。
[0142]
示例性的,在其他实现方式中,还可以利用预先训练的自注意力机制transformer层,对各个所述采样特征进行特征融合处理,得到所述空间采样点对应的融合特征。
[0143]
transformer层能够学习各个两两特征之间关系,由于transformer层可以对提取到的多个特征进行有效的融合,能够保留各个不同视角之间的相关性,保留了具备指导意义的融合特征,保证能够提取到更加完整的三维信息,更高效地指导三维图像的渲染,进而加强渲染图像的效果。
[0144]
步骤b3,将所述空间采样点的位置信息,以及所述空间采样点对应的融合特征,输入预先训练完成的神经渲染网络中,生成所述空间采样点的颜色信息。
[0145]
本公开实施例中,针对每一待利用图像,确定空间采样点在该待利用图像的映射位置,并从该待利用图像的特征图中,确定映射位置处的特征信息,作为空间位置点对应的采样特征;将采样特征进行特征融合处理,得到该空间采样点对应的融合特征;将空间采样点的位置信息,以及该空间采样点对应的融合特征,输入预先训练完成的神经渲染网络中,生成该空间采样点的颜色信息。本方案中,通过对空间采样点在该待利用图像的映射位置的采样特征进行特征融合处理,得到每一空间采样点对应的融合特征,从而基于该空间采样点对应的融合特征,能够更加准确地生成该空间采样点的颜色信息。
[0146]
可选地,在另一实施例中,所述针对任一所述待利用图像,确定所述空间采样点在该待利用图像的映射位置,并从该待利用图像的特征图中,确定所述映射位置处的特征信息,作为所述空间位置点对应的采样特征,可以包括步骤c1-c2:
[0147]
步骤c1,若所述待利用图像的特征图与所述待利用图像的尺寸不同,基于所述待利用图像的尺寸,对所述待利用图像的特征图进行线性插值处理,得到与所述待利用图像的尺寸相同的目标特征图;
[0148]
考虑到提取的特征图往往尺寸要小于原图,可以利用线性插值的方法处理待利用图像的特征图,例如,利用最近邻插值算法、双线性插值算法等处理待利用图像的特征图,使得处理后的特征图与待利用图像的尺寸相同。
[0149]
步骤c2,提取所述目标特征图中所述映射位置处的特征信息,得到所述空间采样点对应的采样特征。
[0150]
这样,可以根据空间采样点映射到待利用图像上的位置,直接找到目标特征图中的映射位置,从而提取空间采样点的采样特征。
[0151]
本实施例中,当待利用图像的特征图与待利用图像的尺寸不同时,基于待利用图像的尺寸,对待利用图像的特征图进行线性插值处理,得到与待利用图像的尺寸相同的目标特征图,再提取目标特征图中所述映射位置处的特征信息,得到空间采样点对应的采样特征。本实施例中,通过对待利用图像的特征图进行线性插值处理,解决了待利用图像的特征图与待利用图像的尺寸不同的问题,从而可以直接得到空间采样点对应的采样特征。
[0152]
可选地,在另一实施例中,所述神经渲染网络和所述自注意力机制transformer层是基于所述样本采样点的位置信息、各个所述样本图像的特征图,以及所述待预测图像的真值联合训练得到。
[0153]
具体地,所述神经渲染网络和所述自注意力机制transformer层的联合训练方式,可以包括步骤d1-d8:
[0154]
步骤d1,获取各个所述样本图像和所述待预测图像;
[0155]
在一种实现方式中,可以同时从样本物体的不同视角拍摄得到多张图像,其中的一部分作为样本图像,另一部分作为待预测图像。并且,样本物体的数量可以为多个。
[0156]
步骤d2,基于所述待预测图像对应的视角信息,确定对所述样本物体进行渲染时所利用的所述样本采样点的位置信息;
[0157]
其中,待预测图像的对应的视角信息可以包括,表征观察该目标物体时的位置,以及角度,也可以用空间坐标,以及方向向量来表示。根据待预测图像的对应的视角信息,确定样本采样点的位置信息与上述步骤s102,基于所述目标视角信息,确定对所述目标物体进行渲染时所利用的各个空间采样点的位置信息的方式类似。
[0158]
步骤d3,针对每一所述样本图像,确定所述样本采样点在该样本图像的映射位置,并从该样本图像的图像特征图中,确定所述映射位置处的特征信息,作为所述样本采样点对应的采样特征;
[0159]
获取样本采样点对应的采样特征与上述步骤b1,针对每一所述待利用图像,确定所述空间采样点在该待利用图像的映射位置,并从该待利用图像的特征图中,确定所述映射位置处的特征信息,作为所述空间位置点对应的采样特征类似,在此不再赘述。
[0160]
步骤d4,利用训练中的自注意力机制transformer层,将所述样本采样点的各个所
述采样特征进行特征融合处理,得到所述样本采样点对应的融合特征;
[0161]
步骤d5,将所述样本采样点的位置信息,以及所述样本采样点对应的融合特征,输入训练中的神经渲染网络中,输出所述样本采样点的预测颜色信息;
[0162]
其中,预测颜色信息也可以包括色彩值,以及密度值。
[0163]
步骤d6,基于所述样本采样点的预测颜色信息,生成所述样本物体从指定视角观察时的图像,作为输出图像;其中,所述指定视角包括所述待预测图像对应的观察位置和观察角度;
[0164]
生成输出图像的方式与上述步骤s104,基于每一所述空间采样点的颜色信息,生成所述目标物体的渲染图像类似,在此不再赘述。
[0165]
步骤d7,利用所述输出图像,以及所述待预测图像的差异,计算模型损失;
[0166]
步骤d8,当利用所述模型损失确定所述神经渲染网络未收敛时,调整所述神经渲染网络和所述自注意力机制transformer层的模型参数,直至所述神经渲染网络和所述自注意力机制transformer层收敛。
[0167]
通过将从样本物体的不同视角拍摄得到多张图像分别作为样本图像和待预测图像,最后利用待预测图像作为真值与利用神经渲染模型得到的输出图像计算损失值,调整所述神经渲染网络和自注意力机制transformer层的模型参数,直至所述神经渲染网络和自注意力机制transformer层收敛。通过利用真实拍摄得到的图像作为输出图像的真值,提高了训练得到的神经渲染网络和自注意力机制transformer层处理新视角图像渲染问题的准确性。
[0168]
本实施例中,通过联合训练神经渲染网络和自注意力机制transformer层,可以进一步提高本公开实施例提供的三维物体的图像渲染方法的效果。
[0169]
为了方便理解本公开所提供的三维物体的图像渲染方法,下面结合图2-图6进行示例性介绍。
[0170]
如图2所示,首先需要获取目标物体的已知视角的2维图像,利用特征提取模块得到这些2维图像的特征图,其中,特征提取模块用于提取目标物体的已知视角的二维图像的视觉特征,得到这些二维图像的特征图。同时,输入目标视角信息,进行预处理操作,即,利用目标视角信息生成三维虚拟射线,并进一步生成三维空间采样点;
[0171]
将空间采样点的坐标x投影到各个二维图像中,并对二维图像的特征图进行线性插值处理,进一步地,得到空间采样点对应的映射位置,从而抠取空间采样点的采样特征;利用transformer特征融合模块,将每一空间采样点对应的多个采样特征进行特征融合处理,得到该空间采样点的融合特征w(x);
[0172]
将空间采样点的位置信息和目标视角信息(x,d),其中,x为空间采样点的坐标,d为目标视角信息所表征的坐标及方向,输入神经渲染网络模块,同时将融合特征w(x)也输入神经渲染网络模块,输出该空间采样点的颜色信息,(r,g,b,σ),其中,r,g,b表示三原色值,σ表示密度值;其中,神经渲染网络模块用于利用空间采样点的位置信息以及对应的融合特征,输出该空间采样点的颜色信息;
[0173]
将空间采样点的颜色信息输入三维体渲染模块,输出目标物体的渲染图像;其中,三维体渲染模块用于利用各个虚拟射线上的每一空间采样点的颜色信息得到每一虚拟射线对应的像素值,最终得到待渲染的图像各个像素点的像素值,输出渲染图像。
[0174]
如图3所示,在本公开实施例提供的三维物体的图像渲染方法中的特征提取阶段,可以包括:
[0175]
s1-1,获取三维物体的已知视角的二维图像;
[0176]
s1-2,对这些二维图像进行特征提取。
[0177]
如图4所示,在本公开实施例提供的三维物体的图像渲染方法的输入预处理阶段,可以包括:
[0178]
s2-1,获取目标视角;
[0179]
s2-2,在三维空间中生成虚拟射线;
[0180]
s2-3,对虚拟射线采样。
[0181]
如图5所示,在本公开实施例提供的三维物体的图像渲染方法的特征抠取阶段,可以包括:
[0182]
s3-1,得到采样的空间采样点;
[0183]
s3-2,空间采样点投影到二维图像;
[0184]
s3-3,抠取线性插值后的特征图相应位置的特征;
[0185]
s3-4,对空间采样点的特征进行特征融合处理;
[0186]
得到空间采样点的特征信息。
[0187]
如图6所示,在本公开实施例提供的三维物体的图像渲染方法的渲染阶段,可以包括:
[0188]
s4-1,将位置信息和特征信息输入神经渲染网络;
[0189]
利用神经渲染网络生成每一空间采样点的颜色信息
[0190]
s4-2,沿着每条虚拟射线上的空间采样点进行体渲染操作;
[0191]
即,根据该虚拟射线上每一空间采样点的颜色信息,计算该虚拟射线对应的像素点的像素值。
[0192]
s4-3,生成目标图像。
[0193]
即,该目标三维图像的渲染图像。
[0194]
本公开实施例提供的三维物体的图像渲染方法,获取针对目标物体的目标视角信息;基于目标视角信息,确定对目标物体进行渲染时所利用的各个空间采样点的位置信息;利用预先训练完成的神经渲染网络,基于每一空间采样点的位置信息,以及目标物体的各个待利用图像的特征图,生成每一空间采样点的颜色信息;基于每一空间采样点的颜色信息,生成目标物体的渲染图像。可见,本方案中,由于神经渲染网络的训练过程中,引入了各个样本图像的特征图,从而神经渲染网络可以学习到不同样本物体的特征信息,因此,使得训练得到的神经渲染网络能够适用于不同物体。这样,针对不同的目标物体而言,可以利用目标物体的待利用图像的特征图和各个空间采样点的位置信息,通过预先训练得到的神经渲染网络,来确定各个空间采样点的颜色信息,从而进一步生成目标物体的渲染图像,从而具备通用性。可见,通过本方案,可以解决相关技术中利用神经渲染网络进行图像渲染时不具备通用性的问题。
[0195]
本公开实施例还提供了一种三维物体的图像渲染装置,如图7所示,该装置包括:
[0196]
获取模块710,用于获取针对目标物体的目标视角信息;其中,所述目标视角信息为待进行图像渲染的视角的视角信息;
[0197]
确定模块720,用于基于所述目标视角信息,确定对所述目标物体进行渲染时所利用的各个空间采样点的位置信息;
[0198]
第一生成模块730,用于利用预先训练完成的神经渲染网络,基于每一所述空间采样点的位置信息,以及所述目标物体的各个待利用图像的特征图,生成每一所述空间采样点的颜色信息;其中,各个所述待利用图像为从所述目标物体的不同视角拍摄所得到的图像;所述神经渲染网络是基于样本采样点的位置信息、各个样本图像的特征图,以及待预测图像的真值,训练得到人工智能模型;各个所述样本图像和所述待预测图像为从样本物体的不同视角拍摄得到的图像;所述样本采样点为对所述待预测图像进行渲染时所利用的空间采样点;
[0199]
第二生成模块740,用于基于每一所述空间采样点的颜色信息,生成所述目标物体的渲染图像。
[0200]
可选地,所述目标视角信息包括:观察坐标,以及观察角度;
[0201]
所述基于所述目标视角信息,确定模块包括:
[0202]
第一生成子模块,用于以所述观察坐标为端点,根据所述观察角度,生成与待渲染的图像中的每一像素点相对应的虚拟射线;
[0203]
采样模块,用于对每一所述虚拟射线进行采样,得到对所述目标物体进行渲染时所利用的各个空间采样点的位置信息。
[0204]
可选地,所述第一生成模块,包括:
[0205]
第一确定子模块,用于针对每一所述待利用图像,确定所述空间采样点在该待利用图像的映射位置,并从该待利用图像的特征图中,确定所述映射位置处的特征信息,作为所述空间位置点对应的采样特征;
[0206]
融合子模块,用于将所述采样特征进行特征融合处理,得到所述空间采样点对应的融合特征;
[0207]
输入子模块,用于将所述空间采样点的位置信息,以及所述空间采样点对应的融合特征,输入预先训练完成的神经渲染网络中,生成所述空间采样点的颜色信息。
[0208]
可选地,具体用于:
[0209]
针对每一待利用图像,基于拍摄该待利用图像的拍摄设备的相机标定信息,以及所述空间采样点的位置信息,确定所述空间采样点在该待利用图像中的映射位置。
[0210]
可选地,所述融合子模块,具体用于:
[0211]
利用预先训练的自注意力机制transformer层,对各个所述采样特征进行特征融合处理,得到所述空间采样点对应的融合特征。
[0212]
可选地,所述神经渲染网络和所述自注意力机制transformer层是基于所述样本采样点的位置信息、各个所述样本图像的特征图,以及所述待预测图像的真值联合训练得到。
[0213]
可选地,所述神经渲染网络和所述自注意力机制transformer层的联合训练方式包括:
[0214]
获取各个所述样本图像和所述待预测图像;
[0215]
基于所述待预测图像对应的视角信息,确定对所述样本物体进行渲染时所利用的样本采样点的位置信息;
[0216]
针对每一所述样本图像,确定所述样本采样点在该样本图像的映射位置,并从该样本图像的图像特征图中,确定所述映射位置处的特征信息,作为所述样本采样点对应的采样特征;
[0217]
利用训练中的自注意力机制transformer层,将所述样本采样点的各个所述采样特征进行特征融合处理,得到所述样本采样点对应的融合特征;
[0218]
将所述样本采样点的位置信息,以及所述样本采样点对应的融合特征,输入训练中的神经渲染网络中,输出所述样本采样点的预测颜色信息;
[0219]
基于所述样本采样点的预测颜色信息,生成所述样本物体从指定视角观察时的图像,作为输出图像;其中,所述指定视角包括所述待预测图像对应的观察位置和观察角度;
[0220]
利用所述输出图像,以及所述待预测图像的差异,计算模型损失;
[0221]
当利用所述模型损失确定所述神经渲染网络未收敛时,调整所述神经渲染网络和所述自注意力机制transformer层的模型参数,直至所述神经渲染网络和所述自注意力机制transformer层收敛。
[0222]
可选地,所述第一确定子模块,包括:
[0223]
线性插值单元,用于若所述待利用图像的特征图与所述待利用图像的尺寸不同,基于所述待利用图像的尺寸,对所述待利用图像的特征图进行线性插值处理,得到与所述待利用图像的尺寸相同的目标特征图;
[0224]
提取单元,用于提取所述目标特征图中所述映射位置处的特征信息,得到所述空间采样点对应的采样特征。
[0225]
可选地,所述颜色信息包括,色彩值,以及密度值;所述密度值用于表征利用所述空间采样点生成像素值时,所述空间采样点的权重;
[0226]
所述第二生成模块,包括:
[0227]
相加子模块,用于将每一所述虚拟射线上的空间采样点的色彩值根据所述密度值加权相加,得到该虚拟射线对应的待渲染的图像中的像素点的像素值;
[0228]
第二生成子模块,用于基于所述待渲染的图像中的每一像素点的像素值,生成所述渲染图像。
[0229]
本公开实施例还提供了一种电子设备,如图8所示,包括处理器801、通信接口802、存储器803和通信总线804,其中,处理器801,通信接口802,存储器803通过通信总线804完成相互间的通信,
[0230]
存储器803,用于存放计算机程序;
[0231]
处理器801,用于执行存储器803上所存放的程序时,实现上述三维物体的图像渲染方法的步骤。
[0232]
上述电子设备提到的通信总线可以是外设部件互连标准(peripheral component interconnect,pci)总线或扩展工业标准结构(extended industry standard architecture,eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0233]
通信接口用于上述电子设备与其他设备之间的通信。
[0234]
存储器可以包括随机存取存储器(random access memory,ram),也可以包括非易失性存储器(non-volatile memory,nvm),例如至少一个磁盘存储器。可选的,存储器还可
以是至少一个位于远离前述处理器的存储装置。
[0235]
上述的处理器可以是通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(network processor,np)等;还可以是数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0236]
在本公开提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述三维物体的图像渲染方法的步骤。
[0237]
在本公开提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述三维物体的图像渲染方法。
[0238]
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本公开实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
[0239]
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0240]
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
[0241]
以上所述仅为本公开的较佳实施例,并非用于限定本公开的保护范围。凡在本公开的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本公开的保护范围内。