本技术涉及三维重建,尤其涉及一种用于直播场景的几何感知人体辐射建模方法和系统。
背景技术:
1、虚拟人物直播是通过虚拟与现实结合的新型直播方式,其利用先进的ai技术,让虚拟人物能够进行实时的互动和表演,为观众带来全新的视听体验,广泛应用于电商直播、娱乐直播、在线教育、虚拟发布会等领域。在虚拟人物直播中,nerf技术可以被用来生成高度逼真的虚拟人物模型。人体nerf专注于使用skinned multi-person linear(smpl)模型作为额外的几何先验信息,从少量视频或图像中重建3d人体化身。但现有的人体nerf技术在准确表示人体几何和服装纹理细节方面都面临挑战,特别是在合成不同于输入视图的新颖姿势图像时,由于空间变换过程产生的偏差和图像自遮挡问题,将导致重建的3d人体化身中出现大面积的黑色伪影。
技术实现思路
1、为解决上述技术问题,本发明的目的在于:提供一种用于直播场景的几何感知人体辐射建模方法和系统,能够生成高保真度的3d人体化身新姿态和新视图。
2、为实现上述目的,本技术实施例的一方面提出了一种用于直播场景的几何感知人体辐射建模方法,包括以下步骤:
3、获取样本图像,进而根据所述样本图像和预设的参数化人体模型得到人体几何嵌入;
4、确定所述样本图像在目标空间对应的样本点,进而根据所述样本点和所述样本图像得到第一像素对齐特征;
5、根据所述第一像素对齐特征、所述人体几何嵌入以及预设的像素对齐特征注意力模块得到第二像素对齐特征,并根据所述第一像素对齐特征和预设的几何特征注意力模块得到人体几何特征;
6、将所述人体几何嵌入、所述第二像素对齐特征以及所述人体几何特征进行连接,得到训练样本,进而根据所述训练样本训练全连接神经网络,得到神经辐射场模型;
7、获取待重建稀疏图像,将所述待重建稀疏图像输入所述神经辐射场模型,生成人体新姿态图像和人体新视角图像。
8、在一些实施例中,所述根据所述样本图像和预设的参数化人体模型得到人体几何嵌入这一步骤,其具体包括:
9、根据所述样本图像得到第一查询点;
10、计算所述第一查询点到所述参数化人体模型的最近表面,并计算所述最近表面对应的法向量;
11、计算所述第一查询点在所述最近表面上的局部坐标和有向距离,进而根据所述局部坐标和所述有向距离得到所述第一查询点对应的局部位置;
12、获取所述第一查询点在所述最近表面上的映射,进而根据所述法向量、所述局部位置以及所述映射得到所述人体几何嵌入。
13、在一些实施例中,所述根据所述样本点和所述样本图像得到第一像素对齐特征这一步骤,其具体包括:
14、将所述样本点从所述目标空间变换到规范空间,得到第二查询点,进而将所述第二查询点从所述规范空间变换到观察空间,得到第三查询点;
15、将所述第三查询点投影到所述样本图像,得到所述第三查询点对应的二维坐标点;
16、通过卷积神经网络对所述样本图像进行特征提取,得到特征图;
17、根据所述二维坐标点和所述特征图得到所述第一像素对齐特征。
18、在一些实施例中,所述人体几何嵌入包括规范空间中的第一人体几何嵌入和观察空间中的第二人体几何嵌入,所述根据所述第一像素对齐特征、所述人体几何嵌入以及预设的像素对齐特征注意力模块得到第二像素对齐特征这一步骤,其具体包括:
19、获取相机方向,进而将所述第二人体几何嵌入作为第一查询代理,将所述第一像素对齐特征、所述相机方向以及所述第一人体几何嵌入作为第一键矩阵,并将所述第一像素对齐特征和所述第二人体几何嵌入作为第一值矩阵;
20、根据所述第一查询代理和所述第一键矩阵之间的相似度得到第一注意力权重,进而根据所述第一注意力权重对所述第一值矩阵进行加权,得到所述第二像素对齐特征。
21、在一些实施例中,所述根据所述第一像素对齐特征和预设的几何特征注意力模块得到人体几何特征这一步骤,其具体包括:
22、设定顶点,并计算所述顶点在所述观察空间的表面法线;
23、将所述表面法线作为第二查询代理,将所述相机方向和所述第一像素对齐特征作为第二键矩阵,并将所述第一像素对齐特征作为第二值矩阵;
24、根据所述第二查询代理和所述第二键矩阵之间的相似度得到第二注意力权重,进而根据所述第二注意力权重对所述第二值矩阵进行加权,得到所述人体几何特征。
25、在一些实施例中,所述全连接神经网络包括密度多层感知器和颜色多层感知器,所述根据所述训练样本训练全连接神经网络,得到神经辐射场模型这一步骤,其具体包括:
26、将所述训练样本输入所述全连接神经网络,通过所述密度多层感知器得到各所述样本点对应的预测体密度,并通过所述颜色多层感知器得到各所述样本点对应的预测颜色;
27、根据所述预测体密度和所述预测颜色通过正交积分计算得到各光线对应的预测颜色值;
28、根据所述预测颜色值和真实颜色值计算平方损失,进而根据所述平方损失、预设的感知损失以及预设的掩码损失得到损失函数;
29、根据所述损失函数对所述全连接神经网络进行更新训练,得到所述神经辐射场模型。
30、在一些实施例中,所述预测颜色值通过下式确定:
31、
32、其中,c(r)表示光线r的所述预测颜色值,tn表示预设的近界限,tf表示预设的远界限,σ(t)表示t界限内的所述预测体密度,且tn≤t≤tf,σ(s)表示s界限内的所述预测体密度,且tn≤s≤t,c(t,d)表示t界限内沿光线方向d的所述预测颜色。
33、为实现上述目的,本技术实施例的另一方面提出了一种用于直播场景的几何感知人体辐射建模系统,包括:
34、人体几何嵌入获取模块,用于获取样本图像,进而根据所述样本图像和预设的参数化人体模型得到人体几何嵌入;
35、像素对齐特征获取模块,用于确定所述样本图像在目标空间对应的样本点,进而根据所述样本点和所述样本图像得到第一像素对齐特征;
36、几何感知注意力模块,用于根据所述第一像素对齐特征、所述人体几何嵌入以及预设的像素对齐特征注意力模块得到第二像素对齐特征,并根据所述第一像素对齐特征和预设的几何特征注意力模块得到人体几何特征;
37、模型训练模块,用于将所述人体几何嵌入、所述第二像素对齐特征以及所述人体几何特征进行连接,得到训练样本,进而根据所述训练样本训练全连接神经网络,得到神经辐射场模型;
38、姿态和视角重建模块,用于获取待重建稀疏图像,将所述待重建稀疏图像输入所述神经辐射场模型,生成人体新姿态图像和人体新视角图像。
39、为实现上述目的,本技术实施例的另一方面提出了一种电子设备,所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线,所述程序被所述处理器执行时实现如前面所述的用于直播场景的几何感知人体辐射建模方法。
40、为实现上述目的,本技术实施例的另一方面提出了一种存储介质,所述存储介质为计算机可读存储介质,用于计算机可读存储,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如前面所述的用于直播场景的几何感知人体辐射建模方法。
41、本发明的有益效果是:本发明的用于直播场景的几何感知人体辐射建模方法和系统,一方面通过获取的人体几何嵌入将特征准确地锚定到表示的点位置上,为神经辐射场模型的学习提供准确的几何先验信息,能够解决空间变换导致的特征对应不准确的问题,减少空间变换偏差;另一方面通过由像素对齐特征注意力模块和几何特征注意力模块组成的几何感知注意力机制将特征精确地锚定在空间位置上,并将像素特征和几何特征进行融合,能够有效减少形状伪影和细节模糊,解决稀疏视图输入中的自遮挡问题,从而由稀疏视图合成高保真度的3d人体化身新姿态和新视图。