本技术涉及三维全景分割领域,特别是涉及一种语义-空间融合transformer的3d全景分割模型的构建方法及应用。
背景技术:
1、点云和图像是两种可利用于3d全景分割的模态数据,分别提供了丰富的语义可视化信息和三维空间点信息,然而,常见的单图像模态的语义分割方法由于跨层特征之间的空间不对齐和巨大的表示差异通常在分割图像模态特征上具有拙劣的分割表现,其存在语义信息损失和像素-语义信息不对齐等问题,传统的图像语义分割方法采用重复的下采样和上采样操作进行多路的特征融合方法,导致了更多的语义细节损失并聚集了非自适应的像素-语义信息。
2、另外,现有的3d全景分割研究缺少深入的多模态方法,即难以捕获图像模态的语义特征和点云模型的空间特征进行高效的语义-空间融合,现有技术普遍的采用简单的点云和图像模态进行直接融合用于3d全景分割,其忽略捕捉语义和空间信息之间潜在的关联性,进而限制了在3d场景中的全景分割性能。
3、综上所述,亟需一种可以将点云的空间信息与图像的语义信息进行融合来进行3d全景分割的方法。
技术实现思路
1、本技术实施例提供了一种语义-空间融合transformer的3d全景分割模型的构建方法及应用,通过对图像和点云的模态特征进行转化融合并学习具有类别先验的模态特征,将具有类别先验的模态特征与空间结构进行融合后使用自注意力机制学习语义关联信息,再使用跨注意力机制将学习到的语义关联信息对应到空间结构中完成语义-空间特征的融合并进行3d全景分割来提高3d全景分割的准确性。
2、第一方面,本技术实施例提供了一种语义-空间融合transformer的3d全景分割模型的构建方法,所述方法包括:
3、获取一一对应的多视角图像数据与点云数据作为训练样本,构建由第一特征提取模块、空间点-像素映射模块、第二特征提取模块、语义-空间特征融合模块以及全景分割头组成的3d全景分割架构;
4、将一组对应的多视角图像数据与点云数据输入到所述第一特征提取模块中,所述第一特征提取模块包括点云特征提取单元与图像特征提取单元,所述点云特征提取单元对所述点云数据进行特征提取得到体素特征,所述图像特征提取单元对所述多视角图像数据进行特征提取得到图像语义特征;
5、所述空间点-像素映射模块基于图像语义特征获取空间点-像素映射关系,再基于所述空间点-像素映射关系获取空间点-像素映射矩阵;
6、所述第二特征提取模块包括空间结构分支、点云先验分支以及图像先验分支,在所述空间结构分支中基于所述空间点-像素映射矩阵获取图像语义特征的图像2d点级特征,基于体素特征获取点云3d点级特征,将所述图像2d点级特征与所述点云3d点级特征进行空间融合得到空间结构特征,在所述点云先验分支中使用mlp结构对所述体素特征进行类别先验信息的学习得到语义嵌入体素特征,在所述图像先验分支中使用mlp结构对所述图像语义特征进行类别先验信息的学习得到语义嵌入图像特征;
7、在所述语义-空间特征融合模块中对所述语义嵌入图像特征与所述语义嵌入体素特征进行多头自注意力机制的计算得到语义关联信息,所述语义关联特征中包含点云与点云之间的关联信息、点云与图像之间的关联信息、图像与图像之间的关联信息,再对所述语义关联信息与空间结构特征进行多头跨注意力机制的计算得到语义-空间融合特征;
8、将所述语义-空间融合特征输入到所述全景分割头中得到3d全景分割结果,基于所述3d全景分割结果构建损失函数,当损失函数满足设定条件时保存3d全景分割架构的当前参数得到3d全景分割模型。
9、第二方面,本技术实施例提供了一种语义-空间融合transformer的3d全景分割方法,包括:
10、获取一组对应的多视角图像数据与点云数据输入到3d全景分割模型中得到3d全景分割结果。
11、第三方面,本技术实施例提供了一种语义-空间融合transformer的3d全景分割模型的构建装置,包括:
12、获取构建模块,用于获取一一对应的多视角图像数据与点云数据作为训练样本,构建由第一特征提取模块、空间点-像素映射模块、第二特征提取模块、语义-空间特征融合模块以及全景分割头组成的3d全景分割架构;
13、第一特征提取模块,用于将一组对应的多视角图像数据与点云数据输入到所述第一特征提取模块中,所述第一特征提取模块包括点云特征提取单元与图像特征提取单元,所述点云特征提取单元对所述点云数据进行特征提取得到体素特征,所述图像特征提取单元对所述多视角图像数据进行特征提取得到图像语义特征;
14、映射模块,所述空间点-像素映射模块基于图像语义特征获取空间点-像素映射关系,再基于所述空间点-像素映射关系获取空间点-像素映射矩阵;
15、第二特征提取模块,所述第二特征提取模块包括空间结构分支、点云先验分支以及图像先验分支,在所述空间结构分支中基于所述空间点-像素映射矩阵获取图像语义特征的图像2d点级特征,基于体素特征获取点云3d点级特征,将所述图像2d点级特征与所述点云3d点级特征进行空间融合得到空间结构特征,在所述点云先验分支中使用mlp结构对所述体素特征进行类别先验信息的学习得到语义嵌入体素特征,在所述图像先验分支中使用mlp结构对所述图像语义特征进行类别先验信息的学习得到语义嵌入图像特征;
16、语义-空间融合模块,用于在所述语义-空间特征融合模块中对所述语义嵌入图像特征与所述语义嵌入体素特征进行多头自注意力机制的计算得到语义关联信息,所述语义关联特征中包含点云与点云之间的关联信息、点云与图像之间的关联信息、图像与图像之间的关联信息,再对所述语义关联信息与空间结构特征进行多头跨注意力机制的计算得到语义-空间融合特征;
17、分割模块,用于将所述语义-空间融合特征输入到所述全景分割头中得到3d全景分割结果,基于所述3d全景分割结果构建损失函数,当损失函数满足设定条件时保存3d全景分割架构的当前参数得到3d全景分割模型。
18、第四方面,本技术实施例提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行一种语义-空间融合transformer的3d全景分割模型的构建方法或一种语义-空间融合transformer的3d全景分割方法。
19、第五方面,本技术实施例提供了一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括一种语义-空间融合transformer的3d全景分割模型的构建方法或一种语义-空间融合transformer的3d全景分割方法。
20、本发明的主要贡献和创新点如下:
21、本方案通过构建语义提取器来对所述图像进行语义的聚集,并在语义提取器中利用残差网络来进一步抑制冗余的特征和增强细节的语义边缘信息,从而增强了提取语义信息的准确性;本方案通过构建空间对齐网络,并在空间对齐网络中中顺序与第三图像特征、第二图像特征、第一图像特征进行空间细节对齐,从而来预测像素偏移进行特征的优化,并在空间对齐网络中联合门机制 进行跨层融合来缩小跨层特征间的表示差异,实现自适应地跨层特征融合;本方案基于空间点的坐标和相机的外参和内参,获取对应的投射关系构建映射掩码来精确的获取像素与空间点的映射关系;本方案采用两种不同的mlp语义分类器进行模态的语义类别训练,以学习点云和图像模态的类别先验信息,同时采用语义先验特征嵌入方式,将学习的语义类别先验知识嵌入原始的模态特征,生成具有类别先验的模态特征,进一步增强模态特征的表征能力,再基于具有类别先验的模态特征和空间结构融合特征,采用自注意力机制,进行多模态间的语义关联学习,模拟不同模态间复杂的语义关联性,同时,采用跨注意力机制,进行跨模态间的特征融合,将学习到的语义关联信息更多地关联对应的空间点的结构信息,实现语义-空间的跨模态高效融合,生成最终的语义-空间融合特征。
22、本技术的一个或多个实施例的细节在以下附图和描述中提出,以使本技术的其他特征、目的和优点更加简明易懂。