本技术涉及数据处理,尤其涉及空间数据感知方法、装置、设备和存储介质。
背景技术:
1、在空间感知过程中,将回声数据与图像数据进行多模态融合,结合回声数据提供的精确距离和深度信息以及图像数据提供的丰富纹理和颜色信息,能够显著提升环境理解和决策的精度。该技术广泛应用于自动驾驶、机器人导航、增强现实和智能监控等领域。
2、然而,相关技术中对于上述两种模态的数据融合主要采用简单的拼接方式,虽然数据处理效率较高,但这种方式未能充分利用各模态的独特优势,忽略了不同模态之间的互补信息,且缺乏对全局信息的利用,导致融合效果不理想,生成的空间感知数据准确率不高。
技术实现思路
1、本技术实施例的主要目的在于提出空间数据感知方法、装置、设备和存储介质,提高多模态数据融合得到的空间感知数据的准确率。
2、为实现上述目的,本技术实施例的第一方面提出了一种空间数据感知方法,包括:
3、获取目标空间的图像特征数据、频谱特征数据以及图像内容特征,所述图像内容特征和所述图像特征数据均根据视觉图像数据得到;
4、将所述图像特征数据和所述频谱特征数据进行数据对齐,得到对应的图像对齐特征以及频谱对齐特征;
5、对所述频谱对齐特征进行自注意力计算得到频谱注意力特征,对所述图像对齐数据进行自注意力计算得到图像注意力特征,并对所述频谱注意力特征和所述图像注意力特征进行交叉注意力融合得到空间全局特征;
6、对所述图像内容特征和所述空间全局特征进行特征加权,得到空间融合特征,并对所述空间融合特征进行解码,得到所述目标空间的空间感知图像。
7、在一些实施例,所述对所述频谱注意力特征和所述图像注意力特征进行交叉注意力融合得到空间全局特征,包括:
8、根据所述图像注意力特征和所述频谱注意力特征进行第一交叉融合操作,得到图像频谱融合特征;
9、根据所述频谱注意力特征和所述图像注意力特征进行第二交叉融合操作,得到频谱图像融合特征;
10、根据所述图像频谱融合特征和所述频谱图像融合特征进行特征组合,得到所述空间全局特征。
11、在一些实施例,所述根据所述图像注意力特征和所述频谱注意力特征进行第一交叉融合操作,得到图像频谱融合特征,包括:
12、获取第一交叉融合操作对应的第一交叉查询权重、第一交叉键权重和第一交叉值权重;
13、获取所述第一交叉查询权重和所述图像注意力特征的乘积对应的第一查询中间参数、所述第一交叉键权重和所述频谱注意力特征的乘积对应的第一键中间参数、所述第一交叉值权重和所述频谱注意力特征的乘积对应的第一值中间参数;
14、根据所述第一查询中间参数、所述第一键中间参数和所述第一值中间参数进行注意力计算,得到所述图像频谱融合特征。
15、在一些实施例,所述根据所述频谱注意力特征和所述图像注意力特征进行第二交叉融合操作,得到频谱图像融合特征,包括:
16、获取第二交叉融合操作对应的第二交叉查询权重、第二交叉键权重和第二交叉值权重;
17、获取所述第二交叉查询权重和所述频谱注意力特征的乘积对应的第二查询中间参数、所述第二交叉键权重和所述图像注意力特征的乘积对应的第二键中间参数、所述第二交叉值权重和所述图像注意力特征的乘积对应的第二值中间参数;
18、根据所述第二查询中间参数、所述第二键中间参数和所述第二值中间参数进行注意力计算,得到所述频谱图像融合特征。
19、在一些实施例,所述根据所述图像频谱融合特征和所述频谱图像融合特征进行特征组合,得到所述空间全局特征,包括:
20、将所述图像频谱融合特征进行多层感知机的特征提取操作,得到图像局部特征;
21、将所述频谱图像融合特征进行多层感知机的特征提取操作,得到频谱局部特征;
22、根据所述频谱局部特征和所述图像局部特征进行特征组合,得到所述空间全局特征。
23、在一些实施例,所述对所述频谱对齐特征进行自注意力计算得到频谱注意力特征,包括:
24、获取所述频谱对齐特征对应的第一查询权重、第一键权重和第一值权重;
25、根据所述第一查询权重、所述第一键权重和所述第一值权重进行注意力计算,得到频谱中间特征;
26、将所述频谱对齐特征和所述频谱中间特征叠加得到所述频谱注意力特征。
27、在一些实施例,所述将所述图像特征数据和所述频谱特征数据进行数据对齐,得到对应的图像对齐特征以及频谱对齐特征,包括:
28、获取块嵌入的尺寸参数,基于所述尺寸参数对所述图像特征数据和所述频谱特征数据分别进行块嵌入,得到对应的图像嵌入特征和频谱嵌入特征;
29、获取图像权重,基于所述图像权重和所述图像嵌入特征的乘积,进行线性映射得到所述图像对齐特征;
30、获取频谱权重,基于所述频谱权重和所述频谱嵌入特征的乘积,进行线性映射得到所述频谱对齐特征。
31、在一些实施例,所述获取目标空间的图像特征数据、频谱特征数据以及图像内容特征,包括:
32、获取所述目标空间的回声数据和视觉图像数据;
33、对所述回声数据进行短时傅里叶变换得到频谱图,将所述频谱图输入回声编码器进行编码,得到所述频谱特征数据;
34、将所述视觉图像数据送入视觉编码器进行编码,得到所述图像特征数据;
35、从所述视觉图像数据中提取内容特征,得到所述图像内容特征。
36、为实现上述目的,本技术实施例的第二方面提出了一种空间数据感知装置,包括:
37、数据获取模块:用于获取目标空间的图像特征数据、频谱特征数据以及图像内容特征,所述图像内容特征和所述图像特征数据均根据视觉图像数据得到;
38、数据对齐模块:用于将所述图像特征数据和所述频谱特征数据进行数据对齐,得到对应的图像对齐特征以及频谱对齐特征;
39、自交叉注意力模块:用于对所述频谱对齐特征进行自注意力计算得到频谱注意力特征,对所述图像对齐数据进行自注意力计算得到图像注意力特征,并对所述频谱注意力特征和所述图像注意力特征进行交叉注意力融合得到空间全局特征;
40、感知数据生成模块:用于对所述图像内容特征和所述空间全局特征进行特征加权,得到空间融合特征,并对所述空间融合特征进行解码,得到所述目标空间的空间感知图像。
41、为实现上述目的,本技术实施例的第三方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法。
42、为实现上述目的,本技术实施例的第四方面提出了一种存储介质,所述存储介质为存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法。
43、本技术实施例提出的空间数据感知方法、装置、设备和存储介质,通过获取目标空间的图像特征数据、频谱特征数据以及图像内容特征,将图像特征数据和频谱特征数据进行数据对齐,得到对应的图像对齐特征以及频谱对齐特征;对频谱对齐特征进行自注意力计算得到频谱注意力特征,对图像对齐数据进行自注意力计算得到图像注意力特征,并对频谱注意力特征和图像注意力特征进行交叉注意力融合得到空间全局特征;对图像内容特征和空间全局特征进行特征加权,得到空间融合特征,并对空间融合特征进行解码,得到目标空间的空间感知图像。本技术实施例中首先获取目标空间中的多维度信息,随后针对图像特征数据和频谱特征数据进行数据对齐操作,以此避免不同维度数据间的尺度偏差,提高后续注意力计算过程的准确性。接着将对齐后的数据进行交叉注意力计算,来整合不同模态数据间的信息,以增强特征表达的丰富性与区分度。最后通过加权方式引入对应全局信息的图像内容特征,从整体上提升空间感知图像所蕴含信息量及其准确性,进而提高空间感知的准确率。