本发明属于历史建筑及计算机视觉领域,更具体地,涉及一种历史建筑跨模态检索方法、系统及介质。
背景技术:
1、历史建筑的保护与再利用具有重要意义,随着信息技术的发展,数字化成为历史建筑保护更新工程中的必要方法。在历史建筑检索方面,现有研究大多是通过单一模态数据来考虑的外观上的相似,并未考虑到历史建筑本身所包含的结构、风格、特色构件等历史文化信息,也鲜有对历史建筑多模态数据信息综合考虑来进行检索。通常侧重于实现单一模态数据的快速检索、提升单一模态数据的检索能力等方面的研究。
2、考虑到一个建筑拥有的多种模态数据的表现方式不一样,看待事物的角度也会不一样,会存在信息冗余和互补的情况,甚至模态间可能还存在多种不同的信息交互。如果能合理的处理多模态信息,就能得到丰富特征信息,对历史建筑信息检索具有重要意义,目前对历史建筑的跨模态检索的研究较少。而图文跨模态检索方法虽然已有大量的研究,但由于训练数据集的不同,导致不能够直接应用于历史建筑领域。
技术实现思路
1、针对现有技术的缺陷和改进需求,本发明提供了一种历史建筑跨模态检索方法、系统及介质,其目的在于实现适用于历史建筑的跨模态检索。
2、为实现上述目的,按照本发明的一个方面,提供了一种历史建筑跨模态检索方法,包括:hbim数据库构建阶段s1-s4和跨模态检索阶段s5;s1,获取历史建筑的文本数据和图像数据,并分别依次进行预处理和特征提取,得到相应的文本特征向量xα和图像特征向量xβ;s2,对xα中的各词向量进行嵌入处理后与查询权值矩阵qα相乘,得到相应的查询向量对xβ中的各图像向量进行嵌入处理后分别与键权值矩阵kβ、值权值矩阵vβ相乘,得到相应的键向量和值向量s3,利用和进行基于注意力机制的计算,得到融合向量,n为xα中词向量的个数;s4,将各历史建筑及其融合向量添加至hbim数据库,以完成所述hbim数据库的构建;s5,计算输入的检索数据与所述hbim数据库中各融合向量之间的相似度,输出相似度最高的若干个融合向量对应的历史建筑。
3、更进一步地,所述获取历史建筑的文本数据和图像数据,包括:收集所述历史建筑不同方位的建筑图像,删除建筑占比小于设定值、内景图或重复出现的建筑图像,得到所述图像数据;收集用于描述所述历史建筑的建筑状态信息的文本文档,作为所述文本数据。
4、更进一步地,所述s1中的预处理包括:对所述图像数据进行中心裁剪后,将裁剪后的图像转换为张量,对所述张量中的像素值进行归一化处理;将所述文本数据转换为文本序列长度不超过设定长度的英文文本。
5、更进一步地,所述s1中的特征提取包括:利用bert预训练模型对预处理后的文本数据进行特征提取,得到xα;利用vit预训练模型对预处理后的图像数据进行特征提取,利用最大池化法将提取到的多个图像特征进行聚合,得到xβ。
6、更进一步地,所述融合向量为:
7、
8、其中,z为所述融合向量,softmax()为归一化指数函数,为kβ的转置矩阵,dk为文本的维度。
9、更进一步地,所述s2中的嵌入处理为:将或与嵌入参数矩阵相乘。
10、更进一步地,所述s5中计算得到的相似度为:
11、
12、其中,sim(z,xc)为z和xc之间的相似度,z为融合向量,xc为所述检索数据的特征向量,||||为求模运算。
13、按照本发明的另一个方面,提供了一种历史建筑跨模态检索系统,包括:处理器;存储器,其存储有计算机可执行程序,所述程序在被所述处理器执行时,使得所述处理器执行如上所述的历史建筑跨模态检索方法。
14、按照本发明的另一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上所述的历史建筑跨模态检索方法。
15、总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
16、(1)提供一种历史建筑跨模态检索方法,通过建立hbim数据库,并在hbim数据库的基础上处理了多模态信息,研究了基于注意力机制的特征融合技术对多模态数据进行融合,实现了适用于历史建筑的跨模态检索,能够通过图像和自然语言文本两种输入形式检索得到相似的历史建筑;
17、(2)对收集到的建筑图像进行筛选删除,以减少室内布景和人物对检索精度的干扰,提高了历史建筑跨模态检索的检索精度;
18、(3)对获取的图像数据和文本数据进行预处理,可以确保输入数据的一致性和符合模型的要求,从而提高了历史建筑跨模态检索模型的性能;
19、允许在查询语句中加入对建筑外观、建筑专业名词、风格功能等特征的描述,将历史文化要素上的相似考虑在内,提升了检索结果的丰富性。
1.一种历史建筑跨模态检索方法,其特征在于,包括:hbim数据库构建阶段s1-s4和跨模态检索阶段s5;
2.如权利要求1所述的历史建筑跨模态检索方法,其特征在于,所述获取历史建筑的文本数据和图像数据,包括:
3.如权利要求1所述的历史建筑跨模态检索方法,其特征在于,所述s1中的预处理包括:
4.如权利要求1所述的历史建筑跨模态检索方法,其特征在于,所述s1中的特征提取包括:
5.如权利要求1-4任一项所述的历史建筑跨模态检索方法,其特征在于,所述融合向量为:
6.如权利要求1所述的历史建筑跨模态检索方法,其特征在于,所述s2中的嵌入处理为:将或与嵌入参数矩阵相乘。
7.如权利要求1所述的历史建筑跨模态检索方法,其特征在于,所述s5中计算得到的相似度为:
8.一种历史建筑跨模态检索系统,其特征在于,包括:
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一项所述的历史建筑跨模态检索方法。