基于自适应视角匹配的海洋遥感图文检索方法及系统

文档序号:40374416发布日期:2024-12-20 11:56阅读:7来源:国知局
基于自适应视角匹配的海洋遥感图文检索方法及系统

本发明属于图文检索,特别涉及基于自适应视角匹配的海洋遥感图文检索方法及系统。


背景技术:

1、遥感图文检索利用跨模态检索算法,依据卫星遥感图像自动检索出准确描述该图像的文本数据或是依据给定的文本数据自动检索出数据库中的与之相匹配的遥感图像。遥感图文检索包括两个关键过程,其一,分别对文本数据和图像数据开展特征工程,提取相应的文本特征和图像特征;其二,进行两特征间的相似度计算,将相似度最高的图像特征和文本特征作为最佳检索匹配对。

2、传统方法主要面临的问题是提取有效特征困难,这是由于海洋遥感数据中冗余/背景信息较多,且目标的空间分布较为分散,有效目标会被背景噪声干扰,从而影响检索模型的性能。因此,前沿的方法是一种非对称多模态特征匹配网络,该方法的优势在于,在文本数据和图像数据实现特征提取后,采用不同的策略提取出关键信息。

3、海洋遥感数据跨模态检索旨在建立不同模态数据的匹配关系,通过多模态数据融合,提升海洋遥感对象表示,为其应用提供重要技术支撑。图文检索作为海洋遥感数据跨模态检索的重要手段之一,借助全面丰富的图像空间和简明扼要的文本信息,更准确、详细地表征海洋对象,近年来受到越来越多研究者的关注。目前,前沿图文检索方法致力于利用注意力机制、图卷积网络等显著性挖掘方法过滤图像和文本中的背景冗余信息,提升图文检索的匹配精度。但是,以上方法应用于海洋中仍存在以下问题:海洋遥感图像和普通图像有很大的区别,除了低分辨率、小目标和跨尺度等问题之外,还有一个问题被现有的研究忽略,即不适定问题。普通图像一般拍摄视角为主视图,且一般由光学相机捕捉,距离拍摄目标距离较近,具有聚焦点。而遥感图像通常是以俯视图呈现出来的,通常由遥感卫星等距离拍摄目标较远的捕获器接受,无聚焦点,不满足适定性中的唯一性原则。现有方法无法在不适定的海洋遥感数据上开展有效信息挖掘,极大地限制了遥感图文检索模型的表现。因此,针对以上问题,本发明提出了基于自适应视角匹配的海洋遥感图文检索方法及系统。


技术实现思路

1、针对现有技术存在的不足,本发明提供基于自适应视角匹配的海洋遥感图文检索方法及系统。

2、为了解决上述技术问题,本发明采用的技术方案是:

3、首先,本发明提供一种基于自适应视角匹配的海洋遥感图文检索方法,包括特征提取和特征处理两部分,在特征提取部分,包括对输入的图像数据和文本数据分别提取图像特征x和文本特征f;

4、在特征处理部分,包括:

5、基于补偿网络的全视角特征建模的步骤:基于补偿网络生成全视角文本特征fl,在全视角文本特征fl监督下,在图像特征x的基础上,训练神经网络,使得神经网络抽取图像中的全面、完整视角的信息,最终获得全视角图像特征xl;

6、基于图迁移的可判别视角建模的步骤:在全视角图像特征xl中,挖掘待查询的文本特征f所描述视角;

7、基于级联transformer特征对齐的步骤:在全视角图像特征xl和文本特征f的基础上,分两个步骤利用transformer 解码器实现样本信息的对齐,分别是文本指导的图像特征提取和图像指导的文本特征提取。

8、进一步的,在特征提取部分,对图像数据采用transformer编码器获得图像特征x,对文本数据采用gru提取文本特征f。

9、进一步的,在特征处理部分,基于补偿网络的全视角特征建模的步骤中,全视角文本特征fl的生成是通过补偿网络,一方面,补偿网络利用一张图像对应的多个视角的文本,借助注意力机制汇聚所有文本中的有效信息,生成显著性特征;另一方面,利用预训练的语义分类器,生成语义特征;最后将显著性特征和语义特征通过级联操作获得全视角文本特征fl。

10、进一步的,全视角图像特征xl的表示如下:

11、      (1);

12、conv1×1代表卷积核为1×1的卷积操作,之后xl依赖三元组损失监督训练;损失函数表示如下:

13、            (2);

14、全视角文本特征fl的生成步骤具体如下:一方面,对于文本tk,首先采用gru生成文本特征fk,

15、 (3);

16、其中k表示文本的数量;之后利用注意力机制抽取每个文本中的显著性信息,生成显著性特征zk,

17、     (4);

18、其中,表示注意力机制中的参数;

19、另一方面,利用预训练的语义分类器,对文本特征fk进行语义分类,生成语义特征mk,

20、         (5);

21、其中,表示语义分类器中的参数;

22、最后,显著性特征zk与语义特征mk融合,生成最终的全视角文本特征fl,

23、       (6);

24、其中,表示级联操作。

25、进一步的,基于图迁移的可判别视角建模的步骤包括了基于图迁移的全视角显式表示和基于分布的可判别视角特征提取两个单元,其中基于图迁移的全视角显式表示单元是利用点构建和图生成机制将全视角图像特征xl和文本特征f转化为显式的图表示r,通过分析图表示r中的连接密度和数量,定位待查询的文本特征f在图像中所描述视角;

26、根据判断的视角,基于分布的可判别视角特征提取单元将全视角图像特征xl传输到专注于处理该视角的神经网络中,实现正确的视角信息的提取,生成可判别视角图像特征xnew;

27、此外,文本特征f也经过注意力机制,生成有效文本特征fnew。

28、进一步的,基于图迁移的全视角显式表示单元中,点构建的顺序为:文本特征、全视角图像特征,写为(f,xl);图生成的机制为利用亲和矩阵计算特征之间的相关性,生成图表示r,

29、       (7);

30、其中,和为可训练的参数,t为转置操作;通过图表示r中的连接密度和数量,定位待查询的文本特征f在图像中所描述视角。

31、基于分布的可判别视角特征提取单元中,设计了图模式选择机制,其中包含了一个图模式,通过将生成图表示r和图模式中的图表示gi进行对比,定位待查询的文本特征f在图像中所描述视角;

32、其中,对比采用了kl-散度,表示如下:

33、  (8);

34、其中,i为图模式中图表示的索引,j为特征的维度,r(j)为图表示r中j维度对应的特征,gi(j)为图表示gi中j维度对应的特征,j为特征的最大维度;选择图模式中使得kl-散度最大的图表示,将索引记录下来,

35、  (9);

36、其中,o表示在图模式中使得kl-散度最大图表示所对应的索引;根据索引,选择对应的网络,将全视角图像特征xl传输到专注于处理该视角的神经网络中,实现正确的视角信息的提取,生成可判别视角图像特征xnew,

37、  (10);

38、其中表示注意力机制中的参数;

39、反过来,图模式中的图表示也依靠新生成的可判别视角图像特征xnew来更新,

40、 (11);

41、为更新后的图表示,+代表元素相加;

42、此外,文本特征f也经过注意力机制,生成有效文本特征fnew,

43、   (12);

44、其中表示注意力机制中的参数。

45、进一步的,基于级联transformer特征对齐的步骤中,文本指导的图像特征提取具体是:将全视角图像特征视为查询句q,文本特征视为k和v,对待查询句子样本进行图像有效信息的再挖掘与信息对齐,生成鲁棒图像特征xupd;

46、图像指导的文本特征提取具体是:将文本特征视为q,鲁棒图像特征视为k和v,利用鲁棒图像特征对文本特征的噪声进行过滤,生成鲁棒文本特征fupd。

47、进一步的,所述的基于自适应视角匹配的海洋遥感图文检索方法,还包括相似度匹配的步骤,损失计算包含四部分,即:原始图像特征x和文本特征f的三元组损失,全视角图像特征xl和全视角文本特征fl的三元组损失、可判别视角图像特征xnew和有效文本特征fnew的三元组损失以及鲁棒图像特征xupd和鲁棒文本特征fupd的三元组损失。

48、其次,本发明提供一种基于自适应视角匹配的海洋遥感图文检索系统,用于实现如前所述的基于自适应视角匹配的海洋遥感图文检索方法,包括图像特征提取模块、文本特征提取模块、基于补偿网络的全视角特征建模模块、基于图迁移的可判别视角建模模块、基于级联transformer特征对齐模块、损失计算模块,

49、所述图像特征提取模块,用于对输入的图像数据提取图像特征x;

50、所述文本特征提取模块,用于对输入的文本数据提取文本特征f;

51、所述基于补偿网络的全视角特征建模模块,基于补偿网络生成全视角文本特征fl,在全视角文本特征fl监督下,在图像特征x的基础上,训练神经网络,使得神经网络抽取图像中的全面、完整视角的信息,最终获得全视角图像特征xl;

52、所述基于图迁移的可判别视角建模模块,用于在全视角图像特征xl中,挖掘待查询的文本特征f所描述视角,具体包括基于分布的可判别视角特征提取和基于图迁移的全视角显示表示两部分;

53、所述基于级联transformer特征对齐模块,用于在全视角图像特征xl和文本特征f的基础上,分两个步骤利用transformer 解码器实现样本信息的对齐,分别是文本指导的图像特征提取和图像指导的文本特征提取;

54、所述损失计算模块,用于计算三元组损失。

55、与现有技术相比,本发明优点在于:

56、(1)为了抽取图像中的鲁棒信息,解决不适定难题,本方法设计了基于补偿网络的全视角特征建模模块。该模块借助全视角文本特征,来监督图像的特征抽取过程。全视角文本特征的生成结合了多个文本描述和语义分类信息。由于多个文本描述能够全面且可靠地多视角地描述图像,且注意力和语义分类能够挖掘文本中的有效信息,因此生成的全视角文本特征是鲁棒的。在该特征监督下,训练深度神经网络,可以挖掘出图像中的鲁棒区域且过滤掉无效噪声,生成全视角图像特征。这是图像特征抽取的第一阶段,相当于在图像特征上,不考虑待查询文本来抽取图像中的鲁棒信息,为后续有针对性地建模特征表示奠定了基础。

57、(2)在生成全视角图像特征基础上,基于图迁移的可判别视角建模模块可实现自适应定位待查询文本在图像中所表征的视角。其中的基于图迁移的全视角显式表示单元利用点构建和图生成机制将全视角图像特征和文本特征转化为显式的图表示。通过分析图表示中的连接密度和数量,可定位待查询的文本特征在图像中所描述视角。例如,稀疏图表示局部视角,密集图表示全局视角等。根据判断的视角,基于分布的可判别视角特征提取单元将全视角图像特征传输到专注于处理该视角的网络中,挖掘正确的视角信息。通过将图像、文本特征转化为图的表示,将文本在图像中所表达的视角显示展示出来,为后续图像传送到专注于处理该视角的网络中做指导,从而精准地定位并抽取图像中有效视角信息,解决了不适定性问题,提高检索结果的准确性。

58、(3)在全视角图像特征和文本特征的基础上,基于级联transformer特征对齐模块分两个步骤利用transformer 解码器实现样本信息的对齐。文本指导的图像特征提取单元将全视角图像特征视为查询句q,文本特征视为k和v,对待查询句子样本进行图像有效信息的再挖掘与信息对齐。图像指导的文本特征提取单元将文本特征视为q,鲁棒图像特征视为k和v,利用鲁棒图像特征对文本特征的噪声进行过滤,最终获得了更鲁棒的跨模态特征表示。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1