一种基于多尺度注意力机制的冰下层结构提取方法

文档序号：25784547发布日期：2021-07-09 10:26阅读：215来源：国知局

1.本发明属于计算机视觉、模式识别与极地冰川学领域，设计一种基于msanet网络的冰下层结构提取方法。

背景技术：

2.随着人民生活水平的提高与技术的发展，对智能分析、制造的期望和需求愈加强烈。其中主要涉及到的大数据分析与人工智能受到了广泛关注。现在，人工智能与不同领域的结合是一个正在不断探索的、具有重要意义的方向。极地冰川学作为一项地理观测和建模演绎的复杂学科，对人类的生产生活、全球气候研究具有极大的意义。为进一步促进对极地冰川的研究，可以从自动化处理冰盖雷达拓扑序列中开始着手。由于手工处理的冰盖雷达图效率低，且手工设计特征的方法过程复杂、效率差，并不适合处理大型数据集。因此，将对极地冰盖雷达图的分析与人工智能相交融具有非常重要的应用意义，诸多国内外极地研究机构都对此方向贡献出诸多的研究投入。在这其中，机器学习是将人工智能变为现实的重要方法，运用机器学习的算法，将收集到的数据加以分析与整理，并建立对应的模型，从而实现自动的分析过程。如果，构建一些能够辅助冰川学家进行冰盖雷达图的分析的系统，实现对冰盖雷达图的自动冰川提取和简单的常规分析，那么在极大方便冰川学家利用提取的极地冰盖数据进行进一步的研究同时，也可以一定程度上避免对极地冰盖下冰层的错误提取的现象。
3.极地冰盖下冰层提取主要为极地冰盖的分析、冰川模型的建模进行数据准备。可从提取的冰下层结构直接推导出冰层厚度，再结合之前的冰厚数据，可以进行对冰盖质量变化的估计。利用提取的冰层数据建立的冰川建模可以进一步观测气候变化等与人类生活息息相关的因素。对极地冰盖分析通常通过冰盖雷达图进行，在冰盖雷达图上通常会存在大量的噪声等因素的干扰，尤其是在跨轨方向的雷达拓扑切片受噪声干扰更为严重。而跨轨方向上的冰盖雷达图能更全面、更准确的描述冰盖下地形特征。因此，对冰盖雷达拓扑切片的分析任务更具有挑战和意义。为此，我们设计了本自动分析、提取冰下层结构的提取方法，以希望帮助极地冰盖研究者能快速、准确的提取冰下层结构，实现对冰盖雷达图的初步分析。

技术实现要素：

4.目前，在此领域的利用深度学习进行的相关工作还相对较少，为此，本发明提出了一个轻量、高精度的基于多尺度注意力机制(msanet)的冰下层结构提取算法。在3d卷积网络中加入多尺度模块与注意力模块，这种结构不仅可以增强网络对输入数据的多尺度特征的表达能力，同时又可以通过注意力模块增强对输入的冰盖雷达拓扑切片的重要冰层结构特征的建模能力。本发明提出的msanet网络对冰盖雷达拓扑序列这类具有一定的空间
‑
序列特征的数据具有良好的建模作用，可以较为快速、准确的从中提取出冰表面层和冰基岩层。
5.本发明提出的一种轻量、高精度的基于msanet的冰下层结构提取算法，总体思路是对几帧连续的雷达拓扑切片作为一组输入，以包含一定的空间
‑
序列关系，然后将数据输入到设计的网络中进行训练，期望建立一个能够良好捕获冰层空间和序列间关系的模型；在测试时，网络利用已经建立的冰盖地形的空间
‑
序列特征的特征关系，会直接输出对输入的测试数据的冰层结构的提取结果。方法主要包括以下特征：
6.(1)新设计的msanet网络
7.具体提出的网络搭建结构如下：
8.msanet由三个部分组成：低级特征提取阶段，高级特征提取阶段和分类阶段。低级特征提取阶段的特征在于通过一个卷积层结构和多尺度模块完成对输入冰下层结构的通用低级特征的多尺度表示，以供为后续提取冰层结构的高级特征做准备；高级特征提取阶段利用含有卷积层、注意力模块和多尺度模块的两路分支结构以分别学习冰表面层和冰基岩层独有的可区别特征；分类阶段利用上述提取到的高级特征进行组合分类，以对目标冰层结构的位置进行准确预测提取。在特征提取阶段，除第一个块外，均引入了多尺度模块，以进行对冰层特征的多尺度表示，增强网络对冰层特征的表示能力。在高级特征提取阶段，在卷积层之后引入的注意力多尺度模块，先利用注意力机制捕获冰下层结构的重要特征，然后再送入多尺度模块，增强对重要的冰层特征的多尺度表示，提高对冰下层结构的空间
‑
序列关系的建模能力。综上所述，我们设计的msanet是一个能够对多尺度特征进行捕获并加强对序列特征的提取和融合的网络结构。
9.其中多尺度模块由三条支路组成，三条支路上分别存在一个不同尺度大小的卷积滤波器，其中卷积核大于3的卷积滤波器进行分解，以减少网络参数量。紧接着，三条支路输出的多尺度特征被级联在一起，以最大程度保留学习的多尺度特征。然后，依次送入瓶颈单元和池化层分别得到对通道间和空间特征的下采样。
10.其中注意力模块分为两个子模块，分别为3d位置注意力模块和3d通道注意力模块。3d位置注意力模块着重关注于冰层特征的空间位置关系，在全局空间中的整合相似特征，而3d通道注意力模块着重关注于冰层特征通道之间的关联，以增强通道下特定语义响应能力。通过3d位置注意力模块和3d通道注意力模块从不同角度对冰下层结构的特征进行建模和融合，以达到对冰下层结构特征更准确的建模。(3)使用msanet网络实现冰下层结构提取的过程
11.训练时的特征：
12.我们输入到msanet的数据是连续的t帧的雷达拓扑图；以实际的第个拓扑切片作为地面真值，将地面真值与网络提取得到的冰层位置输入到损失函数中进行网络参数的优化，并使用了指数型变化的学习率以更好的匹配网络的学习速度，从而进一步优化预测过程，提高检测结果。
13.提取时的特征：
14.测试集也采用同样的t帧连续的雷达拓扑切片作为一组输入送入到已经训练好的网络中，最终得到每一帧的预测图片。
15.检测提取的特征：
16.将预测冰层位置与原始拓扑切片的地面真值输入到使用的平均像素误差评价指标上，以判断提取的冰层位置与实际标注的结果的平均差值。
17.有益效果
18.1、本发明利用msanet网络实现了冰下层结构提取
19.据我们所知，这是现有的第一项将深度学习技术中的多尺度方法和注意力机制用于冰下层结构的提取的发明。本发明提出利用msanet网络实现从雷达拓扑切片中的冰下层结构的提取，进一步实现了对冰盖雷达图的初步简单分析。
20.2、本发明对从雷达拓扑切片中提取冰下层结构首次引入了多尺度模块以增强网络的特征提取能力
21.由于雷达拓扑切片中存在较大的噪声干扰，冰表面层和冰基岩层的位置不易于直接提取，需要通过两冰层间的空间信息和序列信息的结合以进行精确的判断。为充分提取冰层结构的空间特征和序列特征，需要充分考虑帧内不同位置的空间信息和帧间的序列信息。为此，引入了多尺度模块增强网络的基本特征提取能力，丰富了冰盖雷达图的多尺度特征表示。并且，多尺度模块同时考虑了特征的空间特征和序列特征，使两方面特征相结合从而提高提取算法的准确性。
22.3、本发明对雷达拓扑切片中提取冰下层结构首次引入了注意力模块以增强网络的特征提取能力
23.由于雷达拓扑切片中不仅噪声干扰大、层模糊而不易直接提取，而且在冰盖雷达图的边缘部分缺少有用信息使得网络对边缘位置冰层结构的判断、提取难度加大。为进一步细化边缘位置的特征，同时增强对冰层间的空间信息和序列信息的表示能力，引入了注意力模块分别从特征的空间关系和特征的通道间关系来对有用的边缘信息分配更多的权重，从而抑制无用的背景噪声信息，实现对重要特征的冰层特征达到细化处理的目的，进而增强对冰层位置的精确提取。
24.3、本发明提出了一种msanet网络
25.普通的3d卷积网络仅使用单一的卷积滤波器和全连接层的组合实现对目标的分类预测，但这种方法没有考虑到特殊数据的特点。对此，我们将其3d卷积网络根据雷达拓扑序列的特点进行改进，以更好的捕获空间序列关系和保持冰层特征的空间相对性。同时，在3d卷积网络中引入了多尺度模块和注意力模块，以进一步增强网络对重要特征的多尺度表示。不仅提高了网络的特征表达能力，而且对序列关系建立更加良好的序列关系，使得msanet更适合处理该类问题。
附图说明：
26.图1为本发明的msanet网络图。
27.图2为本发明中的多尺度模块结构图。
28.图3为本发明中的注意力模块结构图。
29.图4为本发明利用msanet实现冰下层结构提取的训练流程。
30.图5为本发明的测试流程图。
具体实施方式
31.下面结合附图对本发明的具体实施方法进行详细说明。
32.1、输入数据处理
33.将连续的t帧的雷达拓扑序列按顺序排列，这里t取5，得到形如1
×5×
64
×
64大小(通道数
×
切片数
×
雷达切片图的高
×
雷达切片图的宽)的数据准备输入网络中。
34.2、构建msanet网络
35.如图1所示。本发明所构造的msanet网络的各层具体参数如下：
36.①
块1：3d卷积单元、3d批归一化层、relu激活函数和混合池化层依次按顺序排列。3d卷积单元：输入尺寸为5
×
64
×
64，输入通道数为1，卷积核为3
×5×
3，步长为1，边缘填充方式为“零填充”，输出尺寸为5
×
64
×
64，输出通道数为16。混合池化层结合了最大池化层和平均池化层的优点，混合池化层的结果为这两个池化层结果之和。混合池化层：输入尺寸5
×
64
×
64，输入通道数为16，池化核为1
×2×
2，边缘填充方式为“零填充”,输出尺寸为5
×
32
×
32，输出通道数为16。
37.②
块2：3d卷积单元、3d批归一化层、relu激活函数和多尺度模块依次按顺序排列。3d卷积单元：输入尺寸为5
×
32
×
32，输入通道数为16，卷积核为3
×5×
3，步长为1，边缘填充方式为“零填充”，输出尺寸为5
×
32
×
32，输出通道数为32。多尺度模块：输入尺寸为5
×
32
×
32，输入通道数为32，池化核为1
×2×
2，经过三个支路的多尺度学习和下采样后，输出尺寸为5
×
16
×
16，输出通道数为32。
38.③
块3a、块3b：从块3开始，分为两个支路a、b以分别学习冰表面层和冰基岩层的特征。在块3中，三组3d卷积操作、注意力模块和多尺度模块依次按顺序排列。3d卷积单元、3d批归一化层、relu激活函数为一组3d卷积操作。第一组3d卷积操作中的3d卷积单元：输入尺寸为5
×
16
×
16，输入通道数为32，卷积核为3
×5×
3，步长为1，边缘填充方式为“零填充”，输出尺寸为5
×
16
×
16，输出通道数为64。第二、三组3d卷积操作中的3d卷积单元：输入尺寸为5
×
16
×
16，输入通道数为64，卷积核为3
×5×
3，步长为1，边缘填充方式为“零填充”，输出尺寸为5
×
16
×
16，输出通道数为64。注意力模块：输入尺寸为5
×
16
×
16，输入通道数为64，经过3d位置注意力模块和3d通道注意力模块后通过融合，输出尺寸为5
×
16
×
16，输出通道数为64。多尺度模块：输入尺寸为5
×
16
×
16，输入通道数为64，池化核为1
×2×
2，经过三个支路的多尺度学习和下采样后，输出尺寸为5
×8×
8，输出通道数为64。
39.④
块4a、块4b：在块4中，三组3d卷积操作、注意力模块和多尺度模块依次按顺序排列。3d卷积单元、3d批归一化层、relu激活函数为一组3d卷积操作。第一组3d卷积操作中的3d卷积单元：输入尺寸为5
×8×
8，输入通道数为64，卷积核为3
×5×
3，步长为1，边缘填充方式为“零填充”，输出尺寸为5
×8×
8，输出通道数为128。第二、三组3d卷积操作中的3d卷积单元：输入尺寸为5
×8×
8，输入通道数为128，卷积核为3
×5×
3，步长为1，边缘填充方式为“零填充”，输出尺寸为5
×8×
8，输出通道数为128。注意力模块：输入尺寸为5
×8×
8，输入通道数为128，经过3d位置注意力模块和3d通道注意力模块后通过融合，输出尺寸为5
×8×
8，输出通道数为128。多尺度模块：输入尺寸为5
×8×
8，输入通道数为128，池化核为5
×2×
2，经过三个支路的多尺度学习和下采样后，输出尺寸为1
×4×
4，输出通道数为128。
40.⑤
块5a、块5b：3d卷积单元、relu激活函数、维度重塑和全连接层依次使用。3d卷积单元：输入尺寸为1
×4×
4，输入通道数为128，卷积核为1
×4×
4，步长为1，无边缘填充，输出尺寸为1
×1×
1，输出通道数为256。维度重塑：输入尺寸为1
×1×
1，通道数256，将此4维数据将至1维，得到输出尺寸为256。全连接层：输入尺寸为256，输出尺寸为64。
41.3、多尺度模块构建
42.如图2所示。本发明所构造的多尺度模块结构的各层具体参数如下：
43.①
i1支路：由1个3d卷积单元、3d批归一化层和relu激活函数组成，输入尺寸为d
×
h
×
w，输入通道数为c，卷积核为1
×1×
1,步长为1，无边缘填充，输出尺寸为d
×
h
×
w，输出通道数c。
44.②
i2支路：由1个3d卷积单元、3d批归一化层和relu激活函数组成，输入尺寸为d
×
h
×
w，输入通道数为c，卷积核为3
×3×
3,步长为1，边缘填充方式为“零填充”，输出尺寸为d
×
h
×
w，输出通道数c。
45.③
i3支路：由两组1个3d卷积单元、3d批归一化层和relu激活函数组成。第一组3d卷积核：输入尺寸为d
×
h
×
w，输入通道数为c，卷积核分3
×3×
3，步长为1，边缘填充方式为“零填充”，输出尺寸为d
×
h
×
w，输出通道数c。第二组3d卷积核：输入尺寸为d
×
h
×
w，输入通道数为c，卷积核为3
×1×
1，步长为1，边缘填充方式为“零填充”，输出尺寸为d
×
h
×
w，输出通道数c。
46.④
级联操作：输入特征经过三路分进行多尺度特征的学习后，进行按通道级联，输入为三组尺寸大小为d
×
h
×
w，输入通道数为c的特征图，输出为尺寸大小为d
×
h
×
w，输出通道数为3
×
c。
47.⑤
瓶颈单元：利用一个卷积单元来减少通道间特征的冗余。输入尺寸为d
×
h
×
w，输入通道数为3
×
c，卷积核分1
×1×
1，步长为1，无边缘填充，输出尺寸为d
×
h
×
w，输出通道数c。
48.⑥
混合池化层：利用最大池化层和平均池化层之和来进行对特征图的下采样。输入尺寸大小为d
×
h
×
w，输入通道数为c，池化核为kd
×
kh
×
kw，输出为尺寸大小为kw，输出为尺寸大小为输出通道数为c。
49.4、注意力模块构建
50.如图3所示。本发明所构造的注意力模块结构的各层具体参数如下：
51.①
瓶颈单元c1、c2、c6、c7进行特征变换，增强特征的多样性表示。每个瓶颈单元均由3d卷积单元、3d批归一化单元和relu激活函数组成。3d卷积单元：输入尺寸大小为d
×
h
×
w，输入通道数为c，卷积核为3
×3×
3，步长为1，边缘填充方式为“零填充”，输出尺寸为d
×
h
×
w，输入通道数为c。
52.②
3d位置注意力模块：通过3个3d卷积单元c3、c4、c5来学习不同的特征k、q、v。3d卷积单元c3、c4的输入尺寸为d
×
h
×
w，输入通道数为c，卷积核为1
×1×
1，步长为1，无边缘填充，输出尺寸为d
×
h
×
w，输出通道数c/4。3d卷积单元c5的输入尺寸为d
×
h
×
w，输入通道数为c，卷积核为1
×1×
1，步长为1，无边缘填充，输出尺寸为d
×
h
×
w，输出通道数c。然后，尺寸为d
×
h
×
w、通道数为c/4的特征k，进行尺度维度重塑操作将其降维至1维(d
×
h
×
w
→
(d
×
h
×
w))，通道数为c/4，其维度尺寸为c
×
(d
×
h
×
w)(通道
×
重塑后的尺寸)，然后将通道数维度和重塑后尺寸维度进行交换，得到k
′
，其维度尺寸为(d
×
h
×
w)
×
c。然后，k
′
与重塑为c
×
(d
×
h
×
w)大小的q进行矩阵乘法，得到e，其维度尺寸为(d
×
h
×
w)
×
(d
×
h
×
w)。然后，将特征v的维度尺寸变换为c
×
(d
×
h
×
w)，与e进行元素乘法后，再进行softmax操作，得到的输出维度尺寸为c
×
(d
×
h
×
w)的空间注意力矩阵，然后在通过特征的维度变换，还原成原来的4维特征尺寸c
×
d
×
h
×
w，即通道
×
深度
×
高度
×
宽度。最后将还原到4维尺寸的
特征与维度尺寸为c
×
d
×
h
×
w输入特征相加，得到3d位置注意力特征图，尺寸大小为d
×
h
×
w，通道数为c。
53.②
3d通道注意力模块：将输入维度尺寸为c
×
d
×
h
×
w的特征进行维度变换和转置，得到特征维度为(d
×
h
×
w)
×
c的特征m。将维度尺寸为c
×
d
×
h
×
w的输入特征进行维度变换得到特征维度为c
×
(d
×
h
×
w)的n、o。然后，将m和n相乘的得到形如c
×
c结果，再进行softmax，得到的输出维度尺寸为c
×
c的通道注意力矩阵e
′
。然后将维度尺寸为c
×
c通道注意力矩阵e
′
与维度尺寸为c
×
(d
×
h
×
w)的o相乘，得到维度尺寸为c
×
(d
×
h
×
w)的结果。然后，将此结果进行维度变换，得到尺寸为c
×
d
×
h
×
w的通道注意力图。再与尺寸为c
×
d
×
h
×
w输入特征相加，得到最终尺寸为c
×
d
×
h
×
w通道注意力特征。
54.5、基于msanet网络的冰下层结构提取算法的训练流程
55.如图4所示，本发明利用msanet网络实现冰下层结构提取算法具体训练过程如下：
56.①
将训练集中的每一张的冰盖雷达拓扑切片前后的连续每5帧作为一组输入，随机选择准备送入msanet网络。
57.②
将5帧拓扑切片输入到msanet网络中，首先对拓扑切片序列进行低级特征的提取，然后送入两分支路分别学习冰表面层和冰基岩层独有的高级特征。最后，在分类阶段，根据并冰面层和冰基岩层的高级特征的分类组合，来对冰下层结构的位置进行判断，以得到最终的冰表面层和冰基岩层的提取位置。
58.③
比较网络提取的冰表面层和冰基岩层的位置与地面真值的位置结果之间的差异进行网络优化。由于本网络同时提取多个冰层结构，所以对冰表面层和冰基岩层的提取结果分别计算损失函数，并将两个损失函数之和最为整个网络的损失函数l。本发明采用l1函数并在训练过程中通过adam算法最小化全局损失函数对网络参数进行调整。具体计算公式如下：(这里的f
air
和f
bed
为真值实际冰层位置，f
air
和f
bed
为网络提取预测的冰层位置)
59.l
air
(f
air
,f
air
)＝||f
air
‑
f
air
||
60.l
bed
(f
bed
,f
bed
)＝||f
bed
‑
f
bed
||
61.l＝l
air
+l
bed
62.6、基于msanet网络的冰下层结构提取算法的测试过程
63.如图5所示，本发明利用msanet网络实现冰下层结构提取算法具体测试过程如下：
64.①
将测试集中的每一张的冰盖雷达拓扑切片前后的连续每5帧作为一组输入，随机选择准备送入msanet网络。
65.②
将待测试的5帧拓扑切片输入到msanet网络中，经过提取低级特征、高级特征，并根据特征进行分类，得到网络预测的提取结果后与地面真值进行比较。观察网络提取结果与地面真值的平均像素误差，误差越小代表网络提取结果越接近实际地形。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：蔡轶珩;刘丹;谢锦;杨静贤
技术所有人：北京工业大学
我是此专利的发明人

上一篇：日志同步方法、设备及计算机可读存储介质与流程
上一篇：沸腾床加氢反应器及其使用方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。