1.本发明涉及计算机技术领域,尤其涉及一种图像地物分割方法、模型、模型训练方法、设备及介质。
背景技术:2.从拍摄的自然图像中进行目标提取的技术具有广泛的应用。这一目标提取技术往往通过将自然图像进行分割和解析成与语义类别相关联的不同图像区域,包括集中区域如天空、道路、草地等,和离散物体如人等。
3.但相关技术中,图像地物分割的分割精确度差,特别是对于易混淆的类别分割精度低,比如“田野”和“草”的区域等分割精度往往比较低。又例如“汽车”等物体可能经常受到尺度、遮挡和照明的影响也不能很好的被识别。因此,亟需一种对自然图像进行图像地物分割精度高的模型,以提升对自然图像的地物分割准确性。
技术实现要素:4.鉴于以上所述现有技术的缺点,本发明提供一种图像地物分割方法、模型、模型训练方法、设备及介质,以解决上述技术问题。
5.本发明提供的图像地物分割模型,所述模型包括:
6.编码模块,用于对地物图像进行特征提取,得到粗提取特征图;
7.特征细化模块,用于对所述粗提取特征图进行特征细化,得到细化特征图;
8.解码模块,用于根据所述细化特征图生成所述地物图像的分割结果。
9.可选的,所述特征细化模块包括:
10.空间注意力模块,用于建立所述粗提取特征图中空间维度特征依赖关系,并生成空间注意力特征图;
11.密集金字塔模块,用于通过多个金字塔卷积核对所述空间注意力特征图进行扩张卷积,得到密集金字塔特征图,其中,至少两个所述金字塔卷积核的扩张率不同;
12.通道注意力模块,用于建立所述密集金字塔特征图中通道维度特征依赖关系,并生成通道注意力特征图。
13.可选的,所述空间注意力模块包括:
14.第一空间注意力子模块,用于通过第一卷积层根据所述粗提取特征图生成第一特征映射图和第二特征映射图,并生成第一空间注意力子特征图;
15.第二空间注意力子模块,用于通过第二卷积层根据所述粗提取特征图生成第三特征映射图,并根据所述第三特征映射图和所述第一空间注意力子特征图生成第二空间注意力子特征图;
16.第三空间注意力子模块,用于根据所述第二空间注意力子特征图和第一特征映射图生成所述空间注意力特征图。
17.可选的,所述密集金字塔模块包括:
18.多个依次连接的尺度特征提取模块,所述尺度特征提取模块包括卷积核和拼接单元,所述拼接单元的输入端与所述卷积核的输出端连接;
19.首个卷积核用于对所述空间注意力特征图进行扩张卷积,输出卷积结果,所述首个卷积核为排序第一的所述尺度特征提取模块中的卷积核;
20.所述拼接单元根据所述空间注意力特征图和与所述拼接单元连接的卷积核的输出结果生成拼接结果;
21.其他卷积核用于对目标单元的拼接结果进行扩张卷积,输出卷积结果,所述其他卷积核为除所述首个卷积核外的卷积核,所述目标单元为与所述其他卷积核所在尺度特征提取模块连接的前一个尺度特征提取模块的拼接单元,所述密集金字塔特征图为最后一个拼接单元的拼接结果。
22.可选的,所述通道注意力模块包括:
23.平均池化模块,用于根据所述密集金字塔特征图生成信道特征图;
24.全连接模块,用于建立所述信道特征图之间的通道维度关系;
25.归一化模块,用于根据所述通道维度关系和密集金字塔特征图生成细化特征图。
26.可选的,所述解码模块包括:
27.第一上采样模块,用于对所述细化特征图进行第一次上采样得到第一上采样特征图;
28.解码连接模块,用于将所述第一上采样特征图和粗提取特征图连接,得到解码连接图;
29.第二上采样模块,用于对所述解码连接图进行第二次上采样得到所述分割结果。
30.本发明还提供了一种地物图像分割方法,该方法包括:
31.获取待分割地物图像;
32.将所述待分割地物图像输入如上述任一项实施例所述的图像地物分割模型,得到所述待分割地物图像的分割结果。
33.本发明还提供了一种图像地物分割模型训练方法,该方法包括:
34.获取地物图像样本集,并将所述地物图像样本集划分为训练集、验证集和测试集;
35.利用所述训练集对预设基础地物分类模型进行训练,并通过所述验证集和测试集确定训练后的各预设基础地物分类模型中最优模型;
36.将所述最优模型作为图像地物分割模型。
37.本发明还提供了一种电子设备,包括处理器、存储器和通信总线;
38.所述通信总线用于将所述处理器和存储器连接;
39.所述处理器用于执行所述存储器中存储的计算机程序,以实现如上述中任一项实施例所述的方法。
40.本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,
41.所述计算机程序用于使计算机执行如上述任一项实施例所述的方法。
42.本发明的有益效果:本发明提出的一种图像地物分割方法、模型、模型训练方法、设备及介质,该模型包括对地物图像进行特征提取的编码模块,对粗提取特征图进行细化的特征细化模块和根据细化特征生成地物图像的分割结果的解码模块,利用全局的对象之间的关系,将密集的金字塔模块与通道-空间注意力机制相互结合,捕获到了长期的依赖
性,并从通道和位置的角度考虑不同尺度的物体,避免丢失不同规模和形状的物体,在提高了特征表示能力,提升了对自然图像的地物分割准确性。
附图说明
43.图1是本发明一实施例中提供的图像地物分割模型的一种结构示意图;
44.图2是本发明一实施例中提供的空间注意力模块的一种结构示意图;
45.图3是本发明一实施例中提供的空间注意力模块的另一种结构示意图;
46.图4是本发明一实施例中提供的密集金字塔模块的一种结构示意图;
47.图5是本发明一实施例中提供的密集金字塔模块的另一种结构示意图;
48.图6是本发明一实施例中提供的通道注意力模块的一种结构示意图;
49.图7是本发明一实施例中提供的通道注意力模块的另一种结构示意图;
50.图8是本发明一实施例中提供的图像地物分割模型的另一种结构示意图;
51.图9是本发明一实施例中提供的地物图像分割方法的一种流程示意图;
52.图10是本发明一实施例中提供的图像地物分割模型训练方法的一种流程示意图;
53.图11是本发明一实施例提供的一种电子设备的结构示意图。
具体实施方式
54.以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
55.需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
56.在下文描述中,探讨了大量细节,以提供对本发明实施例的更透彻的解释,然而,对本领域技术人员来说,可以在没有这些具体细节的情况下实施本发明的实施例是显而易见的,在其他实施例中,以方框图的形式而不是以细节的形式来示出公知的结构和设备,以避免使本发明的实施例难以理解。
57.参见图1,本实施例提供了一种图像地物分割模型100,该模型包括:
58.编码模块101,用于对地物图像进行特征提取,得到粗提取特征图;
59.特征细化模块102,用于对粗提取特征图进行特征细化,得到细化特征图;
60.解码模块103,用于根据细化特征图生成地物图像的分割结果。
61.其中,地物图像的获取方式可以是通过本领域技术人员所知晓的方式实现,在此不做限定。地物图像包括但不限于自然图像。该地物图像至少包括集中区域如天空、道路、草地等和离散物体如人等。
62.可选的,编码模块可以是基于vgg19以及resnet50来构造,需要知晓的是,编码模块也可以是由本领域技术人员所知晓的其他网络构成。
63.在一个实施例中,继续参见图1,特征细化模块102包括:
64.空间注意力模块1021,用于建立粗提取特征图中空间维度特征依赖关系,并生成空间注意力特征图;
65.密集金字塔模块1022,用于通过多个金字塔卷积核对空间注意力特征图进行扩张卷积,得到密集金字塔特征图,其中,至少两个金字塔卷积核的扩张率不同;
66.通道注意力模块1023,用于建立密集金字塔特征图中通道维度特征依赖关系,并生成通道注意力特征图。
67.可选的,参见图2,图2为空间注意力模块的一种具体的结构示意图,如图2所示,该空间注意力模块1021包括:
68.第一空间注意力子模块10211,用于通过第一卷积层根据粗提取特征图生成第一特征映射图和第二特征映射图,并生成第一空间注意力子特征图;
69.第二空间注意力子模块10212,用于通过第二卷积层根据粗提取特征图生成第三特征映射图,并根据第三特征映射图和第一空间注意力子特征图生成第二空间注意力子特征图;
70.第三空间注意力子模块10213,用于根据第二空间注意力子特征图和第一特征映射图生成空间注意力特征图。
71.可选的,空间注意力模块将更广泛的上下文信息编码为局部特征,从而增强了其表示能力。
72.参见图3,图3为空间注意力模块的另一种具体的结构示意图,如图3所示,一方面从编码模块出来的粗提取特征图首先输入到第一卷积层,以分别生成两个新的特征映射即第一特征映射图a和第二特征映射图b之后,在第一特征映射图b和第二映射特征图a的转置矩阵之间进行矩阵乘法,最后利用softmax来生成第一空间注意力子特征图s(feature map);另一方面,从编码模块出来的粗提取特征图再输入到第二卷积层生成新的特征映射即第三映射特征图c。然后,在第三映射特征图c和第一空间注意力子特征图s的转置矩阵之间进行矩阵乘法得到第二空间注意力子特征图p(feature map)。最终将第二空间注意力子特征图p与第一特征映射图a进行元素和相加,得到空间注意力特征图。
73.可选的,参见图4,图4为密集金字塔模块的一种具体的结构示意图,如图4所示,该密集金字塔模块1022包括多个依次连接的尺度特征提取模块10220,尺度特征提取模块包括卷积核10221和拼接单元10222,拼接单元的输入端与卷积核的输出端连接;
74.首个卷积核用于对空间注意力特征图进行扩张卷积,输出卷积结果,首个卷积核为排序第一的尺度特征提取模块中的卷积核;
75.拼接单元根据空间注意力特征图和与拼接单元连接的卷积核的输出结果生成拼接结果;
76.其他卷积核用于对目标单元的拼接结果进行扩张卷积,输出卷积结果,其他卷积核为除首个卷积核外的卷积核,目标单元为与其他卷积核所在尺度特征提取模块连接的前一个尺度特征提取模块的拼接单元,密集金字塔特征图为最后一个拼接单元的拼接结果。
77.可选的,密集金字塔模块中的各卷积核的扩张率依次可以是3、6、9、12、18、24等本领域技术人员所设定的扩张率。
78.通过密集金字塔模块中不同扩张率的卷积核对空间注意力特征图进行扩张卷积
计算,可以提取到不同尺度的物体特征,也即密集金字塔特征图包括有多尺度特征信息。
79.参见图5,图5为密集金字塔模块的另一种具体的结构示意图,如图5所示,以五个尺度特征提取模块为例(d=3、6、12、18、24),从左至右,第一个拼接单元c输入为原始的feature map(空间注意力特征图)以及经过采样率为3的卷积核进行扩张卷积的处理后的卷积结果。第二个拼接单元c的输入由三部分组成:第一部分是第一个拼接单元的拼接结果经过采样率为6的卷积核扩张卷积的处理后的卷积结果,第二部分为经过采样率为3的扩张卷积处理后的卷积结果,第三部分为原始的feature map(空间注意力特征图)。后面的两个拼接单元原理相似,在此不再赘述。将最后一个拼接单元的拼接结果作为密集金字塔特征图。
80.可选的,参见图6,图6为通道注意力模块的一种具体的结构示意图,如图6所示,该通道注意力模块1023包括:
81.平均池化模块10231,用于根据密集金字塔特征图生成信道特征图;
82.全连接模块10232,用于建立信道特征图之间的通道维度关系;
83.归一化模块10233,用于根据通道维度关系和密集金字塔特征图生成细化特征图。
84.可选的,全连接模块包括两个或两个以上的全连接层。
85.经过密集金字塔聚合的特征进入到通道注意力模块中,从而建模通道之间的相互依赖关系。
86.参见图7,图7为通道注意力模块的另一种具体的结构示意图,如图7所示,首先采用自适应平均池化来(averager pooling)根据密集金字塔特征图f生成一个信道级的特征(信道特征图);然后执行两个完全连接层(fully connected)来建立通道级的依赖关系(通道维度关系)。最后将上述全连接层的结果(通道维度关系)通过softmax操作(sigmoid)生成细化特征图(attention weight,aw),得到细化特征图f’。
87.在一个实施例中,解码模块包括:
88.第一上采样模块,用于对细化特征图进行第一次上采样得到第一上采样特征图;
89.解码连接模块,用于将第一上采样特征图和粗提取特征图连接,得到解码连接图;
90.第二上采样模块,用于对解码连接图进行第二次上采样得到分割结果。
91.可选的,在对细化特征图进行第一次上采样之前,还可以通过第一解码卷积层对细化特征图进行卷积处理后,再进行第一次上采样;在将第一上采样特征图和粗提取特征图连接,得到解码连接图之前,还可以通过第二解码卷积层对粗提取特征图进行卷积处理,通过第三解码卷积层对第一上采样特征图进行卷积处理,然后将经过卷积处理的第一上采样特征图和粗提取特征图连接,得到解码连接图。
92.可选的,该解码模块还包括3*3卷积层,该3*3卷积层用于对解码连接图进行卷积处理,此时第二上采样模块用于对进行卷积处理后的解码连接图进行第二次上采样得到分割结果。
93.下面,通过一个具体的实施例,对上述实施例提到的图像地物分割模型进行示例性的说明,参见图8,图8为图像地物分割模型的一种具体的结构图,如图8所示,该具体的图像地物分割模型分为编码模块801,特征细化模块802以及解码模块803;数据集先通过编码模块801进行特征提取;粗提取的特征进入到特征细化模块802进行特征校准使得特征更加精细化;细化的特征通过解码模块803最终获得分割图(分割结果)。具体的:
94.编码模块801分别是基于vgg19以及resnet50来构造的。
95.特征细化模块802包含了金字塔模块8022,通道注意力模块cam8023以及空间注意力模块pam8021,在整个特征细化模块中,经过编码模块提取的特征(粗提取特征图)首先先经过空间注意力模块8021,随后进入密集的密集金字塔模块8022,最后做进行通道注意力操作。
96.空间注意力模块8021将更广泛的上下文信息编码为局部特征,从而增强了其表示能力;此部分可参见上述图3所示。
97.继续参见图8,经过空间注意力模块操作的特征进入到密集金字塔模型,通过不同的扩张率(rate=3,6,12,18,24)的卷积核对特征图进行扩张卷积计算从而提取不同尺度的物体特征。新的特征图因此具有多尺度的信息。此部分可参见图5或图8。
98.继续参见图8,经过密集金字塔模块8022聚合的特征进入到通道注意力模块8023中,从而建模通道之间的相互依赖关系。此部分可以参见图7。
99.经过通道注意力模块的最终细化特征进入到解码模块803,如图8所示,将细化特征图p3进行第一次的上采样(upsample),然后与编码模块中粗提取特征图连接在一起,再进行3x3的卷积(3*3conv),最后进行第二次上采样(upsample)得到最终的分割结果(segmentation map)。
100.其中,在对细化特征图进行第一次上采样之前,还可以通过第一解码卷积层对细化特征图进行卷积处理后,再进行第一次上采样;在将第一上采样特征图和粗提取特征图连接,得到解码连接图之前,还可以通过第二解码卷积层对粗提取特征图进行卷积处理,通过第三解码卷积层对第一上采样特征图进行卷积处理,然后将经过卷积处理的第一上采样特征图和粗提取特征图连接,得到解码连接图。
101.在一个实施例中,将上述实施例提供的图像地物分割模型分别在两个公开的数据集如cityscapes,pascal context上进行测试,并与现有的分割模型进行了比较,实现更好的分割性能,说明了通道-位置注意力机制与金字塔模型的组合的有效性。
102.可选的,本发明实施例提供的模型可以先使用resnet作为backbone网络进行特征提取,从而得到的特征依次通过通道注意力模型,密集的扩张卷积金字塔模型以及通道注意力模型进行强化,随后输入到编码网络进行编码最终得到分割图。该模型能够指示出每个像素所代表的语义,一种地物类型则一定会被分到同一区域。
103.上述实施例提供的图像地物分割模型,包括对地物图像进行特征提取的编码模块,对粗提取特征图进行细化的特征细化模块和根据细化特征生成地物图像的分割结果的解码模块,利用全局的对象之间的关系,将密集的金字塔模块与通道-空间注意力机制相互结合,捕获到了长期的依赖性,并从通道和位置的角度考虑不同尺度的物体,避免丢失不同规模和形状的物体,在提高了特征表示能力,提升了对自然图像的地物分割准确性。
104.可选的,通过引入金字塔模型来获得多尺度特征,另外辅助引入通道-空间注意力机制来分别捕获空间维度和通道维度中的特征依赖性,对于某一位置的特征,通过加权求和对所有位置的特征进行聚合来进行更新,其中权重由对应两个位置之间的特征相似性决定,也就是说,任何两个具有相似特征的位置都可以有相互的改进,而不管它们在空间维度上的距离如何。对于通道注意模块,使用类似的注意机力机制来捕获任意两个通道映射之间的通道依赖关系,并使用所有通道映射的加权和来更新每个通道映射。分割结果既考虑
了全局视图中对象之间的关系,同时对长期记忆的学习结果依赖性不高,准确性更强。
105.参见图9,本发明还提供了一种地物图像分割方法,该方法包括:
106.步骤s901:获取待分割地物图像;
107.步骤s902:将待分割地物图像输入如上述任一实施例所述的图像地物分割模型,得到待分割地物图像的分割结果。
108.其中,待分割地物图像可以是本领域技术人员所提供的自然图像,其中包括有集中区域和离散物体。
109.通过本实施例提供的地物图像分割方法,能够更加精确的实现对地物图像的目标分割与提取。分割结果既考虑了全局视图中对象之间的关系,同时对长期记忆的学习结果依赖性不高,准确性更强。
110.参见图10,本发明还提供了一种图像地物分割模型训练方法,该训练方法包括:
111.步骤s1001:获取地物图像样本集,并将地物图像样本集划分为训练集、验证集和测试集;
112.步骤s1002:利用训练集对预设基础地物分类模型进行训练,并通过验证集和测试集确定训练后的各预设基础地物分类模型中最优模型;
113.步骤s1003:将最优模型作为图像地物分割模型。
114.其中,地物图像样本集的获取方式可以采用本领域现有的语义分割数据集如cityscapes dataset,pascal voc2012等,也可以由本领域技术人员通过合法合规的方式所取得的样本图像进行标注后得到。
115.其中,预设基础地物分类模型包括有编码网络、空间注意力网络、金字塔网络、通道注意力网络和解码网络。
116.在训练后的预设基础地物分类模型中确定最优模型的方式可以采用本领域技术人员所知晓的方式实现,在此不做限定。
117.通过上述方式可以得到地物分割更为精确的图像地物分割模型。通过引入金字塔模型来获得多尺度特征,另外辅助引入通道-空间注意力机制来分别捕获空间维度和通道维度中的特征依赖性,对于某一位置的特征,通过加权求和对所有位置的特征进行聚合来进行更新,其中权重由对应两个位置之间的特征相似性决定,也就是说,任何两个具有相似特征的位置都可以有相互的改进,而不管它们在空间维度上的距离如何。对于通道注意模块,使用类似的注意机力机制来捕获任意两个通道映射之间的通道依赖关系,并使用所有通道映射的加权和来更新每个通道映射。该训练后得到的图像地物分割模型既考虑了全局视图中对象之间的关系,同时对长期记忆的学习结果依赖性不高。
118.参见图11,本发明实施例还提供了一种电子设备1100,包括处理器1101、存储器1102和通信总线1103;
119.通信总线1103用于将处理器1101和存储器连接1102;
120.处理器1101用于执行存储器1102中存储的计算机程序,以实现如上述实施例一中的一个或多个所述的方法。
121.本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,
122.计算机程序用于使计算机执行如上述实施例一中的任一项所述的方法。
123.本技术实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或
多个模块(programs),该一个或多个模块被应用在设备时,可以使得该设备执行本技术实施例的实施例一所包含步骤的指令(instructions)。
124.需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、rf(射频)等等,或者上述的任意合适的组合。
125.上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
126.可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
127.附图中的流程图和框图,图示了按照本公开各种实施例的方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
128.上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完
成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。