一种多时相遥感影像无监督变化检测伪样本自动生成方法

文档序号:31571115发布日期:2022-09-20 22:25阅读:168来源:国知局
一种多时相遥感影像无监督变化检测伪样本自动生成方法

1.本发明涉及多时相遥感影像地表变化检测技术领域,尤其是涉及一种多时相遥感影像无监督变化检测伪样本自动生成方法。


背景技术:

2.随着遥感技术的发展,国内外学者对多时相遥感影像地表变化检测应用展开了广泛研究。目前的变化检测技术依据是否需要一定量的先验地表真实信息作为训练集,可以大致分为监督变化检测和无监督变化检测,其中无监督变化检测不需先验信息作为训练集就可以完成自动化检测任务。得益于此,无监督变化检测技术在遥感数据获取量大幅增加、地表先验信息获取代价高昂的背景下有广泛的应用前景。现有的无监督变化检测方法主要包括基于聚类的方法、时序主成分分析、迭代加权多变量变化检测(ir-mad)、变化矢量分析(cva)和其他特殊方法等。
3.一般来说,监督变化检测分类器实际性能会优于无监督变化检测模型,但其实际应用时可能缺乏完备的变化样本。针对此类问题,此前相关研究提出了使用无监督变化检测技术生成伪样本训练集,再借助机器学习分类器实现变化检测的思路,如基于序列光谱变化矢量分析(s2cva)、压缩变化矢量分析(c2va)等。然而,基于c2va的方法在压缩表示过程中具有一定的信息损失,仅依靠单一阈值划分方法确定伪样本生成区域会导致伪样本包含变化信息不全面。而且在极坐标域的投影中,不同变化类别的分布也有比较大的差别,在所有样本上计算统一阈值也会造成部分变化类别的伪样本生成区域不适配的问题。


技术实现要素:

4.本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种能够生成各种置信度的伪样本训练集的多时相遥感影像无监督变化检测伪样本自动生成方法。
5.本发明的目的可以通过以下技术方案来实现:
6.一种多时相遥感影像无监督变化检测伪样本自动生成方法,所述的伪样本自动生成方法包括:
7.步骤1:对多时相影像数据进行处理,将其投影至二维极坐标域;
8.步骤2:在极坐标域上基于变化矢量投影的统计分布特征生成伪样本候选区域;
9.步骤3:采用随机样本生成方式在候选区域获得多类变化和不变化的伪样本,并输入监督分类器,实现二值变化检测和多类变化检测。
10.作为优选的技术方案,所述的步骤1具体为:
11.针对多时相影像数据,依次通过图像预处理、影像配准、影像做差获得差分影像,并采用压缩变化矢量分析方法将其投影至二维极坐标域。
12.作为优选的技术方案,所述的步骤2包括:
13.基于压缩光谱变化矢量分析计算获得的变化强度mag和变化角度dir变量绘制于二维极坐标域内的多个扇形区域,每个区域代表一类变化,具体的:
14.在mag数据上使用基于贝叶斯估计的最大期望em算法计算阈值t0,将数据集ω分为ωc和ω
nc
,在ωc的dir数据上使用k均值聚类算法并获得k个聚类簇,将整个极坐标域划分为k个扇形区域,每个扇形区域在dir数据上的边界为a
i-1
和ai,i=1,2,

,k,当i=1时,a0=0;i=k时,ak=π;
15.其中,k为变化类别的数量,mag、dir分别为变化矢量经过压缩后得到的变化强度和变化角度数据,ω为所有样本的集合,t0为em算法基于ω的mag数据计算获得的全局粗阈值,ωc和ω
nc
分别为该阈值分出的变化和不变化样本集。
16.作为优选的技术方案,所述的步骤2还包括:
17.对每一个扇形区域进行进一步划分,依据样本标签置信度划分出三个不同类型区域,以保证生成的伪样本具有较高的可靠性。
18.作为优选的技术方案,所述步骤2中依据样本标签置信度划分三个不同类型区域的具体方法为:
19.对每个扇形区域内的样本集合ωi,在其强度变量magi上使用em算法计算阈值将区域二分为变化和不变化样本集合,记作的mag 数据记作
20.计算样本集合的频率直方统计特征,基于此判断内样本的分布合理性:
[0021][0022]
ω=c
[0023]
ω=nc
[0024]
其中,和分别是基于频率直方统计数据计算获得的中位数和众数;和分别是的最大值和最小值;代表样本分布的合理性阈值边界;则反映了该扇形区域内样本频率直方图统计的峰值特征,包含样本在变化强度方向上聚集的位置信息;
[0025]
对变化样本集合计算当时,判定该集合内的样本分布不合理;
[0026]
对不变样本集合计算当时,判定该集合内的样本分布不合理。
[0027]
作为优选的技术方案,所述的步骤2具体为:
[0028]
对分别基于变化强度数据的阈值计算与分别记作分别记作将每一类别的扇形极坐标域划分为不变高置信伪样本选取区域不变伪样本补充区域非候选区域变化伪样本补充区域和变化高置信伪样本选取区域五个区域,具体为:
[0029]
[0030][0031]
其中,t为因变量,表示待确定的阈值;l表示样本集合的mag范围,为与的差值;n是该样本集合内样本数量;表示集合中的高置信度边界,ω=c,ω=nc,n
t
表示该扇形区域中mag值在t与范围内样本的数量;值是衡量阈值t与样本集合整体分布的参数,包含频率直方统计的聚簇位置和集中程度信息。
[0032]
作为优选的技术方案,所述步骤2中:
[0033]
对于分布不合理的样本集合,基于频率分布直方图特征计算自适应的值,ω={c,nc},具体为:
[0034][0035]
其中,α和pc是表示样本分布模型拟合的常数参数;是反映分布的参数,具体为:
[0036][0037]nτ
=0.75n
[0038][0039]
在该分布不合理的样本集合的mag直方统计数据上计算满足上述约束的在该分布不合理的样本集合的mag直方统计数据上计算满足上述约束的n
τ
表示样本集合中mag值在范围内样本的数量。
[0040]
作为优选的技术方案,所述步骤2中:
[0041]
对于分布不合理的变化样本集合即ω=c,计算具体为:
[0042][0043][0044]
对于分布不合理的不变样本集合即ω=nc,计算具体为:
[0045][0046][0047]
在和上分别计算阈值和在该扇形极坐标域中获得不变高置信伪样本选取区域dir∈[a
i-1
,ai]}和变化高置信伪样本选取区域dir∈[a
i-1
,ai]}。
[0048]
作为优选的技术方案,所述的步骤2还包括:
[0049]
在扇形区域内,对于分布合理的样本集合,在和两个样本候选区再次采用相同策略计算阈值对于分布不合理的样本集合,则在的区间范围内选择与高置信伪样本选取区域内样本数量相同的mag值最小或最大的样本构成不变或变化伪样本补充样本,并由此计算出不变伪样本补充区域dir∈[a
i-1
,ai]}和变化伪样本补充区域dir∈[a
i-1
,ai]};该扇形区域中剩余的部分为非候选区域dir∈[a
i-1
,ai]}。
[0050]
作为优选的技术方案,所述的步骤3具体为:
[0051]
首先,在整个极坐标域的高置信伪样本候选区域按照随机选样的策略,选择 p%数量的区域内样本作为不变和变化伪样本训练集,并输入监督分类器中进行分类,获得初步二值变化检测结果;
[0052]
其次,去除初步结果中的不变样本,剩余样本在每个代表一类变化的扇形极坐标域的高置信以及补充区域中按照相同随机选样的策略生成伪样本训练集,输入监督分类器获得更精细的二值变化检测结果;
[0053]
最后,在变化样本中,从每个扇形极坐标域随机生成伪样本训练集进行多类变化检测,最后获得多类变化检测结果。
[0054]
与现有技术相比,本发明具有以下有益效果:
[0055]
有效生成各种置信度的伪样本训练集:本发明中的多时相遥感影像无监督变化检测伪样本自动生成方法采用变化矢量投影的统计分布特征自动生成伪样本候选区域,然后采用随机样本生成方式在候选区域获得多类变化和不变化的伪样本,可以不依靠先验信息生成不同置信度伪样本训练集,并借助机器学习分类器实现自动化、稳健的无监督遥感变化检测。
附图说明
[0056]
图1为本发明实施例中多时相遥感影像无监督变化检测伪样本自动生成方法的流程示意图;
[0057]
图2为本发明实施例中landsat 5tm影像在某研究区域的假彩色合成图;
[0058]
其中图2(a)为前时相原始影像,图2(b)为后时相原始影像,图2(c)为差值影像图,图2(d)为地表变化检测参考真值图;
[0059]
图3为本发明实施例中某研究区样本在极坐标域的伪样本生成区域划分过程示意图;
[0060]
其中,图3(a)为基于所有样本mag使用em划分阈值的示意图,图3(b) 为极坐标内三个变化类别的扇形区域划分图,图3(c)为代表采石场变化类别的扇形极坐标域强度频率分布直方统计图,图3(d)为代表火灾区域变化类别的扇形极坐标域强度频率分布直方统计图,图3(e)为代表水域变化类别的扇形极坐标域强度频率分布直方统计图,图3(f)为极坐标域内伪样本生成区域划分图;
[0061]
图4为本发明实施例中某研究区的变化检测结果对比图;
[0062]
其中,图4(a)为初步二值变化检测结果图,图4(b)为精细二值变化检测结果图,图4(c)为多类变化检测结果图,图4(d)为s2cva方法获得的多类变化检测结果图,图4(e)为c2va方法获得的多类变化检测结果图。
具体实施方式
[0063]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
[0064]
此处所称的“一个实施例”或“实施例”是指可包含于本技术至少一个实现方式中的特定特征、结构或特性。在本技术的描述中,需要理解的是,术语“上”、“下”、“左”、“右”、“顶”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本技术的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含的包括一个或者更多个该特征。而且,术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
[0065]
实施例1
[0066]
图1是本技术实施例中提供的一种多时相遥感影像无监督变化检测伪样本自动生成方法的流程图。本技术提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。该方法应可以由软件和/或硬件的方式实现。请参见图1,所述方法可以包括:
[0067]
(1)压缩变化矢量极坐标投影
[0068]
对某研究区影像数据前后时相预处理后经过配准、做差获取差分影像,并使用压缩变化矢量的方法将影像数据投影至二维极坐标域。
[0069]
(2)伪样本候选区域构建
[0070]
在mag数据上使用基于贝叶斯估计的最大期望(em)算法计算阈值t0,将数据集ω分为ωc和ω
nc
,在ωc的dir数据上使用k均值聚类算法并获得k个聚类簇,将整个极坐标域划分为k个扇形区域,每个扇形区域在dir数据上的边界为 a
i-1
和ai,i=1,2,

,k,注意当i=1时,a0=0;i=k时,ak=π。
[0071]
对每个扇形区域内的样本集合ωi,在magi数据上使用em算法计算阈值将样本分为变化样本集合和不变样本集合记作的mag 数据记作使用下列公式计算样本集合的频率直方统计特征,基于此判断内样本的分布合理性。
[0072][0073]
ω=c
[0074]
ω=nc
[0075]
其中,和分别是基于频率直方统计数据计算获得的中位数和众数;和分别是的最大值和最小值;代表样本分布的合理性阈值边界;则反映了该扇形区域内样本频率直方图统计的峰值特征,包含样本在变化强度方向上聚集的位置信息;
[0076]
对变化样本集合计算当时,判定该集合内的样本分布不合理;
[0077]
对不变样本集合计算当时,判定该集合内的样本分布不合理。
[0078]
对使用下列公式分别基于变化强度数据的阈值计算与分别记作分别记作将每一个扇形极坐标域划分为不变高置信伪样本选取区域不变伪样本补充区域非候选区域变化伪样本补充区域和变化高置信伪样本选取区域五个区域。
[0079][0080][0081]
其中,t为因变量,表示待确定的阈值;l表示样本集合的mag范围,为与的差值;n是该样本集合内样本数量;表示集合中的高置信度边界,ω=c,ω=nc,n
t
表示该扇形区域中mag值在t与范围内样本的数量;值是衡量阈值t与样本集合整体分布的参数,包含频率直方统计的聚簇位置和集中程度信息,可以有效确定合理的阈值。对于分布合理的变化样本集合对于分布合理的不变样本集合对于分布不合理的样本集合,基于频率分布直方图特征使用下述公式计算自适应的值ω={c,nc}。
[0082][0083]
其中,α和pc是表示样本分布模型拟合的常数参数,α=1.25,pc=1/3;是反映分布的参数,具体为:
[0084][0085]nτ
=0.75n
[0086][0087]
在该分布不合理的样本集合的mag直方统计数据上计算满足上述约束的在该分布不合理的样本集合的mag直方统计数据上计算满足上述约束的n
τ
表示样本集合中mag值在范围内样本的数量。
[0088]
对于分布不合理的变化样本集合即ω=c,计算具体为:
[0089][0090][0091]
对于分布不合理的不变样本集合即ω=nc,计算具体为:
[0092][0093][0094]
在和上分别计算阈值和在该扇形极坐标域中获得不变高置信伪样本选取区域dir∈[a
i-1
,ai]}和变化高置信伪样本选取区域dir∈[a
i-1
,ai]}。
[0095]
在扇形区域内,对于分布合理的样本集合,在和两个样本候选区再次采用相同策略计算阈值对于分布不合理的样本集合,则在的区间范围内选择与高置信伪样本选取区域内样本数量相同的mag值最小或最大的样本构成不变或变化伪样本补充样本,并由此计算出不变伪样本补充区域dir∈[a
i-1
,ai]}和变化伪样本补充区域dir∈[a
i-1
,ai]};该扇形区域中剩余的部分为非候选区域dir∈[a
i-1
,ai]}。
[0096]
(3)伪样本生成及变化检测
[0097]
在整个极坐标域的高置信伪样本选择区域按照随机选样10%的策略生成不变和变化伪样本训练集,并输入支持向量机中进行分类,获得初步二值变化检测结果。
[0098]
去除初步结果中的不变样本,剩余样本在每个代表一类变化的扇形极坐标域的高置信以及补充区域中按照相同随机选样的策略生成伪样本训练集,输入支持向量机获得更精细的二值变化检测结果。
[0099]
最后在变化样本中,从每个扇形极坐标域随机生成伪样本训练集进行多类变化检测,最后获得多类变化检测结果。
[0100]
实施例2
[0101]
实验数据采用30m分辨率landsat-5卫星遥感数据。图像尺寸大小为300
×
412 像素。前后时相影像分别获取于1995年9月和1996年7月,如图2(a)和图2 (b)所示(波段3、2、1合成)所示。
[0102]
研究区域的差分影像如图2(c)(波段3、2、1合成)所示,该区域共有三类地表变化:采石场、森林火灾区域和水域扩增变化,详细信息见表1,地表变化检测参考真值如图2(d)所示。
[0103]
表1变化检测研究区变化类别数据
[0104]
类别像素数量(像素)颜色采石场214红火灾区域2414绿水域7480蓝无变化区域113492黑
[0105]
实验结果:
[0106]
1、伪样本生成区域划分结果
[0107]
将原始影像使用s2cva的方法投影至二维极坐标域,并基于mag数据使用em 方法计算阈值,如图3(a)所示。阈值t0(t0=39.7798)将样本分为变化样本集合ωc和不变样本集合ω
nc
,在变化样本集合的dir数据上使用k均值方法聚类,获得三个聚类簇,并根据聚类簇划分出代表三个变化类别的扇形极坐标域,如图3(b) 所示。其中c1代表采石场变化类,c2代表火灾变化类,c3代表水域变化类。
[0108]
图3(c)、图3(d)和图3(e)分别是基于c1、c2和c3扇形极坐标域内样本的mag数据进行频率直方统计获得的结果示意图,图中黑色虚线表示基于该样本集合mag数据使用em方法获得的阈值。在c1区域(采石场变化类)和c2区域 (火灾变化类)的频率直方统计图中因变化样本数量相比不变样本较少,难以形成明显的变化样本聚集特征,而c3区域(水域变化类)则相反,其频率直方统计图显示出明显的两个聚集的峰值特征。受到变化样本数量较少、聚集特征不够明显两方面因素的影响,基于c1、c2区域内样本计算的阈值明显不够精确,这会对后续的伪样本选择带入大量误差。因此,需要基于频率分布直方特征判断阈值的合理性,并分类型进行处理。数据的合理性判断结果见表2。
[0109]
最终在极坐标域中划分的区域如图3(f)所示,对于分布不合理的类别在提出的方法中进行了伪样本选取区域范围的抑制,确保能够生成高置信度的伪样本集。
[0110]
表2合理性判断结果
[0111]
[0112]
2、变化检测结果
[0113]
本发明中提出的变化检测方法在伪样本训练集生成和基于机器学习方法进行分类可以分为三个步骤:初步二值变化检测、精细二值变化检测和多类变化检测。伪样本集的选取采用区域内随机选择样本的策略,选取样本个数与区域内总样本数成比例,一般为10%,伪样本集具体的信息见表3。
[0114]
表3伪样本训练集信息
[0115][0116]
初步二值变化检测结果见图4(a),由于伪样本训练集是在高置信伪样本选取区域随机生成的原因,导致样本集虽然置信度较高,但是包含的信息较少,该训练集对于变化和不变样本容易混淆的部分没有涉及。最终的结果是初步二值变化检测结果的漏检率很低,但错检多。去除初步二值结果中检测出来的不变样本,在剩余的变化样本中按相同策略随机选择样本构成伪样本训练集。基于精细二值结果,去除不变样本后,在剩余样本中随机生成伪样本训练集并进行多类变化检测,最终结果如图4(b)。实验结果采用总体精度(overall accuracy,简称oa),kappa系数 (kappa coefficient,简称k)两个指数进行质量评价,因方法中有随机因素,这里重复10次实验,具体结果见表4(图4展示的检测结果为实验编号1获得的)。
[0117]
表4实验结果评价
[0118][0119]
3、本方法与部分无监督变化检测结果图对比分析
[0120]
实验也对比了基于原始s2cva和c2va两个方法划分区域随机生成伪样本训练集的结果,随机选取了数量与上述实验相同的样本作为训练集,并进行了10组实验,质量评价结果见表5。
[0121]
表5对比实验结果评价
[0122][0123]
使用本实施例所述方法获得的检测结果图如图4(c)所示,使用原始s2cva 方法获得的检测结果见图4(d),使用c2va方法获得的检测结果见图4(e)。原始s2cva方法和c2va方法中采取整体划分阈值的处理方法,对样本量较少、极坐标域内分布不集中以及变化与不变样本混淆严重的数据分布类型计算出的阈值不合理,可能会导致大量不变像元被错分,如采石场变化类。而本发明中使用基于变化矢量投影域频率直方图统计特征的自适应伪样本候选区域划分方法,从数据自身分布出发,更加精细地划分出高置信伪样本选取区域、补充选取区域和混淆情况严重的非候选区域,可以有效地获取高质量伪样本训练集。通过实验对比分析证明了提出的方法在变化检测应用中具有更高的总体精度,尤其在区分小样本量变化类、抑制错误样本对伪样本训练集的影响上具有明显的优势。
[0124]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1