专利名称:一种基于改进型层次聚类的高光谱遥感数据降维方法
技术领域:
本发明属于高光谱遥感图像处理技术领域,具体涉及一种基于改进型层次聚类的高光谱遥感数据降维方法。
背景技术:
高光谱遥感(Hyperspectral Remote Sensing)是指利用很多窄的电磁波波段获取物体有关数据的技术,它是20世纪最后20年人类在对地观测方面取得的重大技术突破之一,也是当前及今后几十年内的遥感前沿技术。与常规多光谱遥感相比,高光谱数据具有数据量大、波段很多很窄、波段相关性强、信息冗余多、图谱一体化等特征。但正是其海量数据和高维特征给高光谱数据的传输和存储都带来了较大的困难,同时也对传统的遥感图像数据处理技术提出了新的挑战。所以,对高光谱数据的快速处理和充分挖掘一直是困扰人们的一个问题。面对高光谱数十、数百个波段的数据,在提高数据处理效率的同时;如何有效利用、提取、分析感兴趣的最大信息,已成为有待研究的新课题。针对高光谱的高维、海量信息,必须对其进行“降维”操作,以提高数据处理效率、有效利用高光谱的最大信息。高光谱“降维”为高光谱影像分析提供了减少数据量、降低空间复杂度的方法,主要有两种方法即波段选择和特征提取。波段选择即从众多波段中选择感兴趣的若干波段,或选择信息量大、相关性小的若干波段,方法较好地保留了原始图像数据的信息,然而由于剔除了大部分波段,不可避免地损失了部分高光谱数据及细节信息;特征提取则采取一个线性或者非线性的特征提取器或者转换方程,将高维的空间投影到一个低维的空间,与波段选择相比,特征提取建立在各光谱波段间的重新组合和优化的基础之上,使类别间的可分性更大。特征提取和选择的关键就是要在最少维的特征空间中使目标的识别精度最高,即当特征空间维数减少到某个数量时仍能够达到最佳的分类精度。聚类分析实质上是特征提取的一种算法,它根据数据本身的特性将相似的数据归类;因此,该类算法在处理遥感数据时,也可以把数据分成若干个聚类,其中有些聚类包含了数据的重要特征。层次聚类算法,特别是凝聚式算法在计算上简单、可伸缩性,而且能够得到相近的最终结果,所以层次聚类算法的应用较为广泛。凝聚式层次聚类是自底向上的 策略首先将每个对象作为一个类,然后合并这些原子类为越来越大的类,直到所有的对象都在一个类中,或者某个终结条件被满足;分裂的层次聚类是种自顶向下的策略与凝聚的层次聚类相反,它首先将所有对象置于一个类中,然后逐渐细分为越来越小的类,直到每个对象自成一类,或者达到了某个终结条件,例如达到了某个希望的类数目,或者两个最近的类之间的距离超过了某个闽值。绝大多数聚类方法属于这一类,它们只是在簇间相似度的定义有所不同。然而凝聚式层次聚类算法却存在以下问题1)初始相似性距离问题。不同的目标因为特点不同,其距离的计算方式应该不同,不同的初始距离计算方法可能导致不同的结果;2)聚类个数问题。需要预先指定聚类的个数k,当无法获得数据的先验知识时,无法预测该值的具体大小;3)聚类的数据计算问题。针对海量的高光谱遥感数据时,简单使用所有数据可能导致计算复杂度极度上升。
发明内容
发明目的针对上述现有技术存在的问题和不足,本发明的目的是提供一种基于改进型层次聚类的高光谱遥感数据降维方法(简称为WaLuSID,Ward’s Linkage strategyUsing Spectral Information Divergence),能够提高降维效率,减少现有高光谱影像数据降维方法导致的数据信息损失。技术方案为实现上述发明目的,本发明采用的技术方案为一种基于改进型层次聚类的高光谱遥感数据降维方法,包括如下步骤步骤1,选择需进行分析的高光谱遥感影像数据,所述高光谱遥感影像数据含有L个波段;步骤2,利用光谱信息散度(Spectral information divergence, SID)算法计算·每两个波段之间的光谱距离,得到一个光谱距离矩阵步骤3,设定要提取的聚类中心和要选择的波段的个数k ;步骤4,基于相似性距离矩阵,采用层次聚类方法对影像数据进行聚类分析;步骤5,得到k个聚类中心数据,完成特征提取过程;步骤6,在每个聚类中心中选择一个最具代表性的波段,得到k个波段,完成特征选择过程。进一步地,所述SID算法采用以下公式SID(x,y) = D(x| |y)+D(y| | x)式中,SID(x,y)为高光谱遥感典型地物的光谱数据x和y之间的光谱距离,
Lτ
1)(^I! y) = Σ/λ >og(—),/)(y I!x) = l g(—),P1 和 % 分别为高光谱数据 χ 和 y 的第 I 波
I=I %I=I Pl
段的概率测度;分别计算每一个波段与其余波段之间的光谱距离,此处的光谱数据是典型地物的光谱数据而非全部数据,进而得到光谱距离矩阵如波段总数为L,则得到一个LXL的光谱距离矩阵。进一步地,所述步骤4中层次聚类方法的具体实现采用凝聚式的最小方差模式(即Ward’ s模式),步骤如下步骤I),用光谱距离矩阵初始化相似性矩阵将每个波段看作是一个单独的聚类中心;步骤2),将最相似的两个聚类进行合并,假定聚类(;和Cs将要聚合为一类Cnrat =(Cr, Cs),则根据以下距离公式计算新的类别Cnew与其他剩余类别Ck的距离(这里“聚类”和“类别”的含义相同)D (Ck, Cnew) = α · D (Ck, Cr)+ β · D (Ck, Cs) +Y · D (Cnew) + δ · | D (Ck, Cr) -D (Ck, Cs)式中,D(Ck, Cnew)为类另Ij Cnew与其他剩余类别Ck的距离,同理,D(Ck, Cr)为类别Ck与Cr的距离,D(ck,Cs)为类别Ck与Cs的距离,D(Cnew)为聚类Cr和Cs的距离,α,β,Y和δ为聚合因子;步骤3),步骤2)中类间距离计算的聚合因子依据下式计算
权利要求
1.一种基于改进型层次聚类的高光谱遥感数据降维方法,其特征在于,包括如下步骤 步骤1,选择需进行分析的高光谱遥感影像数据,所述高光谱遥感影像数据含有L个波段; 步骤2,利用SID算法计算每两个波段之间的光谱距离,得到一个光谱距离矩阵DfS ; 步骤3,设定要提取的聚类中心和要选择的波段的个数k ; 步骤4,基于相似性距离矩阵,采用层次聚类方法对影像数据进行聚类分析; 步骤5,得到k个聚类中心数据,完成特征提取过程; 步骤6,在每个聚类中心中选择一个最具代表性的波段,得到k个波段,完成特征选择过程。
2.根据权利要求I所述一种基于改进型层次聚类的高光谱遥感数据降维方法,其特征在于,所述SID算法采用以下公式SID(x, y) = D(x y)+D(y x) 式中,SID(x,y)为高光谱遥感典型地物的光谱数据X和y之间的光谱距离,
3.根据权利要求I所述一种基于改进型层次聚类的高光谱遥感数据降维方法,其特征在于,所述步骤4中层次聚类方法的具体实现采用凝聚式的最小方差模式,步骤如下 步骤I),用光谱距离矩阵初始化相似性矩阵Duy将每个波段看作是一个单独的聚类中心; 步骤2),将最相似的两个聚类进行合并,假定聚类(;和Cs将要聚合为一类Cnrat = (Cr,Cs),则根据以下距离公式计算新的类别Cnew与其他剩余类别Ck的距离 D(CklCnew) = a * D (Ck, Cr)+ β · D(Ck, Cs) +y · D (Cnew)+δ · | D (Ck,Cr)-D (Ck,Cs) 式中,D(Ck,Cnew)为类别Cnew与其他剩余类别Ck的距离,D(Cnew)为聚类(;和Cs的距离,α,β,Y和δ为聚合因子; 步骤3),步骤2)中类间距离计算的聚合因子依据下式计算
4.根据权利要求I所述一种基于改进型层次聚类的高光谱遥感数据降维方法,其特征在于,所述步骤6中代表性波段的选择的具体实现采用以下公式
全文摘要
本发明公开了一种基于改进型层次聚类的高光谱遥感数据降维方法,包括如下步骤选择需进行分析的高光谱遥感影像数据,所述高光谱遥感影像数据含有L个波段;利用SID算法计算每两个波段之间的光谱距离,得到一个光谱距离矩阵设定要提取的聚类中心和要选择的波段的个数k;基于相似性距离矩阵,采用层次聚类方法对影像数据进行聚类分析;得到k个聚类中心数据,完成特征提取过程;在每个聚类中心中选择一个最具代表性的波段,得到k个波段,完成特征选择过程。本发明能够提高降维效率,减少现有高光谱影像数据降维方法导致的数据信息损失。
文档编号G06T7/00GK102903114SQ201210379469
公开日2013年1月30日 申请日期2012年10月9日 优先权日2012年10月9日
发明者苏红军, 李茜楠 申请人:河海大学