基于熵排序的半监督谱聚类确定聚类数的方法

文档序号:6474954阅读:955来源:国知局
专利名称:基于熵排序的半监督谱聚类确定聚类数的方法
技术领域
本发明属于图像处理技术领域,涉及图像聚类方法,可应用于图像聚类领域,以自 适应地确定聚类数。
背景技术
图像聚类是图像处理过程中的一个重要步骤。图像聚类的目的是将图像上不同的 区域根据图像像素点之间的关系聚成不同的类。谱聚类是近年来新兴的一个聚类方法,该 算法的思想起先源于谱图划分理论,被看作是一个无向图的多路划分问题。谱聚类优于传 统的聚类算法原因在于其不受样本空间形状限制且收敛于全局最优解,因此,谱聚类算法 在图像聚类领域得到了广泛应用。近年来提出的半监督谱聚类算法是在谱聚类算法的基础上加入人工标记的类标 签来改良聚类结果的一种方法。这种类标签以先验信息的形式出现,一般地,通过修正亲和 度矩阵来加入先验信息。类标签的个数很有讲究,太少不足以达到理想的聚类结果,太多又 会给计算和存储带来过大负担,因此,加入多少类标签需要读者在实际中权衡。谱聚类中有两个共同关注的问题,即尺度参数和聚类数的自适应确定。尺度参数 确定的方法近年来已经发展得相当完善。本发明主要探讨聚类数的确定问题。聚类数的事 先确定会使得聚类过程更加的自适应,降低了手工工作量。目前现有的方法大都通过分析 由亲和度矩阵构造而得的拉普拉斯矩阵的特征值和特征向量入手的。2001年,A. NG等人指出特征向量等于1的个数即为该组数据的类别数,参 见 A.Y. Ng, Μ. I. Jordan,and Y. Weiss,《On spectral clustering Analysis and an algorithm》,Advances in Neural Information Processing Systems (NIPS)。这禾中方法容 易受到噪声影响而导致聚类结果出现误差。2005 年,Zelnik-Manor 和 Perona 等人提出的自调节谱聚类(self-tuning spectral clustering)算法通过将部分特征向量进行旋转以构造一个与聚类数相关的目 标函数,认为使之达到最小的即为最佳聚类数,参见Zelnik-Manor,L.,and Perona, P., 《Self-tuning spectral clustering》, Advances in Neural Information Processing Systems。这种方法能出色地处理一些复杂性问题,但是由于其反复重组旋转向量大大增 加了计算代价,而且,由于要人工设定阈值,所以针对不同数据集,不同实践者,就产生了误 差,同时带来了较大工作量。Zhong等人于2008年提出一种新的自适应谱聚类(adaptive spectral clustering, ASC)算 法, 参 见 Qingliu, Ζ. , and Zixing, C.,《Adaptive spectral clustering algorithm for color image Segmentation Application》, Research of Computers 25(12),(2008)。它采用全局平均N近邻距离的比例参数代替局部N近邻距离 的比例参数,利用相邻特征向量前k个相邻列间的平均差异与第一列的比值来确定最佳分 类数,直到该比值小于某个给定阈值时对应的k认为是最佳分类数。该算法由于要人工设 定阈值,使得它的自调节性大打折扣。
4
Wang等人于2005年提出的ACNA算法通过特征向量与相应坐标轴的距离将数据点 划分至不同的类,经过若干次的循环迭代最后稳定到的那个k值就认为是最佳的聚类数, 参见Chongjun,W.,Wujun,L,Lin,D. , Juan,Τ.,and Shifu,C.,《Image segmentation using spectral clustering)),Proceedings of the 17th IEEE In ternational Conference on Tools with Artificial Intelligence,IEEE Computer Society,677-678 (2005)。该算法 在一定程度上取得了较好的结果,但是对于复杂数据结果就欠理想。以上自动确定聚类数方法由于均选取前k个最大特征值对应的特征向量,因此存 在以下不足1.易受噪声影响而导致聚类误差;2.对大数据结果欠佳或者失效;3.需人工 设定阈值。

发明内容
本发明的目的在于克服上述聚类方法只选取前k个最大特征值对应的特征向量 而导致部分图像信息丢失的缺点,提出一种基于熵排序的半监督谱聚类确定聚类数的方 法,通过熵排序的理论将特征向量按照其重要度进行一次“重排列”,选取前k列重要度最 高的特征向量,以在无需人工设定阈值的条件下准确地确定聚类数,减小聚类误差,提高聚 类效果。1、一种基于熵排序的半监督谱聚类确定聚类数的方法,包括如下步骤(1)输入数据集X= {X1,X2,...,XJ e Rd,Xi表示数据集中的任意点,i e (Ι,η), η为数据个数,d表示数据维数;(2)分别计算数据集X中各个点的尺度参数σ i和数据集的亲和度矩阵A ;(3)由人工加入的类标签提取成对约束信息,并用这些成对约束信息对亲和度矩
权利要求
一种基于熵排序的半监督谱聚类确定聚类数的方法,包括如下步骤(1)输入数据集X={x1,x2,...,xn}∈Rd,xi表示数据集中的任意点,i∈(1,n),n为数据个数,d表示数据维数;(2)分别计算数据集X中各个点的尺度参数σi和数据集的亲和度矩阵A;(3)由人工加入的类标签提取成对约束信息,并用这些成对约束信息对亲和度矩阵加以修正其中must link限制两个样本点必须属于同一类;cannot link限制两个样本点不能处于同一类;(4)用修正后的亲和度矩阵构造拉普拉斯矩阵L=D 1/2AD1/2,其中D为对角矩阵,对角线上的任意元素(5)对拉普拉斯矩阵进行特征分解,并按照特征值的大小将对应特征向量从大到小排列;(6)用熵排序方法对特征向量按其重要度进行重排序(6a)依次移出特征向量的每一列,计算其余列熵值,将求得的熵值规定为该列特征向量对应的熵值;(6b)将特征向量按照其对应的熵值从大到小进行一次“重排列”,得到特征向量重要度由高到低的排序,记为VR;(7)初始化聚类数k=2,取VR的前k列并归一化;(8)自适应确定聚类数(8a)把取得的VR前k列看成n个k维的点,将其投射到k维坐标系;(8b)用每个坐标轴的正负方向分别表示一个聚类,根据每个点距坐标系各个半轴的距离将输入数据点划分为2k类;(8c)除去2k类中没有点的类或者点数少于输入数据点数百分之一的聚类,将保留下来的聚类数记为c;(9)比较k和c,如果二者不同,令k=c,返回步骤(8),如果相同,此时所得的k就是最佳聚类数,记为km;(10)将输入数据点划分至km类,并按输入点的坐标对输入数据点进行标记,得到聚类结果。FSA00000265361000011.tif,FSA00000265361000012.tif
2.根据权利要求1所述的确定聚类数的方法,其中步骤(2)所述的分别计算数据集X 中各个点的尺度参数ο i和数据集的亲和度矩阵A,用以下公式计算1 m^=-ZIk-^llm d=\其中,O i表示数据点中任意点的尺度参数,Xd是数据级X中任意点Xi距其余各点的第 d个近邻,选择d = 7;
3.根据权利要求1所述的确定聚类数的方法,其中步骤(6a)所述的计算其余列熵值 E,由下式计算
全文摘要
本发明公开了一种基于熵排序的半监督谱聚类确定聚类数的方法,主要解决谱聚类中拉普拉斯矩阵的特征向量的选择问题。其过程为用熵排序的理论对特征向量进行“重排列”,得到特征向量重要度最高的列,对于一个k类问题,抽取特征向量的前k列,并将其投射到k维空间;根据各个点与k维空间中2k个半轴的距离进行聚类,除去2k类中没有点的类或者点数少于输入数据点数百分之一的聚类,将保留下来的聚类数记为c;再抽取特征向量前c列,循环该操作直到聚类数稳定为止,此时对应的类数是最佳聚类数;按输入点的坐标对输入数据点进行标记,得到聚类结果。本发明具有自适应和聚类正确率高的优点,可用于对图像类别数的自适应确定。
文档编号G06K9/62GK101968852SQ20101027876
公开日2011年2月9日 申请日期2010年9月9日 优先权日2010年9月9日
发明者侯彪, 公茂果, 刘若辰, 张向荣, 李阳阳, 杨杰, 焦李成, 王爽 申请人:西安电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1