一种基于超度量距离矩阵的半监督层次聚类方法
【专利摘要】本发明提供一种基于超度量距离矩阵的半监督层次聚类方法,包括以下步骤:步骤1,定义不等式约束的闭凸集,并将参数估计投影到该闭凸集上;步骤2,通过减去投影中形成的变化向量的方法更新估计解向量;步骤3,进行迭代投影直到给定的约束固定集收敛到最小二乘最优解。本发明基于超度量树状图距离的半监督层次聚类构架为研究背景,采用基于优化的方式,提供一种基于超度量距离矩阵的半监督层次聚类方法,用于提高半监督层次聚类问题的效率和准确性。
【专利说明】一种基于超度量距离矩阵的半监督层次聚类方法
【技术领域】
[0001] 本发明属于数据挖掘中的聚类技术,特别是一种通过优化技术实现的基于超度量 距离矩阵的半监督层次聚类方法。
【背景技术】
[0002] 将物理或抽象对象的集合分成相似的对象类的过程称为聚类。聚类问题出现在了 许多学科中并且得到了广泛应用。基本上,聚类的目的就是将给定样本分到相应的簇,使得 同一个簇的样本彼此相似、不同簇的样本彼此不同。基于簇产生的方式,聚类方法可以分为 两类:划分聚类和层次聚类。划分聚类一般将数据集分解成一些不相交的簇,且就一些预先 定义的目标函数而言,这种分解通常是最优的。层次聚类通过自底向上(凝聚)或自顶向下 (分裂)的方法将数据点分组到层次树状框架中。典型的自底向上方法初始时将每个数据 点作为一个独立的簇,然后将相似的簇组合在一起,从而建立更大的簇,直到整个数据集最 终成为一个簇。自顶向下的方法初始时将所有数据点放在一个簇中,然后不断地分裂最大 的簇。许多研究成果都报道过算法级上的层次聚类过程的改进以及对于层次聚类的理解。
[0003] 近年来,半监督聚类(即基于知识约束的聚类)已经作为传统聚类范型的重要变 体出现。给定数据表示,现有的半监督聚类方法多利用背景知识来学习距离/相异性度量, 从而修正评估聚类的客观标准,并改进优化过程。
[0004] 近期的半监督聚类研究存在两方面局限性。第一,绝大多数现有的半监督聚类算 法都是为划分聚类设计的,几乎没有报道出半监督的层次聚类的研究工作。与划分聚类结 果易于使用向量、聚类指标或优化连接矩阵表示不同,层次聚类结果更加复杂典型地表示 成树状图或树。此外,层次聚类方法没有全局目标函数。层次聚类的这些性质使得半监督 的层次聚类问题更具挑战性。第二,约束的类型。现有的半监督聚类方法都关注于实例级 必须链接和无法链接约束形式的背景信息的使用。一个必须链接(ML)约束迫使两个实例 必须放在同一个簇里,而无法链接(CL)约束迫使两个实例必须不放在相同的簇里。然而ML 约束和CL约束都不适用于层次聚类,因为对象链接在不同的层次框架级别。
[0005] 整合背景知识到聚类过程中的方法得到了广泛的研究。许多研究者研究了实例级 背景信息的使用,例如将实力级背景信息用于研究距离/相异性度量、修正客观标准、提升 优化程序的成对必须链接约束和无法链接约束。其他类型的知识提示(如,簇的大小、数据 点的部分标签以及用户提供的外部原型/代表)也已经被用于聚类过程中。然而,绝大多数 现有的半监督聚类算法都是为划分聚类设计的,几乎没有报道出半监督的层次聚类的研究 工作。我们注意到,近期Zhao和Bade等人的研究是关于用顺序约束和部分已知层次框架完 成层次聚类的。H. Zhao和Z. Qi在《排序约束下的分层凝聚聚类》(WKDD,2010, pp. 195-199) 中提出了两种基本算法:无约束的标准凝聚层次聚类(HAC)和基于约束的HAC (HACoc)。HAC 算法开始时将每个实例作为一个单独的组,然后将相似的组组合在一起,从而形成更大的 组,最终形成一个组。
[0006] HAC算法在簇对象中是很简单的,它能用类似的方法找出不同形状的簇,但HAC 也存在着一些缺点:(I)HAC有很高的时间复杂性,例如,对于质心点算法(优先队列法), 其时间复杂性为〇(N21ogN) ; (2)用谱系图获得簇的有效性是有限的。簇的有效性主要用来 决定在大型数据量中最优簇的数目。很多有效性方法对谱系图的低层显示出转移模式,这 就会导致评估不出不精确的最优簇数。HACoc算法是对HAC算法的改进。它可以处理障碍 和联锁并且通过结合侧面信息提高聚类问题的效率和准确性。然而,与他们的研究不同的 是,本发明中的半监督层次聚类框架是基于超度量树状图距离的。超度量是特殊的树状度 量,将树状度量拟合成给定集合上(非)相似性的成对对象数据的问题已经得到了广泛研 究。其中,所有输入数据集的元素都是底层树的叶子并且所有叶子到根的距离都相同。超 度量相当于数据聚类的层次结构。给定成对对象的相异性D,寻找最佳超度量4的问题,使 得I |D-du| |p的最小值是一个NP难题。
【发明内容】
[0007] 为了解决现有技术存在的问题,本发明基于超度量树状图距离的半监督层次聚类 构架为研究背景,采用基于优化的方式,提供一种基于超度量距离矩阵的半监督层次聚类 方法,用于提高半监督层次聚类问题的效率和准确性。
[0008] -种基于超度量距离矩阵的半监督层次聚类方法,包括以下步骤:
[0009] 步骤1,将L C,E投影到不等式约束Q/d的闭凸集,其中^为一个m*l向量,用 于表示n*n对称相异性矩阵D ;C为一个m*r相异性矩阵,r为相对约束的个数;E为一个m*m 单位矩阵;m = n*(n_l/2)。
[0010] 步骤2,通过减去投影中形成的变化向量的方法更新估计解向量,具体过程为:
[0011] 步骤2.1,定义
[0012] a(t) = a(t -1) + EcpHit -1)/; / 2 - EcqS(f)tl / 2 ①,
【权利要求】
1. 一种基于超度量距离矩阵的半监督层次聚类方法,其特征在于,包括以下步骤: 步骤1,定义不等式约束的闭凸集,并将参数估计投影到该闭凸集上; 步骤2,通过减去投影中形成的变化向量的方法更新估计解向量; 步骤3,进行迭代投影直到给定的约束固定集收敛到最小二乘最优解。
2. 根据权利要求1所述的基于超度量距离矩阵的半监督层次聚类方法,其特征在于, 步骤1中将参数<?, C,E投影到其中J为一个m*l向量,用于表示η*η对称相异性 矩阵D ;C为一个m*r相异性矩阵r为相对约束的个数;E为一个m*m 单位矩阵;m = n*(n_l/2)。
3. 根据权利要求1所述的基于超度量距离矩阵的半监督层次聚类方法,其特征在于, 步骤2的具体过程为: 步骤2. 1,定义
其中,p = tmodr, q e [1,r],F为矩阵C中第p个相对约束的m*l向量 》弋为 P H 矩阵C中第q个相对约束的m*l向量
步骤2.2,初始化,5 (0) = ff (0),5 = 3,/ = 1,其中3为a(t)在迭代t中的表示,?为 Kuhn-Tucker向量u (t)在迭代t中的表示; 步骤2. 3,令q = 1,根据公式①②计算
其中
为投影形成的变化向量; 步骤2. 4, q = q+1,若q尹r,重复步骤2. 3 ;若q = r,转步骤2. 5 ; 步骤 2. 5, t = t+1。
4. 根据权利要求1所述的基于超度量距离矩阵的半监督层次聚类方法,其特征在于, 步骤3的具体过程如下: 步骤3.1,求
的最优解,其中|?ν_5||为向量的范数,将其按范数展 开得
步骤3. 2,由步骤3. 1得到的最小二乘最优解判断给定的约束固定集C是否收敛,若给 定的约束固定集收敛到最小二乘最优解,跳至步骤3. 3 ;若未收敛,跳至步骤2. 3 ; 步骤3. 3,输出5?
【文档编号】G06F17/30GK104391988SQ201410764758
【公开日】2015年3月4日 申请日期:2014年12月12日 优先权日:2014年12月12日
【发明者】徐建, 李涛, 周文强, 张宏, 许福, 李千目 申请人:南京理工大学