本发明涉及计算机视觉和模式识别的技术领域,尤其是指一种基于拉普拉斯正则化和秩约束的多视图聚类方法,可用于图像和文本数据挖掘等。
背景技术:
随着计算机技术的飞速发展,数据在爆炸式增长,在海量的数据中提取出有用的信息是非常有意义的。聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。
传统的数据只使用单一的特征,称之为单视图数据,基于单视图数据,人们提出了很多聚类方法,比如基于密度的聚类、层次聚类、k均值聚类、谱聚类、子空间聚类等方法。但是随着技术手段的提升,对于同一个个体,可以提取到更多的特征,比如一个网页,可以划分为两个视图,一个视图为网页上的词语,另一个视图为网页上链接所指向的内容;一个三维物体,可以通过不同角度拍摄,得到不同视图的照片;一段dna序列,可以用拷贝数变异、单核苷酸多态性、甲基化等来描述。不同视图提供冗余的和互补的信息,整合多个视图能够更好地描述个体,提供更加准确的结果。
多视图聚类方法大体上可以分为协同训练、多核学习和子空间学习的方法。基于协同训练的多视图聚类方法最开始用于半监督问题,使用有标签的数据去给无标签数据提供标签。已经被证明,基于协同训练的多视图聚类方法,数据必须满足充分性和独立性,否则效果就不理想,实际应用中很难同时满足这两个条件。基于多核学习的方法运用很广泛,通过计算多个核函数来得到不同的相似度,最后整合在一起,通常取得很好的结果,但是,多核学习方法最大的缺点是非常耗时间,限制其在大数据领域的应用。基于子空间学习的多视图聚类方法是目前最流行的多视图聚类方法,基本假设是所有的多视图样本共享一个公共的子空间,通过将不同视图之间的一致性多样性考虑在目标函数内,有效提高了聚类的准确性。但是,很少有方法考虑保证原有各个视图的局部特征,且直接限制公共子空间的秩以得到确切数量的聚类簇。
技术实现要素:
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于拉普拉斯正则化和秩约束的多视图聚类方法,既保留了各个视图的局部特征,又限制了公共子空间的秩,能够保证得到确切数量的聚类簇,使得聚类的效果更好。
为实现上述目的,本发明所提供的技术方案为:基于拉普拉斯正则化和秩约束的多视图聚类方法,该方法通过对获取的多视图数据进行预处理,分别计算相似度矩阵,并基于相似度矩阵,将各个视图是投影到一个公共的受秩约束的低维子空间中去,以获取良好的聚类效果,具体包括以下步骤:
1)获取多视图数据;
2)对多视图数据进行预处理;
3)选择所需的相似性度量,计算相似度矩阵;
4)基于特征之间的相似性网络,融入先验信息,将各个来源视图的数据投影到一个公共的受秩约束的低维子空间;
5)在低维子空间上运用谱聚类,得到最终的聚类结果。
在步骤1)中,获取多视图数据的方法包括:对同一批样本获取不同来源的数据,或者对同一批样本采取不同的特征提取方法提取不同的特征。
在步骤2)中,对多视图数据进行预处理,包括以下步骤:
2.1)数据清洗:对于获取的数据中缺失部分,使用三次样条插值法进行插值,对于数据中极大或者极小的异常值,通过取平均值的方法进行替换;
2.2)数据归一化:对清洗后的数据进行线性变换把数据映射到[0,1]之间,变换函数为:
式中,x是变换前的值,min是数据中最小值,max是数据中最大值,x'是变换后的值。
在步骤3)中,选取欧几里得距离、明可夫斯基距离、余弦相似度、高斯相似度中的一种作为相似性度量方法,计算出每个视图数据的相似度矩阵。
在步骤4)中,通过以下式子融入先验信息,将各个来源视图的数据投影到一个公共的受秩约束的低维子空间:
式中,
4.1)rank(la)=n-c等价于
4.2)根据步骤4.1)将式子(1-1)改写为:
4.3)使用交替方向优化策略,分别求解,固定a和p,求zv,式子(1-2)退化为:
式子(1-3)关于zv求导并等于0,求解得到:
zv=[(xv)txv+λi+αlv]-1((xv)txv+λa)
其中,diag(zv)=0;
4.4)固定zv和a,求p,式子(1-2)退化为:
通过求la的最小的c个特征值对应的特征向量得到p;
4.5)固定zv和p,求a,式子(1-2)退化为:
将tr(ptlap)改写为
其中,ai是矩阵a的第i列,
4.6)重复步骤4.3)、4.4)、4.5),直到||anew-aold||<ε,停止计算,得到最终的低维公共子空间a,其中anew表示该次计算得到的a,aold表示上一次计算得到的a,ε为预先给定的停止循环的误差。
在步骤5)中,给定聚类的个数,通过在低维子空间上运用谱聚类,得到最终的聚类结果。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明考虑到各个视图数据的局部特征,使得在单个视图中接近的数据在公共子空间中依然接近。
2、本发明约束了公共子空间的秩,使得能够得到确切数量的聚类簇,提高聚类的准确性。
3、本发明充分了考虑多视图数据的一致性和冗余性,充分挖掘其内在特征。
附图说明
图1为本发明逻辑流程示意图。
图2是实施例的具体示意图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
如图1和图2所示,本实施例所提供的基于拉普拉斯正则化和秩约束的多视图聚类方法,使用bbc网站上的体育新闻数据对本发明方法进行评测,包括以下步骤:
1)获取多视图数据,包括来自bbc体育新闻网站上的5类共计737个新闻报道,每个报道含有三个视图的数据。
2)分别对不同来源的特征数据进行预处理,具体包括:
2.1)数据清洗:对于获取的数据中缺失部分,使用三次样条插值法进行插值,对于数据中极大或者极小的异常值,通过取平均值的方法进行替换;
2.2)对清洗后的数据归一化:对清洗后的数据进行线性变换把数据映射到[0,1]之间,变换函数为:
其中x是变换前的值,min是数据中最小值,max是数据中最大值,x'是变换后的值。
3)对于处理后的数据,分别计算特征相似度矩阵,可以选取欧几里得距离、明可夫斯基距离、余弦相似度、高斯相似度中的一种作为相似性度量方法,计算出每个视图数据的相似度矩阵,而本实施例使用高斯相似度为距离度量函数,具体如下:
其中,
4)通过以下式子融入先验信息,将各个视图的数据投影到一个公共的受秩约束的低维子空间:
式中,
4.1)rank(la)=n-c等价于
4.2)根据4.1)将式子(1-1)改写为:
4.3)使用交替方向优化策略,分别求解。设置参数λ=0.1,α=0.1,ε=0.00001,c=5,初始化zv,a为单位矩阵,计算lv。
固定a和p,求zv。式子(1-2)退化为
式子(1-3)关于zv求导并等于0,求解得到
zv=[(xv)txv+λi+αlv]-1((xv)txv+λa)
其中diag(zv)=0。
4.4)固定zv和a,求p。式子(1-2)退化为
通过求la的最小的c个特征值对应的特征向量得到p。
4.5)固定zv和p,求a。式子(1-2)退化为
将tr(ptlap)改写为
其中,ai是矩阵a的第i列,
4.6)重复步骤4.3)、4.4)、4.5),直到||anew-aold||<ε,停止计算,得到最终的低维公共子空间a。其中anew表示该次计算得到的a,aold表示上一次计算得到的a,ε为预先给定的停止循环的误差。
6、通过在低维子空间上运用谱聚类,得到最终的聚类结果。将该聚类结果与真实的类别进行比较,计算准确率为0.94,说明本方法具有较高准确率,可以在实际应用中得到较好的结果。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。