本发明属于计算机视觉和模式识别技术领域,涉及一种自适应多视图聚类方法,具体涉及一种基于成对协同正则化和nmf的自适应多视图聚类方法,可应用于客户信息分析、金融分析和医学等领域。
背景技术:
随着互联网、信息采集和信息检索等技术的高速发展,数据量急剧增多,信息社会已进入大数据时代。因此,如何从海量的数据中提取能够为我们所用的信息成为现代科学的当务之急。由此,数据挖掘应运而生,成为一种数据信息处理技术。聚类是数据挖掘领域中进行数据处理的重要分析工具和方法,同时也是机器学习领域中重要的研究方向。如今,单视图的数据聚类已取得较好的效果,然而,现阶段实际应用中的数据一般通过多特征或多视图进行描述,并且每个特征往往包含互补和交互信息。因此,如何利用多特征或多视图所包含的信息提高聚类性能,成为现阶段聚类的关键问题。针对多视图数据,如何设计快速有效的聚类算法,成为大数据时代亟待解决的问题。
聚类是将物理或抽象对象的集合分成由类似的对象组成的多个簇的过程。聚类算法以相似性为基础,由聚类所生成的簇是一组数据对象的集合,同一簇中的对象彼此相似,不同簇间的对象相异。聚类算法是为单视图数据设计的方法,经典的单视图聚类算法可分为基于划分、基于层次、基于密度、基于网格和基于统计学等聚类算法。多视图聚类的关键是如何融合多视图数据。多视图聚类一种朴素的做法是将不同视图的数据拼接成一个新的向量,然后基于拼接的向量,采用经典的单视图学习算法进行聚类。但这种方法只是原则上连接了不同视图的数据,而忽略了不同视图中的共享信息和特定的统计性质。另一种广泛使用的多视图聚类方法是对不同视图的数据进行融合,然后再进行聚类,得到聚类结果。这种方法可以充分挖掘不同视图的数据中包含的兼容和互补信息,因此可以得到较好的聚类结果。
nmf(nonnegativematrixfactorization,非负矩阵分解)将数据矩阵分解成两个低秩因子矩阵,实现了数据的低秩表示,并且分解后得到的基矩阵和系数矩阵具有较好的可解释性、明确的物理意义、占用存储空间少等优点,因此,nmf成为数据聚类的基本工具,广泛应用于单视图数据聚类和多视图数据聚类中。
例如dengcai,xiaofeihe和jiaweihan等人,在2011年的ieeetransactionspatternanalysisandmachineintelligence期刊的第8期,发表了名为“graphregularizednonnegativematrixfactorizationfordatarepresentation”的文章,提出了基于图正则化nmf的数据表示方法,将图正则化合并到nmf的算法框架中,利用nmf对数据进行分解,得到对应的基矩阵和系数矩阵,并对分解得到的系数矩阵进行图正则化约束,保持数据的局部几何结构信息,取得了较好的聚类效果。该方法是为单视图数据设计的,将该方法应用到多视图聚类时,对每个视图的数据进行nmf,并对每个视图得到的系数矩阵分别进行图正则化,保持每个视图的相似性,但这种推广只考虑了视图内的相似性,忽略了视图间的相似性,并且为图正则化约束项设置了相同的权重参数,因此,使得多视图聚类的精度低和归一化交互信息低,影响了聚类性能。
又如jialuliu,chiwang,jinggao和jiaweihan等人,在2013年的siaminternationalconferenceondatamining会议中,发表了名为“multi-viewclusteringviajointnonnegativematrixfactorization”的文章,提出了一种基于联合nmf的多视图聚类算法。该方法利用nmf对多视图数据进行分解,通过衡量每个视图的系数矩阵和所有视图共享的一致系数矩阵的差异性进行相似性保持。最后,在得到的一致系数矩阵上进行标准的k-均值聚类,得到数据的聚类结果。但该方法忽略了特征空间中的局部几何结构信息。另外,在进行相似性约束时,只考虑了每个视图系数矩阵和一致系数矩阵之间的差异性,忽略了视图间的差异性,使得多视图聚类的精度低和归一化交互信息低,影响了数据聚类的性能。
技术实现要素:
本发明的目的在于针对上述已有技术存在的不足,提出了一种基于成对协同正则化和nmf的自适应多视图聚类方法,用于解决现有多视图聚类方法中存在的精度低和归一化交互信息低的技术问题。
本发明的技术思路是:对多视图数据进行nmf,得到基矩阵和系数矩阵;分别利用成对协同正则化和图正则化方法,构造多视图数据视图间和视图内的相似性约束项,并采用自适应的方法自动学习视图内的相似性约束项的权重参数,最后对更新得到的系数矩阵进行k-均值聚类,得到聚类结果。实现步骤如下:
(1)获取原始图像集的非负多视图数据
(2)对非负多视图数据
(3)计算多视图数据
(4)构建成对协同正则化和nmf的自适应多视图聚类的目标函数,实现步骤为:
(4a)对多视图数据
(4b)利用多视图数据
(4c)利用成对协同正则化方法,通过系数矩阵
(4d)通过系数矩阵
(4e)设置调节参数γ,采用自适应的方法,利用参数γ自动学习视图内的相似性约束项的自适应权重参数
(4f)获取成对协同正则化和nmf的自适应多视图聚类的目标函数:设置权衡参数λ,并将权衡参数λ作为视图间的相似性约束项的权重,将自适应权重参数
(5)初始化基矩阵
(6)分别获取基矩阵
(7)获取更新后的基矩阵
(7a)设定目标函数差值的阈值和最大迭代次数;
(7b)利用基矩阵
(7c)获得更新后的基矩阵
(8)对更新后的系数矩阵
(8a)对更新后的系数矩阵
(8b)对一致系数矩阵v*进行k-均值聚类,得到聚类结果。
本发明与现有技术相比,具有以下优点:
本发明利用成对协同正则化方法,构造多视图数据视图间的相似性约束项,将每两个视图的系数矩阵之间的差异进行视图间的相似性保持,并采用自适应的方法,利用一个参数衡量每个视图的数据对多视图数据分布的贡献程度,自动学习视图内的相似性约束项的权重参数,有效提高了多视图聚类的精度和归一化交互信息,提升了多视图聚类的聚类性能。
附图说明
图1为本发明的实现流程图;
图2为本发明与现有的基于联合nmf的多视图聚类方法和基于图正则化nmf的多视图聚类方法,在3sources数据库下的聚类性能实验结果曲线对比图,其中,图2(a)为取不同近邻数目时的聚类精度曲线图,图2(b)为取不同近邻数目时的聚类归一化交互信息的曲线图;
图3为本发明与现有的基于联合nmf的多视图聚类方法和基于图正则化nmf的多视图聚类方法,在uci3views数据库下的聚类性能实验结果曲线对比图,其中,图3(a)为取不同近邻数目时的聚类精度曲线图,图3(b)为取不同近邻数目时的聚类归一化交互信息的曲线图;
图4为本发明与现有的基于联合nmf的多视图聚类方法和基于图正则化nmf的多视图聚类方法,在uci2views数据库下的聚类性能实验结果曲线对比图,其中,图4(a)为取不同近邻数目时的聚类精度曲线图,图4(b)为取不同近邻数目时的聚类归一化交互信息的曲线图;
图5为本发明与现有的基于联合nmf的多视图聚类方法和基于图正则化nmf的多视图聚类方法,在wiki数据库下的聚类性能实验结果曲线对比图,其中,图5(a)为取不同近邻数目时的聚类精度曲线图,图5(b)为取不同近邻数目时的聚类归一化交互信息的曲线图。
具体实施方式
下面结合附图和具体实施例,对本发明作进一步详细描述。
参照图1,基于成对协同正则化和nmf的自适应多视图聚类方法,包括如下步骤:
步骤1)获取原始图像集的非负多视图数据
步骤2)对非负多视图数据
步骤3)计算多视图数据
(3a)将多视图数据
(3b)对多视图数据
(3c)根据k近邻图构建多视图数据
(3d)对关联矩阵
步骤4)构建成对协同正则化和nmf的自适应多视图聚类的目标函数,实现步骤为:
(4a)对多视图数据
(4b)对多视图数据进行nmf后,希望多视图数据
(4c)利用成对协同正则化方法,对多视图数据
(4d)通过系数矩阵
(4e)设置调节参数γ,采用自适应的方法,通过一个参数γ衡量每个视图的数据对多视图数据分布的贡献程度,自动学习视图内的相似性约束项的自适应权重参数
(4f)获取成对协同正则化和nmf的自适应多视图聚类的目标函数,实现步骤为:
(4f1)设置权衡参数λ;
(4f2)将权衡参数λ作为视图间的相似性约束项的权重,得到加权的视图间的相似性约束项,其表达式为:
(4f2)将采用自适应方法自动学习的自适应权重参数
参数γ用于自动学习视图内的相似性约束项的权重参数
(4f3)对nmf的重构误差项、视图间的相似性约束项和视图内的相似性约束项进行权重相加,得到成对协同正则化和nmf的自适应多视图聚类的目标函数,其表达式为:
步骤5)初始化基矩阵
步骤6)分别获取基矩阵
步骤7)获取更新后的基矩阵
(7a)设定目标函数差值的阈值和最大迭代次数;
(7b)利用基矩阵
(7b1)利用
(7b2)利用
(7b3)利用
(7c)获得更新后的基矩阵
步骤8)对更新后的系数矩阵
(8a)对更新后的系数矩阵
(8b)对一致系数矩阵v*进行k-均值聚类,得到聚类结果,实现步骤为:
(8b1)将一致系数矩阵v*的每行作为一个样本数据点;
(8b2)随机选取一致系数矩阵v*中的k个数据点作为k个类的初始聚类中心;
(8b3)计算每个数据点到k个聚类中心的距离,按照最小距离原则将每个数据点分配到最邻近的聚类中心所属的类别;
(8b4)更新聚类中心;
(8b5)重复执行步骤(8b3)和(8b4),直到聚类中心不再发生变化时停止,得到一致系数矩阵v*的聚类结果。
以下结合仿真实验,对本发明的技术效果作进一步说明。
1.仿真条件和内容:
仿真条件:
本发明的仿真实验中计算机配置环境为intel(r)core(i7-3770)3.40ghz中央处理器、内存16g、windows7操作系统,计算机仿真软件采用matlabr2015b软件。
本发明在常用的多视图数据集3sources、uci2views、uci3views和wiki数据集上进行仿真。
实验中的参数设置为3sources数据集:λ=1.4,γ=2;uci2views数据集:λ=0.5,γ=2;uci3views数据集:λ=0.6,γ=9;wiki数据集:λ=0.1,γ=2。
仿真内容:
本发明的方法与两种现有的多视图聚类方法进行了对比,作为对比的方法有基于联合nmf的多视图聚类方法和基于图正则化nmf的多视图聚类方法。
仿真实验中,分别画出聚类精度和归一化交互信息曲线来评估多视图聚类的性能。聚类精度为聚类后得到的类标和样本本身类标相同的个数和总样本数的比值。归一化交互信息是对交互信息进行归一化,而交互信息是对随机选取的两个样本同时属于两个类的概率和每个样本只属于某一类的概率的比值取对数,再与同时属于两个类的概率相乘得到的结果。本发明重复10次实验,取聚类精度和归一化交互信息的平均值作为聚类结果。
在仿真图中的三条曲线中,用正方形标注的曲线代表本发明的方法,用三角形标注的曲线代表基于联合nmf的多视图聚类方法,用五角形标注的曲线代表基于图正则化nmf的多视图聚类方法,每条曲线上有9个标注点,标注点的横坐标表示近邻图的近邻数,从左到右的取值分别为10、15、20、25、30、35、40、45、50,标注点的纵坐标表示对应的聚类性能指标值。
仿真1:本发明的仿真实验1是在3sources数据集实现的,分别采用本发明和现有的基于联合nmf的多视图聚类方法和基于图正则化nmf的多视图聚类方法进行实验,实验结果如图2所示。图2(a)为取不同近邻数目时的聚类精度曲线图,图2(a)中的横坐标轴表示近邻图的近邻数,纵坐标轴表示聚类精度。图2(b)为取不同近邻数目时的聚类归一化交互信息的曲线图,图2(b)中的横坐标轴表示近邻图的近邻数,纵坐标轴表示聚类归一化交互信息。
仿真2:本发明的仿真实验2是在uci3views数据集实现的,分别采用本发明和现有的基于联合nmf的多视图聚类方法和基于图正则化nmf的多视图聚类方法进行实验,实验结果如图3所示。图3(a)为取不同近邻数目时的聚类精度曲线图,图3(a)中的横坐标轴表示近邻图的近邻数,纵坐标轴表示聚类精度。图3(b)为取不同近邻数目时的聚类归一化交互信息的曲线图,图3(b)中的横坐标轴表示近邻图的近邻数,纵坐标轴表示聚类归一化交互信息。
仿真3:本发明的仿真实验3是在uci2views数据集实现的,分别采用本发明和现有的基于联合nmf的多视图聚类方法和基于图正则化nmf的多视图聚类方法进行实验,实验结果如图4所示。图4(a)为取不同近邻数目时的聚类精度曲线图,图4(a)中的横坐标轴表示近邻图的近邻数,纵坐标轴表示聚类精度。图4(b)为取不同近邻数目时的聚类归一化交互信息的曲线图,图4(b)中的横坐标轴表示近邻图的近邻数,纵坐标轴表示聚类归一化交互信息。
仿真4:本发明的仿真实验4是在wiki数据集实现的,分别采用本发明和现有的基于联合nmf的多视图聚类方法和基于图正则化nmf的多视图聚类方法进行实验,实验结果如图5所示。图5(a)为取不同近邻数目时的聚类精度曲线图,图5(a)中的横坐标轴表示近邻图的近邻数,纵坐标轴表示聚类精度。图5(b)为取不同近邻数目时的聚类归一化交互信息的曲线图,图5(b)中的横坐标轴表示近邻图的近邻数,纵坐标轴表示聚类归一化交互信息。
2.仿真结果分析:
由图2-5的仿真结果可见,采用本发明对多视图数据进行聚类时,聚类精度和归一化交互信息的值明显高于现有的基于联合nmf的多视图聚类方法和基于图正则化nmf的多视图聚类方法,因此,与现有的多视图聚类技术相比,本发明利用成对协同正则化方法,构造多视图数据视图间的相似性约束项,并采用自适应方法,利用一个参数衡量每个视图的数据对多视图数据分布的贡献程度,自动学习视图内的相似性约束项的权重参数,有效提高了多视图聚类的精度和归一化交互信息,提升了多视图聚类的聚类性能。