本发明涉及信号处理、数据分析,具体涉及一种具有超图约束非凸低秩张量逼近的多视图子空间聚类方法。
背景技术:
1、多视图聚类被广泛地运用于机器学习领域,是一种重要的计算机基础技术方法。由于多视图的数据来源于相同数据的不同视图,多视图数据中的不同视图间具有隐藏的高维度的信息。完整地挖掘和运用这些信息能提升聚类的准确性,因此,基于张量的多视图聚类方法引起了广泛的关注。它将不同视图形成的表达矩阵构造成一个高维的矩阵(即三维的张量),并对表达张量施加低秩约束。zhang等人首次将表达矩阵构造为一个张量,并对其施加低秩约束。然而,zhang等人所用的仍然是基于矩阵的奇异值分解的低秩约束,对视图间高维信息的挖掘不够深入。xie等人将基于张量的奇异值分解的核函数引入多视图聚类中,得到了更高的准确率和更好的性能。然而,基于张量的奇异值分解的核函数依然对于张量的秩有偏差。为了减少秩的偏差,研究人员们改进张量核函数来逼近真实的张量秩。通过手动对权重赋值的方式,gao等人构造了一种权重张量核函数来逼近真实的张量秩。然而,手动对权重赋值是一种比较可操作性较弱的方式,因此,如何自适应地对张量核加入权重成为一个重要问题。
2、在聚类中,数据常常会受到干扰而变为不纯净的数据从而影响聚类性能。因此,在聚类的目标函数中加入一些对抗噪声的正则项成为常用的增强鲁棒性的方法。xia等人采用了l1范数来增强鲁棒性。nie等人证明了l2,1是一种针对噪音的有效的范数。因此,l2,1范数成为了聚类领域最常见的对抗噪声的范数。近年来,一些新的鲁棒性范数被提出。najafi等人提出了一种组稀疏性l1范数来增强行稀疏性。xie等人在聚类中加入l1,2范数来增强鲁棒性。wang等人在基于马尔科夫链的张量聚类方法中同时加入l2,1和组稀疏性l1范数来增强鲁棒性。以上的范数对抗低水平的噪声有较好的效果,但是噪声情况较强时,大多数范数都会失效,开发一种新的鲁棒性范数成为重要问题。
3、总结可知,大部分基于张量的多视图聚类方法都有如下缺点:
4、1.基于张量的多视图聚类方法大都采用l1或者l2,1范数来处理模型中的噪声。经典的l1或者l2,1范数在高噪声情况下,鲁棒性并不明显,因此,在多视图聚类中,需要寻找提升鲁棒性的方法。
5、2.在基于张量的多视图聚类方法中,经典的基于张量奇异值分解的核函数通常被采用。基于张量奇异值分解的核函数通常用于低秩约束,理想状态下此核函数的值应当等于表达张量的秩,然而,此核函数的低秩近似,其实是有偏差的近似,因此,需要改进经典的核函数,使其与表达张量的秩的偏差减少。
6、3.在每个视图的表达矩阵中,局部流型信息通常被忽略,对于数据点而言,在子空间的局部流型分布应当继承原空间的局部流型分布特征,因此,局部流型结构应当被考虑。
技术实现思路
1、本发明提供一种具有超图约束非凸低秩张量逼近的多视图子空间聚类方法,以解决上述缺点。
2、本发明通过下述技术方案实现:
3、一种具有超图约束非凸低秩张量逼近的多视图子空间聚类方法,包括:
4、s1、输入原始数据矩阵,并将输入的原始数据转换为纯数据部分和噪声部分,所述纯数据部分等于数据矩阵乘以表达矩阵;
5、s2、对噪声部分引入柯西范数、对由数据矩阵组成的张量引入非凸张量核函数、超图结构得到目标函数;
6、s3、对所述目标函数通过交替乘子更新法进行求解,得到求解表达矩阵的结果;
7、s4、根据所有的表达矩阵形成的全局亲和矩阵使用k-means进行聚类,得到聚类结果。
8、作为优化,步骤s1中,将输入的原始数据转换为纯数据部分和噪声部分,表示为:s.t.x(v)=x(v)z(v)+e(v),v=1,2,…v;
9、其中,表示第v个视图的数据矩阵,其中dv为数据矩阵的特征数,n为数据矩阵的样本数;表示第v个视图的表达矩阵,e(v)表示第v个视图的噪音矩阵,v为视图的数量。
10、作为优化,所述柯西范数的形式为:
11、‖e‖c=cγ(e)=ln(1+|e|/γ);
12、其中,e为噪音项,γ为柯西范数的参数,此参数为可调参数,推荐取值为1,并在本专利中的实施案例中取1。
13、作为优化,所述非凸张量核函数的形式为:
14、
15、其中,表示对张量进行第三维度上的傅里叶变换,其中张量是由v个视图的表达矩阵在第三维度上的堆叠形成,表示在傅里叶域的计算中,第j(j=1,2,…,n)个子问题中的奇异值分解的第i(i=1,2,…,min{n,v})个最大的奇异值,ω(x)表示非凸的核函数,和θ都是核函数中非负的参数,推荐取值为100,θ为10。
16、作为优化,所述超图结构为:
17、
18、其中,l(v)表示第v个视图的超图的拉普拉斯矩阵,h表示代表超图中顶点和超边关系的发生矩阵,w是权重矩阵,dh为顶点的度矩阵,de为超边的度矩阵,表示表示第v个视图的表达矩阵的转置。
19、作为优化,所述目标函数为:
20、
21、s.t.x(v)=x(v)z(v)+e(v),v=1,2,…v;
22、其中,表示第v个视图的数据,表示第v个视图的表达矩阵,表示第v个视图的噪音矩阵,表示表达张量,表示噪音项,范数表示非凸张量核范数,‖*‖c代表柯西范数,是超图的拉普拉斯矩阵,λ1和λ2为上述约束条件的两个参数,取值用网格搜索法,分别使用[0.005,0.01,0.05,0.1,0.2,0.4,1,2,10]中的值,以执行效果最好的值为准。
23、作为优化,s3中,求解所述目标函数的具体过程为:
24、s3.1、加入辅助变量γ表示张量z,使目标函数变为:
25、
26、
27、s3.2、将s3.1的目标函数表示为增广拉格朗日函数的形式:
28、
29、
30、其中,‖*‖f表示矩阵或张量的frobenius范数,y(v)和θ都是拉格朗日乘子,μ是使用拉格朗日乘子法时,将约束问题转化为无约束问题时,对约束项的惩罚参数;
31、s3.3、将第v个视图的表达矩阵z(v)表示为:
32、
33、其中,g(v)为张量γ的第三维度上的第v个切片,u(v)为张量θ的第三维度上的第v个切片,分别对应于第v个视图;
34、s3.4、对s3.3中的等式求一阶导,并将结果设为等于0,求解极值点得到解析解:
35、
36、其中i为单位矩阵,
37、s3.5、固定除辅助变量γ以外的所有变量不变,更新辅助变量γ:
38、
39、s3.6、将s3.5的等式转换到傅里叶域得到n个子问题,其中,第j个子问题可以表示为:
40、
41、表示对第j个子问题中的张量ψ进行第三维度上的傅里叶变换,表示第j个子问题中的辅助变量γ进行第三维度上的傅里叶变换,表示在傅里叶域的计算中,第j个子问题中的,对进行奇异值分解得到的中第i个最大的奇异值;
42、s3.7、将s3.6放松为下式:
43、
44、表示第j个子问题中的,对于点上的非凸的核函数ω的梯度,n表示样本个数,在这里表示一共有n个子问题;
45、s3.8、通过权重奇异值域值法求解s3.7得到下式:
46、
47、其中且
48、s3.9、固定其他所有变量:γ,z,y(v),θ,更新噪音项e:
49、
50、s3.10、因为可以按列来解决问题,即将s3.9分为n个子问题来考虑,那么第j个子问题可以表示为:
51、
52、其中,对应于e,d可被构造为d=[d(1);d(2);…;d(v)],此处ej和dj都为向量,y(v)为v个视图对应于x(v)=x(v)z(v)+e(v)一项的拉格朗日乘子,d和e的构造方式相同:d=[d(1);d(2);…;d(v)]);
53、s3.11、此处的ej为一个向量,其二范数||ej||2对向量ej求导,可以得到以下的式子:
54、
55、s为次梯度,且‖s‖2≤1;
56、s3.12、当ej=0时,求解ej的式子变为:
57、
58、推导出
59、s3.13、当ej≠0时,求解ej的式子变为:
60、
61、s3.14、让α代表||ej||2,β代表||dj||2,并在s3.13的等式两边加上向量的欧几里得范数,可得:
62、
63、s3.15、求解得α等于:
64、
65、s3.16、将等式重写为矩阵形式:
66、
67、其中,
68、更新拉格朗日乘子:
69、y(v)=y(v)+μ(x(v)-x(n)z(v)-e(v));
70、u(v)=u(v)+μ(z(v)-g(v));
71、μ=min{β*μ,μmax};
72、y(v)和θ都是拉格朗日乘子,g(v)为张量γ的第三维度上的第v个切片,u(v)为张量θ的第三维度上的第v个切片,对应于第v个视图。μ为惩罚参数,β≥1为控制μ增加的参数,通常稍大于1,本发明中取为1.2,μmax为μ的最大取值,通常为较大的数,本发明中取值105。
73、迭代停止的条件设置为:
74、
75、当v个视图都满足此停止条件时,迭代才会停止,此处‖.‖∞为矩阵的无穷范数,∈为误差容忍参数,通常为很小的一个正数,本发明中取值为10-7。
76、作为优化,s3.5中,对张量核函数的计算过程是在傅里叶域完成的。
77、作为优化,可以通过对的奇异值分解求得,
78、作为优化,最终的亲和矩阵
79、本发明与现有技术相比,具有如下的优点和有益效果:
80、1.本发明运用了柯西范数替换了常用的l1和l2,1范数,增强了在高噪声情况下聚类方法的鲁棒性。
81、2.本发明运用了非凸核函数替换了经典的张量奇异值的核函数,减少了对于张量秩的偏差,提高了性能。
82、3.本发明引入超图结构来表示局部图的流行结构,提升聚类性能。