自适应图约束典型相关分析的多视图特征融合方法及系统

文档序号:32463560发布日期:2022-12-07 04:44阅读:188来源:国知局
自适应图约束典型相关分析的多视图特征融合方法及系统

1.本发明属于机器学习技术领域,具体涉及一种自适应图约束典型相关分析的多视图特征融合方法及系统。


背景技术:

2.多视图数据是指对一个共同的数据源,采用多种数据获取手段得到的多组具有不同特性的数据。这种多视图数据通过数据间属性的互补,能够产生更全面的信息。利用不同视图间的一致性信息和互补性信息,进行多视图学习,能够有效改善许多机器学习算法的性能。因此,多视图学习具有广阔的研究价值。典型相关分析(canonical correlation analysis,cca)是多视图特征提取的一个经典算法,被广泛应用于多视图降维、聚类等任务,其主要思想是寻找一组投影向量,使得不同视图数据在投影后的相关系数最大化。多视图典型相关分析(multi-view canonical correlation analysis,mcca)对cca进行推广,使其适用于两个以上视图的情况,拓宽了cca的应用范围。cca和mcca在气象分析、生物信息融合等领域得到了广泛应用。
3.随着近年来图约束方法在机器学习的多个领域如降维、数据重建、聚类、分类等问题中表现出了优良性能,图约束的多视图典型相关分析(graph multi-view canonical correlation analysis,gmcca)也被提出。gmcca在寻找多视图数据的一致性特征时,考虑了数据的内在特性,并通过图约束对数据结构关系加以描述,其分类、聚类性能相比mcca取得了明显改善。
4.现有的gmcca算法存在两大不足,导致其性能仍有很大提升空间。其一,采用预定义的图结构对每个视图进行构图,对先验信息的要求较高,因此算法效果严重依赖于所使用图结构的优劣;其二,在构造图约束项时,选取某一视图数据进行构图或用某几个视图数据构图后简单相加,这会导致最终使用的图约束项丢失未使用的视图的信息,或由于对每个视图采用相等的权重致使最终结果不能达到最优。


技术实现要素:

5.本发明的目的在于针对上述现有的图约束算法采用预定义的图结构导致算法对预定义图质量的依赖性较强和不能充分利用每个视图信息以更优地进行各视图的图结构的融合的问题,提供一种自适应图约束典型相关分析的多视图特征融合方法及系统,直接对低维一致性特征构图,避免了对每个视图数据构图并融合的步骤,并通过引入对拉普拉斯矩阵秩的约束,使图中连通分量数和数据类别数相等,从而提升后续聚类或分类任务的性能。
6.为了实现上述目的,本发明有如下的技术方案:
7.一种自适应图约束典型相关分析的多视图特征融合方法,包括:
8.进行结构化图的学习,求解低维数据源间的相似关系,并通过引入对拉普拉斯矩阵秩的约束,使结构化图中的连通分量个数与数据类别数相同;
9.通过得到的结构化图来约束多视图典型相关分析,得到新的无监督多视图特征学习目标函数,并通过交替优化的方法进行求解,实现多视图特征融合。
10.作为优选,所述进行结构化图的学习,求解低维数据源间的相似关系,并通过引入对拉普拉斯矩阵秩的约束,使结构化图中的连通分量个数与数据类别数相同具体包括如下步骤:
11.令g∈rn×n为图结构对应的相似度矩阵,用g中的元素g
ij
表示两个低维数据源si与sj为相邻节点的可能性,若si和sj之间的欧氏距离越近,则二者关系越紧密;
12.加入正则项避免平凡解的出现,加入对拉普拉斯矩阵秩的约束rank(lg)=n-c,使得到的图结构中恰好包含数据类别数目个连通分量,构造以下优化问题求解g:
[0013][0014][0015]
式中,lg为与相似度矩阵g对应的拉普拉斯矩阵,c为数据类别个数,gi为g的行向量。
[0016]
作为优选,所述新的无监督多视图特征学习目标函数的表达式如下:
[0017][0018][0019]
式中,为需要提取特征的多视图数据,为多视图数据对应的投影矩阵,s∈rd×n为多视图数据的一致性特征,m≥2,dm为第m个视图数据样本的维度,n为数据集样本的个数,d为降维后的数据维度。
[0020]
作为优选,令σi(lg)为矩阵lg中第i个最小的特征值,σi(lg)非负,则所述新的无监督多视图特征学习目标函数的表达式等价表示为:
[0021][0022][0023]
当γ足够大时,最优解使表达式最后一项为0,满足约束条件rank(lg)=n-c;
[0024]
又有其中f∈rn×c为辅助变量,则所述新的无监督多视图特征学习目标函数的表达式又表示为:
[0025][0026][0027]
作为优选,所述通过交替优化的方法进行求解时,在优化过程中每次都只把一个变量看作未知,而其余变量看作已知,用拉格朗日乘数法进行求解,如此交替进行优化,直至目标函数收敛。
[0028]
作为优选,固定无监督多视图特征学习目标函数的表达式中的变量g,f,求解um和s:
[0029]
此时,将原优化问题转化为:
[0030][0031]
s.t.ss
t
=i
[0032]
对um求偏导并置为0,得到:
[0033][0034]
引入中间变量,得到:
[0035][0036]
对c进行特征分解,则s由c最大的ρ个特征值对应的特征向量构造而成;将求得的s代回um的表达式,则求得对应的um。
[0037]
作为优选,固定无监督多视图特征学习目标函数的表达式中的变量g,um和s,求解f:
[0038]
此时,原优化问题转化为:
[0039]
minftr(f
t
lgf)
[0040]
s.t.f
t
f=i
[0041]
通过拉格朗日乘数法,将这一问题转化为特征分解问题,f由lg的c个最小的特征值对应的特征向量构成。
[0042]
作为优选,固定无监督多视图特征学习目标函数的表达式中的变量f,um和s,求解g:
[0043]
此时,原优化问题转化为:
[0044][0045][0046]
展开上式,根据kkt条件求得最优解为:
[0047][0048]
其中,假设最优解gi中有k个非零元素,分析上式得g
ik
>0且g
ik+1
=0,又有约束条件进而有:
[0049][0050]
取βi为最大值,最终的β取所有βi的均值,得到:
[0051][0052]
按下式求得最优解:
[0053][0054]
将原优化问题中的正实数超参数β转换为正整数k,在相似度矩阵g中每一个数据样本只和k个样本具有相似关系,简化超参数的选择。
[0055]
一种自适应图约束典型相关分析的多视图特征融合系统,包括:
[0056]
结构化图学习模块,用于进行结构化图的学习,求解低维数据源间的相似关系,并通过引入对拉普拉斯矩阵秩的约束,使结构化图中的连通分量个数与数据类别数相同;
[0057]
特征融合模块,用于通过得到的结构化图来约束多视图典型相关分析,得到新的无监督多视图特征学习目标函数,并通过交替优化的方法进行求解,实现多视图特征融合。
[0058]
相较于现有技术,本发明至少具有如下的有益效果:
[0059]
无需采用预定义的图结构对每个视图进行构图,在构造图约束项时,也并非选取某一视图数据进行构图或用某几个视图数据构图后简单相加,本发明提出的是一种基于自适应图约束典型相关分析的多视图特征融合方法(adaptive graph multi-view canonical correlation analysis,agmcca),在实现多视图特征融合时直接对低维一致性特征构图,避免了对每个视图数据构图并融合的步骤,在参数更少、更易使用的同时,也能保持良好的降维效果。本发明方法通过引入对拉普拉斯矩阵秩的约束,可直接学习得到一个能反应数据间整体相似关系的图结构,图中连通分量数和数据类别数相等,可提升后续聚类或分类任务的性能。
附图说明
[0060]
图1本发明实施例自适应图约束典型相关分析的多视图特征融合方法流程图;
[0061]
图2本发明实施例自适应图约束典型相关分析的多视图特征融合方法原理框架图。
具体实施方式
[0062]
下面结合附图及实施例对本发明做进一步的详细说明。
[0063]
本发明实施例自适应图约束典型相关分析的多视图特征融合方法主要基于如下定理:
[0064]
对于一个存在非负邻接矩阵g的图,图中相连接部分的数目等同于该图对应的拉普拉斯矩阵lg中零特征值的个数c。
[0065]
这一定理意味着如果拉普拉斯矩阵lg的秩为n-c,则可以直接通过g获得c个类别的聚类结果。
[0066]
请参阅图1,本发明实施例自适应图约束典型相关分析的多视图特征融合方法,包括以下步骤:
[0067]
第一阶段:进行结构化图学习,直接求解低维数据源间的相似关系,并通过引入对拉普拉斯矩阵秩的约束,使图中连通分量个数与数据类别数相同。
[0068]
第二阶段:以得到的结构化图来约束多视图典型相关分析,得到新的无监督多视图特征学习目标函数,并通过交替优化的方法求解新模型。
[0069]
如图2所示,本发明实施例自适应图约束典型相关分析的多视图特征融合方法中
的第一阶段进行结构化图学习而非采用预定义的图结构,通过直接求解低维数据源间的相似关系,避免了对每个视图数据构图并融合的步骤;通过引入对拉普拉斯矩阵秩的约束,使图中连通分量个数与数据类别数相同,以提升后续聚类或分类任务的性能。而第二阶段以第一阶段得到的结构化图来约束多视图典型相关分析,以得到新的无监督多视图特征学习目标函数,并通过交替优化的方法求解新模型,不但参数更少、更易使用,还能在较少的迭代次数内收敛。
[0070]
在一种可能的实施方式中,第一阶段的具体过程如下:
[0071]
令g∈rn×n为图结构对应的相似度矩阵,用g中元素g
ij
表示两个低维数据源si与sj为相邻节点的可能性,若si和sj之间的欧氏距离越近,则二者关系越紧密。为避免平凡解的出现,加入正则项。为使得到的图结构中恰好包含数据类别数目个连通分量,加入对拉普拉斯矩阵秩的约束rank(lg)=n-c。因此,可构造以下优化问题求解g:
[0072][0073][0074]
其中,lg为与相似度矩阵g对应的拉普拉斯矩阵,c为数据类别的个数,gi为g的行向量。
[0075]
在一种可能的实施方式中,第二阶段以第一阶段得到的结构化图来约束多视图典型相关分析,得到目标函数如下:
[0076][0077][0078]
其中,为需要提取特征的多视图数据,为其对应的投影矩阵,s∈rd×n为多视图数据的一致性特征,m≥2,dm为第m个视图数据样本的维度,n为数据集样本的个数,d为降维后的数据维度。
[0079]
在一种可能的实施方式中,第二阶段得到的目标函数中存在对lg的秩的约束,为方便求解,令σi(lg)为矩阵lg中第i个最小的特征值,由lg的性质可知,σi(lg)非负,则上述目标函数与下式等价:
[0080][0081][0082]
当γ足够大时,最优解将使最后一项为0,从而满足约束条件rank(lg)=n-c。
[0083]
又有其中f∈rn×c为辅助变量,则所述第二阶段的目标函数可最终化为:
[0084][0085]
[0086]
在一种可能的实施方式中,第二阶段的目标函数的优化属于多变量优化问题,当一个变量未知,而其余四个变量为已知时,该问题转变为凸优化问题,可用拉格朗日乘数法进行求解。因此,采用交替优化的方法求解此问题,即在优化过程中每次都只把一个变量看作未知,而其余变量看作已知,如此交替进行优化,直至目标函数收敛。
[0087]
在一种可能的实施方式中,固定变量g,f,求解um和s:
[0088]
此时,原优化问题转化为:
[0089][0090]
s.t.ss
t
=i
[0091]
对um求偏导并置为0,可得:
[0092][0093]
引入中间变量,可得:
[0094][0095]
对c进行特征分解,则s可由c最大的ρ个特征值对应的特征向量构造而成。将求得的s代回um的表达式,则可求得对应的um。
[0096]
在一种可能的实施方式中,固定g,um和s,求解f。
[0097]
此时,原优化问题转化为:
[0098]
minftr(f
t
lgf)
[0099]
s.t.f
t
f=i
[0100]
通过拉格朗日乘数法,可将这一问题化为特征分解问题,f可由lg的c个最小的特征值对应的特征向量构成。
[0101]
在一种可能的实施方式中,固定f,um和s,求解g:
[0102]
此时,原优化问题转化为:
[0103][0104][0105]
展开上式,根据kkt条件求得最优解为:
[0106][0107]
其中假设最优解gi中有k个非零元素,分析上式可得g
ik
>0且g
ik+1
=0,又有约束条件进而有:
[0108][0109]
取βi为最大值,最终的β取所有βi的均值,可得:
[0110][0111]
至此,可求得最优解:
[0112][0113]
这里将原优化问题中的正实数超参数β转换为正整数k,在相似度矩阵g中每一个数据样本只和k个样本具有相似关系,很大程度上简化了超参数的选择。
[0114]
结合到具体的场景下,上述本发明实施例自适应图约束典型相关分析的多视图特征融合方法,包括以下步骤:
[0115]
给定要提取特征的多视图数据其中m≥2,dm为第m个视图数据样本的维度,n为数据集样本的个数;给定降维后的数据维度d,数据类别个数c,正则项系数α,γ,图g中的邻接点个数k。
[0116]
通过加入对拉普拉斯矩阵秩的约束rank(lg)=n-c使得到的图结构中恰好包含数据类别数目个连通分量,以此约束多视图典型相关分析,得到目标函数如下:
[0117][0118][0119]
其中,为其对应的投影矩阵,s∈rd×n为多视图数据的一致性特征。
[0120]
为方便求解,将目标函数化为:
[0121][0122][0123]
采用交替优化的方式求解目标函数。
[0124]
更进一步的,本发明实施例自适应图约束典型相关分析的多视图特征融合方法,可以具体包括以下步骤:
[0125]
步骤一:输入多视图数据降维后的数据维d,数据类别个数c,正则项系数a,γ,图g中的邻接点个数k。
[0126]
步骤二:利用高斯核函数初始化图结构g,并计算对应的拉普拉斯矩阵lg。
[0127]
步骤三:在目标函数中,把g,f看作已知,求解um和s:
[0128]
步骤四:在目标函数中,把g,um和s看作已知,求解f:
[0129]
步骤五:在目标函数中,把f,um和s看作已知,求解g:
[0130]
步骤六:重复步骤三至步骤五,直至目标函数收敛。
[0131]
本发明方法的效果可通过以下在真实数据库上的实验进一步说明。
[0132]
在uci手写体数字数据集、caltech7数据集、caltech20数据集及nus数据集上分别测试基于自适应图约束典型相关分析的多视图特征融合方法(agmcca)的分类和聚类效果,
并与多视图典型相关分析算法(mcca)、图约束的多视图典型相关分析算法(gmcca),主成分分析算法(pca)和图约束的主成分分析算法(gpca)进行对比,验证了本发明方法的优越性。
[0133]
1.实验方法
[0134]
对于分类任务,随机选取每一类别80%的数据为训练集,通过本发明方法得到每个视图的投影矩阵um;剩余20%的数据为测试集,利用训练集中得到的um,采用如下方法得到训练集和测试集的低维表示:
[0135][0136]
至此,采用最近邻分类法对测试集的低维特征进行测试,对于每个数据集,都记录下独立随机试验20次结果的均值。以正确率评价算法的分类效果。
[0137]
对于聚类任务,本发明方法采用结构化的图约束,可直接通过图结构得到聚类结果;其他对比算法通过k-means进行聚类,由于k-means的随机性,因此对于每个数据集,都记录下独立随机试验20次结果的均值。以正确率、纯度和归一化互信息(nmi)三个指标评价算法的聚类效果。
[0138]
2.实验结果
[0139]
分类的正确率结果如表1所示,可以看出本发明方法在多个分类任务上都取得了良好的效果。
[0140]
表1基于自适应图约束典型相关分析的多视图特征融合方法及其对比算法的分类正确率
[0141][0142]
聚类的正确率、归一化互信息和纯度如表2、表3和表4所示,可以看出本发明在聚类的各个指标上都显示出很强的优越性,这得益于算法使用了与预定义图相比更优的图结构,该图结构可由自适应的学习算法学习得到,且隐含了数据间的类别关系;另外,由于本发明方法可通过直接分析图结构的连通分量得到聚类结果,避免了使用k-means算法而引入的随机性,故聚类性能更加稳定。
[0143]
表2基于自适应图约束典型相关分析的多视图特征融合方法及其对比算法的聚类正确率
[0144][0145]
表3基于自适应图约束典型相关分析的多视图特征融合方法及其对比算法的聚类nmi
[0146][0147][0148]
表4基于自适应图约束典型相关分析的多视图特征融合方法及其对比算法的聚类纯度
[0149][0150]
本发明另一实施例还提出一种自适应图约束典型相关分析的多视图特征融合系统,包括:
[0151]
结构化图学习模块,用于进行结构化图的学习,求解低维数据源间的相似关系,并通过引入对拉普拉斯矩阵秩的约束,使结构化图中的连通分量个数与数据类别数相同;
[0152]
特征融合模块,用于通过得到的结构化图来约束多视图典型相关分析,得到新的无监督多视图特征学习目标函数,并通过交替优化的方法进行求解,实现多视图特征融合。
[0153]
需要说明的是,上述模块单元之间的信息交互、执行过程等内容,由于与方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
[0154]
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本技术的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0155]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信号以及软件分发介质。例如u盘、移动硬盘、磁碟或者光盘等。
[0156]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
[0157]
以上所述实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围,均应包含在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1