一种多源异构大数据的冗余源协同缩减方法
【专利摘要】本发明涉及一种多源异构大数据的冗余源协同缩减方法。该方法包括两个模型,一个为异构流形平滑学习(HMSL)模型,另一个为基于相关性的多源冗余缩减(CMRR)模型。其中,HMSL模型将多源异构数据线性投影到一个低维特征同构空间,并在这个空间中,使信息相关描述的流形距离更近,而语义互补样本的欧氏距离更近;CMRR模型利用基于梯度能量竞争策略的广义初等变换约束,在由HMSL模型学习得来的特征同构空间中,消除多源冗余数据的三向冗余和双层异构性。本发明能够消除多源冗余数据的三向冗余和双层异构性,进而精简多源异构数据的冗余源。
【专利说明】
一种多源异构大数据的冗余源协同缩减方法
技术领域
[0001] 本发明属于信息技术领域,针对海量多源异构冗余数据环境下的三向冗余和双层 异构问题,提出了一种多源异构大数据的冗余源协同缩减方法。
【背景技术】
[0002] 近年来,随着大量高技术数码产品的出现,由这些异源电子设备产生的多源异构 数据(felti-source Heterogeneous Data)己经遍布到人们现实生活的各个角落。所谓多 源异构数据是指来自不同来源或者渠道,但表达的内容相似,以不同形式、不同模态、不同 视角和不同背景等多种样式出现的数据。例如,新浪微博、腾讯微信和搜狐网站关于相同的 新闻的不同形式的报道;老年痴呆症(Al zhe imer)患者的大脑可以由核磁共振(MRI)、正电 子成像技术(PET)和X光产生多种不同视角的医学成像;Wikipedia网站上对花豹的描述采 用了图片、文本和语音等不同模态的媒介;相同的建筑物白宫可以处在不同的背景之下。
[0003] 然而,由于不恰当的特征提取、不正确的数据存储和随机事件等原因,并不是所有 的样本描述都是客观现实的简洁高效反映,从而不可避免地导致多源异构冗余数据的存 在。不同于重复数据,多源冗余数据指的是那些会严重影响学习器性能的数据。因此,国内 外的研究人员提出了一些多源冗余数据的去冗余方法。这些方法主要分为两类,一类为维 度缩减(Dimension Reduction)方法,另一类为样本选择(Sample Selection)方法。
[0004] 近年来,国内外的研究人员设计了各种各样的多源维度缩减方法,基于底层特征 之间的相关性,进行特征选择,降低多源数据的维度,去除多源数据中的冗余特征,节省存 储空间和计算时间。
[0005] Christoudias等人提出了一种基于分布编码的无监督多源图片特征选择(Joint Feature Histogram Model,JFHM)算法。该方法利用统计不同来源信息的高斯处理模型过 滤不同来源数据中的冗余信息,并在接收端获取多源数据的联合编码,以降低数据维度,提 高对象识别准确率。然而,JFHM算法只能用来处理多源图片冗余。(参考文献:C. Mario Christoudias,Raquel Urtasun,Trevor Darrell.Unsupervised feature selection via distributed coding for multi-view object recognition.IEEE International Conference on Computer Vision and Pattern Recognition 2008:1-8.)
[0006] Zhu等人提出了一种多源典型特征选择(Multi-modality Canonical Feature SeleCti〇n,MCFS)方法,利用不同来源之间的相关性,将不同来源的特征投影到由CCA诱导 的典型空间中,从而实现多源典型特征选择。MCFS方法将不同来源间的相关信息,整合到稀 疏多任务学习 (Sparse Multi-Task Learning)中。MCFS方法首先利用CCA获取典型特征空 间的典型基向量,再将不同来源的异构描述嵌入到这个空间中,并利用带有典型正规化项 的稀疏多任务学习筛选典型特征。然而,MCFS方法本身无法处理异构数据,必需借助CCA方 法,才能进行关联分析,消除冗余。(参考文献:Xiaof eng Zhu,Heung-II Suk,Dinggang Shen.Multi-modality Canonical Feature Selection for Alzheimer's Disease Diagnosis.Springer Medical Image Computing and Computer-Assisted Intervention (2)2014:162-169.)
[0007] 而Lan和Huan提出了一种降低无标签样本的复杂度的半监督多源学习 (Reducing the Unlabeled Sample Complexity of Semi-Supervised Multi-view Learning, RUSCSSML)方法。在半监督学习中,同时利用有标签样本和无标签样本训练分类器。而样本 复杂度(Sample Complexity)是训练样本有效性的通用度量标准。Lan和Huan将这两类样本 的复杂度定义为有标签样本复杂度(Labeled Sample Complexity,LSC)和无标签样本复杂 度(Un I abe I ed Samp I e Comp I ex i ty,USC)两类。在松弛条件下,RUSCSSML方法将USC从0 (1 / ε)降低到〇(l〇g(l/e))(ε为错误率)Ian和Huan在理论上证明了分类器的泛化错误率和不 兼容性之间的联系。并证明了在半监督多源学习中,如具备大量无标签样本,就可以学习到 一个不兼容性较低的分类器。通过结合这两项理论证明,Lan和Huan进一步证明了半监督多 源学习的可能近似正确(Probably Approximately Correct,PAC)的学习范围。然而,上述 方法却无法得到不同来源间的共享描述。(参考文献:Chao Lan and Jun Huan.Reducing the Unlabeled Sample Complexity of Semi-Supervised Multi-View Learning.ACM SIGKDD International Conference Knowledge Discovery Data Mining,2015:627-634.)
[0008] Guo等人提出了一种用于跨语言文本分类的低维子空间协同正规化多源学习 (Subspace Co-regularized Multi-view Learning,SCML)方法。该方法基于机器翻译的平 行语料库,联合最小化每个来源上的分类器的训练误差,并同时最小化低维子空间中描述 间的距离。Guo等人假设一篇文档(源语言(Source Language))和其翻译文本(目标语言 (Target Language)),以两种不同的来源描述了相同的对象。于是,对于相同的分类任务, 同一对象的不同来源描述在潜在共享子空间中描述应该是相似的。因此,SCML方法针对不 同的语言(来源),同时学习不同的分类器,并通过半监督优化模型,最小化所有来源的有标 签数据的训练损失,惩罚所有对象异构描述在子空间中的距离。但是,SCML方法在降维过程 中,只考虑了不同来源间的相关性,而没有充分利用不同来源间的分布相似性,所以必然会 丢失一些重要的信息。(参考文献:Yuhong Guo,Min Xiao.Cross Language Text Classification via Subspace Co-regularized Multi-view Learning. ACM International Conference on Machine Learning 2012.)
[0009] 表1总结了上述多源数据冗余缩减方法的不足。
[0010] 表1.已有的多源数据冗余缩减方法的不足
[0012]为了进一步节省存储空间,提高学习效率和性能,国内外的研究人员相继提出了 一些多源样本选择方法,利用多源之间的关联结构,从原始数据集中挑选精简子集,以提高 学习器的性能。
[0013] 多源图片是一组由多个摄像机在同一场景下拍摄的图片。不同来源的图片之间必 然存在互补信息。在多源立体声(Multi-View Stereo,MVS)的重建中,并不是所有的图片都 能提高重建模型输出结果的质量,而且大量的多源图片还会耗费过多的处理时间。针对这 一问题,Hornung 等人设计出一种多源图片选择(1111&86 3616(31:;[011;1^01'11]^)1'〇¥6(111111:;[-View StereoJSIMVS)方案,利用预先定义的质量标准,根据多源图片中的互补信息,筛选 相关性最大的图片合成重建结果。ISIMVS方法通过以下三个预先定义的质量标准 (Criteria)完成MVS重建:1)初始表面精简子集(Initial Surface Proxy),即选择一组输 入图片的精简子集,该子集不仅能够充分代表原始数据集,并能充分逼近未知对象的表面; 2)表面可见度(Surf ace Visibility),即在设定的最小可视距离内,挑选的精简子集中的 多源样本是清晰可见的;3)自适应性(Adaptivity),即针对多源图片中的不一致区域,通过 选择一些其它的相关图片,以提高在这些区域中的重建性能,增加精选子集的可靠性。根据 上述三个质量标准,ISMVS方法的样本选择过程分为三步:第一步,从若干来源中,挑选一 些有利于快速收敛的来源;第二步,为每个对象挑选至少两个来源的图片,以达到足够的覆 盖率;第三步,挑选一些突出多源图片中不一致区域的额外的相关图片。进而达到良好的 MVS重建效果。但是,ISIMVS方法存在只能精简多源图片的缺陷。(参考文献Alexander Hornung,Boyi Zeng,Leif Kobbelt. Image selection for improved multi-view stereo. IEEE International Conference on Computer Vision and Pattern Recognition 2008:1-8.)
[0014] Kitahara等人提出的多源视频编码(Multi-view Video Coding using View Interpolation and Reference Picture Selection,MVCVIRPS)方法。MVCVIRPS方法基于 H. 264/AVC的动作/不一致性补偿完成多源视频编码。该方法利用不同来源图片之间的关联 性,通过选择相关的异模图片作为参考图片,插值补偿视差。MVCVIRPS方法假设索引c = l, 2,…,C对应C台不同的摄像机(基于H. 264/AVC编码),而另一索引Ci: C= {1,2,…,C]表示摄像机 c用于不一致性补偿的参考摄像机的索引。在视频编码过程中,MVCVIRPS方法同时利用不同 来源间的时间(temporal )、空间(spacial)和模间(inter-view)相关性,从摄像机c的参考 摄像机的索引中选择相关索引,完成异模间动作/不一致性补偿。(参考文献= Masaki Kitahara,Hideaki Kimata,Shinya Shimizu,Kazuto Kamikura,Yoshiyuki Yashima, Kenji Yamamoto ,Tomohiro Yendo,Toshiaki Fujii,Masayuki Tanimoto.Multi-View Video Coding using View Interpolation and Reference Picture Selection. IEEE International Conference on Multimedia and Expo 2006:97-100.)
[0015] 在图像提取(Image Matting)中,利用基于颜色采样的抠图方法获取的颜色信息, 可以挑选出针对未知像素的前景(Foreground(F))和后景(Background(B))颜色的最匹配 样本。然而,如果前景和背景区域的颜色分布有重叠,那么利用颜色信息就很难区分这些区 域,挑选的样本便无法估计遮片(Matte) C3Shahrian等人提出了一种基于内容的样本选择 (Weighted Color and Texture Sample Selection for Image Matting,WCTSSIM)方法, 该方法借助图片的纹理(来源)信息,使用基于样本的颜色(来源)匹配方法,通过最佳匹配 图片填补未知贞的前景和后景颜色。在WCTSSIM方法中,利用图片的颜色(Color)和纹理 (Texture)特征挑选一组(F,B)候选集。并根据两种特征,基于图片的内容,自动确定F和B间 的权重,进而从候选集中挑选出最佳样本。(参考文献:Ehsan Shahrian ,Deepu Rajan.Weighted Color and Texture Sample Selection for Image Matting.IEEE Transactions on Image Processing 22(11):4260-4270(2013).)
[0016] 然而,虽然上述方法在精简多源图片数据集问题上,都取得了不错的效果,但是对 于其它形式的多源数据(例如,文本)的冗余却捉襟见肘。
[0017] 表2总结了上述多源数据样本选择方法的不足。
[0018] 表2.已有的多源数据样本选择方法的不足
【发明内容】
[0020]随着现代信息和存储技术的快速发展,数据的规模在不断扩大。但是在实际情况 下,由于不恰当的特征提取、不正确的数据存储和随机事件等原因,并不是所有的样本描述 都是客观现实的简洁高效反映,从而不可避免地导致多源异构冗余数据的存在。不同于重 复数据,多源冗余数据指的是那些会严重影响学习器性能的数据。此外,如图1所示,多源冗 余数据的冗余源问题也是完全不同于单源冗余数据问题。究其原因在于多源冗余数据包含 以下三向冗余(Three-way Redundancies):
[0021 ] 1)数据描述过剩(Data Representations Excessiveness,DRE)。这类冗余指的是 在同源内存在针对同一对象的多个无重复描述,进而导致占用大量的存储空间。
[0022] 2)样本特征繁多(Sample Features Superabundance,SFS)。这种由维度灾难 (Curse of Dimensionality)引起的冗余指的是在高维空间中嵌入了大量相关或随机的维 度,从而导致耗费过多的计算时间。
[0023] 3)互补关系超额(Complementary Relationships Overplus,CR0)。这类冗余指的 是一源之内的某一样本描述和另一源内多个异构描述之间存在互补关系。由于此类冗余破 坏了不同源间的一一对应关系,进而会导致多源异构数据的性能下降。
[0024]由于三向冗余的存在,冗余源问题具有双层异构性(Double-level Heterogeneities),即特征维度不相似性(Feature Dimension Dissimilarity,FDD)和样 本规模差异性(Sample Size Difference,SSD)。首先,不同的来源使用不同维度和不同属 性描述相同的事物;其次,每个源内的样本数量也不同。多源冗余数据的三向冗余和双层异 构性会导致数据的性能被严重削弱,进而延缓学习过程,浪费存储空间,降低模型的泛化能 力。因此,提出一种多源冗余数据的协同精简算法,不仅可以节省宝贵的存储空间,避免高 计算复杂度,还可以显著提高学习器的泛化性能。
[0025]如图2所示,多源异构数据处在互补性、相关性和分布性约束之下。互补性约束指 的是来自不同来源的异构描述传达的语义(类标签)是一致的;相关性约束指的是异构相关 描述沿着流形(Manifold)彼此临近,从而将不同来源间的互补信息充分包含在多源数据 中;不同于互补性和相关性约束,分布性约束呈现出高度的分布相似性,此约束会将同一来 源内的同类样本聚集到一起。而本发明的具体目的就是针对多源异构数据的冗余源问题, 提供一种多源异构大数据的冗余源协同缩减方法,利用多源异构数据间的语义互补性、信 息相关性和分布相似性,基于子空间学习方法,通过对已有的无冗余多源异构数据间关联 性的挖掘,协同去除多个来源中三向冗余和双层异构性,降低数据维度,提炼数据子集,修 复异构描述间的一一对应关系,精简多源异构数据的冗余源。
[0026] 如图3所示,本发明提供了一种多源异构数据的冗余源缩减的基本框架。这个框架 由两个数学模型组成,一个为异构流形平滑学习 (Heterogeneous Manifold Smoothness Learning,HMSL)模型,另一个为基于相关性的多源冗余缩减(&31^61&1:;[011^^86(111111:;[-view Redundancy Reduction,CMRR)模型。其中,HMSL模型将多源异构数据线性投影到一个 低维特征同构空间,并在这个空间中,使信息相关描述的流形距离(Manifold Distance)更 近,而语义互补样本的欧氏距离(Euclidean Distance)更近。而CMRR模型利用基于梯度能 量竞争(Gradient Energy Competition,GEC)策略的广义初等变换约束,在由HMSL模型学 习得来的特征同构空间,消除了多源冗余数据的三向冗余和双层异构性,进而精简多源异 构数据的冗余源,有助于获得准确且鲁棒的多源数据评估分析结果。
[0027] 在图3中,多源异构数据由源X和源Y组成。Xn和Yn为已有的多源无冗余数据。然而, 一些多源异构数据Xr和Yr具有三向冗余和双层异构性。例如,CRO冗余导致源X中的描述X7和 源Y中多个描述y7,ys,和y 9相关;此外,在源Y中存在大量的和描述yio相似的冗余样本yn, y12,和y13;而由于SFS,在每对异构描述中又包含一些随机或相关的特征维度。从而导致这 些多源异构数据Xr和Yr具有双层异构性,即特征维度不相似性(FDD)和样本规模差异性 (SSD)。针对多源异构数据的冗余源问题,为了消除多源冗余数据的三向冗余和双层异构 性,加速学习过程,节省存储空间,提高模型的泛化能力,本发明研究具有多源协同去冗余 能力的冗余源缩减方法。
[0028]本发明具体的技术方案为:
[0029] 1)HMSL模型利用已有的多源无冗余数据Xn和YN,学习两个异构线性变换A和B,一个 决策矩阵W,和一个流形平滑度量M,以消除底层特征空间中的异构性。由此,便可得到一个 低维的特征同构空间,在这个空间中,使信息相关描述的流形距离更近,而语义互补样本的 欧氏距离更近。
[0030] 如图3所示,流形平滑度量M将异构描述X^Py2匹配到一起,以提取异源间的相关信 息;此外,为了捕捉异源间的语义互补性,决策矩阵W将异构描述X 6和y6耦合到一起;而类1中 的异构共生描述(11,71),(1 2,72),和(13,73)被分别归类到不同的簇中,以挖掘异源间的分 布相似性。
[0031] 2)与此同时,在由HMSL模型学习到的低维特征同构空间中,CMRR模型基于异源间 的语义互补性、信息相关性和分布相似性,有效地去除了多源冗余数据Xr和Yr的三向冗余和 双层异构性。CMRR模型首先使用基于梯度能量竞争的广义初等变换约束,根据HMSL模型学 习到的流形平滑度量M和决策矩阵W,恢复同一对象异构描述间的一一对应关系。这个约束 会调整冗余矩阵Xr和Yr中相应行的位置,以消除多余的互补关系。
[0032]如图3所示,源X中的描述X7和源Y中的描述y8和y9间多余的互补关系被清除,恢复 了X7和y7间的一一对应关系,以消除CRO;另外,为了去除DRE,源Y中的冗余描述yn,y 12,和y13 被删除,以节省存储空间;并同时将冗余源中的全部描述,线性投影到HMSL模型学习到的低 维特征同构空间中,以消除SFS和双层异构性。从图5中可以看出,在消除了三向冗余之后, 在特征同构空间中,多源冗余数据的异构描述都得以正确的匹配和归类。因此,由HMSL+ CMRR构成的框架可以有效地缩减多源异构数据的冗余源。
[0033]下面进一步说明本发明的具体步骤:
[0034] 1)异构流形平滑学习模型
[0035]如图4所示,本发明提供的异构流形平滑学习 HMSL模型利用已有的多源无冗余数 据心€ e MnIxdKdx为来源Vx的维度,dy为来源V y的维度,m为无冗余样本的数 量),学习多个异构线性变换A和B,一个决策矩阵W,和一个流形平滑度量(manifold smoothness measure)M,将异源间的相关异构描述親合到一起,以捕捉异源间的语义互补 性、信息相关性和分布相似性,消除异源间的异构性,从而构建出一个低维的特征同构空 间。在这个空间中,使信息相关描述的流形距离更近,而语义互补样本的欧氏距离更近。 [0036]该方法首先定义了 一组马氏距离度量:
[0037] (!)
[0038] (?
[0039] 其中,Xi e Mrf*为来源Vx中的第i个样本,y; € 11?为来源Vy中的第i个样本,Mx = AtA 和My = BtB为两个半正定度量矩阵。其次,HMSL方法定义了一个来源中的样本Xi或者yi与另 一来源中的异构样本yj或者Xj,在特征同构空间中为近邻的概率Pij或者qij:
[0043] P5
[0040; (3)
[0041; (4)[0042] 从而可以得剞笛i个烊太被iF确分类的概率pi或者qi为:
[0045] 其中,4和4分别表示来源VjPVy中第t类样本的集合。[0046] 基于上述定义,HMSL方法的优化模型如下:
[0044] (6)
[0047]
(7)
[0048] 其中,>4 e MOiS β e Rdyxfc,/c S min(dx,dy)为特征同构子空间的维度,α和β为平衡 参数。HMSL方法利用正交约束六1=1和#8 = 1消除同一来源内不同特征之间的相关性,同时 借助半正定约束M e MfcU > 0确保模型屯:能够学习到一个良好定义的伪度量。而公式(7)中 的目标函数为包含三个子函数,即语义、相关和分布子函数,的复合函数(complex function)。其中,目标函数中的第一项fs(A,B,W):
[0049]
(8:)
[0050] 为基于多变量线性回归(multivariant linear regression)的语义子函数,用来 捕捉不同来源间的语义互补性,4 e 为多源无冗余数据Xn和Yn的标签矩阵(m为标签 数量);此外,在目标函数中引入相关子函数gM(A,B,M):
[0051 ] g = UnAMBtY^W2f (9)
[0052] 的目的就是度量不同线性变换A和B之间的平滑度,以提取异构描述之间的相关信 息;而目标函数中的第三项分布子函数hD(A,B):
[0053] hD(A,B) = Σ Pi+Σ qi (10)
[0054] 为由不同来源的分类准确率构成的交叉验证(leave-one-out validation),该子 函数基于马氏距离度量挖掘不同来源间的分布相似性。
[0055]值得注意的是,HMSL方法可以将多源异构数据线性投影到一个低维空间中。这一 点是非常不同于著名的非线性投影方法核典型相关分析方法(参考文献:David R.Hardoon,Sandor Szedmak,John Shawe-Taylor.Canonical Correlation Analysis:An Overview with Application to Learning Methods.Neural Computation 16(12):2639-2664(2004))和深度典型相关分析(参考文献:Galen Andrew,Raman Arora, Jeff A.BiImes,Karen Livescu.Deep Canonical Correlation Analysis.ACM International Conference on Machine Learning(3)2013:1247-1255·)方法的。
[0056] 2)梯度能量竞争策略
[0057] 在由梯度下降方法得来的梯度矩阵G中,每个内部元素都和四个近邻 G1+1,^G1,h,和Gu+1关联。本发明提供的梯度能量竞争策略基于I 1范数的梯度幅值能量,定 义每个内部元素Gij在垂直方向的样本间能量(between-sample energy)Ebs为:
[0058] (11)
[0059]
[0060] (12)
[0061 ] 通过Ebs和Ews,就可以得到每个内部元素Gij的全局能量(global energy)Egi〇be:
[0062] Egi〇be = 5*Ebs+(l-5)Ews (13)
[0063] 其中,δ为平衡参数。利用公式(13)可以计算出矩阵G中每个元素的全局能量,进而 得到能量矩阵Ε。如图5所示,本发明提供的梯度能量竞争策略通过比较矩阵E中每个元素的 能量,将获胜者(能量最大者)的值设置为1,而与获胜者同行同列的元素的值都被设置为〇, 如此往复,直到构建出一个广义初等变换矩阵Q。
[0064] 3)基于相关性的多源冗余缩减模型
[0065] 如图6所示,本发明提供的基于相关性的多源冗余缩减模型CMRR,首先利用HMSL方 法获得的最优解(A'B'W'if),将多源异构冗余数据知G和為e (η2为来源Vx 中冗余样本的数量,M为来源Vy中冗余样本的数量,且η2矣n3)构建为特征同构的冗余矩阵H = XrASPR = YrB'并借助决策矩阵f预测冗余样本H和R的类别,以修复同一对象异构描述间 的互补关系。同时,通过学习到的广义初等行变换矩阵P和Q,其中P为针对来源V x中冗余数 据的n2Xn4阶的广义初等行变换矩阵,Q为针对来源Vy中冗余数据的n 3Xn4阶的广义初等行 变换矩阵,调换矩阵H和R中冗余样本的位置,从而将信息相关的异构描述匹配到一起,并根 据消除CRO和DRE,重新建立异构描述间的一一对应关系。
[0066] CMRR方法的优化模型如下:
[0067]
[0068] 其中,P和Q为广义初等行变换矩阵,?Λ2Χ"4 e e为两组广义初 等行变换矩阵的集合,ru=min(n2,n3),γ和τ为平衡参数。
[0069]目标函数中的第一项利用HMSL方法学习到的多个异构线性变换,以及决策 矩阵W'在消除CRO和SFS的同时,重塑同一对象异构描述间的一一对应关系。而目标函数中 的第二项借助HMSL方法学习到的流形平滑度量M'消除同一来源内的DRE,以提取匹配的异 构描述间的相关信息。另外,目标函数中的第三项为基于迹范数的低秩(low-rank)正规化 项,以使复合描述尽可能线性可分。对矩阵P和Q施加广义初等变换约束的目的就是调换矩 阵H和R中冗余样本的位置,消除CRO,重新建立异构描述间的--对应关系。而通过引入I 2,1 范数等式约束,可以在矩阵P和Q中创建若干全零行,以清除DRE。需要注意的是,如果没有广 义初等变换约束,而仅有U 1范数等式约束,矩阵P和Q有可能成为一个仅有一个非零行的矩 阵。因此,为了能够筛选异构互补描述,在CMRR模型中,对矩阵P和Q施加广义初等变换约束 是是十分必要的。从而,消除了多源冗余数据的三向冗余和双层异构性,进而精简多源异构 数据的冗余源。
[0070]与现有技术相比,本发明的有益效果如下:
[0071]针对于多源冗余数据中存在的三向冗余和双层异构性,本发明提供了一种多源异 构大数据的冗余源协同缩减的框架。该框架首先包含一种带有流形(Manifold)正规化项和 伪度量约束的HMSL模型,将多源异构数据线性投影到一个低维特征同构空间,并在这个空 间中,使信息相关描述的流形距离更近,而语义互补样本的欧氏距离(Euc Ii dean Distance),从而可以有效地捕捉到不同来源间的语义互补性、信息相关性和分布相似性。 此外,提出了一种带有广义初等变换约束的CMRR模型,利用梯度能量竞争策略和I 2,i范数等 式,在由HMSL模型学习得来的特征同构空间,恢复异源异构冗余描述间的一一对应关系,消 除了多源冗余数据的三向冗余和双层异构性,进而精简多源异构数据的冗余源。
【附图说明】
[0072] 图1为多源冗余和单源冗余的示例说明。
[0073] 图2为多源异构数据间的互补性、相关性和分布性约束的示例说明。
[0074]图3为多源异构数据的冗余源缩减框架的示例说明。
[0075]图4为异构流形平滑学习模型的示例说明。
[0076] 图5为梯度能量竞争策略的示例说明。
[0077] 图6为基于相关性的多源冗余缩减模型的示例说明。
【具体实施方式】
[0078] 下面通过具体实施例,对本发明做进一步说明。
[0079] 本发明提供的多源异构大数据的冗余源协同缩减方法,由异构流形平滑学习HMSL 和基于相关性的多源冗余缩减CMRR算法组成,通过循环迭代过程实现模型的逐步优化。
[0080] 在公式(7)中的HMSL模型可以简化为:
[0081 ] F(Z) (15)
[0082] 其中,F( · )=fs( · )+agM( · )-PhD( ·)为平滑目标函数,Z=[Az Bz Wz Mz]代表优 化变量,e为封闭且针对单个变量的凸集:
[0083] C ^ {Ζ\Α\Αχ - !, B^Bz - I1 Mz > 0} (16)
[0084] 由于F( ·)是关于Lipschitz连续梯度L的连续可微函数(参考文献: Y.Nesterov.Introductory lectures on convex optimization, volume 87. Springer Science&Business Media,2004.):
[0085] ||VF(ZT) - VF(Zy)Wr. ^ L\\z>r ~zyiF> G c (17)
[0086] 因此,适合利用加速投影梯度(Accelerated Projected Gradient,APG)算法(参 考文献:Υ· Nesterov .Introductory lectures on convex optimization ,volume 87.Springer Science&Business Media,2004.)求解公式(15)中的问题D
[0087] APG算法为一阶梯度算法,该方法在最小化目标函数过程中,会在可执行解 (feasible solution)上加速每个梯度步,以获取最优解在求解过程中,APG方法会构建一 个解点序列{ZJ和一个搜索点序列{SJ,在每次迭代中利用S 1更新Z1。而每个给定点s在凸 集e上的欧几里德投影为:
[0088] Projc(s) ^arg rrun\\z - s\\j/2 (18)
[0089] Weinberger等人提出的半正定投影(Positive Semi-definite Projection,PSP) 方法(参考文南犬:Kilian Q.Weinberger,Lawrence K. Saul .Distance Metric Learning for Large Margin Nearest Neighbor Classification.Journal of Machine Learning Research 10:207-244(2009).)可以在保持半正定约束的情况下,最小化目标函数由此, 便可利用PSP求解公式(18)中的问题。算法1给出了 PSP算法的细节。
[0091 ] 与此同时,可以利用Wen等人提出的梯度下降曲线搜索(Gradient Descent Method with Curvilinear Search,GDMCS)算法(参考文献:Zaiwen Wen and Wotao Yin.A feasible method for optimization with orthogonality constraints .Math.Program. 142( 1-2): 397-434(2013) ·),在最小化目标函数过程中保持 公式(18)中的正交约束。算法2给出了GDMCS算法的细节。
[0094] 而当利用APG算法求解公式(15)中的问题时,给定点S= [As Bs]在凸集e上的欧几 里德投影Z=[Az Bz]为:
[0095] pro/tf (S) = ar,g IlZ - S|g/'2 (19)
[0096] 通过结合APG、PSP和GDMCS算法,便可求解公式(I 9)中的问题。算法3给出了本发明 提供的HMSL算法的具体细节,其中函数Schmidt( ·)表示Gram-Schmidt正交化。
[0099] 在公式(14)中的CMRR模型可以简化为:
[0100] -? W(0) = w(0) + rt(0) (20)
[0101] 其中,w0 = H|-r|Hlf为平滑目标函数,t( · )=|卜I I*为不可微函数,θ=[ρθ Q? ]代表优化变量,2为封闭且针对单个变量的凸集:
[0102] Q - {Θ[^e ^ Xni/ Qe ^ i'itjxni? Q-fld = 二.?} (21)
[0103] 由于w( ·)是关于公式(17)中的Lipschitz连续梯度L连续可微的。所以,同样可以 利用APG求解公式(20)中的问题。而每个给定点s在凸集fi上的欧几里德投影为:
[0104] pro}q(.s) = arg ?η?η\\Θ - s\\2F/2 (22)
[0105] 为了求解公式(22)中的问题,根据本发明提供的GEC策略,本发明提供的Energy (·)和C〇mpetiti 〇n( ·)函数,可以在保持初等变换约束的情况下,最小化目标函数。算法4 给出了Energy( ·)函数的具体细节,此函数根据公式(11,12,13)计算由梯度下降算法得到 的梯度矩阵G中每个元素的全局能量,进而获得能量矩阵E。此外,本发明提供的 Competition!; ·)函数,根据算法4产生的能量矩阵E,创建一个标准的初等变换矩阵。算法5 给出了Competition!; ·)函数的具体细节。通过结合APG,Energy,和Competition算法,便可 求解公式(22)中的问题。算法6给出了 CMRR方法的具体细节。
[0111] 本发明提供的多源异构大数据的冗余源协同缩减HMSL+CMRR框架,针对多源异构 数据的冗余源问题,利用多源异构数据间的语义互补性、信息相关性和分布相似性,基于子 空间学习方法,通过对已有的无冗余多源异构数据间关联性的挖掘,协同去除多个来源中 三向冗余和双层异构性,降低数据维度,提炼数据子集,修复异构描述间的一一对应关系, 精简多源异构数据的冗余源。
[0112] 以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术 人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本 发明的保护范围应以权利要求书所述为准。
【主权项】
1. 一种多源异构大数据的冗余源协同缩减方法,其步骤包括: 1) 利用已有的多源无冗余数据学习多个异构线性变换、一个决策矩阵和一个流形平滑 度量,将异源间的相关异构描述禪合到一起,W捕捉异源间的语义互补性、信息相关性和分 布相似性,消除异源间的异构性,从而构建出一个低维的特征同构空间;在所述低维的特征 同构空间中,使信息相关描述的流形距离更近,而语义互补样本的欧氏距离更近; 2) 在所述低维的特征同构空间中,利用基于梯度能量竞争策略的广义初等变换约束, 并基于异源间的语义互补性、信息相关性和分布相似性,消除多源冗余数据的Ξ向冗余和 双层异构性。2. 如权利要求1所述的方法,其特征在于,步骤1)对异源间的语义互补性、信息相关性 和分布相似性建立如下优化模型:其中,46胶味,幻S占 e阪泣yxfc,k<min(dx,dy)为特征同构子空间的维度,α和β为平衡参数, W为决策矩阵,Μ为流形平滑度量;利用正交约束ΑΤα=Ι和护8 = 1消除同一来源内不同特征之 间的相关性,同时借助半正定约束Me股kx^^*0确保模型Ψl能够学习到一个良好定义的伪 度量;上述公式中的目标函数为包含语义子函数、相关子函数和分布子函数的复合函数,其 中目标函数中的第一项fs(A,B,W)为基于多变量线性回归的语义子函数,用来捕捉不同来 源间的语义互补性;目标函数中引入相关子函数gM(A,B,M)的目的就是度量不同线性变换A 和B之间的平滑度,W提取异构描述之间的相关信息;目标函数中的第Ξ项分布子函数hD (A,B)为由不同来源的分类准确率构成的交叉验证,该子函数基于马氏距离度量挖掘不同 来源间的分布相似性。3. 如权利要求2所述的方法,其特征在于:步骤2)所述梯度能量竞争策略首先由梯度下 降方法得到梯度矩阵G,然后计算梯度矩阵的每个内部元素 Gu在垂直方向的样本间能量Ebs 和水平方向的样本内能量Ews,从而得到每个内部元素 Gij的全局能量Eglobe:通过计算出矩阵 G中每个元素的全局能量得到能量矩阵E;所述梯度能量竞争策略通过比较矩阵E中每个元 素的能量,将获胜者即能量最大者的值设置为1,而与获胜者同行同列的元素的值都被设置 为0,如此往复,直到构建出一个广义初等变换矩阵Q。4. 如权利要求2或3所述的方法,其特征在于:步骤2)利用步骤1)获得的最优解(A^B^ W*,M*),将多源异构冗余数据而G rbxdx和Κε e阪,wdy构建为特征同构的冗余矩阵H = XrA* 和R =化护,其中Π 2为来源Vx中冗余样本的数量,Π 3为来源Vy中冗余样本的数量,且Π 2辛m;并 借助决策矩阵r预测冗余样本Η和R的类别,W修复同一对象异构描述间的互补关系;同时, 通过学习到的广义初等行变换矩阵Ρ和Q,调换矩阵Η和R中冗余样本的位置,从而将信息相 关的异构描述匹配到一起,并根据Μ气肖除互补关系超额冗余和数据描述过剩冗余,重新建 立异构描述间的一一对应关系。5. 如权利要求4所述的方法,其特征在于:步骤2)建立如下优化模型:其中,Ρ和Q为广义初等行变换矩阵,£邮碱e iRUzxn嘴Σ:η3々4 e 为两组广义初等行 变换矩阵的集合,n4=min(n2,n3),丫和τ为平衡参数;目标函数中的第一项利用步骤1)学习 到的多个异构线性变换A勺邮及决策矩阵r,在消除互补关系超额冗余和样本特征繁多 冗余的同时,重塑同一对象异构描述间的一一对应关系;目标函数中的第二项借助步骤1) 学习到的流形平滑度量消除同一来源内的数据描述过剩冗余,W提取匹配的异构描述 间的相关信息;目标函数中的第Ξ项为基于迹范数的低秩正规化项,W使复合描述尽可能 线性可分。
【文档编号】G06F17/30GK105843896SQ201610166631
【公开日】2016年8月10日
【申请日】2016年3月22日
【发明人】张磊, 王树鹏, 云晓春
【申请人】中国科学院信息工程研究所