一种基于关系传播网络的多维数据空间相似度匹配方法
【技术领域】
[0001] 本发明设及一种相似度匹配方法,尤其是设及一种基于关系传播网络的多维数据 空间相似度匹配方法。
【背景技术】
[0002] 数据对象之间相似度的计算是许多科学和应用领域的基本要求,如人脸识别的基 本方法就是通过计算两张人脸之间的相似程度来判别两张人脸是不是同一张人脸或者一 张脸和另一张脸"比较像",生物识别中也需要计算相似度作为研究基础,如判断给定的植 物叶子属于哪种植物,即是通过计算给定的植物叶子与植物信息库中的各种叶子相似度, 如果给定的植物叶子与植物信息库中的植物P的叶子通过某种方法计算的相似度最大,贝U 可W认定:此指定的叶子属于植物P。
[0003] 传统上,相似度的计算都是在相同类型数据对象之间进行,如上述人脸识别中是 计算两张人脸之间的相似性,人脸属于同一类型的数据对象,生物识别中是计算植物类型 之间的相似性。因此,传统的相似度应用领域决定了传统的相似度计算算法也多是在同一 类型数据对象空间内进行计算,传统的相似度算法所利用的信息也就仅仅限于同类数据对 象空间之内的已知信息。现在是一个信息急速增长的时代,人们所能获得的数据不再局限 与某一维数据对象空间,在相似度计算领域,大规模多维数据空间的数据信息正促使一些 新的相似度算法的提出,运些新的相似度算法能够从多个数据空间内挖掘相似关系,通过 综合多维数据空间内的信息来计算不同数据对象之间的相似性。
[0004] SimRank算法是Jeh和Widom在2002年提出的,SimRank算法认为数据对象之间不是 孤立的,而是有相似关系的,所有数据对象之间的相似关系组成了数据对象相似关系网络, 而相似网络中每一条边就代表了边的两端数据对象之间的相似关系,而边的权重即代表了 边的两端数据对象之间相似关系的强弱,如图1所示,图中虚线框为SimRank算法应用的数 据空间,虚线框内的小圆点代表该数据空间内的数据对象,数据对象之间的连线代表数据 对象之间具有相似关系,图中可看出a和b为数对空间中的两个数据对象,若要计算数据对 象a和数据对象b之间的相似性可W将既与数据对象a又与数据对象b有相似关系的数据对 象考虑进来,设S (a,b)表示数据对象a和数据对象b之间的相似度,则:
[0005]
[0006] 其中,|R(a) I表示和数据对象a有相似关系的数据对象的个数,即图1中直接与数 据对象a相连的数据对象的个数,I R(b) I表示和数据对象a有相似关系的数据对象的个数, 即图1中直接与数据对象b相连的数据对象的个数,Ri(a)表示第i个和数据对象a有相似关 系(相连)的数据对象,町化)表示第j个和数据对象b有相似关系(相连)的数据对象,所WS (Ri(a),R^b))即表示的是与数据对象a相连的第i个数据对象和与数据对象b相连的第j个 数据对象之间的相似关系,
则是与数据对象a相连的数据对象与 和数据对象b相连的数据对象之两两之间相似度的求和,C是一个常数。SimRank算法的优点 为:该算法综合考虑了不同数据对象之间的相似关系,通过数据对象与其他数据对象的相 似关系来求指定数据对象之间的相似度,但是SimRank算法没有对不同数据对象之间的相 似度关系进行分类,使得算法在向多维数据空间的扩展上缺少理论依据。
【发明内容】
[0007] 本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种可W扩展到任 意维数据空间之上,用于求出任意两维数据空间之内的任意两个数据对象的相似度的基于 关系传播网络的多维数据空间相似度匹配方法。
[0008] 本发明的目的可W通过W下技术方案来实现:
[0009] -种基于关系传播网络的多维数据空间相似度匹配方法,该方法包括如下步骤:
[0010] (1)建立η个不同数据空间的关系传播网络,并建立其关系传播矩阵RTN:
[0011]
[001 ^ 矩阵RTN各元素记作RSij,其中i = 1,2……η,j = 1,2……η,RSu为数据空间Si和数 据空间&的相似关系矩阵,RSu均为Cl Xc苗隹矩阵,其中Cl为数据空间Si中的数据对象个 数,Cj为数据空间&中的数据对象个数;
[OOU] (2)分另輸定数据空间Si和数据空间S油似关系重要性权重矩阵λυ,对于任意i = 1,2......n,满足
[0014] (3)根据关系传播矩阵RTN和重要性权重矩阵λυ建立常矩阵R,具体为:
[0016] 其中
,其维数与关系传播矩阵RT腺隹数相同;
[0017] (4)赋值1( = 0,获取初始相似度传播矩阵1^5*^ = 6,其中抓5*^与关系传播矩阵脚於隹 数相同,Ε为单位矩阵;
[001引 (5)计算
[0019] (6)判断ABS(SUM(RTSK"-RTSK))含F是否成立,其中洲M(RTSK"-RTSK)表示对矩阵 (RTSK"-RTSK)中各元素求和,ABS (SUM( RTSK"-RTSK))表示矩阵(RTSK"-RTSK)中各元素求和 后的绝对值,F为相似度阔值,若ABS(SUM(RTSK+i-RTSK))非成立,则赋值RTS = RTSK+M呆存 得到相似度传播矩阵RTS并执行步骤(7),否则赋值Κ=Κ+1,返回步骤(5);
[0020] (7)获取相似度传播矩阵RTS中的元素,进行多维数据空间中的数据对象之间的匹 配。
[002。 步骤(1)中所述的RSij具体为:
[0022]
[002;3] 矩阵RSi冲各元素记作RSij化,f),其中1非< ci,1 y < Cj,RSu化,f)为数据空间 Si中第k个数据对象和数据空间S冲的第f个数据对象之间的相似关系。
[0024] 所述 RSii(k,f)溺足:
[0025]
[0026] 步骤(2)中采用专家评定法确定数据空间Si和数据空间&相似关系重要性权重矩 阵入ij。
[0027] 所述的专家评定法具体包括W下步骤:
[002引(201)分别获取m个专家评定的η个数据空间两两之间的相对重要性程度矩阵mS
[0029]
[0030] 矩阵Mk中的各元素记作/Mf,/M^'为第k个专家评定的第i个数据空间和第j个数 据空间的相对重要性程度,其中i = l,2......n,j = l,2......n,k=l,2......m;
[0031] (202)根据相对重要性程度矩阵Mk分别获取每个专家评定的第η个数据空间的相 对权重《:
[0032]
[0033] 其中1 = 1,2......n,k = l,2......m;
[0034] (203)对于k=l,2……m,将η个数据空间按《分别从小到大进行排序,分别得到第 k个专家的排序序列,假设第i个数据空间在排序前为第i位,排序后为第fk(i)位,则第k个 专家评定第i个数据空间排在第j位的程度为pk(i,j):
[0035]
,.
[0036] 其中 i = i,2......η, j = 1,2......η;
[0037] (204)根据Pk(ij)计算出m个专家综合评定的第i个数据空间排在第j位的程度为
[00;3 引
[0039] 其中1 = 1,2......η, j = 1,2......η;
[0040] (205)根据P(i,j)分别计算第i个数据空间在第η个数据空间的重要程度W(i):
[0041]
[0042] 其中 i = l,2……η;
当前第1页
1 
2 
3 
4