一种基于张量分解的缺失关联规则挖掘方法
【技术领域】
[0001] 本发明涉及云计算领域,尤其涉及一种基于张量分解的缺失关联规则挖掘方法。
【背景技术】
[0002] 如今,越来越多的应用程序面临着处理来自多个分布式数据源的潜在大数据的问 题。在大型计算机或传感器网络中,每个组件都拥有一些有关系统全局状态的数据,大部分 系统功能依赖建模系统的全局状态,而系统的全局状态不断变化,必须保持模型最新并搜 索完整信息。计算全局数据挖掘模型时,往往需要较高的计算成本。
【发明内容】
[0003] 本发明为克服上述的不足之处,目的在于提供一种基于张量分解的缺失关联规则 挖掘方法,本方法通过在云的每个节点上局部发现关联规则、并对局部结果进行全局相关, 从而发现缺失关联规则;本方法能够更好地处理云计算环境中的海量数据,具有优越性。
[0004] 本发明是通过以下技术方案达到上述目的:一种基于张量分解的缺失关联规则挖 掘方法,包括如下步骤:
[0005] (1)每个节点对自身所带的局部数据进行局部相关,在每个节点上运用先验算法 发现局部关联规则,得到节点的局部置信度;
[0006] (2)利用节点网络、每个节点的局部关联规则及权重矩阵建立基于张量的全局相 关丰吴型;
[0007] (3)通过CP分解方法分解全局相关模型中的张量置信度,并使用共辄梯度算法计 算得到近似张量置信度;
[0008] (4)当存在缺失数据的情况下,利用分布式算法结合局部置信度与近似张量置信 度得到接近缺失值的置信度张量,发现缺失关联规则。
[0009] 作为优选,所述步骤(1)发现局部关联规则步骤如下:
[0010] (a)使用Apriori算法提取频繁项集I1;…;Im;
[0011] (b)若)C= {i.:1;…;ijClj,Y=Ik-X且conf(X-Y)多minconf,minconf为预先 设定的,则从频繁项集Ik产生关联规则X-Y。
[0012] 作为优选,所述的基于张量的全局相关模型由置信度张量表示,通过uplet(R,G, w)定义置信度张量S;
[0013] 其中,R表示节点网络
中频繁项集的集合;S表示空间 Rnxnxr上的张量,在[0,1]取值;W表示权重矩阵。
[0014] 作为优选,所述权重矩阵W的定义如下:
[0015] 设HberHlj为所有节点中项集i,j之间关联规则有关的所有置信度,则wu表示 权重矩阵,定义为
[0016]
[0017] 作为优选,所述步骤(3)的CP分解方法将张量置信度x分解为向量或矩阵,如下 所示:
[0019] 作为优选,所述步骤(3)近似张量置信度使用迭代算法最小化L(X)计算,公式如 下,此过程利用共辄梯度算法完成:
[0021] 其中,Wlj为权重矩阵,Su为张量,Xu张量置信度分解而得的矩阵。
[0022] 本发明的有益效果在于:本方法能够更好地处理云计算环境中的海量数据,具有 优越性。
【附图说明】
[0023] 图1是本发明实施例的流程示意图。
【具体实施方式】
[0024] 下面结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不仅限于 此:
[0025] 实施例:如图1所示,一种基于张量分解的缺失关联规则挖掘方法包括如下步骤: 局部数据相关发现每个节点上局部关联规则,因此,无需集中所有节点的数据,发现的关联 规则和它们各自的置信度表示在矩阵(称为局部置信度矩阵)中,计算每个节点的局部置 信度矩阵,通过在每个节点上局部运用先验算法实现关联规则发现。对局部关联规则进行 全局数据相关,从而发现缺失关联规则,通过识别和发现2个步骤对每个节点执行缺失关 联规则的发现。
[0026] 在本发明的实施例中,每个节点对数据进行局部相关,从而识别频繁项集,并形成 它们之间的条件蕴含规则。节点队上,数据为一组事务,也称为事务基。通过以下2个步 骤实现提取。
[0027] 步骤1使用Apriori算法提取频繁项集I1;…;Im,见算法1。
[0028] 算法1提取频繁项集的Apriori算法。
[0029]
[0030] 步骤2从频繁项集I1;…;I"产生规则。若:X={ii; ?";HcIj,Y=Ik-X且 conf(X-Y)彡minconf,从频繁项集Ik产生关联规则X-Y0
[0031] 如此就可以跟进步骤1获得的频繁项集生成局部数据的关联规则。紧接着将基于 张量的全局相关模型求解缺失关联规则的近似置信度。
[0032] 在本发明的实施例中,相关模型由置信度张量表示,通过uplet(R,G,w)定义置信 度张量S,其中,R表示节点网络=N1,N2,…,队;61表示节点 合;3表示空间1^^上的张量,在[0,1]取值沿1^1^表示与所有节点中项集1,」之间 关联规则有关的所有置信度,表示权重矩阵,定义为
[0033]
[0034] 预测关系模式的任务,即缺失关联规则置信度,将尝试寻找矩阵w的所有零值的 所有关系模式。因此,寻找尽可能与原始张量S接近的分解。
[0035] 在本发明的实施例中,节点间存在缺失规则的情况下,关联规则置信度近似的问 题可改写为通过寻找同一大小的张量X的近似S的问题,最小化S的成本,定义为
[0037] 近似张量X通过使用迭代算法最小化L(X)计算,利用共辄梯度算法完成,见算法 2〇
[0038] 算法2梯度算法
[0041] 使用梯度算法前,必须将张量X分解为向量或矩阵,使用CP(Candecomp/Parafac) 分解方法,表不为
[0043] 记CP分解给出的3个矩阵,X= [ [A,B,C]]。
[0044] 设置X= [ [A,B,C]],得到
[0046] 为了建立形式L(X)的梯度范式,为3个方向X=A,Y=B和Z=X确定偏导数分 别为
[0050] 在本发明的实施例中,利用分布式算法将局部相关与全局相关相结合,见算法3。
[0051] 算法3的步骤实际上便是将算法1和算法2基于缺失关联规则的全局数据上重新 执行一次。具体地,在云的每个节点上运用先验算法在存在缺失数据的情况下计算关联规 贝1J,获得的结果为置信度矩阵集,它们的组合将提供一个存在缺失关联规则情况下的置信 度张量S,张量中缺失关联规则的置信度未知;再使用CP分解方法分解置信度张量,最后利 用共辄梯度算法近似求解张量中未知置信度。
[0052] 算法3分布式发现算法。
[0053]
[0055] 以上的所述乃是本发明的具体实施例及所运用的技术原理,若依本发明的构想所 作的改变,其所产生的功能作用仍未超出说明书及附图所涵盖的精神时,仍应属本发明的 保护范围。
【主权项】
1. 一种基于张量分解的缺失关联规则挖掘方法,其特征在于包括如下步骤: (1) 每个节点对自身所带的局部数据进行局部相关,在每个节点上运用先验算法发现 局部关联规则,得到节点的局部置信度; (2) 利用节点网络、每个节点的局部关联规则及权重矩阵建立基于张量的全局相关模 型; (3) 通过CP分解方法分解全局相关模型中的张量置信度,并使用共辄梯度算法计算得 到近似张量置信度; (4) 当存在缺失数据的情况下,利用分布式算法结合局部置信度与近似张量置信度得 到接近缺失值的置信度张量,发现缺失关联规则。2. 根据权利要求1所述的一种基于张量分解的缺失关联规则挖掘方法,其特征在于: 所述步骤(1)发现局部关联规则步骤如下: (a) 使用Apriori算法提取频繁项集I1;…;Im; (b) 若";ii}cl」,Y=Ik-X且conf(X-Y)彡minconf,minconf为预先设定 的,则从频繁项集Ik产生关联规则X-Y。3. 根据权利要求1所述的一种基于张量分解的缺失关联规则挖掘方法,其特征在于: 所述的基于张量的全局相关模型由置信度张量表示,通过uplet(R,G,w)定义置信度张量 S; 其中,R表示节点网络;G表示节中频繁项集的集合;S表示空间Rnxnxr 上的张量,在[〇, 1]取值;W表示权重矩阵。4. 根据权利要求3所述的一种基于张量分解的缺失关联规则挖掘方法,其特征在于: 所述权重矩阵W的定义如下: 设HberHlj为所有节点中项集i,j之间关联规则有关的所有置信度,则wu表示权重 矩阵,定义为5. 根据权利要求1所述的一种基于张量分解的缺失关联规则挖掘方法,其特征在于: 所述步骤(3)的CP分解方法将张量置信度X分解为向量或矩阵,如下所示:6. 根据权利要求1所述的一种基于张量分解的缺失关联规则挖掘方法,其特征在于: 所述步骤(3)近似张量置信度使用迭代算法最小化L(X)计算,公式如下,此过程利用共辄 梯度算法完成:其中,Wij为权重矩阵,Su为张量,Xu张量置信度分解而得的矩阵。
【专利摘要】本发明涉及一种基于张量分解的缺失关联规则挖掘方法,包括如下步骤:(1)每个节点对自身所带的局部数据进行局部相关,在每个节点上运用先验算法发现局部关联规则,得到节点的局部置信度;(2)利用节点网络、每个节点的局部关联规则及权重矩阵建立基于张量的全局相关模型;(3)通过CP分解方法分解全局相关模型中的张量置信度,并使用共轭梯度算法计算得到近似张量置信度;(4)当存在缺失数据的情况下,利用分布式算法结合局部置信度与近似张量置信度得到接近缺失值的置信度张量,发现缺失关联规则。本方法能够更好地处理云计算环境中的海量数据,具有优越性。
【IPC分类】G06F17/16
【公开号】CN105224507
【申请号】CN201510631132
【发明人】周天和, 卢晓飞, 蔡荣, 张元元, 张帆
【申请人】杭州天宽科技有限公司
【公开日】2016年1月6日
【申请日】2015年9月29日