一种大数据挖掘分析方法
【技术领域】
[0001] 本发明涉及大数据处理,特别涉及一种大数据挖掘分析方法。
【背景技术】
[0002] 云计算借助互联网平台,提供廉价的分布式动态可扩展的计算能力。云计算可以 使实现物物相连、网网相通的理想效果。多种信息传感设备在中相互通信,产生的数据是海 量的。因此如何生成的海量大数据中快速有效地提取出有用的信息是至关重要的。传统的 数据处理方法存在的缺点就是在执行过程中要多次扫描整个数据库,产生庞大的候选集, 造成时间和空间的浪费。
【发明内容】
[0003] 为解决上述现有技术所存在的问题,本发明提出了一种大数据挖掘分析方法,包 括:首先通过迭代查找数据库中所有支持数不低于用户所设定阈值的项目集,然后利用检 索得到的项目集来构造满足最小置信度的规则;对关联规则生成过程进行MapReduce处 理,并移植到云计算平台,应用于基于云计算的数据分析处理。
[0004] 优选地,所述关联规则生成过程进一步包括:
[0005] (1)以16Mb大小的数据集为一个单位进行分配,将事务数据库D水平均匀地划分 成η个子集,将其发送到m个工作节点;
[0006] (2)将候选项目集X的支持数的累计值记为CS (X),设定每个CS (X)的初始值均为 1,每个工作节点扫描各自分配到的子集,产生一个包含候选1项目集一直到候选K项目集 的集合,记作CP ;
[0007] (3)定义分区函数,将m个工作节点生成的候选1项目集一直到候选K项目集分 成r个不同的分区,连同各自cs发送到r个节点;各节点把同一项目集的cs累加,得到各 项目集的最终cs,将各项目集的最终cs与预先设定的最小支持数的累计值Smin进行比较, 删除支持数小于Smin的项目集,确定一个局部的项目集集合L p;
[0008] (4)合并所有r个节点的结果Lp,生成全局的项目集集合L ;
[0009] (5)根据设定的最小置信度cm遍历项目集,得到强关联规则,过程结束。
[0010] 优选地,所述关联规则生成过程进行MapReduce处理,进一步包括:
[0011] (I)MapReduce将事务数据库D水平地划分成η块,通过参数确定每块的大小,把η 个数据子集发送到m个执行Map事务的节点,由主程序负责调度,将处理事务分配给处于空 闲列表中的工作机;
[0012] (2)格式化η个数据子集,产生ID,Value键值对,其中ID表示D中的事务ID, Value为相应事务ID对应的列表值;
[0013] (3)Map操作对输入的每个ID,Value键值对进行扫描,生成一个局部候选1项目 集到候选k项目集的集合CP,每个候选项目集的cs初始值都设定为1,Map操作输出中间 结果Itemset,1键值对,其中Itemset表示CP中的候选项目集;
[0014] (4)在每个执行Map函数的工作机上增加一个可选的分区函数,将Map操作产生 的中间结果进行合并,输出中间键值对Itemset,s,其中s表示Itemset在数据子集中的cs 的累加值,然后利用散列函数:
【主权项】
1. 一种大数据挖掘分析方法,用于通过基于云计算的数据分析处理系统进行数据分 析,其特征在于,包括: 首先通过迭代查找数据库中所有支持数不低于用户所设定阈值的项目集,然后利用检 索得到的项目集来构造满足最小置信度的规则;对关联规则生成过程进行MapReduce处 理,并移植到云计算平台,应用于基于云计算的数据分析处理。
2. 根据权利要求1所述的方法,其特征在于,所述关联规则生成过程进一步包括: (1) 以16Mb大小的数据集为一个单位进行分配,将事务数据库D水平均匀地划分成η 个子集,将其发送到m个工作节点; (2) 将候选项目集X的支持数的累计值记为cs (X),设定每个cs (X)的初始值均为1,每 个工作节点扫描各自分配到的子集,产生一个包含候选1项目集一直到候选K项目集的集 合,记作CP ; (3) 定义分区函数,将m个工作节点生成的候选1项目集一直到候选K项目集分成r个 不同的分区,连同各自cs发送到r个节点;各节点把同一项目集的cs累加,得到各项目集 的最终cs,将各项目集的最终cs与预先设定的最小支持数的累计值Smin进行比较,删除支 持数小于Smin的项目集,确定一个局部的项目集集合L p; (4) 合并所有r个节点的结果Lp,生成全局的项目集集合L ; (5) 根据设定的最小置信度cm遍历项目集,得到强关联规则,过程结束。
3. 根据权利要求2所述的方法,其特征在于,所述关联规则生成过程进行MapReduce处 理,进一步包括: (1) MapReduce将事务数据库D水平地划分成η块,通过参数确定每块的大小,把η个数 据子集发送到m个执行Map事务的节点,由主程序负责调度,将处理事务分配给处于空闲列 表中的工作机; (2) 格式化η个数据子集,产生ID,Value键值对,其中ID表示D中的事务ID,Value 为相应事务ID对应的列表值; (3) Map操作对输入的每个ID,Value键值对进行扫描,生成一个局部候选1项目集到 候选k项目集的集合CP,每个候选项目集的cs初始值都设定为1,Map操作输出中间结果 Itemset,1键值对,其中Itemset表示CP中的候选项目集; (4) 在每个执行Map函数的工作机上增加一个可选的分区函数,将Map操作产生的中间 结果进行合并,输出中间键值对Itemset,s,其中s表示Itemset在数据子集中的cs的累 加值,然后利用散列函数:
J =1 其中Hi1, m2, %,…,mk为K项目集中的项在D的项目集中对应的序号,按升序排列,r 为划分的不同分区的数目,将分区函数产生的Itemset,s分成r个分区,主程序负责将各分 区分配到对应的Reduce函数; (5) Reduce节点读取分区函数提交的键值对Itemset,s,对其进行排序及合并后,形成 Itemset,list (s),再进行相应Reduce操作,得到各候选项目集在D中的实际支持数累计 值,保留所有大于等于最小支持数累计值Smin的候选项目集,即是局部项目集的集合L p; 合并r个分区中Reduce函数输出的项目集,得到最终的项目集的集合L ; (6)当完成全部的Map操作和Reduce操作后,主程序激活用户程序,MapReduce返回到 相应的调用点。
【专利摘要】本发明提供了一种大数据挖掘分析方法,该方法包括:首先通过迭代查找数据库中所有支持数不低于用户所设定阈值的项目集,然后利用检索得到的项目集来构造满足最小置信度的规则;对关联规则生成过程进行MapReduce处理,并移植到云计算平台,应用于基于云计算的数据分析处理。本发明的方法在基于云计算的数据分析处理中,能够提高数据分析处理的执行效率,特别是在大数据集的情况下效果尤为明显。
【IPC分类】G06F17-30
【公开号】CN104834733
【申请号】CN201510254391
【发明人】高爽
【申请人】成都博元科技有限公司
【公开日】2015年8月12日
【申请日】2015年5月18日