一种大数据挖掘分析方法

文档序号：8512585阅读：613来源：国知局

一种大数据挖掘分析方法
【技术领域】
[0001] 本发明涉及大数据处理，特别涉及一种大数据挖掘分析方法。
【背景技术】
[0002] 云计算借助互联网平台，提供廉价的分布式动态可扩展的计算能力。云计算可以使实现物物相连、网网相通的理想效果。多种信息传感设备在中相互通信，产生的数据是海量的。因此如何生成的海量大数据中快速有效地提取出有用的信息是至关重要的。传统的数据处理方法存在的缺点就是在执行过程中要多次扫描整个数据库，产生庞大的候选集，造成时间和空间的浪费。

【发明内容】

[0003] 为解决上述现有技术所存在的问题，本发明提出了一种大数据挖掘分析方法，包括：首先通过迭代查找数据库中所有支持数不低于用户所设定阈值的项目集，然后利用检索得到的项目集来构造满足最小置信度的规则；对关联规则生成过程进行MapReduce处理，并移植到云计算平台，应用于基于云计算的数据分析处理。
[0004] 优选地，所述关联规则生成过程进一步包括：
[0005] (1)以16Mb大小的数据集为一个单位进行分配，将事务数据库D水平均匀地划分成η个子集，将其发送到m个工作节点；
[0006] (2)将候选项目集X的支持数的累计值记为CS (X)，设定每个CS (X)的初始值均为 1，每个工作节点扫描各自分配到的子集，产生一个包含候选1项目集一直到候选K项目集的集合，记作CP ;
[0007] (3)定义分区函数，将m个工作节点生成的候选1项目集一直到候选K项目集分成r个不同的分区，连同各自cs发送到r个节点；各节点把同一项目集的cs累加，得到各项目集的最终cs，将各项目集的最终cs与预先设定的最小支持数的累计值Smin进行比较，删除支持数小于Smin的项目集，确定一个局部的项目集集合L p;
[0008] (4)合并所有r个节点的结果Lp，生成全局的项目集集合L ;
[0009] (5)根据设定的最小置信度cm遍历项目集，得到强关联规则，过程结束。
[0010] 优选地，所述关联规则生成过程进行MapReduce处理，进一步包括：
[0011] (I)MapReduce将事务数据库D水平地划分成η块，通过参数确定每块的大小，把η 个数据子集发送到m个执行Map事务的节点，由主程序负责调度，将处理事务分配给处于空闲列表中的工作机；
[0012] (2)格式化η个数据子集，产生ID，Value键值对，其中ID表示D中的事务ID， Value为相应事务ID对应的列表值；
[0013] (3)Map操作对输入的每个ID，Value键值对进行扫描，生成一个局部候选1项目集到候选k项目集的集合CP，每个候选项目集的cs初始值都设定为1，Map操作输出中间结果Itemset，1键值对，其中Itemset表示CP中的候选项目集；
[0014] (4)在每个执行Map函数的工作机上增加一个可选的分区函数，将Map操作产生的中间结果进行合并，输出中间键值对Itemset，s，其中s表示Itemset在数据子集中的cs 的累加值，然后利用散列函数：
【主权项】
1. 一种大数据挖掘分析方法，用于通过基于云计算的数据分析处理系统进行数据分析，其特征在于，包括：首先通过迭代查找数据库中所有支持数不低于用户所设定阈值的项目集，然后利用检索得到的项目集来构造满足最小置信度的规则；对关联规则生成过程进行MapReduce处理，并移植到云计算平台，应用于基于云计算的数据分析处理。
2. 根据权利要求1所述的方法，其特征在于，所述关联规则生成过程进一步包括： (1) 以16Mb大小的数据集为一个单位进行分配，将事务数据库D水平均匀地划分成η 个子集，将其发送到m个工作节点； (2) 将候选项目集X的支持数的累计值记为cs (X)，设定每个cs (X)的初始值均为1，每个工作节点扫描各自分配到的子集，产生一个包含候选1项目集一直到候选K项目集的集合，记作CP ; (3) 定义分区函数，将m个工作节点生成的候选1项目集一直到候选K项目集分成r个不同的分区，连同各自cs发送到r个节点；各节点把同一项目集的cs累加，得到各项目集的最终cs，将各项目集的最终cs与预先设定的最小支持数的累计值Smin进行比较，删除支持数小于Smin的项目集，确定一个局部的项目集集合L p; (4) 合并所有r个节点的结果Lp，生成全局的项目集集合L ; (5) 根据设定的最小置信度cm遍历项目集，得到强关联规则，过程结束。
3. 根据权利要求2所述的方法，其特征在于，所述关联规则生成过程进行MapReduce处理，进一步包括： (1) MapReduce将事务数据库D水平地划分成η块，通过参数确定每块的大小，把η个数据子集发送到m个执行Map事务的节点，由主程序负责调度，将处理事务分配给处于空闲列表中的工作机； (2) 格式化η个数据子集，产生ID，Value键值对，其中ID表示D中的事务ID，Value 为相应事务ID对应的列表值； (3) Map操作对输入的每个ID，Value键值对进行扫描，生成一个局部候选1项目集到候选k项目集的集合CP，每个候选项目集的cs初始值都设定为1，Map操作输出中间结果 Itemset，1键值对，其中Itemset表示CP中的候选项目集； (4) 在每个执行Map函数的工作机上增加一个可选的分区函数，将Map操作产生的中间结果进行合并，输出中间键值对Itemset，s，其中s表示Itemset在数据子集中的cs的累加值，然后利用散列函数：
J =1 其中Hi1, m2, ％，…，mk为K项目集中的项在D的项目集中对应的序号，按升序排列，r 为划分的不同分区的数目，将分区函数产生的Itemset，s分成r个分区，主程序负责将各分区分配到对应的Reduce函数； (5) Reduce节点读取分区函数提交的键值对Itemset，s，对其进行排序及合并后，形成 Itemset，list (s)，再进行相应Reduce操作，得到各候选项目集在D中的实际支持数累计值，保留所有大于等于最小支持数累计值Smin的候选项目集，即是局部项目集的集合L p; 合并r个分区中Reduce函数输出的项目集，得到最终的项目集的集合L ; (6)当完成全部的Map操作和Reduce操作后，主程序激活用户程序，MapReduce返回到相应的调用点。
【专利摘要】本发明提供了一种大数据挖掘分析方法，该方法包括：首先通过迭代查找数据库中所有支持数不低于用户所设定阈值的项目集，然后利用检索得到的项目集来构造满足最小置信度的规则；对关联规则生成过程进行MapReduce处理，并移植到云计算平台，应用于基于云计算的数据分析处理。本发明的方法在基于云计算的数据分析处理中，能够提高数据分析处理的执行效率，特别是在大数据集的情况下效果尤为明显。
【IPC分类】G06F17-30
【公开号】CN104834733
【申请号】CN201510254391
【发明人】高爽
【申请人】成都博元科技有限公司
【公开日】2015年8月12日
【申请日】2015年5月18日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：高爽;
技术所有人：成都博元科技有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。