一种面向多用户协作的数据挖掘平台的构建方法
【专利摘要】本发明公开了一种面向多用户协作的数据挖掘平台的构建方法,该方法集成了弹性工作流、多用户协作机制,提供了面向数据采集人员、数据分析人员和结果审查人员三种用户角色协作进行数据挖掘的工作空间,整个工作流程以构件来实现,包括:数据采集构件、数据预处理构件、数据建模构件、结果可视化显示构件和模型评估构件。不同的用户角色可以在不同的用户视图里以拖拽的方式建立和操纵由构件和箭头组成的弹性工作流。针对数据挖掘不断重复、不断修改、不断迭代的复杂性,本发明不仅可以极大的简化数据挖掘工作,还可以防止数据的外泄,保证数据的安全性。
【专利说明】一种面向多用户协作的数据挖掘平台的构建方法
[0001]
【技术领域】
[0002]本发明涉及一种集成弹性工作流、面向多用户协作的数据挖掘平台的构建方法,属于数据挖掘【技术领域】。
【背景技术】
[0003]数据挖掘(data mining)是一种从海量的历史业务数据中,透过数理分析模式提取出蕴藏于其中的潜在信息的过程。数据挖掘是一个不断重复、不断修改、不断迭代的过程,主要包括:数据采集、数据预处理、数据分析、结果可视化显示和模型评估等流程。目前,数据挖掘已经在银行、电信、保险、交通、零售等商业领域得到了广泛的应用。
[0004]现有的数据挖掘平台,存在以下问题:缺少可撤销、可重做、可保存的弹性用户工作空间,使得用户在进行数据挖掘时必须一步到位,带来诸多不便;缺少可修改、可迭代、可中间结果输出的流程化构件,使得用户不能很好地了解和操纵其数据分析过程;面向单用户的挖掘机制,使得用户集数据采集人员、数据分析人员、结果审查人员三个角色于一身,无法在整个分析流程中进行协作,还易于导致数据和分析结果的外泄,引起数据安全问题。
【发明内容】
[0005]发明目的:针对现有技术中存在的问题,本发明提供一种涉及弹性工作流、多用户协作的数据挖掘平台的构建方法。
[0006]通过本发明方法构建的数据挖掘平台提供一种基于Web的可撤销、可重做、可保存的弹性用户工作空间。在用户工作空间里,数据采集人员可以上传、更新、删除数据集;数据分析人员可以建立和操纵自己的数据分析流程;结果审查人员可以进行挖掘结果的审查和批复。
[0007]技术方案:一种面向多用户协作的数据挖掘平台的构建方法,提供一种面向数据采集人员、数据分析人员和结果审查人员三种用户角色协作进行数据挖掘的工作空间,整个工作流程以构件实现,包括:数据采集构件、数据预处理构件、数据建模构件、结果可视化显示构件和模型评估构件。不同的用户角色使用不同的用户视图,可以使用拖拽的方式建立和操作自己的数据分析流程,所述数据采集人员通过所述数据采集构件进行数据的上传、更新和删除操作,所述数据分析人员按流程顺序依次利用数据预处理构件、数据建模构件、结果可视化构件和模型评估构件进行数据采集、数据预处理、建模、模型评估等数据分析操作,所述结果审查人员在所述用户工作空间里通过所述结果可视化构件对挖掘结果进行审查和批复。
[0008]所述用户工作空间是一个拖拽式的图形操作界面,包括:候选流程构件区和流程创建区两个部分,所述候选流程构件区是陈列一系列可伸展式数据挖掘流程构件的区域,所述流程创建区是用户建立和操纵数据分析流程的区域。[0009]所述数据分析流程是一种由构件和箭头组成的弹性工作流。在任意一条数据分析流程上,用户都可以随时进行调整构件节点上的执行参数、更改流程执行方向以及导出中间运算结果等操作。
[0010]数据挖掘平台构建方法包括以下步骤;
步骤1:设计并实现数据采集构件。在以下两种情况下进行数据采集:在数据库中采集数据和web上传方式采集数据。
[0011]在数据库中采集数据,通过Java数据库连接实现,将数据挖掘平台的数据访问实时地转化为数据库中相应的数据查询。
[0012]Web上传方式采集数据,通过监听web客户端的数据上传请求,建立客户端和数据存储服务器的socket连接,再使用Java I/O流将数据集写入到数据存储服务器的文件系统中。
[0013]在两种数据采集构件具体实现时,都需将数据集相应的数据的元数据信息保存到系统的数据库中,并对外提供统一的访问接口。
[0014]步骤2:设计并实现数据预处理构件。通过R语言对数据集进行统计分析,以图形的方式向用户展现数据集的基本描述信息;封装插值填补、记录去除和数据修正的数学方法,提供处理数据缺失值、处理重复数据、处理噪声数据和处理异常数据等数据预处理环节的用户接口。
[0015]步骤3:设计并实现数据建模构件。通过R语言封装分类、聚类、关联和时间序列等数据挖掘模型;提供图形界面接口给用户设置相应的模型分析参数。
[0016]步骤4:设计并实现结果可视化显示构件。通过R语言将数据挖掘结果和模型评估结果以图形、列表等方式展现给用户;通过Ajax轮询技术将结果实时推送给结果审查人员。
[0017]步骤5:设计并实现模型评估构件。通过使用R语言提供精确率、误差率和混淆矩阵等多种模型评估方法;提供将模型分析参数和模型元数据信息保存到系统数据库的用户接口。
[0018]步骤6:设计并实现用户工作空间。通过JQuery实现一个拖拽式的图形操作界面,包括构件候选流程构件区和流程创建区两个部分;通过堆栈数据结构存储用户操作日志,提供撤销、重做和保存工作空间的用户接口。
[0019]步骤7:定义并实现数据挖掘流程。以步骤I至步骤5设计的数据挖掘构件为节点,定义由若干个节点和箭头组成的工作流;提供调整节点执行参数、更改流程执行方向以及导出中间运算结果等用户接口。
[0020]步骤8:集成和部署挖掘平台。对步骤I至步骤5设计的数据挖掘构件提供JSON格式的配置接口,提供以编辑配置文件的方式定制挖掘平台的功能的用户接口。
[0021]本发明采用上述技术方案,具有以下有益效果:针对数据挖掘的不断重复、不断修改、不断迭代的复杂性,提供了一种面向多用户协作的弹性数据挖掘工作空间。不仅可以极大的简化数据挖掘工作,还可以防止数据的外泄,保证数据的安全性。
【专利附图】
【附图说明】
[0022]图1为本发明实施例的面向多用户数据挖掘平台的结构原理框图。【具体实施方式】
[0023]下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
[0024]本发明实施例中数据挖掘平台构建方法包括以下步骤;
步骤1:设计并实现数据采集构件。针对数据集的大量化(volume),多样化(variety)和快速化(velocity)等复杂特性,分为以下两种情况具体实现:在数据库中采集数据和web上传方式采集数据。
[0025]在数据库中采集数据,通过Java数据库连接(JDBC)实现,将数据挖掘平台的数据访问实时地转化为数据库中相应的数据查询SQL。
[0026]Web上传方式采集数据,通过监听web客户端的数据上传请求,建立客户端和数据存储服务器的socket连接,再使用Java I/O流将数据集写入到数据存储服务器的文件系统中。
[0027]在两种数据采集构件具体实现时,都需将数据集相应的数据的元数据信息保存到系统的数据库中,并对外提供统一的访问接口。
[0028]步骤2:设计并实现数据预处理构件。通过R语言对数据集进行统计分析,以图形的方式向用户展现数据集的基本描述信息;封装插值填补、记录去除和数据修正的数学方法,提供处理数据缺失值、处理重复数据、处理噪声数据和处理异常数据等数据预处理环节的用户接口。
[0029]步骤3:设计并实现数据建模构件。通过R语言封装分类、聚类、关联和时间序列等数据挖掘模型;提供图形界面接口给用户设置相应的模型分析参数。
[0030]步骤4:设计并实现结果可视化显示构件。通过R语言将数据挖掘结果和模型评估结果以图形、列表等方式展现给用户;通过Ajax轮询技术将结果实时推送给结果审查人员。
[0031]步骤5:设计并实现模型评估构件。通过R语言对之前建立好的模型进行评估;提供将模型分析参数和模型元数据信息保存到系统数据库的用户接口。
[0032]步骤6:设计并实现用户工作空间。通过JQuery实现一个拖拽式的图形操作界面,包括构件候选流程构件区和流程创建区两个部分;通过堆栈数据结构存储用户操作日志,提供撤销、重做和保存工作空间的用户接口。
[0033]步骤7:定义并实现数据挖掘流程。以步骤I至步骤5设计的数据挖掘构件为节点,定义由若干个节点和箭头组成的工作流;提供调整节点执行参数、更改流程执行方向以及导出中间运算结果等用户接口。
[0034]步骤8:集成和部署挖掘平台。对步骤I至步骤5设计的数据挖掘构件提供JSON格式的配置接口,提供以编辑配置文件的方式定制挖掘平台的功能的用户接口。
[0035]如图1所示,本发明涉及的数据挖掘平台面向数据采集人员、数据分析人员和结果审查人员三种用户角色进行协作数据挖掘,且提供一种构件化的用户工作空间,包括数据采集构件、数据预处理构件、数据建模构件、结果可视化显示构件和模型评估构件。
[0036]不同的用户角色使用不同的用户视图,可以使用拖拽的方式建立和操作自己的数据分析流程,数据采集人员通过数据采集构件进行数据的上传、更新和删除操作,所述数据分析人员按流程顺序依次利用数据预处理构件、数据建模构件、结果可视化构件和模型评估构件进行数据采集、数据预处理、建模、模型评估等数据分析操作,结果审查人员在用户工作空间里通过结果可视化构件对挖掘结果进行审查和批复。
[0037]数据分析流程是一种由构件和箭头组成的弹性工作流。在任意一条数据分析流程上,用户都可以随时进行调整构件节点上的执行参数、更改流程执行方向以及导出中间运算结果等操作。
【权利要求】
1.一种面向多用户协作的数据挖掘平台的构建方法,其特征在于:提供一种面向数据采集人员、数据分析人员和结果审查人员三种用户角色协作进行数据挖掘的工作空间,具体包括以下步骤: 步骤1:设计并实现数据采集构件; 在以下两种情况下进行数据采集:在数据库中采集数据和web上传方式采集数据;在数据库中采集数据,通过Java数据库连接实现,将数据挖掘平台的数据访问实时地转化为数据库中相应的数据查询; Web上传方式采集数据,通过监听web客户端的数据上传请求,建立客户端和数据存储服务器的socket连接,再使用Java I/O流将数据集写入到数据存储服务器的文件系统中;在两种数据采集构件具体实现时,都需将数据集相应的数据的元数据信息保存到系统的数据库中,并对外提供统一的访问接口 ; 步骤2:设计并实现数据预处理构件;通过R语言对数据集进行统计分析,以图形的方式向用户展现数据集的基本描述信息;封装插值填补、记录去除和数据修正的数学方法,提供处理数据缺失值、处理重复数据、处理噪声数据和处理异常数据等数据预处理环节的用户接口 ; 步骤3:设计并实现数据建模构件;通过R语言封装分类、聚类、关联和时间序列的数据挖掘模型;提供图形界面接口给用户设置相应的模型分析参数; 步骤4:设计并实现结果可视化显示构件;通过R语言将数据挖掘结果和模型评估结果以图形、列表等方式展现给用户;通过Ajax轮询技术将结果实时推送给结果审查人员;步骤5:设计并实现模型评估构件;通过使用R语言提供精确率、误差率和混淆矩阵的多种模型评估方法;提供将模型分析参数和模型元数据信息保存到系统数据库的用户接Π ; 步骤6:设计并实现用户工作空间;通过JQuery实现一个拖拽式的图形操作界面,包括构件候选流程构件区和流程创建区两个部分;通过堆栈数据结构存储用户操作日志,提供撤销、重做和保存工作空间的用户接口 ; 步骤7:定义并实现数据挖掘流程;以步骤I至步骤5设计的数据挖掘构件为节点,定义由若干个节点和箭头组成的工作流;提供调整节点执行参数、更改流程执行方向以及导出中间运算结果等用户接口; 步骤8:集成和部署挖掘平台;对步骤I至步骤5设计的数据挖掘构件提供JSON格式的配置接口,提供以编辑配置文件的方式定制挖掘平台的功能的用户接口。
【文档编号】G06F17/30GK103853821SQ201410059806
【公开日】2014年6月11日 申请日期:2014年2月21日 优先权日:2014年2月21日
【发明者】叶枫, 郭小成, 李源畅, 范仕良 申请人:河海大学