本发明涉及数据挖掘,具体涉及一种基于约束的多维管理数据挖掘方法。
背景技术:
1、数据挖掘可提供解决很多商业问题的方法,如欺诈检测、客户保持、市场分割、分险分析、吸引力分析、客户满意度、破产预测和业务量预测等方面。数据挖掘是非常具有知识性和挑战性的工作。如果对数据挖掘的算法没有深入的了解,就不能正确地进行挖掘。然而数据挖掘中使用的统计、机器学习以及其他算法数量众多,涉及理论范围极广:统计、随机过程、神经网络、决策树、遗传算法、粗集等。
2、根据公开(公告)号:cn107168263b,公开(公告)日:2019-08-06,公开的一种基于大数据挖掘的针织mes生产计划与调度方法,属于纺织工程应用领域。本发明方法包括如下步骤,s1、建立多维针织生产数据模型;s2、基于hadoop分布式平台构建大数据分析平台;s3、在mapreduce框架下运用apriori关联规则挖掘算法对计划调度的约束因素进行挖掘;s4、根据合同需求分析订单排产优先级;s5、综合排产优先级与计划调度的约束因素,得到订单排产甘特图;s6、实时监控erp与zigbee数据,发现订单变更交货期、织造工艺更新、织机突发故障等异常事件时,动态调整生产计划。
3、公开(公告)号:cn107704608a,公开(公告)日:2018-02-16,公开的一种olap多维分析和数据挖掘系统,具有数据模型、分布式olap引擎、olap解析引擎、多维分析报表接口、数据挖掘接口和数据可视化工具,数据模型由可视化界面供用户通过拖拽完成数据建模,具有统一的模型配置,系统自动进行模型适配,使数据模型配合内部其他引擎或工具调用;分布式olap引擎为olap系统提供多维数据模型预处理能力;olap解析引擎支持大数据平台和关系型数据库的多维度查询解析引擎,将mdx语句解析为标准的sql语言;多维分析报表接口和数据挖掘接口具有多维度的数据分析和数据挖掘功能,提供报表分析方法和数据挖掘算法模型;数据可视化工具为多维分析报表接口和数据挖掘接口中的报表分析和数据挖掘提供可视化服务,并提供可视化结果社交分享和图表管理功能。
4、在包括上述专利的现有技术中,由于上述同类的挖掘软件都支持图形化的工作流程设置,因此隐含地支持某种挖掘过程方法论,过程中如crisp-dm,对算法的特征考虑得还不够。一个对算法背景没有深入了解挖掘团队,在crisp-dm的指导下,还是难以做正确的挖掘工作。
技术实现思路
1、本发明的目的是提供一种基于约束的多维管理数据挖掘方法,用于解决上述问题。
2、为了实现上述目的,本发明提供如下技术方案:
3、一种基于约束的多维管理数据挖掘系统,包括:
4、数据矢量化处理模块,用于将多个网络信息数据源中的网络信息矢量化,取样应该足够大使其能够包含重要信息,形成矢量数据源;
5、搜索预期模块,基于搜索预期数据进行关联,聚合同类数据以形成与所述矢量数据源进行对比的数据合集;
6、数据分析及模型建立模块,基于所述数据合集和所述矢量数据源对比,进行数据的修改、创建、选择和变换变量,从而建立模型。
7、模型数据分析模块,基于模型数据进行分析并分析结果进行存储。
8、优选的,对所述网络信息矢量化时,只计算具有相同索引的重要信息之间的距离,其中,所述重要信息的索引是根据之前的聚类结果确定的。
9、优选的,还包括最优方案确定模块,用于从选取的重要信息中针对一种网络信息选取对于该网络信息中重要信息作为该网络信息的最优重要信息,按照预设规则从确定的各种网络信息的最优重要信息中不重复的选取数量等于上一次聚类中心数量的1/2的重要信息作为聚类中心,对选取的重要信息进行聚类。
10、优选的,所述模型建立的方法,基于概率分布和密度、贝叶斯分类、回归方法进行建模。
11、一种基于约束的多维管理数据挖掘方法,包括以下步骤:
12、s001、建立数据的数个取样数据表,划分数据。里程碑为挖掘提供数据集,包括样本、训练集、测试集、验证集、结果回写数据集,数据净化工作完成,保证后面的挖掘得到最充分的信息;
13、s002、通过搜索预期的关系、无法预测的趋势和异常来探索数据、理解数据和建立有用的概念;
14、s003、修改数据、创建、选择和变换变量,选择模型类型;
15、s004、在局部模式及关系探索的基础上通过系列算法构造新的变量并生成值,为整体建模转换数据;
16、s005、计划对模型的监测、维护和更新,生成最终报告。
17、优选的,所述取样数据表从计算信息数据族中获取,而所述计算信息数据族代表行为、关系和/或位置分量的多个关键词与事件中代表行为、关系和/或位置分量的多个关键词的重合度,并进行归一化处理,将归一化后重合度大的关键词作为与时间关联度高的行为、关系和/或位置信息。
18、优选的,所述建模以如下方式使用所构建的回归模型确定所有已知的第二类目标对象中的每个是否潜在地属于第一类目标对象:基于所述回归模型针对已知的第二类目标对象所对应的特征向量计算该已知的第二类目标对象属于第一类目标对象的概率,并且如果计算出的概率大于预定的分类阈值,则判定该已知的第二类目标对象潜在地属于第一类目标对象。
19、优选的,对所述建模建立提供的参数的多维矢量数据源表示为data(a,r,p),a为行为信息分量,r为关系信息分量,p为位置信息分量。
20、在上述技术方案中,本发明提供的一种基于约束的多维管理数据挖掘方法,具备以下有益效果:使得程序和组件都能够灵活地进行扩展,以适应数据仓库需求和技术的变化及发展。并且也向用户提供一个图形用户接口,具有很强的易用性。
1.一种基于约束的多维管理数据挖掘系统,其特征在于,包括:
2.根据权利要求1所述的一种基于约束的多维管理数据挖掘系统,其特征在于,对所述网络信息矢量化时,只计算具有相同索引的重要信息之间的距离,其中,所述重要信息的索引是根据之前的聚类结果确定的。
3.根据权利要求1所述的一种基于约束的多维管理数据挖掘系统,其特征在于,还包括最优方案确定模块,用于从选取的重要信息中针对一种网络信息选取对于该网络信息中重要信息作为该网络信息的最优重要信息,按照预设规则从确定的各种网络信息的最优重要信息中不重复的选取数量等于上一次聚类中心数量的1/2的重要信息作为聚类中心,对选取的重要信息进行聚类。
4.根据权利要求1所述的一种基于约束的多维管理数据挖掘系统,其特征在于,所述模型建立的方法,基于概率分布和密度、贝叶斯分类、回归方法进行建模。
5.一种基于约束的多维管理数据挖掘方法,其特征在于,包括以下步骤:
6.根据权利要求1所述的一种基于约束的多维管理数据挖掘方法,其特征在于,所述取样数据表从计算信息数据族中获取,而所述计算信息数据族代表行为、关系和/或位置分量的多个关键词与事件中代表行为、关系和/或位置分量的多个关键词的重合度,并进行归一化处理,将归一化后重合度大的关键词作为与时间关联度高的行为、关系和/或位置信息。
7.根据权利要求1所述的一种基于约束的多维管理数据挖掘方法,其特征在于,所述建模以如下方式使用所构建的回归模型确定所有已知的第二类目标对象中的每个是否潜在地属于第一类目标对象:基于所述回归模型针对已知的第二类目标对象所对应的特征向量计算该已知的第二类目标对象属于第一类目标对象的概率,并且如果计算出的概率大于预定的分类阈值,则判定该已知的第二类目标对象潜在地属于第一类目标对象。
8.根据权利要求1所述的一种基于约束的多维管理数据挖掘方法,其特征在于,对所述建模建立提供的参数的多维矢量数据源表示为data(a,r,p),a为行为信息分量,r为关系信息分量,p为位置信息分量。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求5至8任一项所述基于约束的多维管理数据挖掘方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求5至8任一项所述基于约束的多维管理数据挖掘方法的步骤。