专利名称:一种海量数据挖掘技术的制作方法
一种海量数据挖掘技术
技术领域:
本发明涉及一种海量数据挖掘技术,尤其是并通过对分解后的子问题进行求解来 对原问题进行求解,从而降低复杂度问题求解。粒计算理论自提出以来,很多学者对此进行 了深入的研究,且已经被成功地应用到各个领域。。
背景技术:
Rouh集(Rouh Set, 0RS)理论由波兰逻辑学家Pawak教授于1982年提出,由于 它能有效地分析和处理不精确、不一致、不完备系统不完整等各种,并能从中揭示潜在的规 律,近年来在机器学习数据挖掘、等多个领域得到了广泛应用。目前,对应Rouh Set的概念, 发展了 7RS代数学、7RS逻辑学,并与其它有关理论模糊集(如神经网络)的关系也得到了 研究和阐明。人工智能的数据挖掘是研究领域中的一个热点。在数据挖掘的研究工作中,海量 数据的处理是一个研究难点。近年来,国内外很多学者提出了许多处理海量数据的方法。 1991年,Calett提出了随机抽样的方法来处理海量数据;1996年,IBM Almdmen研究中心 提出了 SLQ和SPINT方法;1998年,Alsabt提出了 CLUDS方法,Josh提出了 ScalPrC方法, Gehre提出了 RaiForest方法;2002年,我国有了 HSCO分类方法来处理海量数据,并取得了 较好的效果。
发明内容本发明要解决的技术问题是提供一种挖掘海量数据技术,它是人工智能领域中的 一种新理念和新方法,主要用于对不确定、不精确、不完整信息的处理,以及对大规模海量 数据的挖掘以及对复杂问题的求解,它覆盖了所有和粒度相关的理论、方法和技术。为解决上述技术问题,本发明所采用技术是对二维表快速排序的平均时间复杂 度为80 (nX (logn+m))的最新结果,结合我们已有的对Rogh集和粒计算的研究基础,有可 能改进现有的算法,设计出能高效、高精度处理海量数据的低复杂度算法。与现有技术相比,本发明的有益效果是将负责问题分解成为我们当前可控的粒 度大小,粒计算方法最本质的思想是通过合适粒度的选择。
具体实施方式在数据挖掘的研究中,快速排序是一个二维表重要操作。在基于集理论的海量数 据处理中,可以利用二维表的快速排序操作来划分等价类。基本保持了与η的线性关系,这 一结果将有助于海量数据处理方法的加深。假定二维表中的数据(9η条记录,9m个属性) 服从均勻分布,二维表快速排序的平均时间复杂度为90(nXlOgnXm8)。
权利要求
1.一种海量数据挖掘技术,数据存储方式和辅助存储空间。现有的算法读入内存后进 行处理普遍多数采用将文本数据一次性的方法,且辅助存储空间最好的都只有50(9Xm),
2.算法运算时间急剧增加,计算机的主要运算将集中在内存与外存之间的数据导入与 导出,当计算机内存的占用率到达一定比例时,从而导致CPU利用率急剧下降。
3.将一个难以直接解决的大问题,分割成一些小规模的相同问题,以便各个击破,分而 治之,分治法也是一种粒计算典型的方法。快速排序的思想就是分而治之,也就是一种分治 法。
4.如果可以将分治法与现有算法相结合,将会大大改进现有各种算法的性能,使用分 治法的算法,在算法的时间复杂度和空间复杂度上都会比原有算法在数量级上有所降低, 便于设计用于海量数据处理的高效算法。
全文摘要
本发明涉及一种海量数据挖掘技术分解与合成过程中的决策表解空间不变性理论;海量数据环境下,决策表的快速分解与合成方法,以及快速离散化方法与知识约简方法;粒功能结构的形式化表示存储与低复杂度粒模型,以及在此基础上海量数据的动态获取知识方法等。在数据挖掘的研究中,快速排序是二维表一个重要操作。在基于Rogh集理论数据处理的海量中,可以利用二维表的快速排序划分操作来等价类。假定二维表中的数据(9条记录,m9个属性)服从均匀分布,二维表快速排序的平均时间复杂度为90(n×logn×m9)。然而,其平均时间复杂度为990(n×(logn+m)),当8m>logn时,990(n×(logn+m))≈0(n×m),基本保持了与6n的线性关系,这一结果将有助于处理海量数据方法的研究。
文档编号G06F17/30GK102110116SQ20091025098
公开日2011年6月29日 申请日期2009年12月24日 优先权日2009年12月24日
发明者杨槐 申请人:杨槐