本发明实施例涉及大数据技术领域,具体涉及一种基于mapreduce的数据挖掘算法。
背景技术:
数据挖掘算法是根据数据创建数据挖掘模型的一组试探法和计算,为了创建模型,算法将首先分析提供的数据,并查找特定类型的模式和趋势。
mapreduce是面向大数据并行处理的计算模型、框架和平台,它隐含了以下三层含义:
1)mapreduce是一个基于集群的高性能并行计算平台(clusterinfrastructure)。它允许用市场上普通的商用服务器构成一个包含数十、数百至数千个节点的分布和并行计算集群;
2)mapreduce是一个并行计算与运行软件框架(softwareframework)。它提供了一个庞大但设计精良的并行计算软件框架,能自动完成计算任务的并行化处理,自动划分计算数据和计算任务,在集群节点上自动分配和执行任务以及收集计算结果,将数据分布存储、数据通信、容错处理等并行计算涉及到的很多系统底层的复杂细节交由系统负责处理,大大减少了软件开发人员的负担;
3)mapreduce是一个并行程序设计模型与方法(programmingmodel&methodology)。它借助于函数式程序设计语言lisp的设计思想,提供了一种简便的并行程序设计方法,用map和reduce两个函数编程实现基本的并行计算任务,提供了抽象的操作和并行编程接口,以简单方便地完成大规模数据的编程和计算处理。
但目前基于mapreduce的数据挖掘算法较单一,对于庞大的海量数据无法做到分类索引和批量处理,降低了计算机处理信息的效率。
技术实现要素:
为此,本发明实施例提供一种基于mapreduce的数据挖掘算法,已解决现有技术中,基于mapreduce的数据挖掘算法单一而导致计算机处理信息的效率较低问题。
为了实现上述目的,本发明的实施方式提供如下技术方案:
一种基于mapreduce的数据挖掘算法,包括步骤:
s100、对mapreduce模型进行包括支配分析、索引分析、提出局限的标号传播和分析大规模图的具体划分在内的扩展;
s200、将扩展后的mapreduce模型与云计算结合,形成实现分布式计算机和多维数据数据维多计算机的对虚拟资源的拓展的数据挖掘模型;
s300、利用数据挖掘模型,并按照生物信息领域的基因模式进行网络作用分析,获取大规模的网络信息数据内容;
s400、再通过数据挖掘模型中的通过分布式计算机数据结构将对数据交通、传播、文献、信息关系进行引入数据挖掘模型中;
s500、最后通过数据挖掘模型mapreduce完成预期引入数据的互联网操作下的数据挖掘。
进一步地,在对所述s100中,对mapreduce进行具体划分扩展的依据的具体步骤包括步骤:
s101、按照数据传播分析提出局部敏感函数,对所述mapreduce模型进行具体划分规模引导;
s102、通过局部敏感函数的数据分配来获取有效的数据精度函数,进而获取具体划分的类别;
s103、按照数据精度函数,通过分布式计算机的增减操作,确定不断提升运行效果的中心质量模式,满足当下运行操作的基础效率,更新具体划分的类别。
进一步地,所述在s200,分布式计算机和多维数据计算机的对虚拟资源拓展的具体步骤包括:
s201、依照k-means算法,依照海量高维数据问题,实施中心多叠加代算法分析,从中获取直观的批量数据处理操作;
s202、通过集合点的分析,判断海量数据信息内容;
s203、按照数据聚合的多类别对海量的额数据进行区分。
进一步地,依照海量高维数据问题,实施中心多叠加代算法分析,从中获取直观的批量数据处理操作,其具体的批量数据操作是依照数据集中分析,判断k-means算法的k值标准中心意识表示,分析计算价值下的消耗资源比例关系,并在mapreduce条件下,分析高维数据下的k值情况。
进一步地,依照海量高维数据问题,实施中心多叠加代算法分析,从中获取直观的批量数据处理操作,具体的所述高维数据mapreduce数据通过多项叠加操作,分析数据的局限性;
通过改变局部叠加模式,对高维数据局部性进行多项重组,完成高维数据的综合性应用。
进一步地,对所述的mapreduce中高维数据叠加模式的适用分析包括:
mapreduce叠加按照数据分片操作,通过map函数,写入磁盘,reduce阶段完成远程任务的数据读取,完成数据文件的系统转化;
mapreduce文件依照不同的阶段,获取磁盘数据信息,按照逐步降低系统性能操作的模式,从mapreduce中完成叠加编程操作;
依照mapreduce作业操作,重复的对数据信息进行集中移动操作,调整i/o数据操作结构;
依照作业任务的模式,分析逐步减少mapreduce初始化、调度模式,提升计算的比率关系;
按照节点进行数据索引分析,逐步减少远程访问数据的比例,减少系统消息传递通信过程;
通过过缓存文件的分析,对循环的不变量进行存储,确定数据的存取过程。
进一步地,所述mapreduce的局部叠加模式包括:
按照mapreduce叠加模式的复杂结构情况,对数据进行支撑操作,提出符合mapreduce的核心思路;
加强大数据之间的操作,逐步增加缓存、索引的支持分配;
采用数据随机存取的操作,实施多方面的缓存索引分配。
在mapreduce任务中,mapreduce任务的文件系统写入对各个节点的数据进行计算分析,确定mapreduce所有适用符合局部叠加的计算模式要求;
考虑局部性分片技术,根据计算机信息的具体缓存标准要求,获取信息节点;
通过改变局部叠加模式,对数据局部性进行多项重组,完成数据的综合性应用。
进一步地,所述s300的具体步骤包括:
s301、按照输分析进行汇集,依照相关数据集中区分,判断数据对象;
s302、依照海量高维数据进行挖掘,调整数据对象的不同类型;
s303、按照维度进行数据调整,判断平台上的高维数据汇聚,采用准确的信息系统规模分析,判断汇聚数据的对象标准;
s304、按照中心采样确定分布,明确各个区分之间的汇集情况,结合数据挖掘算法,确定编程系统;
s305、采用有效的数据扩展模式,对数据进行挖掘分析,调整数据分布的延展过程;
s306、通过云计算的高效挖掘,实施综合数据的规模化应用,获取高可用性,结合mapreduce算法,重点分析数据的并行算法流程。
进一步地,所述s400的其具体步骤包括:
s401、依照mapreduce模式,提出大数据的集成批量处理;
s402、依照mapreduce阶段,对数据进行挖掘分析,确定大规模下的数据分割明确拓展的数据权值;
s403、按照标准值的索引,通过分析索引服务器的具体内容,判断相关重点,明确快速检索的算法。
进一步地,所述s500的方法包括:对数据的变化量、分割数据、传输数据进行分析,完善算法的改在和运算过程。
本发明的实施方式具有如下优点:
mapreduce算法是利用大数据集成的云平台设计模式,通过大规模的内存数据挖掘,将mapreduce与之模型联系结合起来,实现mapreduce大规模下数据的综合模式拓展,进一步地构建mapreduce数据图挖掘的索引模式,从而提升计算机的整体性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
本说明书附图所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。
图1为本发明实施方式中mapreduce与云计算流程模式图;
图2为本发明实施方式中mapreduce数据流程图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“上”、“下”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。需要说明的是,当一个组件被认为是“连接”另一个组件,它可以是直接连接到另一个组件或者可能同时存在居中设置的组件。
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
如图1和图2所示,本发明提供了一种基于mapreduce的数据挖掘算法,具体包括:
s100、对mapreduce模型进行包括支配分析、索引分析、提出局限的标号传播和分析大规模图的具体划分在内的扩展;
s200、将扩展后的mapreduce模型与云计算结合,形成分布式计算机和多维数据计算机的对虚拟资源拓展的数据挖掘模型;
s300、利用数据挖掘模型,并按照生物信息领域的基因模式进行网络作用分析,获取大规模的网络信息数据内容;
s400、再通过数据挖掘模型中的分布式计算机将数据交通、传播、文献、信息关系进行引入数据挖掘模型中;
s500、最后通过数据挖掘模型完成互联网操作下的数据挖掘。
在s100中,对mapreduce进行具体划分扩展的依据包括步骤:
s101、按照数据传播分析提出局部敏感函数,对所述mapreduce模型进行具体划分规模引导;
s102、通过局部敏感函数的数据分配来获取有效的数据精度函数,进而获取具体划分的类别;
s103、按照数据精度函数,通过分布式计算机的增减操作,确定不断提升运行效果的中心质量模式,满足当下运行操作的基础效率,更新具体划分的类别。
在s200,分布式计算机和多维数据计算机的对虚拟资源拓展的具体步骤包括:
s201、依照k-means算法,依照海量高维数据问题,实施中心多叠加代算法分析,从中获取直观的批量数据处理操作;
s202、通过集合点的分析,判断海量数据信息内容;
s203、按照数据聚合的多类别对海量的额数据进行区分。
依照海量高维数据问题,实施中心多叠加代算法分析,从中获取直观的批量数据处理操作,其具体的批量数据操作是依照数据集中分析,判断k-means算法的k值标准中心意识表示,分析计算价值下的消耗资源比例关系,并在mapreduce条件下,分析高维数据下的k值情况。
依照海量高维数据问题,实施中心多叠加代算法分析,从中获取直观的批量数据处理操作,具体的高维数据通过多项叠加操作,分析数据的局限性;
通过改变局部叠加模式,对高维数据局部性进行多项重组,完成高维数据的综合性应用。
对所述的mapreduce中高维数据叠加模式的适用分析包括:
mapreduce叠加按照数据分片操作,通过map函数,写入磁盘,reduce阶段完成远程任务的数据读取,完成数据文件的系统转化;
mapreduce文件依照不同的阶段,获取磁盘数据信息,按照逐步降低系统性能操作的模式,从mapreduce中完成叠加编程操作;
依照mapreduce作业操作,重复的对数据信息进行集中移动操作,调整i/o数据操作结构;
依照作业任务的模式,分析逐步减少mapreduce初始化、调度模式,提升计算的比率关系;
按照节点进行数据索引分析,逐步减少远程访问数据的比例,减少系统消息传递通信过程;
通过过缓存文件的分析,对循环的不变量进行存储,确定数据的存取过程。
具体实施方式:
一、mapreduce模型和支配图
mapreduce编程模型中,需要以数据挖掘算法为基础,通过mapreduce模型完成扩展,其中包含对mapreduce模型的支配分析,索引分析,提出局限的标号传播和分析大规模图的具体划分。
按照数据传播分析提出局部算法,对mapreduce模型进行规模引导。
通过局部敏感函数的数据分配,获取有效的数据精度。
按照数据精度函数,通过计算机的增减操作,按照相关k值进行分析,确定不断提升运行效果的中心质量模式,满足当下运行操作的基础效率。
mapreduce通过与云计算的模式,实现分布式计算机、数据维多计算机虚拟资源的拓展。
按照多量数据分析,通过网络访问可以完成网络、服务器、数据库、存储、应用、服务等信息过程。以最小的管理结构模式标准,以较小的数据挖掘分析过程,判断mapreduce编程条件下的索引范围。通过集中数据计算的标准概念,结合计算机进行集密的应用,从而获取充分利用数据的并行关系。
mapreduce与云计算流程模式如图1所示。
数据图的挖掘与分析:
依照计算机应用数据规模,调整大规模图例下的应用。
按照生物信息领域的基因模式进行网络作用分析,获取大规模的网络信息数据内容。
通过计算机数据结构,可以实现对数据交通、传播、文献、信息等关系的引入。
通过mapreduce完成预期数据的互联网操作下的数据挖掘。
数据挖掘过程中需要重点分析具体的几方面内容:
通过对数据的图形耦合性进行计算及分析,依照数据图预制计算的独立关系,按照各个子图之间的计算标准;
依照相似度、频繁模式进行挖掘,判断全局特性下的数据分发情况。
通过大量数据的传输,准确的分析其分布计算的优势;
数据规模大、算法次序多,可能导致数据执行时间长。
在mapreduce大规模数据分析中,依照数据之间的相关系,数据运行算法、数据量、目标值等进行云平台的计算分析;
按照相关检索、查询效果,判断相关图数据的操作,明确实际mapreduce特点,获取图数据的处理技术标准;
通过大规模数据挖掘,对分子图进行分割操作,确定分子图的计算模式,确保子图之间的关系。
传统图算法主要以内存算法为基础,而mapreduce算法是利用大数据集成的云平台设计模式,通过大规模的内存数据挖掘,将mapreduce与之模型联系结合起来,构建mapreduce数据图挖掘的索引模式,从而提升计算机的整体性能。
索引中包含数据库、树形结构、位图、索引图等。充分利用索引图,分析具体的数据查询效率,访问分析数据占有的原始数据标准,通过分析其规模,从中获取有效的底层分布文件系统。
mapreduce在数据挖掘上,需要重视数据计算的替换操作。根据挖掘数据问题进行集中数据的对比分析,判断挖掘问题下的数据集中过程。如果没有索引,需要对数据进行多方面分析判断。
mapreduce中包含一定的缺陷性问题,依照k-means算法,依照海量高维数据问题,实施中心多叠加代算法分析,从中获取直观的批量数据处理操作。
通过集合点的分析,判断海量数据信息内容,确保可以接受的数据集合点。对于海量的数据,需要通过描绘数据,按照数据聚合的多类别进行区分。依照数据集中分析,判断k值标准中心意识表示,分析计算价值下的消耗资源比例关系。在mapreduce条件下,分析高维数据下的k值情况,减少不必要的数据分析。
二、mapreduce数据模型
mapreduce数据通过多项叠加操作,分析数据的局限性。
通过改变局部叠加模式,对数据局部性进行多项重组,完成数据的综合性应用。
mapreduce数据流程图如图2所示。
mapreduce数据叠加模式的适用分析:
mapreduce叠加按照数据分片操作,通过map函数,写入磁盘,reduce阶段完成远程任务的数据读取,完成数据文件的系统转化。mapreduce文件具有备份保存特性,依照不同的阶段,获取磁盘数据信息,按照逐步降低系统性能操作的模式,加强可靠性应用,从mapreduce中完成叠加编程操作。依照mapreduce作业操作,重复的对数据信息进行集中移动操作,调整i/o数据操作结构。
mapreduce框架分析中,针对叠加算法的数据分析操作,准确的判断需要改进的思路和内容。通过选择叠加,对每一项mapreduce作业和任务进行处理。依照作业任务的模式,分析逐步减少mapreduce初始化、调度模式,提升计算的比率关系。按照节点进行数据索引分析,逐步减少远程访问数据的比例,减少系统消息传递通信过程。通过缓存文件的分析,对循环的不变量进行存储,确定数据的存取过程。
mapreduce的局部叠加模式:
按照mapreduce叠加模式的复杂结构情况,对数据进行支撑操作,提出符合mapreduce的核心思路。
充分挖掘数据图的局部,对图进行分割技术操作。按照子图的任务内容,结合各个子图的局部计算操作,分析函数下需要协调的全局算法。加强大数据之间的操作,逐步增加缓存、索引的支持分配。依照数据挖掘算法,对数据图的挖掘核算进行分析,调整数据系统可以提供的索引。
采用数据随机存取的操作,实施多方面的缓存索引分配。调整相关产品的结合关系,按照相关的利用价值,判断子图单位下的局部计算过程,明确数据信息图的衔接操作。
通过数据的单元、单位分析,对子图进行支撑,明确数据读取分析操作的标准。
充分考虑局部的计算,在mapreduce任务中,根据相关的内部细节,对mapreduce任务及你想过直接的文件系统写入,对各个节点的数据进行计算分析,确定mapreduce所有适用符合局部叠加的计算模式要求。
充分考虑局部性分片技术,根据计算机信息的具体缓存标准要求,获取信息节点。
通过矩阵顶端的权值向量分析,确定子图处理单位。依照分图的具体缓存策略,实施高效的运算操作。
三、mapreduce数据大规模高维数据的汇集
按照输分析进行汇集,依照相关数据集中区分,判断数据对象。依照海量高维数据进行挖掘,调整数据对象的不同类型。
按照维度进行数据调整,判断平台上的高维数据汇聚,采用准确的信息系统规模分析,判断汇聚数据的对象标准。
按照中心采样确定分布,明确各个区分之间的汇集情况,结合数据挖掘算法,确定编程系统。采用有效的数据扩展模式,对数据进行挖掘分析,调整数据分布的延展过程。通过云计算的高效挖掘,实施综合数据的规模化应用,获取高可用性,结合mapreduce算法,重点分析数据的并行算法流程。
依照mapreduce模式,提出大数据的集成批量处理。依照mapreduce阶段,对数据进行挖掘分析,确定大规模下的数据分割,结合各个部分进行数据相关图解,明确拓展的数据权值。按照标准值的索引,通过分析索引服务器的具体内容,判断相关重点,明确快速检索的图例算法。
尝试对数据的变化量、分割数据、传输数据进行分析,完善算法的改在和运算过程。
综上所述,mapreduce大规模数据挖掘通过对数据的云平台技术存储,按照变化量、分割量调整数据的叠加汇集值,满足当下大数据规模综合应用,实现mapreduce大规模下数据的综合模式拓展。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。