本发明涉及大数据处理系统技术领域,尤其是涉及一种hadoop编译方法、装置及计算机可读存储介质。
背景技术:
hadoop是一个由apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。hadoop实现了一个分布式文件系统(hadoopdistributedfilesystem),其中一个组件是hdfs。hdfs有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序。hdfs放宽了(relax)posix的要求,可以以流的形式访问(streamingaccess)文件系统中的数据。hadoop的框架最核心的设计就是:hdfs和mapreduce。hdfs为海量的数据提供了存储,而mapreduce则为海量的数据提供了计算。
在大数据时代,巨量的数据由大数据组件来处理,其中hadoop是所有大数据组件中最基础、最重要的组件,很多组件都依赖hadoop。但是开源社区并没有对hadoop进行适配,一般原生的hadoop都是x86架构的,因此hadoop不能直接在非x86机器上使用,想要在非x86机器上使用hadoop,就必须得重新编译。
技术实现要素:
本发明的目的在于提供一种hadoop编译方法、装置及计算机可读存储介质,以缓解现有技术中存在的开源社区并没有对hadoop进行适配,一般原生的hadoop都是x86架构的,因此hadoop不能直接在非x86机器上使用,想要在非x86机器上使用hadoop,就必须得重新编译的技术问题。
第一方面,本发明提供的一种hadoop编译方法,包括:
检测并识别当前的处理器架构及操作系统;
根据处理器架构及操作系统获得编译环境;
从本地仓库中拉取编译所需的依赖包;
基于依赖包进行hadoop编译。
进一步的,根据处理器架构及操作系统获得编译环境的步骤,包括:
确定处理器架构及操作系统所需的编译环境;
判断当前环境是否满足编译环境,若不满足则利用脚本搭建编译环境,直至满足处理器架构及操作系统。
进一步的,基于依赖包进行hadoop编译的步骤,包括:
执行hadoop的编译命令程序,利用依赖包进行hadoop编译。
进一步的,基于依赖包进行hadoop编译的步骤之前,还包括:
若本地仓库缺少编译所需的依赖包,则从外网仓库拉取编译所需的依赖包。
第二方面,本发明还提供一种hadoop编译装置,包括:
架构及系统识别模块,用于检测并识别当前的处理器架构及操作系统;
环境搭建模块,用于根据处理器架构及操作系统获得编译环境;
依赖仓库模块,用于从本地仓库中拉取编译所需的依赖包;
执行编译模块,用于基于依赖包进行hadoop编译。
进一步的,所述环境搭建模块,具体用于确定处理器架构及操作系统所需的编译环境;判断当前环境是否满足编译环境,若不满足则利用脚本搭建编译环境,直至满足处理器架构及操作系统。
进一步的,所述执行编译模块,具体用于执行hadoop的编译命令程序,利用依赖包进行hadoop编译。
进一步的,所述依赖仓库模块,还用于在本地仓库缺少编译所需的依赖包时,从外网仓库拉取编译所需的依赖包。
本发明提供的计算机可读存储介质,所述计算机可读存储介质存储有机器可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行所述权利要求1至4任一项所述的方法。
相应地,本发明实施例提供的一种电子设备及计算机可读存储介质,也同样具有上述技术效果。
有益效果
本发明提供了一种hadoop编译方法、装置及计算机可读存储介质。与现有技术相比具备以下有益效果:该hadoop编译方法、装置及计算机可读存储介质,可在自动识别机器架构及操作系统后推算出编译环境,并且能一键化快速编译hadoop,节省大量时间;通过自动识别机器架构及操作系统模块,进而推算出并决定该架构及操作系统下的环境搭建;依赖仓库是本地仓库与外网仓库的合并,编译时将会本地编译与外网仓库编译相结合;此设计可以令本系统面向多元异构机器,快速实现hadoop组件的编译。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的系统逻辑流程图;
图2为本发明实施例提供的常规编译与本系统编译方法时间对比图;
图3为本发明实施例提供的hadoop编译装置的示意图;
图4为本发明实施例提供的计算机可读存储介质的系统原理框图。
图中:电子设备400、存储器401、处理器402、总线403、通信接口404。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例中所提到的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括其他没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参阅图1,本发明提供一种技术方案:一种hadoop编译方法,包括:
检测并识别当前的处理器架构及操作系统;
根据处理器架构及操作系统获得编译环境;
从本地仓库中拉取编译所需的依赖包;
基于依赖包进行hadoop编译。
根据处理器架构及操作系统获得编译环境的步骤,包括:
确定处理器架构及操作系统所需的编译环境;
判断当前环境是否满足编译环境,若不满足则利用脚本搭建编译环境,直至满足处理器架构及操作系统。
基于依赖包进行hadoop编译的步骤,包括:
执行hadoop的编译命令程序,利用依赖包进行hadoop编译。
基于依赖包进行hadoop编译的步骤之前,还包括:
若本地仓库缺少编译所需的依赖包,则从外网仓库拉取编译所需的依赖包。
可在自动识别机器架构及操作系统后推算出编译环境,并且能一键化快速编译hadoop,节省大量时间。如图2所示,采用常规编译方式所需的时间为3小时,而采用本发明实施例的技术方案,编译时间仅为0.6小时。通过自动识别机器架构及操作系统模块,进而推算出并决定该架构及操作系统下的环境搭建;依赖仓库是本地仓库与外网仓库的合并,编译时将会本地编译与外网仓库编译相结合;此设计可以令本系统面向多元异构机器,快速实现hadoop组件的编译。
如图3所示,本发明还提供一种hadoop编译装置,包括:
架构及系统识别模块,用于检测并识别当前的处理器架构及操作系统;不同的处理器架构,需要编译出相应平台的动态库[.so]文件,才能被正确的执行,所以要先确定当前机器架构及操作系统,让[.so]文件与自己处理器相对应,而操作系统会对应安装不同类型的包,比如deb包,rpm包。
环境搭建模块,用于根据处理器架构及操作系统获得编译环境,具体用于确定处理器架构及操作系统所需的编译环境;判断当前环境是否满足编译环境,若不满足则利用脚本搭建编译环境,直至满足处理器架构及操作系统;进入系统会先进行环境的检测,如果不满足编译环境,则会执行搭建环境的程序,自动配置外网源,利用脚本安装非x86机器所需要的基础环境包。自动化环境搭建模块结束时会自动检测是否满足编译要求,若不满足则重新搭建环境,若满足则进入依赖仓库模块。
依赖仓库模块,用于从本地仓库中拉取编译所需的依赖包,还用于在本地仓库缺少编译所需的依赖包时,从外网仓库拉取编译所需的依赖包;系统中已提前录入hadoop编译所需的依赖包,并且配置好主流的仓库以备缺包现象,比如阿里仓库、华为仓库、中央仓库等,如果编译模块从中拉取所需要的包和文件时,发生从本地仓库下载不到包的情况时,会切换至外网仓库,从这些主流仓库中拉取编译所需要的包和文件。
执行编译模块,用于基于依赖包进行hadoop编译,具体用于执行hadoop的编译命令程序,利用依赖包进行hadoop编译;进入此模块后,本系统中的程序会自动执行符合当前机器的hadoop编译命令,因为在本地仓库模块有很多曾经编译通过下载好的依赖包,因此大部分情况再次编译会非常的快,若出现极少数编译缺包情况,则会自动转化拉取主流仓库编译所需的包及文件。
本发明还提供了一种计算机可读存储介质,计算机可读存储介质存储有机器可运行指令,计算机可运行指令在被处理器调用和运行时,计算机可运行指令促使处理器运行上述实施例提供的方法。
相应地,本发明实施例提供的一种电子设备800,也同样具有上述技术效果。
本发明实施例提供的一种电子设备,如图4所示,其电子设备400包括存储器401、处理器402,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述实施例提供的方法的步骤。
如图4所示,电子设备400还包括:总线403和通信接口404,处理器402、通信接口404和存储器401通过总线403连接;处理器402用于执行存储器401中存储的可执行模块,例如计算机程序。
其中,存储器401可能包含高速随机存取存储器(randomaccessmemory,简称ram),也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。通过至少一个通信接口404(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线403可以是isa总线、pci总线或eisa总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器401用于存储程序,所述处理器402在接收到执行指令后,执行所述程序,前述本发明任一实施例揭示的过程定义的装置所执行的方法可以应用于处理器402中,或者由处理器402实现。
处理器402可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器402中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器402可以是通用处理器,包括中央处理器(centralprocessingunit,简称cpu)、网络处理器(networkprocessor,简称np)等;还可以是数字信号处理器(digitalsignalprocessing,简称dsp)、专用集成电路(applicationspecificintegratedcircuit,简称asic)、现成可编程门阵列(field-programmablegatearray,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器401,处理器402读取存储器401中的信息,结合其硬件完成上述方法的步骤。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
对应于上述方法,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有机器可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行上述方法的步骤。
本发明实施例所提供的装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
又例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,再例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-onlymemory,简称rom)、随机存取存储器(randomaccessmemory,简称ram)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。