一种构建优势性能数据仓库的方法和装置与流程

文档序号：19128734发布日期：2019-11-13 02:23阅读：182来源：国知局

本领域涉及计算机领域，并且更具体地涉及一种构建优势性能数据仓库的方法和装置。

背景技术：

随着我们从it时代步入dt时代，数据积累量也与日俱增，同时伴随着互联网的发展，越来越多的应用场景产生，传统的数据处理、存储方式已经不能满足日益增长的需求。而互联网行业相比传统行业对新生事物的接受度更高、应用场景更复杂，因此互联网行业对应面向大数据多业务场景构建的数据仓库有大量需求。

目前数据仓库方案需要运维人员摸清底层配置，手动确认服务器的资源，并对每个应用组件的搭建步骤熟悉。同时，不同的应用场景有不同的架构设计，当根据方案架构进行配置时，需要对多个配置文件进行修改。

尽管数据仓库建模方法论是一致的，但由于所面临的行业、场景的不同，在互联网领域，基于大数据的数据仓库建设无法按照原有的项目流程、开发模式进行，更多的是需要结合新的技术体系、业务场景进行灵活的调整，以快速响应需求为导向。现有数据仓库方案需要对每个应用组件进行手工配置，依靠人力配置多又复杂的配置文件，不仅消耗人力效率低，管理麻烦而且被动，当一个配置有问题时，需要手动修改当前配置，并上传到其他节点。而且，同一种架构的搭建设计，在不同的场景应用时，会有性能上较大的差异性。对于新搭建的数据仓库平台性能需要人工评估，费时费力。配置评估过高，会影响应用组件之间的使用，降低性能；配置评估过低，会导致资源利用率低，浪费资源。我们迫切需要能减少手工配置的部分过程，同时能结合业务场景推出优化的架构配置建议。

浪潮英信i48是一款基于intel至强可扩展处理的预制模块化高密度服务器，专为全新高密度数据中心及全新应用优化设计，是全场景一体化解决方案的最佳基础设施。整机每个节点为独立系统，通过中背板与机箱连接，机箱电源、风扇等为共享设计，进一步节约空间与能耗。i48在有限的空间内完美展现了高密度、高效、可靠、智能的特性。随着数据量的增长、业务的可用性和重要性的增加，用户对数据仓库的要求越来越高，既需要具有整合资源、共享数据、提供服务的功能，又需要具有简单部署、高性能、低成本的特点。浪潮高密度服务器i48采用模块化设计，高度为2u，配置了计算型、存储型以及计算存储平衡型三类节点，以及可选的大容量存储和i/o扩展模块，最大可支持8个计算节点或者72块3.5寸硬盘，可以组合形成70多种解决方案。

故可将浪潮高密度服务器i48作为数据仓库的基础硬件，便于在提供高性能，高密度特性的同时，能够灵活扩展，易于管理。

技术实现要素：

有鉴于此，本发明实施例的目的在于提出一种构建优势性能数据仓库的方法和装置，使用该方法能够提高组件部署效率，减少实施人员工作量和人力成本，提高应用的资源利用率和模块化部署效能。结合业务场景提供架构配置建议，能够减少生产环境的问题，为环境带来合理的应用部署，提高业务性能，提高资源利用率。

基于上述目的，本发明的实施例的一个方面提供了一种构建优势性能数据仓库的方法，包括以下步骤：

收集集群中系统资源可使用情况并显示结果；

基于显示的结果选择数据仓库的组件和资源，并使用组件和资源在底层形成架构组件和资源配置文件；

基于业务场景选择测试参数对基于架构组件和资源配置文件的数据仓库进行测试并得到测试结果；

响应于测试结果大于阈值，使用架构组件与资源配置文件进行数据仓库的构建。

根据本发明的一个实施例，系统资源包括：节点数目、cpu的核数与可使用率、内存的可使用空间、硬盘类型、硬盘数目与容量、网络带宽信息。

根据本发明的一个实施例，收集本集群中系统资源可使用情况并显示结果包括：通过web界面显示结果。

根据本发明的一个实施例，组件包括hadoop、spark、hbase、mysql。

根据本发明的一个实施例，资源包括节点数目、cpu要使用的核数、内存分配的使用空间、硬盘使用数目与容量、网络带宽选择。

根据本发明的一个实施例，测试参数包括文件读写、排序、搜索、推荐、查询、进行模拟测试的数据量级别。

根据本发明的一个实施例，测试结果包括吞吐量、完成时间、资源占用。

根据本发明的一个实施例，还包括：响应于测试结果不大于阈值，重新选择组件、资源和参数重新进行测试。

本发明的实施例的另一个方面，还提供了一种构建优势性能数据仓库的装置，包括至少一个处理器和存储器，存储器存储有处理器可执行指令，指令在被执行时实现以下步骤：

收集集群中系统资源可使用情况并显示结果；

基于显示的结果选择数据仓库的组件和资源，并使用组件和资源在底层形成架构组件与资源配置文件；

基于业务场景选择测试参数对基于架构组件与资源配置文件的数据仓库进行测试并得到测试结果；

响应于测试结果大于阈值，使用架构组件与资源配置文件进行数据仓库的构建。

根据本发明的一个实施例，步骤还包括：响应于测试结果不大于阈值，重新选择组件、资源和参数重新进行测试。

本发明具有以下有益技术效果：本发明实施例提供的构建优势性能数据仓库的方法，通过收集集群中系统资源可使用情况并显示结果；基于显示的结果选择数据仓库的组件和资源，并使用组件和资源在底层形成架构组件与资源配置文件；基于业务场景选择测试参数对基于架构组件与资源配置文件的数据仓库进行测试并得到测试结果；响应于测试结果大于阈值，使用架构组件与资源配置文件进行数据仓库的构建的技术方案，能够提高组件部署效率，减少实施人员工作量和人力成本，提高应用的资源利用率和模块化部署效能。结合业务场景提供架构配置建议，能够减少生产环境的问题，为环境带来合理的应用部署，提高业务性能，提高资源利用率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为根据本发明一个实施例的构建优势性能数据仓库的方法的示意性流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

基于上述目的，本发明的实施例的第一个方面，提出了一种构建优势性能数据仓库的方法的一个实施例。图1示出的是该方法的示意性流程图。

如图1中所示，该方法可以包括以下步骤：

s1收集集群中系统资源可使用情况并显示结果；

s2基于显示的结果选择数据仓库的组件和资源，并使用组件和资源在底层形成架构组件和资源配置文件；

s3基于业务场景选择测试参数对基于架构组件和资源配置文件的数据仓库进行测试并得到测试结果；

s4响应于测试结果大于阈值，使用架构组件与资源配置文件进行数据仓库的构建。

本发明可以基于浪潮高密度服务器i48来构建优势性能数据仓库，使用浪潮高密度服务器i48的基础硬件，降低部署过程中配置复杂度；结合业务场景需求，通过小规模的测试，针对测试结果对硬件资源进行合理调配，提供在当前业务场景选择下有优势性能的数据仓库的最优配置，并减少运维配置时间。

通过以上技术方案，能够提高组件部署效率，减少实施人员工作量和人力成本，提高应用的资源利用率和模块化部署效能。结合业务场景提供架构配置建议，能够减少生产环境的问题，为环境带来合理的应用部署，提高业务性能，提高资源利用率。

在本发明的一个优选实施例中，系统资源包括：节点数目、cpu的核数与可使用率、内存的可使用空间、硬盘类型、硬盘数目与容量、网络带宽信息。

在本发明的一个优选实施例中，收集本集群中系统资源可使用情况并显示结果包括：通过web界面显示结果。通过web界面进行形象化显示，便于用户的直观了解，也便于判断下一步中资源的分配。

在本发明的一个优选实施例中，组件包括hadoop、spark、hbase、mysql。在web页面中，可看到包含在数据仓库中的各种组件，用户可根据自身使用需求选择数据仓库中的组件来进行搭配，选完所需的组件，并将组件的安装位置进行填写。

在本发明的一个优选实施例中，资源包括节点数目、cpu要使用的核数、内存分配的使用空间、硬盘使用数目与容量、网络带宽选择。选择资源完成后，在底层形成架构组件与资源配置文件。这个组件与资源配置文件是为数仓架构的建立提供必备的基础环境信息与搭建参数。底层的python脚本根据组件与资源配置文件中的组件名称、安装位置、资源参数信息，架构层级信息在选择的节点数目组成的集群中自动部署数据仓库。

在本发明的一个优选实施例中，测试参数包括文件读写、排序、搜索、推荐、查询、进行模拟测试的数据量级别。在本发明的一个优选实施例中，测试结果包括吞吐量、完成时间、资源占用。用户根据数据仓库面向的业务场景选择上面的参数，根据用户选择的测试类别及数据量，python脚本自动生成对应的模拟数据类型及数据量。开始测试后，脚本就在此次搭建的数据仓库架构下，对选定的业务场景，开始特定数据量下的测试，测试完成后，对测试结果(吞吐量、完成时间、资源占用)进行分析。

在本发明的一个优选实施例中，还包括：响应于测试结果不大于阈值，重新选择组件、资源和参数重新进行测试。

在本发明的一个优选实施例中，对测试结果进行分析，得分在80分以上为优，得分在60至80分为良，得分在60以下为一般。可以将阈值定为80分。在本发明的一个优选实施例中，测试结果为良时，根据资源占用情况给出改进建议并显示。可以将建议的配置展示在web平台页面上，如扩展节点数目、增加cpu核数、增加内存容量、改变数据存储在磁盘的架构、改变网络带宽等，以指点在选定的业务场景下具有优势性能的数据仓库应如何进行架构配置，以使系统资源得到有效利用。

在本发明的一个优选实施例中，测试结果为一般时，重新选择组件、资源和参数重新进行测试。当测试结果为优时，用户可直接选择遵照展示的数据仓库的架构与资源配置，进行下一步的数据仓库模型部署，也可以自己按照所需编辑修改，生成最终的架构设计文件，此文件包含了建立集群软件环境的基础环境，与资源参数设定。根据生成的架构配置文件，底层的python脚本会在用户选择需要部署的节点上分发架构设计文件，进行组件安装、资源参数设置，磁盘层级设定、网络选择等。这样，对于特定场景类别下，性能上存在优势的数据仓库即完成构建，可进行正常使用。

基于上述目的，本发明的实施例的第二个方面，提出了一种构建优势性能数据仓库的装置，包括：至少一个处理器和存储器，存储器存储有处理器可执行指令，指令在被执行时实现以下步骤：

收集集群中系统资源可使用情况并显示结果；

基于显示的结果选择数据仓库的组件和资源，并使用组件和资源在底层形成架构组件与资源配置文件；

基于业务场景选择测试参数对基于架构组件与资源配置文件的数据仓库进行测试并得到测试结果；

响应于测试结果大于阈值，使用架构组件与资源配置文件进行数据仓库的构建。

在本发明的一个优选实施例中，步骤还包括：响应于测试结果不大于阈值，重新选择组件、资源和参数重新进行测试。

需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，上述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，的存储介质可为磁碟、光盘、只读存储器(read-onlymemory，rom)或随机存取存储器(randomaccessmemory，ram)等。上述计算机程序的实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

此外，根据本发明实施例公开的方法还可以被实现为由cpu执行的计算机程序，该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被cpu执行时，执行本发明实施例公开的方法中限定的上述功能。

需要特别指出的是，上述系统的实施例采用了上述方法的实施例来具体说明各模块的工作过程，本领域技术人员能够很容易想到，将这些模块应用到上述方法的其他实施例中。

此外，上述方法步骤以及系统单元或模块也可以利用控制器以及用于存储使得控制器实现上述步骤或单元或模块功能的计算机程序的计算机可读存储介质实现。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能，但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。

上述实施例，特别是任何“优选”实施例是实现的可能示例，并且仅为了清楚地理解本发明的原理而提出。可以在不脱离本文所描述的技术的精神和原理的情况下对上述实施例进行许多变化和修改。所有修改旨在被包括在本公开的范围内并且由所附权利要求保护。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：冯晓庆
技术所有人：苏州浪潮智能科技有限公司
我是此专利的发明人

上一篇：成像元件以及成像装置和方法与流程
上一篇：一种高含氮量液体缓释氮肥的制备方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。