本公开属于勘探超算,特别涉及一种基于智能运维系统的勘探数据中心的资源管理方法及装置。
背景技术:
1、勘探超算中心不同于传统数据中心,内部有图形处理器(graphic processingunit,gpu)集群系统、中央处理器(central processing unit,cpu)集群系统、高性能集群存储系统、互联网(internet protocol,ip)和无限带宽(infiniband,ib)双核心网络系统,有着完备的高低压供电系统、不间断电源(uninterruptible power system,ups)系统、空调及空气净化系统、消防系统、安防及动力环境监控系统等。
2、随着新技术尤其是开源技术的发展,各类平台已从传统的客户端/服务器(client/server,c/s)架构发展到浏览器/服务器(browser/server,b/s)架构,走开源平台开发路线,微服务架构、容器架构方便更新与扩容;同时国内石油勘探的发展,数据处理规模持续扩大,对计算机资源的需求持续增大,高强度运行负荷也增大了设备故障率。
技术实现思路
1、本公开提出一种基于智能运维系统的勘探数据中心的资源管理方法及装置,能够解决勘探数据中心的不同用户之间的资源过度占用和/或资源不足的问题,从而提高勘探数据中心的资源利用率和运行效率,且可以降低故障率,从而提高勘探数据中心的运行可靠性。
2、针对上述问题,本公开采用如下技术方案:
3、第一方面,提供一种基于智能运维系统的勘探数据中心的资源管理方法,该方法包括:获取勘探数据中心的设备运行状态,设备运行状态包括勘探数据中心中的各设备的可用状态和资源占用情况;
4、获取勘探数据中心的资源分配信息,资源分配信息包括勘探数据中心为各个用户分配的资源的种类和数据量;
5、根据设备运行状态和资源分配信息,确定勘探数据中心的资源利用率,资源利用率用于表征勘探数据中心中的各种资源的利用情况;
6、基于资源利用率,确定勘探数据中心的资源调度策略。
7、可选地,资源调度策略包括:
8、释放资源利用率低于第一利用率阈值的第一用户的部分或全部资源;
9、为资源利用率高于第二利用率阈值的第二用户增加资源;其中,
10、第一利用率阈值小于第二利用率阈值。
11、进一步地,释放资源利用率低于第一利用率阈值的第一用户的部分资源,包括:
12、释放为第一用户分配的部分资源,使得第一用户的剩余资源的资源利用率大于第一利用率阈值,且小于第二利用率阈值。
13、进一步地,为资源利用率高于第二利用率阈值的第二用户增加资源,包括:
14、为第二用户增加资源,使得为第二用户分配的总资源的资源利用率大于第一利用率阈值,且小于第二利用率阈值。
15、第二方面,提供一种基于智能运维系统的勘探数据中心的资源管理装置,包括:获取模块和处理模块;其中,
16、获取模块,用于获取勘探数据中心的设备运行状态,设备运行状态包括勘探数据中心中的各设备的可用状态和资源占用情况;
17、获取模块,还用于获取勘探数据中心的资源分配信息,资源分配信息包括勘探数据中心为各个用户分配的资源的种类和数据量;
18、处理模块,用于根据设备运行状态和资源分配信息,确定勘探数据中心的资源利用率,资源利用率用于表征勘探数据中心中的各种资源的利用情况;
19、处理模块,还用于基于资源利用率,确定勘探数据中心的资源调度策略。
20、可选地,处理模块,还用于释放资源利用率低于第一利用率阈值的第一用户的部分或全部资源,以及为资源利用率高于第二利用率阈值的第二用户增加资源;其中,
21、第一利用率阈值小于第二利用率阈值。
22、进一步地,处理模块,还用于释放为第一用户分配的部分资源,使得第一用户的剩余资源的资源利用率大于第一利用率阈值,且小于第二利用率阈值。
23、进一步地,处理模块,还用于为第二用户增加资源,使得为第二用户分配的总资源的资源利用率大于第一利用率阈值,且小于第二利用率阈值。
24、第三方面,提供一种基于智能运维系统的勘探数据中心的资源管理装置,包括:处理器,处理器与存储器耦合;
25、其中,处理器用于读取并执行存储器存储的程序或指令,使得装置执行第一方面所述的基于智能运维系统的勘探数据中心的资源管理方法。
26、第四方面,提供一种计算机可读存储介质,存储有程序或指令,当计算机读取并执行程序或指令时,使得计算机执行第一方面所述的基于智能运维系统的勘探数据中心的资源管理方法。
27、基于本公开提供的基于智能运维系统的勘探数据中心的资源管理方法及装置,可以根据勘探数据中心的设备运行状态和资源分配信息,计算资源利用率,并根据资源利用率调整资源调度策略,以释放资源占有量超过自身需求的用户的部分资源给其他用户使用,可以在高强度运行负荷场景下,尽可能降低不同用户之间占用的资源不平衡的问题,从而提高勘探数据中心的资源利用率和运行效率,且可以降低因资源不足而发生故障的概率,从而提高勘探数据中心的运行可靠性。
28、本公开的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本公开而了解。本公开的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。
1.一种基于智能运维系统的勘探数据中心的资源管理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述资源调度策略包括:
3.根据权利要求2所述的方法,其特征在于,所述释放所述资源利用率低于第一利用率阈值的第一用户的部分资源,包括:
4.根据权利要求2所述的方法,其特征在于,所述为所述资源利用率高于第二利用率阈值的第二用户增加资源,包括:
5.一种基于智能运维系统的勘探数据中心的资源管理装置,其特征在于,包括:获取模块和处理模块;其中,
6.根据权利要求5所述的装置,其特征在于,
7.根据权利要求6所述的装置,其特征在于,
8.根据权利要求6所述的装置,其特征在于,
9.一种基于智能运维系统的勘探数据中心的资源管理装置,其特征在于,包括:处理器,所述处理器与存储器耦合;
10.一种计算机可读存储介质,其特征在于,存储有程序或指令,当计算机读取并执行所述程序或指令时,使得所述计算机执行如权利要求1-4中任一项所述的基于智能运维系统的勘探数据中心的资源管理方法。