本发明涉及gpu算力池管理,具体涉及一种gpu算力池智能管理方法。
背景技术:
1、电网的数字化、智能化转型,离不开人工智能基础设施和管理平台的建设和完善,建立一个稳定、高效、易用的针对ai平台算力赋能平台即gpu池化管理平台是当前在电网领域推动人工智能探索和落地的迫切需求,规划研究建设自主可控ai算力资源池,通过算力切分和池化调度提升现有gpu算力资源利用率,支持国产信创gpu算力资源发展,构建gpu算力资源的混合资源池,有效缓解ai算力资源成本效能;
2、随着大数据、物联网、云计算等技术的广泛应用,各行各业的数据量呈现爆炸式增长,这些数据需要经过处理、分析和挖掘,以提取有价值的信息,而gpu以其强大的并行计算能力,在数据处理、机器学习、深度学习等领域展现出巨大的优势,因此,对gpu算力的需求也随之激增;尽管虚拟cpu的数量可以超过物理cpu的数量,但每个虚拟机可用的实际计算资源仍然受限于物理服务器的总计算能力;
3、然而,在对物理gpu进行虚拟gpu分割,并进行算力调度时,无法对物理cpu在不同时段内的算力使用情况判断是否存在占用算力异常的情况进行检测排查,造成算力异常;基于此,提出一种gpu算力池智能管理方法。
技术实现思路
1、本发明的目的在于提供一种gpu算力池智能管理方法,解决了无法对物理cpu在不同时段内的算力使用情况判断是否存在占用算力异常的情况进行检测排查,造成算力异常的技术问题。
2、本发明的目的可以通过以下技术方案实现:
3、一种gpu算力池智能管理方法,包括以下步骤:
4、步骤一:对物理cpu在gpu算力池中的虚拟cpu的生成数量、使用数量和虚拟cpu的物理算力资源使用量进行获取;
5、步骤二:将一天的时间均匀的划分为n个时段,n指代为不同的时段,n为正整数;
6、步骤三:对物理cpu在gpu算力池中的虚拟cpu的生成数量和使用数量进行分时段分析,获得物理cpu在各个时段内分别对应的虚拟分配率;
7、步骤四:对物理cpu在gpu算力池中对应的虚拟cpu的物理算力资源使用量进行分时段分析,获得物理cpu在各个时段内分别对应的算力资源使用率;
8、步骤五:根据物理cpu在各个时段内分别对应的虚拟分配率e和算力资源使用率,获得物理cpu在各个时段内分别对应的时段虚拟数据向量,获得实时获取物理cpu在gpu算力池中的实时虚拟数据向量,与其对应时段的时段虚拟数据向量之间虚拟数据差值,根据虚拟差值判断生成占用算力异常标识。
9、作为本发明进一步的方案:获得物理cpu在各个时段内分别对应的虚拟分配率的具体方式为:
10、s1:从各个时段中选取一个目标时段;
11、s2:获得物理cpu在预设天数t天内,每天在目标时段内的虚拟cpu的生成数量和使用数量,将使用数量和生成数量之间的比值标记为时段分配率ft,t为正整数,为预设的天数;获得时段分配率ft中满足|ft-fp|≤y1的数值数量a,将数量a与预设阈值q1进行对比分析,根据对比分析结果获得物理cpu在目标时段内的虚拟分配率,其中fp为ft的均值,y1为预设值;
12、s3:重复步骤s1-s2,即可获得物理cpu在各个时段内分别对应的虚拟分配率en。
13、作为本发明进一步的方案:将数量a与预设阈值q1进行对比分析的具体方式为:
14、当数量a大于预设阈值q1时,将时段分配率ft的均值作为物理cpu在目标时段内的虚拟分配率;当数量a小于等于预设阈值q1时,将时段分配率ft中最大值和最小值的均值作为物理cpu在目标时段内的虚拟分配率。
15、作为本发明进一步的方案:获得物理cpu在各个时段内分别对应的算力资源使用率的具体方式为:
16、s01:选取与步骤s1中相同的时段作为目标时段;
17、s02:将物理cpu每天在预设天数t天内的目标时段内分别对应的虚拟cpu的物理算力资源使用量与物理cpu的总算力z之间的比值,标记为物理cpu每天在目标时段内分别对应的时段资源占用率gt;通过标准差计算公式计算获得时段资源占用率gt的标准差m1,将时段资源占用率gt的标准差m1与预设阈值q2进行对比分析,根据对比分析结果获得物理cpu在目标时段内的算力资源使用率;
18、s3:重复以上步骤s01-s02,即可获得物理cpu在各个时段内分别对应的算力资源使用率kn。
19、作为本发明进一步的方案:将占用率gt与预设阈值q2进行对比分析的具体方式为:
20、当标准差m1大于预设阈值q2时,则将时段资源占用率gt中最大值和最小值的均值作为物理cpu在目标时段内的算力资源使用率,当标准差m1小于等于预设阈值q2时,则将时段资源占用率gt的均值gp作为物理cpu在目标时段内的算力资源使用率。
21、作为本发明进一步的方案:标准差计算公式具体为:其中i为正整数,gp为gt的均值。
22、作为本发明进一步的方案:获得物理cpu在各个时段内分别对应的时段虚拟数据向量的具体方式为:
23、将物理cpu在各个时段内分别对应的虚拟分配率en和算力资源使用率kn的量纲均进行去除,并取其数值,进而获得物理cpu在各个时段内分别对应的时段虚拟数据向量。
24、作为本发明进一步的方案:获取物理cpu的实时虚拟数据向量的具体方式为:
25、将物理cpu在gpu算力池中的虚拟cpu的实时使用数量和实时生成数量之间的比值,标记为物理cpu的实时虚拟分配率,将物理cpu对应的虚拟cpu的实时物理算力资源使用量与物理cp物理cpu的总算力z之间的比值,标记为物理cpu的实时算力资源使用率,将物理cpu的实时虚拟分配率和实时算力资源使用率的量纲均进行去除后并取其数值,进而获得物理cpu在gpu算力池中的实时虚拟数据向量u(va,vb)。
26、作为本发明进一步的方案:获得实时虚拟数据向量与其时段的时段虚拟数据向量之间虚拟数据差值的具体方式为:
27、根据获取实时虚拟数据向量的时段,获取对应时段的时段虚拟数据向量(ra,rb),通过计算获得,实时虚拟数据向量与其时段的时段虚拟数据向量之间虚拟数据差值h。
28、作为本发明进一步的方案:判断生成占用算力异常标识的具体方式为:
29、当虚拟数据差值h大于预设阈值q3时,则生成占用算力异常标识,反之,则不做任何处理。
30、本发明的有益效果:
31、(1)本发明,通过占用算力异常标识对占用算力异常的情况进行警示,以便系统及时采取相应的响应措施,如通知管理员、调整算力分配策略、启动备用资源等,以确保gpu算力池的稳定性和性能,通过这种方法,能够实时监控物理cpu在gpu算力池中的使用情况,并针对物理cpu在不同时段内的算力使用情况判断是否存在占用算力异常的情况,从而及时采取措施优化资源配置和性能管理,通过精细化管理和监控gpu算力池的使用情况,优化资源分配,提高算力资源的使用效率,并及时识别和处理可能存在的异常情况;
32、(2)本发明,选用闲置系数数值较大的时间段,作为目标处理时段,即将对物理cpu在gpu算力池中的物理算力资源使用量较小,闲置的虚拟cpu和物理算力资源相对较多的时间段作为目标处理时段,对计划待处理任务数据进行处理,有利于对计划待处理任务数据进行处理的同时,进一步利用物理cpu闲置算力资源,尽可能的避免了资源抢夺的情况发生。
33、本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。