基于性能和故障预测模型的管理系统主备切换方法及系统与流程

文档序号:38167630发布日期:2024-05-30 12:21阅读:10来源:国知局
基于性能和故障预测模型的管理系统主备切换方法及系统与流程

本发明涉及计算机,特别是涉及一种基于性能和故障预测模型的管理系统主备切换方法及系统。


背景技术:

1、管理系统属于存储集群的辅助功能,最大的作用是提供ui人机交互的友好界面以及高效准确的监控后台,分布式存储的管理系统高可用方案变化不大。

2、主备模式是传统的技术方案,双活模式是流行的技术方案。

3、主备模式实现难度较小,最关键的技术是数据同步,得益于管理系统缓存在数据库中的配置和系统信息不多,而日志等非关键信息有所丢失对系统整体影响较小,所以小集群采取主备模式保障管理系统的可靠性性价比高;

4、双活模式需要2台服务器在数据和服务都保持同步,一次配置需要同时写入2台控制器的数据库才算成功,技术难度较高,成本较大,优点是几乎不丢失数据。

5、但主备模式中,存在一定的配置丢失情况,因为主备两个节点的数据同步周期即使再小,还是存在空窗期,而且同步周期太短,则性能的损耗也越高,可以用于一旦配置完成,不经常修改配置的场景。

6、双活模式中,计算成本和存储成本都提高一倍,配置失败率提高,对于大集群环境,单独采用2台服务器做双活可以得到最佳的效果,而小集群成本有限,配置双活的管理系统得不偿失。

7、由此可见,上述现有的方法在使用上,显然仍存在有不便与缺陷,而亟待加以进一步改进。如何能创设一种新的主备切换方法,成为当前业界急需改进的目标。


技术实现思路

1、有鉴于此,本公开实施例提供一种基于性能和故障预测模型的管理系统主备切换方法,至少部分解决现有技术中存在的问题。

2、第一方面,本公开实施例提供了一种基于性能和故障预测模型的管理系统主备切换方法,所述方法包括以下步骤:

3、将管理系统和数据缓存部署在一台服务器上;

4、通过服务器运行可靠性参数特征提取,设计出节点可靠性评估模型;

5、收集故障节点在未故障之前的特征参数的历史数据集合;

6、运行周期性监控脚本,实时提取特征数据;并将所述特征数据代入训练后的ai模型中进行服务器故障预测;其中,当预测结果为节点在未来30内故障的概率大于85%时,启动管理系统平滑切换程序。

7、根据本公开实施例的一种具体实现方式,所述通过服务器运行可靠性参数特征提取,设计出节点可靠性评估模型,包括:

8、将节点性能指标每3项为一组进行排列组合,并分别进行算法训练,得到多组性能模型;其中,所述节点性能指标包括:cpu负载、内存占用率、剩余空间、网络io负载、运行进程数量、网关服务数量、主板/电源/cpu风扇转速、各部件温度、电源电压和输出功率;

9、综合多组不同模型预测结果,得到最终评估。

10、根据本公开实施例的一种具体实现方式,所述管理系统平滑切换程序运行前,将管软设置为迁移态,此时用户不能操作配置修改类功能,后台的日志暂停;

11、所述启动管理系统平滑切换程序,包括:

12、切换过程需要将运行在主节点的定时任务、管软配置数据表、日志同步到ai模型评估的最佳节点上,所有节点的管软io路由修改到新的主节点,待平移完成后,管软服务切换为正常态。

13、根据本公开实施例的一种具体实现方式,所述服务器运行可靠性参数特征,包括:

14、电源电压功率、风扇转速、机箱温度、系统盘smart指标、内存iops和网络iops。

15、根据本公开实施例的一种具体实现方式,所述收集故障节点在未故障之前的特征参数的历史数据集合,包括:

16、基于支持向量机进行故障分类;

17、当没有历史数据时,采用无监督的ai模型学习,将集群节点进行实时分类,目的是找出健康的节点用于管理服务运行;

18、当有历史数据时,采取有监督的ai模型学习。

19、根据本公开实施例的一种具体实现方式,所有节点运行web服务,非主节点能够将io请求路由到主节点处理,主节点对数据进行持久化和备份拷贝;

20、根据本公开实施例的一种具体实现方式,所述方法还包括:

21、在完成一次服务平移后,在预设冷静期内不会再次切换。

22、第二方面,本公开实施例提供了一种基于性能和故障预测模型的管理系统主备切换系统,所述系统包括:

23、部署模块,被配置用于将管理系统和数据缓存部署在一台服务器上;

24、模型训练模块,被配置用于通过服务器运行可靠性参数特征提取,设计出节点可靠性评估模型;

25、收集故障节点在未故障之前的特征参数的历史数据集合;

26、运行周期性监控脚本,实时提取特征数据;并将所述特征数据代入训练后的ai模型中进行服务器故障预测;

27、切换模块,被配置用于当预测结果为节点在未来30内故障的概率大于85%时,启动管理系统平滑切换程序。

28、根据本公开实施例的一种具体实现方式,所述系统还包括:

29、分类模块,被配置用于所述收集故障节点在未故障之前的特征参数的历史数据集合,包括:

30、基于支持向量机进行故障分类;

31、当没有历史数据时,采用无监督的ai模型学习,将集群节点进行实时分类,目的是找出健康的节点用于管理服务运行;

32、当有历史数据时,采取有监督的ai模型学习。

33、第三方面,本公开实施例还提供了一种电子设备,该电子设备包括:

34、至少一个处理器;以及,

35、与所述至少一个处理器通信连接的存储器;其中,

36、所述存储器存储有能够被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行时,使所述至少一个处理器前述第一方面或第一方面的任一实现方式中的任一项所述的基于性能和故障预测模型的管理系统主备切换方法。

37、第四方面,本公开实施例还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令当由至少一个处理器执行时使所述至少一个处理器执行前述第一方面或第一方面的任一实现方式中的基于性能和故障预测模型的管理系统主备切换方法。

38、第五方面,本公开实施例还提供了一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使该计算机执行前述第一方面或第一方面的任一实现方式中的基于性能和故障预测模型的管理系统主备切换方法。

39、本公开实施例中的基于性能和故障预测模型的管理系统主备切换方法,基于ai预测技术,对管理系统节点的运行性能,整机可靠性周期性评估,提前规避管理节点故障产生的影响,主动平移管理系统数据和配置文件到新节点,无缝平滑的管软切换技术。ai服务器故障预测应用于管理系统高可用方案,低成本,高效能。



技术特征:

1.一种基于性能和故障预测模型的管理系统主备切换方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的基于性能和故障预测模型的管理系统主备切换方法,其特征在于,所述通过服务器运行可靠性参数特征提取,设计出节点可靠性评估模型,包括:

3.根据权利要求1所述的基于性能和故障预测模型的管理系统主备切换方法,其特征在于,所述管理系统平滑切换程序运行前,将管软设置为迁移态,此时用户不能操作配置修改类功能,后台的日志暂停;

4.根据权利要求1所述的基于性能和故障预测模型的管理系统主备切换方法,其特征在于,所述服务器运行可靠性参数特征,包括:

5.根据权利要求1所述的基于性能和故障预测模型的管理系统主备切换方法,其特征在于,所述收集故障节点在未故障之前的特征参数的历史数据集合,包括:

6.根据权利要求1所述的基于性能和故障预测模型的管理系统主备切换方法,其特征在于,所有节点运行web服务,非主节点能够将io请求路由到主节点处理,主节点对数据进行持久化和备份拷贝。

7.根据权利要求4所述的基于性能和故障预测模型的管理系统主备切换方法,其特征在于,所述方法还包括:

8.一种基于性能和故障预测模型的管理系统主备切换系统,其特征在于,所述系统包括:

9.根据权利要求7所述的基于性能和故障预测模型的管理系统主备切换系统,其特征在于,所述系统还包括:

10.一种电子设备,其特征在于,该电子设备包括:


技术总结
本发明公开了一种基于性能和故障预测模型的管理系统主备切换方法及系统,所述方法包括:将管理系统和数据缓存部署在一台服务器上;通过服务器运行可靠性参数特征提取,设计出节点可靠性评估模型;收集故障节点在未故障之前的特征参数的历史数据集合;运行周期性监控脚本,实时提取特征数据;并将所述特征数据代入训练后的AI模型中进行服务器故障预测;其中,当预测结果为节点在未来30内故障的概率大于85%时,启动管理系统平滑切换程序。通过本公开的处理方案,AI服务器故障预测应用于管理系统高可用方案,低成本,高效能。

技术研发人员:欧阳京
受保护的技术使用者:北京同有飞骥科技股份有限公司
技术研发日:
技术公布日:2024/5/29
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1