本申请涉及智能运维,特别是涉及一种容器状态的恢复方法、装置、计算机设备、存储介质和软件机器人。
背景技术:
1、随着各行业公司数字化转型的推进,资源逐步趋向池化,应用逐步趋向云化。传统的it运维模式已经无法满足数字化转型带来的规模化运维增长所需。因此,出现了在大数据、云计算、人工智能等新技术加持下的aiops智能运维技术。aiops,全称为artificialintelligence for it operations,是一种将人工智能的能力与运维相结合,并通过机器学习的方法来提升运维效率的技术。
2、目前,企业的运维部署团队可以结合aiops技术实现半人工的容器状态检测与运维:通过aiops技术实现微服务的云化部署,实时检测微服务的告警状态。通过运维人员基于告警状态人工判断微服务容器的健康状态并手动干预实现故障处理。但是,由于微服务的数量较多,对于突发故障的应急处理仍需要消耗高昂的人力成本。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种智能化的容器状态的恢复方法、装置、计算机设备、计算机可读存储介质和软件机器人,以降低运维人力成本。
2、第一方面,本申请提供了一种容器状态的恢复方法,所述方法包括:
3、实时检测在业务环境下运行的目标容器的容器状态,以及所述业务环境的资源使用情况;
4、当所述容器状态异常时,在所述业务环境下接入预先配置的自愈环境,并根据所述资源使用情况对所述目标容器进行状态自恢复;
5、利用所述目标容器的状态数据在所述自愈环境下拉起与所述目标容器对应的备用容器,并将所述目标容器的流量转移至所述备用容器处理;
6、持续检测所述目标容器的容器状态,当所述容器状态恢复正常时,在所述业务环境下重新注册所述目标容器,并将所述流量分配至所述目标容器处理。
7、在其中一个实施例中,所述当所述容器状态异常时,在所述业务环境下接入预先配置的自愈环境,并根据所述资源使用情况对所述目标容器进行状态自恢复,包括:
8、当所述容器状态异常时,根据所述资源使用情况确定所述目标容器的故障原因,所述故障原因包括主机资源不足、容器实例不足、网络熔断限流或服务需求异常中的任一种或多种;
9、根据所述自愈环境中存储的与所述故障原因对应的自愈策略,对所述目标容器进行状态自恢复。
10、在其中一个实施例中,所述利用所述目标容器的状态数据在所述自愈环境下拉起与所述目标容器对应的备用容器,并将所述目标容器的流量转移至所述备用容器处理,包括:
11、利用所述目标容器的状态数据,创建与所述目标容器对应的镜像信息;
12、根据所述镜像信息在所述自愈环境下拉起所述备用容器,并将所述自愈环境下的容器资源分配给所述备用容器;
13、采用预设的服务网格策略对所述目标容器的流量进行划分,得到所述流量的划分结果;
14、将所述流量转移至所述备用容器,以指示所述备用容器按照所述划分结果向所述流量分配对应的容器资源进行处理。
15、在其中一个实施例中,所述方法还包括:
16、检测所述业务环境和所述自愈环境下的主机资源的负载状态;
17、当所述业务环境下存在负载状态为空闲的主机资源时,将对应的所述空闲的主机资源配置在所述自愈环境下;
18、当所述自愈环境下存在负载状态为过载的主机资源时,将对应的所述过载的主机资源从所述自愈环境分离。
19、在其中一个实施例中,所述方法还包括:
20、当所述容器状态恢复正常时,回收所述自愈环境下的容器资源。
21、在其中一个实施例中,所述方法还包括:
22、当所述容器状态异常时,响应于对节点开关的触发操作,在所述业务环境下重启所述节点开关对应的处理节点,以对所述目标容器进行状态自恢复。
23、第二方面,本申请还提供了一种容器状态的恢复装置,包括:
24、监控模块,用于实时检测在业务环境下运行的目标容器的容器状态,以及所述业务环境的资源使用情况;
25、自愈模块,用于当所述容器状态异常时,在所述业务环境下接入预先配置的自愈环境,并根据所述资源使用情况对所述目标容器进行状态自恢复,利用所述目标容器的状态数据在所述自愈环境下拉起与所述目标容器对应的备用容器,并将所述目标容器的流量转移至所述备用容器处理;
26、恢复模块,用于持续检测所述目标容器的容器状态,当所述容器状态恢复正常时,在所述业务环境下重新注册所述目标容器,并将所述流量分配至所述目标容器处理。
27、第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面任一项实施例所述的容器状态的恢复方法。
28、第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面任一项实施例所述的容器状态的恢复方法。
29、第五方面,本申请还提供了一种软件机器人。所述软件机器人,包括计算机程序,该计算机程序被处理器执行时实现上述第一方面任一项实施例所述的容器状态的恢复方法。
30、上述容器状态的恢复方法、装置、计算机设备、存储介质和软件机器人,通过实时检测在业务环境下运行的目标容器的容器状态,以及业务环境的资源使用情况;当容器状态异常时,在业务环境下接入预先配置的自愈环境,并根据资源使用情况对目标容器进行状态自恢复;利用目标容器的状态数据在自愈环境下拉起与目标容器对应的备用容器,并将目标容器的流量转移至备用容器处理;持续检测目标容器的容器状态,当容器状态恢复正常时,在业务环境下重新注册目标容器,并将流量分配至目标容器处理,能够在保障流量业务连续不中断的情况下,智能化实现故障容器的自恢复,从而降低运维人力成本,提高容器状态恢复效率,满足全天24小时的容器实时监控需求以及异常自愈需求。
1.一种容器状态的恢复方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述当所述容器状态异常时,在所述业务环境下接入预先配置的自愈环境,并根据所述资源使用情况对所述目标容器进行状态自恢复,包括:
3.根据权利要求1所述的方法,其特征在于,所述利用所述目标容器的状态数据在所述自愈环境下拉起与所述目标容器对应的备用容器,并将所述目标容器的流量转移至所述备用容器处理,包括:
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
6.根据权利要求1至5任一项所述的方法,其特征在于,所述方法还包括:
7.一种容器状态的恢复装置,其特征在于,所述装置包括:
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种软件机器人,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。