云主机高可用系统和云平台的制作方法

文档序号:38249953发布日期:2024-06-06 19:24阅读:52来源:国知局
云主机高可用系统和云平台的制作方法

本发明涉及云主机,尤其涉及一种云主机高可用系统和云平台。


背景技术:

1、随着企业的扩展和技术的进步,部署云服务来满足公司业务已成为一种趋势。在云平台提供服务的过程中,高可用性一直是一项非常重要的功能,云主机如果宕机会对业务的连续性造成很大的影响,并且可能会导致业务的中断时间过长,进而影响到用户的使用体验。

2、相关技术中如cn106775953a虽然给出了一些实现高可用的方法,但是其不能有效保证云主机高可用功能的稳定性。


技术实现思路

1、本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的第一个目的在于提出一种云主机高可用系统,能够减少云主机非计划的停机时间和运维成本,在出现故障时快速恢复业务,保障云主机高可用功能的稳定性。

2、本发明第二个目的在于提出一种云平台。

3、为达上述目的,本发明第一方面实施例提出了一种云主机高可用系统,该系统包括:多个计算节点,每个所述计算节点包括多个虚拟机和fda(fault domain agent,高可用代理组件)服务组件;ceph(可扩展的高性能对象存储系统)存储池,所述ceph存储池用于存储所述虚拟机每隔第一预设时长通过所述fda服务组件向存储网写入的第一心跳信息;多个主控节点,每个所述主控节点包括fdm(fault domain manager,高可用管理组件)监控组件,所述fdm监控组件用于每隔第二预设时长接收所述虚拟机通过所述fda服务组件向管理网发送的第二心跳信息,还用于通过所述存储网读取所述ceph存储池中最新的第一心跳信息,并根据所述第二心跳信息的接收状态和所述最新的第一心跳信息的更新状态确定所述计算节点的状态,以及根据所述状态对所述计算节点进行响应处理。

4、本实施例中云主机高可用系统包括多个计算节点、ceph存储池和多个主控节点,其中,计算节点中的虚拟机可以通过fda服务组件向管理网和存储网发送心跳信息,以使主控节点可以通过fdm监控组件在管理网和存储网中接收心跳信息,并根据心跳信息的接收状态和更新状态确定计算节点的状态信息,进而根据计算节点的状态信息对计算节点进行响应处理。由此,本实施例能够减少云主机非计划的停机时间和运维成本,在出现故障时快速恢复业务,保障云主机高可用功能的稳定性。

5、在本发明的一些实施例中,每个所述主控节点还包括fdi(fault domain api,高可用api组件)服务组件,所述fdi服务组件提供api(application programminginterface,应用程序编程接口)服务,所述云主机的管理页面通过所述fdi服务组件的api服务对所述主控节点进行访问和设置。

6、在本发明的一些实施例中,所述多个主控节点通过竞争etcd锁从多个所述fdm监控组件中确定一个主fdm监控组件和至少一个从fdm监控组件,并在所述主fdm监控组件发生故障时自动释放所述etcd锁,以使所述至少一个从fdm监控组件重新通过竞争etcd锁以重新确定主fdm监控组件。

7、在本发明的一些实施例中,所述计算节点还每隔第三预设时长通过所述fda服务组件向本地文件发送更新信息,并在持续第四预设时长未向所述本地文件发送更新信息时,则重启所述fda服务组件。

8、在本发明的一些实施例中,根据所述第二心跳信息的接收状态和所述最新的第一心跳信息的更新状态确定所述计算节点的状态,包括:当根据所述第二心跳信息的接收状态确定所述fdm监控组件已持续第五预设时长未接收到所述第二心跳信息、且根据所述最新的第一心跳信息的更新状态确定所述虚拟机正常向所述存储网写入第一心跳信息时,则确定所述计算节点处于隔离状态;当根据所述第二心跳信息的接收状态确定所述fdm监控组件已持续第五预设时长未接收到所述第二心跳信息、且根据所述最新的第一心跳信息的更新状态确定所述虚拟机未正常向所述存储网写入第一心跳信息时,则确定所述计算节点处于故障状态;当根据所述第二心跳信息的接收状态确定所述fda服务组件已持续第六预设时长未向所述存储网写入第一心跳信息时,则确定所述计算节点处于存储异常状态。

9、在本发明的一些实施例中,当根据所述第二心跳信息的接收状态确定所述fdm监控组件已持续第五预设时长未接收到所述第二心跳信息之后,所述主控节点还向所述管理网发送ping(packet internet groper,因特网包探索器)指令,以确定所述管理网异常。

10、在本发明的一些实施例中,在所述计算节点处于所述隔离状态时,根据所述状态对所述计算节点进行响应处理,包括:根据所述隔离状态对所述计算节点进行禁用处理、软关机处理或硬关机处理,其中,所述禁用处理为释放告警信息;所述软关机处理为在释放告警信息后关闭所述虚拟机,并在第七预设时长后若所述虚拟机未正常关闭,再关断所述虚拟机的供电电源,并将处于所述隔离状态的计算节点内的虚拟机按照优先级顺序疏散至处于正常状态中的计算节点中;所述硬关机处理为在释放告警信息后关断所述虚拟机的供电电源,并将处于所述隔离状态的计算节点内的虚拟机按照优先级顺序疏散至处于正常状态的计算节点中。

11、在本发明的一些实施例中,在所述计算节点处于所述存储异常状态时,根据所述状态对所述计算节点进行响应处理,包括:根据所述存储异常状态对所述计算节点进行禁用处理或硬关机处理,其中,所述禁用处理为释放告警信息;所述硬关机处理为在释放告警信息后关断所述虚拟机的供电电源,并将处于所述存储异常状态的计算节点内的虚拟机按照优先级顺序疏散至处于正常状态的计算节点中。

12、在本发明的一些实施例中,所述fdm监控组件还用于:在接收到所述计算节点通过所述fda服务组件向所述管理网发送的第二心跳信息之后,若所述第二心跳信息包括存储正常通知信息,则暂停所述计算节点中虚拟机的疏散任务并启动所述计算节点,以运行所述计算节点。

13、在本发明的一些实施例中,在所述计算节点处于所述故障状态时,根据所述状态对所述计算节点进行响应处理,包括:根据所述故障状态对所述计算节点进行禁用处理或重启处理,其中,所述禁用处理为释放告警信息;所述重启处理为在释放告警信息后将所述计算节点的存储网ip添加至所述ceph存储池的黑名单中,并将处于所述隔离状态的计算节点内的虚拟机按照优先级顺序疏散至处于正常状态的计算节点中,并在接收到处于所述故障状态的计算节点的第二心跳信息之后,关断所述计算节点中所有虚拟机的供电电源,将所述计算节点的存储网ip从所述ceph存储池的黑名单中取消,再通过处于所述隔离状态的计算节点的fda服务组件向存储网写入的第一心跳信息,在所述fda服务组件正常写入所述第一心跳信息之后暂停所述计算节点中虚拟机的疏散任务,重新启动所述计算节点。

14、为达上述目的,本发明第二方面实施例提出了一种云平台,所述云平台包括上述实施例中任一项所述的云主机高可用系统。

15、本发明实施例的云平台通过上述实施例中云主机高可用系统,能够减少云主机非计划的停机时间和运维成本,在出现故障时快速恢复业务,保障云主机高可用功能的稳定性。

16、本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1