一种私有云存储系统中节点故障实时检测及处理方法

文档序号:9729993阅读:571来源:国知局
一种私有云存储系统中节点故障实时检测及处理方法
【技术领域】
[0001]本发明属于云存储系统纠错技术领域,尤其是一种私有云存储系统中节点故障实时检测及处理方法。
【背景技术】
[0002]云存储是在云计算概念上延伸和发展出来的一个新的概念,是一种新兴的网络存储技术,是指通过集群应用、网络技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统,该系统的核心是应用软件与存储设备相结合,通过应用软件来实现存储设备向存储服务的转变。与传统存储设备相比,云存储系统不仅仅涉及硬件,而是一个网络设备、存储设备、服务器、应用软件、公用访问接口等多个部分组成的复杂系统,各部分以存储设备为核心,通过应用软件来对外提供数据存储和业务访问服务。比如:学校、企业、政府、信息中心、数据中心等处,其对数据的依赖日益加深,数据已经成为众多业务活动赖以开展的基础。
[0003]—些只对受限用户提供相应的存储服务的结构被称之为私有云存储系统,其是一种为政府部门或企业客户量身定制的云存储服务方案,不仅能为客户提供最优质的贴身服务,而且还能在一定程序上降低安全风险。但是,对于数据服务故障和设备故障,让用户手动进行故障定位和相应处理是不现实的,因此对于私有云存储系统,如何对数据服务故障和设备故障进行定位和处理,方便用户使用,成为一个需要解决的问题。

【发明内容】

[0004]本发明的目的在于克服现有技术的不足,提供实时监测并相应采取不同处理方式的一种私有云存储系统中节点故障实时检测及处理方法。
[0005]本发明采取的技术方案是:
[0006]
[0007]本发明的优点和积极效果是:
[0008]本发明中,将存储节点通过数据同步网络连接,并且将存储节点通过数据服务网络与云计算服务器连接,在存储节点中设置管理端,采用管理端对所有存储节点的工作状态进行检查,每个存储节点自查自身的存储状态、数据服务网络状态、数据同步网络状态、数据服务状态、独立IP状态这些内容,由此将整体和局部的检查何为一处,同时对于每个步骤中出现的不同状态均设置了处理方法,其能有效地管理私有云存储系统中的各种数据服务,当服务器发生故障时,自动化恢复数据服务的方式有效地方便了用户的操作,降低了用户侧的人工成本。通过自动恢复数据服务,避免了每次发生设备故障造成的数据服务中断,从而降低了使用数据服务的应用业务中断而造成的损失。
【附图说明】
[0009]图1是本发明的结构示意图。
【具体实施方式】
[0010]下面结合实施例,对本发明进一步说明,下述实施例是说明性的,不是限定性的,不能以下述实施例来限定本发明的保护范围。
[0011]一种私有云存储系统中节点故障实时检测及处理方法,如图1所示,本发明的创新在于:包括能提供多种数据服务的多个存储节点和多个云计算服务器,多个存储节点之间通过数据同步网络完成内部的数据交换,多个存储节点通过数据服务网络完成与云计算服务器的数据服务,在存储节点中设置一管理端,所述方法包括初始化过程、管理端检测及处理过程和存储节点检测及处理过程;
[0012]所述初始化过程包括以下步骤:
[0013]⑴管理端预先保存所有存储节点的存储配置、网络配置和数据服务配制;
[0014]⑵存储节点只保存本节点的存储配制、网络配置和数据服务配制;
[0015]⑶为每个数据服务挑选任意两个存储节点互为镜像并分配独立IP地址;
[0016]⑷设置管理端和存储节点的检测时间;
[0017]所述管理端检测及处理过程包括以下步骤:
[0018]⑴按照检测时间自动依次检查各存储节点的连接状态;
[0019]⑵当某个存储节点无响应时,该存储节点设置为不可用,说明该处的设备宕机或网络连接断开,当前存储节点上原有配置的所有数据服务对应的镜像存储节点上的数据服务提供服务,进入步骤⑷;上述存储节点的所有数据服务可以在另外一个存储节点上配置,互为镜像;也可以在另外多个存储节点上分别配置多个数据服务,互为镜像;
[0020]当某个存储节点正常响应时,进入下一个步骤;
[0021]是否响应的操作方法是:直接PING该存储节点或者检测该存储节点上对应的程序是否正常运行;上述对应的程序是指下面的存储节点检测及处理过程中预先运行的检测存储设备中状态的程序;
[0022]⑶获取该存储节点的存储状态;该处的存储状态是指管理端自身收集的反馈记录,这些反馈记录的来源是下面的存储节点检测及处理过程中不同状态时向管理端发送的反馈记录;
[0023]当存储状态异常时,将该存储节点设置为不可用,同时停止该存储节点上的数据服务,当前存储节点上原有配置的所有数据服务对应的镜像存储节点上的数据服务提供服务,进入步骤⑷;上述存储节点的所有数据服务可以在另外一个存储节点上配置,互为镜像;也可以在另外多个存储节点上分别配置多个数据服务,互为镜像;
[0024]⑷继续检测下一个存储节点,直至完成所有存储节点的检测;
[0025](5)管理端接收到存储节点不可用的信息后,会邮件或其它已知的方式通知系统管理员,系统管理员可尝试自行恢复或联系技术人员恢复,待存储节点恢复为可用状态后,启动该存储节点上的数据服务;上述自行恢复可以是:机器宕机时重启存储节点中的设备,网络连接断开时检测网线、网卡或、交换机或路由器等网络设备;
[0026 ]所述存储节点检测及处理过程包括以下步骤:
[0027 ]⑴按照检测时间检查本存储节点的存储状态;
[0028]⑵当该存储节点的存储设备无响应时,将该存储设备的信息反馈到管理端,本次检测完成;
[0029]上述存储设备可以是普通硬盘、磁盘阵列等用于存储数据的设备;
[0030]当该存储节点的存储设备正常响应时,进入步骤⑶;
[0031 ]无响应分为三种情况:
[0032]第⑴种:扫描系统,检查磁盘卷标不存在时,尝试重新加载存储(系统自带有重新加载的程序,运行后会尝试重新连接存储设备),无法重新加载时反馈到管理端;
[0033]第⑵种:磁盘损坏,直接反馈到管理端;
[0034]第⑶种:分区不一致,直接反馈到管理端;
[0035]分区不一致为两种情况:
[0036]第①种:存储设备无响应或分区已删除;
[0037]第②种:分区已被修改。
[0038]⑶检查该存储节点的数据服务网络,当数据服务网络断开时,暂停该存储节点上所有数据服务,本次检测完成;
[0039]当该存储节点的数据服务网络正常时,进入步骤⑷;
[0040]数据服务网络断开时是:通过数据服务网络访问预先设定的若干存储节点,如果均无法访问,认为断开。
[0041]⑷检查该存储节点的数据同步网络,当数据同步网络断开时,直接结束本次检测及处理过程,不做任何操作,本次检测完成;
[0042]当数据同步网络正常时,进入步骤(5);
[0043]数据同步网络断开时是:通过数据同步网络访问预先设定的若干存储节点,如果均无法访问,认为断开。
[0044](5)检查该存储节点的数据服务状态,当该存储节点数据服务状态为停止状态时(停止状态包括:1.当前数据服务被设置为不使用、数据属于丢弃的旧数据或者数据服务正常关闭;2.第⑵步骤中涉及的无响应状态),进入步骤(7);
[0045]当该存储节点数据服务状态为暂停状态时,检测互为镜像的数据服务状态,当镜像的数据服务状态已启动则进入步骤(7),如果镜像的数据服务状态未启动则使该存储节点的数据服务状态启动,进入步骤(6);
[0046]当该数据服务状态已启动
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1