本发明涉及服务器技术领域,特别涉及一种多控制器系统的故障监控系统。
背景技术:
随着存储技术的发展,存储的数据量不断增大,从TB到PB再到EB数量级;存储的性能也不断提高,从STAT到SAS再到PCIE连接的SSD存储介质。在多控系统中,对用户数据安全性的要求也日渐严格,7X24小时不间断工作,若实现多控制器存储业务的无缝切换,需要及时处理多控系统中存储空间不足和故障磁盘替换后通知用户及时添加空间和替换磁盘,以及其他存储软件定义的故障发生时的故障。因此,如何高效监控多控系统,及时发现这些故障信息,是本领域技术人员需要解决的技术问题。
技术实现要素:
本发明的目的是提供一种多控制器系统的故障监控系统,能够高效监控多控制器系统,及时发现故障信息,并准确做出相应处理,保证多控制器存储业务的无缝切换以及数据安全,提高多控制器系统的使用率。
为解决上述技术问题,本发明提供一种多控制器系统的故障监控系统,在多控制器系统中的各控制器中设置故障监控装置,其中,所述故障监控装置包括:
策略设置模块,用于提供用户设置各监控功能的告警阈值以及对应故障处理方式的接口;
硬件监控模块,用于监控控制器、扩展柜、外接设备的硬件状态和故障;
系统监控模块,用于监控操作系统的状态和故障;
存储功能监控模块,用于监控各存储功能模块的状态和故障;
共享在线统计模块,用于监控共享业务的在线状态;
监控系统状态交互模块,用于设置监控系统状态副本,接收所述硬件监控模块、所述系统监控模块、所述存储功能监控模块以及所述共享在线统计模块的监控数据并通过管理链路与其它控制器的监控系统状态副本进行数据交互;
告警管理模块,用于根据所述硬件监控模块、所述系统监控模块、所述存储功能监控模块以及所述共享在线统计模块得到的故障数据发送告警信息;
故障迁移模块,用于根据所述监控数据执行对应的迁移任务;其中,所述迁移任务包括控制器间的负载迁移任务和故障迁移任务。
可选的,所述硬件监控模块包括:
温度监控单元,用于对控制器主板、cpu、背板进行温度监控;
电气监控单元,用于对控制器主板的电压和电流进行监控,并对控制器的电源进行监控;
扩展柜监控单元,用于对扩展柜进行监控,当监控到扩展柜离线或扩展柜发生错误时,向所述告警管理模块发送告警数据。
可选的,所述系统监控模块包括:
使用率监控单元,用于对cpu以及内存的使用率进行监控;
异常程序监控单元,用于对系统panic程序和oops程序进行监控;
分区状态监控单元,用于对各系统分区的使用率和系统分区文件系统错误进行监控。
可选的,所述存储功能监控模块包括:
存储功能监控单元,用于对磁盘添加、移除、故障状态进行监控,并监控RAID状态,在降级时进行热备替换并向所述告警管理模块发送告警数据,且在RAID状态离线时向所述告警管理模块发送告警数据;
SAN模块监控单元,用于对LU设备错误、失败指令、reset信息进行监控;
NAS模块监控单元,用于对文件系统出错状态,文件系统使用率,用户配额信息,NAS共享服务状态进行监控;
存储池监控单元,用于对存储池的使用率进行监控。
可选的,所述存储功能监控模块还包括:
存储功能模块监控单元,用于对存储分级模块、加密模块、数据重删模块、自动精简模块、灾备模块进行监控。
可选的,所述共享在线统计模块包括:
NAS业务监控单元,用于对NAS业务的实时写入带宽、用户在线数量、客户端在线数量以及共享文件的属性进行监控;
SAN业务监控单元,用于对SAN业务的实时写入带宽、客户端同时操作的lun数量、会话信息以及对scsi指令的统计信息进行监控。
可选的,所述告警管理模块还包括:
查询接口模块,用于接收用户输入的查询信息,反馈对应的当前系统状态。
本发明所提供的一种多控制器系统的故障监控系统,在多控制器系统中的各控制器中设置故障监控装置,所述故障监控装置包括:策略设置模块,硬件监控模块,系统监控模块,存储功能监控模块,共享在线统计模块,监控系统状态交互模块,告警管理模块,故障迁移模块;提高上述各个模块能够全方位、高效地监控多控制器系统,及时发现故障信息,并准确做出相应处理,保证多控制器存储业务的无缝切换以及数据安全,提高多控制器系统的使用率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例所提供的多控制器系统的故障监控系统中各控制器内故障监控装置的结构框图。
具体实施方式
本发明的核心是提供一种多控制器系统的故障监控系统,能够高效监控多控制器系统,及时发现故障信息,并准确做出相应处理,保证多控制器存储业务的无缝切换以及数据安全,提高多控制器系统的使用率。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1为本发明实施例所提供的多控制器系统的故障监控系统中各控制器内故障监控装置的结构框图;即在多控制器系统中的各控制器中均设置有故障监控装置,其中,所述故障监控装置可以包括:
策略设置模块100,用于提供用户设置各监控功能的告警阈值以及对应故障处理方式的接口;
具体的,用户可以通过该模块设置需要进行监控的功能,例如监控cpu使用率,监控内存使用率等,以及对应的出现故障后的处理方式,例如当监控到cpu利用率过高时,可以将使用大的业务迁移到其他cpu使用率较低的控制器中,从而保证该多控制器系统能够高效安全的运行。因此,本实施例并不对具体的监控功能的内容以及各个监控功能对应的告警阈值及其对应的故障处理方式进行限定。且用户可以随时根据实际使用需求通过策略设置模块100对各个设置内容进行修改。且策略设置模块100在接收到用户设置的信息后解析用户设置的策略,根据策略启动相应的监控模块并将参数传递到该监控模块,使对应的监控模块能够根据其对应的策略实现监控过程。
硬件监控模块200,用于监控控制器、扩展柜、外接设备的硬件状态和故障;
系统监控模块300,用于监控操作系统的状态和故障;
存储功能监控模块400,用于监控各存储功能模块的状态和故障;
共享在线统计模块500,用于监控共享业务的在线状态;
具体的,上述4个监控模块可以实现全方位,多角度的监控。涵盖了系统硬件和软件的各种状态和故障信息,例如系统状态告警、故障迁移、存储业务类型统计等功能通知用户并做必要故障处理。
监控系统状态交互模块600,用于设置监控系统状态副本,接收所述硬件监控模块、所述系统监控模块、所述存储功能监控模块以及所述共享在线统计模块的监控数据并通过管理链路与其它控制器的监控系统状态副本进行数据交互;
具体的,监控系统状态副本可以记录该控制器的监控数据,并可以通过管理链路获取其他监控器的监控数据,从而可以使多控制器系统中每个控制器都可以及时获取全部的监控数据,为后续故障的解决提供有力支持。例如当需要进行迁移时,可以根据监控系统状态副本中记录数据选取合适的可以迁移的控制器,从而提高了迁移效率。
告警管理模块700,用于根据所述硬件监控模块、所述系统监控模块、所述存储功能监控模块以及所述共享在线统计模块得到的故障数据发送告警信息;
具体的,告警管理模块700可以根据接收到的故障数据发送相应的告警信息,例如其可以提供系统状态指示灯、蜂鸣器进行故障指示,还可以提供mail(邮件)、snmp、异机日志及短信等方式发送系统告警。本实施例中的告警信息可以仅是提示信息(例如对应指示灯亮),也可以是包含具体数据(故障等级,故障检测数据以及对应等级)告警信息。进一步,为了提高该故障监控系统的交互能力,还可以提高查询接口模块,用于接收用户输入的查询信息,反馈对应的当前系统状态。例如用户查询当前系统状态,可以包括控制器、扩展柜等的硬件状态,包括操作系统的内存、cpu、进程等全局信息,包括各IO栈特有参数,包括共享业务的统计信息等。
故障迁移模块800,用于根据所述监控数据执行对应的迁移任务;其中,所述迁移任务包括控制器间的负载迁移任务和故障迁移任务。
具体的,故障迁移模块800根据获取的监控数据可以判定该控制器状态,进而可以根据迁移条件进行判定该控制器中的业务是否需要迁移以及如何迁移。例如当根据监控数据判定控制器负载过高后,迁移部分业务到其他状态良好、负载合理的控制器上(这里迁移业务的选择可以是选择负载较大的业务)。当发生控制器软硬件故障后,发起故障迁移,将整个控制器的业务迁移到其他控制器上。
下面举例说明上述多控制器系统的故障监控过程:
系统启动后监控模块启动,开始监控系统硬件、软件的状态。如果发现系统故障发生,此处的故障可能是超出一定的阈值或者发生状态错误等,则发送smtp、snmp、短信和异机日志进行告警。判断是否为控制器级的故障,如果是则获取其他控制器状态并进行控制器间的故障迁移。如果不是则判断是否为系统负载故障,如果是则获取其他控制器相关负载的状态,将部分高负载业务迁移到其他控制器上。
基于上述技术方案,本发明实施例提供的多控制器系统的故障监控系统,能够高效监控多控制器系统,及时发现故障信息,并准确做出相应处理,保证多控制器存储业务的无缝切换以及数据安全,提高多控制器系统的使用率。
基于上述实施例,所述硬件监控模块200可以包括:
温度监控单元,用于对控制器主板、cpu、背板进行温度监控。
具体的,温度监控单元根据检测到的温度数据结合该温度对应的控制策略,实现温度控制。例如如果温度超出阈值,则调高风扇转速加快散热,并持续监测,如果温度下降回合理范围则调低风扇转速节省能源。如果连续很长时间不能控制温度下降,则将该控制器对应的部分业务迁移到其他控制器以降低负载(因此可以迁移负载占用大的业务以减少迁移次数);并可以设置硬件故障指示灯并通过邮件、snmp、手机短信和日志的方式进行告警(以便人工管控及时接入,防止出现发的系统故障),如果仍不能有效控制硬件温度下降,则进行控制器间的故障迁移。
电气监控单元,用于对控制器主板的电压和电流进行监控,并对控制器的电源进行监控。
具体的,电气监控单元对控制器主板的电压、电流状态进行监控;其对应的管控策略可以是:如果状态超出或低于阈值,则设置硬件故障指示灯并通过邮件、snmp、手机短信和日志的方式进行告警,如果电压、电流状态超出或低于严重阈值,则进行控制器间故障迁移并关闭控制器电源。
对控制器电源进行监控,如果发生电源故障,则设置硬件故障指示灯并发送告警。对bbu状态进行监控,如果当前系统电源中断并且bbu供电时间低于设定阈值,则发起控制器故障迁移或关机流程,并发送告警信息。对ups状态进行监控,如果当前系统电源中断并且ups供电时间低于设定阈值,则发起关机流程,并发送告警信息。
扩展柜监控单元,用于对扩展柜进行监控,当监控到扩展柜离线或扩展柜发生错误时,向所述告警管理模块发送告警数据。进一步,还可以在告警管理模块700中设置扩展柜故障灯,以便可以及时提醒用户扩展柜故障,使用户可以及时处理故障信息。
本实施例并不对具体管控策略进行限定,用户可以根据实际情况进行相应的调整。
基于上述实施例,所述系统监控模块300可以包括:
使用率监控单元,用于对cpu以及内存的使用率进行监控。
具体的,对cpu的使用率进行监控,如果cpu的使用率超出设定阈值则将部分cpu利用率高的业务迁移到其他状态良好、负载合理的控制器,并发送告警信息通知用户。对内存的使用率进行监控,如果内存的使用率过高则将部分内存利用率高的业务迁移到其他状态良好、负载合理的控制器,并发送告警信息通知用户。
异常程序监控单元,用于对系统panic程序和oops程序进行监控。
具体的,对系统异常进程进行监控,对系统panic和oops进行监控,发生异常时发送告警信息通知用户,必要时进行控制器间的故障迁移。
分区状态监控单元,用于对各系统分区的使用率和系统分区文件系统错误进行监控。
具体的,对操作系统分区状态进行监控,监控各系统分区使用率,如果超出预设软阈值则发送告警信息,提示用户增加空间或清理缓存文件,如果超出预设硬阈值则以只读模式挂载系统分区,并再次发送告警提示用户。对系统分区文件系统错误进行监控,如果发现系统分区错误则发送告警信息提示用户,并在合适时机执行文件系统修复操作。
本实施例并不对具体管控策略进行限定,用户可以根据实际情况进行相应的调整。
基于上述实施例,所述存储功能监控模块400可以包括:
存储功能监控单元,用于对磁盘添加、移除、故障状态进行监控,并在发生故障时向告警管理模块发送告警数据使其发送告警信息;并监控RAID状态,在降级时进行热备替换并向所述告警管理模块发送告警数据,且在RAID状态离线时向所述告警管理模块发送告警数据。
SAN模块监控单元,用于对LU设备错误、失败指令、reset信息进行监控。
具体的,对SAN模块的运行状态进行监控。包括LU设备错误、失败指令、reset信息等,发送告警信息通知用于,必要时将SAN业务切换到其他控制器。
NAS模块监控单元,用于对文件系统出错状态,文件系统使用率,用户配额信息,NAS共享服务状态进行监控。
具体的,对NAS模块运行状态进行监控。监控文件系统出错状态,如果发现错误则进行fscheck操作进行修复,修复失败后发送告警信息。监控文件系统使用率,如果使用率超出设定阈值,则根据设定选择是否进行扩容操作,并发送告知信息。监控用户配额信息,如果超出用户、用户组配额软阈值、硬阈值则分别发送告警信息通知用户。监控NAS共享服务状态,包括NFS、SMB、FTP的错误信息,发送告警信息,必要时(即满足用户设置的切换条件时)将共享业务切换到其他控制器。
存储池监控单元,用于对存储池的使用率进行监控。
具体的,对存储池使用率进行监控,当存储池使用率超出设定阈值后,则根据设定选择是否进行存储池扩容,并发送告警信息。监控存储池内卷的状态,如果发现错误则发送告警信息。
进一步,所述存储功能监控模块400还可以包括:
存储功能模块监控单元,用于对存储分级模块、加密模块、数据重删模块、自动精简模块、灾备模块进行监控。当发现错误则发送告警信息通知用户进行处理。
基于上述实施例,所述共享在线统计模块500可以包括:
NAS业务监控单元,用于对NAS业务的实时写入带宽、用户在线数量、客户端在线数量以及共享文件的属性进行监控;
具体的,对NAS业务的在线统计状态进行监控。包括实时的写入带宽、用户在线数量、客户端在线数量。包括共享文件的属性,例如文件的大小、读写比例、块大小等。根据实时的监控信息计算出用户的业务类型信息,例如大块顺序写入、随机访问、只读访问、多客户端竞争访问等。根据具体的用户业务类型,提供给用户特定的优化方案,提高存储性能和效率。
SAN业务监控单元,用于对SAN业务的实时写入带宽、客户端同时操作的lun数量、会话信息以及对scsi指令的统计信息进行监控。
具体的,对SAN业务的在线状态进行监控。包括实时写入带宽、客户端同时操作的lun数量、会话信息以及对scsi指令的统计信息。根据具体的用户业务类型,提供给用户特定的优化方案,提高存储性能和效率。
基于上述技术方案,本发明实施例提供的多控制器系统的故障监控系统,能够高效监控多控制器系统,及时发现故障信息,并准确做出相应处理,保证多控制器存储业务的无缝切换以及数据安全,提高多控制器系统的使用率。
以上对本发明所提供的多控制器系统的故障监控系统进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。