基于探针技术的资源池故障诊断与定位处理方法
【技术领域】
[0001]本发明属于资源池运维故障监测和处理方法技术研究,尤其是可完整实现服务器、网络、存储等层面的基础设施资源池故障探查和关联性分析技术领域。
【背景技术】
[0002]企业私有云的核心是以虚拟化技术为基础实现硬件资源池,在资源池中承载更多企业级业务系统,这些系统对虚拟机稳定运行有更高要求,因此应从故障预警和快速故障定位两个方面加强资源池运维相关技术研究以提高计算资源池的运行稳定性和承载能力。本研究引入了资源池故障探针的概念,通过针对资源池中的不同对象构建针对性的探针,将相关的状态、日志等信息通过探针收集,并进行集中存储和分析,对这些数据分析将采用大数据分析方法的理念,构建适合企业私有云的云计算资源池的分析模型。
[0003]务器运行保障出现一定的风险,HA的触发几率也随之提高,目前大部分企业已经具备计算资源池运行情况监控能力。通过这个模型对探针采集的数据进行分析,为资源池运维提供故障的预测和故障快速定位,减少人员逐个对资源池中的对象进行故障排除判断的繁杂人工劳动,提高故障处理效率和预防效率
[0004]为了提高自我技术控制即研发程度,建议选择基于各品牌虚拟化产品提供的事件API接口来做二次开发,通过采集事件的分级和告警做故障的判断、日志分析、运行状态判断,可在资源池中物理服务器众多、承载大量虚拟服务器情况下,快速发现已发生的故障,并提供控制台来准确预测和定位故障。
【发明内容】
[0005]一种基于探针技术的资源池故障诊断与定位处理方法,其特征在于可完整实现服务器、网络、存储等层面的基础设施资源池故障探查和关联性分析,其方法是:
[0006]I)、数据采集探针技术构建:对企业云计算资源池中的物理服务器、虚拟服务器、网络交换机(包含物理和虚拟)、和存储设备资源对象数据进行探测采集,通过构建相应的探针对生产环境中各资源对象进行探测检查和数据收集;目的在于解决目前运行数据不全面的问题,获取每一个环节的运行信息;
[0007]2)、运行对象数据分析:采用大数据分析技术对采集的各项指标数据进行分析,构建一个适应多种数据类型分析和预测的算法模型,通过该模型能对不同资源类型的数据和日志进行综合分析,从这些数据中捕获隐患信息和故障发生点的位置信息,通过将这些信息加工处理后以标准方式提供云计算的管理系统或IT服务的管理监控系统进行呈现,及时发现安全隐患和加快故障处理效率和质量;
[0008]3)、云计算资源监控的中间件构建:资源池探针技术和大数据分析技术的联合为云计算的资源监控带来了新的技术处理方式,通过对开源服务器虚拟化技术、SDN网络等的前瞻性探针技术研究,可构建多种云计算资源对象探针,通过这些探针技术和大数据分析技术的联合,可成为一个通用的云计算资源监控中间件,这个中间件将成为云管理系统和IT资源服务管理系统获取云计算环境信息的标准接口,避免多重资源获取带来的资源开销和重复开发,并能提供一致的数据信息,确保管理的高效一致;
[0009]4)、云计算资源池运维和管理模型建立:通过资源池的运行数据和日志数据,能对资源池的运行全像进行描绘,对计算、网络、存储、服务提供等进行全面管理,能有效提升运维水平和管理等级,不仅对企业信息管理系统提供可靠的运行环境,也为云计算的发展提供有效的评估和管理工具,促进有目标有计划的云计算建设。
[0010]本发明的有益效果是:探针技术研究将推动云计算资源池运维管理的规范化和集约化,增加资源池的运行稳定,为业务系统虚拟机提供高稳定性的运行环境,对提高云计算资源服务SLA的推进有极大的意义。探针技术的引入对云计算管理技术也带来新的技术方法,通过构建不同的探针技术进行云计算运行数据的收集,能全面掌控云计算的运行管理,为将来云计算发展奠定基础技术理论条件。
【附图说明】
[0011]图1是本发明探针技术原理图。
[0012]参照说明书附图对本发明的方法作以下详细地说明。
[0013]正如
【发明内容】
中所描述的,本发明的体系结构主要包括:
[0014]云计算资源池各种探针技术都将对应相应的资源池对象探针,这些探针在工作中,根据预先进行的配置进行数据的探测和状态探测,并将数据统一通过TCP网络传输到日志收集服务器中,这些数据并不是结构化的数据,而且这些数据可能以文本、HTMUXML等形式存在,因此需要采用一种新的分析技术来进行数据的分析处理,从中抽取出我们需要的信息,如故障定位信息、故障预测信息。
[0015]云计算资源池环境中以物理服务器、虚拟服务器、网络交换机(包含物理和虚拟)、和存储设备对象的探针技术,通过探针技术获取资源池对象运行状态数据,并将这些运行状态数据集中进行分析,用于故障的诊断和预测;研究采用大数据分析算法来进行运行数据的实时分析诊断,结合历史数据对故障发生的可能性做出预测。相关研究具备一定的前瞻度,对开源资源池环境、SDN等未来云计算技术进行探针技术研究。
【具体实施方式】
[0016]见图1,根据研究对象,探针并不是一个实体物理部件,而是一组程序,由于云计算是软件定义的,因此要获取这些数据就应当采用软件探针,通过这些软件探针来获取云计算资源池内的情况。在获取到相应的探测数据后,研究成果将构建一套分析程序,通过构建基于大数据分析算法思想的分析算法,对多种类的日志进行联合分析。本发明方法包括下列四个部分:1)、服务器探针技术:服务器探针技术包含物理服务器探针和虚拟服务器探针两种,服务器探针主要用于探测资源池中物理或虚拟服务器的运行情况和收集相关的日志,