一种基于大数据流处理技术的运维监控分析系统的制作方法
【技术领域】
[0001]本发明涉及运维监控技术领域,尤其涉及一种运维监控分析系统。
【背景技术】
[0002]随着IT行业的不断推进,服务器、网络设备以及存储设备等物理设备在各业务领域承担着越来越重要的责任,其中的各类软件也开始充当越来越重要的角色。当系统整体的效能范围达到一定程度后,对于业务的处理能力更大程度上将会依赖上述软硬件设备,而软硬件设备的整体运行情况和个体性能就将成为业务处理能力的瓶颈。因此,对于软硬件设备的全方位的运维监控成为监测和支撑业务处理能力的一个重要手段。
[0003]现有技术中,由于需要监控的监控指标非常多,例如需要监控设备CPU使用率、内存、磁盘等各类软硬件的性能数据,并且对于不同类型的硬件设备存在不同的监控指标,因此当需要监控的设备越来越多,最终监控得到的运维数据也会越来越多,从而呈现一种大数据量的监控和数据分析环境。
[0004]采用现有的方法对于大数据量的运维数据进行分析,通常存在以下几个问题:
[0005]1)对于一些需要告警的监控信息进行分析的实时性较差;
[0006]2)对大数据量的运维数据的数据挖掘非常不足,经过挖掘后向用户呈现的数据通常仍然是比较分散的数据,并不一定能满足用户的需求;
[0007]3)对于大数据量的运维数据的存储通常使用mysql等关系型数据库,无法承受数量庞大的运维监控数据。
【发明内容】
[0008]根据现有技术中存在的上述问题,现提供一种运维监控分析系统的技术方案,旨在解决因运维运维数据量巨大导致的数据分析实时性不够、告警实时性不足、处理效率过低、监控数据分散化、无法支撑海量数据以及可能出现任务处理崩溃的问题。
[0009]上述技术方案具体包括:
[0010]一种基于大数据流处理技术的运维监控分析系统,其中,包括:
[0011]监控端,分别远程连接多个客户端,用于监控得到所述客户端中的运维监控数据,并将监控到的处于预设周期内的所述运维监控数据发送至一远程的存储端,以作为历史记录保存;
[0012]所述存储端还用于保存预设的多条预警处理规则,以及预设的多条数据挖掘规贝1J,以及所述历史记录;
[0013]缓存端,分别远程连接所述存储端和所述监控端,用于根据预设的时间间隔,将所述存储端中保存的所述预警处理规则、所述数据挖掘规则以及所述历史记录同步到所述缓存端中进行保存,以及接收所述监控端发送的实时的包括所述运维监控数据的监控数据流,并根据对应所述监控数据流中包括的所述运维监控数据的不同的类型分别进行缓存;
[0014]第一处理组,远程连接所述缓存端,所述第一处理组中包括多个第一处理端,分别用于根据所述预警规则、所述历史记录以及所述监控数据流进行预警监控分析,并输出相应的分析结果;
[0015]第二处理组,远程连接所述缓存端,所述第二处理组中包括多个第二处理端,分别用于根据所述数据挖掘规则、所述历史记录以及所述监控数据流进行数据挖掘分析,根据分析结果输出被挖掘出的关联于所述运维监控数据的监控统计结果。
[0016]优选的,该运维监控分析系统,其中,一条所述预警处理规则包括:
[0017]所述预警处理规则所对应的所述客户端的类型信息;
[0018]所述预警处理规则所对应的监控指标的信息;以及
[0019]所述预警处理规则所对应的处理表达式的信息。
[0020]优选的,该运维监控分析系统,其中,一条所述数据挖掘规则包括:
[0021]所述数据挖掘规则所对应的所述客户端的类型信息;
[0022]所述数据挖掘规则所对应的监控指标的信息;以及
[0023]所述数据挖掘规则所对应的处理模型的信息。
[0024]优选的,该运维监控分析系统,其中,所述监控端包括:
[0025]接收单元,用于接收所述监控数据流;
[0026]分片单元,连接所述接收单元,用于将所有需要发送至所述缓存端的所述监控数据流划分成多个片式数据并输出;
[0027]封装单元,连接所述分片单元,用于对每个所述片式数据按照所关联的具体属性进行封装;
[0028]处理单元,连接所述接收单元,用于根据所述监控数据流分别形成关联于所述预警监控分析的第一任务,以及关联于所述数据挖掘分析的第二任务;
[0029]发送单元,分别连接所述封装单元和所述处理单元,用于依次将经过封装的所述片式数据发送至所述缓存端进行保存,以及将关联于不同的所述监控数据流的所述第一任务以及所述第二任务发送至所述缓存端进行保存。
[0030]优选的,该运维监控分析系统,其中,所述第一处理组中的多个所述第一处理端中包括一个第一主处理端和多个第一从处理端,所述第一主处理端分别连接多个所述第一从处理端;
[0031]所述缓存端保存有关联于所述预警监控分析的第一任务,每个所述第一任务关联于包括多个所述运维监控数据的所述监控数据流;
[0032]所述第一主处理端中包括:
[0033]第一监控单元,用于对不同的所述第一从处理端的工作负载进行监控,并输出监控结果;
[0034]第一处理单元,连接所述第一监控单元,用于根据所述监控结果,处理得到关联于所有所述第一从处理端的任务拓扑关系并输出;
[0035]第一分发单元,连接所述第一处理单元,用于根据所述任务拓扑关系,向不同的所述第一从处理端分发包括于所述缓存端接收到的所述第一任务以及相关联的所述监控数据流。
[0036]优选的,该运维监控分析系统,其中,每个所述第一从处理端中包括:
[0037]第一解析单元,用于对接收到的所述监控数据流进行解析,并输出解析结果;
[0038]第一分析单元,连接所述第一解析单元,用于根据所述解析结果,采用所述预警处理规则以及所述历史记录,对解析得到的所述运维监控数据进行预警监控分析,并输出相应的分析结果。
[0039]优选的,该运维监控分析系统,其中,所述第二处理组中的多个所述第二处理端中包括一个第二主处理端和多个第二从处理端,所述第二主处理端分别连接多个所述第二从处理端;
[0040]所述缓存端保存有关联于所述数据挖掘分析的第二任务,每个所述第二任务关联于包括多个所述运维监控数据的所述监控数据流;
[0041]所述第二主处理端中包括:
[0042]第二监控单元,用于对不同的所述第二从处理端的工作负载进行监控,并输出监控结果;
[0043]第二处理单元,连接所述第二监控单元,用于根据所述监控结果,处理得到关联于所有所述第二从处理端的任务拓扑关系并输出;
[0044]第二分发单元,连接所述第二处理单元,用于根据所述任务拓扑关系,向不同的所述第二从处理端分发包括于所述缓存端接收到的所述第二任务以及相关联的所述监控数据流。
[0045]优选的,该运维监控分析系统,其中,每个所述第二从处理端中包括:
[0046]第二解析单元,用于对接收到的所述监控数据流进行解析,并输出解析结果;
[0047]第二分析单元,连接所述第二解析单元,用于根据所述解析结果,采用所述数据挖掘规则以及所述历史记录,对解析得到的所述运维数据进行数据挖掘分析,并输出相应的分析结果。
[0048]优选的,该运维监控分析系统,其中,所述存储端包括多个相互独立的存储单元,所有所述存储单元组合形成一列式的存储集群,以作为所述存储端。
[0049]优选的,该运维监控分析系统,其中,所述缓存端和所述第一处理组结合形成一用于进行预警监控分析的第一处理集群。
[0050]优选的,该运维监控分析系统,其中,所述缓存端和所述第二处理组结合形成一用于进行数据挖掘分析的第二处理集群。
[0051]上述技术方案的有益效果是:提供一种运维监控分析系统,能够解决因运维数据量巨大导致的数据分析实时性不够、告警实时性不足、监控数据过度分散化、底层存储无法支撑、处理效率过低以及可能出