监控设备亚健康的方法及装置与流程

文档序号:37414751发布日期:2024-03-25 19:02阅读:10来源:国知局
监控设备亚健康的方法及装置与流程

本发明实施例涉及通信领域,具体而言,涉及一种监控设备亚健康的方法及装置。


背景技术:

1、存储产品有着极致的可靠性及性能等要求,而且作为基础设施的重要组成部分在各行业广泛使用,但随着存储系统的能力不断增强其复杂度也逐步增加,系统复杂所带来的异常或隐患(亚健康)隐藏的也越来越深难以在一次测试中有效识别。

2、同时,在实验室及数据中心涉及较多的存储环境,运维以及测试过程中大量的环境,均需要快速准确的识别风险,甚至需要预警式地识别风险并进行处理,才能满足存储产品上层业务的运维管理。

3、因为存储产品所处的基础设施关键位置以及产品高要求和复杂度,也在存储产品的运维和测试上带来了极大的挑战,如何更高效的进行监控以及更快的发现问题成为必须突破的效率难题。困难主要表现在:

4、1、存储设备多,且存储系统复杂涉及场景多,随之而来的观测点或监控点非常多,很难在一次运维或测试用例中全部囊括,效率上无法接受;

5、2、设备出现异常时,通过告警或其他检测已经晚了,如何更早的发现设备的隐患。提前在存储设备的“亚健康”阶段就将其识别出来成为关键,用来保障较短的时间就能消除设备长期运行才会暴露风险;

6、因此,需要有一个既能全面检测存储异常,又能尽早识别风险的方案,同时该方案需要能够自动化且后台化,避免运维人员或测试人员的成本大幅增加。

7、目前,传统监控方式,主要是通过制定专用测试用例观测点或例行巡检的方案,来实现对设备的监控管理。

8、现有技术主要是通过制定专用测试用例观测点或例行巡检来实现监控管理,下面介绍这两个技术的不足点:

9、1、专项观测点:该方案主要是在传统的测试用例中明确专项的观测点,逐项的检查核实进行问题的识别和判断。

10、该方案是最常用的测试和检查方式,实现简单但观测点的全面性和准确性完全受限于设计人员的能力,而且无法防护杜绝蝴蝶效应带来的修改隐患(用例观测点范围有限聚焦在强相关功能的观测,受用例数量影响,扩展观测点的测试成本指数级增加,不可能在一个用例中观测整个存储系统的所有观测点)。

11、2、例行巡检:该方案是多设备统一运维管理中常用的方法,主要是通过工具或脚本等对所有存储设备进行一个统一方法的检查,识别系统是否出现了异常。

12、该方案很好的解决了每个设备或每个用例单独观测的问题,通过通用的观测项进行检查,而且能够并行的处理。

13、但该方案和专项观测点的方案都有两个共同的技术缺点或不足:

14、a、空间上,需操作设备和人为保障:均需要访问设备在设备上执行相关的命令,可能与设备上层业务等产生争抢或其他影响,同时需要运维及测试人员全程关注或操作,全程消耗运维及测试成本;

15、b、时间上,只能观测问题不能预警:根据观测点或者巡检方法能够识别出现有设备出现的问题,但对于尚未形成风险只是有隐患的点无法有效预警(如代码累积类异常或者微量资源泄漏)。

16、针对上述问题,目前尚未存在有效的解决方案。


技术实现思路

1、本发明实施例提供了一种监控设备亚健康的方法及装置,以至少解决相关技术中难以在设备发生故障前发现设备存在亚健康的问题。

2、根据本发明的一个实施例,提供了一种监控设备亚健康的方法,包括:通过监控平台定期采集目标设备的日志,得到日志包;将所述日志包与预设的亚健康风险日志进行匹配,得到匹配结果,其中,所述匹配结果用于指示所述日志包中是否存在亚健康日志;在所述匹配结果表示存在所述亚健康日志的情况下,根据所述亚健康日志确定所述目标设备的亚健康类型。

3、在一个示例性实施例中,根据所述亚健康日志确定所述目标设备的亚健康类型,包括:在所述亚健康日志指示重试报错的次数达到第一预设值的情况下,确定所述目标设备的亚健康类型为内部并发瓶颈;在所述亚健康日志指示校验值错误的情况下,确定所述目标设备的亚健康类型为数据校验异常;在所述亚健康日志指示资源持续减少的情况下,确定所述目标设备的亚健康类型为资源泄露。

4、在一个示例性实施例中,所述方法还包括:在所述内部并发瓶颈次数达到第二预设值的情况下,发送第一提示消息;在所述数据校验异常的次数达到第三预设值的情况下,发送第二提示消息。

5、在一个示例性实施例中,所述方法还包括:在所述亚健康日志指示资源持续减少的情况下,通过预设的指令调取所述目标设备的资源使用记录;在所述资源使用记录表示所述目标设备的资源持续减少的时长大于或等于预设的时长阈值的情况下,发送第三提示消息。

6、在一个示例性实施例中,所述方法还包括:在所述亚健康日志指示资源持续减少的情况下,通过预设的指令调取所述目标设备的资源使用记录;在所述资源使用记录表示在预设时间范围内所述目标设备的资源使用率大于或等于预设使用率阈值的情况下,发送第四提示消息。

7、在一个示例性实施例中,在所述匹配结果表示存在所述亚健康日志的情况下,根据所述亚健康日志确定所述目标设备的亚健康类型,包括:在所述匹配结果表示存在所述亚健康日志的情况下,将所述亚健康日志与预设的白名单进行匹配;在所述白名单中不存在所述亚健康日志的情况下,根据所述亚健康日志确定所述目标设备的亚健康类型。

8、在一个示例性实施例中,将所述日志包与预设的亚健康风险日志进行匹配,得到匹配结果,包括:对所述日志包中的每条日志执行以下操作,在执行以下操作时的日志称为当前日志:将所述当前日志与所述亚健康风险日志中的每条风险项进行匹配,其中,所述亚健康风险日志中记录了多条风险项,所述风险项用于指示与该风险项匹配的日志存在亚健康风险;在所述当前日志与亚健康风险日志中的当前风险项匹配的情况下,确定所述当前日志存在所述当前风险项指示的亚健康风险。

9、根据本发明的另一个实施例,提供了一种监控设备亚健康的装置,包括:采集模块,用于通过监控平台定期采集目标设备的日志,得到日志包;匹配模块,用于将所述日志包与预设的亚健康风险日志进行匹配,得到匹配结果,其中,所述匹配结果用于指示所述日志包中是否存在亚健康日志;确定模块,用于在所述匹配结果表示存在所述亚健康日志的情况下,根据所述亚健康日志确定所述目标设备的亚健康类型。

10、根据本发明的又一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现上述任一项中所述的方法的步骤。

11、根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

12、通过本发明,由于通过监控平台定期采集目标设备的日志,得到日志包;将日志包与预设的亚健康风险日志进行匹配,得到匹配结果,匹配结果用于指示日志包中是否存在亚健康日志;在所述匹配结果表示存在亚健康日志的情况下,根据所述亚健康日志确定目标设备的亚健康类型。因此,可以解决难以在设备发生故障前发现设备存在亚健康问题,达到可以在设备出现故障前及时发现设备的亚健康的效果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1