一种基于SMART和性能日志的磁盘故障预测方法与流程

文档序号:21973143发布日期:2020-08-25 19:04阅读:616来源:国知局

本发明涉及云存储技术领域,具体为一种基于smart和性能日志的磁盘故障预测方法。



背景技术:

随着信息产业的发展,大量的数据不断生成,推动了数据存储服务的发展。存储系统的稳定性与服务供应商的效益密切相关,存储系统故障会给使用者造成巨大损失。确保数据不丢失,必须首先关注云存储的安全。由于云存储中磁盘的数量规模是极其庞大的,硬盘是服务器硬件故障率高的一个部件之一,如果能提前预测到硬盘故障,就可以指导维护人员对状况进行处理,如备份数据、更换硬盘等,保证系统的正常运行,减小损失。目前,硬盘厂商基本都采用自我监测分析报告技术(s.m.a.r.t)对硬盘状态进行监测和分析,但其对故障的检测率只有3%~10%。

smart是一种磁盘自我分析检测技术,早在90年代木就基本得到了普及;它是ata标准规定的各磁盘厂商必须遵循的标准条件之一,也是磁盘厂商普遍采用的故障磁盘预测方法。

每一块硬盘在运行的时候都会将自身的若干参数记录下米:这些参数包括型号、容量、温度、密度、扇区、寻道时间、传输、误码率等。硬盘运行了几千小时后,很多内在的物理参数都会发生变化,某一参数超过报警阈值,则说明硬盘接近损坏。此时硬盘依然在工作,如果用户不理睬这个报警继续使用那么硬盘将变得非常不可靠,随时可能故障。

基于smart的阈值判定方法过于简单,在实际运行环境中故障磁盘的检测率通常为3-10故障磁盘检测率过低,实际预警效用不大。

smart信息不是实时更新的,需要一段时间才可以更新,在发生故障的时间段中可能没有刷新,因此光靠smart信息来预测磁盘故障是不够的。



技术实现要素:

针对上述背景技术的不足,本发明提供了一种基于smart和性能日志的磁盘故障预测方法的技术方案,通过在数据集上训练出的深度学习模型对故障进行预测,能将正确率提高到95%以上,极大提高了预测率。

本发明提供如下技术方案:一种基于smart和性能日志的磁盘故障预测方法,包括:

(1)收集磁盘smart信息、性能日志数据以及外部运行条件,利用随机森林算法进行训练,获得判断磁盘故障的特征项和判断模型;

(2)对所述特性项的数值和时间函数图像进行拟合,获得每个特征项数值的变化模型库;

(3)对正常运行的磁盘的特征项数值变化曲线与所述变化模型库曲线进行对比,选择最接近的模型预测未来n时刻的特征项预测数值;

(4)将所述预测数值带入判断模型进行分析,判断n时刻磁盘是否会发生故障其故障概率;

(5)返回预测结果,给出预警信息。

优选的,获得所述特征项和判断模型后,利用递归算法获得特征项的重要程度排序,并根据特征项的重要性建立预测路径。

优选的,所述外部运行条件包括机房温度、湿度、机器密度、机房种类、任务类型和任务量。

优选的,在所述步骤(2)中,先对按照特征项的重要程度对磁盘进行分类,按照磁盘类型设置变化模型库曲线检索标签。

优选的,所述预测方法在给出预测结果后对预测结果进行跟踪,收集方法判断的准确性并建立例外数据库对预测错误的结果进行数据收集。

优选的,在所述步骤(1)和步骤(2)中的训练样本和测试样本均为分别抽取,且在将步骤(2)中测试样本测试数据作为检测样本对步骤(1)中的模型进行检测。

优选的,所述方法用于对服务器磁盘的检测,根据服务器各个硬盘的smart数据和io性能日志对其磁盘是否会发生故障进行预测

本发明具备以下有益效果:

1、该基于smart和性能日志的磁盘故障预测方法,利用随机森林算法获得判断磁盘是否故障的模型,相比较smart单特征项的阙值判断,该模型综合分析多个特征项,综合判断磁盘是否故障,判断的准确性更高,进一步地,该方法还分析了外部条件对磁盘的影响,更进一步地提高预测的准确性。

2、该基于smart和性能日志的磁盘故障预测方法,通过对现有磁盘的数据变化对磁盘特征项的未来变化进行预测,再带入判断模型进行判断,提前预知未来磁盘的运行情况,帮组运维人员及时备份替换硬盘,避免数据丢失,服务器宕机,减少由此带来的经济损失。

具体实施方式

下面将对发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

一种基于smart和性能日志的磁盘故障预测方法,包括:

(1)收集磁盘smart信息、性能日志数据以及外部运行条件,利用随机森林算法进行训练,获得判断磁盘故障的特征项和判断模型;

对收集的数据进行标准化处理,随机抽取训练样本集和测试样本集,smart信息、性能日志和外部运行条件作为特征集;

有放回的选取m个特征作为特征子集,确定每个决策树上一个节点的决策结果,建立决策树;

用训练样本集训练,测试样本集对其评估;

集成所有的决策树进行预测,获得判断模型。

(2)对所述特性项的数值和时间函数图像进行拟合,获得每个特征项数值的变化模型库,均匀的选取5-8时间序列,判断这些点的重合程度,对图像进行分类存档;

(3)对正常运行的磁盘的特征项数值变化曲线与所述变化模型库曲线进行对比,选择最接近的模型预测未来n时刻的特征项预测数值;

(4)将所述预测数值带入判断模型进行分析,判断n时刻磁盘是否会发生故障其故障概率;

(5)返回预测结果,给出预警信息。

其中,获得所述特征项和判断模型后,利用递归算法获得特征项的重要程度排序,并根据特征项的重要性建立预测路径,获得决策树上每个节点对给定预测的贡献值。

其中,所述外部运行条件包括机房温度、湿度、机器密度、机房种类、任务类型和任务量,外部的运行环境对磁盘的寿命有较大的影响,综合考虑提高预测的准确性。

其中,在所述步骤(2)中,先对按照特征项的重要程度对磁盘进行分类,按照磁盘类型设置变化模型库曲线检索标签,分类检测提高匹配时的计算量。

其中,所述预测方法在给出预测结果后对预测结果进行跟踪,收集方法判断的准确性并建立例外数据库对预测错误的结果进行数据收集便于后期评估和改进。

其中,在所述步骤(1)和步骤(2)中的训练样本和测试样本均为分别抽取,且在将步骤(2)中测试样本测试数据作为检测样本对步骤(1)中的模型进行检测。

其中,上述方法用于对服务器磁盘的检测,根据服务器各个硬盘的smart数据和io性能日志对其磁盘是否会发生故障进行预测。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1