一种云计算平台的硬盘故障预测方法
【专利摘要】本发明公开一种云计算平台硬盘故障预测方法,首先根据预测时间窗口内的硬盘维修记录将硬盘SMART日志数据标记为正常硬盘样本和故障硬盘样本,之后采用K-means聚类算法将去除噪音后的正常硬盘样本划分成k个不相交子集,并分别与故障硬盘样本结合,根据SMOTE过采样算法生成k组平衡训练集,以此训练得到k个支持向量机分类器,用于故障硬盘的预测。在预测阶段,首先采用DBSCAN聚类算法对测试集进行聚类,将聚类簇中的样本预测为正常硬盘样本,而对噪音样本利用训练得到的各个分类器进行预测,并投票得到最终预测结果。本发明的方法实现了利用硬盘SMART数据进行硬盘故障预测,并且能够取得较好的故障查全率和整体性能。
【专利说明】-种云计算平台的硬盘故障预测方法
【技术领域】
[0001] 本发明设及一种云计算平台的硬盘故障预测方法,属于计算机数据挖掘领域,具 体说是一种硬盘故障预测算法。
【背景技术】
[0002] 硬盘故障预测可W保证数据安全性、提高运维效率、控制存储成本。该项技术设及 云计算、数据挖掘、硬盘SMART技术、故障预测技术、极不平衡数据分类技术等多个领域的 技术。硬盘故障预测主要指依靠硬盘SMART数据来进行故障预测。但是,如文献1 ;PINHEIRO E, 肥邸RWD,BARROSO L A. Failure trends in a large disk 化ive population[邸/OL]. [2012-10-10]. http://research, google. com/archive/disk_failures. pdf.介绍的,利用 统计方法,36 %的故障原因不能被预估到。
[0003] 目前,硬盘厂商普遍采用阔值判定方法来预测硬盘故障,即利用硬盘SMART技术, 采集硬盘运行时的各项指标信息,并与设定的硬盘故障预警阔值相比较,超过阔值便触发 故障报警。为了减少因故障预警而返厂检测维修的硬盘数量,从而降低成本,硬盘厂商在设 定阔值时往往选择将误报率降至最低,但同时也牺牲了预测的准确率。采用阔值判定方法 的预测准确率约为3% -10%,误报率约为0. 1%。
[0004] Pinheiro等发现只有4个SMART属性与硬盘故障存在有一定的关联,即扫描错误、 重分配计数、离线重分配计数和试用计数。但是当他们在谷歌公司超过十万块的硬盘上统 计研究时发现,超过56%的故障硬盘都没有在该4个属性中的任何一个上有计数值。因此, 他们认为仅利用SMART不能够建立准确地硬盘故障预测模型,而更适用于预测硬盘集群的 趋势,参见文献2 ;E. Pinheiro, W. D. Weber, and L. A. Barroso, "Failure trends in a large disk drive population, " in Proceedings of the 5th USENIX Symposium on File and Storage Technologies (FAST 07),2007.
[0005] Agarwal和Niranjanet等仅利用SMART信息采用MLRules算法建立的硬盘故障 预测模型获得66%的检测率和3%的误报率,参见文献3 ;Vipul Agarwal,化iranjib Bh attacharyya, ThirumaleNiranjan, et al. Discovering Rules from Disk Events for Predicting Hard Drive Failures[C]. IEEE Computer Society,2009. Hamerly 和 E化an、 化曲es和Murray等、张超主要利用SMART信息和其他的环境信息等建立的故障预测模型最 多获得了 56%的检测率,参见文献4 ;Greg Hamerly,Qia;rles E]_kan. Bayesian Approaches to Failure Prediction for Disk Drives [C]. Morgan Kaufmann, 2001.文献 5 ;Gordon F. Hughes, Joseph F.Murray, Kenneth Kreutz-delgado, et al. Improved Disk-Drive Failure Warnings[J]. IEEE Transactions on Reliability. 2002.文献 6 ;Jos邱h F. Murray, Gordon F. Hughes, Kenneth Kreutz-Delgado. Machine Learning Methods for Predicting Failures in Hard Drives:A Multiple-Instance Application[J]. Journal of Machine Learning research. 2005, 6:783 ?816.文献 7;张超.高性能磁盘阵列自修 复技术研究巧].国防科学技术大学,2008.与Pinheiro等的研究不同,该些研究中的实验 数据均来自返厂维修硬盘集合的子集,故障率要明显高于用户实际使用时所观测到的。
[0006] 云计算平台的硬盘故障预测技术是极不平衡的二分类数据集上的稀有类预测 问题。其中,故障盘为稀有类,无故障盘为多数类。目前,解决不平衡分类问题的策略主 要集中在数据层面和算法层面。数据层面的解决策略是通过对数据重新抽取采样达到 降低数据不平衡度的目的,方法主要包括欠采样、过采样W及两种方法的结合。无规则 的欠采样有可能会丢失重要样本信息;过采样可能会引起过学习的问题,还会增加训练 时间。算法层面的解决策略大致集中在=类;代价敏感学习、支持向量机W及组合的方 法。代价敏感学习根据情况调整惩罚参数,在不平衡分类中,对正类错分设置较大的惩罚 参数可W提高分类器在正类上的分类效果,该类方法的效果依赖于设置的参数;支持向量 机相对于其他分类方法来说,对于数据不平衡性的敏感度比较低,如在文献8 Japkowicz N, Stephen S. The class imbalance problem:A systematic study[J]. Intelligent data analysis, 2002, 6巧):429-449.中,Japkowicz等人通过实验比较了数据不平衡性对不同 分类方法,包括决策树C4. 5、BP神经网络和支持向量机等的影响,结果表明支持向量机对 数据不平衡性相对不敏感,因此在该个问题上,出现了很多基于支持向量机的方法;组合方 法就是将几种分类器结合起来,提高分类效果,组合方法需要对多种分类器之间的差异和 偏向性进行折中,而且容易引起过学习的问题。
【发明内容】
[0007] 发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种查全率 高、整体性能好的硬盘故障预测方法。
[000引技术方案:本发明公开了一种硬盘故障预测方法,包括W下步骤:
[0009] 步骤一,根据硬盘维修记录,将故障预测时间窗口内发生故障的硬盘的 SMART(Self-monitoring Analysis and R巧ort Technology,自我监测分析与报告技术) 日志数据标记为故障硬盘样本,将没有发生故障的硬盘的SMART日志数据标记为正常硬盘 样本;
[0010] 其中,根据硬盘某一时刻的SMART观测值,利用模型预测该硬盘从该时刻起的某 段时间内是否会发生故障,该段时间就是硬盘故障预测时间窗口。
[0011] 步骤二,对正常硬盘样本采用 DBSCAN值ensity-Based Spatial Clustering of Applications with Noise,DBSCAN,基于密度的含噪声应用空间聚类)算法进行聚类,去除 聚类簇之外的噪音样本,保留聚成簇的正常硬盘样本;
[0012] 步骤S,将去噪后的正常硬盘样本采用K-means算法进行聚类,从而将其划分为k 个不相交子集,并分别与故障硬盘样本合并成k个原始训练集,其中k为K-means聚类的个 数,k的取值为小于样本数量的自然数;
[0013] 步骤四,对每个原始训练集中的故障硬盘样本根据SMOTE(Synthetic Minority Over-sampling Technique,少数样本合成过采样技术)算法进行过采样,使得训练集中故 障硬盘样本与正常硬盘样本的数量一致,从而得到k个平衡训练集;
[0014] 步骤五,分别采用径向基函数内核的LIBSVM工具在k个平衡训练集上训练支持向 量机模型,得到集成分类器的k个支持向量机子分类器;
[0015] 步骤六,对测试样本集采用DBSCAN算法进行聚类,删除聚成簇的样本,保留聚类 簇之外噪音样本,并将删除的样本预测为正常硬盘样本;
[0016] 步骤走,将剩余的噪音样本分别用训练阶段得到的k个支持向量机分类器预测, 并投票确定分类结果,若对某个测试样本判断为故障硬盘样本的投票数超过设定的阔值, 则预测为故障,否则为正常。
[0017] 本发明步骤二中,采用DBSCAN算法对正常硬盘样本进行聚类包括W下步骤:
[0018] 步骤(21)任选正常硬盘样本集中一个未被访问的样本P,检查其半径化S的邻域 内样本对象的数量,若大于等于设定的最少包含样本数目Minpts,则建立新簇C,将样本P 及其半径为Eps的邻域内的所有样本对象加入C ;若小于Minpts,则将样本P标记为噪音样 本;
[0019] 步骤(22)任选C中一个未访问的样本q,检查q的半径为Eps的邻域,若其邻域内 样本对象的数量大于等于Minpts,则将样本q及其邻域内的样本加入C ;
[0020] 步骤(23)重复步骤(22),直到C中的样本对象均被访问过;
[0021] 步骤(24)重复步骤(21)?(23),直到正常硬盘样本集中的所有样本对象均被访 问过,且均被加入某个簇或标记为噪音。
[0022] 其中Eps表示半径,其取值为正实数,Minpts表示最少包含样本数目,其取值为小 于样本数量的自然数,Eps和Minpts的取值决定了 DBSCAN算法的聚类性能,通常只能根据 经验确定。DBSCAN算法把密度相连的点的最大集合定义为簇,不需要事先设定要形成的簇 的数量,就可W把高密度区域划分为任意形状的簇,并且将噪音区分出来。
[0023] 本发明步骤S中,采用K-means算法对去噪后的正常硬盘样本进行聚类包括W下 步骤:
[0024] 步骤(31)任选正常硬盘样本集中k个样本对象为初始聚类中屯、,其中k为设定的 聚类个数;
[0025] 步骤(32)计算正常硬盘样本集中所有样本到k个聚类中屯、的距离,并将每个样本 划归到最近距离的聚类;
[0026] 步骤(33)重新计算k个聚类的聚类中屯、,聚类中屯、为该聚类中所有样本对象的均 值;
[0027] 步骤(34)重复步骤(32)?(33),直到满足收敛条件。收敛条件根据设定可W 是两次迭代的聚类中屯、不再变化或小于阔值,该阔值相对于样本间的距离是一个极小的实 数,通常为l(Ti?1(^5;也可W是迭代次数达到预先设置的最大迭代次数,最大迭代次数通 常设置为一个适中的整数,一般为10?100,取值过小会导致聚类中屯、偏离理论值过多,取 值过大则会导致算法执行时间增加。
[002引 K-means算法是一种典型的基于距离的聚类算法,需要事先确定聚类个数k,k的 取值为小于样本数量的自然数。首先随机选择k个样本作为初始聚类中屯、,然后计算其余 样本到各个聚类中屯、的距离,并将每个样本归为距离最近的簇。当所有样本处理完成后,即 表示完成一次迭代运算。计算每个簇中所有样本对象的平均值为新的聚类中屯、,开始新一 轮迭代运算,当相邻两次迭代中的聚类中屯、保持不变或小于阔值,则认为算法收敛,对应的 聚类就是最优的聚类结果。控制算法最大迭代次数是使K-means算法收敛的另一种方式。
[0029] 本发明步骤四中,采用SMOTE算法对故障硬盘样本进行过采样包括W下步骤:
[0030] 步骤(41)计算步骤=中生成的原始训练集中故障硬盘样本的数量T,并设定过采 样比例N和最近邻的数量m,令Ni=化00R(N/100),N2= N% 100,其中FLOOR为向下取整 函数,%为取余操作;
[0031] 步骤(42)将待采样故障硬盘样本集S初始化为空。首先重复Ni次向S中加入所 有故障硬盘样本,然后令T'= (N2/100)*T,并从故障硬盘样本中随机选择T'个样本加入S ;
[0032] 步骤(43)对于待采样故障硬盘样本集S中的每个故障硬盘样本P,在训练集中寻 找当前故障硬盘样本P的m个最近邻故障硬盘样本,随机选择其中一个近邻故障硬盘样本 q,生成当前样本P的一个人工样本,具体生成过程为;计算当前样本P的特征向量和样本q 的特征向量的差值,并乘W-个0?1之间的随机数,再加上当前样本P的特征向量,作为 新生成人工样本的特征向量。
[0033] SMOTE算法通过人工构造少数类样本的方式来提高训练集的平衡度。对于少数类 样本,随机选择其m(m为小于少数类样本总数的正整数)个最近邻少数类样本中的一个,生 成人工样本,该个人工样本的特征向量位于当前故障硬盘样本和选定的最近邻特征向量连 线的某个随机的点上。生成的人工样本数量由过采样比例N确定,N的取值为任意正整数, 如N = 200表示为每个少数类样本生成2个人工样本。该种随机生成人工样本的方式在提 高训练集平衡度的同时,尽可能地增加了少数类样本的信息量,从而扩大了少数类样本在 分类器中的决策区域。
[0034] 本发明步骤五中,采用LIBSVM工具在采样后的平衡训练集上训练模型,LIBSVM是 台湾大学林智仁教授等开发设计的一个简单、易于使用和快速有效的支持向量机模式识别 和回归的软件包,其使用步骤为:首先按照LIBSVM软件包所要求的格式准备数据集,并对 数据进行简单的缩放操作,之后考虑选用径向基核函数,采用交叉验证选择最佳参数C与 g,其中C为惩罚参数,g为核参数,最后采用最佳参数C与g对整个训练集进行训练获取支 持向量机模型,并利用获取的模型进行测试与预测。选用径向基核函数是因为它可W很好 处理类标签和属性关系非线性的情况。交叉验证用于得到可靠稳定的模型;在给定的样本 集中,每次选择大部分样本进行模型训练,留小部分样本用于模型测试,直到所有样本都被 测试了一次且仅被测试一次,W最后的预测误差平方和作为评价指标。将步骤四中得到的 k个平衡训练集分别作为输入数据集,采用径向基内核,按照上述步骤训练得到k个子分类 器,用于故障硬盘的预测。
[0035] 有益效果;本发明的硬盘故障预测方法与现有方法相比优点在于;更贴近用户实 际应用场景,且故障查全率高、整体性能好。
【专利附图】
【附图说明】
[0036] 下面结合附图和【具体实施方式】对本发明做更进一步的具体说明,本发明的上述和 /或其他方面的优点将会变得更加清楚。
[0037] 图1为本发明主要流程图。
[003引图2为本发明主要时间关系图。
[0039] 图3为本发明所采用数据集故障硬盘分布图。
【具体实施方式】:
[0040] 结合附图和【具体实施方式】对本发明做进一步详细描述:
[0041] 本发明公开一种云计算平台硬盘故障预测方法,首先根据预测时间窗口内的硬盘 维修记录将硬盘SMART日志数据标记为正常硬盘样本和故障硬盘样本,之后采用K-means 聚类算法将去除噪音后的正常硬盘样本划分成k个不相交子集,并分别与故障硬盘样本结 合,根据SMOTE过采样算法生成k组平衡训练集,W此训练得到k个支持向量机分类器,用 于故障硬盘的预测。在预测阶段,首先采用DBSCAN聚类算法对测试集进行聚类,将聚类簇 中的样本预测为正常硬盘样本,而对噪音样本利用训练得到的各个分类器进行预测,并投 票得到最终预测结果。
[0042] 具体而言,如图1所示,本发明包括W下步骤:
[0043] 步骤一,根据硬盘维修记录,将故障预测时间窗口内发生故障的硬盘的SMART日 志数据标记为故障硬盘样本,将没有发生故障的硬盘的SMART日志数据标记为正常硬盘样 本;
[0044] 其中,根据硬盘某一时刻的SMART观测值,利用模型预测该硬盘从该时刻起的某 段时间内是否会发生故障,该段时间就是硬盘故障预测时间窗口。
[0045] 步骤二,对正常硬盘样本采用DBSCAN算法进行聚类,去除聚类簇之外的噪音样 本,保留聚成簇的正常硬盘样本;
[0046] 步骤S,将去噪后的正常硬盘样本采用K-means算法进行聚类,从而将其划分为k 个不相交子集,并分别与故障硬盘样本合并成k个原始训练集,其中k为K-means聚类的个 数,k的取值为小于样本数量的自然数;
[0047] 步骤四,对每个原始训练集中的故障硬盘样本根据SMOTE算法进行过采样,使得 训练集中故障硬盘样本与正常硬盘样本的数量一致,从而得到k个平衡训练集;
[0048] 步骤五,分别采用径向基函数内核的LIBSVM工具在k个平衡训练集上训练支持向 量机模型,得到集成分类器的k个支持向量机子分类器;
[0049] 步骤六,对测试样本集采用DBSCAN算法进行聚类,删除聚成簇的样本,保留聚类 簇之外噪音样本,并将删除的样本预测为正常硬盘样本;
[0化0] 步骤走,将剩余的噪音样本分别用训练阶段得到的k个支持向量机分类器预测, 并投票确定分类结果,若对某个测试样本判断为故障硬盘样本的投票数超过设定的阔值, 则预测为故障,否则为正常。
[0051] 本发明所采用数据采集自实际的某云计算供应商的在线服务的云计算集群,该集 群包括4299个节点,共51703块不同厂商或型号的硬盘。
[0化2] 硬盘SMART信息通过在集群中的每个节点上部署脚本来采集,采集的SMART信息 按照固定的类似"键;值"对的格式存储为SMART日志。集群的每个物理节点上都部署有一 个轻量级的守护进程,用来收集本地固定格式的各式日志信息,并将收集的信息集中存储 到一个分布式数据库中。将数据库中的SMART日志表W CSV格式存储为SMART数据文件, 该数据文件就是本发明最原始的实验数据文件。数据采集过程对目标集群上的每个节点每 天定时收集一次SMART信息,共收集了 66天的信息,时间范围从2013年03月28日至2013 年06月01日,收集了集群中所有硬盘提供的全部24项SMART检测属性的相关参数值,及 其他8项硬盘厂商、型号等信息,每块硬盘共计224维信息。
[0053] 考虑到数据恢复的时间窗口要求和SMART信息可能的时效性,步骤一中设定故障 硬盘的预测时间窗口为24小时。该样在预测到硬盘即将发生故障时,既保证了数据恢复时 间,同时又在不能确认SMART信息时效长度的情况下,尽量保证不会因为可能存在的SMART 时效而影响模型的故障预测性能。
[0054] 本发明将硬盘状态分为两类;"正常"和"24小时内即将发生故障"。将硬盘故障 定义为:某块硬盘被确认需要进行更换,则认为硬盘发生故障,故障的时间为确认需要维修 更换的时间。相关时间序列关系可见图2。
[0化5] 硬盘维修的相关信息来自于另一个数据库。硬盘维修记录数据库是每天更新的。 在2013年03月28日至2013年06月02日期间,目标集群共有362条硬盘确认需要更换 的记录。由于硬盘维修记录的相关具体信息本身存在缺失,因此,362条硬盘确认更换记录 中,有240条记录不能定位到硬盘,只有122条记录为有效记录。
[0化6] 不同厂商或型号的SMART属性值的计算公式或阔值均有可能不一致,为了消除厂 商、型号的影响,本发明选取目标集群中数量最多的同一厂商同一型号的硬盘作为研究对 象。选取的硬盘厂商为"Seagate Constellation ES(SATA)",硬盘型号为"ST32000644NS"。 该型号硬盘在2013年03月28日至2013年06月02日的67天时间区间内,确认维修更换 的硬盘数量分布如图3所示。
[0057] 根据图3,在67天的时间区间内,只有28天共45块ST32000644NS型号的硬盘发 生了故障。其中发生故障最多的2013年04月01日,共有4块ST32000644NS型号的硬盘 发生了故障。根据故障数量分布,考虑到需要保证一定数量的故障硬盘的绝对样本数,本发 明选取2013年03月31日的硬盘SMART信息整理成训练样本集,将2013年03月28日和 2013年04月17日的数据整理成两份测试样本集。
[0化引 本发明基于怀卡托智能分析环境(Wa化ato化viro皿ent for Knowledge Analysis,肥KA)平台来进行实验。肥KA是一种基于化va的、免费的、开源的,用于机器学 习和数据挖掘的软件,由Ian H. Witten和Eibe化ank等开发。肥KA平台上集成了大量机 器学习算法,如数据预处理、分类和回归、聚类、关联规则等等。肥KA是如今最为完备的数据 挖掘工具之一。
[0化9] 在利用训练集进行模型训练之前,需要对数据进行预处理,主要包括特征选择、数 据清洗和数据变换。特征选择主要是删除一些包含无用信息的特征,从而减少存储和计算 开销;数据清洗一方面是删除属性特征值缺失过多的记录,另一方面是填充缺失值;数据 变换主要是对数据集进行数据标准化、规范化和离散化处理。经过特征选择、数据清洗和数 据变换等数据预处理后,得到最终的实验标准数据集,包括训练集、测试集0328和测试集 0417,如表1所示。
[0060] 表1预处理后的数据集特征
[0061]
【权利要求】
1. 一种云计算平台的硬盘故障预测方法,其特征在于,包括以下步骤: 步骤一,根据硬盘维修记录,将故障预测时间窗口内发生故障的硬盘的SMART日志数 据标记为故障硬盘样本,将没有发生故障的硬盘的SMART日志数据标记为正常硬盘样本; 其中,根据硬盘任一时刻的SMART观测值,预测该硬盘从该时刻起的一段时间内是否 会发生故障,该段时间就是硬盘故障预测时间窗口; 步骤二,对正常硬盘样本采用基于密度的含噪声应用空间聚类算法进行聚类,去除聚 类簇之外的噪音样本,保留聚成簇的正常硬盘样本; 步骤三,将去噪后的正常硬盘样本采用K-means算法进行聚类,从而将其划分为k个不 相交子集,并分别与故障硬盘样本合并成k个原始训练集,其中k为K-means聚类的个数, k的取值为小于样本数量的自然数; 步骤四,对每个原始训练集中的故障硬盘样本根据少数样本合成过采样技术算法进行 过采样,使得训练集中故障硬盘样本与正常硬盘样本的数量一致,从而得到k个平衡训练 集; 步骤五,分别采用径向基函数内核的LIBSVM工具在k个平衡训练集上训练支持向量机 模型,得到集成分类器的k个支持向量机子分类器; 步骤六,对测试样本集采用基于密度的含噪声应用空间聚类算法进行聚类,删除聚成 簇的样本,保留聚类簇之外噪音样本,并将删除的样本预测为正常硬盘样本; 步骤七,将剩余的噪音样本分别用训练阶段得到的k个支持向量机子分类器预测,并 投票确定分类结果,若对一个测试样本判断为故障硬盘样本的投票数超过设定的阈值,则 预测为故障,否则预测为正常。
2. 根据权利要求1所述的一种云计算平台的硬盘故障预测方法,其特征在于,步骤二 中,采用基于密度的含噪声应用空间聚类算法对正常硬盘样本进行聚类包括以下步骤: 步骤(21)任选正常硬盘样本集中一个未被访问的样本p,检查样本p半径Eps的邻域 内样本对象的数量,若大于等于设定的最少包含样本数目Minpts,则建立新簇C,将样本p 及其半径为Eps的邻域内的所有样本对象加入簇C ;若小于样本数目Minpts,则将样本p标 记为噪音样本; 步骤(22)任选簇C中一个未访问的样本q,检查样本q的半径为Eps的邻域,若其邻域 内样本对象的数量大于等于设定的最少包含样本数目Minpts,则将样本q及其邻域内的样 本加入簇C ; 步骤(23)重复步骤(22),直到簇C中的所有样本对象均被访问过; 步骤(24)重复步骤(21)?(23),直到正常硬盘样本集中的所有样本对象均被访问过, 且均被加入一个簇或标记为噪音; 其中Eps表示半径,其取值为正实数,Minpts表示最少包含样本数目,其取值为小于样 本数量的自然数。
3. 根据权利要求2所述的一种云计算平台的硬盘故障预测方法,其特征在于,步骤三 中,采用K-means算法对去噪后的正常硬盘样本进行聚类包括以下步骤: 步骤(31)任选正常硬盘样本集中k个样本对象为初始聚类中心,其中k为设定的聚类 个数; 步骤(32)计算正常硬盘样本集中所有样本到k个聚类中心的距离,并将每个样本划归 到最近距离的聚类; 步骤(33)重新计算k个聚类的聚类中心,聚类中心为该聚类中所有样本对象的均值; 步骤(34)重复步骤(32)?(33),直到满足收敛条件。
4. 根据权利要求1所述的一种云计算平台的硬盘故障预测方法,其特征在于,步骤四 中,采用少数样本合成过采样技术算法对故障硬盘样本进行过采样包括以下步骤: 步骤(41)计算训练集中故障硬盘样本的数量T,并设定过采样比例N和最近邻的数量 111,令&=?11)(?(以100)州2=^^% 100,其中FLOOR为向下取整函数,%为取余操作; 步骤(42)将待采样故障硬盘样本集S初始化为空,首先重复队次向S中加入所有故 障硬盘样本,然后令T' = (N2/100)*T,并从故障硬盘样本中随机选择T'个样本加入S; 步骤(43)对于待采样故障硬盘样本集S中的每个故障硬盘样本p,在训练集中寻找当 前故障硬盘样本P的m个最近邻故障硬盘样本,随机选择其中一个近邻故障硬盘样本q,生 成当前样本P的一个人工样本,具体生成过程为:计算当前样本P的特征向量和样本q的特 征向量的差值,并乘以一个〇?1之间的随机数,再加上当前样本P的特征向量,作为新生 成人工样本的特征向量。
5. 根据权利要求4所述的一种云计算平台的硬盘故障预测方法,其特征在于,步骤五 中,采用LIBSVM工具在采样后的平衡训练集上训练模型,步骤为:首先按照LIBSVM软件包 所要求的格式准备数据集,并对数据进行简单的缩放操作,之后考虑选用径向基核函数,采 用交叉验证选择最佳参数C与g,其中C为惩罚参数,g为核参数,最后采用最佳参数C与g 对整个训练集进行训练获取支持向量机模型,并利用获取的模型进行测试与预测。将步骤 四中将得到的k个平衡训练集分别作为输入数据集,采用径向基内核,按照上述步骤训练 得到k个支持向量机子分类器,用于故障硬盘的预测。
【文档编号】G06F11/34GK104503874SQ201410837805
【公开日】2015年4月8日 申请日期:2014年12月29日 优先权日:2014年12月29日
【发明者】周嵩, 王景峰, 柏文阳, 宋云华 申请人:南京大学