存储装置寿命监控系统以及其存储装置寿命监控方法
【专利摘要】一种存储装置寿命监控系统以及其存储装置寿命监控方法,此方法包括获取对应这些存储装置的运作行为信息;存储多个具有包括运作行为信息及对应运作寿命值的训练数据;依据这些训练数据的运作行为信息及对应运作寿命值来架构存储装置寿命预测模型;将这些存储装置的运作行为信息输入至存储装置寿命预测模型以产生对应每一存储装置的预估寿命值;以及依据每一存储装置的运作行为信息与预估寿命值来重新架构存储装置寿命预测模型。借此,此方法能够准确地预测存储装置的寿命。
【专利说明】
存储装置寿命监控系统以及其存储装置寿命监控方法
技术领域
[0001]本发明是有关于一种存储装置寿命监控系统,且特别是用于监控数据中心的多个存储装置的存储装置寿命监控系统以及其所使用的存储装置寿命监控方法。
【背景技术】
[0002]近年来,随着科技的日新月异,数据量的爆炸性发展已经影响科技业界在数据存储硬件上的需求。因为必须通过诸多非易失性存储装置来存储大量数据,这些存储装置的容量的大小以及管理上的复杂性也相应提高。
[0003]一般来说,为了掌握数据中心的运作情形以进行安全性维护,在开发与设计管理数据中心的服务器系统时,多半会配置管理模块对系统内部的风扇运转状况、温度或是电压等信息进行监控。藉此,服务器系统可在接收到系统的存储装置的异常状态的回报(例如,接收对应每一存储装置的日志档)之后,被动地做出数据救援或是硬件替换的处置。
[0004]由于数据中心的每一存储装置的大容量,故,在存储装置毁损(或是发生严重错误)之后,对此毁损的存储装置所需要的数据回复时间,或是数据备份时间也会对应提高许多,进而导致数据中心维护成本的大量增加。然而,随着高速存取数据的趋势发展之下,数据中心也逐渐引进传统硬盘(HDD)以外的存储装置(例如,可高速存取数据的固态硬盘(SSD))来存储数据。也因为如此,旧有的仅适用于传统硬盘的自我监测分析及报告技术逐渐地不能满足数据中心对于多种存储装置的维护需求。基此,如何准确地预测存储装置的寿命,主动地提早预测存储装置的寿命来进行预防性的处置,以节省因为装置毁损所导致的大量维护成本,为本领域人员所致力的目标。
【发明内容】
[0005]本发明提供一种存储装置寿命监控系统以及其所使用的存储装置寿命监控方法,其能够有效地预测存储装置的寿命。
[0006]本发明的一范例实施例提出一种用于监控多个存储装置的寿命的存储装置寿命监控系统。所述存储装置寿命监控系统包括存储装置状态检测与分析模块、数据库、寿命估计训练模块与寿命预测模块。数据库耦接至存储装置状态检测与分析模块。寿命估计训练模块耦接至存储装置状态检测与分析模块。寿命预测模块耦接至存储装置状态检测与分析模块与寿命估计训练模块。数据库记录多个训练数据,其中每一训练数据包括运作行为信息及对应运作寿命值。存储装置状态检测与分析模块获取对应此些存储装置的运作行为信息。寿命估计训练模块依据此些训练数据的运作行为信息及对应运作寿命值来架构存储装置寿命预测模型。寿命预测模块将此些存储装置的运作行为信息输入至存储装置寿命预测模型以产生对应每一存储装置的预估寿命值。
[0007]在本发明的一范例实施例中,寿命估计训练模块依据每一存储装置的运作行为信息与预估寿命值来重新架构存储装置寿命预测模型。
[0008]在本发明的一范例实施例中,其中当此些存储装置之中的第一存储装置损坏时,存储装置状态检测与分析模块记录第一存储装置的实际寿命值,并且寿命估计训练模块依据第一存储装置的运作行为信息与实际寿命值来重新架构存储装置寿命预测模型。
[0009]在本发明的一范例实施例中,其中存储装置状态检测与分析模块包括日志搜集模块与运作行为识别模块,并且在上述存储装置状态检测与分析模块获取对应这些存储装置的运作行为信息的运作中,日志搜集模块搜集对应每一存储装置的至少一个运作日志,并且运作行为识别模块剖析每一存储装置的至少一个运作日志以建立每一存储装置的运作行为信息。
[0010]在本发明的一范例实施例中,上述运作日志包括系统日志、应用程序日志、数据库日志与自我监测分析及报告技术日志。
[0011]在本发明的一范例实施例中,运作行为识别模块识别对应每一存储装置的系统日志中的系统存取错误、应用程序日志中的应用程序存取错误、数据库日志中的数据库存取错误和自我监测分析及报告技术日志中的磁盘存取错误,计算系统存取错误的数目、应用程序存取错误的数目、数据库存取错误的数目与磁盘存取错误的数目,并且依据系统存取错误的数目、应用程序存取错误的数目、数据库存取错误的数目与磁盘存取错误的数目来建立每一存储装置的运作行为信息。
[0012]在本发明的一范例实施例中,在上述寿命估计训练模块依据这些训练数据的运作行为信息及对应运作寿命值来架构存储装置寿命预测模型的运作中,寿命估计训练模块使用K分群演算法、线性回归分析或支援向量机来架构存储装置寿命预测模型。
[0013]在本发明的一范例实施例中,在上述寿命估计训练模块依据这些训练数据的运作行为信息及对应运作寿命值来架构存储装置寿命预测模型的运作中,寿命估计训练模块将这些训练数据与这些预测数据分割为多个数据集合,分别地依据这些数据集合来架构多个子预测模型,并且合并这些子预测模型以形成存储装置寿命预测模型。
[0014]本发明的一范例实施例提供一种用于监控多个存储装置的寿命的存储装置寿命监控方法。所述存储装置寿命监控方法包括建立数据库,其中数据库记录多个训练数据,其中每一训练数据包括运作行为信息及对应运作寿命值;以及获取对应这些存储装置的运作行为信息。所述存储装置寿命监控方法还包括依据这些训练数据的运作行为信息及对应运作寿命值来架构存储装置寿命预测模型;将这些存储装置的运作行为信息输入至存储装置寿命预测模型以产生对应每一存储装置的预估寿命值。
[0015]在本发明的一范例实施例中,所述存储装置寿命监控方法还包括依据每一存储装置的运作行为信息与预估寿命值来重新架构存储装置寿命预测模型。
[0016]在本发明的一范例实施例中,所述存储装置寿命监控方法还包括当这些存储装置之中的第一存储装置损坏时,记录第一存储装置的实际寿命值;以及依据第一存储装置的运作行为信息与实际寿命值来重新架构存储装置寿命预测模型。
[0017]在本发明的一范例实施例中,上述获取对应这些存储装置的运作行为信息的步骤包括搜集对应每一存储装置的至少一个运作日志;以及剖析每一存储装置的至少一个运作日志以建立每一存储装置的运作行为信息。
[0018]在本发明的一范例实施例中,所述存储装置寿命监控方法还包括识别对应每一存储装置的系统日志中的系统存取错误、应用程序日志中的应用程序存取错误、数据库日志中的数据库存取错误和自我监测分析及报告技术日志中的磁盘存取错误;计算系统存取错误的数目、应用程序存取错误的数目、数据库存取错误的数目与磁盘存取错误的数目;以及依据系统存取错误的数目、应用程序存取错误的数目、数据库存取错误的数目与磁盘存取错误的数目来建立每一存储装置的运作行为信息。
[0019]在本发明的一范例实施例中,所述依据这些训练数据的运作行为信息及对应运作寿命值来架构存储装置寿命预测模型的步骤包括使用K分群演算法、线性回归分析或支援向量机来架构存储装置寿命预测模型。
[0020]在本发明的一范例实施例中,所述依据这些训练数据的运作行为信息及对应运作寿命值来架构存储装置寿命预测模型的步骤包括将这些训练数据与这些预测数据分割为多个数据集合;分别地依据这些数据集合来架构多个子预测模型;以及合并这些子预测模型以形成存储装置寿命预测模型。
[0021]基于上述,本发明所提供的一种存储装置寿命监控系统以及其所使用的存储装置寿命监控方法,可辨识对应多个存储装置的运作行为信息,根据这些存储装置的运作行为信息经由存储装置寿命预测模型来预测每一存储装置的寿命,还依据每一存储装置的运作行为信息与所预测的寿命所构成的多个预测数据来重新架构存储装置寿命预测模型。如此一来,本发明可产生大量且成本低的训练数据来增进预测存储装置的寿命的精确度,进而提高管理这些存储装置的效率。
【附图说明】
[0022]图1是根据一范例实施例所绘示的数据中心的示意图。
[0023]图2是根据一范例实施例所绘示的存储装置寿命监控系统的程序的关系示意图。
[0024]图3是根据一范例实施例所绘示的使用训练数据、预测数据与实际数据来架构存储装置寿命预测模型的运作示意图。
[0025]图4与图5是根据一范例实施例所绘示的自我学习方法的示意图。
[0026]图6是根据一范例实施例所绘示的使用训练数据与预测数据来架构存储装置寿命预测模型的运作示意图。
[0027]图7是根据一范例实施例所绘示的存储装置寿命监控方法的流程图。
[0028]图8是根据一范例实施例所绘示的使用训练数据与预测数据来架构存储装置寿命预测模型的运作示意图。
[0029]图9是根据一范例实施例所绘示的存储装置寿命监控方法的流程图。
[0030]主要元件符号说明:
[0031]10:数据中心100:服务器
[0032]310:处理单元320:存储装置寿命监控系统
[0033]330:连接介面单元340:存储器单元
[0034]200(0)?200 (N):存储装置110:存储装置状态检测与分析模块
[0035]120:数据库130:寿命估计训练模块
[0036]140:寿命预测模块111:日志搜集模块
[0037]112:运作行为识别模块
[0038]R301、R303、R305、R307、R309:存储装置寿命监控的运作路径
[0039]Dl?DlO:训练数据A、B、Y:预测曲线
[0040]Rl、R2、R3、R4:架构存储装置寿命预测模型的运作路径
[0041]610、620、630、631、632:丛集运算服务器
[0042]S701、S703、S705、S707、S709:存储装置寿命监控方法的步骤
【具体实施方式】
[0043]为让本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合所附图式作详细说明如下。
[0044]图1是根据一范例实施例所绘示的数据中心的示意图。
[0045]请参照图1,在本范例实施例中,数据中心10包括服务器100与多个存储装置200 (O)?200 (N)。服务器100是耦接存储装置200 (O)?200 (N),并且服务器100用来监控存储装置200(0)?200(N)的装置状态。特别是,在本范例实施例中,服务器100会通过存储装置寿命监控系统(Storage Device Lifetime Monitoring System) 320来监控存储装置200(0)?200 (N)的装置状态并且预测每一存储装置200 (O)?200 (N)的寿命。必须了解的是,本发明并不限定存储装置200 (O)?200 (N)的数量。
[0046]存储装置200 (O)?200 (N),用以存储数据中心10的数据。例如,所存储的数据包括由使用者传送至数据中心10进行存取的使用者数据、用于管理的数据中心系统数据,以及对应的使用者数据或数据中心系统数据的备份数据,或是适于存储在数据中心10的任何型态的数据,本发明不限于此。在本范例实施例中,存储装置200 (O)?200 (N)例如是任何型态的硬盘驱动器(hard disk drive, HDD)或非易失性存储器存储装置(SSD)。
[0047]在本范例实施例中,服务器100除了监控存储装置200(0)?200 (N)的寿命之外,服务器100还用以控管数据中心10中的存储装置200(0)?200(N)的分配。在本范例实施例中,服务器100包括处理单元(Processing Unit) 310、存储装置寿命监控系统320、连接介面单元(Connect1n Interface Unit) 330 与存储器单元(Memory Unit) 340。
[0048]处理单元310用以控制服务器100的整体运作。在本范例实施例中,处理单元310,例如是中央处理单元(Central Processing Unit, CPU)、微处理器(micro-processor)、或是其他可程序化的处理单元(Microprocessor)、数字信号处理器(Digital SignalProcessor, DSP)、可程序化控制器、特殊应用集成电路(Applicat1n SpecificIntegrated Circuits,ASIC)、可程序化逻辑装置(Programmable Logic Device,PLD)或其他类似装置。在本范例实施例中,处理单元310为基板管理控制器(Baseboard ManagementController,BMC),除了负责服务器100的整体运作之外,处理单元310还可对数据中心10内部的风扇运转状况、温度或是电压等信息进行监控。一般来说,处理单元310可以直接整合在服务器100的基板上,亦或是以插卡的形式配置在服务器100中。
[0049]连接介面单元330是親接于处理单元310,并且处理单元310可通过连接介面单元330连接存储装置200 (0)?200 (N)来存取数据或是下达控制指令。连接介面单元330,例如是相容于序列式小型电脑系统介面(Serial Attached SCSI,SAS)标准、双线介面(TwoWire Interface,TH)标准、序列先进附件(Serial Advanced Technology Attachment,SATA)标准、并列先进附件(Parallel Advanced Technology Attachment,PATA)标准、电气和电子工程师协会(Institute of Electrical and Electronic Engineers,IEEE) 1394标准、高速周边零件连接介面(Peripheral Component Interconnect Express,PCI Express)标准、通用序列总线(Universal Serial Bus,USB)标准、整合式驱动电子介面(IntegratedDevice Electronics,IDE)标准或其他适合的标准的实体介面,本发明不限于此。
[0050]在本范例实施例中,存储装置寿命监控系统320用以表示存储在耦接于处理单元310的存储单元中的程序或数据的组合(亦称,系统),其用以实行监控数据中心10中的多个存储装置200 (O)?200 (N)的功能。在本范例实施例中,存储单元例如是硬盘(HardDisk Drive,HDD)、可抹除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、电子抹除式可复写只读存储器(Electrically Erasable Programmable Read OnlyMemory, EEPR0M)或快闪存储器(Flash memory)等可复写式非易失性存储器,或是具有存储数据的功能的电路。应注意的是,存储单元亦存储服务器100的其他数据,例如,用以管理服务器100本身的轫体或是软件。
[0051]存储器单元340是耦接至处理单元310,并且用以暂存服务器100的数据。在本范例实施例中,存储器单元340例如是动态随机存储器(Dynamic Random Access Memory,DRAM)、静态随机存储器(Static Random Access Memory, SRAM)等易失性存储器。在本范例实施例中,为了实行存储装置寿命监控系统的功能,当服务器100上电时,处理单元310会从存储装置寿命监控系统320读取这些程序,将所读取的程序载入至存储器单元340,执行这些程序以完成服务器100的多个功能。换言之,处理单元310会执行这些程序以实行服务器100所使用的存储装置寿命监控方法。
[0052]图2是根据一范例实施例所绘示的存储装置寿命监控系统的程序的关系示意图。以下通过图2来说明存储装置寿命监控系统320所存储的这些程序以及数据库的功能与其之间的互动关系。
[0053]请参照图2,存储装置寿命监控系统320包括实行存储装置寿命监控方法的这些程序与数据库120。在本范例实施例中,这些程序包括存储装置状态检测与分析模块(Storage Device Status Detecting and Analyzing Module) 110、寿命估计训练模块(Lifetime Estimat1n Training Module) 130、寿命预测模块(Lifetime PredictingModule)140。
[0054]存储装置状态检测与分析模块110用以获取对应这些存储装置200 (0)?200 (N)的运作行为信息。在一范例实施例中,存储装置状态检测与分析模块100包括日志搜集模块(Log Collecting Module) 111 与运作行为识别模块(Operat1n Activity IdentifyingModule)112。
[0055]日志搜集模块111会搜集对应每一存储装置的至少一个运作日志(LOG)。具体来说,在本范例实施例中,每一存储装置在进行任何运作时,都会将有关目前运作的信息记录在运作日志中。举例来说,假设存储装置进行数据读取运作,此存储装置便会记录此数据读取运作的开始时间、结束时间、目标数据的大小与地址以及在读取数据的运作中是否有错误发生等任何关于此数据读取运作的信息于对应此数据读取运作的运作日志中。在本范例实施例中,日志搜集模块111搜集对应每一存储装置的至少一个运作日志的方式例如是处理单元310从存储装置读取所记录的运作日志,并将运作日志输入至日志搜集模块,但本发明不限于此。例如,日志搜集模块111也可主动对存储装置发出请求来获得运作日志。
[0056]在本范例实施例中,运作日志包括系统日志(System Log)、应用程序日志(Applicat1n Log)、数据库日志(Database Log)与自我监测分析及报告技术日志(S.M.A.R.T.Log)。系统日志会记录关于存储装置200 (O)?200 (N)在处理系统运作的相关信息。应用程序日志会记录关于应用程序对于存储装置200 (O)?200 (N)的存取运作的相关信息。数据库日志会记录客户端对于存储装置200 (O)?200(N)的数据库所进行的存取运作。自我监测分析及报告技术日志是记录对应在存储装置200 (O)?200(N)中属于硬盘的存储装置的自我监测分析及报告技术的信息。
[0057]在本范例实施例中,运作行为识别模块112用以剖析对应每一存储装置的运作日志以建立每一存储装置的运作行为信息。具体来说,运作行为识别模块112会识别对应每一存储装置的系统日志中的系统存取错误、应用程序日志中的应用程序存取错误、数据库日志中的数据库存取错误和自我监测分析及报告技术日志中的磁盘存取错误。此外,运作行为识别模块112还会计算对应每一存储装置的系统存取错误的数目、应用程序存取错误的数目、数据库存取错误的数目与磁盘存取错误的数目,并且依据对应每一存储装置的系统存取错误的数目、应用程序存取错误的数目、数据库存取错误的数目与磁盘存取错误的数目来建立每一存储装置的运作行为信息。
[0058]举例来说,假设日志搜集模块111从存储装置200(2)搜集到系统日志、应用程序日志、数据库日志与自我监测分析及报告技术日志。运作行为识别模块112从存储装置200 (2)的系统日志辨识到3个系统存取错误;从存储装置200 (2)的应用程序日志辨识到30个应用程序存取错误;从存储装置200 (2)的数据库日志辨识到300个数据库错误;从存储装置200(2)的自我监测分析及报告技术日志辨识到O个磁盘存取错误。运作行为识别模块112会建立存储装置200(2)的运作行为信息,例如,运作行为识别模块112将存储装置200(2)的运作行为信息记录为“3,30,300,O”。
[0059]再例如,假设日志搜集模块111之后再从存储装置200(2)搜集到系统日志、应用程序日志、数据库日志与自我监测分析及报告技术日志中辨识到3个系统存取错误、30个应用程序存取错误、300个数据库错误以及O个磁盘存取错误时,运作行为识别模块112将存储装置200 (2)的运作行为信息更新为“6,60,600,O”。也就是说,运作行为识别模块112会持续更新存储装置200 (2)的运作行为信息。
[0060]在本范例实施例中,存储装置寿命监控系统320包括数据库120,其中数据库120记录多个训练数据,并且每一训练数据包括运作行为信息及对应运作寿命值。在此,训练数据为依据先前所使用的存储装置的使用状态所记录的其运作行为信息及对应运作寿命值。每一笔训练数据是对应一个先前所使用的存储装置的信息。关于运作行为信息的说明已详述于上,在此不赘述于此。而对应运作寿命值,是指在存储装置从出厂后至发生损坏而无法使用之间运作时间的总和(亦称存储装置的寿命)。但必须了解的是,本发明不限于此定义。厂商可依据需求来设计对应运作寿命值的定义。对应运作寿命值的单位,例如是小时等适用的时间单位。举例来说,假设其中一笔训练数据为“0,0,0,100,50000”,则此笔训练数据即可用来表示,某个存储装置的运作行为信息为“0,0,0,100”,并且其寿命为50000小时。应注意的是,上述训练数据的格式仅为说明之用,不限定本发明。
[0061]寿命估计训练模块130用以依据这些训练数据的运作行为信息及对应运作寿命值来训练(亦称架构)存储装置寿命预测模型。更进一步地说,厂商在设计存储装置寿命监控系统320时,会根据旧有的数据中心(或是另一数据中心)的每一存储装置的(以前发生的)运作行为信息与运作寿命来做为多个训练数据,并且利用存储装置寿命监控系统320的数据库120来记录这些训练数据,以让寿命估计训练模块依据这些训练数据来架构存储装置寿命预测模型。
[0062]寿命预测模块140用以将从存储装置状态检测与分析模块110所接收的存储装置200(0)?200 (N)的运作行为信息输入至寿命估计训练模块130所架构的存储装置寿命预测模型,并产生每一存储装置的预估寿命值。以下将配合图3来说明本发明的存储装置寿命监控系统的整体概念。
[0063]图3是根据一范例实施例所绘示的使用训练数据、预测数据与实际数据来架构存储装置寿命预测模型的运作示意图。
[0064]首先,在本范例实施例中,处理单元310会将存储装置寿命监控系统320的数据库120中的训练数据输入至寿命估计训练模块130,以架构存储装置寿命预测模型(路径R301)。寿命估计训练模块130会提供架构后的存储装置寿命预测模型给寿命预测模块140 (路径303)。架构后的存储装置寿命预测模型可用来预测数据中心10的存储装置200(0)?200 (N)的寿命。
[0065]存储装置状态检测与分析模块110会(即时地)搜集存储装置200 (O)?200 (N)的运作行为信息,并且将这些运作行为信息输入至寿命预测模块140 (路径R305)。
[0066]寿命预测模块140将所接收的存储装置200 (O)?200 (N)的运作行为信息输入至存储装置寿命预测模型,并产生每一存储装置的预估寿命值。具体来说,寿命预测模块140将所建立的对应每一存储装置的运作行为信息输入至已架构的存储装置寿命预测模型以产生对应每一存储装置的预估寿命值。所述对应每一存储装置的预估寿命值是指示存储装置寿命预测模型所预测的对应每一存储装置的可运作时间的总和。举例来说,假设存储装置200(2)的运作行为信息为“6,60,600,0”。寿命预测模块140将存储装置200 (2)的运作行为信息为“6,60,600,O”输入至已架构的存储装置寿命预测模型,并且存储装置寿命预测模型会对应运作行为信息“6,60,600,O”产生“5000” (小时)的预估寿命值。换言之,在存储装置200 (2)目前的对应运作行为信息为“6,60,600,O”的状态下,存储装置寿命预测模型会预测存储装置200(2)总共可以运作的时间为5000小时。
[0067]接着,寿命预测模块140还会将对应每一存储装置的运作行为信息与预估寿命值所构成的预测数据传送至寿命估计训练模块130 (路径R307),以重新架构存储装置寿命预测模型。具体来说,存储装置寿命预测模型可经由自我学习的方式来被架构。例如,寿命预测模块140还会将每一存储装置的运作行为信息与预估寿命值所构成的多个预测数据传送至寿命估计训练模块130以重新架构存储装置寿命预测模型。藉此,寿命预测模块130可以自我学习的方式来获得大量且成本低的数据(即,对应每一存储装置的预测数据)以架构存储装置寿命预测模型,进而强化存储装置寿命预测模型的预测能力。本发明的自我学习的机制将在以下配合图式做更详细的说明。
[0068]此外,当存储装置200 (O)?200 (N)中有存储装置毁损时,存储装置状态检测与分析模块110会将此毁损的存储装置的当前的运作行为信息与实际寿命值所构成的实际数据传送给寿命估计训练模块130,以重新架构存储装置寿命预测模型(路径R309)。例如,当这些存储装置之中的存储装置(以下称为第一存储装置)损坏时,存储装置状态检测与分析模块110会记录第一存储装置的实际寿命值,并且将第一存储装置的运作行为信息与实际寿命值所构成的实际数据传送给寿命估计训练模块130以重新架构存储装置寿命预测模型。换言之,当第一存储装置损坏时,如上所述,存储装置状态检测与分析模块110会将第一存储装置的运作行为信息与实际寿命值作为一个架构用的数据来重新架构存储装置寿命预测模型。也就是说,实际发生的存储装置的运作行为信息与对应此运作行为信息的存储装置的运作(实际)寿命值也可用来架构存储装置寿命预测模型。尤其是,在另一范例实施例中,实际数据更可被加入至数据库120中成为训练数据之一。
[0069]如此一来,本范例实施例中的存储装置寿命监控系统可自身提供大量且成本低的架构用数据来架构存储装置寿命预测模型,借此提高本身预测寿命的准确度。值得一提的是,此重新架构存储装置寿命预测模型的机制可以是周期地执行或者不定期地执行,本发明不对此加以限制。以下,配合图式更详细说明每个构件的作用以及互动方式。
[0070]值得一提的是,在另一范例实施例中,服务器100还可根据通过存储装置寿命监控系统320获得的存储装置200 (2)的预估寿命值来进行预防性的操作。举例来说,假设存储装置200 (2)已经操作了 4900小时,并且对应存储装置200 (2)的预估寿命值为5000小时。由于存储装置200(2)的已操作时间接近预估寿命值,服务器100可发出提醒讯息。数据中心10的维护人员可依据此提醒讯息来对存储装置200 (2)进行预防性的操作。例如,数据中心10的维护人员可对存储装置200(2)进行数据备份操作,或是维修/替换操作。特别是,在完成数据备份之后,数据中心10的维护人员还可以针对存储装置200 (2)进行压力测试,以获得存储装置200 (2)的真实的总运作时间(即,实际寿命值)。如上所述,在获得存储装置200 (2)的实际寿命值后,可将存储装置200 (2)的实际寿命值与运作行为信息传送至寿命估计训练模块130以重新架构存储装置寿命预测模型。
[0071 ] 在本范例实施例中,寿命估计训练模块130是使用线性回归分析(I inearregress1n)演算法与这些训练数据来架构存储装置寿命预测模型,但本发明不限于此,例如,在其他范例实施例中,寿命估计训练模块130还可使用K分群(K-means)演算法、或支援向量机(Support Vector Machine,SVM)等适用于机器学习的演算法来架构存储装置寿命预测模型。
[0072]值得一提的是,在另一范例实施例中,使用者亦可以同时将训练数据输入至对应多个演算法的存储装置寿命预测模型。在架构完成之后,通过输入某个训练数据的运作行为信息至这些架构后的存储装置寿命预测模型中来获得多个预测寿命,并且根据所获得的预测寿命来挑选出最准确的存储装置寿命预测模型。
[0073]图4与图5是根据一范例实施例所绘示的架构存储装置寿命预测模型的示意图。
[0074]为了简化说明,假设每一训练数据(如图4、图5所绘示的圆点D1、D2)包括系统存取错误的数目与对应系统存取错误的数目的运作寿命值。存储装置状态检测与分析模块110仅收集每一存储装置的系统日志,计算每一存储装置的系统存取错误以建立对应每一存储装置的一个变数的运作行为信息(系统存取错误的数目)。存储装置寿命预测模型使用线性回归演算法来使用训练数据做架构。于此范例实施例中,经过架构后的存储装置寿命预测模型会产生一个二元一次的预测曲线(图4、图5中的虚线)来预测每一存储装置的预估寿命值。
[0075]请参照图4,水平轴表示系统存取错误的数目,纵轴表示存储装置的寿命(fulltime lifetime cycle in hours)(以小时为单位)。举例来说,假设存储装置寿命预测模型使用线性回归演算法来做架构,并且一开始输入了两个训练数据Dl、D2至存储装置寿命预测模型。训练数据Dl的值为“2,500”,其代表具有2个系统存取错误的存储装置,其寿命为500小时。相似地,训练数据D2的值为“ 10,100”,其代表具有10个系统存取错误的存储装置,其寿命为100小时。根据线性回归演算法与训练数据D1、D2,存储装置寿命预测模型产生一个二元一次的预测曲线Y(如图4所绘示的虚线)。
[0076]请参照图5,举例来说,假设在图4中的存储装置寿命预测模型又被输入了其他训练数据D3?D10。根据线性回归演算法与训练数据Dl?D10,存储装置寿命预测模型会产生一个二元一次的预测曲线A(如图5所绘示的虚线)。而上述因为输入的训练数据不同,而产生不同预测曲线的过程,即可视为存储装置寿命预测模型根据其使用的演算法以及所输入的训练数据持续地改变其架构的过程。此外,厂商可在一个预定情况下,判定存储装置寿命预测模型是否已经完成架构。例如,如图5所绘示,厂商可以设定输入10个的训练数据Dl?DlO至存储装置寿命预测模型后,存储装置寿命预测模型所形成的预测曲线A即可表示已经完成架构的存储装置寿命预测模型。尔后,此完成架构的存储装置寿命预测模型可被用来预测存储装置的寿命。
[0077]图6与图7是根据一范例实施例所绘示的自我学习方法的示意图。为了简化说明,图6与图7所使用的存储装置寿命预测模型的架构方式与图4、图5中的存储装置寿命预测模型的架构方式相同,在此不再赘述。
[0078]请参照图6,举例来说,假设完成架构后的存储装置寿命预测模型已产生一个二元一次的预测曲线A (如图6所绘示的虚线),并且存储装置200 (O)、200 (I)、200 (2)各自发生了第2、5、8次系统存取错误。存储装置状态检测与分析模块110会对应建立存储装置200(0)、200(1)、200 (2)的运作行为信息为“2”、“5”、“8”。寿命预测模块将这些存储装置的运作行为信息(系统存取错误的数目)输入至存储装置寿命预测模型。存储装置寿命预测模型利用预测曲线A与存储装置200(0)、200(1)、200(2)的系统存取错误的数目(即,“2”、“5”、“8”)来产生“550”、“115”、“40”的预估寿命值以分别地表示所预测的存储装置200(0)、200(1)、200 (2)的寿命。也就是说,上述对应存储装置200 (O)、200 (I)、200 (2)的运作行为信息与预估寿命值会分别构成对应存储装置200(0) ,200(1) ,200(2)的预测数据“2,550,,、“5,115,,与“8,40”。接着,寿命预测模块140会将预测数据(即,“2,550”、“5,115”、与“8,40”)传送至寿命估计训练模块130以重新架构存储装置寿命预测模型。
[0079]请参照图7,经过使用上述的预测数据(如图7所绘示的三角形点,“2,550”、“5,115”与“8,40”)来重新架构存储装置寿命预测模型后,存储装置寿命预测模型会产生新的预测曲线B。此经过使用预测数据来重新架构(S卩,自我学习)所产生的新的预测曲线B可被用来预测存储装置的寿命。举例来说,若存储装置200 (N)发生了第4次系统存取错误,存储装置寿命预测模型根据预测曲线B与存储装置200 (N)的系统存取错误的数目“4”会得到存储装置200 (N)的预估寿命值为275小时。
[0080]请再参照图6,若存储装置200 (N)发生了第4次系统存取错误,存储装置寿命预测模型根据预测曲线A与存储装置200 (N)的系统存取错误的数目“4”会得到存储装置200 (N)的预估寿命值为“300”(小时)。由于在训练数据中对应系统存取错误的数目为“4”的训练数据,其具有“250” (小时)的对应运作寿命值,并且在同样的对应系统存取错误的数目为“4”的情况下,根据预测曲线B所预测的预估寿命值“275”比起根据预测曲线A所预测的预估寿命值“300”更接近训练数据(即,“250”)。因此可以得知,预测曲线B的准确度会高于预测曲线A。也就是说,通过使用预测数据来重新架构存储装置寿命预测模型的自我学习方法的确可以增进存储装置寿命预测模型的预测的准确度。
[0081]在上述图4至图7的例子中,存储装置寿命预测模型是根据两个变数的训练数据(亦称二维训练数据)来进行架构的,其中一个变数是存储装置的系统存取错误,并且另一变数是对应的存储装置的寿命。但应注意的是,本发明并不限定训练数据、预测数据或是实际数据等用以架构存储装置寿命预测模型的数据的数据维度(亦称为变数)。例如,在另一范例实施例中,除了必要的数据维度(即,存储装置的寿命),用以架构存储装置寿命预测模型的数据的数据维度还可包括应用程序存取错误数目、数据库存取错误数目与磁盘存取错误数目的其中之一或其组合,或是其他适用的对应存储装置运作行为的错误种类。此外,用以架构存储装置寿命预测模型的数据所包含的变数种类数量也可等于2个或多于2个。换言之,用以架构存储装置寿命预测模型的数据的数据维度数量可为二维或是高于二维的数量。
[0082]值得一提的是,由于用来架构存储装置寿命预测模型的训练数据或预测数据的数量很大,在一范例实施例中,寿命估计训练模块130会使用分割-合并(Split-and-M)的方式(例如,Hadoop MapReduce演算法)来加速对于存储装置寿命预测模型的架构。
[0083]图8是根据一范例实施例所绘示的使用训练数据与预测数据来架构存储装置寿命预测模型的运作示意图。
[0084]请参照图8,在本范例实施例中,寿命估计训练模块130会将训练数据与预测数据(亦称数据主集合)分割为多个数据集合(如图8所绘示的子集合a、b、c),并且将这些子集合a、b、c分别地传送至多个丛集运算服务器810、820、830 (路径Rl)。尤其是,每一丛集运算服务器还可将所接收到的子集合分割成为其他的子集合并传送这些分割后的其他的子集合至其他丛集运算服务器。例如,丛集运算服务器830将子集合c分割为子集合c-1与子集合c-2,并且将子集合c-1、c-2分别传送至丛集运算服务器831、832(路径R2)。应注意的是,上述数据主集合亦可包含实际数据。
[0085]接着,丛集运算服务器会分别依据所接收到的子集合来架构多个子预测模型并且将这些子预测模型回传给寿命估计训练模块130。如图8所绘示,丛集运算服务器831、832分别依据所接收到的子集合c-1、c-2来架构多个子预测模型并且将这些子预测模型回传给寿命估计训练模块130 (路径R3),丛集运算服务器830会等待并接收丛集运算服务器831、832分别回传至丛集运算服务器830的多个子预测模型。在接收到这些子预测模型后,丛集运算服务器830会合并这些子预测模型,并且回传合并后的子预测模型至寿命估计训练模块130 (路径R4)。相似地,丛集运算服务器810、820也会分别依据所接收到的子集合a、b来架构多个子预测模型并且将这些子预测模型回传给寿命估计训练模块130 (路径R4)。寿命估计训练模块130从丛集运算服务器810、820、830接收到训练后的多个子预测模型后,合并这些子预测模型以形成存储装置寿命预测模型。如此一来,通过上述分割-合并的方式,大量的数据可以被分割成为较小的数据子集合,分别地独立运算(即,架构多个子预测模型),并且在架构完成后,将结果(即,子预测模型)合并形成存储装置寿命预测模型,进而减少架构存储装置寿命预测模型的资源与架构时间。
[0086]值得一提的是,存储装置寿命预测模型亦可在出厂时便已经由厂商来完成初步训练。也就是说,在另一范例实施例中,存储装置寿命预测模型已经在出厂时,并经由一个数据库的训练数据初步架构完毕。存储装置寿命监控系统320的数据库120并不需要预先存储大量的训练数据来架构存储装置寿命预测模型。但,应注意的是,存储装置寿命监控系统320依然可以将从数据中心10的存储装置200(0)?200 (N)所得到的实际数据(即,存储装置200 (O)?200 (N)中毁损的存储装置的当前的运作行为信息与实际寿命值)来加入至数据库120,并且将所获得的实际数据输入至寿命估计训练模块130来重新训练存储装置寿命预测模型。
[0087]图9是根据一范例实施例所绘示的存储装置寿命监控方法的流程图。
[0088]请同时参照图2与图9,在步骤S901中,存储装置状态检测与分析模块110用以获取对应这些存储装置200 (O)?200 (N)的运作行为信息。
[0089]在步骤S903中,存储装置寿命监控系统320存储数据库,其中数据库记录多个训练数据,其中每一训练数据包括运作行为信息及对应运作寿命值。
[0090]在步骤S905中,寿命估计训练模块130依据这些训练数据的运作行为信息及对应运作寿命值来架构存储装置寿命预测模型。
[0091 ] 在步骤S907中,寿命预测模块140将这些存储装置200 (O)?200 (N)的运作行为信息输入至存储装置寿命预测模型以产生对应每一存储装置的预估寿命值。
[0092]在步骤S909中,所述寿命预测模块还依据每一存储装置的运作行为信息与预估寿命值所构成的多个预测数据来重新架构存储装置寿命预测模型。如此一来,本实施例的存储装置寿命监控方法除了使用训练数据来架构存储装置寿命预测模型之外,还会使用预测数据来架构存储装置寿命预测模型。借此,大大提高存储装置寿命预测模型的架构效率,进而提高预测的准确度。
[0093]值得一提的是,在本范例实施例中,存储装置状态检测与分析模块110、寿命估计训练模块130、寿命预测模块140的功能是以程序或软件来实施,但本发明不限于此。在另一范例实施例中,存储装置状态检测与分析模块110、寿命估计训练模块130、寿命预测模块140亦可以硬件电路(例如,电路单元)来实现。例如,存储装置寿命监控系统320可包括用以实现存储装置状态检测与分析模块110的功能的存储装置状态检测与分析电路单元、用以实现寿命估计训练模块130的功能的寿命估计训练电路单元、用以实现寿命预测模块140的功能的寿命预测电路单元以及存储记录训练数据、实际数据与预测数据的数据库的存储电路单元。
[0094]综上所述,本发明所提供的一种存储装置寿命监控系统以及其所使用的存储装置寿命监控方法,可辨识对应多个存储装置的运作行为信息,根据这些存储装置的运作行为信息经由存储装置寿命预测模型来预测每一存储装置的寿命,更依据每一存储装置的运作行为信息与所预测的寿命所构成的多个预测数据来重新架构存储装置寿命预测模型。如此一来,本发明可产生大量且成本低的训练数据来增进预测存储装置的寿命的精确度,进而提高管理这些存储装置的效率。
[0095]虽然本发明已以实施例揭露如上,然其并非用以限定本发明,任何所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作些许的更动与润饰,故本发明的保护范围当视权利要求所界定者为准。
【主权项】
1.一种存储装置寿命监控系统,用于监控多个存储装置的寿命,其特征在于,所述存储装置寿命监控系统包括: 一存储装置状态检测与分析模块; 一数据库,耦接至所述存储装置状态检测与分析模块; 一寿命估计训练模块,耦接至所述存储装置状态检测与分析模块;以及 一寿命预测模块,耦接至所述存储装置状态检测与分析模块与所述寿命估计训练模块, 其中所述数据库记录多个训练数据,其中每一所述训练数据包括一运作行为信息及一对应运作寿命值, 其中所述存储装置状态检测与分析模块获取对应所述存储装置的运作行为信息,其中所述寿命估计训练模块依据所述训练数据的运作行为信息及对应运作寿命值来架构一存储装置寿命预测模型, 其中所述寿命预测模块将所述存储装置的运作行为信息输入至所述存储装置寿命预测模型以产生对应每一所述存储装置的一预估寿命值。2.如权利要求1所述的存储装置寿命监控系统,其特征在于,所述寿命估计训练模块依据每一所述存储装置的运作行为信息与预估寿命值重新架构所述存储装置寿命预测模型。3.如权利要求1所述的存储装置寿命监控系统,其特征在于,当所述存储装置之中的一第一存储装置损坏时,所述存储装置状态检测与分析模块记录所述第一存储装置的一实际寿命值, 其中所述寿命估计训练模块依据第一存储装置的运作行为信息与实际寿命值重新架构所述存储装置寿命预测模型。4.如权利要求1所述的存储装置寿命监控系统,其特征在于,所述存储装置状态检测与分析模块包括一日志搜集模块与一运作行为识别模块,并且在上述所述存储装置状态检测与分析模块获取对应所述存储装置的运作行为信息的运作中, 所述日志搜集模块搜集对应每一所述存储装置的至少一运作日志, 其中所述运作行为识别模块剖析每一所述存储装置的至少一运作日志以建立每一所述存储装置的运作行为信息。5.如权利要求4所述的存储装置寿命监控系统,其特征在于,所述至少一运作日志包括一系统日志、一应用程序日志、一数据库日志与一自我监测分析及报告技术日志。6.如权利要求5所述的存储装置寿命监控系统,其特征在于,所述运作行为识别模块识别对应每一所述存储装置的所述系统日志中的一系统存取错误、所述应用程序日志中的一应用程序存取错误、所述数据库日志中的一数据库存取错误和所述自我监测分析及报告技术日志中的一磁盘存取错误, 其中所述运作行为识别模块计算所述系统存取错误的数目、所述应用程序存取错误的数目、所述数据库存取错误的数目与所述磁盘存取错误的数目, 其中所述运作行为识别模块依据所述系统存取错误的数目、所述应用程序存取错误的数目、所述数据库存取错误的数目与所述磁盘存取错误的数目来建立每一所述存储装置的运作行为信息。7.如权利要求1所述的存储装置寿命监控系统,其特征在于,在所述寿命估计训练模块依据所述训练数据的运作行为信息及对应运作寿命值来架构所述存储装置寿命预测模型的运作中, 所述寿命估计训练模块使用一 K分群演算法、一线性回归分析或一支援向量机来架构所述存储装置寿命预测模型。8.如权利要求1所述的存储装置寿命监控系统,其特征在于,在所述寿命估计训练模块依据所述训练数据的运作行为信息及对应运作寿命值来架构所述存储装置寿命预测模型的运作中, 所述寿命估计训练模块将所述训练数据与所述预测数据分割为多个数据集合, 其中所述寿命估计训练模块分别地依据所述数据集合来架构多个子预测模型, 其中所述寿命估计训练模块合并所述子预测模型以形成所述存储装置寿命预测模型。9.一种存储装置寿命监控方法,用于监控多个存储装置的寿命,其特征在于,所述存储装置寿命监控方法包括: 建立一数据库,其中所述数据库记录多个训练数据,其中每一所述训练数据包括一运作行为信息及一对应运作寿命值; 获取对应所述存储装置的运作行为信息; 依据所述训练数据的运作行为信息及对应运作寿命值来架构一存储装置寿命预测模型;以及 将所述存储装置的运作行为信息输入至所述存储装置寿命预测模型以产生对应每一所述存储装置的一预估寿命值。10.如权利要求9所述的存储装置寿命监控方法,其特征在于,还包括: 依据每一所述存储装置的运作行为信息与预估寿命值来重新架构所述存储装置寿命预测模型。11.如权利要求9所述的存储装置寿命监控方法,其特征在于,还包括: 当所述存储装置之中的一第一存储装置损坏时,记录所述第一存储装置的一实际寿命值;以及 依据所述第一存储装置的运作行为信息与实际寿命值来重新架构所述存储装置寿命预测模型。12.如权利要求9所述的存储装置寿命监控方法,其特征在于,所述获取对应所述存储装置的运作行为信息的步骤包括: 搜集对应每一所述存储装置的至少一运作日志;以及 剖析每一所述存储装置的至少一运作日志以建立每一所述存储装置的运作行为信息。13.如权利要求12所述的存储装置寿命监控方法,其特征在于,所述至少一运作日志包括一系统日志、一应用程序日志、一数据库日志与一自我监测分析及报告技术日志。14.如权利要求13所述的存储装置寿命监控方法,其特征在于,还包括: 识别对应每一所述存储装置的所述系统日志中的一系统存取错误、所述应用程序日志中的一应用程序存取错误、所述数据库日志中的一数据库存取错误和所述自我监测分析及报告技术日志中的一磁盘存取错误; 计算所述系统存取错误的数目、所述应用程序存取错误的数目、所述数据库存取错误的数目与所述磁盘存取错误的数目;以及 依据所述系统存取错误的数目、所述应用程序存取错误的数目、所述数据库存取错误的数目与所述磁盘存取错误的数目来建立每一所述存储装置的运作行为信息。15.如权利要求9所述的存储装置寿命监控方法,其特征在于,依据所述训练数据的运作行为信息及对应运作寿命值来架构所述存储装置寿命预测模型的步骤包括: 使用一 K分群演算法、一线性回归分析或一支援向量机来架构所述存储装置寿命预测模型。16.如权利要求9所述的存储装置寿命监控方法,其特征在于,依据所述训练数据的运作行为信息及对应运作寿命值来架构所述存储装置寿命预测模型的步骤包括: 将所述训练数据与所述预测数据分割为多个数据集合; 分别地依据所述数据集合来架构多个子预测模型;以及 合并所述子预测模型以形成所述存储装置寿命预测模型。
【文档编号】G06F11/30GK105988910SQ201510092859
【公开日】2016年10月5日
【申请日】2015年3月2日
【发明人】陈志明, 张承亿
【申请人】纬创资通股份有限公司