专利名称:数字媒体驱动器故障预测系统和方法
数字媒体驱动器故障预测系统和方法
背景技术:
诸如硬盘驱动器(HDD)的数字媒体驱动器(DMD)的突发故障带来 明显的不便。例如,突发的电源中断、沾染污染物、过热、主轴电机故 障等等可以引起DMD故障,导致不期望的数据丟失、数据损坏和/或DMD 的不可操作性。
为了对本发明及其目的和优点进行全面了解,现在结合附图参照下
面的描述,其中
图1是示出数字媒体驱动器故障预测系统的框图。
图2是硬盘驱动器的实施例的图示,其中可将数字媒体驱动器故障
预测系统的实施例有利地用于该硬盘驱动器。
图3是示出新主轴电才几与旧主轴电才几之间的电流汲取分布曲线 (profile)的比4交的图。
图4是示出电流汲取分布曲线的组成部分的图。 图5是示出随着主轴电机老化的电流汲取分布曲线的比较的图。 图6是示出随着主轴电机老化的电流汲取分布曲线差的比较的图。 图7是示出随着主轴电机老化的电流汲取分布曲线差的比较的另一图。
图8是示出电流汲取异常的频镨的图。
图9是示出数字媒体驱动器故障预测方法的实施例的流程图。
具体实施例方式
图1是示出数字媒体驱动器(DMD)故障预测系统10的实施例的框 图。在图l所示的实施例中,预测系统10包括计算才几100、用于为计算 才几IOO供电的电源104、计量系统(meter system)105、输入/输出(I/O) 装置106和数字媒体驱动器(DMD) 108。在图1中,DMD 108包括硬盘 驱动器(HDD) 110;然而,应该理解,DMD 108可包4舌其它类型的驱动 器装置。另外,HDD 110可以是内置式HDD、外置式HDD或者一组多个HDD中的HDD。计算机100可包括桌上型计算机、笔记本式计算机、月良 务器、游戏机、音乐装置、个人数字助理(PDA)、视频装置或者网络 ^L。虽然在图1中只示出单个HDD 110, j旦是可以^使用预测系统10为更 多数量的HDD 110预测即将发生的故障。在图2中更详细地示出HDD 110。 预测系统10使得能够预测HDD 110的即将发生的故障。例如,在一些 实施例中,系统10通过^f吏用对由电源104向HDD 110所供^合的电功率 的测量,使得能够预测HDD 110的即将发生的故障。
在图l中,1/0装置106包括显示器111;然而,应该理解,1/0装 置106可包括其它类型的用于将信息输入到计算机100或者从计算机 IOO接收信息的装置。在图l所示的实施例中,计算机100包括中央处 理单元(CPU) 101和存储器102。 CPU IOI处理用于预测HDD 110的故 障并且用于对这种预测采取响应措施的指令和数据,所述措施诸如通过 1/0装置106警告用户。存储器102可包括易失性存储器、非易失性存 储器,和/或永久性储存器。存储器102耦合到CPU 101并且存储预测 模块103,该预测模块103包括用于预测HDD 110的故障并响应于这种 预测故障标准的指令和数据。预测模块103可包括硬件、软件、固件或 者其组合。在图l中,预测模块103被示出为存储在存储器102中,以 便于可由CPU 101访问并^L行。然而,应该理解,预测才莫块103可以以 其它方式存储和/或定位。在图1所示的实施例中,存储器102还包括 由预测才莫块103使用以预测HDD 110的即将发生的故障的预测数据107。
在图1中,预测数据107包括电流汲取分布曲线数据115,其反 映了 HDD 110的电流汲取分布曲线的测量;音频数据116,其反映了与 HDD 110的运行相关联的音频或者声音分布曲线的测量;以及温度数据 117,其反映了与HDD 110的运行相关联的温度分布曲线的测量。然而, 应该理解,可采集并使用其它数据来预测HDD IIO的即将发生的故障。 还应该理解,在一些实施例中,才莫块103是可修改的。例如,用户可以 从耦合到系统10的HDD或者从耦合到不同系统的HDD向模块103提供 关于漏预测(missed prediction)或者故障预测的准确性的反々赍。在 一些实施例中,模块103可具有诸如基因算法之类的机器学习能力,该 机器学习能力将测量数据与故障相关并因此使得能够在附加数据变得 可用时提高预测可靠性。然而,还可使用其它形式的机器学习。
在图1所示的实施例中,计量系统105电布置在电源104和HDD 110之间以方便测量由HDD 110使用的电功率。例如,计量系统105测量HDD 110的电流汲取并将电流汲取值报告给模块103,在模块103处这些值 被作为预测数据107 (例如电流汲取分布曲线数据115)存储并由模块 103用于预测HDD IIO的故障。如果多个HDD 20与系统10—起使用, 则可使用多个计量系统105 (例如为每个HDD 110使用一个计量系统 105)。在一些实施例中,计量系统105还包括声音和温度测量能力, 用于测量HDD 110外部的声音和温度以获得和/或以其他方式采集音频 数据116和/或温度数据117。然而,应该理解,可使用不包含在计量系 统105中但仍然可由才莫块103加以利用的测量装置来进行电流、声音和 温度测量。
图2是示出HDD 110的示例性实施例的图。HDD 110包括主轴电枳^ 200、盘201、磁头(head) 202、臂203、步进电机204、电子封装205、 声换能器206和热电偶207。主轴电机200以磁头202所需的设计规定 (design-specified)的速率旋转盘201,以便从盘201读取数据或者 将数据写入盘201。磁头202位于臂203的端部,并且由转动臂203的 步进电机204将该磁头定位在盘201上的各个径向位置。电子封装205 控制主轴电机200和步进电机204的运行,使得^兹头202可以在盘201 上的特定位置写入数据或者从盘201上的特定位置读取数据。电子封装 205还与计算机100或者任何其它连接到HDD 110的外部装置接口连接。
一般地,主轴电机200配备有润滑剂,并且在其使用寿命的早期, 主轴电机200使用相对最小的电功率量以指定速率来旋转盘201。然而, 随着主轴电机200老化,润滑剂耗尽,并且电机200中的材料开始氧化。 结果,电机200中的内部摩擦增加,因此旋转盘201所需的电功率增加。 过度的电功率(例如高出当HDD IIO是新的时由HDD IOO所消耗的量) 导致由HDD 110生成的噪声和热量增加。HDD IIO磨损和老化的另一影 响是出现盘201中的物理缺陷。在理想情况下,盘201是完全光滑、平 整并且干净的,使得磁头202能够在刚好在盘201表面上方的气垫上行 进(ride)。附着到盘201表面的污染物颗粒和盘201的翘曲在磁头202 接触所述颗粒或者刮擦盘201表面的一部分时导致另一摩擦源,因此导 致增加的噪声和热量。在一些实施例中,声换能器206和热电偶207感 测该噪声和热量。然而,应该理解,可替换地或者附加地,还可4吏用计 量系统105 (图1 )来才全测与HDD IIO相关联的热量和噪声。
5因此,主轴电机200的过度功率消耗指示在相对于磁头202旋转盘 201时的机4成效率^氐。系统10的实施例监控主轴电才几200在不同时间所 消诔毛的功率以预测HDD 110的即将发生的故障。例如,HDD 110—^殳具 有三个主要的散热器(sink)以用于功率消耗,但是其它HDD可具有更 多个散热器。主轴电机200在盘201旋转时汲取电功率,但是主轴电机 200将盘201从静止提速到指定的旋转速率而汲取的功率通常比主轴电 冲几200为维持该旋转速率所汲取的功率要更多。步进电机204也汲取电 功率以移动臂203。步进电机204以间歇突发的形式汲取电流,因为臂 203具有一系列离散的径向位置,其从这些位置处从盘201读取或者写 入盘201。步进电机204还由于润滑剂和材料随着时间和使用的退化而 汲取增加的电流。电子封装205也汲取电流,但是它的电流汲取在HDD 110的使用寿命期间应该保持比较一致。
在一些实施例中,电子封装205被配置为测量由声换能器206所感 测的声级和由热电偶207所感测的温度并将其报告给预测模块103。在 一些实施例中,电子封装205被配置为分开地或者一起测量并报告电机 200和204以及该电子封装205自身的电流汲取。这些测量可代替计量 系统105所进行的测量或者作为计量系统105所进行的测量的补充。因 此,在一些实施例中,预测模块103使用来自计量系统105和电子封装 205的测量来预测HDD 110的即将发生的故障,所述测量包括电流测量、 声音测量和温度测量。
图3是示出两个电流汲取分布曲线31和32 (其可代表作为电流汲 取分布曲线数据115而存储的信息)的曲线图30的图。电流汲取分布 曲线31示出关于时间的新主轴电机的电流汲取,而电流汲取分布曲线 32示出旧主轴电机的电流汲取。这里所使用的"新"和"旧" 一般指运 行小时,从而"较旧的,,主轴电机比"新,,主轴电机具有更多的运行小 时。分布曲线31和32都示出当主轴电机开始加速旋转,以及然后在每 个主轴电机达到指定的旋转速率后维持该速率时的电流汲取。分布曲线 31示出当新的主轴电冲几最初起动时电流汲取迅速增长,达到电流汲取 峰值310,以及然后当电机达到指定旋转速率时逐渐减弱到电流汲取稳 定状态311。旧电机分布曲线32也示出电流汲取迅速增长,达到峰值 320,电流汲取最终达到稳定状态321。
电流汲取峰值320比电流汲取峰值310高,因此示出了较旧的主轴电4几达到所期望的4^转速率所需的增加的功率。4交旧的主轴电才几在ts。 时达到稳定状态321, U比新主轴电机在U时达到稳定状态311要晚。 另外,当达到稳定状态321时,稳定状态321比稳定状态311在更高的 水平上,因此反映了较旧的盘驱动器的摩擦增加。
旧主轴电机分布曲线32还显示了短持续时间异常322a-c。具体地, 短持续时间异常322a-c是电流汲取分布曲线32中比电机在指定的稳定 状态旋转速率时的旋转周期tp短的尖峰或者突起。如在图3中所示,每 个短持续时间异常322a-c的持续时间是tA,其中tA<tp。短持续时间异 常322a-c反映了由比电机的旋转周期短的摩擦事件所引起的功率汲取 的暂时激增。例如,转轴的破损处或者沾污的部分在其接触轴承时能够 引起增加的摩擦。其它解释包括HDD磁头202撞击污染物颗粒或者刮擦 盘201的一部分。
在一些实施例中,因为利用数字设备来测量电流汲取分布曲线,所 以这些分布曲线不是平滑曲线(curve),而是测量值或者计算值的序 列。图4是示出DMD 108(例如HDD 110)的总电流汲取分布曲线41的曲 线图40的图,其包括电子封装(例如电子封装205 )的电流汲取分布曲 线42和主轴电才几(例如主轴电冲7L 200 )的电流汲取分布曲线43 (其可 代表存储为电流汲取分布曲线数据115的信息)。为了图解说明电流汲 取分布曲线包括值的序列,分布曲线41 -4 3是示出为 一 系列离散点的矢 量。如可以在图4中看到的那样,将电子封装的电流汲取分布曲线42 与主轴电机的电流汲取分布曲线43相加以提供总电流汲取分布曲线 41。为了图解说明和描述的简单,假设在图4所示的时间段期间,步进 电机没有运行。
因此,如果对于第一测量数据集,In表示总电流汲取,I"表示电子 封装的电流汲取,并且W表示电机汲取,贝'J:
Iti= Iai+ Imi
其中IT1、 1 和U分别表示分布曲线41-43的瞬时值。AE是电子封装的 电流汲取的变4匕(variance),而△ M是主轴电才几的电流汲取的变4乜。 如在曲线图40中所图解说明的那样,Aw明显比A^大。另外,因为电子 封装通常包括比诸如电机的机电装置更温和地老化的固态装置,所以与 主轴电机相比,电子封装的电流汲取不应随时间明显地发生变化。的总电流汲取的变化来估计。因此,由下式表示的在比笫一测量集晚的
时间所获取或者获得的第二电流测量集可以;陂用来确定总电流汲取的 差
It2 = Ia2 + Im2
因此使得能够估计主轴电机电流汲取在这两个测量集之间的差
It2 — It1 = Ia2 + Im2 — Iai — Im1 W Im2 — Iwi
这是因为
再次参照图1,在HDD 110的使用寿命期间,预测才莫块103记录和/ 或以其他方式评估在不同时间测量的一系列电流汲取分布曲线115,其 中每个电流汲取分布曲线115都包括值的序列,并且预测才莫块103产生 电流汲取分布曲线之间的差集,其中每个都包括差值序列。差值序列是 差矢量。通常,差矢量可定义为
Dj,k=Itj—Itk " Imj-Imk
其中,J和K代表第J个和第K个所测量的电流分布曲线,并且每个电 流分布曲线代表测量值的序列。在一些实施例中,配置HDD 110,使得 电子封装205单独地报告主轴电机200的电流汲取测量,而不是将HDD 110的电流汲取测量作为整个单元来报告。在这个实施例中,差矢量可 以是基本上精确的。
注意到J和K不必是有序数是重要的。例如,可以在紧接着测量的 分布曲线之间形成差矢量,但是还可使用具有多个插入测量集的 一对分 布曲线来形成差矢量。另外,差矢量可不限于使用单独测量的分布曲线, 而是还可在分布曲线组的平均分布曲线之间,或者在单个分布曲线和平 均分布曲线之间。平均分布曲线可在移动窗平均(其中只使用预定义数 目的最新分布曲线)到累积历史平均(其中使用基本上所有测量的分布 曲线)的范围内变动。
预测模块103使用若干不同的标准来分析差矢量。例如,可将差矢 量与预先确定的差阈值和/或预先确定的比率阈值相比较,其中超过阈 值指示即将发生的故障。如果使用新近的分布曲线以及在HDD 110是新 的时测量的分布曲线来计算差矢量,则该差矢量表示主轴电机200的电 流汲取的总变化。图5示出四个电流汲取分布曲线Pi-P4的曲线图50, 其中Px是最早测量的分布曲线,接着是Pn接着是P"并且接着是最新
8近的分布曲线P4 (其中电流汲取分布曲线Pi - P4可代表存储为电流汲取
分布曲线数据115的信息)。图6示出差矢量Du、 Du和Du的曲线图 60,所述差矢量表示在每个分布曲线P2-P4和基线分布曲线Pi之间计算 的差矢量。将差矢量曲线D^、 D^和Dw与阈值进行比较以确定主轴电 机200的退化程度。
然而,如果〗吏用两个连续(subsequently)测量的分布曲线来计算 差矢量,则该差矢量可以被用于指示电流汲取的变化率,因此指示退化 的加速度。图7示出差矢量D^、 03,2和04,3的曲线图70,所述差矢量表 示使用两个紧接着的分布曲线所计算的差矢量。如图5所指示的,HDD 110从分布曲线Pi直到分布曲线P3以恒定速率退化,然后经历分布曲线 P4的突然加速的退化。该加速退化可通过差矢量D4, 3超过了 03,2和 而看出。
在一些实施例中,保护;^莫块103被编程为使用退化速率的变化来预 测HDD 110的即将发生的故障。在这个实施例中,将04,3与先前确定的 差矢量(诸如D2>1)相比较。事实上,Du实际上可与D、3同时计算,但 是在这里将Du定义为先前确定的差矢量,因为D^可以在数据可用于计 算D、 3之前就已经被计算出来。另一分析方法是对差进行合并。例如, 因为差矢量包括差值序列,所以合并过程可包括将所有的值相加。在一 些实施例中,合并可涉及更多的计算(例如,如果值序列没有以等间隔 进行测量的话)。
在一些实施例中,预测模块103分析差矢量以搜索短持续时间异常 (诸如图3所示的异常322a-c)的存在。在一些实施例中,为了使得 能够识别短持续时间异常的存在,计量系统105或者电子封装205对电
103提供测量数据。如果异常322a - c在测量电流汲取分布曲线之后的 某个点出现或者恶化,则后来确定的差矢量将包含异常322a - c的证据。 在一些实施例中,预测模块103基于电流汲取分布曲线或者差矢量的频 谱来检测短持续时间异常。用于确定频谱的典型方法包括快速傅立叶变 换(FFT)和离散傅立叶变换(DFT)。
图8示出了来自图3的电流汲取异常322a-c的频谱的曲线图80。 曲线图80示出了在第一频率fp处的功率尖峰801和在第二频率G处的 第二功率尖峰802。 fp处的功率尖峰801是由外部供应的交流(AC)功率到直流(DC)的转换(例如,如果外部的AC功率被用来运行计算机 IOO)导致的。即使主轴电机200由DC供电, 一些残余的AC电源频率 在曲线图80中也可能是显而易见的。然而,应该理解,主轴电机200 可由AC供电。在美国,"是60HZ,而在欧洲和世界的许多其它地方fP 是50HZ。"处的功率尖峰802指示以等于主轴电机200的旋转速率的一 倍或者多倍的速率发生的电流汲取异常,该频率G是主轴电机200的旋 转速率的整数多倍。在一些实施例中,预测模块103被配置为分析fR 处的频谱功率以确定和/或以其他方式识别短持续时间异常322a-c的 存在。例如,在一些实施例中,模块103检测到在fa处的功率尖峰802 并将其与主轴电机200的旋转速率的整数多倍相关。短持续时间异常 322a-c经常与在主轴电机200的每个转动周期发生一次或者多次的机 械问题相关联。因此,在一些实施例中,预测才莫块103被用于识别机械 问题的存在和/或恶化以预测HDD 110的即将发生的故障。
在一些实施例中,除了分析电流汲取分布曲线、差矢量和频谱之外, 预测模块103还配置为记录和/或以其他方式分析来自声换能器206、热 电偶207和/或计量系统105的声音和温度测量。因此,在一些实施例 中,预测模块103分析电流汲取变化、短持续时间异常的存在、过度的 热生成,和/或过度的噪声以预测HDD 110的即将发生的故障。
图9示出了数字媒体驱动器故障预测方法90的实施例。在框901, 方法90开始于采集与HDD UO相关联的电流汲取的基线测量。当HDD 110 被首次安装或者耦合到计算机100时,或者如果预测模块103被新安装 在HDD 110已经存在或者耦合到其的较旧的计算机100中时,可由计量 系统105和/或电子封装205采集基线测量。预测模块103将基线预测 数据107存储在存储器102中。在框902,预测模块103使用计量系统 105和/或电子封装205通过测量和/或分析主轴电机200的加速旋转电 流汲取、噪声、温度、短持续时间异常等来随时间监控HDD 110的性能。
在框9G3通过预测模块103来生成、比较和分析差矢量(例如,通 过将不同的电流汲取分布曲线和/或差矢量与先前确定的电流汲取分布 曲线和/或差矢量进行比较)。在决策框904,如果一个或多个所分析的 预测数据107超过预先确定的阈值,或者预测;漠块103以其他方式确定 一个或多个所分析的预测数据107指示HDD 110的即将发生的故障,则 在框905,预测纟莫块103启动响应措施。响应措施可包括在I/O装置106上呈现警告通知和/或备份HDD 110上的数据以避免数据丟失。备份数 据可以被存储在存储器102中或者存储在耦合到计算机100的另一个 DMD中。如果在决策框904确定预测数据107不指示即将发生的HDD 110 故障,则该方法前进到框902,在框902预测^t块103继续监控HDD110 的性能。
应该理解,在所述方法中,某些功能可以被忽略、以与图9所描绘 的不同顺序完成或者被同时执行。此外,应该理解,可变更图9所描绘 的方法以包含如在说明书的其它地方所描述的任何其它特征或者方面。 另外,实施例可以通过软件来实施并且可以适于在不同的平台和操作系 统上运行。特别地,由预测模块103所实施的功能例如可被提供为可执 行指令的有序列表,所述可执行指令可以被包含在任何计算机可读介质 中以供指令执行系统、设备或者装置使用或者与指令执行系统、设备或 者装置结合使用,所述执行系统、设备或者装置诸如基于计算机的系统、 包含处理器的系统,或者可以从所述指令执行系统、设备或者装置提取 指令并且执行这些指令的其它系统。在该文件的上下文中,"计算机可 读介质"可以是可以包含、存储、传送、传播或者传输程序以供指令执 行系统、设备或者装置所使用或者与指令执行系统、设备或者装置结合 使用的任意装置。计算机可读介质可以是例如但不限于电子的、磁的、 光的、电磁的、红外或者半导体的系统、设备、装置或者传播介质。
权利要求
1.一种用于预测数字媒体驱动器(108)的故障的方法,包括在所述数字媒体驱动器(108)的至少两个不同运行时间测量与数字媒体驱动器(108)相关联的电流汲取;并且自动确定所测量的电流汲取之间的差是否指示所述数字媒体驱动器(108)的即将发生的故障。
2. 权利要求1的方法,其中测量所述电流汲取包括测量与数据媒体 驱动器(108)的主轴电机(200 )相关联的电流汲取。
3. 权利要求1的方法,进一步包括评估与数字媒体驱动器(108) 相关联的电流汲取的变化率以预测数字媒体驱动器(108)的即将发生 的故障。
4. 权利要求1的方法,进一步包括确定所述差中的至少一个短持续 时间异常的存在。
5. 权利要求4的方法,其中确定所述短持续时间异常的存在包括确 定所述差的频谱。
6. 权利要求1的方法,进一步包括修改预测模块(103),所述预 测模块(103)包括将电流汲取的一个或多个测量与数字媒体驱动器(108)的一个或多个故障相关的数据。
7. —种数字媒体驱动器故障预测系统(10),包括预测模块(103),其被配置为分析在数字媒体驱动器(108)的至 少两个不同运行时间所测量的与所述数字媒体驱动器(108)相关联的 电流汲取以自动确定所测量的电流汲取之间的差是否指示所述数字媒 体驱动器(108)的即将发生的故障。
8. 权利要求7的系统(10),其中预测模块(103)被配置为确定 与所述差相关联的频谱。
9. 权利要求7的系统(10),其中预测模块(103)被配置为确定 所述差中的短持续时间异常的存在。
10. 权利要求7的系统(10),其中预测模块(103)被配置为用 于机器学习。
全文摘要
一种数字媒体驱动器故障预测系统(10)包括预测模块(103),该预测模块(103)被配置为分析在数字媒体驱动器(108)的至少两个不同运行时间所测量的与数字媒体驱动器(108)相关联的电流汲取以自动确定所测量的电流汲取之间的差是否指示数字媒体驱动器(108)的即将发生的故障。
文档编号G11B20/18GK101601005SQ200880003715
公开日2009年12月9日 申请日期2008年1月23日 优先权日2007年1月31日
发明者C·帕特尔, M·J·多赫蒂 申请人:惠普开发有限公司