本发明涉及存储设备技术领域,尤其涉及一种监控管理方法和装置、计算机可读存储介质。
背景技术
随着信息时代的到来,计算机的应用越来越广,在计算机信息的存储过程中,对存储设备的要求也越来越高。软件定义存储(softwaredefinedstorage,sds)是当前存储领域的热点技术,在sds中,所有存储相关的控制工作都仅在相对于物理存储硬件的外部软件中。
sds规划了如何存储及访问数据,但是它没有考虑到存储设备的寿命老化以及坏损对整个存储集群造成的危害及影响。根据木桶效应,在单个或者若干个存储设备由于坏损产生读写缓慢后,由于该坏损的单个或若干个存储设备多多少少都分担着整个集群的一部分读写请求,这部分读写请求没完成,整个读写操作就完成不了,因此,造成了整个集群的部分读写请求响应缓慢。
技术实现要素:
本发明实施例提供了一种监控管理方法和装置、计算机可读存储介质,能够降低存储设备的寿命老化以及坏损对整个存储集群造成的危害及影响。
为了达到本发明目的,本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种监控管理方法,包括:
获取存储集群内所有存储设备的一项或多项监控指标数据;
根据获取的所述所有存储设备的监控指标数据,计算各存储设备的综合性能评价分数;
根据各存储设备的综合性能评价分数调整存储策略。
本实施例中,所述监控指标数据包括以下至少之一:
存储设备读速率、存储设备写速率、存储设备每秒进行读写操作的次数iops、存储设备单个读写操作平均等待时间、存储设备容量使用百分比、应用层读延迟时间、应用层写延迟时间。
本实施例中,所述根据获取的所述所有存储设备的监控指标数据,计算各存储设备的综合性能评价分数,包括:
对每项监控指标数据,计算所述存储集群内所有存储设备的算数平均值;
根据计算出的各项监控指标数据的算数平均值,设置各项监控指标数据的参考基数,并根据所述参考基数计算各存储设备各项监控指标数据的分值;
根据各存储设备各项监控指标数据的分值,计算各存储设备的综合性能评价分数。
本实施例中,所述根据各存储设备的综合性能评价分数调整存储策略,包括:
根据所述各存储设备的综合性能评价分数,计算所述所有存储设备的平均性能评价分数;
比较所述所有存储设备的平均性能评价分数除以所述各存储设备的综合性能评价分数的比值与预设的调整权重阈值的大小;
当一所述存储设备的所述比值大于或等于所述调整权重阈值时,降低该所述存储设备的读写概率。
本实施例中,当一所述存储设备的所述比值大于或等于所述调整权重阈值时,所述根据各存储设备的综合性能评价分数调整存储策略,还包括:
从当前时刻开始统计预设的第一确认期时长内,每预设单位时长的所述所有存储设备的平均性能评价分数除以该所述存储设备的综合性能评价分数的比值大于或等于所述调整权重阈值的次数;
当统计出的次数大于或等于预设的第一次数阈值时,触发降低该所述存储设备的读写概率的操作。
本实施例中,所述根据各存储设备的综合性能评价分数调整存储策略,包括:
根据所述各存储设备的综合性能评价分数,计算所述所有存储设备的平均性能评价分数;
比较所述所有存储设备的平均性能评价分数除以所述各存储设备的综合性能评价分数的比值与预设的迁移数据阈值的大小;
当一所述存储设备的所述比值大于或等于所述迁移数据阈值时,迁移该所述存储设备存储的数据。
本实施例中,当一所述存储设备的所述比值大于或等于所述迁移数据阈值时,所述根据各存储设备的综合性能评价分数调整存储策略,还包括:
从当前时刻开始统计预设的第二确认期时长内,每预设单位时长的所述所有存储设备的平均性能评价分数除以该所述存储设备的综合性能评价分数的比值大于或等于所述迁移数据阈值的次数;
当统计出的次数大于或等于预设的第二次数阈值时,触发迁移该所述存储设备存储的数据的操作。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如以上任一项所述的监控管理方法的步骤。
本发明实施例还提供了一种监控管理装置,包括处理器及存储器,其中:
所述处理器用于执行存储器中存储的监控管理程序,以实现如以上任一项所述的监控管理方法的步骤。
本发明实施例还提供了一种监控管理装置,包括数据获取模块、计算模块和调整模块,其中:
数据获取模块,用于获取存储集群内所有存储设备的一项或多项监控指标数据;
计算模块,用于根据获取的所述所有存储设备的监控指标数据,计算各存储设备的综合性能评价分数;
调整模块,用于根据各存储设备的综合性能评价分数调整存储策略。
本发明实施例的技术方案,具有如下有益效果:
本发明实施例提供的监控管理方法和装置、计算机可读存储介质,通过根据所有存储设备的监控指标数据,计算各存储设备的综合性能评价分数,并相应地调整存储策略,降低了存储设备的寿命老化以及坏损对整个存储集群造成的危害及影响,更好地保护了整个存储集群的数据。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例的一种监控管理方法的流程示意图;
图2为本发明实施例的一种监控管理装置的结构示意图;
图3为本发明实施例的另一种监控管理装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
如图1所示,根据本发明的一种监控管理方法,包括如下步骤:
步骤101:获取存储集群内所有存储设备的一项或多项监控指标数据;
本实施例中,所述监控指标数据包括以下至少之一:
存储设备读速率、存储设备写速率、存储设备每秒进行读写操作的次数(input/outputoperationspersecond,iops)、存储设备单个读写操作(input/output,io)平均等待时间、存储设备容量使用百分比、应用层读延迟时间、应用层写延迟时间。
需要说明的是,存储设备的iops性能是指存储设备每秒可接受多少次主机发出的访问,主机的一次io需要多次访问存储才可以完成。例如,主机写入一个最小的数据块,也要经过“发送写入请求、写入数据、收到写入确认”等三个步骤,也就是3个存储端访问。
存储设备读速率加上存储设备写速率即表示存储设备的吞吐量,吞吐量值越大,存储设备性能越好。存储设备iops值越高表示存储设备的读写速率越快。存储设备单个io平均等待时间越长,表示存储设备越繁忙,未能及时处理导致的延时也越长。某些应用中也有对存储设备之上的读写延迟判断,即应用层读延迟时间与应用层写延迟时间,这些数据也是越低越好。
本实施例中,所述存储设备包括硬盘、u盘等存储设备。
步骤102:根据获取的所述所有存储设备的监控指标数据,计算各存储设备的综合性能评价分数;
本实施例中,所述根据获取的所述所有存储设备的监控指标数据,计算各存储设备的综合性能评价分数,包括:
对每项监控指标数据,计算所述存储集群内所有存储设备的算数平均值;
根据计算出的各项监控指标数据的算数平均值,设置各项监控指标数据的参考基数,并根据所述参考基数计算各存储设备各项监控指标数据的分值;
根据各存储设备各项监控指标数据的分值,计算各存储设备的综合性能评价分数。
需要说明的是,可以将计算出的各项监控指标数据的算数平均值,直接设置为各项监控指标数据的参考基数,也可以将各项监控指标数据的参考基数设置为以所述计算出的各项监控指标数据的算数平均值为自变量的函数值,本发明对此并不做限制。此外,步骤102也可以通过其它的方法计算各存储设备的综合性能评价分数,例如,对每项监控指标数据,不计算所述存储集群内所有存储设备的算数平均值,直接根据预设的参考基数计算各存储设备各项监控指标数据的分值,然后计算各存储设备的综合性能评价分数。但是,通过计算所述存储集群内所有存储设备的算数平均值,可以更加动态地获取整个存储集群中所有存储设备的性能情况,进而使得存储策略的调整更加地灵活有效。
在本实施例的一示例中,所述根据所述参考基数计算各存储设备各项监控指标数据的分值,包括:
根据一监控指标数据的参考基数,计算该监控指标数据的基准值,其中,基准值=参考基数/x,x为预设的比例值(例如在后面的计算过程中,x取值为0.7,实际应用中也可以取其它的值);
根据计算出的基准值和各存储设备的当前监控指标数据值,计算各存储设备的该监控指标数据的分值:所述分值=当前监控指标数据值/基准值。
示例性的,以存储设备的iops值为例,假设一硬盘的iops值为120,所有硬盘的平均iops值iops平均=135,即iops参考基数为135,则将iops的基准值定为135/0.7=192.86,因此,该硬盘的iops的分值为:120/192.86=0.62分。
其它各项监控指标数据的分值的计算方法与iops的分值的计算方法类似,需要注意的是,在计算存储设备读速率的分值和存储设备写速率的分值时,可以分开计算,也可以计算两者之和(即存储设备的吞吐量)的分值;在计算应用层读延迟时间、应用层写延迟时间的分值时,同样可以分开计算,也可以计算两者之和(即存储设备的量化延迟)的分值。
分开计算存储设备读速率的分值和存储设备写速率的分值如下:
假设该硬盘的读速率readrate=220mb/s,所有硬盘的平均读速率readrate平均=200mb/s,即读速率参考基数为200mb/s,则将读速率的基准值定为200/0.7=285.71mb/s,因此,该硬盘的读速率的分值为:220/285.71=0.77分。
假设该硬盘的写速率writerate=75mb/s,所有硬盘的平均写速率writerate平均=80mb/s,即写速率参考基数为80mb/s,则将写速率的基准值定为80/0.7=114.29mb/s,因此,该硬盘的写速率的分值为:75/114.29=0.66分。
假设该硬盘的应用程序读延迟appreadwait=50ms,所有硬盘的平均应用程序读延迟appreadwait平均=45ms,即应用程序读延迟的参考基数为45ms,则将应用程序读延迟的基准值定为45/0.7=64.29ms,因此,该硬盘的应用程序读延迟的分值为:50/64.29=0.78分。
假设该硬盘的应用程序写延迟appwritewait=80ms,所有硬盘的平均应用程序写延迟appwritewait平均=70ms,即应用程序写延迟的参考基数为70ms,则将应用程序写延迟的基准值定为70/0.7=100ms,因此,该硬盘的应用程序写延迟的分值为:80/100=0.8分。
假设该硬盘的容量使用百分比的分值为0.9分,单个io平均等待时间的分值为0.88分,则可以根据如下公式计算该硬盘的综合性能评价分数:
在另一示例中,将存储设备读速率和存储设备写速率合起来计算,即计算存储设备的吞吐量的分值如下:
仍以上述硬盘的读速率和写速率为例,该硬盘的吞吐量throu=220+75=295mb/s,所有硬盘的平均吞吐量throu平均=200+80=280mb/s,即吞吐量的参考基数为280mb/s,则将吞吐量的基准值定为280/0.7=400mb/s,因此,该硬盘的吞吐量的分值为:295/400=0.74分。
将应用层读延迟时间、应用层写延迟时间合起来计算,即计算存储设备的应用程序的量化延迟的分值如下:
仍以上述硬盘的应用程序读延迟和应用程序写延迟为例,该硬盘的应用程序量化延迟appwait=50+80=130ms,所有硬盘的平均应用程序量化延迟appwait平均=45+70=115ms,即应用程序量化延迟的参考基数为115ms,则将应用程序量化延迟的基准值定为115/0.7=164.3ms,因此,该硬盘的应用程序量化延迟的分值为:130/164.3=0.79分。
仍以上述硬盘的容量使用百分比的分值和单个io平均等待时间的分值为例,则可以根据如下公式计算该硬盘的综合性能评价分数:
在计算过程中,用到的函数和变量说明如表1所示:
表1
需要说明的是,上述提到的两个公式只是本发明的两个示例公式,在具体的计算过程中,也可以使用其它的计算公式,只要最终计算出的硬盘的综合性能评价分数与readrate、writerate、iops值三者中的一个或多个的变动呈正向变化,与usedper、periowait、appreadwait、appwritewait四者中的一个或多个的变动呈反向变化即可。
对量化函数quant(value,base)的量化规则说明:
针对某一监控指标数据,先计算所有存储设备的算术平均值,以计算出的算数平均值作为参考基数,计算该监控指标数据的基准值,基准值为参考基数/预设的比例值,然后根据基准值将各个硬盘的监控指标数据值,量化映射到[0,base]这个区间内,上限值为base,下限值为0。
步骤103:根据各存储设备的综合性能评价分数调整存储策略。
在本实施例的一示例中,所述根据各存储设备的综合性能评价分数调整存储策略,包括:
根据所述各存储设备的综合性能评价分数,计算所述所有存储设备的平均性能评价分数;
比较所述所有存储设备的平均性能评价分数除以所述各存储设备的综合性能评价分数的比值与预设的调整权重阈值的大小;
当一所述存储设备的所述比值大于或等于所述调整权重阈值时,降低该所述存储设备的读写概率。
具体地,可以通过将所述存储设备归纳到冷数据存储区,来降低该所述存储设备的读写概率。
例如,假设预设的调整权重阈值为200%,假设可疑硬盘的score分数为20分,所有硬盘的平均分为50分,则所述比值为50/20=250%,达到了调整权重阈值时,则将该可疑硬盘归纳到冷数据存储区,并通知管理员。通知形式可以为微信、qq、邮箱、短信等多种形式。通知管理员时,还能支持提醒功能,例如可以设置每五分钟通知一次,需要管理员回应一个确认信息后才会终止回复。
在该示例中,当一所述存储设备的所述比值大于或等于所述调整权重阈值时,所述根据各存储设备的综合性能评价分数调整存储策略,还包括:
从当前时刻开始统计预设的第一确认期时长内,每预设单位时长的所述所有存储设备的平均性能评价分数除以该所述存储设备的综合性能评价分数的比值大于或等于所述调整权重阈值的次数;
当统计出的次数大于或等于预设的第一次数阈值时,触发降低该所述存储设备的读写概率的操作。
例如,将第一确认期时长设置为100分钟,预设单位时长为1分钟,从第一次计算出的比值超过调整权重阈值开始进行统计,如果在连续的100分钟内,每分钟计算出的比值超过所述调整权重阈值的次数达到90次以上,则降低该所述存储设备的读写概率。
在本实施例的另一示例中,所述根据各存储设备的综合性能评价分数调整存储策略,包括:
根据所述各存储设备的综合性能评价分数,计算所述所有存储设备的平均性能评价分数;
比较所述所有存储设备的平均性能评价分数除以所述各存储设备的综合性能评价分数的比值与预设的迁移数据阈值的大小;
当一所述存储设备的所述比值大于或等于所述迁移数据阈值时,迁移该所述存储设备存储的数据。
例如,预设的迁移数据阈值为400%,仍以前面的可疑硬盘为例,其所述比值为50/20=250%,没有达到迁移数据阈值,则不用将该可疑硬盘上面的数据迁移其它硬盘上;假设另一可疑硬盘的score分数为10分,所有硬盘的平均分仍为50分,则所述比值为50/10=500%,达到了迁移数据阈值,则将该另一可疑硬盘上面的数据迁移其它硬盘上,并通知管理员。
在该示例中,当一所述存储设备的所述比值大于或等于所述迁移数据阈值时,所述根据各存储设备的综合性能评价分数调整存储策略,还包括:
从当前时刻开始统计预设的第二确认期时长内,每预设单位时长的所述所有存储设备的平均性能评价分数除以该所述存储设备的综合性能评价分数的比值大于或等于所述迁移数据阈值的次数;
当统计出的次数大于或等于预设的第二次数阈值时,触发迁移该所述存储设备存储的数据的操作。
例如,将第二确认期时长设置为50分钟,预设单位时长为1分钟,从第一次计算出的比值超过迁移数据阈值开始进行统计,如果在连续的50分钟内,每分钟计算出的比值超过所述迁移数据阈值的次数达到40次以上,则迁移该所述存储设备存储的数据。
需要说明的是,调整权重阈值小于迁移数据阈值,各存储设备计算出的所述比值的大小表示它最大能负载的数据量大小,比值越小,能负载的数据量越小。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如以上任一项所述的监控管理方法的步骤。
如图2所示,本发明实施例还提供了一种监控管理装置,包括处理器201及存储器202,其中:
所述处理器201用于执行存储器202中存储的监控管理程序,以实现如以上任一项所述的监控管理方法的步骤。
如图3所示,本发明实施例还提供了一种监控管理装置,包括数据获取模块301、计算模块302和调整模块,其中:
数据获取模块301,用于获取存储集群内所有存储设备的一项或多项监控指标数据;
计算模块302,用于根据获取的所述所有存储设备的监控指标数据,计算各存储设备的综合性能评价分数;
调整模块303,用于根据各存储设备的综合性能评价分数调整存储策略。
本实施例中,所述监控指标数据包括以下至少之一:
存储设备读速率、存储设备写速率、存储设备iops、存储设备单个io平均等待时间、存储设备容量使用百分比、应用层读延迟时间、应用层写延迟时间。
本实施例中,所述存储设备包括硬盘、u盘等存储设备。
本实施例中,所述计算模块302具体用于:
对每项监控指标数据,计算所述存储集群内所有存储设备的算数平均值;
根据计算出的各项监控指标数据的算数平均值,设置各项监控指标数据的参考基数,并根据所述参考基数计算各存储设备各项监控指标数据的分值;
根据各存储设备各项监控指标数据的分值,计算各存储设备的综合性能评价分数。
需要说明的是,所述计算模块302可以将计算出的各项监控指标数据的算数平均值,直接设置为各项监控指标数据的参考基数,也可以将各项监控指标数据的参考基数设置为以所述计算出的各项监控指标数据的算数平均值为自变量的函数值,本发明对此并不做限制。此外,所述计算模块302也可以通过其它的方法计算各存储设备的综合性能评价分数,例如,对每项监控指标数据,不计算所述存储集群内所有存储设备的算数平均值,直接根据预设的参考基数计算各存储设备各项监控指标数据的分值,然后计算各存储设备的综合性能评价分数。但是,通过计算所述存储集群内所有存储设备的算数平均值,可以更加动态地获取整个存储集群中所有存储设备的性能情况,进而使得存储策略的调整更加地灵活有效。
在本实施例的一示例中,所述计算模块302的根据所述参考基数计算各存储设备各项监控指标数据的分值,包括:
根据一监控指标数据的参考基数,计算该监控指标数据的基准值,其中,基准值=参考基数/x,x为预设的比例值(例如x=0.7);
根据计算出的基准值和各存储设备的当前监控指标数据值,计算各存储设备的该监控指标数据的分值:所述分值=当前监控指标数据值/基准值。
具体地计算过程可参见前文的示例,此处不再赘述。在具体的计算过程中,可以使用本发明的两个示例公式,也可以使用其它的计算公式,只要最终计算出的硬盘的综合性能评价分数与readrate、writerate、iops值三者中的一个或多个的变动呈正向变化,与usedper、periowait、appreadwait、appwritewait四者中的一个或多个的变动呈反向变化即可。
在本实施例的一示例中,所述调整模块303具体用于:
根据所述各存储设备的综合性能评价分数,计算所述所有存储设备的平均性能评价分数;
比较所述所有存储设备的平均性能评价分数除以所述各存储设备的综合性能评价分数的比值与预设的调整权重阈值的大小;
当一所述存储设备的所述比值大于或等于所述调整权重阈值时,降低该所述存储设备的读写概率。
具体地,所述调整模块303可以通过将所述存储设备归纳到冷数据存储区,来降低该所述存储设备的读写概率。
在该示例中,当一所述存储设备的所述比值大于或等于所述调整权重阈值时,所述调整模块303还用于:
从当前时刻开始统计预设的第一确认期时长内,每预设单位时长的所述所有存储设备的平均性能评价分数除以该所述存储设备的综合性能评价分数的比值大于或等于所述调整权重阈值的次数;
当统计出的次数大于或等于预设的第一次数阈值时,触发降低该所述存储设备的读写概率的操作。
在本实施例的另一示例中,所述调整模块303具体用于:
根据所述各存储设备的综合性能评价分数,计算所述所有存储设备的平均性能评价分数;
比较所述所有存储设备的平均性能评价分数除以所述各存储设备的综合性能评价分数的比值与预设的迁移数据阈值的大小;
当一所述存储设备的所述比值大于或等于所述迁移数据阈值时,迁移该所述存储设备存储的数据。
在该示例中,当一所述存储设备的所述比值大于或等于所述迁移数据阈值时,所述调整模块303还用于:
从当前时刻开始统计预设的第二确认期时长内,每预设单位时长的所述所有存储设备的平均性能评价分数除以该所述存储设备的综合性能评价分数的比值大于或等于所述迁移数据阈值的次数;
当统计出的次数大于或等于预设的第二次数阈值时,触发迁移该所述存储设备存储的数据的操作。
需要说明的是,调整权重阈值小于迁移数据阈值,各存储设备计算出的所述比值的大小表示它最大能负载的数据量大小,比值越小,能负载的数据量越小。
本发明实施例提供的监控管理方法和装置、计算机可读存储介质,通过根据所有存储设备的监控指标数据,计算各存储设备的综合性能评价分数,并相应地调整存储策略,减少了硬盘老化过程中带来的读写缓慢对存储集群造成的影响。也降低了硬盘老化带来的存储故障对整个存储集群造成的危害及影响,更好地保护了整个存储集群的数据。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现,相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。