一种面向云存储系统的数据副本数量确定方法

文档序号:7801388阅读:256来源:国知局
一种面向云存储系统的数据副本数量确定方法
【专利摘要】本发明提出一种面向云存储系统的数据副本数量确定方法,其方法基于数据流行度与节点热度,以满足服务需求、控制数据副本数量为目标,对数据分类并预测不同数据的数据副本需求数,提前增加数据副本,或及时删除过多的数据副本,本发明方法包含以下几个环节:分析数据流行度预测模型;预测数据副本变化数;计算节点热度;增加/删除数据副本;迁移数据副本。方法减少数据副本需求数,降低了硬件成本,减轻了系统的数据维护负担,降低了热点问题的发生概率,有效提高了数据副本的利用率。
【专利说明】一种面向云存储系统的数据副本数量确定方法
【技术领域】
[0001]本发明涉及信息技术类数据管理应用领域,尤其涉及一种面向云存储系统的数据副本数量的确定方法。
【背景技术】
[0002]云存储是在云计算概念上延伸和发展出来的一个新概念,通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的系统。
[0003]云存储通过互联网为多用户提供高性价比的共享存储资源池。用户不需要了解云存储系统的组成,也不需要了解提供存储服务的具体细节,所有设备对于用户均是透明的,任何一个合法用户通过网络都可以连接云存储系统,获得相应的服务。云存储概念一经提出,就得到了产业界及学术界的关注。根据IDC (International Data Corporation,国际数据集团)的数据,2013年云存储服务的增长率超过所有其他类型的云服务。
[0004]在云存储系统中存储了大量数据及其副本,且数据规模仍在迅速增加,这使得数据副本管理模块是云存储系统中必不可少的组件。高效的数据副本管理方法可以有效地解决系统容错性差、稳定可靠性低以及访问速度慢等问题。目前的数据副本管理方法所要达到的目标包括如何保障系统更高的服务可靠性、数据副本一致性、合理的数据副本数量及均衡的系统负载等问题。
[0005]其中适当控制数据副本数量尤其必要。数据副本数量过多会造成节点存储资源和网络带宽的浪费,加重系统和网络负担;数量过少则数据的可用性和访问速度得不到保证,容易造成热点问题。合理计算各数据对象所需要的数据副本数量有助于系统的数据副本总数控制。
[0006]目前的数据副本复制数量的确定一般都采用静态策略,一般都将数据副本数量设置为预先确定好,然后将数据副本存储在若干存储节点上,即通过简单冗余来避免数据访问失效现象的发生,目前的谷歌云平台、Hadoop (一个分布式系统基础架构,由阿帕奇基金会开发)等系统都是将数据副本数量设置为3份,然后将数据副本存储在不同的3个存储节点上。
[0007]这种数据副本数量的静态确定方法没有考虑数据的访问规律,不能满足不同数据的访问需求,使得系统无法在服务质量和资源开销间取得平衡,造成资源浪费,且难以解决热点问题,增加了不必要的硬件成本。

【发明内容】

[0008]为解决上述技术问题,本发明提供一种面向云存储系统的数据副本数量确定方法,其采用的技术方案如下:
[0009]一种面向云存储系统的数据副本数量确定方法,包括如下步骤:
[0010]步骤一:通过归纳云存储系统中数据访问规律将云存储系统中的数据分为I型、II型、III型、IV型数据,各类型数据初始建立3份副本,并建立相应的数据流行度模型,计算节点热度;
[0011]步骤二:新数据到达云存储系统一段时间后,根据数据流行度模型提供的数据流行度变化规律,判断数据的类型,计算出下一时期数据副本需求数与当前数据副本数之差Ari ;
[0012]步骤三:当某一类型的数据Ari大于O时,则增加该数据的副本数;当某一类型的数据Ari小于O时,则减少该数据的副本数;当某一类型的数据Ari等于O时,则对该数据的副本数不作调整。
[0013]步骤四:设定的节点的热度上限阈值,将节点热度达到或超过上限阈值的节点上的最热的数据副本迁移到热度最低且当前不包含该数据副本的节点上,并在节点热度降低到热度上限阈值以下之前,不在该节点上创建新的数据副本。
[0014]步骤一中的节点热度hmde计算方法如下:
【权利要求】
1.一种面向云存储系统的数据副本数量确定方法,包括如下步骤: 步骤一:通过归纳云存储系统中数据访问规律将云存储系统中的数据分为I型、II型、III型、IV型数据,各类型数据初始建立3份副本,并建立相应的数据流行度模型,计算节点热度; 步骤二:新数据到达云存储系统一段时间后,根据数据流行度模型提供的数据流行度变化规律,判断数据的类型,计算出下一时期数据副本需求数与当前数据副本数之差Ari ; 步骤三:当某一类型的数据Ari大于O时,则增加该数据的副本数;当某一类型的数据Ari小于O时,则减少该数据的副本数;当某一类型的数据Ari等于O时,则对该数据的副本数不作调整; 步骤四:设定的节点的热度上限阈值,将节点热度达到或超过上限阈值的节点上的最热的数据副本迁移到热度最低且当前不包含该数据副本的节点上,并在节点热度降低到热度上限阈值以下之前,不在该节点上创建新的数据副本。
2.根据权利要求1所述的一种面向云存储系统的数据副本数量确定方法,其步骤一中的节点热度hmde;计算方法如下:

3.根据权利要求1所述的一种面向云存储系统的数据副本数量确定方法,其步骤二中判断数据类型的方法为采用流行度面积与流行度的斜率面积判断当前数据所属数据类型,数据类型的判断如以下步骤: 步骤1:计算出当前数据对象流行度面积sp = / pdt,斜率面积sk = / kdt ;其中P为当前数据对象流行度,sp为当前数据对象流行度面积,t为时间,k为当前数据对象流行度斜率,Sk为当前数据对象流行度斜率面积,/和d为积分运算符号; 步骤2:若Sp接近于I型数据的流行度面积Spl = / Pldt,其中P1为I型数据流行度,Spl为I型数据流行度面积,t为时间,由于此时其它类型数据的与流行度面积明显大于I型数据,从而可以判断当前数据为I型数据,确定该数据对象的数据副本数不用改变,并结束数据类型判断;否则继续步骤3 ; 步骤3:若数据对象流行度斜率面积Sk接近于III型数据的流行度斜率面积Sk3 =/ Mt,其中k3为III型数据的流行度斜率,Sk3为III型数据的流行度斜率面积,t为时间,由于此时III型数据的访问增加迅速,即它的流行度斜率面积明显大于其它类型数据,所以该数据对象属于III型数据,结束数据类型判断;否则继续步骤4 ; 步骤4:若Sp接近于II型数据的流行度面积Sp2 = / P2dt,其中P2为II型数据流行度,sp2为II型数据流行度面积,t为时间,且Sk接近于II型数据的流行度斜率面积Sk2= / k2dt,其中1^2为II型数据的流行度斜率,Sk2为II型数据的流行度斜率面积,t为时间,由于此时II型数据与IV型数据的流行度面积相近但斜率变化明显不同,从而该数据对象属于II型数据,结束数据类型判断;否则该数据对象属于IV型数据,结束数据类型判断。
4.根据权利要求1所述的一种面向云存储系统的数据副本数量确定方法,其步骤二中的下一时期数据副本需求数与当前数据副本数之差Ari计算方法如下:确定数据对象的类型后,对I1、II1、IV型数据的数据副本预期变化数的计算式如下:
5.根据权利要求1所述的一种面向云存储系统的数据副本数量确定方法,步骤三中增加数据副本的方法如下: 步骤1:首先找出持有该数据对象数据副本的节点集合s (Nhtjld), Nhtjld指持有该数据对象数据副本的节点; 步骤2:按节点热度升序排列集合S(Ntold)中所有的节点; 步骤3:以序列中热度最小的节点作为Ari份数据副本的创建者,即负责将数据副本复制并传输到系统的其它当前没有该数据副本的Ari个节点上,这Ari个节点是不属于节点集合S (Nhtjld)的节点中热度hn(Kte最低的那Ari个节点。
6.根据权利要求1所述的一种面向云存储系统的数据副本数量确定方法,步骤三中减少数据副本的方法如下: 步骤1:首先找出持有该数据对象数据副本的节点集合s (Nhtjld), Nhtjld指持有该数据对象数据副本的节点; 步骤2:按节点热度降序排列集合S(Ntold)中所有的节点; 步骤3:通知序列中的前Ari个节点删除该数据副本。
7.根据权利要求1所述的一种面向云存储系统的数据副本数量确定方法,步骤四中迁移数据副本的方法如下: 步骤1:节点持续监控本地的数据副本访问情况,若节点A的节点热度hmde;处于热度上限阈值以下,则不作任何其它操作,仍继续监控本地的数据副本访问情况;若发现节点A的节点热度hMde已经达到或超过上限阈值,则转到步骤2 ; 步骤2:节点A对本地所有数据副本按a (dp进行排序,首先找出a (dj最高的数据副本,然后将持有该相同数据副本的节点集合S(Ntold)中的节点按节点热度升序排列所有的Nhold ?步骤3:节点A通知序列中热度最低的节点,设为节点,来负责复制并传输该数据副本; 步骤4:节点B根据获得的通知,在系统中找出不持有该数据对象的数据副本的节点集合中热度最低的节点,设为节点C,节点B将数据副本复制并传输到节点C ; 步骤5:如果数据副本传输成功,节点B向节点A报告已经将副本迁移成功,然后转到步骤7 ;如果数据副本传输失败,转到步骤6 ; 步骤6:节点B在系统中找出不持有该数据对象的数据副本的节点集合中除已经试图传输但失败的节点之外热度最低的节点,节点B将数据副本复制并传输到该节点上;转到步骤5 ; 步骤7:节点A收到已经将数据副本迁移成功报告后,删除本地该数据副本。
【文档编号】H04L29/08GK103997512SQ201410149010
【公开日】2014年8月20日 申请日期:2014年4月14日 优先权日:2014年4月14日
【发明者】徐小龙, 邹勤文, 徐佳, 邓艳, 王屹进, 刘笑笑, 李永萍, 涂群 申请人:南京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1