分布式文件系统的数据管理方法和装置的制造方法
【技术领域】
[0001]本发明涉及分布式文件系统领域,具体来说,涉及一种分布式文件系统的数据管理方法和装置。
【背景技术】
[0002]分布式文件系统一般包含客户端,元数据服务器和数据服务器,客户端负责文件数据的访问接口制定,元数据服务器处理文件的布局及属性,数据服务器存储文件的数据内容。
[0003]对于分布式文件系统,可以存储海量数据是其最主要的特征,当系统中存储了大量的文件,而某些文件被作为上层应用的关键文件被频繁访问时,往往这些关键文件的访问延时决定了系统可以承载的1数量,最典型的应用场景为虚拟机的应用,该场景下作为虚拟机的系统盘的文件的访问热度比普通文件要高很多,这样会造成对虚拟机的访问性能的下降。
[0004]传统解决方案是以文件为单位,直接统计文件的访问频次,并按文件为单位将文件迀移至快速设备,但是,在大多数情况下,只有文件中的某些数据段被频繁访问,而将整个文件进行直接迀移,显然会会大大的浪费快速设备的空间,而对无效的热点数据(即文件中访问频率低的数据段)的迀移也会影响热点数据的访问性能。
[0005]针对相关技术中的上述问题,目前尚未提出有效的解决方案。
【发明内容】
[0006]针对相关技术中的上述问题,本发明提出一种分布式文件系统的数据管理方法和装置,能够避免迀移数据过多的缺点,并提高热点数据的访问速度。
[0007]本发明的技术方案是这样实现的:
[0008]根据本发明的一个方面,提供了一种分布式文件系统的数据管理方法。
[0009]该数据管理方法包括:
[0010]在对文件对象进行访问时,记录文件对象中每个被访问的数据段的访问次数;
[0011]统计预定统计周期内每个被访问的数据段的访问次数,得到预定统计周期内每个被访问的数据段的访问统计次数;
[0012]将满足预定访问频度的访问统计次数所对应的数据段迀移至快设备。
[0013]可选的,该数据管理方法进一步包括:
[0014]在将满足预定访问频度的访问统计次数所对应的数据段迀移至快设备之前,对预定统计周期内每个被访问的数据段的访问次数作排序。
[0015]此外,该数据管理方法进一步包括:
[0016]将预定统计周期内每个被访问的数据段的访问统计次数与预定的统计次数阈值作比较。
[0017]对应的,在将满足预定访问频度的访问统计次数所对应的数据段迀移至快设备时,可将大于预定的统计次数阈值的访问统计次数确定为满足预定访问频度的访问统计次数;
[0018]然后,将满足预定访问频度的访问统计次数所对应的数据段设定为热点数据段;
[0019]并将热点数据段迀移至快设备。
[0020]此外,该数据管理方法进一步包括:
[0021]在预定统计周期内每个被访问的数据段的访问统计次数均小于预定的统计次数阈值的情况下,调整预定统计周期。
[0022]此外,该数据管理方法进一步包括:
[0023]按预定检测周期遍历快设备上的热点数据段的未访问间隔时间,其中,未访问间隔时间为该热点数据段距离当前时间最近一次的访问时间与当前时间的间隔时间;
[0024]将热点数据段的未访问间隔时间与预定最大未访问间隔时间作比较;
[0025]将未访问间隔时间大于预定最大未访问间隔时间的热点数据段从快设备迀移至慢设备。
[0026]根据本发明的另一方面,提供了一种分布式文件系统的数据管理装置。
[0027I该数据管理装置包括:
[0028]记录模块,用于在对文件对象进行访问时,记录文件对象中每个被访问的数据段的访问次数;
[0029]统计模块,用于统计预定统计周期内每个被访问的数据段的访问次数,得到预定统计周期内每个被访问的数据段的访问统计次数;
[0030]迀移模块,用于将满足预定访问频度的访问统计次数所对应的数据段迀移至快设备。
[0031]此外,该数据管理装置进一步包括:
[0032]排序模块,用于在将满足预定访问频度的访问统计次数所对应的数据段迀移至快设备之前,对预定统计周期内每个被访问的数据段的访问次数作排序。
[0033]另外,该数据管理装置进一步包括:
[0034]比较模块,用于将预定统计周期内每个被访问的数据段的访问统计次数与预定的统计次数阈值作比较。
[0035]其中,该迀移模块包括:
[0036]确定模块,用于将大于预定的统计次数阈值的访问统计次数确定为满足预定访问频度的访问统计次数;
[0037]设定模块,用于将满足预定访问频度的访问统计次数所对应的数据段设定为热点数据段;
[0038]迀移子模块,用于将热点数据段迀移至快设备。
[0039]本发明通过以数据段为单位进行访问次数统计以及数据的迀移,避免了迀移数据过多的问题从而充分利用快速设备空间,并提高了热点数据的访问速度和性能。
【附图说明】
[0040]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0041]图1是根据本发明实施例的分布式文件系统的数据管理方法的流程图;
[0042]图2是根据本发明另一实施例的分布式文件系统的数据管理方法的流程图;
[0043]图3是根据本发明实施例的分布式文件系统的数据管理装置的框图。
【具体实施方式】
[0044]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
[0045]根据本发明的实施例,提供了一种分布式文件系统的数据管理方法。
[0046]如图1所示,根据本发明实施例的数据管理方法包括:
[0047]步骤SlOl,在对文件对象进行访问时,记录文件对象中每个被访问的数据段的访问次数;
[0048]步骤S103,统计预定统计周期内每个被访问的数据段的访问次数,得到预定统计周期内每个被访问的数据段的访问统计次数;
[0049]步骤S105,将满足预定访问频度的访问统计次数所对应的数据段迀移至快设备。
[0050]为了更好的理解本发明的上述实施例,下面结合图2来对本发明的上述技术方案进行详细阐述。
[0051]从图2可以看出,本发明的分布式文件系统包括客户端、元数据服务器和多个数据服务器(即数据节点I?3,实际应用中对数据节点的数量不作限定)。
[0052]为了提高热数据的访问速度以及充分利用快设备的存储空间,根据本发明实施例的数据管理方法包括以下步骤:
[0053]1、当数据节点的文件被读写(即被访问)时,客户端会向数据节点(I?3)发起读写的请求;
[0054]2、数据节点根据热点指定的统计单位(即文件的数据段为单位),对读写到的文件对象中读写到的数据段分别做访问次数统计,即记录文件对象中每个被访问的数据段的访问次数;
[0055]3、元数据服务器按设定的统计周期向每个数据节点发送收集统计信息的命令,以从每个数据节点收集其被访问的每个数据段的在该统计周期内的访问统计次数;
[0056]4、元数据服务器收集完每个数据节点的每个被访问的数据段在该统计周期内的访问统计次数后,将每个数据段按访问频次做排序;
[0057]5、排序后,从该统计周期内所有被访问的数据段中筛选出热点数据段,具体为:将该统计周期内每个被访问的数据段的访问统计次数与预定的统计次数阈值作比较,将大于该预定的统计次数阈值的访问统计次数确定为满足预定访问频度的访问统计次数;将满足预定访问频度的访问统计次数所对应的数据段筛选为热点数据段;
[0058]6、元数据服务器将热点数据段迀移到快设备上;
[0059]7、而若该统计周期内无热点数据被筛选出(即在预定统计周期内每个被访问的数据段的访问统计次数均小于预定的统计次数阈值的情况下),则调