本发明涉及计算机,具体是一种基于大数据的云存储管理方法及系统。
背景技术:
1、云存储(cloud storage)是一种将数据保存在第三方提供的远程服务器上,通过互联网进行访问和管理的数据存储服务。与传统的本地存储相比,云存储具有低成本、高可扩展性、易于管理和维护等优势。用户可以根据需要选择合适的存储容量和服务类型,并通过云存储提供商提供的界面或api对数据进行上传、下载、备份、归档、共享等操作。
2、为了保证数据的安全,云存储提供商一般会定时对远程服务器中的数据进行备份。但是在不同云存储用户活跃度不同,对应的云盘数据的更新频率也是不同的。有的用户的云盘存储的数据更新频率较高,例如,统计表格、日常报表等,对于此类数据如果按照固定时间进行备份,容易出现数据遗失。而有的用户的云盘存储的数据频率较低,例如,存储的视频、图片、已经归档的文档资料等,对于此类数据如果按照固定时间进行备份,则会存在大量的资源浪费。
技术实现思路
1、有鉴于此,本发明的目的是提供一种基于大数据的云存储管理方法及系统,以解决现有技术中云盘定时备份容易出现的数据遗失和资源浪费的问题。
2、为了实现上述目的,本发明采用了如下技术方案:
3、本发明的一种基于大数据的云存储管理方法,包括步骤:
4、获取多个云存储用户的目标时间段的云空间更新记录,其中,所述云空间更新记录从用户行为日志中提取,所述目标时间段为当前时间点之间单位时间至当前时间点的时间段;
5、基于所述云空间更新记录确定云空间中各文件的更新活跃度;并基于所述云空间中各文件的更新活跃度确定所述云空间中各文件的备份频率;
6、基于云空间中各文件的更新活跃度确定对应用户的用户活跃度;并基多个云存储用户的用户活跃度将所述多个云储存划分为多个用户族群;
7、基于各文件的备份频率对多个用户族群的文件进行备份管理。
8、在本申请一实施例中,基于所述云空间更新记录确定云空间中各文件的更新活跃度,包括:
9、从所述云空间更新记录提取每个文件的更新时间点ti、以及每个更新时间点ti对应的文件大小di,其中,所述更新时间点ti为新增文件、删除文件或者改变文件对应的时间点;
10、在文件n的更新时间点大于两个时,基于所述每个更新时间点ti对应的文件大小di计算每个文件在更新时间点ti的大小变化值ci,其中,ci=di-di-1;
11、计算所述多个大小变化值ci的平均值ca,并基于所述平均值ca和更新时间点ti的数量i构建对应文件的更新活跃度an,an=α×ca+β×i,其中,α为第一权重,β为第二权重;
12、在文件n的更新时间点大于或者等于两个时,将文件n的更新活跃度an设定为0。
13、在本申请一实施例中,基于所述云空间中各文件的更新活跃度确定所述云空间中各文件的备份频率,包括:
14、获取所述云空间中各文件的最低频率fmin,其中,最低频率大于或者等于0;
15、基于所述最低频率fmin、所述文件n的更新活跃度an确定所述云空间中各文件的备份频率fn,fn=fmin+an×γ,其中,γ为预设的比例因子。
16、在本申请一实施例中,基于云空间中各文件的更新活跃度确定对应用户的用户活跃度,包括:
17、对每个用户的所有文件的更新活跃度an进行求和,得到用户活跃度ac。
18、在本申请一实施例中,基多个云存储用户的用户活跃度将所述多个云储存划分为多个用户族群,包括:
19、对所有云存储用户的用户活跃度an进行排序并分组,得到多个用户组;
20、基于所述多个用户组,并结合多个存储节点的负载均衡,对云存储用户进行划分,得到多个用户族群,其中,一个用户族群对应的文件存储至一个或者一组备份服务器中。
21、在本申请一实施例中,对所有云存储用户的用户活跃度an进行排序并分组,得到多个用户活跃度级别,包括:
22、对所有云存储用户的用户活跃度an进行排序,得到用户序列;
23、对所述用户序列进行划分,得到多个用户组,其中,任意两个用户组的资源总量差值不超过预设阈值。
24、在本申请一实施例中,基于所述多个用户组,并结合多个存储节点的负载均衡,对云存储用户进行划分,得到多个用户族群,包括:
25、s1,在未被划分的用户组中,将用户活跃度分布范围最高以及用户活跃度分布范围最低的多个用户组作为当前用户组;将多个当前用户组划分至同一个用户族群中,其中,多个当前用户组的活跃度总和在预设范围内;
26、s2,重复执行步骤s1,直至完成对所有用户组的划分,得到多个用户族群。
27、在本申请一实施例中,基于各文件的备份频率对多个用户族群的文件进行备份管理,包括:
28、为每个用户族群分配一个存储节点和备份节点;
29、将每个用户族群对应的文件移动至对应的存储节点中,并基于每个文件的备份频率自动将文件备份至对应的备份节点中。
30、在本申请一实施例中,还包括:
31、将每个用户族群对应的文件移动至对应的存储节点中时,在所述存储节点中进行文件复制,得到文件副本;在移动成功后,删除所述文件副本。
32、本申请还提供一种基于大数据的云存储管理系统,包括:
33、获取模块,用于获取多个云存储用户的目标时间段的云空间更新记录,其中,所述云空间更新记录从用户行为日志中提取,所述目标时间段为当前时间点之间单位时间至当前时间点的时间段;
34、频率确定模块,用于基于所述云空间更新记录确定云空间中各文件的更新活跃度;并基于所述云空间中各文件的更新活跃度确定所述云空间中各文件的备份频率;
35、族群划分模块,用于基于云空间中各文件的更新活跃度确定对应用户的用户活跃度;并基多个云存储用户的用户活跃度将所述多个云储存划分为多个用户族群;
36、管理模块,用于基于各文件的备份频率对多个用户族群的文件进行备份管理。
37、本发明的有益效果是:本发明的一种基于大数据的云存储管理方法及系统,通过对各云存储用户的历史文件更新记录进行分析,得到每个文件的更新活跃度,并基于更新活跃度制定每个文件的备份频率,更新越频繁的文件备份频率越高,更新越少的文件备份频率越低。因此解决了云盘定时备份容易出现的数据遗失和资源浪费的问题。此外,本申请还基于文件的更新活跃度确定对应用户的用户活跃度,利用用户活跃度来对用户进行划分,以实现均衡负载,从而避免存储节点因为不同的备份频率出现负载不均衡的现象。
1.一种基于大数据的云存储管理方法,其特征在于,包括步骤:
2.根据权利要求1所述的一种基于大数据的云存储管理方法,其特征在于,基于所述云空间更新记录确定云空间中各文件的更新活跃度,包括:
3.根据权利要求2所述的一种基于大数据的云存储管理方法,其特征在于,基于所述云空间中各文件的更新活跃度确定所述云空间中各文件的备份频率,包括:
4.根据权利要求2所述的一种基于大数据的云存储管理方法,其特征在于,基于云空间中各文件的更新活跃度确定对应用户的用户活跃度,包括:
5.根据权利要求4所述的一种基于大数据的云存储管理方法,其特征在于,基多个云存储用户的用户活跃度将所述多个云储存划分为多个用户族群,包括:
6.根据权利要求5所述的一种基于大数据的云存储管理方法,其特征在于,对所有云存储用户的用户活跃度an进行排序并分组,得到多个用户活跃度级别,包括:
7.根据权利要求5所述的一种基于大数据的云存储管理方法,其特征在于,基于所述多个用户组,并结合多个存储节点的负载均衡,对云存储用户进行划分,得到多个用户族群,包括:
8.根据权利要求1所述的一种基于大数据的云存储管理方法,其特征在于,基于各文件的备份频率对多个用户族群的文件进行备份管理,包括:
9.根据权利要求8所述的一种基于大数据的云存储管理方法,其特征在于,还包括:
10.一种基于大数据的云存储管理系统,其特征在于,包括: