技术特征:
1.一种云端的混合分布式文件存储方法,其特征在于,包括以下步骤:步骤1,至少一个云端服务器安装有ssbox,且所有云端服务器的ram内存都在ceph和hdfs之间共享,且云端服务器的硬盘被划分为两个大小相等的分区,一个用于ceph,另一个用于hdfs;步骤2,根据待写入的文件大小对待写入的文件进行初步分类;测量ceph和hdfs对不同大小的文件所花费的写入时间,然后确定分隔点α和β:当文件大小小于α时,hdfs的写入时间超过ceph,且两者的写入时间差异性为5%,此时ceph为优选;当文件大小大于β时,ceph的写入时间超过hdfs,且两者的写入时间差异性为5%,此时hdfs为优选;将文件大小小于α的待写入的文件分配给ceph,将文件大小大于β的待写入的文件分配给hdfs;文件大小介于α和β之间的文件,进入下一步处理;步骤3,文件大小介于α和β之间的待写入的文件,使用knn方法预测该文件更适合于哪种分布式文件系统。2.根据权利要求1所述的一种云端的混合分布式文件存储方法,其特征在于,步骤1中,ssbox使用hdfs api将数据写入hdfs,并使用posix将数据写入ceph;数据存储位置将记录于数据库postgresql。3.根据权利要求1所述的一种云端的混合分布式文件存储方法,其特征在于,步骤2中,α为500mb,β为800mb。4.根据权利要求1所述的一种云端的混合分布式文件存储方法,其特征在于,步骤3中,knn方法如下:1) 获取k个近邻样本点;2) 初始化所有分类的样本点个数为0;3) 统计k个近邻样本点中各个分类的样本点的数量;4) 确定所有分类中样本点数量的最大值和最小值;5) 统计未知样本属于各个分类的概率。5.根据权利要求1所述的一种云端的混合分布式文件存储方法,其特征在于,还包括步骤4,ram内存和并行写入机制:在ram内存中缓存大于40mb的大文件,并通过并行写入进行管理,将ram内存中缓存的文件分配到ceph或hdfs中。
技术总结
一种云端的混合分布式文件存储方法,属于数字信息的传输技术领域,包括以下步骤:步骤1,至少一个云端服务器安装有SSBox,且所有云端服务器的RAM内存都在Ceph和HDFS之间共享,且云端服务器的硬盘被划分为两个大小相等的分区,一个用于Ceph,另一个用于HDFS;步骤2,根据待写入的文件大小对待写入的文件进行初步分类;步骤3,文件大小介于α和β之间的待写入的文件,使用KNN方法预测该文件更适合于哪种分布式文件系统。本方案,将文件适应性的分配到Ceph或者HDFS中,致力于提升读写性能。致力于提升读写性能。致力于提升读写性能。
技术研发人员:左登超
受保护的技术使用者:杭州雅观科技有限公司
技术研发日:2021.11.08
技术公布日:2021/12/3