一种用于对数据集合进行管理的方法与设备的制作方法

文档序号:6504692阅读:156来源:国知局
一种用于对数据集合进行管理的方法与设备的制作方法
【专利摘要】本发明的目的是提供一种用于对数据集合进行管理的方法与设备。当满足对数据集合进行拆分处理的触发条件,管理设备根据数据子集所对应的子集标识信息,确定与数据子集相对应的优选存储装置;根据数据子集在当前存储装置中所对应的存储信息,并结合优选存储装置的相关信息,更新子集标识信息所对应的存储信息。与现有技术相比,本发明通过所述数据子集所对应的子集标识信息,结合优选存储装置的相关信息,对所述子集标识信息所对应的存储信息进行更新,从而实现了对目标数据子集进行部分的多级分库,解决了老用户数据原地膨胀的问题,保证了数据的均匀分布,并且使得数据分库简单易维护,实现了数据分库的可扩展性与负载均衡,拆分灵活,节约成本。
【专利说明】-种用于对数据集合进行管理的方法与设备

【技术领域】
[0001 ]本发明涉及互联网【技术领域】,尤其涉及一种用于对数据集合进行管理的技术。

【背景技术】
[^002]为了应对用户数据库的持续快速增长,需要对原有的数据库进行分片,以获得更 高的吞吐量,更好的性能和更大的存储容量。
[0003]目前对于数据库分库,主要采用的是分段取模的方法。例如,由于大部分情况下, 用户ID (userid)为所有用户相关数据的外键,因此按照用户ID对数据库进行拆分,可以有 效的避免跨库事务和跨库连表,使得同一个用户的数据散列在唯一的分片上。当以 userid 进行分段标准时,则当userid小于一个上限值M,按N取模,将userid散列到0,1,..., N-1共N个分库上;如果数据量继续膨胀,对于userid > μ的新用户,数据散列到新的N, Ν+1,· · ·,2Ν-1共Ν个分库上。由于是取模计算,因此在每个分段内,数据近似是均匀的;并 且老的Ν个库无需做数据迁移,散列算法也不变。公式表达如下:
[0004]

【权利要求】
1. 一种用于对数据集合进行管理的方法,其中,该方法包括以下步骤: a检测是否满足对数据集合进行拆分处理的触发条件,其中,所述数据集合包括存储于 当前存储装置的一个或多个数据子集; b当满足所述触发条件,根据所述一个或多个数据子集中至少一个数据子集所对应的 子集标识信息,从多个候选存储装置中确定与所述至少一个数据子集相对应的优选存储装 置,其中,所述候选存储装置存储有所述数据集合的备份; c根据所述至少一个数据子集在所述当前存储装置中所对应的存储信息,并结合所述 优选存储装置的相关信息,更新所述子集标识信息所对应的存储信息。
2. 根据权利要求1所述的方法,其中,该方法还包括: -根据所述子集标识信息,对所述优选存储装置中所述数据集合的备份执行相应的删 除操作,以在所述优选存储装置中保留所述至少一个数据子集。
3. 根据权利要求1或2所述的方法,其中,所述步骤b包括: bl当满足所述触发条件,确定所述子集标识信息中满足N进制的分库参考信息,其中, 所述N对应于所述多个候选存储装置的数量,所述候选存储装置存储有所述数据集合的备 份; b2根据所述分库参考信息,从所述多个候选存储装置中确定与所述至少一个数据子集 相对应的优选存储装置。
4. 根据权利要求3所述的方法,其中,所述步骤bl包括: -当满足所述触发条件,根据预定规则,确定用于所述子集标识信息的N进制,其中, 所述N对应于所述多个候选存储装置的数量,所述候选存储装置存储有所述数据集合的备 份; bll根据所述N进制,获取所述子集标识信息中满足所述N进制的分库参考信息; 其中,所述预定规则包括以下至少任一项: -基于预定的所述多个候选存储装置的数目; -基于所述子集标识信息的多进制信息。
5. 根据权利要求4所述的方法,其中,所述步骤bll包括: -根据所述N进制,以及所述子集标识信息所基于的进制信息,确定所述子集标识信息 中满足所述N进制的分库参考信息。
6. 根据权利要求3至5中任一项所述的方法,其中,所述步骤b2包括: -根据所述分库参考信息,并结合所述至少一个数据子集的数据相关信息,从所述多个 候选存储装置中确定与所述至少一个数据子集相对应的优选存储装置。
7. 根据权利要求3至5中任一项所述的方法,其中,所述步骤b2包括: -根据所述分库参考信息,并结合所述候选存储装置的应用相关信息,从所述多个候选 存储装置中确定与所述至少一个数据子集相对应的优选存储装置。
8. 根据权利要求1至7中任一项所述的方法,其中,该方法还包括: -获取关于目标数据子集的操作请求; -根据与所述目标数据子集的子集标识信息相对应的存储信息,确定所述目标数据子 集所对应的目标存储装置; -对所述目标存储装置中的所述目标数据子集,执行与所述操作请求相对应的数据操 作。
9. 一种用于对数据集合进行管理的管理设备,其中,该设备包括: 检测装置,用于检测是否满足对数据集合进行拆分处理的触发条件,其中,所述数据集 合包括存储于当前存储装置的一个或多个数据子集; 确定装置,用于当满足所述触发条件,根据所述一个或多个数据子集中至少一个数据 子集所对应的子集标识信息,从多个候选存储装置中确定与所述至少一个数据子集相对应 的优选存储装置,其中,所述候选存储装置存储有所述数据集合的备份; 更新装置,用于根据所述至少一个数据子集在所述当前存储装置中所对应的存储信 息,并结合所述优选存储装置的相关信息,更新所述子集标识信息所对应的存储信息。
10. 根据权利要求9所述的管理设备,其中,该设备还包括: 删除装置,用于根据所述子集标识信息,对所述优选存储装置中所述数据集合的备份 执行相应的删除操作,以在所述优选存储装置中保留所述至少一个数据子集。
11. 根据权利要求9或10所述的管理设备,其中,所述确定装置包括: 参考确定单元,用于当满足所述触发条件,确定所述子集标识信息中满足N进制的分 库参考信息,其中,所述N对应于所述多个候选存储装置的数量,所述候选存储装置存储有 所述数据集合的备份; 优选确定单元,用于根据所述分库参考信息,从所述多个候选存储装置中确定与所述 至少一个数据子集相对应的优选存储装置。
12. 根据权利要求11所述的管理设备,其中,所述参考确定单元包括: 进制确定单元,用于当满足所述触发条件,根据预定规则,确定用于所述子集标识信息 的N进制,其中,所述N对应于所述多个候选存储装置的数量,所述候选存储装置存储有所 述数据集合的备份; 参考获取单元,用于根据所述N进制,获取所述子集标识信息中满足所述N进制的分库 参考信息; 其中,所述预定规则包括以下至少任一项: -基于预定的所述多个候选存储装置的数目; -基于所述子集标识信息的多进制信息。
13. 根据权利要求12所述的管理设备,其中,所述参考获取单元用于: -根据所述N进制,以及所述子集标识信息所基于的进制信息,确定所述子集标识信息 中满足所述N进制的分库参考信息。
14. 根据权利要求11至13中任一项所述的管理设备,其中,所述优选确定单元用于: -根据所述分库参考信息,并结合所述至少一个数据子集的数据相关信息,从所述多个 候选存储装置中确定与所述至少一个数据子集相对应的优选存储装置。
15. 根据权利要求11至13中任一项所述的管理设备,其中,所述优选确定单元,用于: -根据所述分库参考信息,并结合所述候选存储装置的应用相关信息,从所述多个候选 存储装置中确定与所述至少一个数据子集相对应的优选存储装置。
16. 根据权利要求9至15中任一项所述的管理设备,其中,该方设备还包括: 获取装置,用于获取关于目标数据子集的操作请求; 目标确定装置,用于根据与所述目标数据子集的子集标识信息相对应的存储信息,确 定所述目标数据子集所对应的目标存储装置; 执行装置,用于对所述目标存储装置中的所述目标数据子集,执行与所述操作请求相 对应的数据操作。
【文档编号】G06F17/30GK104252457SQ201310256513
【公开日】2014年12月31日 申请日期:2013年6月25日 优先权日:2013年6月25日
【发明者】刘泽胤, 曾黎 申请人:北京百度网讯科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1