专利名称:一种基于格雷编码的分布式数据布局方法及查询方法
技术领域:
本发明属数据库技术领域,具体涉及一种高效的分布式数据布局方法及查询方法。
背景技术:
追溯到20世纪70年代,IBM System R系统和伯克利大学Ingres系统的研制成功,证明了关系数据库系统处理商业数据的优越性。随后的80年代,由此模型派生出的IBMDB2, Sybase SQL Server>OracIe Database、INF0RMIX-SQL 等以事务处理(OLTP)为主的数据库系统的蓬勃发展,使数据库系统得到了充分商业化,并形成了巨大的市场价值。再到90年代,W. H. Inmon提出的整合历史数据,通过在线分析(0LAP)、数据挖掘等方法实现商业规划、决策支持等商业智能服务的数据仓库系统,为数据库系统的应用开辟了崭新的篇章,并推动文字管理、数据流处理等的发展。据IDC调查,经过十多年的发展,2008年全球商业智能分析的市值已达77. 84亿美元,占全球数据库管理系统市值204. 79亿美元[2]的38%,并保持着每年10.6%以上的增长,显示着巨大的发展潜力。然而这一几近30年历史、一体适用(one size fits all)的数据库系统架构在当今的需求面前显得步履蹒跚,数据仓库、文字管理、数据流处理等正寻找着新的解决方案。云计算系统——代表着新一代海量数据分析处理系统崭露头角,而Google,Amazon等公司的成功已经初步证实该类系统的可行性、有效性。追根溯源,一体适用的关系数据库系统之所以无法胜任当前数据分析的需求,在于如下三个方面
I)现有关系数据库系统的可扩展性较差。30年间,关系数据库系统在可扩展性方面做了许多研究与尝试。从面向大型机的集中式、客户端/服务器数据库系统(如Micro DBMS)到面向数据库系统的数据库机器(如IBM System/38)再到并行数据库系统,包括共享内存系统(如Volcano)、共享磁盘系统(如Oracle)、无共享系统(如Teradata, OracIe_nCUBE),其并行处理能力、可扩展性有了一定的提高。当前,所能见到的最大尺度的并行数据库系统是能够支持512个节点的DB2 Extended Enterprise Edition。然而这样的可扩展尺度很难适应当前数据分析的需要(a)待处理数据量的指数级增长。数据分析应用立足于大规模历史数据,包括来自多个部门、多个操作数据库的数据。例如,eBay的数据仓库拥有5 PB数据、MalMart拥有2. 5PB数据、美国银行拥有I. 5PB数据,并且这些数据按照摩尔定律每12-18个月增长一倍。(b)查询、分析任务的即兴性(ad hoc)和复杂性。当前商业智能数据分析(如信用卡客户流失分析、保险欺诈行为分析)通常采用在线分析处理(0LAP)、数据挖掘、企业绩效管理、预测分析、文字挖掘等高级数据查询分析技术实现决策支持功能,其查询分析任务极为复杂。可见,海量数据存储与复杂查询分析处理给现有数据库系统带来了极大的挑战。2)计算机各组件间发展失衡。表I给出了最近30年计算机各个组件间的发展状况。据表I可知,30年间磁盘的寻址速度仅由50ms降为5ms,带宽也仅提高了 150倍,远落后于其它组件的发展速度。Jim Gray在论文中称随机访问一个20TB的磁盘需要I年的时间,而顺序访问则可以提高500倍速度,磁盘(随机寻址)已经逐步退化为磁带(顺序寻址)。因此早期以优化随机访问(如采用B-Tree,cache等)为主的关系数据库系统逐步不适应当前计算机硬件的发展,海量数据查询分析处理方面显得尤为突出。Mike Strongbraker也由此声称应该修正这一系统架构了。表I.计算机各组件的发展状况
权利要求
1.一种基于格雷编码的分布式数据布局方法,其特征在于,包括下述步骤 第一步,将各属性的值域范围划分为多个等份,每个等份按照格雷编码顺序编码,由此包含有多个所述属性的元组的某一属性值可以通过该值所从属的所述等份的格雷编码进行标识,称为该属性值的索引代码,该元组其它属性值可以通过相同的方法获取索引代码,最后通过混洗该元组中的各属性值的索引代码进而形成该元组的一个索引键值; 第二步,所述元组可以根据所述格雷编码的次序实现分布式数据布局,所述分布式数据布局部署在分布式系统,在所述系统的主机端实现内容感知的比图索引,并以文件名存储,在所述系统的从机端实现数据的物理存储以及数据的统计索引。
2.根据权利要求I所述的数据布局方法,其特征在于,所述方法还包括第三步,当以内容感知的比图索引为文件名的单个文件中存储的元组达到所述文件设定的容量时,所述文件被分裂为两个文件,其中,原文件的内容感知的比图索引分裂为两个子内容感知的比图索引,并分别分配给分裂后的两个文件。
3.根据权利要求I所述的数据布局方法,其特征在于,所述分布式系统包括HDFS。
4.根据权利要求I所述的数据布局方法,其特征在于,将所述内容感知的比图索引融入所述分布式文件系统的元数据管理节点。
5.根据权利要求I所述的数据布局方法,其特征在于,所述统计索引分布式存储于数据节点中。
6.一种对利用如权利要求1-5中任一项所述的方法形成的数据库进行查询的方法,其特征在于,包括以下步骤 通过卡诺图计算满足预定的查询约束条件的索引代码; 通过与权利要求1-5中相同的混洗的方法将所述索引代码混洗成索引键值; 取回所有具有所述索引键值的元组;以及 对取回的所述元组进行过滤以去除不需要的元组。
7.如权利要求6所述的查询方法,其特征在于,所述查询包括确切匹配、部分匹配查询。
8.如权利要求6所述的查询方法,其特征在于,所述查询包括多维范围查询和多属性范围查询。
9.如权利要求6所述的查询方法,其特征在于,所述查询中的限制条件可以针对数据元组中的任意属性项或任意属性项的组合给出,所述限制条件是范围限制。
10.如权利要求1-5所述的查询方法,其特征在于,通过所述内容感知的比图索引以及统计索弓I实现所述近似聚合查询,通过访问具体元组实现聚合查询。
全文摘要
本发明属数据库技术领域,公开了一种基于格雷编码的分布式数据布局方法,其步骤为将各属性的值域范围划分为多个等份,按照格雷编码顺序编码,包含有多个属性的元组的某一属性值可以通过该值所从属的等份的格雷编码进行标识,即该属性值的索引代码,通过混洗该元组中的各属性值的索引代码进而形成该元组的一个索引键值;元组根据格雷编码的次序实现分布式数据布局,分布式数据布局部署在分布式系统,在系统的主机端实现内容感知的比图索引并以文件名存储,在系统的从机端实现数据的物理存储以及数据的统计索引。本发明还公开了一种利用上述的方法形成的数据库进行查询的方法。本发明方法得到的数据布局能够满足确切匹配查找、范围查找、多维范围查找、多属性查找、聚合分析等数据处理的需求,并且具有较高的磁盘访问效率。
文档编号G06F17/30GK102890678SQ20111020300
公开日2013年1月23日 申请日期2011年7月20日 优先权日2011年7月20日
发明者周敏奇, 周傲英 申请人:华东师范大学