本申请涉及数据库领域,具体而言,涉及一种分布式数据库的数据更新方法及装置。
背景技术:
随着数据量的增加,目前很多业务都使用hadoop分布式数据处理技术,hadoop分布式数据处理技术带来了性能的提升和方便扩展等诸多优点,但它也有限制,即不允许任意修改数据,只允许按分区删除数据和追加数据,例如,impala数据库作为其中的分布式数据库之一,也具有这一限制。
对于事实数据,由于事实数据随着时间的增加,不存在发生变化的情况,所以此类数据能很好的追加到分布式数据库中,适合直接存储到分布式数据库中,但对于另一部分用户可编辑的数据,比如广告信息等,不适合直接在分布式数据库中存储,更适合用关系型数据库来存储。然而业务处理过程中需要使用到所有的数据,也即需要使用到分布式数据库中存储的数据和关系型数据库中存储的数据。因此,也就存在将关系型数据库数据导入到分布式数据库的需求,但是由于分布式数据库不支持直接修改的特性,相关技术中采用先将分布式数据库中的数据整体删除,然后在分布式数据库重新导入的方式对分布式数据库进行更新处理。然而,这种方式存在一个缺点,就是在数据删除后,再重新加载数据的过程中,存在一个时间间隙,在这个时间间隙内这些数据是不存在的,这样导致的后果就是在这时间间隙使用这些数据的查询都会失败,导致整个查询无效。如果采用这种方式更新分布式数据库的更新频率越高,对数据的查询处理的失败率也越高。
针对相关技术中对分布式数据库进行更新过程中,由于存在时间间隙而造成数据查询无效的问题,目前尚未提出有效的解决方案。
技术实现要素:
本申请的主要目的在于提供一种分布式数据库的数据更新方法及装置,以解决相关技术中对分布式数据库进行更新过程中,由于存在时间间隙而造成数据查询无效的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种分布式数据库的数据更新方法。该方法包括:检测是否接收到在分布式数据库中更新数据的操作指令;当接收到操作指令时,响应于操作指令获取操作指令指向的目标数据,目标数据为关系型数据库中待更新至分布式数据库中的数据;在分布式数据库的目标数据表中执行添加目标数据的操作,并且在目标数据表中添加目标字段,目标字段中存储有根据添加目标数据的时间创建的时间版本号。
进一步地,在检测是否接收到在分布式数据库中更新数据的操作指令之后,该方法还包括:检测是否接收到在分布式数据库中执行数据查询的查询指令,如果接收到在分布式数据库中执行数据查询的查询指令,判断分布式数据库的数据更新状态;如果分布式数据库的数据更新状态为在分布式数据库中的目标数据表完成添加目标数据之前,则在分布式数据库的原始数据中进行数据查询,其中,在分布式数据库未添加目标数据之前,分布式数据库中存储的数据为原始数据;如果分布式数据库的数据更新状态为在分布式数据库中的目标数据表完成添加目标数据之后,则在时间版本号最新的目标数据表中进行数据查询。
进一步地,在分布式数据库中的目标数据表完成添加目标数据之后,该方法还包括:判断时间版本号中的时间与当前时间的时间间隔是否达到预设时间间隔;如果时间版本号中的时间与当前时间的时间间隔达到预设时间间隔,则删除分布式数据库的历史数据,历史数据为原始数据和/或分布式数据库中时间版本号为非最新时间版本号的数据。
进一步地,在检测是否接收到在分布式数据库中更新数据的操作指令之前,该方法还包括:确定业务处理过程中需要涉及的数据,得到目标数据集合;判断在分布式数据库中是否包含全部目标数据集合中的数据;如果在分布式数据库中未包含全部目标数据集合中的数据,触发在分布式数据库中更新数据的操作指令。
进一步地,该方法还包括:在检测是否接收到在分布式数据库中更新数据的操作指令之前,在分布式数据库中预先创建目标数据表;或者,在接收到在操作指令后,在分布式数据库中创建目标数据表。
为了实现上述目的,根据本申请的另一方面,提供了一种分布式数据库的数据更新装置。该装置包括:第一检测单元,用于检测是否接收到在分布式数据库中更新数据的操作指令;响应单元,用于当接收到操作指令时,响应于操作指令获取操作指令指向的目标数据,目标数据为关系型数据库中待更新至分布式数据库中的数据;添加单元,用于在分布式数据库的目标数据表中执行添加目标数据的操作,并且在目标数据表中添加目标字段,目标字段中存储有根据添加目标数据的时间创建的时间版本号。
进一步地,该装置还包括:第二检测单元,用于在检测是否接收到在分布式数据库中更新数据的操作指令之后,检测是否接收到在分布式数据库中执行数据查询的查询指令,如果接收到在分布式数据库中执行数据查询的查询指令,判断分布式数据库的数据更新状态;第一查询单元,用于在分布式数据库的数据更新状态为在分布式数据库中的目标数据表完成添加目标数据之前,则在分布式数据库的原始数据中进行数据查询,其中,在分布式数据库未添加目标数据之前,分布式数据库中存储的数据为原始数据;第二查询单元,用于在分布式数据库的数据更新状态为在分布式数据库中的目标数据表完成添加目标数据之后,则在时间版本号最新的目标数据表中进行数据查询。
进一步地,该装置还包括:第一判断单元,用于在分布式数据库中的目标数据表完成添加目标数据之后,判断时间版本号中的时间与当前时间的时间间隔是否达到预设时间间隔;删除单元,用于在时间版本号中的时间与当前时间的时间间隔达到预设时间间隔的情况下,则删除分布式数据库的历史数据,历史数据为原始数据和/或分布式数据库中时间版本号为非最新时间版本号的数据。
进一步地,该装置还包括:确定单元,用于在检测是否接收到在分布式数据库中更新数据的操作指令之前,确定业务处理过程中需要涉及的数据,得到目标数据集合;第二判断单元,用于判断在分布式数据库中是否包含全部目标数据集合中的数据;更新单元,用于当在分布式数据库中未包含全部目标数据集合中的数据的情况下,触发在分布式数据库中更新数据的操作指令。
进一步地,该装置还包括:第一创建单元,用于在检测是否接收到在分布式数据库中更新数据的操作指令之前,在分布式数据库中预先创建目标数据表;或者,第二创建单元,用于在接收到在操作指令后,在分布式数据库中创建目标数据表。
通过本申请,采用以下步骤:检测是否接收到在分布式数据库中更新数据的操作指令;当接收到操作指令时,响应于操作指令获取操作指令指向的目标数据,目标数据为关系型数据库中待更新至分布式数据库中的数据;在分布式数据库的目标数据表中执行添加目标数据的操作,并且在目标数据表中添加目标字段,目标字段中存储有根据添加目标数据的时间创建的时间版本号,解决了相关技术中对分布式数据库进行更新过程中,由于存在时间间隙而造成数据查询无效的问题。进而保证了查询对分布式数据库中数据进行查询的有效性。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的分布式数据库的数据更新方法的流程图;以及
图2是根据本申请实施例的分布式数据库的数据更新装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于描述,以下对本申请实施例涉及的部分名词或术语进行说明:
事实数据表:每个数据仓库都包含一个或者多个事实数据表。事实数据表可能包含业务销售数据,如现金登记事务所产生的数据,事实数据表通常包含大量的行。事实数据表的主要特点是包含数字数据(事实),并且这些数字信息可以汇总,以提供有关单位作为历史的数据,每个事实数据表包含一个由多个部分组成的索引,该索引包含作为外键的相关性维度表的主键,而维度表包含事实记录的特性。事实数据表不应该包含描述性的信息,也不应该包含除数字度量字段及使事实与维度表中对应项的相关索引字段之外的任何数据。数据仓库架构中的中央表,它包含联系事实与维度表的数字度量值和键。事实数据表包含描述业务(如银行事务或产品销售)内特定事件的数据。
维度表:数据仓库中的表,其条目描述事实数据表中的数据。维度表包含创建维度所基于的数据。比如,银行对存款记账,a表中存放实际数据,包括账号、所属机构号、存款金额等,b表存放机构号和机构名称的对应关系。则a是事实表,b是维表。
根据本申请的实施例,提供了一种分布式数据库的数据更新方法。
图1是根据本申请实施例的分布式数据库的数据更新方法的流程图。如图1所示,该方法包括以下步骤:
步骤s101,检测是否接收到在分布式数据库中更新数据的操作指令。
由于分布式数据库具有一个自身特性:即在分布式数据库中不允许任意修改其中的数据,只允许按分区删除数据和追加(插入)数据,例如,impala数据库作为其中的分布式数据库之一,也具有这一限制。
对于事实数据,由于数据随着时间增加,不存在发生变化的情况,因此此类数据能顺利的追加到分布式数据库中,适合直接存储到分布式数据库中,但对于另一部分用户可编辑的数据,比如广告信息等,不适合直接在分布式数据库中存储,适合存储在关系型数据库中。在业务处理过程中需要使用到所有的数据,也即,需要使用到分布式数据库中存储的数据和关系型数据库中存储的数据。也就产生了将关系型数据库数据导入到分布式数据库的需求,因此,检测是否接收到在impala数据库中进行数据更新的操作指令。
可选地,在本申请实施例提供的分布式数据库的数据更新方法中,在检测是否接收到在分布式数据库中更新数据的操作指令之前,该方法还包括:确定业务处理过程中需要涉及的数据,得到目标数据集合;判断在分布式数据库中是否包含全部目标数据集合中的数据;如果在分布式数据库中未包含全部目标数据集合中的数据,触发在分布式数据库中更新数据的操作指令。
也即,由于业务处理过程中需要涉及的部分数据未存储在分布式数据库中,因此需要将未存储在分布式数据库中业务处理过程中需要涉及的部分数据存储至分布式数据库中,为了在分布式数据库中进行数据更新,触发在分布式数据库中更新数据的操作指令,以便后续对分布数据库中的数据进行更新。
步骤s102,当接收到操作指令时,响应于操作指令获取操作指令指向的目标数据,目标数据为关系型数据库中待更新至分布式数据库中的数据。
在本申请中的目标数据为用户可编辑类的数据,例如广告信息等,该类用户可编辑的数据不适合直接在分布式数据库中存储,而适合存储在关系型数据库中。当接收到在分布式数据库中更新数据的操作指令时,响应于操作指令获取操作指令指向的关系型数据库中的目标数据。
步骤s103,在分布式数据库的目标数据表中执行添加目标数据的操作,并且在目标数据表中添加目标字段,目标字段中存储有根据添加目标数据的时间创建的时间版本号。
在获取到操作指令指向的关系型数据库中的目标数据后,在分布式数据库的目标数据表中执行添加目标数据的操作。同时在目标数据表中添加目标字段,目标字段中存储有根据添加目标数据在目标数据表中的时间创建的时间版本号。需要说明的是,在本申请中的目标字段相当于在分布式数据库的目标数据表中根据目标数据创建的时间,创建了相应的时间标签。
由于在对分布式数据库添加关系型数据库中的数据时,目标数据表中创建了根据添加目标数据的时间创建的时间版本号。也即,通过本技术方案,避免了相关技术中对分布式数据库进行更新过程中,首先删除分布式数据库中的所有数据,然后再向分布式数据库中添加数据,在这过程中产生的时间间隙。由于在分布式数据库中采用对目标数据直接追加在目标数据表中,并且根据目标数据表中数据创建的时间,对目标数据表中的数据贴上时间标签,在后续对分布式数据库中的数据进行查询时,不会存在分布式数据库中由于缺失数据的时间间隙导致查询无效和失败的问题,进而保证了查询对分布式数据库中数据进行查询的有效性。
本申请实施例提供的分布式数据库的数据更新方法,通过检测是否接收到在分布式数据库中更新数据的操作指令;当接收到操作指令时,响应于操作指令获取操作指令指向的目标数据,目标数据为关系型数据库中待更新至分布式数据库中的数据;在分布式数据库的目标数据表中执行添加目标数据的操作,并且在目标数据表中添加目标字段,目标字段中存储有根据添加目标数据的时间创建的时间版本号,也即,在分布式数据库中的数据是持续可用的,因此不会导致数据查询分析失败。通过以上技术方案,解决了相关技术中对分布式数据库进行更新过程中,由于存在时间间隙而造成数据查询无效的问题。进而保证了查询对分布式数据库中数据进行查询的有效性。
另外,也可根据本申请实施例提供的分布式数据库的数据更新方法也可以提高对分布式数据表中数据的更新频率,从而保证分布式数据库中的数据能够及时更新。
可选地,在本申请实施例提供的分布式数据库的数据更新方法中,在检测是否接收到在分布式数据库中更新数据的操作指令之后,该方法还包括:检测是否接收到在分布式数据库中执行数据查询的查询指令,如果接收到在分布式数据库中执行数据查询的查询指令,判断分布式数据库的数据更新状态;如果分布式数据库的数据更新状态为在分布式数据库中的目标数据表完成添加目标数据之前,则在分布式数据库的原始数据中进行数据查询,其中,在分布式数据库未添加目标数据之前,分布式数据库中存储的数据为原始数据;如果分布式数据库的数据更新状态为在分布式数据库中的目标数据表完成添加目标数据之后,则在时间版本号最新的目标数据表中进行数据查询。
具体地,在检测是否接收到在分布式数据库中更新数据的操作指令之后,检测是否接收到在分布式数据库中执行数据查询的查询指令,在接收到在分布式数据库中执行数据查询的查询指令的情况下,判断分布式数据库的数据更新状态。需要说明的是,分布式数据库的数据更新状态包括:在分布式数据库中的目标数据表完成添加目标数据的状态和在分布式数据库中的目标数据表未完成添加目标数据的状态。当分布式数据库的数据更新状态为在分布式数据库中的目标数据表完成添加目标数据之前,也即,在分布式数据库处于未完成添加目标数据的状态时,接收到在分布式数据库中执行数据查询的查询指令,则在分布式数据库的原始数据中进行数据查询,其中,在分布式数据库未添加目标数据之前,分布式数据库中存储的数据为原始数据。当分布式数据库的数据更新状态为在分布式数据库中的目标数据表完成添加目标数据之后,则在时间版本号最新的目标数据表中进行数据查询。例如,在分布式数据库中存储了2个时间版本号的数据(比如,2016年3月25日17点30分和2016年5月15日7点28分),当分布式数据库的数据更新状态为在分布式数据库中的目标数据表完成添加目标数据之后,则在时间版本号2016年5月15日7点28分的目标数据表中进行数据查询。
可选地,在本申请实施例提供的分布式数据库的数据更新方法中,在分布式数据库中的目标数据表完成添加目标数据之后,该方法还包括:判断时间版本号中的时间与当前时间的时间间隔是否达到预设时间间隔;如果时间版本号中的时间与当前时间的时间间隔达到预设时间间隔,则删除分布式数据库的历史数据,历史数据为原始数据和/或分布式数据库中时间版本号为非最新时间版本号的数据。
例如,预设时间间隔为24小时,在分布式数据库中的目标数据表完成添加目标数据之后,判断时间版本号中的时间与当前时间的时间间隔是否达到24小时,如果时间版本号中的时间与当前时间的时间间隔达到24小时,则删除分布式数据库的原始数据和/或分布式数据库中时间版本号为非最新时间版本号的数据。
通过以上步骤,及时将分布式数据库中“过期”的数据进行删除,减小了后续对数据查询的性能开销,提升了后续对数据查询的查询效率。
可选地,在本申请实施例提供的分布式数据库的数据更新方法中,该方法还包括:在检测是否接收到在分布式数据库中更新数据的操作指令之前,在分布式数据库中预先创建目标数据表;或者,在接收到在操作指令后,在分布式数据库中创建目标数据表。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种分布式数据库的数据更新装置,需要说明的是,本申请实施例的分布式数据库的数据更新装置可以用于执行本申请实施例所提供的用于分布式数据库的数据更新方法。以下对本申请实施例提供的分布式数据库的数据更新装置进行介绍。
图2是根据本申请实施例的分布式数据库的数据更新装置的示意图。如图2所示,该装置包括:第一检测单元10、响应单元20和添加单元30。
其中,第一检测单元10,用于检测是否接收到在分布式数据库中更新数据的操作指令。
响应单元20,用于当接收到操作指令时,响应于操作指令获取操作指令指向的目标数据,目标数据为关系型数据库中待更新至分布式数据库中的数据。
添加单元30,用于在分布式数据库的目标数据表中执行添加目标数据的操作,并且在目标数据表中添加目标字段,目标字段中存储有根据添加目标数据的时间创建的时间版本号。
本申请实施例提供的分布式数据库的数据更新装置,通过第一检测单元10检测是否接收到在分布式数据库中更新数据的操作指令;响应单元20当接收到操作指令时,响应于操作指令获取操作指令指向的目标数据,目标数据为关系型数据库中待更新至分布式数据库中的数据;添加单元30在分布式数据库的目标数据表中执行添加目标数据的操作,并且在目标数据表中添加目标字段,目标字段中存储有根据添加目标数据的时间创建的时间版本号,解决了相关技术中对分布式数据库进行更新过程中,由于存在时间间隙而造成数据查询无效的问题,进而保证了查询对分布式数据库中数据进行查询的有效性。
可选地,在本申请实施例提供的分布式数据库的数据更新装置中,该装置还包括:第二检测单元,用于在检测是否接收到在分布式数据库中更新数据的操作指令之后,检测是否接收到在分布式数据库中执行数据查询的查询指令,如果接收到在分布式数据库中执行数据查询的查询指令,判断分布式数据库的数据更新状态;第一查询单元,用于在分布式数据库的数据更新状态为在分布式数据库中的目标数据表完成添加目标数据之前,则在分布式数据库的原始数据中进行数据查询,其中,在分布式数据库未添加目标数据之前,分布式数据库中存储的数据为原始数据;第二查询单元,用于在分布式数据库的数据更新状态为在分布式数据库中的目标数据表完成添加目标数据之后,则在时间版本号最新的目标数据表中进行数据查询。
可选地,在本申请实施例提供的分布式数据库的数据更新装置中,该装置还包括:第一判断单元,用于在分布式数据库中的目标数据表完成添加目标数据之后,判断时间版本号中的时间与当前时间的时间间隔是否达到预设时间间隔;删除单元,用于在时间版本号中的时间与当前时间的时间间隔达到预设时间间隔的情况下,则删除分布式数据库的历史数据,历史数据为原始数据和/或分布式数据库中时间版本号为非最新时间版本号的数据。
可选地,在本申请实施例提供的分布式数据库的数据更新装置中,该装置还包括:确定单元,用于在检测是否接收到在分布式数据库中更新数据的操作指令之前,确定业务处理过程中需要涉及的数据,得到目标数据集合;第二判断单元,用于判断在分布式数据库中是否包含全部目标数据集合中的数据;更新单元,用于当在分布式数据库中未包含全部目标数据集合中的数据的情况下,触发在分布式数据库中更新数据的操作指令。
可选地,在本申请实施例提供的分布式数据库的数据更新装置中,该装置还包括:第一创建单元,用于在检测是否接收到在分布式数据库中更新数据的操作指令之前,在分布式数据库中预先创建目标数据表;或者,第二创建单元,用于在接收到在操作指令后,在分布式数据库中创建目标数据表。
所述分布式数据库的数据更新装置包括处理器和存储器,上述第一检测单元10、响应单元20和添加单元30等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元实现相应功能。上述预设时间间隔都可以存储在存储器中。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来更新分布式数据库的数据。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:检测是否接收到在分布式数据库中更新数据的操作指令;当接收到操作指令时,响应于操作指令获取操作指令指向的目标数据,目标数据为关系型数据库中待更新至分布式数据库中的数据;在分布式数据库的目标数据表中执行添加目标数据的操作,并且在目标数据表中添加目标字段,目标字段中存储有根据添加目标数据的时间创建的时间版本号。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。