本发明涉及数据处理,尤其涉及一种数据处理方法、装置、设备及介质。
背景技术:
1、mpp(massively parallel processor,大规模并行处理)数据库是share nothing架构的分布式并行结构化数据库集群,在存储数据时,mpp会将数据划分到各个节点上进行存储,数据是否合理分布决定了数据库的执行效率。
2、目前,确定mpp数据库数据分布方式通常是由数据管理人员在数据库建表时指定以哪种方式进行数据分布,或者选择默认分布方式。此种方式需要人工干预,对数据库管理人员要求较高,存在因数据分布方式选择不当,导致数据分布不合理的情况。
技术实现思路
1、本发明提供了一种数据处理方法、装置、设备及介质,以实现在减少成本消耗的同时,提高数据分布合理性,达到提高分布式系统执行性能的技术效果。
2、根据本发明的一方面,提供了一种数据处理方法,该方法包括:
3、确定待处理数据表;其中,所述待处理数据表中包括原始数据以及对所述原始数据表进行处理后生成的目标数据;
4、基于所述待处理数据表的结构属性以及所述待处理数据表中的数据,确定所述待处理数据表的表类型;
5、基于所述表类型,确定目标分布方式;
6、基于所述目标分布方式将所述待处理数据表中的数据存储至目标分布式系统中。
7、根据本发明的另一方面,提供了一种数据处理装置,该装置包括:
8、待处理数据表确定模块,用于确定待处理数据表;其中,所述待处理数据表中包括原始数据以及对所述原始数据表进行处理后生成的目标数据;
9、表类型确定模块,用于基于所述待处理数据表的结构属性以及所述待处理数据表中的数据,确定所述待处理数据表的表类型;
10、目标分布方式确定模块,用于基于所述表类型,确定目标分布方式;
11、存储模块,用于基于所述目标分布方式将所述待处理数据表中的数据存储至目标分布式系统中。
12、根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
13、至少一个处理器;以及
14、与所述至少一个处理器通信连接的存储器;其中,
15、所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的数据处理方法。
16、根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的数据处理方法。
17、本发明实施例的技术方案,通过确定待处理数据表;基于所述待处理数据表的结构属性以及所述待处理数据表中的数据,确定所述待处理数据表的表类型;基于所述表类型,确定目标分布方式;基于所述目标分布方式将所述待处理数据表中的数据存储至目标分布式系统中,解决了现有技术中基于人工经验确定表的分布方式,导致成本高,且数据分布不合理的问题,实现了在将待处理数据表中的数据入库前,基于待处理数据表的结构属性以及表中的数据,确定待处理数据表的表类型,进而根据表类型,确定合理的目标分布方式,通过目标分布方式将待处理数据表中的数据存储至目标分布式系统中,不仅减少成本消耗,还可以避免出现因数据分布倾斜导致分布式系统性能下降等问题,提高数据分布合理性,达到提高分布式系统执行性能的技术效果。
18、应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
1.一种数据处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述待处理数据表的结构属性以及所述待处理数据表中的数据,确定所述待处理数据表的表类型,包括:
3.根据权利要求1所述的方法,其特征在于,所述基于所述表类型,确定目标分布方式,包括:
4.根据权利要求1所述的方法,其特征在于,所述基于所述表类型,确定目标分布方式,包括:
5.根据权利要求4所述的方法,其特征在于,还包括:
6.根据权利要求5所述的方法,其特征在于,所述基于所述字段匹配结果,确定目标分布方式,包括:
7.根据权利要求5所述的方法,其特征在于,所述基于所述字段匹配结果,确定目标分布方式,包括:
8.一种数据处理装置,其特征在于,包括:
9.一种电子设备,其特征在于,所述电子设备包括:
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的数据处理方法。