数据关联方法、装置、设备及存储介质与流程

文档序号:35569620发布日期:2023-09-24 07:06阅读:35来源:国知局
数据关联方法、装置、设备及存储介质与流程

本公开涉及数据处理领域,可应用于金融科技领域,尤其涉及一种数据关联方法、装置、设备、介质和程序产品。


背景技术:

1、greenplum是一个面向数据仓库应用的关系型数据库,常用的关联方式有三种:哈希连接、嵌套循环连接和组合排序连接。目前,基于数据库的分析工具一般是提供关联步骤供用户自行选择使用,这种方式依赖用户的数据分析能力,对目前使用关联方式的选择需要一定的基础,可能导致关联方式选择不准确的问题。另一方面,针对固定场景设置固定的联系方式,无法支持用户灵活的关联分析场景。


技术实现思路

1、鉴于上述问题,本公开提供了数据关联方法、装置、设备、介质和程序产品。

2、根据本公开的第一个方面,提供了一种数据关联方法,包括:包括:为被驱动表设置索引变量以及设置关联阈值;确定驱动表中的关联变量是否包含所述索引变量且所述驱动表是否以所述索引变量为分布键;其中,所述驱动表的数据量小于所述被驱动表的数据量;响应于所述关联变量包含所述索引变量且所述驱动表以所述索引变量为分布键,对所述驱动表中与所述索引变量对应的关联变量进行去重处理;统计与去重后的关联变量对应的索引变量的记录数;响应于所述记录数不大于所述关联阈值,将去重后的所述驱动表关联所述被驱动表,形成临时表;其中,所述临时表以去重后的关联变量作为分布键;以及将所述驱动表以所述驱动表中原始的关联变量关联所述临时表,得到最终连接表。

3、根据本公开的实施例,所述为被驱动表设置索引变量包括:根据数据库的分布键为所述被驱动表设置btree索引变量。

4、根据本公开的实施例,所述设置关联阈值包括:对于数据量不同和/或索引分布不同的被驱动表,设置不同大小的关联阈值。

5、根据本公开的实施例,所述设置关联阈值还包括:获取所述驱动表关联所述被驱动表的第一关联时间,其中,所述第一关联时间为所述驱动表直接关联所述被驱动表所需的时间;获取所述驱动表关联所述被驱动表的第二关联时间,其中,所述第二关联时间为所述驱动表采用上述所述的数据关联方法关联所述被驱动表所需的时间;获取所述被驱动表所允许的最大关联阈值;以及根据所述第一关联时间、所述第二关联时间和所述最大关联阈值调整所述被驱动表当前的关联阈值。

6、根据本公开的实施例,所述根据所述第一关联时间、所述第二关联时间和所述最大关联阈值调整所述被驱动表当前的关联阈值包括:根据所述第一关联时间和所述第二关联时间计算所述驱动表关联所述被驱动表的时间优化率;以及响应于所述时间优化率大于预设优化率且所述被驱动表当前的关联阈值小于最大关联阈值,增大所述被驱动表当前的关联阈值。

7、根据本公开的实施例,所述根据所述第一关联时间和所述第二关联时间计算所述驱动表关联所述被驱动表的时间优化率包括:计算所述所述第一关联时间与所述第二关联时间之间的比值,作为所述时间优化率;或者,计算所述第一关联时间与所述第二关联时间之间的差值的绝对值,作为所述时间优化率;或者,计算所述第一关联时间与所述第二关联时间之间的差值的绝对值与所述第二关联时间之间的比值,作为所述时间优化率。

8、根据本公开的实施例,采用嵌套循环连接关联方式将去重后的所述驱动表关联所述被驱动表;和/或,采用嵌套循环连接关联方式将所述驱动表以所述驱动表中原始的关联变量关联所述临时表。

9、根据本公开的实施例,所述方法还包括:响应于所述关联变量包含所述索引变量和/或所述驱动表的分布键不为所述索引变量,按量表方式将所述驱动表直接关联所述被驱动表;或,响应于所述记录数大于所述关联阈值,按量表方式将所述驱动表直接关联所述被驱动表。

10、本公开的第二方面提供了一种数据关联装置装置,包括:设置模块,用于为被驱动表设置索引变量以及设置关联阈值;确定模块,用于确定驱动表中的关联变量是否包含所述索引变量且所述驱动表是否以所述索引变量为分布键;其中,所述驱动表的数据量小于所述被驱动表的数据量;去重模块,用于响应于所述关联变量包含所述索引变量且所述驱动表以所述索引变量为分布键,对所述驱动表中与所述索引变量对应的关联变量进行去重处理;统计模块,用于统计与去重后的关联变量对应的索引变量的记录数;第一关联模块,用于响应于所述记录数不大于所述关联阈值,将去重后的所述驱动表关联所述被驱动表,形成临时表;其中,所述临时表以去重后的关联变量作为分布键;以及第二关联模块,用于将所述驱动表以所述驱动表中原始的关联变量关联所述临时表,得到最终连接表。

11、本公开的第三方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得一个或多个处理器执行上述方法。

12、本公开的第四方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述方法。

13、本公开的第五方面还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述方法。

14、根据本公开提供的数据关联方法、装置、设备、介质和程序产品,通过为被驱动表设置索引变量以及设置关联阈值,基于索引变量判对驱动表中与索引变量对应的关联变量进行去重处理,再基于去重后的关联变量对应的索引变量的记录数与关联阈值的大小进行数据关联。由于是基于去重后的关联变量对应的索引变量的记录数与关联阈值的大小进行数据关联,不需要人为选择具体的关联方式且关联方式并不固定,因此,至少部分的解决了用户选择关联方法时需要一定的专业积累,需要人工观察并计算判断,并且无法支持用户灵活的关联分析场景问题,实现了数据的准确且灵活关联的技术效果。



技术特征:

1.一种数据关联方法,包括:

2.根据权利要求1所述的数据关联方法,其中,所述为被驱动表设置索引变量包括:

3.根据权利要求1所述的数据关联方法,其中,所述设置关联阈值包括:

4.根据权利要求1或3所述的数据关联方法,其中,所述设置关联阈值还包括:

5.根据权利要求4所述的数据关联方法,其中,所述根据所述第一关联时间、所述第二关联时间和所述最大关联阈值调整所述被驱动表当前的关联阈值包括:

6.根据权利要求5所述的数据关联方法,其中,所述根据所述第一关联时间和所述第二关联时间计算所述驱动表关联所述被驱动表的时间优化率包括:

7.根据权利要求1所述的数据关联方法,其中,采用嵌套循环连接关联方式将去重后的所述驱动表关联所述被驱动表;和/或,采用嵌套循环连接关联方式将所述驱动表以所述驱动表中原始的关联变量关联所述临时表。

8.根据权利要求1所述的数据关联方法,所述方法还包括:

9.一种数据关联装置,包括:

10.一种电子设备,包括:

11.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~8中任一项所述的方法。

12.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现根据权利要求1~8中任一项所述的方法。


技术总结
本公开提供了一种数据关联方法、装置、设备及存储介质,可以应用于数据处理技术领域。该方法包括:为被驱动表设置索引变量以及设置关联阈值;确定驱动表中的关联变量是否包含索引变量且驱动表是否以索引变量为分布键;其中,驱动表的数据量小于被驱动表的数据量;响应于关联变量包含索引变量且驱动表以索引变量为分布键,对驱动表中与索引变量对应的关联变量进行去重处理;统计与去重后的关联变量对应的索引变量的记录数;响应于记录数不大于关联阈值,将去重后的驱动表关联被驱动表,形成临时表;其中,临时表以去重后的关联变量作为分布键;将驱动表以驱动表中原始的关联变量关联临时表,得到最终连接表。

技术研发人员:苏宁,雍菲,田蓝,王卫东,高永安,王博,曾晖,杨莹
受保护的技术使用者:中国建设银行股份有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1