数据关联分析方法、装置、电子设备和计算机存储介质与流程

文档序号:35366267发布日期:2023-09-08 04:17阅读:26来源:国知局
数据关联分析方法、装置、电子设备和计算机存储介质与流程

本技术涉及计算机,具体涉及一种数据关联分析方法、装置、电子设备和计算机存储介质。


背景技术:

1、随着技术的不断发展,设备性能不断提升,大数据的数据分析技术已经成熟,并且在各种场景都开始应用。在大数据的数据分析技术中,可以采用数据关联分析算法来对数据库中大量的数据进行关联分析,以确定出对象需要的并且相互之间具备关联的数据。

2、然而,采用数据关联分析算法进行关联分析的计算量很大,这也就意味着计算量大会导致设备性能瓶颈,使得关联分析的效率较低,通常只有在离线状态下才能进行数据关联分析,而在线实时的数据关联分析则无法实现。


技术实现思路

1、本技术实施例提供一种数据关联分析方法、装置、电子设备和存储介质,能够有效地提升对海量数据进行在线实时的关联分析的效率。

2、本技术实施例第一方面提供一种数据关联分析方法,所述方法包括:

3、获取待关联数据的集合,其中,所述待关联数据为带有对象信息和时间信息的区间,区间的起点表示起始时间,区间的终点表示终止时间;

4、基于分组条件,对所述待关联数据的集合中的第一待关联数据,以及第二待关联数据分别进行分组操作,得到多个数据分组,其中,所述第一待关联数据和所述第二待关联数据基于对象信息划分,所述分组条件包括同一数据分组的待关联数据之间存在重合区域,且区间的起点小于预设值;以区间的终点为升序排列的条件,对每个数据分组中的第一待关联数据、第二待关联数据进行排序;

5、针对每个数据分组,依次对排序后的第一待关联数据、第二待关联数据执行分组前向扫描操作,得到每个数据分组的关联数据对,其中,所述关联数据对为一对存在重合区域的第一待关联数据和第二待关联数据,每个扫描后的第一待关联数据、第二待关联数据对应的扫描区域不重合;

6、基于所述分组前向扫描操作遍历所有数据分组,直至得到所述待关联数据的集合的全部关联数据对。

7、本技术实施例第二方面提供一种数据关联分析装置,所述装置包括:

8、数据集合获取单元,用于获取待关联数据的集合,其中,所述待关联数据为带有对象信息和时间信息的区间,区间的起点表示起始时间,区间的终点表示终止时间;

9、数据分组单元,用于基于分组条件,对所述待关联数据的集合中的第一待关联数据,以及第二待关联数据分别进行分组操作,得到多个数据分组,其中,所述第一待关联数据和所述第二待关联数据基于对象信息划分,所述分组条件包括同一数据分组的待关联数据之间存在重合区域,且区间的起点小于预设值;

10、数据排序单元,用于以区间的终点为升序排列的条件,对每个数据分组中的第一待关联数据、第二待关联数据进行排序;

11、数据扫描单元,用于针对每个数据分组,依次对排序后的第一待关联数据、第二待关联数据执行分组前向扫描操作,得到每个数据分组的关联数据对,其中,所述关联数据对为一对存在重合区域的第一待关联数据和第二待关联数据,每个扫描后的第一待关联数据、第二待关联数据对应的扫描区域不重合;

12、数据关联单元,用于基于所述分组前向扫描操作遍历所有数据分组,直至得到所述待关联数据的集合的全部关联数据对。

13、可选地,所述数据扫描单元,包括:

14、第一扫描区域第一确定子单元,用于以所述数据分组中的首个第一待关联数据为基准,进行分组前向扫描操作,得到第一扫描区域;

15、数据关联第一子单元,用于将所述第一扫描区域覆盖的第二待关联数据,与所述数据分组中的每个第一待关联数据组成所述关联数据对;

16、第二扫描区域确定子单元,用于以所述数据分组中的第二个第一待关联数据为基准,进行分组前向扫描操作,得到第二扫描区域,其中,所述第二扫描区域的起点为所述第一扫描区域的终点;

17、数据关联第二子单元,用于将所述第二扫描区域覆盖的第二待关联数据,与所述第二个第一待关联数据,以及位于所述第二个第一待关联数据之后的每个第一待关联数据,组成所述关联数据对;

18、步骤迭代第一子单元,用于对未扫描的第一待关联数据重复执行以上步骤,直至得到所述数据分组的全部关联数据对。

19、可选地,所述数据关联第一子单元,包括:

20、第一端点匹配条件子单元,用于在所述排序后的第二待关联数据中,获取满足第一端点匹配条件的第二待关联数据作为候选扫描数据,其中,所述第一端点匹配条件为所述第二待关联数据的起点大于所述第一待关联数据的起点;

21、第一扫描区域第二确定子单元,用于以首个候选扫描数据的起点为扫描起点,至首个满足第二端点匹配条件的目标扫描数据的起点为扫描终点,执行所述分组扫描操作,得到所述第一扫描区域,其中,所述第二端点匹配条件为所述第二待关联数据的起点大于所述第一待关联数据的终点。

22、可选地,所述第一扫描区域第二确定子单元还具体用于: 将所述首个第一待关联数据的终点,与所述首个候选扫描数据的起点进行比较;

23、若所述首个候选扫描数据的起点小于所述首个第一待关联数据的终点,则所述首个第一待关联数据的终点,继续与所述首个候选扫描数据之后的下一个候选扫描数据的起点进行比较;

24、重复执行以上步骤,直至得到所述目标扫描数据,在所述目标扫描数据的起点停止所述分组前向扫描操作。

25、可选地,所述数据关联分析装置,还包括:

26、数据比较第一单元,用于对未扫描的首个第一待关联数据与所述第二待关联数据进行比较;

27、分组前向扫描第一单元,用于若存在起点小于所述首个第一待关联数据的第二待关联数据,则以所述第二待关联数据为基准,进行所述分组前向扫描操作。

28、可选地,所述第一扫描区域第一确定子单元,包括:

29、分桶获取子单元,用于获取所述首个第一待关联数据在桶索引中完全覆盖的第一分桶,以及所述首个第一待关联数据的终点所处的第二分桶;

30、第二待关联数据确定子单元,用于根据所述第二待关联数据对所述第一分桶和所述第二分桶的覆盖信息,从所述第二待关联数据中确定扫描覆盖数据,其中,所述扫描覆盖数据为参与所述分组前向扫描操作的第二待关联数据;

31、第一扫描区域第三确定子单元,用于获取首个扫描覆盖数据的起点,至末位扫描覆盖数据的起点所对应的覆盖区域,得到所述第一扫描区域。可选地,所述第二待关联数据确定子单元还具体用于:

32、建立所述第二待关联数据与所述桶索引的引用关系;

33、遍历起点位于所述第二分桶的候选第二待关联数据;将首个候选第二待关联数据,以及起点位于所述第一分桶的第二待关联数据,共同确定为所述扫描覆盖数据。

34、可选地,所述第一扫描区域第一确定子单元,包括:

35、子单元,用于获取所述分组前向扫描操作的预设展开系数,其中,所述预设展开系数为大于零的整数;

36、展开系数分组子单元,用于根据所述预设展开系数,对排序后的第二待关联数据进行分组,其中,每个分组包含的数据个数与所述预设展开系数相同;

37、分组前向扫描子单元,用于针对每个分组,若所述分组中的末位第二待关联数据满足第三端点匹配条件,则将所述分组中首个第二待关联数据的起点,至所述末位第二待关联数据的起点所覆盖的区域,确定为所述第一扫描区域的覆盖区域,并对所述分组的下一个分组进行所述分组前向扫描操作,其中,所述第三端点匹配条件为第二待关联数据的起点,小于或等于第一待关联数据的终点;

38、步骤迭代第二子单元,用于依次对其余分组重复执行以上步骤,直至得到全部所述第一扫描区域的覆盖区域,以得到所述第一扫描区域。可选地,所述数据关联分析装置,还包括:

39、第三端点条件匹配单元,用于若所述分组中的末位第二待关联数据不满足第三端点匹配条件,则依次确定所述分组中的其余第二待关联数据是否满足所述第三端点匹配条件;

40、第一扫描区域第四确定单元,用于获取其余第二待关联数据中,满足所述第三端点匹配条件的第一末位数据,则将所述分组中首个第二待关联数据的起点,至所述第一末位数据的起点所覆盖的区域,确定为所述第一扫描区域;

41、第一扫描区域第五确定单元,用于若其余第二待关联数据中不存在满足第三端点匹配条件的数据,则获取所述分组的上一个分组中的第二末位数据,将所述分组中首个第二待关联数据的起点,至所述第二末位数据的起点所覆盖的区域,确定为所述第一扫描区域。

42、可选地,所述数据分组单元,包括:

43、数据排序子单元,用于以区间的起点为升序排列的条件,对所述每个第一待关联数据,以及所述每个第二待关联数据进行排序;

44、数据分组第一子单元,用于若首个第一待关联数据的起点小于首个第二待关联数据的起点,则将每个满足所述分组条件的第一待关联数据分至同一个数据分组,其中,所述预设值为所述首个第二待关联数据的起点数值;

45、数据分组第二子单元,用于若首个第一待关联数据的起点大于首个第二待关联数据的起点,则将每个满足所述分组条件的第二待关联数据分至同一个数据分组,其中,所述预设值为所述首个第一待关联数据的起点数值;

46、步骤迭代第三子单元,用于对未分组的第一待关联数据,以及未分组的第二待关联数据重复执行以上步骤,直至所有待关联数据完成所述分组操作。

47、可选地,所述数据关联分析装置,还包括:

48、起点数组构建单元,用于获取由所述第一待关联数据的起点,以及所述第二待关联数据的起点所组成的起点数组;

49、终点数组构建单元,用于获取由所述第一待关联数据的终点,以及所述第二待关联数据的终点所组成的终点数组;

50、分组前向扫描第二单元,用于基于所述起点数组和所述终点数组,执行所述分组前向扫描操作。

51、本技术实施例第三方面提供的一种电子设备,包括:

52、处理器和存储介质;

53、所述处理器,用于实现各个指令;

54、所述存储介质用于储存多条指令,所述指令用于由处理器加载并执行以上所述的数据关联分析方法。

55、本技术实施例第四方面还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本技术实施例所提供的任一种数据关联分析方法中的步骤。

56、本技术实施例第五方面还提供一种计算机程序产品,包括计算机程序或指令,所述计算机程序或指令被处理器执行时实现本技术实施例所提供的任一种数据关联分析方法。

57、由此可知,应用本技术实施例,可以基于分组条件,分别对第一待关联数据和第二待关联数据进行分组操作,由于分组条件定义了同一分组下的待关联数据之间存在重合区域,且区间的起点小于预设值,并且本技术实施例还对分组后的待关联数据按照区间的终点为升序的条件进行排序,使得能够将来自同一待处理数据集合的连续扫描区间作为一组进行处理,可以实现同一分组的待关联数据对应的扫描区域不重合的效果,从而避免同一分组的待关联数据的公共区域进行重复比较,从而能够显著地减少数据关联分析的计算量,提高数据关联分析算法效率,进而提升对海量数据进行在线实时关联分析的效率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1