增量数据处理方法、装置、计算机设备及可读存储介质与流程

文档序号:35281932发布日期:2023-09-01 01:43阅读:32来源:国知局
增量数据处理方法、装置、计算机设备及可读存储介质与流程

本技术涉及互联网,特别是涉及一种增量数据处理方法、装置、计算机设备及可读存储介质。


背景技术:

1、随着互联网技术的不断发展,越来越多的用户开始线上办理业务或者进行其他线上操作。在软件应用上线后,用户基于这些软件应用产生用户体验数据(如操作数据、反馈数据等),这些用户体验数据随着软件应用上线时长的增加而不断累积,形成庞大的业务数据。进一步地,互联网企业通过大数据分析技术对业务数据进行分析,从中分析出需要改善的功能或者确定出新的功能。

2、相关技术中,互联网企业方会规定数据分析周期,在时间间隔满足预设的数据分析周期后,数据处理系统从数据库中获取存储的全部业务数据进行数据批处理,输出数据分析结果,以供企业方根据数据分析结果更新业务功能。

3、在实现本技术的过程中,申请人发现相关技术至少存在以下问题:

4、随着业务上线时间的增长,数据库中存储的业务数据势必会随之呈指数倍的增长,而计算机的算力资源是固定的,批量处理的数据量增长就会引起批处理时间延长、资源分配不平滑,从而导致批处理效率低、速度慢。


技术实现思路

1、有鉴于此,本技术提供了一种增量数据处理方法、装置、计算机设备及可读存储介质,主要目的在于解决目前计算机的算力资源是固定的,批量处理的数据量增长就会引起批处理时间延长、资源分配不平滑,从而导致批处理效率低、速度慢的问题。

2、依据本技术第一方面,提供了一种增量数据处理方法,该方法包括:

3、对采集到的原始数据进行预处理,得到目标数据,将所述目标数据存储至数据库中,以及在所述数据库中获取历史目标数据,所述历史目标数据用于指示上一次存储至所述数据库中的目标数据;

4、比对所述目标数据和所述历史目标数据,确定变化的目标实体和目标关系;

5、采用所述目标实体和所述目标关系,对目标群组进行更新,得到待处理群组,所述目标群组是基于所述历史目标数据构建的群组;

6、对所述待处理群组进行数据批处理,得到数据分析结果。

7、可选地,所述对采集到的原始数据进行预处理,得到目标数据,包括:

8、从多个数据源中获取所述原始数据;

9、按照预设清洗指标,在所述原始数据中删除所述预设清洗指标指示的脏数据,得到第一指定数据;

10、对所述第一指定数据进行数据集成和数据归约,得到第二指定数据,以及将所述第二指定数据的数据格式转换为大数据格式,得到所述目标数据。

11、可选地,所述比对所述目标数据和所述历史目标数据,确定变化的目标实体和目标关系,包括:

12、遍历所述历史目标数据,确定所述历史目标数据的全部历史节点和历史边;

13、对于所述全部历史节点中的每个历史节点,识别所述目标数据,将所述历史节点与所述目标数据中记录的全部节点一一比对;

14、若所述目标数据中不存在与所述历史节点一致的指定节点,则将所述历史节点作为目标实体,将与所述历史节点关联的历史关系作为目标关系;

15、若所述目标数据中存在与所述历史节点一致的指定节点,则提取所述指定节点,确定与所述指定节点关联的多个指定关系,以及确定与所述历史节点关联的多个历史关系,将多个指定关系与所述多个历史关系进行比对,在所述多个指定关系中提取所述多个历史关系命中的指定关系,将提取后剩余的全部指定关系作为目标关系。

16、可选地,所述比对所述目标数据和所述历史目标数据,确定变化的目标实体和目标关系,还包括:

17、遍历所述目标数据,在所述目标数据中提取与所述全部历史节点一致的全部指定节点;

18、在所述目标数据中,将提取后剩余的每个节点作为目标实体,将与所述剩余的节点关联的全部关系作为目标关系。

19、可选地,所述采用所述目标实体和所述目标关系,对目标群组进行更新,得到待处理群组,包括:

20、依据所述目标实体和目标关系构建实体关系群组;

21、确定所述历史目标数据对应的目标群组,将所述目标群组与所述实体关系群组进行比对;

22、若所述目标群组与所述实体关系群组内容不一致,则采用所述实体关系群组对所述目标群组进行更新,将更新完成所述目标群组作为所述待处理群组。

23、可选地,所述对所述待处理群组进行数据批处理,得到数据分析结果之后,所述方法还包括:

24、基于数据可视化技术,对所述数据分析结果进行数据处理,生成展示信息,所述展示信息为计算机图形或图像;

25、将所述展示信息发送至展示终端进行可视化展示。

26、可选地,所述方法还包括:

27、确定采集所述原始数据的采集时间点,以及统计当前时间点;

28、获取预设时间间隔,所述预设时间间隔用于指示采集周期;

29、在所述当前时间点与所述采集时间点之间的时间间隔等于所述预设时间间隔时,重新在多个数据源中采集原始数据进行预处理,得到目标数据,根据所述目标数据,确定待处理群组进行数据批处理,获取数据分析结果。

30、依据本技术第二方面,提供了一种增量数据处理装置,该装置包括:

31、采集模块,用于对采集到的原始数据进行预处理,得到目标数据,将所述目标数据存储至数据库中,以及在所述数据库中获取历史目标数据,所述历史目标数据用于指示上一次存储至所述数据库中的目标数据;

32、确定模块,用于比对所述目标数据和所述历史目标数据,确定变化的目标实体和目标关系;

33、更新模块,用于采用所述目标实体和所述目标关系,对目标群组进行更新,得到待处理群组,所述目标群组是基于所述历史目标数据构建的群组;

34、批处理模块,用于对所述待处理群组进行数据批处理,得到数据分析结果。可选地,所述采集模块,用于从多个数据源中获取所述原始数据;按照预设清洗指标,在所述原始数据中删除所述预设清洗指标指示的脏数据,得到第一指定数据;对所述第一指定数据进行数据集成和数据归约,得到第二指定数据,以及将所述第二指定数据的数据格式转换为大数据格式,得到所述目标数据。

35、可选地,所述确定模块,用于遍历所述历史目标数据,确定所述历史目标数据的全部历史节点和历史边;对于所述全部历史节点中的每个历史节点,识别所述目标数据,将所述历史节点与所述目标数据中记录的全部节点一一比对;若所述目标数据中不存在与所述历史节点一致的指定节点,则将所述历史节点作为目标实体,将与所述历史节点关联的历史关系作为目标关系;若所述目标数据中存在与所述历史节点一致的指定节点,则提取所述指定节点,确定与所述指定节点关联的多个指定关系,以及确定与所述历史节点关联的多个历史关系,将多个指定关系与所述多个历史关系进行比对,在所述多个指定关系中提取所述多个历史关系命中的指定关系,将提取后剩余的全部指定关系作为目标关系。

36、可选地,所述确定模块,用于遍历所述目标数据,在所述目标数据中提取与所述全部历史节点一致的全部指定节点;在所述目标数据中,将提取后剩余的每个节点作为目标实体,将与所述剩余的节点关联的全部关系作为目标关系。

37、可选地,所述更新模块,用于依据所述目标实体和目标关系构建实体关系群组;确定所述历史目标数据对应的目标群组,将所述目标群组与所述实体关系群组进行比对;若所述目标群组与所述实体关系群组内容不一致,则采用所述实体关系群组对所述目标群组进行更新,将更新完成所述目标群组作为所述待处理群组。

38、可选地,所述装置还包括:

39、生成模块,用于基于数据可视化技术,对所述数据分析结果进行数据处理,生成展示信息,所述展示信息为计算机图形或图像;

40、展示模块,用于将所述展示信息发送至展示终端进行可视化展示。

41、可选地,所述装置还包括:

42、统计模块,用于确定采集所述原始数据的采集时间点,以及统计当前时间点;

43、获取模块,用于获取预设时间间隔,所述预设时间间隔用于指示采集周期;

44、所述采集模块,还用于在所述当前时间点与所述采集时间点之间的时间间隔等于所述预设时间间隔时,重新在多个数据源中采集原始数据进行预处理,得到目标数据,根据所述目标数据,确定待处理群组进行数据批处理,获取数据分析结果。

45、依据本技术第三方面,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面中任一项所述方法的步骤。

46、依据本技术第四方面,提供了一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一项所述的方法的步骤。

47、借由上述技术方案,本技术提供的一种增量数据处理方法、装置、计算机设备及可读存储介质,本技术首先对采集到的原始数据进行预处理,得到预处理后的数据,也就是目标数据,将目标数据存储至数据库中。与此同时在数据库中获取上一次存储至数据库中的历史目标数据。随后,依据目标数据和历史目标数据,确定变化的目标实体和目标关系。采用目标实体和目标关系,对目标群组进行更新,得到待处理群组,其中,目标群组是目标实体和目标关系分别匹配的预设群组。最后,对待处理群组进行数据批处理,得到数据分析结果。通过分析实际应用中变更的数据和影响点,也就是发生变化的目标实体和目标关系,在群组挖掘过程中发生变更的群组,进而对变更的群组进行数据批处理,实现增量更新应用数据的目标,大大节省了批处理消耗的时间和需要的资源,进而提高了数据批处理的处理效率。

48、上述说明仅是本技术技术方案的概述,为了能够更清楚了解本技术的技术手段,而可依照说明书的内容予以实施,并且为了让本技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本技术的具体实施方式。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1