数据湖长链路处理方法、装置、设备及存储介质与流程

文档序号:35697878发布日期:2023-10-11 21:15阅读:38来源:国知局
数据湖长链路处理方法、装置、设备及存储介质与流程

本发明涉及数据处理,尤其涉及一种数据湖长链路处理方法、装置、设备及存储介质。


背景技术:

1、随着金融行业的不断发展,业务种类快速增加,相应的,金融科技领域数据湖的规模正在不断膨胀,从而为金融行业的发展提供技术保障。在数据湖内,新出现的数据表通常会使用现有数据表的数据进行加工,通常称存在使用关系的数据表构成一条链路,其中被使用的数据表为链路上游,用数的数据表为链路下游,每个数据表均为链路上的一个节点。

2、作为数据湖的基本组成单元,在数据湖不断扩张的过程中,数据表和作业的数量快速增长,例如某一条链路的末端数据表不断被取用,该链路的总长度会远超数据湖内链路的平均长度,该种链路被称为数据湖内的长链路。长链路的出现会引发很多问题,如末端数据表时效性差,上游数据表变更通知难以传达,末端数据表数据源难追溯、难维护等。

3、传统的长链路治理策略主要是从,阅读长链路中的每个脚本,找出字段在链路中的引用关系,从而发现将下游节点前移的途径,这种方法分析复杂、效率低、且每条链路须单独分析,每次分析结果不具备普适性。

4、上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。


技术实现思路

1、本发明的主要目的在于提供了一种数据湖长链路处理方法、装置、设备及存储介质,旨在解决传统的长链路治理通过人为对链路逐层分析找出字段在链路中的引用关系,导致分析效率低的技术问题。

2、为实现上述目的,本发明提供了一种数据湖长链路处理方法,所述方法包括以下步骤:

3、通过数据湖的现有表依赖关系对所述数据湖中的末端作业进行遍历,获得所述末端作业中对应的长链路及其链路长度;

4、根据所述链路长度对所述长链路中的数据集合进行作业提取,获得所述长链路对应的出现频次和平均深度;

5、基于所述出现频次和所述平均深度对所述长链路进行关键点定位,获得所述长链路中的关键上游节点;

6、根据所述关键上游节点和所述数据集合对所述长链路进行可视化处理,获得所述长链路对应的链路可视图。

7、可选地,所述根据所述链路长度对所述长链路中的数据集合进行作业提取,获得所述长链路对应的出现频次和平均深度,包括:

8、根据所述末端作业和所述链路长度提取所述长链路中对应的上游作业,并基于所述上游作业和所述末端作业构建数据集合;

9、通过频次计算公式对所述数据集合进行频次提取,获得所述数据集合中各作业的出现频次;

10、通过深度计算公式对所述数据集合和所述各作业的出现频次进行深度分析,获得所述数据集合的平均深度。

11、可选地,所述频次计算公式为:

12、

13、其中,f(job_name)表示各作业的出现频次,up_job_name_list表示长链路中末端作业及其上游作业的数据集合。

14、可选地,所述通过深度计算公式对所述数据集合和所述各作业的出现频次进行深度分析,获得所述数据集合的平均深度,包括:

15、其中,深度计算公式为:

16、

17、其中,d(job_name)表示平均深度,len(job_name)为各作业在链路中的作业深度,f(job_name)表示各作业的出现频次,up_job_name_list表示长链路中末端作业及其上游作业的数据集合;

18、提取所述数据集合中各作业的作业深度;

19、通过所述深度计算公式对所述各作业的作业深度和所述各作业的出现频次进行深度分析,获得所述数据集合的平均深度。

20、可选地,所述通过数据湖的现有表依赖关系对所述数据湖中的末端作业进行遍历,获得所述末端作业中对应的长链路及其链路长度,包括:

21、通过数据湖内的现有表依赖关系进行图库构建,获得数据湖对应的图数据库;

22、对所述图数据库进行遍历,获得所述图数据库中的末端作业;

23、根据所述末端作业进行链路提取,获得所述图数据库中的长链路,并记录所述长链路的链路长度。

24、可选地,所述根据所述末端作业进行链路提取,获得所述图数据库中的长链路,并记录所述长链路的链路长度,包括:

25、根据所述末端作业对所述图数据库中的链路进行长度提取,获得各链路对应的链长度;

26、根据所述链长度对所述图数据库中的链路进行长链路判断;

27、在所述链长度达到预设阈值时,将所述链长度达到所述预设阈值所对应的链路作为所述图数据库中的长链路,并记录所述长链路的链路长度。

28、可选地,所述根据所述关键上游节点和所述数据集合对所述长链路进行可视化处理,获得所述长链路对应的链路可视图,包括:

29、通过数据湖获取所述长链路中各作业的数据信息和所述关键上游节点的关键数据信息;

30、将所述数据信息和所述关键数据信息进行标准化处理,获得json串格式数据;

31、通过所述数据集合的集合关系对所述json串格式数据进行可视化处理,获得所述数据湖中各作业对应的链路可视图。

32、此外,为实现上述目的,本发明还提出一种数据湖长链路处理装置,所述装置包括:

33、长链路获取模块,用于通过数据湖的现有表依赖关系对所述数据湖中的末端作业进行遍历,获得所述末端作业中对应的长链路及其链路长度;

34、指标获取模块,用于根据所述链路长度对所述长链路中的数据集合进行作业提取,获得所述长链路对应的出现频次和平均深度;

35、关键点定位模块,用于基于所述出现频次和所述平均深度对所述长链路进行关键点定位,获得所述长链路中的关键上游节点;

36、链路可视化模块,用于根据所述关键上游节点和所述数据集合对所述长链路进行可视化处理,获得所述长链路对应的链路可视图。

37、此外,为实现上述目的,本发明还提出一种数据湖长链路处理设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据湖长链路处理程序,所述数据湖长链路处理程序配置为实现如上文所述的数据湖长链路处理方法的步骤。

38、此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有数据湖长链路处理程序,所述数据湖长链路处理程序被处理器执行时实现如上文所述的数据湖长链路处理方法的步骤。

39、本发明通过数据湖的现有表依赖关系对所述数据湖中的末端作业进行遍历,获得所述末端作业中对应的长链路及其链路长度;然后根据所述链路长度对所述长链路中的数据集合进行作业提取,获得所述长链路对应的出现频次和平均深度;接着基于所述出现频次和所述平均深度对所述长链路进行关键点定位,获得所述长链路中的关键上游节点;最后根据所述关键上游节点和所述数据集合对所述长链路进行可视化处理,获得所述长链路对应的链路可视图。由于本发明通过计算数据湖内长链路对应的出现频次和平均深度,来定位数据湖长链路的关键上游节点,为长链路各数据集群进行可视化展示,方便了数据库开发人员分析长链路中的数据流向,从而提高了长链路的分析效率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1