数据血缘关系分析方法、装置、设备及存储介质与流程

文档序号:34941406发布日期:2023-07-28 14:56阅读:109来源:国知局
数据血缘关系分析方法、装置、设备及存储介质与流程

本发明涉及数据分析,尤其涉及一种数据血缘关系分析方法、装置、电子设备及计算机可读存储介质。


背景技术:

1、随着数字化时代的发展,时刻都在产生庞大的电子交易数据(例如银行系统、保险系统等产生的电子交易数据),而这些电子交易数据如何利用起来对每个企业变得至关重要,目前在大数据治理领域,提出了数据血缘关系分析,通过对电子交易数据的采集以及对电子交易数据的分析处理,将电子交易数据之间的联系梳理出来,进而形成想要的数据地图和数据资产,实现数据融合处理的可追溯性,更有利于电子交易数据变更影响分析以及业务问题排查、减少维护成本、提升开发效率等起着十分重要的作用。

2、现有的数据血缘关系分析及展示方法通常都比较固化和单一:在电子交易数据采集方面目前只通过采集数据库或者采集日志的方式,能力比较薄弱,可扩展性不强,导致大部分有用的电子交易数据丢失,从而使得数据血缘关系准确性不高;数据分析大部分都是通过解析sql语句来分析数据之间的关系,但是对于非sql形式的数据分析基本很少,甚至不能实现对复杂的sql关系数据血缘分析,不利于数据多样化采集和多样化分析,影响血缘粒度的深层次细化分析,从而使得数据血缘关系准确性不高。


技术实现思路

1、本发明提供一种数据血缘关系分析方法、装置及计算机可读存储介质,其主要目的在于解决解决进行数据分析时数据血缘关系准确性不高的问题。

2、为实现上述目的,本发明提供的一种数据血缘关系分析方法,包括:

3、获取实时链路及离线链路的原始数据;

4、识别所述原始数据的数据类型,根据所述数据类型选择预设解析模型;

5、利用所述预设解析模型解析所述原始数据,得到原始数据的数据节点、任务节点及所述数据节点与所述任务节点的各个节点之间的数据流向关系;

6、根据所述数据节点、所述任务节点及所述数据流向关系构建血缘关系图。

7、可选地,所述识别所述原始数据的数据类型,包括:

8、对所述原始数据进行分词,得到原始数据词序列;

9、利用预设词向量模型对所述原始数据词序列进行量化,得到原始数据向量序列;

10、获取预设的随机森林分类模型中的多个决策树及每个决策树中至少一层节点的决策维度索引和决策条件;

11、根据所述随机森林分类模型中第一节点的决策维度索引,对所述原始数据向量序列进行特征提取,得到所述原始数据向量序列在所述第一节点的分裂维度上的特征值;

12、根据所述第一节点的决策条件对所述特征值进行判断,根据判断结果从所述第一节点的分支节点中确定遍历的第二节点;

13、根据当前决策维度索引和决策条件,继续提取所述原始数据向量序列在所述第二节点的特征值并确定待遍历的下一节点,直至所述决策树遍历完成,得到所述原始数据的数据类型。

14、可选地,所述根据所述数据类型选择预设解析模型,包括:

15、当所述数据类型为sql类数据时,选择预设的sql解析模型;

16、当所述数据类型为json类数据时,选择预设的json解析模型;

17、当所述数据类型为通用类数据时,选择预设的文本解析模型。

18、可选地,所述利用所述预设解析模型解析所述原始数据,得到原始数据的数据节点、任务节点、所述数据节点与所述任务节点的各个节点之间的数据流向关系,包括:

19、当所述预设解析模型为预设的sql解析模型时,从所述原始数据中提取规则化sql语句;

20、利用预构建的词法分析器将所述规则化sql语句中的字符转换为符号流;

21、利用预构建的语法分析器将所述符号流转换为语法树;

22、通过预设编译器将所述语法树解析为抽象语法树;

23、从所述抽象语法树中提取所述规则化sql语句的操作类型,作为任务节点;

24、根据所述操作类型,从所述抽象语法树中对应的节点中提取操作字段信息及表名信息作为数据节点,从所述抽象语法树中提取所述操作字段信息及所述表名信息对应节点关系,作为所述数据节点与所述任务节点的各个节点之间的数据流向关系。

25、可选地,所述根据所述数据节点、所述任务节点及所述数据流向关系构建血缘关系图,包括:

26、获取已有血缘关系图,从所述已有血缘关系图中获取与所述数据节点及所述操作节点的相关节点;

27、利用图库工具,根据所述数据节点、所述任务节点、所述数据流向关系及所述相关节点,构建血缘关系图。

28、可选地,所述获取实时链路及离线链路的原始目标数据,包括:

29、将订阅或推送的实时变更数据写入消息队列,从所述消息队列获取实时数据;

30、利用预设调度任务定时获取离线数据;

31、剔除所述实时数据及所述离线数据中的异常数据,得到原始目标数据。

32、可选地,所述利用预设调度任务定时获取离线数据,包括:

33、根据用户需求选取预设的任务类型;

34、获取所述任务类型对应的代码块,并执行所述代码块抓取离线数据。

35、为了解决上述问题,本发明还提供一种数据血缘关系分析方法装置,所述装置包括:

36、数据获取模块,用于获取实时链路及离线链路的原始数据;

37、解析模型选择模块,用于识别所述原始数据的数据类型,根据所述数据类型选择预设解析模型;

38、解析模块,用于利用所述预设解析模型解析所述原始数据,得到原始数据的数据节点、任务节点及所述数据节点与所述任务节点的各个节点之间的数据流向关系;

39、血缘关系图构建模块,用于根据所述数据节点、所述任务节点及所述数据流向关系构建血缘关系图。

40、为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:

41、至少一个处理器;以及,

42、与所述至少一个处理器通信连接的存储器;其中,

43、所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的数据血缘关系分析方法。

44、为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的数据血缘关系分析方法。

45、本发明实施例通过获取实时链路及离线链路的原始数据,数据来源更广泛、更全面,使得原始数据更准确;进一步地,识别所述原始数据的数据类型,根据所述数据类型选择预设解析模型,针对不同的数据类型选择不同的解析模型,解析对应的原始数据,得到原始数据的数据节点、任务节点及所述数据节点与所述任务节点的各个节点之间的数据流向关系,适配不同的数据类型,有利于提升数据分析效率和准确性;最后,根据所述数据节点、所述任务节点及所述数据流向关系构建血缘关系图,提供给用户使用。因此本发明提出的数据血缘关系分析方法、装置、电子设备及计算机可读存储介质,可以解决进行数据分析时数据血缘关系准确性不高的问题。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1