用于展示数据血缘的数据处理方法、装置及电子设备与流程

文档序号:38029720发布日期:2024-05-17 13:08阅读:19来源:国知局
用于展示数据血缘的数据处理方法、装置及电子设备与流程

本公开涉及数据处理,具体涉及一种用于展示数据血缘的数据处理方法、装置及电子设备。


背景技术:

1、随着企业业务的发展,各种业务的数据类型和数据来源越来越丰富,数据量也随之快速增长,企业在数据处理时面临着数据难溯源的问题。因此,建立数据血缘关系在数据处理中有着重要作用。

2、相关技术中利用血缘分析工具alters建立数据血缘关系,在众多数据表中定位数据上游,实现数据溯源;然而,alters不是轻量级的血缘分析工具,其安装过程复杂,需要依赖环境、其他组件或插件,对于简单的表溯源等应用场景而言,不方便使用。

3、针对相关技术中血缘分析工具alters在表溯源应用场景下不方便使用的问题,目前尚未提出有效的技术解决方案。


技术实现思路

1、本公开的主要目的在于提供一种用于展示数据血缘的数据处理方法、装置及电子设备,以解决相关技术中血缘分析工具alters在表溯源应用场景下不方便使用的问题。

2、为了实现上述目的,本公开的第一方面提供了一种用于展示数据血缘的数据处理方法,应用于表溯源场景,该方法包括:

3、利用数据仓库工具建立数据血缘表,其中,数据血缘表的字段包含原始表字段和来源表字段,数据血缘表用于表示数据从来源表字段对应的来源表传输到原始表字段对应的原始表;

4、通过任务调度器对文件进行自动分析,遍历文件包含的字符串,识别出字符串中的关键字;

5、根据关键字提取数据的来源表的表名,并将数据当前所在的表作为数据的原始表,提取原始表的表名,其中,数据的来源表为数据来源的表;以及

6、将原始表的表名和来源表的表名分别导入数据血缘表的原始表字段和来源表字段,根据原始表的表名和来源表的表名之间的对应关系展示数据血缘表中的数据血缘关系,实现轻量级数据血缘表溯源。

7、可选地,通过任务调度器对文件进行自动分析,遍历文件包含的字符串,识别出字符串中的关键字,包括:

8、运行shell脚本,利用shell脚本传递文件对应的参数,其中,文件对应的参数包括文件的路径;

9、通过任务调度器对文件进行自动分析,其中,任务调度器为azkaban、airflow、oozie或dolphinscheduler;

10、根据文件中的空格将文件进行拆分,得到多个字符串,多个字符串按照拆分前的先后顺序构成集合;

11、循环分析集合中的多个字符串,识别出多个字符串中的关键字。

12、进一步地,识别出多个字符串中的关键字,包括:

13、识别出多个字符串中前后关联的两个关键字;

14、其中,两个关键字包括前一关键字和后一关键字,前一关键字和后一关键字前后关联,用于执行选择、插入、删除或更新操作。

15、进一步地,根据关键字提取数据的来源表的表名,包括:

16、提取后一关键字的下一字符串;

17、将后一关键字的下一字符串作为数据的来源表,并提取来源表的表名。

18、可选地,将原始表的表名和来源表的表名分别导入数据血缘表的原始表字段和来源表字段,包括:

19、将原始表的表名导入数据血缘表的原始表字段;

20、将来源表的表名导入数据血缘表的来源表字段。

21、可选地,利用数据仓库工具建立数据血缘表,包括:

22、利用数据仓库工具hive建立数据血缘表。

23、可选地,在实现轻量级数据血缘表溯源之后,该方法还包括:

24、将数据血缘表存储至轻量型数据库;

25、其中,轻量型数据库为sqlite、redis或mongodb。

26、本公开的第二方面提供了一种用于展示数据血缘的数据处理装置,应用于表溯源场景,该装置包括:

27、建立单元,用于利用数据仓库工具建立数据血缘表,其中,数据血缘表的字段包含原始表字段和来源表字段,数据血缘表用于表示数据从来源表字段对应的来源表传输到原始表字段对应的原始表;

28、分析单元,用于通过任务调度器对文件进行自动分析,遍历文件包含的字符串,识别出字符串中的关键字;

29、提取单元,用于根据关键字提取数据的来源表的表名,并将数据当前所在的表作为数据的原始表,提取原始表的表名,其中,数据的来源表为数据来源的表;以及

30、展示单元,用于将原始表的表名和来源表的表名分别导入数据血缘表的原始表字段和来源表字段,根据原始表的表名和来源表的表名之间的对应关系展示数据血缘表中的数据血缘关系,实现轻量级数据血缘表溯源。

31、本公开的第三方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使计算机执行第一方面任意一项提供的用于展示数据血缘的数据处理方法。

32、本公开的第四方面提供了一种电子设备,电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器执行第一方面任意一项提供的用于展示数据血缘的数据处理方法。

33、本公开实施例提供的用于展示数据血缘的数据处理方法,应用于表溯源场景,通过任务调度器对文件进行自动分析,遍历文件包含的字符串,识别出字符串中的关键字;只需要任务调度器即可实现对文件的自动分析,不需要额外安装其他软件,简便实用,解决了相关技术中血缘分析工具alters在表溯源应用场景下不方便使用的问题;

34、根据原始表的表名和来源表的表名之间的对应关系展示数据血缘表中的数据血缘关系,实现轻量级数据血缘表溯源。



技术特征:

1.一种用于展示数据血缘的数据处理方法,其特征在于,应用于表溯源场景,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述通过任务调度器对文件进行自动分析,遍历所述文件包含的字符串,识别出所述字符串中的关键字,包括:

3.根据权利要求2所述的方法,其特征在于,所述识别出多个字符串中的关键字,包括:

4.根据权利要求3所述的方法,其特征在于,所述根据所述关键字提取数据的来源表的表名,包括:

5.根据权利要求1所述的方法,其特征在于,所述将所述原始表的表名和所述来源表的表名分别导入所述数据血缘表的原始表字段和来源表字段,包括:

6.根据权利要求1所述的方法,其特征在于,所述利用数据仓库工具建立数据血缘表,包括:

7.根据权利要求1所述的方法,其特征在于,在实现轻量级数据血缘表溯源之后,所述方法还包括:

8.一种用于展示数据血缘的数据处理装置,其特征在于,应用于表溯源场景,所述装置包括:

9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行权利要求1至7任意一项所述的用于展示数据血缘的数据处理方法。

10.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1至7任意一项所述的用于展示数据血缘的数据处理方法。


技术总结
本公开提供了一种用于展示数据血缘的数据处理方法、装置及电子设备,涉及数据处理技术领域,应用于表溯源场景,其中方法包括:利用数据仓库工具建立数据血缘表;通过任务调度器对文件进行自动分析,遍历文件包含的字符串,识别出字符串中的关键字;根据关键字提取数据的来源表的表名,并将数据当前所在的表作为数据的原始表,提取原始表的表名;将原始表的表名和来源表的表名分别导入数据血缘表的原始表字段和来源表字段,根据原始表的表名和来源表的表名之间的对应关系展示数据血缘表中的数据血缘关系,实现轻量级数据血缘表溯源。本公开通过任务调度器可以实现对文件的自动分析,不需要额外安装其他软件,简便实用。

技术研发人员:史延莹,刘海涛,杨培
受保护的技术使用者:紫金诚征信有限公司
技术研发日:
技术公布日:2024/5/16
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1