背景技术:
1、示例性实施例涉及数字计算机系统领域,并且更具体地,涉及用于自动化提取、变换和加载(etl)工作流生成的方法。
2、在计算中,etl可以是将数据从一个或多个源系统复制到目的地系统中的一般过程,该目的地系统可与源不同地表示数据或在与源不同的上下文中表示数据。etl系统可从源系统提取数据,实施数据质量和一致性标准,使数据一致,使得单独的源系统可一起使用,并最终以呈现就绪格式传递数据,使得应用开发者可构建应用,且最终用户可作出决定。然而,这样的etl系统仅对于专家是可访问的,这强烈地限制了其潜在影响。
技术实现思路
1、示例性实施例公开了一种系统和方法、计算机程序产品和计算机系统。示例性实施例可以包括:接收数据分析请求;使用知识图谱用于基于所接收的数据分析请求确定源数据集,其中所述知识图谱表示基于提取、变换和加载(etl)的本体,其中所述知识图谱包括表示实体的节点和表示实体之间的关系的边,并且其中所述实体是基于etl的本体的概念的实例;构建etl工作流用于根据与知识图谱中的源数据集相关联的数据沿袭(datalineage)来处理源数据集;以及执行该etl工作流。
1.一种计算机实现的方法,所述方法包括:
2.根据权利要求1所述的方法,其中基于所接收的数据分析请求确定所述源数据集还包括:
3.根据权利要求1所述的方法,还包括:
4.根据权利要求3所述的方法,还包括:
5.根据权利要求1所述的方法,其中所述知识图谱还指示与用户和数据集相关联的数据访问规则,其中所述etl工作流的所述构建包括使用所述知识图谱数据来识别应用于作为所述数据分析请求的请求者的用户或所述源数据集的数据访问规则,并且其中用于根据所识别的数据访问规则来处理所述源数据集的条件被包括在所述etl工作流中。
6.根据权利要求5所述的方法,其中所述数据访问规则包括治理策略和用户访问权限。
7.根据权利要求5所述的方法,其中所识别的数据访问规则指示来自组中的项目中的至少一个,所述组包括所述源数据集的哪个部分可以从所述用户的位置访问、所述源数据集的哪个部分可以被复制到目标系统的位置、哪个目标系统被指示在所述数据沿袭中、所述用户是否可以向所述目标系统写入数据以及所述用户是否可以提交工作负载。
8.根据权利要求1所述的方法,其中所述etl工作流的所述构建包括:
9.根据权利要求1所述的方法,还包括:
10.根据权利要求9所述的方法,还包括:
11.根据权利要求10所述的方法,其中如果所述源数据集未被刷新,则正在执行的etl工作流被重新执行。
12.根据权利要求1所述的方法,其中所述知识图谱是使用多个etl系统的etl作业的日志数据生成的,并且其中所述etl工作流的所述执行是在是所述多个etl系统的一部分的etl系统上执行的。
13.根据权利要求1所述的方法,其中所述知识图谱是使用多个etl系统的etl作业的日志数据生成的,并且其中所述etl工作流的所述执行是在不是所述多个etl系统的一部分的etl系统上执行的。
14.一种计算机程序产品,所述计算机程序产品包括:
15.根据权利要求14所述的计算机程序产品,其中基于所接收的数据分析请求确定所述源数据集还包括:
16.根据权利要求14所述的计算机程序产品,还包括:
17.一种计算机系统,所述计算机系统包括:
18.根据权利要求17所述的计算机系统,其中基于所接收的数据分析请求确定所述源数据集还包括:
19.根据权利要求17所述的计算机系统,还包括:
20.根据权利要求19所述的计算机系统,还包括: