本技术涉及数据处理,特别是涉及一种宽表数据同步方法、装置和计算机设备。
背景技术:
1、随着大数据技术的发展,出现了数据仓库技术。数据仓库能够实时处理和分析大规模数据,能够满足快速变化的业务需求。
2、宽表作为一种数据存储结构,在数据仓库中得到了广泛应用。宽表适用于需要快速查询和分析大量固定属性的场景,尤其是在需要同时访问多个属性时。然而,现阶段的从原始表同步到宽表的过程中,需要手动创建同步操作,并且在需求更新的情况下,需要更新和测试甚至重新创建,导致宽表数据同步效率低下,无法满足数据处理的实时需求。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种宽表数据同步方法、装置和计算机设备,能够实现自动化同步宽表数据。
2、第一方面,本技术提供了一种宽表数据同步方法,所述方法包括:
3、获取宽表数据同步任务的任务信息和配置信息集;其中,所述配置信息集用于表示宽表的配置信息和所述宽表关联的原始表的配置信息;
4、根据所述任务信息对所述配置信息集进行解析,生成所述宽表数据同步任务的同步操作指令,所述同步操作指令用于规范化描述所述宽表对所述原始表中的至少部分源数据进行同步的操作;
5、执行所述同步操作指令。
6、在其中一个实施例中,所述根据所述任务信息对所述配置信息集进行解析,生成所述宽表数据同步任务的同步操作指令,包括:
7、根据所述任务信息从所述配置信息集中,获取所述宽表数据同步任务的每个流分组对应的流分组信息;
8、根据各所述流分组信息,按照所述流分组对所述配置信息集进行解析,生成各所述流分组的分组同步操作指令;
9、根据各所述流分组的流分组信息和分组同步操作指令,生成所述宽表数据同步任务的同步操作指令。
10、在其中一个实施例中,所述根据各所述流分组信息,按照所述流分组对所述配置信息集进行解析,生成各所述流分组的分组同步操作指令,包括:
11、根据各所述流分组信息,按照所述流分组对所述配置信息集进行宽表插查字段解析,生成各所述流分组的插查指令;
12、根据各所述流分组信息,按照所述流分组对所述配置信息集进行关联解析,生成各所述流分组的关联指令;
13、根据各所述流分组信息,按照所述流分组对所述配置信息集进行过滤条件解析,生成各所述流分组的过滤指令;
14、根据各所述流分组的插查指令、关联指令和过滤指令,对应生成各所述流分组的分组同步操作指令。
15、在其中一个实施例中,所述根据各所述流分组信息,按照所述流分组对所述配置信息集进行关联解析,生成各所述流分组的关联指令,包括:
16、根据各所述流分组信息,从所述配置信息集中分别获取各所述流分组的任务宽表关联信息和元数据关联信息;
17、根据各所述流分组的任务宽表关联信息和元数据关联信息,按照所述流分组分别进行表关联解析,生成各所述流分组的表关联指令;
18、根据各所述流分组的表关联指令对应生成各所述流分组的关联指令。
19、在其中一个实施例中,所述根据各所述流分组的表关联指令对应生成各所述流分组的关联指令,包括:
20、根据各所述流分组信息,从所述配置信息集中对应获取各所述流分组的元数据提示信息;
21、根据各所述流分组的元数据提示信息,按照所述流分组分别进行提示关联解析,生成各所述流分组的提示关联指令;
22、根据各所述流分组的表关联指令和提示关联指令,对应生成各所述流分组的关联指令。
23、在其中一个实施例中,所述根据各所述流分组信息,按照所述流分组对所述配置信息集进行过滤条件解析,生成各所述流分组的过滤指令,包括:
24、根据各所述流分组信息,从所述配置信息集中对应获取各所述流分组的过滤条件信息;
25、将各所述流分组的过滤条件信息对应转换为树型结构;
26、针对各所述流分组,根据所述树型结构进行过滤条件解析并生成对应的所述过滤指令。
27、在其中一个实施例中,所述树型结构包括至少一个层级,所述根据所述树型结构进行过滤条件解析并生成对应的所述过滤指令,包括:
28、针对所述树型结构的目标层级,获取所述目标层级中各节点的节点类型和操作模式;
29、根据所述目标层级中各节点的节点类型和操作模式,生成所述目标层级的过滤子指令,并将所述目标层级的下一层级确定为新的目标层级,并返回执行所述获取所述目标层级中各节点的节点类型和操作模式的步骤,直至遍历完所述树型结构中的所有层级;
30、根据所述树型结构所有层级的过滤子指令,生成所述树型结构对应的过滤指令。
31、在其中一个实施例中,所述根据各所述流分组信息,按照所述流分组对所述配置信息集进行宽表插查字段解析,生成各所述流分组的插查指令,包括:
32、根据各所述流分组信息,从所述配置信息集中对应获取各所述流分组的元数据信息、元数据关联信息、任务宽表关联信息和任务宽表字段增减信息;
33、根据各所述流分组的元数据信息、元数据关联信息、任务宽表关联信息和任务宽表字段增减信息,按照所述流分组分别进行宽表字段解析,生成各所述流分组的插查指令。
34、第二方面,本技术提供了一种宽表数据同步装置,所述装置包括:
35、获取模块,用于获取宽表数据同步任务的任务信息和配置信息集;其中,所述配置信息集用于表示宽表的配置信息和所述宽表关联的原始表的配置信息;
36、生成模块,用于根据所述任务信息对所述配置信息集进行解析,生成所述宽表数据同步任务的同步操作指令,所述同步操作指令用于规范化描述所述宽表对所述原始表中的至少部分源数据进行同步的操作;
37、同步模块,用于执行所述同步操作指令。
38、第三方面,本技术提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机指令,所述处理器执行所述计算机指令时实现上述的方法的步骤。
39、上述宽表数据同步方法、装置和计算机设备,通过获取宽表数据同步任务的任务信息和配置信息集,并根据任务信息对配置信息集进行解析,生成宽表数据同步任务的同步操作指令,以及执行同步操作指令,从而将原始表中的源数据同步至宽表,实现对宽表数据的自动化同步,由于同步操作指令规范化地描述了宽表对原始表中的至少部分源数据进行同步的操作,因此,可以基于已有的数据同步工具直接执行同步操作指令,实现将原始表中的源数据同步至宽表,从而实现宽表数据的自动化同步,省去手动创建和更新以及测试的时间,减少了测试流程,提高了宽表数据同步效率,并且减少了操作错误和风险,保证了数据的一致性,提高了数据同步准确性。此外,该方法适用于多个存储体的宽表,灵活性和适用性高,并且,自动化生成的同步操作指令符合规范化的数据查询规则,避免了出现不同需求的宽表数据同步任务对宽表和/或原始表的使用和学习成本,进一步提高了宽表数据同步效率。