一种数据仓库构建方法、系统、电子设备及存储介质与流程

文档序号:39247205发布日期:2024-09-03 17:28阅读:12来源:国知局
一种数据仓库构建方法、系统、电子设备及存储介质与流程

本技术涉及数据仓库,尤其是涉及一种数据仓库构建方法、系统、电子设备及存储介质。


背景技术:

1、数据仓库是一个集成、主题化、非易失性的数据存储区域,用于支持管理决策和企业分析。它是一个用于存储大量历史数据的集合,经过清洗、转换和整合,以满足企业内部和外部用户的分析需求。

2、传统的数据仓库,在企业提出新的业务需求时,一般采取重新从不同系统中获取数据,并对所有的数据进行etl过程并按照统一的格式和标准存储在数据仓库中,然后再根据业务需求和数据特性进行构建数据模型,之后通过数据治理和安全管理机制,对数据仓库进行统一的管控,进而再根据需求进行可视化展示。

3、然而当企业多个子公司共用一个数据仓库时,提出新的业务需求量,需要重新拉表构建数据模型,其中,可能存在大量的业务需求相同的模型,重复构建的过程导致数据仓库的构建率低下,无法满足大规模数据处理的需求,对此有待进一步改进。


技术实现思路

1、本技术目的是提供一种数据仓库构建方法、系统、电子设备及存储介质,具有能够及时应对新业务需求构建数据仓库,提高构建效率的特点。

2、第一方面,本技术提供一种数据仓库构建方法,采用如下的技术方案:

3、一种数据仓库构建方法,包括:

4、获取新业务需求信息,所述新业务需求信息中包括子公司代码,根据子公司代码检索获得相关联的内部业务数据仓;

5、对新业务需求信息与内部业务数据仓内的各个业务数据集进行关联性匹配,判断是否存在关联度超过预设阈值的业务数据集;

6、若存在关联度超过预设阈值的业务数据集,则根据预设筛选规则筛选出基础业务数据集,并利用基础业务数据集中包含的数据模型构建目标业务数据集;

7、若不存在关联度超过预设阈值的业务数据集,则将新业务需求信息与其他子公司代码相关的外部业务数据仓内的各个业务数据集进行关联性匹配,判断是否存在关联度超过预设阈值的业务数据集;

8、若存在关联度超过预设阈值的业务数据集,则根据预设模仿规则选取临时数据模型,并利用临时数据模型去构建目标业务数据集。

9、通过采用上述技术方案,先对新业务需求与内部业务数据仓进行匹配,再与外部业务数据仓进行匹配,该方式能够有效利用现有的业务数据集的构建逻辑去构建目标业务数据集,进而提高构建数据仓库的效率,及时相应新业务需求。其中,先后进行内部外部业务数据仓库的匹配,分布式匹配有利于提高检索匹配效率,由于内部业务数据仓涉及的数据与新业务需求涉及的数据一致性较高,因此,于内部业务数据仓中进行检索,寻找出匹配度高的业务数据集,数据的一致性更加有利于降低etl过程的难度,然后在进行数据模型的选取,该过程也实现自动化筛除,直接利用现有的业务数据集中的数据模型,因此兼容性比较高,极大提高了构建数据仓库的效率,不需要开发人员重新拉表选取模型再去构建业务数据集,有利于满足大规模数据处理需求。

10、可选的,所述若存在关联度超过预设阈值的业务数据集,则根据预设筛选规则筛选出基础业务数据集,并利用基础业务数据集中包含的数据模型构建目标业务数据集的步骤中,包括:

11、若存在关联度超过预设阈值的业务数据集,对新业务需求信息涉及的数据进行数据集成和转换的复杂度进行测试,获得测试分值;

12、将测试分值增加至关联度处,筛选出关联度最高的业务数据集,获得基础业务数据集;

13、利用基础业务数据集中包含的数据模型构建目标业务数据集。

14、通过采用上述技术方案,超过预设阈值的业务数据集存在有多个,依次对新业务需求信息涉及的数据根据这些业务数据集etl方式进行数据集成和转换,再对新业务需求信息的复杂度进行测试,再筛选出关联度最高的业务数据集作为基础业务数据集,此时,筛选出的基础业务数据集是复杂度最低,有利于保证后续目标业务数据集构建后运行的流畅性。

15、可选的,所述将测试分值增加至关联度处,筛选出关联度最高的业务数据集的步骤之后,还包括:

16、对关联度最高的业务数据集进行复制,获得临时业务数据集;

17、将临时业务数据集对照新业务需求信息涉及的数据,对临时业务数据集无关数据进行删减,获得基础业务数据集。

18、通过采用上述技术方案,将关联度最高的业务数据集复制为临时业务数据集,并针对新业务需求信息进行数据对照和筛选,可以实现对数据的精准化处理,进而确保基础业务数据集中包含有新需求相关的数据,从而更好地满足业务分析和应用的需要,也能够降低数据处理的成本和复杂度,节省处理时间和资源,并提高数据处理的效率,减少数据噪音和冗余,提高数据分析和应用的可信度和有效性。

19、可选的,所述若存在关联度超过预设阈值的业务数据集,则根据预设模仿规则选取临时数据模型,并利用临时数据模型去构建目标业务数据集的步骤,包括:

20、若存在关联度超过预设阈值的业务数据集,则选出关联度超过预设阈值的业务数据集,形成外部业务数据集群;

21、对外部业务数据集群的数据模型类型进行统计,根据预设排列规则对数据模型类型进行优先级排列;

22、根据新业务需求信息从相应系统处采集样本数据,对样本数据进行预处理,再依次按照优先级排列先后选择模型类型去构建临时数据模型,并对临时数据模型进行性能测试,当出现临时数据模型达标,则选择当前达标的临时数据模型去构建目标业务数据集。

23、通过采用上述技术方案,对外部业务数据集群内涉及的数据模型类型设置优先级,并根据优先级进行排列,可以提高模型选择的准确性,再根据排列顺序依次去构建临时数据模型,然后再根据对临时模型进行性能测试,一旦出现临时数据模型达标,则选择当前达标的临时数据模型去构建目标业务数据集,该方式能够加速选择到合适新业务需求的数据模型集。

24、可选的,所述对外部业务数据集群的数据模型类型进行统计,根据预设排列规则对数据模型类型进行优先级排列的步骤,包括:

25、对外部业务数据集群内相同类型的数据模型进行数量统计,并根据数量按照多到少的顺序对数据模型类型进行优先级排列。

26、通过采用上述技术方案,数据模型类型按照数量多到少的顺序进行优先级排列,有助于提高数据模型的利用率,优先处理数量较多的数据模型类型,使用率较高,可以更充分地利用这些模型所提供的数据信息,满足业务需求,而对数量较少的数据模型类型,则可以适当降低其处理优先级,以免影响整体业务数据的处理效率。

27、可选的,所述若不存在关联度超过预设阈值的业务数据集,则将新业务需求信息与其他子公司代码相关的外部业务数据仓内的各个业务数据集进行关联性匹配,判断是否存在关联度超过预设阈值的业务数据集的步骤,还包括:

28、若存在关联度超过预设阈值的业务数据集,则将新业务需求信息内子公司代码所属公司类型标签与其他子公司代码所属公司类型标签进行比对,筛选出所属公司类型标签一致的其他子公司代码,再将新业务需求信息与所属公司类型标签一致的其他子公司代码相关的外部业务数据仓内的各个业务数据集进行关联性匹配,判断是否存在关联度超过预设阈值的业务数据集。

29、通过采用上述技术方案,能够提高构建目标业务数据集的精准性,也能够有效提高构建目标业务数据集的效率。

30、第二方面,本技术提供一种数据仓库构建系统,采用如下的技术方案:

31、一种数据仓库构建系统,包括:

32、信息获取模块:用于获取新业务需求信息,所述新业务需求信息中包括子公司代码,根据子公司代码检索获得相关联的内部业务数据仓;

33、内部匹配模块:用于对新业务需求信息与内部业务数据仓内的各个业务数据集进行关联性匹配,判断是否存在关联度超过预设阈值的业务数据集;

34、内部构建模块:若存在关联度超过预设阈值的业务数据集,则根据预设筛选规则筛选出基础业务数据集,并利用基础业务数据集中包含的数据模型构建目标业务数据集;

35、外部匹配模块:若不存在关联度超过预设阈值的业务数据集,则将新业务需求信息与其他子公司代码相关的外部业务数据仓内的各个业务数据集进行关联性匹配,判断是否存在关联度超过预设阈值的业务数据集;

36、外部构建模块:若存在关联度超过预设阈值的业务数据集,则根据预设模仿规则选取临时数据模型,并利用临时数据模型去构建目标业务数据集。

37、第三方面,本技术提供一种电子设备,采用如下技术方案:

38、一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的一种数据仓库构建方法的步骤。

39、第四方面,本技术提供一种计算机存储介质,采用如下技术方案:

40、一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述一种数据仓库构建方法的步骤。

41、综上所述,本技术包括的有益技术效果:

42、先对新业务需求与内部业务数据仓进行匹配,再与外部业务数据仓进行匹配,该方式能够有效利用现有的业务数据集的构建逻辑去构建目标业务数据集,进而提高构建数据仓库的效率,及时相应新业务需求。其中,先后进行内部外部业务数据仓库的匹配,分布式匹配有利于提高检索匹配效率,由于内部业务数据仓涉及的数据与新业务需求涉及的数据一致性较高,因此,于内部业务数据仓中进行检索,寻找出匹配度高的业务数据集,数据的一致性更加有利于降低etl过程的难度,然后在进行数据模型的选取,该过程也实现自动化筛除,直接利用现有的业务数据集中的数据模型,因此兼容性比较高,极大提高了构建数据仓库的效率,不需要开发人员重新拉表选取模型再去构建业务数据集,有利于满足大规模数据处理需求。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1