一种兼容数据仓库和数据湖的数据存储平台构建方法与流程

文档序号:30184699发布日期:2022-05-26 17:48阅读:135来源:国知局
一种兼容数据仓库和数据湖的数据存储平台构建方法与流程

1.本发明涉及数据处理技术领域,具体为一种兼容数据仓库和数据湖的数据存储平台构建方法。


背景技术:

2.现状:随着大数据时代的到来,越多越多的大数据产品出现,其中数据仓库和数据湖是两种比较有代表性的大数据产品为用户提供服务。
3.1.数据湖:数据湖是对各类未经处理的原始数据的存储,包括任意规模的结构化、半结构化和非结构化数据,需要支持对所有用户的便利访问。数据湖可以被用来当作数仓或其他大数据应用的数据来源。
4.2.数据仓库:数据仓库适用于作为一般分析的数据库选择,包括报表、数据大盘、交互式分析和其他高性能分析。数仓一般仅包含经过处理和精炼的数据。
5.问题:
6.因为两种产品的使用场景不同,数据湖存储未经加工的原始数据数据,包括结构化、半结构化和非结构化,数据仓库存储经过处理和精炼的数据。所以一般情况下会被当做两个彼此独立的产品为用户提供服务,数据湖和数据仓库分别管理各自内部的数据,这种现状所带来的问题主要包括两方面:
7.1.存在着大量的数据冗余,造成极大的存储成本浪费
8.企业中同时存在着大量的即需要保留原始数据,同时又要做经一处理和精炼的数据,那么这部分数据就需要被同时保存在数据湖和数据仓库中,造成存储成本浪费
9.2.无法面向用户提供全局统一的数据管理视图
10.这个问题比较容易理解,因为在两个产品之间存在着大量的相同数据,而且数据湖和数据仓库两个产品的数据目录是彼此独立的,这就造成了用户无法全局统一的对数据进行管理,无法看清全局数据全貌。


技术实现要素:

11.本发明的目的在于提供一种兼容数据仓库和数据湖的数据存储平台构建方法,以解决上述背景技术中提出的存在着大量的数据冗余,造成极大的存储成本浪费、无法面向用户提供全局统一的数据管理视图的问题。
12.为实现上述目的,本发明提供如下技术方案:一种兼容数据仓库和数据湖的数据存储平台构建方法,包括以下步骤:
13.步骤1:采用列式存储以及行列混存对数据湖和数据仓库的数据进行存储;
14.步骤2:对数据仓库和数据湖的存储层进行整合,并采用分区的方式独立区隔数据湖和数据仓储的存储区域;
15.步骤3:构建统一的元数据管理层,通过本层实现对上层应用负载屏蔽底层存储实现细节,提供对上层应用负载的统一数据服务,进一步的可以面向用户提供全局统一的数
据管理视图;
16.其中所述元数据管理层包括数据仓库、数据湖的应用负载层与数据平台层,且数据平台层包括数据层和元数据管理及数据管控层。
17.优选的,所述数据层用于存储数仓和数据湖中真实的物理数据,且数据层包括:raw,数据湖内的原始数据;modeled,数据仓库内经过加工处理后的结果数据;staging,数据仓库内进行数据加工处理时需要临时保存的暂存数据。
18.优选的,所述元数据管理及数据管控层用于管理下层数据层内的全部数据,并通过元数据提供对上层的统一数据服务,且元数据管理及数据管控层包括:数据管控,面向下层数据层内数据的管控功能,可以实现数据分区,数据监控,数据统一管理等服务;元数据管理,元数据管理基于数据管控功能,提取和保存所有存储在数据层中数据的元数据,并通过unity catalog的形式向上层的应用负载提供统一的数据服务。
19.优选的,所述步骤1中数据湖和数据仓库的数据存储与计算相互分离。
20.与现有技术相比,本发明的有益效果是:
21.本发明不仅可以保证数据湖和数据仓库的正常使用,还可以解决在两个产品之间存在的数据冗余问题并向用户提供全局统一的数据管理视图,进一步的还能够减少并简化了技术栈,减少整体的管理和运维成本减少数据冗余和存储成本,使用更加方便,提高企业生产力。
附图说明
22.图1为本发明架构框图。
具体实施方式
23.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
24.在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
25.实施例:
26.请参阅图1,整体架构分为上下两层,上层为数据仓库、数据湖的应用负载层(图1中的workload),下层为数据平台层(图1中的data platform),本发明提供一种技术方案:一种兼容数据仓库和数据湖的数据存储平台构建方法,包括以下步骤:
27.步骤1:采用列式存储以及行列混存对数据湖和数据仓库的数据进行存储;为了实现可以同时支持数据湖和数据仓库的数据存储需求,就需要在保证数据湖存储的前提下实现支持数据库数据(包括结果数据以及需要暂存的过程数据)的存储方法,也就意味着对象存储或者文件存储需要支持列式存储技术以及行列混存技术。目前业内也已经实现了基于对象存储支持列式存储以及行列混存的技术,这里就不在赘述。
28.步骤2:对数据仓库和数据湖的存储层进行整合,并采用分区的方式独立区隔数据湖和数据仓储的存储区域;
29.步骤3:构建统一的元数据管理层,通过本层实现对上层应用负载屏蔽底层存储实现细节,提供对上层应用负载的统一数据服务,进一步的可以面向用户提供全局统一的数据管理视图;
30.其中所述元数据管理层包括数据仓库、数据湖的应用负载层与数据平台层,且数据平台层包括数据层(图1中的data区域)和元数据管理及数据管控层(图1中的metadata management+data governance区域)。
31.所述数据层用于存储数仓和数据湖中真实的物理数据,且数据层包括:raw,数据湖内的原始数据;modeled,数据仓库内经过加工处理后的结果数据;staging,数据仓库内进行数据加工处理时需要临时保存的暂存数据。
32.所述元数据管理及数据管控层用于管理下层数据层内的全部数据,并通过元数据提供对上层的统一数据服务,且元数据管理及数据管控层包括:数据管控,面向下层数据层内数据的管控功能,可以实现数据分区,数据监控,数据统一管理等服务;元数据管理,元数据管理基于数据管控功能,提取和保存所有存储在数据层中数据的元数据,并通过unity catalog的形式向上层的应用负载提供统一的数据服务。
33.所述步骤1中数据湖和数据仓库的数据存储与计算相互分离,目前业内已经实现存储和计算分离的技术,因此这里不在赘述。
34.以上显示和描述了本发明的基本原理和主要特征和本发明的优点,对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明;因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
35.尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1