用于异构大数据的处理系统的制作方法

文档序号:37430791发布日期:2024-03-25 19:23阅读:11来源:国知局
用于异构大数据的处理系统的制作方法

本技术涉及物联网数据,具体涉及一种用于异构大数据的处理系统。


背景技术:

1、现有技术中针对这种跨源异构数据的分析解决方法包括三种,第一种为将不同类型存储系统的数据经过etl工具统一进行采集汇总到hdfs分布式文件系统中,并基于hdfs构建hive数仓,再利用spark、flink等计算引擎对hive中数据进行综合分析。第二种为对各个公有云或者私有云上的数据进行独立分析,然后将各自的分析结果进行汇聚,最后对汇聚的结果进行二次统计分析。第三种为基于数据湖技术进行异构数据的统一存储,然后利用计算引擎进行统一的分析。上述三种跨源异构数据处理方式需要将海量数据从不同存储系统迁移同步至同一个地方,存在大量的数据迁移同步成本,而且通常数据的迁移同步需要较长时间,严重影响数据分析的时效性。同时,数据的汇聚需要统一的数据格式,统一存储,不仅不能保留原始数据,存在数据一致性的问题,而且数据的分析效率较低,存在很高的数据预处理成本。


技术实现思路

1、本技术实施例的目的是提供一种用于异构大数据的处理系统,用以解决现有技术中混合云环境下多源异构大数据量的统计分析过程需统一采集、统一分析造成的成本高昂、数据延迟高的技术缺陷。

2、为了实现上述目的,本技术第一方面提供一种用于异构大数据的处理系统,包括:

3、多种分布式存储系统,用于存储数据以及每个数据的元数据,其中,任意两种不同类型的分布式存储系统中存储的数据相互为异构数据;

4、统一访问平台,包括与每种分布式存储系统对应的元数据存储系统,每个元数据存储系统用于获取对应的分布式存储系统中的元数据并存储;

5、元数据配置管理系统,与统一访问平台和计算引擎平台连接,用于从统一访问平台获取到多种分布式存储系统中的元数据,并对所有的元数据进行表格式组织和存储;

6、计算引擎平台,与统一访问平台和元数据配置管理系统连接,计算引擎平台包括多种计算引擎,计算引擎平台在接收到计算任务的情况下,根据计算任务提供对应的目标计算引擎,目标计算引擎对计算任务进行解析,基于元数据配置管理系统中的元数据的存储表格确定与计算任务对应的目标数据,并基于统一访问平台访问与目标数据对应的目标分布式存储系统,以从目标分布式存储系统中获取目标数据以进行计算。

7、在本技术的实施例中,处理系统还包括:多租户平台,与计算引擎平台连接,用于提供sql查询接口,基于查询接口获取sql客户端提交的sql查询语句,并将sql转化为计算任务并发送至计算引擎平台;容器编排平台,用于为多租户平台和计算引擎平台提供多个容器。

8、在本技术的实施例中,元数据配置管理系统还用于:获取元数据配置管理系统的安装包,并对安装包进行解压以得到对应的解压包;获取统一访问平台的依赖包,并将依赖包添加至解压包的依赖库目录中;基于容器编排平台,构建针对元数据配置管理系统的第一镜像文件;获取元数据配置管理系统的第一容器化资源配置文件和统一访问平台的第一配置信息,并将第一配置信息添加至第一容器化资源配置文件中,其中,第一配置信息包括多个存储实现类和每个元数据存储系统的元数据引擎地址;基于容器编排平台,依次执行第一容器化资源配置文件和第一镜像文件,以将元数据配置管理系统部署至多个容器中,并启动元数据配置管理系统,以将元数据配置管理系统与统一访问平台建立连接。

9、在本技术的实施例中,多租户平台还用于:基于容器编排平台,构建多租户平台的第二镜像文件;获取多租户平台的第二容器化资源配置文件,并在第二容器化资源配置文件中设置多租户平台运行所需的环境变量、对外服务端口、运行模式、镜像文件名称以及第二配置信息;基于容器编排平台,依次执行第二容器化资源配置文件和第二镜像文件,以将多租户平台部署至多个容器中。

10、在本技术的实施例中,针对任意一种计算引擎,计算引擎平台还用于:基于容器编排平台,构建计算引擎的第三镜像文件;基于第三镜像文件重新构建多租户平台的第二镜像文件;基于容器编排平台执行更新后的第二镜像文件,以将计算引擎部署至多个容器中。

11、在本技术的实施例中,针对任意一种计算引擎,计算引擎平台还用于:获取元数据配置管理系统的第三配置信息,并将第三配置信息添加至第三镜像文件中;基于更新后的第三镜像文件将计算引擎重新部署至多个容器中,以将计算引擎与元数据配置管理系统建立连接。

12、在本技术的实施例中,针对任意一种分布式存储系统,计算引擎平台还用于:将统一访问平台的依赖包添加至第三镜像文件中,其中,依赖包包括多种分布式存储系统的接入参数;获取分布式存储系统的第四配置信息,将统一访问平台的第一配置信息添加至第四配置信息中,并将更新后的第四配置信息添加至第三镜像文件中;基于更新后的第三镜像文件将计算引擎重新部署至多个容器中,以将计算引擎与统一访问平台建立连接。

13、在本技术的实施例中,针对任意一种分布式存储系统,统一访问平台还用于:构建与分布式存储系统对应的元数据存储系统;基于元数据存储系统在分布式存储系统中构建对应的存储桶,并设置存储桶的访问信息;基于访问信息定义存储桶与对应元数据存储系统之间的连接脚本;执行连接脚本将存储桶与元数据存储系统建立连接,以将连接脚本中携带的存储桶与元数据系统的连接信息存储至元数据存储系统,并将存储桶中存储的数据的元数据传输至元数据存储系统中进行存储。

14、在本技术的实施例中,元数据配置管理系统还用于:构建针对多种分布式存储系统的融合分析数仓,其中,融合分析数仓至少包括原始层、标准层、整合层以及应用层;在原始层中构建针对多种分布式存储系统中存储桶对应的表格式元数据存储库;确定每种分布式存储系统的建表脚本;针对任意一种分布式存储系统的建表脚本,在通过多租户平台执行建表脚本之后,元数据配置管理系统从统一访问平台获取到分布式存储系统中的元数据,并将元数据存储至表格式元数据存储库以进行表格式存储。

15、在本技术的实施例中,计算引擎平台还用于:针对任意一种计算引擎,在计算引擎基于元数据配置管理系统中的元数据的存储表格确定与计算任务对应的目标数据之后,基于统一访问平台访问与目标数据对应的目标分布式存储系统,并从目标分布式存储系统中获取目标数据;基于融合分析数仓的原始层缓存目标数据,并基于融合分析数仓的标准层、整合层以及应用层依次对目标数据进行计算。

16、上述技术方案,提供了一种用于异构大数据的处理系统,包括统一访问平台、元数据配置管理系统,以及集成有多种计算引擎的计算引擎平台。统一访问平台统一对外提供每种分布式存储系统的数据访问接口,以将每种分布式存储系统中数据的元数据进行统一采集,并与元数据配置管理系统和计算引擎平台进行集成,元数据配置管理系统将统一访问平台中的元数据进行统一表格式存储。同时,元数据配置管理系统和计算引擎平台集成,计算引擎平台中的计算引擎可以基于元数据配置管理系统访问到元数据,进而执行分析计算任务的业务逻辑,得到与计算任务对应的数据,并基于统一访问平台将数据从对应的分布式存储系统中进行采集并进行计算。上述方法只需要与统一访问平台这个唯一的一个文件系统进行交互,形式上实现了数据的统一存储,统一分析,以一种简单,高效的方式达到了多源异构数据联合分析的目的。

17、本技术实施例的其他特征和优点将在随后的具体实施方式部分予以详细说明。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1