基于Hadoop的分布式数据仓库的构建方法

文档序号：30087469发布日期：2022-05-18 06:22阅读：来源：国知局

技术特征：
1.一种基于hadoop的分布式数据仓库的构建方法，用于基于服务器集群中的目标数据构建数据仓库，所述服务器集群包括多个相互通信连接的服务器，多个所述服务器中均设置有hadoop文件系统，其特征在于，包括：步骤s1，在存储有所述目标数据的所述服务器上搭建flume，用于对所述目标数据进行采集；步骤s2，在多台所述服务器上搭建分布式kafka，用于接收所述flume采集的所述目标数据；步骤s3，在其中一台所述服务器上搭建hive，用于对所述目标数据进行提取、转化以及加载，从而形成所述数据仓库；步骤s4，在其中若干台所述服务器上搭建zookeeper集群，用于为所述数据仓库提供实时的协调服务；步骤s5，采用预定的分层模型对所述数据仓库进行分层处理。2.根据权利要求1所述的基于hadoop的分布式数据仓库的构建方法，其特征在于：其中，所述分层模型包括：原始数据层，用于保留所述目标数据的初始状态；明细数据层，用于对所述目标数据进行标准化；数据服务层，用于对标准化后的所述目标数据进行聚合；以及数据产品层，用于对所述目标数据进行进一步聚合，从而为数据产品和数据分析提供高度聚合的数据。3.根据权利要求2所述的基于hadoop的分布式数据仓库的构建方法，其特征在于：其中，所述明细数据层至少对所述目标数据进行以下操作：利用udf函数或udtf函数将所述原始数据层中的所述目标数据进行标准化，生成多种数据表；将所述数据表中用于描述相同对象但取值不同的字段按照预定的命名规则进行统一；根据预定的保留规则删除所述数据表中的重复数据。4.根据权利要求2所述的基于hadoop的分布式数据仓库的构建方法，其特征在于：其中，所述数据服务层面向主题进行所述聚合，采用星型或雪花型的数据结构。5.根据权利要求1所述的基于hadoop的分布式数据仓库的构建方法，其特征在于：其中，步骤s5中，采用mapreduce作为计算引擎进行所述分层处理。6.根据权利要求1所述的基于hadoop的分布式数据仓库的构建方法，其特征在于：其中，步骤s2还包括：在所述分布式kafka的消息队列中创建两个主题topic，其中一个用于存放启动日志，另一个用于存放事件日志。7.根据权利要求1所述的基于hadoop的分布式数据仓库的构建方法，其特征在于：其中，所述zookeeper集群包含有奇数个节点。8.根据权利要求1所述的基于hadoop的分布式数据仓库的构建方法，其特征在于，还包括：步骤s6，将所述数据仓库中想要的数据导入到mysql中，从而便于用户进行查询或便于将所述数据提供给前端。

技术总结
本发明提供一种基于Hadoop的分布式数据仓库的构建方法，其中，Flume用于对目标数据进行采集，Hive用于对采集得到的数据进行计算，从而形成离线的、分布式的数据仓库，Zookeeper用于对数据仓库的各类组件进行协调服务，并且数据仓库基于预定的分层模型被分为了多层，因此，通过本发明的构建方法，能够基于Hadoop文件系统搭建离线的、分布式的数据仓库，并且通过对数据仓库进行分层，能够将原始的杂乱无章的大量数据进行聚合整理，并可根据业务需要得到多个数据指标，从而能够使大型企业更方便、高效地对其海量数据进行有效的管理。高效地对其海量数据进行有效的管理。高效地对其海量数据进行有效的管理。

技术研发人员：荀皓冯瑞
受保护的技术使用者：复旦大学
技术研发日：2022.01.26
技术公布日：2022/5/17

完整全部详细技术资料下载

当前第2页1 2