本发明涉及大数据存储、分析技术领域,具体涉及一种基于hive的历史数据分析及存档方法。
背景技术:
大数据在带来巨大技术挑战的同时,也带来巨大的技术创新与商业机遇。不断积累的大数据包含着很多在小数据量时不具备的深度知识和价值,大数据分析挖掘将能为行业/企业带来巨大的商业价值,实现各种高附加值的增值服务,进一步提升行业/企业的经济效益和社会效益。由于大数据隐含着巨大的深度价值,美国政府认为大数据是“未来的新石油”,对未来的科技与经济发展将带来深远影响。因此,在未来,一个国家拥有数据的规模和运用数据的能力将成为综合国力的重要组成部分,对数据的占有、控制和运用也将成为国家间和企业间新的争夺焦点。
技术实现要素:
本发明要解决的技术问题是:本发明提供一种基于hive的历史数据分析及存档方法,通过数据存储的模型将key/value格式的数据文件,转化为结构化的数据格式,并通过多表分析关联,将结果数据进行分区归档存储。
本发明所采用的技术方案为:
基于hive的历史数据分析及存档方法,所述方法通过构建关系数据模型和云数据模型,设置关系数据库中元数据的存储模式、实体数据的存储模式以及数据映射层的映射步骤等,对大数据量进行分析,将hbase存储的大数据量的文件进行关联分解整合,优化分析结果,按不同维度存储存档,并提供操作接口,便于操作,解决了将hbase数据快速分析、hbase数据存档、非专业人员操作等问题。
所述方法涉及的数据分析系统部署步骤如下:
第一步,部署Hadoop相关的hbase、hive等服务及Hbase分布式存储节点;
第二步,安装结构化数据库;
第三步,部署数据分析系统。
所述方法具体操作步骤如下:
步骤1:hive外部映射hbase数据;
步骤2:创建hive存档表,并创建分区;
步骤3:将外部映射的hbase数据进行分析,存入临时表中;
步骤4:验证临时表内容;
步骤5:验证通过后,将临时表内容插入有分区的存档表中;
步骤6:通过操作接口,进行数据汇总及查询。
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
本发明的有益效果为:
本发明通过数据存储的模型将key/value格式的数据文件,转化为结构化的数据格式,并通过多表分析关联,将结果数据进行分区归档存储,解决了将hbase数据快速分析、hbase数据存档、非专业人员操作等问题。
附图说明
图1为本发明的流程结构图。
具体实施方式
下面结合说明书附图,通过具体实施方式对本发明进一步说明:
实施例1:
基于hive的历史数据分析及存档方法,所述方法通过构建关系数据模型和云数据模型,设置关系数据库中元数据的存储模式、实体数据的存储模式以及数据映射层的映射步骤等,对大数据量进行分析,将hbase存储的大数据量的文件进行关联分解整合,优化分析结果,按不同维度存储存档,并提供操作接口,便于操作,解决了将hbase数据快速分析、hbase数据存档、非专业人员操作等问题。
实施例2:
在实施例1的基础上,本实施例所述方法涉及的数据分析系统部署步骤如下:
第一步,部署Hadoop相关的hbase、hive等服务及Hbase分布式存储节点;
第二步,安装结构化数据库;
第三步,部署数据分析系统。
实施例2:
如图1所示,在实施例1或2的基础上,本实施例所述方法具体操作步骤如下:
步骤1:hive外部映射hbase数据;
步骤2:创建hive存档表,并创建分区;
步骤3:将外部映射的hbase数据进行分析,存入临时表中;
步骤4:验证临时表内容;
步骤5:验证通过后,将临时表内容插入有分区的存档表中;
步骤6:通过操作接口,进行数据汇总及查询。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。