一种大数据平台的监控系统的制作方法
【技术领域】
[0001] 本发明涉及大数据平台的资源和任务的监控,属于计算机与网络技术应用领域。
【背景技术】
[0002] 随着社会信息化技术的不断提高以及互联网技术快速普及,需要处理的数据也越 来越大,各个领域对海量数据处理的需求也越来越多。在单机器存储空间和运算能力已经 不能满足人们对海量数据处理的需求的背景下,分布式计算和并行计算开始快速发展和应 用,最终发展为网格计算。大规模下分布式系统的监控信息是海量的,监控资源是多层次多 来源的,大数据平台的动态性、复杂性给大数据平台的监控系统带来众多困难。如何有效的 监测大数据平台中的软硬件资源,及时对资源的瓶颈进行预测,在出现故障前采取相应措 施,是提高大数据平台服务质量的关键,也是目前研宄的重点。
[0003] 监控是大数据平台的重要组成部分,现有的开源的大数据平台中缺少易用的统一 的监控功能,具体有:获取大数据平台运行状态困难,不能实时展示大数据平台中作业运行 状态和对作业的统计和分析功能的缺乏的问题。数据平台需监控的资源种类繁多,层次多 样。硬件资源有CPU、内存、网络和硬盘等;软件资源包括平台中运行的Hadoop、Hbase和 zooke印er等;作业资源包括运行在平台上的各类作业的运行进度、占用资源和调度信息 等。
【发明内容】
[0004] 本发明要解决的技术问题:大数据平台中多源多维度监控数据采集和整合,大数 据平台中作业的监控、统计和分析。提供直观的、易用的、快速响应的大数据监控系统。
[0005] 本发明采用的技术方案:一种大数据平台的监控系统,包括大数据平台运行信息 统计子系统,大数据平台作业监控子系统和大数据平台作业统计分析子系统。
[0006] >大数据平台运行信息统计子系统
[0007] 对大数据平台整体运行情况进行实时监控,将大数据平台中所有组件的监控信息 进行集中展示,主要是将分布式文件系统HDFS运行状态展示、资源管理框架Yarn运行状态 展示、分布式一致性服务Zookeeper运行状态展示和NoSql数据库HBase运行状态展示进 行整合。
[0008] ?HDFS运行信息监控
[0009] 通过JMX获取HDFS中的NameNode的性能指标,DataNode的HDFS信息。JMX(Java ManagementExtensions,即Java管理扩展)是一个为应用程序、设备、系统等植入管理功 能的框架。Hadoop提供了JMX监控接口,在HDFS中JMX监控接口为〈Namenode>:50070/ jmx。对于HDFS的jmx接口来说,返回值是JS0N数据,使用python的json模块中的json. loads对返回的JS0N数据进行解析可获得HDFS的监控信息。
[0010] WebHDFS是hadoop提供的HDFSREST实现,可以通过RESTAPI用http的方式访 问HDFS,通过RESTAPI可以实现对HDFS进行GET、POST、PUT和DELETE操作。大数据平台 上运行的作业是对HDFS上的数据进行操作,需要监测HDFS上作业相关文件信息,通过这些 信息可以获取作业数据的规模,数据操作总量,生成结果总量和导出结果数据,为了满足用 户作业对HDFS上数据的监控需求,一种大数据平台的监控系统通过对WebHDFS的封装,可 以获取作业输入输出数据的文件统计信息,从而监控作业中数据流状态。
[0011] ?Yarn计算资源监控
[0012] Yarn是hadoop的分布式资源管理框架,Yarn是由ResourceManager和 nodemanager组成,RM(ResourceManager)控制整个集群并管理Yarn上层应用程序的基础 计算资源的分配。使用RM提供的JMX接口可获取RM当前运行状态,主要有大数据平台上 可以用于计算的CPU、内存资源使用情况和RM服务运行信息。使用RM提供的RestfulAPI 可以获取RM运行状态信息、RM监控度量信息、RM资源调度信息、RM上应用信息和RM分布 式节点信息。
[0013] ?Zookeeper运行监控
[0014] 使用Zookeeper提供的四字命令"mntr",可获取每个Zookeeper运行信息,使用网 络将mntr命令发送至Zookeeper服务器,Zookeeper服务器返回本机中Zookeeper服务的 连接数、内存数据库大小、服务角色、watcher数和延迟数。
[0015] #Hbase运行监控
[0016]Hbase提供了JMX监控接口,本系统通过请求JMX获取HBase运行状态信息,Hbase 节点监控信息和Hbase表监控信息。
[0017] >大数据平台作业监控子系统
[0018] 进行离线计算和数据分析是大数据平台主要作业,现有的大数据平台中的作业类 型为MapReduce作业,MapReduce作业监控功能是针对hadoop上的MapReduce作业的数据 信息、运行信息和统计信息进行采集,由于hadoop对作业的管理方式决定了需要采取不同 方法监控正在运行的作业和已经完成的作业。Hadoop中可以通过Restfu1API的形式获取 正在运行作业运行信息,当作业运行完毕后,hadoop将已经完成的作业的最终状态信息和 统计信息存放在HDFS的目录下,可以通过访问HDFS的历史作业信息文件获取已经完成的 作业的历史信息。
[0019] ?实时作业监控
[0020] 使用Yarn提供的Restful接口获取正在运行的作业运行信息,可以获取的运行作 业监控信息说明如下表所示:
[0021]
【主权项】
1. 一种大数据平台的监控系统,其特征在于:包括大数据平台运行信息统计子系统, 大数据平台作业监控子系统和大数据平台作业统计分析子系统。
2. 根据权利要求1所述的大数据平台监控系统,其特征在于:运行信息统计子系统,对 大数据平台整体运行情况进行实时监控,将大数据平台中所有组件的监控信息进行集中展 不〇
3. 根据权利要求2所述的大数据平台的监控系统,其特征在于:大数据平台作业监控 子系统,实时获取作业运行信息,对作业从开始运行到结束之间进行不间断监控,从而将作 业运行过程信息记录下来。
4. 根据权利要求3所述的大数据平台的监控系统,其特征在于:周期性作业监控,收集 每天平台上完成的作业监控数据,对平台上的作业进行按天统计,并将周期性作业监控数 据进行抽取和存储。
5. 根据权利要求4所述的大数据平台的监控系统,其特征在于:对大数据平台上的作 业运行情况进行统计和分析;分析作业运行过程信息,获取作业运行过程中的资源使用统 计、数据周转统计、执行信息统计和趋势;分析周期性作业信息,对同一作业在一定时间段 内每次运行情况进行对比,发现此作业的运行趋势和异常。
6. 根据权利要求4所述的大数据平台的监控系统,其特征在于:对作业运行过程中的 网络流量、10读写、资源使用情况和运行中的Map和Reduce运行信息进行分析,统计出作 业执行过程中的计算偏重率、本地数据操作优化率和数据处理速率趋势。
7. 根据权利要求4所述的大数据平台的监控系统,其特征在于:对同一作业在一段时 期内每次运行结束后的统计信息的分析,获取该作业在此时间段内的运行趋势,这些运行 趋势有:作业操作数据量变化、作业执行时间信息的变化和作业资源使用量变化。
【专利摘要】本发明涉及一种大数据平台的监控系统,包括大数据平台运行信息统计模块,大数据平台作业监控模块和大数据平台作业统计分析模块。大数据平台的监控系统解决的问题如下:第一,大数据平台使用Hadoop存储管理数据。本系统实现对平台中组件的监控,并在界面上展示。第二,针对平台上的作业,大数据平台只存储作业运行最终状态,对作业的中间状态没有记录,不利于作业分析。本系统实现了作业中间过程监控,并对作业的输入输出数据量和依赖信息进行采集和存储。第三,大数据平台中缺乏对作业运行状态和趋势的统计和分析,只能获取作业当前的运行信息。本系统通过对作业运行过程数据的统计和分析,实现了大数据平台中作业的运行趋势的统计和分析。
【IPC分类】G06F11-30, G06F17-30
【公开号】CN104615526
【申请号】CN201410740935
【发明人】熊桂喜, 乔少卿, 姜骁, 赵明, 杜博文
【申请人】北京航空航天大学
【公开日】2015年5月13日
【申请日】2014年12月5日