一种基于Hadoop集群架构的智慧城市大数据处理系统的制作方法

文档序号:19324644发布日期:2019-12-04 00:56阅读:285来源:国知局
一种基于Hadoop集群架构的智慧城市大数据处理系统的制作方法

本发明属于资源信息处理技术领域,尤其涉及一种基于hadoop集群架构的智慧城市大数据处理系统。



背景技术:

目前,业内常用的现有技术是这样的:

随着时代的发展,手机已成为我们不能缺少的交互工具。随着移动终端数量的快速增长以及处理能力的加强,各大公司都认识到占据了移动终端市场,就占据了庞大客户,掌握了大量的移动用户信息,占据了未来移动互联网的大趋势。而3g,4g网络的快速发展随之也带来了大量的全新的研究和应用机会。例如基于地理位置信息的服务,物联网技术的结合以及移动社交网络相关数据挖掘等。

城市作为人类的交易中心和聚集中心,是人类经济社会发展到一定阶段的产物。城市的出现,是人类社会步入文明时代的标志,也是人类群居生活的高级形式。城市化进程的加快,使城市被赋予了前所未有的经济、政治和技术的权利,城市被无可避免地推到了世界舞台的中心,发挥着主导作用。与此同时,城市也面临着环境污染、交通堵塞、能源紧缺、住房不足、失业、疾病等方面的挑战。在新环境下,如何解决城市发展所带来的诸多问题,实现可持续发展成为城市规划建设的重要命题。在这种大环境下,智慧城市的理念应运而生。智慧城市覆盖城市的方方面面,包括医疗、教育、交通、社区、环保、农业等等,它是基于物联网、云计算、大数据的基础上,把新一代信息技术运用于城市的各个方面的城市信息化高级形态。

信息技术的高速发展加速了城市化进程.在此过程中,城市人口的剧增也加大了城市管理难度,例如交通压力、就业压力等。分析城市人口流动行为有助于合理分配社会资源,有效应对交通压力、维护社会公共治安等。传统的人工分析方法,如问卷调查、座谈访问等,成本高昂且低效率。智能手机的不断发展与普及在为人们日常生活带来极大便利的同时,所产生的手机用户信令数据为有效分析城市人口流动行为提供了可能。然而,海量、低质的用户数据给查询分析工作带来了诸多挑战。由于地区间经济发展不均衡,城市内部各区域的功能分工各有不同,导致城市内部人口会大量流动。受限于地理和社交等因素,人们的行为往往呈现出规律性,就是人们在工作地和居住地的周期性位置变迁。

综上所述,现有技术存在的问题是:

(1)手机数据分析在不同类型活动的时空分布、活动强度的方法有所不同,不具有相应的典型研究。

(2)人群流动数据受到天气、节假日、道路畅通情况等诸多因素的影响,仅根据生活区域人口数目的比对已经难以满足需求

(3)非自愿提供手机数据无法记录用户活动目的,无法直接从数据中区分就业、游憩、居住等活动类型。

(4)现有智慧平台无法准确分析人口流动;所处地区节假日庆典众多,研究区域内人群流动不规律,常态的区域分析很难进行。

(5)海量、低质的用户数据给查询分析工作带来了诸多挑战;定点定时的基站数据收集给区域的人群流动分析使得数据更新不及时、系统反应迟缓、无法对突发事件或者节假日的人群流动进行合理的处理,而且现有技术中,没有基于移动用户信令数据预测各区域人口流动,不能有效分析社会资源可分配数据,而且没有采用hadoop架构,不能有效降低开发成本;没有采用spark开源并行架构,造成数据挖掘与机器学习中运行速度快慢。

解决上述技术问题的难度:

最主要的难度在于城市空间的分析方式与城市服务区的分析,如何通过网络服务区中,通过对参数的设置计算出服务区在一定限制下的影响范围大小,得出网点的服务范围及可达性。同时兼顾到衢州地区内对阻抗数据的设置,能将任何成本属性作为阻抗,且该阻抗需要在确定的服务区内进行累计。不断设置阻抗值1min、2min、5min、10mi你,并顺次结算不同阻抗内网点的影响情况并分析结果后进行结果对比,再通过二分法找出最合理的阻抗值。在通过多个时间面的同心圆,同时查找距离10km、20km、50km、100km内的影响范围,从而建立合理的分析区域划分。

解决上述技术问题的意义:

热点区域人群分布研究:以热力图的方式呈现人口聚集,并提供预警模式。主要研究探索在突发情况下及重大活动区域的人群热度,在公共安全领域提供数据支撑。

实时道路车流统计研究:通过算法计算每条道路的拥堵程度,并换算成车速,可实现不同时间粒度,为交通领域提供数据支撑。

旅游景点人员研究:对景区实现24小时实时监控,分析流入流出人员的分布情况,为旅游行业提供大数据分析数据。

应急人员搜救领域的研究:对人口失踪用户进行跟踪分析处理,为应急人员搜救提供数据支撑和定位服务。

外来人口的研究:分析外地来衢用户的分布和流动情况,为公安调查提供一定的数据支撑。

城市的可持续发展和健康发展成为现在城市建设的重点,因此,在现阶段对智慧城市的建设进行研究,具有重要的理论意义和实践意义。



技术实现要素:

针对现有技术存在的问题,本发明提供了一种基于hadoop集群架构的智慧城市大数据处理系统。

本发明是这样实现的,一种基于hadoop集群架构的智慧城市大数据处理系统,所述基于hadoop集群架构的智慧城市大数据处理系统架构包括:

采集层:与共享层连接,用于采集数据;

共享层:与采集层、应用层连接,用于对采集的数据进行聚集处理,并对多种数据源的数据进行统一载入、分类、处理以及存储;

应用层:与共享层连接,采用不同算法建模并利用移动设备、平板、电脑或终端设备呈现各个功能模块。

进一步,所述采集层具体包括:数据采集接口、hadoop集群、关系型数据库。数据采集接口:是利用转置,从系统外部采集数据并输入到系统内部的一个接口。hadoop集群:hadoop是开源的可运行于大规模集群上的分布式并行编程框架,其最核心的设计包括:mapreduce和hdfs的设计。关系型数据库:关系数据库是支持关系模型的数据库系统,由关系数据结构、关系操作集合和完整性约束三部分组成。

进一步,所述数据采集接口具体包括:2g接口、3g接口、4g接口;所述2g接口包括:gb/gn/a接口;所述3g接口包括:iu/ps/gn/a接口;所述4g接口包括:s1/x2/s6a/s5接口;

所述hadoop集群包括hbase/hive/hdfs核心组件。

进一步,所述共享层具体包括:

sql接口、spark服务、rolapserver、spark内存加速计算引擎、sparkstream、sparksql、gaplx/mllib模型算法库。sqlserver网络接口是建立在客户端和服务器之间的网络连接的协议层。spark是通用,可扩展的分布式计算引擎。

rolap表示基于关系数据库的olap实现(relationalolap)。以关系数据库为核心,以关系型结构进行多维数据的表示和存储。rolap将多维数据库的多维结构划分为两类表:一类是事实表,用来存储数据和维关键字;另一类是维表,即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。spark内存加速计算引擎:与hadoop相似的开源集群计算环境,spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

sparkstream是将流式计算分解成一系列短小的批处理作业,把输入数据按照batchsize(如1秒)分成一段一段的数据(dstream),每一段数据都转换成spark中的rdd,然后将对dstream的transformation操作变为针对spark中对rdd的transformation操作,将rdd经过操作变成中间结果保存在内存中。

sparksqlsparksql对sql语句的处理和关系型数据库对sql语句的处理采用了类似的方法,首先会将sql语句进行解析(parse),然后形成一个tree。sql语句首先通过parser模块被解析为语法树。

gaplx/mllib模型算法库是spark对常用的机器学习算法的实现库,同时包括相关的测试和数据生成器。

进一步,所述sql接口包括jdbc/odbc接口。

所述spark服务包括scala/java/python。

进一步,所述应用层具体包括终端设备与功能模块。

所述终端设备包括:移动设备、平板、电脑或其他终端设备。

所述功能模块包括:系统管理模块、报表开发平台、移动bi、事件开发平台、多维分析平台、自助分析平台、可视化设计平台、可视化数据挖掘平台。

各平台通过websocket的方式和服务器、前端进行相互通信,sdk会定时收到服务器下发的页面请求;然后会上报页面快照和界面因子信息到服务器,服务器收到信息后会根据界面因子信息对页面的每个元素进行分析,根据控件的类型来标记哪些页面元素是可以被埋点的;最后将可埋点信息交给前端渲染,此时,前端web页面上展示就的就是可以埋点的页面。

本发明的另一目的在于提供一种基于hadoop集群架构的智慧城市大数据处理方法,包括:

采集多种数据源的数据。

对采集的数据进行聚集处理,并对多种数据源的数据进行统一载入、分类、处理以及存储。

采用不同算法建模并利用移动设备、平板、电脑或终端设备进行呈现。

进一步,对采集的数据进行聚集处理,并对多种数据源的数据进行统一载入、分类、处理以及存储中,具体包括以下步骤:

1)文件准备。

2:文件切片,切分为三片。

3)map运行:接受一个键值对,产生一组键值对。

4)派发:shuffle将键值对派发给reduce。

5)reduce运行:将相同键的值累加。

6)输出计算结果。

进一步,建模后并利用移动设备、平板、电脑或终端设备进行呈现中,各个功能模块通过websocket的方式和服务器、前端进行相互通信,sdk定时收到服务器下发的页面请求。

然后上报页面快照和界面因子信息到服务器,服务器收到信息后会根据界面因子信息对页面的每个元素进行分析,根据控件的类型来标记哪些页面元素是被埋点的。

最后将可埋点信息交给前端渲染,前端web页面上展示是可以埋点的页面。

本发明的另一目的在于提供一种搭载所述基于hadoop集群架构的智慧城市大数据处理系统的基于hadoop集群架构的智慧城市大数据处理平台。

综上所述,本发明的优点及积极效果为:

本发明解决了研究区域内人群流动不规律,区域分析很难进行的技术难题:城市结构采用gis空间分析方式,主要涉及gis系统的数据转换功能,图形数据的编辑功能,通过对矢量图形或栅格图像空间的分布规律进行分析,其中矢量化过程是对区域分析最重要的一步。

本发明取得了预料不到的技术效果,具体包括:

(1)本发明与现有技术相比具有更好的技术效果,本发明可预测各区域人口流动,探讨合理分配社会资源和可持续发展战略,为政府决策提供数据支撑,平台架构共享层采用hadoop架构实施,可以有效降低开发成本,具有较好的执行效率和可扩展性。

(2)发明代表采用hadoop架构技术发展趋势,凭借着超大文件存储、统一的文件系统访问接口、文件分块存储、高容错性增强系统的性能。

(3)填补了国内技术空白,在现有技术中,没有基于移动用户信令数据预测各区域人口流动,不能有效分析社会资源可分配数据,而且没有采用hadoop架构,不能有效降低开发成本;没有采用spark开源并行架构,造成数据挖掘与机器学习中运行速度快慢。本发明很好的解决了海量、低质的用户数据的分析困难问题,可以很好的分析人口流动情况

本发明基于hadoop集群架构的智慧城市大数据处理系统,基于移动用户信令数据(三大运营商中移动的手机用户占比达80%左右,主要提取移动公司的手机用户),预测各区域人口流动,探讨合理分配社会资源和可持续发展战略,为政府决策提供数据支撑,具有较好的执行效率和可扩展性。

本发明平台架构共享层采用hadoop架构实施,可以有效降低开发成本,并形成一体化应用开发,具备很强的可扩展性。

本发明采用spark开源并行架构设计,对比hadoopmapreduce,spark能更好地适用于数据挖掘与机器学习等需要迭代的mapreduce的算法,且上手容易,运行速度快捷。

附图说明

图1是本发明实施例提供的基于hadoop集群架构的智慧城市大数据处理系统架构示意图。

图中:1、采集层;2、共享层;3、应用层;4、数据采集接口;5、hadoop集群;6、关系型数据库;7、sql接口;8、spark服务;9、rolapserver;10、spark内存加速计算引擎;11、sparkstream;12、sparksql;13、gaplx/mllib模型算法库;14、终端设备;15、功能模块。

图2是本发明实施例提供的基于hadoop集群架构的智慧城市大数据处理方法流程图。

图3是本发明实施例提供的以统计某个文件中deer、car和bear三个单词数量为例说明mapreduce是如何实现分布式存储计算效果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

现有智慧平台无法分析人口流动;海量、低质的用户数据给查询分析工作带来了诸多挑战;而且现有技术中,没有基于移动用户信令数据预测各区域人口流动,不能有效分析社会资源可分配数据,而且没有采用hadoop架构,不能有效降低开发成本;没有采用spark开源并行架构,造成数据挖掘与机器学习中运行速度快慢。

为解决上述问题,下面结合附图对本发明的应用原理做详细描述。

如图1所示,本发明实施例提供的基于hadoop集群架构的智慧城市大数据处理系统具体包括:

采集层1、共享层2、应用层3。

采集层1:与共享层2连接,用于采集数据。

共享层2:与采集层1、应用层3连接,用于对采集的数据进行聚集处理,实现对多种数据源的数据进行统一载入、分类、处理以及存储。

应用层3:与共享层2连接,用于基于功能不同采用不同算法建模并利用移动设备、平板、电脑或其他终端设备呈现各个功能模块。

本发明实施例提供的采集层1具体包括:

采集层1包括:数据采集接口4、hadoop集群5、关系型数据库6。

所述数据采集接口4具体包括:2g接口、3g接口、4g接口。所述2g接口包括:gb/gn/a接口。所述3g接口包括:iu/ps/gn/a接口。所述4g接口包括:s1/x2/s6a/s5接口。

所述hadoop集群5为:以hbase/hive/hdfs为核心组件的hadoop集群。

本发明实施例提供的共享层2具体包括:

共享层2包括:sql接口7、spark服务8、rolapserver9、spark内存加速计算引擎10、sparkstream11、sparksql12、gaplx/mllib模型算法库13。

所述sql接口7包括:jdbc/odbc接口。

所述spark服务8包括:scala/java/python。

本发明实施例提供的应用层3具体包括:

应用层具体包括:终端设备14与功能模块15。

所述终端设备14具体包括:移动设备、平板、电脑或其他终端设备。

所述功能模块15具体包括:系统管理模块、报表开发平台、移动bi、事件开发平台、多维分析平台、自助分析平台、可视化设计平台、可视化数据挖掘平台。

如图2所示,本发明提供一种基于hadoop集群架构的智慧城市大数据处理方法,包括:

采集多种数据源的数据。

对采集的数据进行聚集处理,并对多种数据源的数据进行统一载入、分类、处理以及存储。

采用不同算法建模并利用移动设备、平板、电脑或终端设备进行呈现。各个功能模块通过websocket的方式和服务器、前端进行相互通信,sdk定时收到服务器下发的页面请求。然后上报页面快照和界面因子信息到服务器,服务器收到信息后会根据界面因子信息对页面的每个元素进行分析,根据控件的类型来标记哪些页面元素是被埋点的。最后将可埋点信息交给前端渲染,前端web页面上展示是可以埋点的页面。

在本发明实施例中,传统的数据存储方法都是通过文件存储,把tb级别以上的数据保存在一个文件里通过对文件读写操作,实现对数据分析,效率非常低,这就是传统的数据存储方案。而现在一个城市的手机用户产生的数据量应该很容易达到tb级别以上。hadoop集群架构从而解决了这一问题。hadoop采用分布式文件存储,为保证文件完整性防止丢失,通常会备份3份及以上。分布式文件存储hdfs解决了大数据的存储问题和读取速度问题。hadoop的分布式计算模型是mapreduce,用来解决海量数据计算问题。mapreduce有两个阶段组成map和reduce,用户只需要实现这两个函数,即可实现分布式计算。以统计某个文件中deer、car和bear三个单词数量为例,如图3所示。说明mapreduce是如何实现分布式存储计算。

下面结合具体实施例对本发明作进一步描述。

实施例

本发明实施例提供的基于hadoop集群架构的智慧城市大数据处理方法,包括:

1、文件准备。

2、文件切片:这里切分为三片(作业并行处理,效率加倍)。

3、map过程:接受一个键值对,产生一组键值对,比如(deer,1),代表deer为键,1为值,代表deer单词的数量。

4、派发过程:shuffle将键值对派发给reduce。

5、reduce过程:将相同键的值累加(计算靠近的数据)。

6、输出计算结果。

hadoop系统由hdfs和mapreduce,hdfs凭借着超大文件存储、统一的文件系统访问接口、文件分块存储、高容错性的特性,mapreduce凭借着自动并行化、自动可靠处理、灵活扩展、高性能等特性,这两大核心的使用大大提高了数据存储和读取的速度,减少了不必要的资源消耗。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1