一种通信网优系统中的流数据处理装置及通信网优系统的制作方法

文档序号:11524156阅读:281来源:国知局
一种通信网优系统中的流数据处理装置及通信网优系统的制造方法

本发明涉及通信技术领域,具体涉及一种通信网优系统中的流数据处理装置及通信网优系统。



背景技术:

网优系统最初的定位主要是作为离线数据分析系统,对移动网络的运行状态进行综合的评估分析,比如综合评估无线网、核心网的网络环境,评估当前网络覆盖、干扰问题、掉话问题,评估业务质量、用户感知,可以以直观的gis、图表、表格等方式展示评估结果。上述网优功能的实现依赖于对网络中基础数据、性能数据、mr数据、参数数据、话单数据等不同类型数据源的采集和解析,而通常上述数据处理都需要经过厂家omc周期性生成、数据文件远程传输、数据解析、数据汇总、数据入库等多个步骤,所以从网络事件发生,到网优系统呈现出来至少有2-3小时的延时。

但是随着网优系统使用部门和使用人员的增多,使用场景的丰富,对网优系统处理实时性的要求越来越高,比如对于客服投诉的快速响应、重要赛事场景的监控保障、单次通话的信令跟踪等,这些使用场景都是需要达到实时处理分析的标准。这就对网优系统在实时数据处理技术上提出了更高的要求。



技术实现要素:

针对现有技术中的缺陷,本发明提供了一种通信网优系统中的流数据处理装置及通信网优系统,本发明使得网优系统能够提供用户级别的实时感知分析功能。

为解决上述技术问题,本发明提供以下技术方案:

第一方面,本发明提供了一种通信网优系统中的流数据处理装置,包括:

流式数据生成模块,用于将不同数据源得到的文件数据加载为一条条的流数据引擎所需要格式的流式数据,并推送至kafka处理模块中;

kafka处理模块,为一个分布式消息列队处理模块,用于将所述流式数据生成模块生成的流式数据均匀地加载至kafka集群中,以供storm处理模块进行调用;

storm处理模块,为流式处理的计算引擎,包括spout节点和bolt节点,spout节点用于从kafka集群中读取数据,并推送至bolt节点,bolt节点用于将spout节点推送的数据根据预先配置的应用场景进行相应计算并将计算结果进行实时汇总,以及定期将汇总结果存储至redis集群中;

redis存储模块,采用分布式集群方案,用于将所述storm处理模块汇总的数据缓存在内存中;

数据输出模块,用于将流式处理的结果以标准的接口提供给第三方数据者使用。

进一步地,所述数据输出模块支持以组件的方式进行横向扩展,包括:hbase组件、codis组件、hive组件、oracle组件和gp组件。

进一步地,所述数据输出模块支持用户手机app通过webservice调用进行实时查询。

第二方面,本发明还提供了一种通信网优系统,包括:从下向上依次设置的数据采集层、数据处理与存储层、技术服务组件层和应用展现层;

所述数据采集层通过云化采集技术,用于对采集任务进行分布式部署,支持实时采集、批量采集和互联网爬虫采集,用于对pb级数据进行采集与收敛,提供流数据处理工具,支撑实时数据的采集处理,实现数据分发和加载;

所述数据处理与存储层采用了如上面所述的流数据处理装置;所述数据处理与存储层采用“流式计算+hadoop+mpp+rdb”混搭的数据处理架构以支撑多样化海量混搭计算存储能力,提供实时运算、库外运算和流式计算的计算组件与服务;

所述技术服务组件层用于支撑上层应用的报表/报告、搜索引擎、gis服务和信息推送服务;

所述应用展现层用于实现系统的图形界面展示,包括pc版应用展现层和移动智能终端版应用展现层,图形展示形式包括gis和图表。

进一步地,所述数据处理与存储层配置有n个节点组成的storm流处理集群,m个节点组成的redis内存数据库集群和q个节点组成的kafka消息集群,且各个集群部署在万兆以太网内。

进一步地,所述n取值为6,m取值为4,q取值为4。

进一步地,所述数据采集层采集的数据包括网络基础数据、mr数据、参数数据、话单数据和信令数据。

进一步地,所述技术服务组件层包括webservices组件、spss组件、solr组件和struts2组件。

进一步地,所述pc版应用展现层采用jsp、easyui、jquery和arcgis技术实现图形展示。

进一步地,所述移动智能终端版应用展现层采用ios、android、html5和baidumap技术实现图形展示。

由上述技术方案可知,本发明提供的通信网优系统,应用“流式计算+hadoop+mpp+rdb”混搭模式的系统架构技术,既兼顾了大数据处理的实时分析和离线分析需求,又没有摈弃常规数据的高并发、在线分析的需求,使网优系统能够提供用户级别的实时感知分析功能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的通信网优系统中的流数据处理装置的结构示意图;

图2是本发明一实施例提供的流式计算软件架构示意图;

图3是本发明另一实施例提供的通信网优系统的结构示意图;

图4是本发明另一实施例提供的通信网优系统的软件架构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

通信网优系统用到的分析数据与传统o域的告警、配置、性能等数据相比较,数据体量巨大,尤其对于mr、话单、信令等数据,往往一个省一天的原始数据增量就可以达到几个甚至十几个t。对于该大数据应用场景,现在已有较成熟的分布式处理技术对大数据进行解析和存储,但从数据产生了到分析呈现,往往要有若干小时的时延。本发明着眼于解决大数据处理的实时性能,采用流数据处理装置,能够把通信网优系统中的数据处理的时限压缩到秒级别。

图1示出了本发明一实施例提供的通信网优系统中的流数据处理装置的结构示意图。参见图1,本发明提供的通信网优系统中的流数据处理装置,包括:流式数据生成模块11、kafka处理模块12、storm处理模块13、redis存储模块14和数据输出模块15,其中:

流式数据生成模块11,用于将不同数据源得到的文件数据加载为一条条的流数据引擎所需要格式的流式数据,并推送至kafka处理模块中;

可以理解的是,流式数据生成模块11的主要功能是将由不同数据源得到的文件数据加载为一条一条的流数据引擎所需要格式的流式数据,并推送至kafka处理模块中。参见图2所示的流式计算软件架构示意图,该流式数据生成模块11支持ftp、socket、webservice、stdp等常见协议的实时数据在线采集接入,以及常见的系统日志实时采集。对于网优系统最常见的数据文件采集,当目标文件夹发生任何改变的时候,都会触发监控程序执行,监控程序自动分辨该改变是否为新增了需要处理的文件,如果是则监控程序会将该文件名加入至待处理文件队列。

kafka处理模块12,为一个分布式消息列队处理模块,用于将所述流式数据生成模块生成的流式数据均匀地加载至kafka集群中,以供storm处理模块进行调用;

可以理解的是,kafka处理模块12主要是作为一个分布式消息队列的模块,用于将流式数据生成模块中生成的流式数据均匀的加载至kafka集群中,以供storm处理模块进行调用,可以理解为一个数据流的缓存。该模块采用的是一种高吞吐量的分布式发布订阅消息系统,是通过类似hadoop的分布式并行加载机制来统一线上和离线的消息处理,支持性能线性扩展,可以通过添加硬件的方式获得近似线性比例的处理能力的提升。

storm处理模块13,为流式处理的计算引擎,包括spout节点和bolt节点,spout节点用于从kafka集群中读取数据,并推送至bolt节点,bolt节点用于将spout节点推送的数据根据预先配置的应用场景进行相应计算并将计算结果进行实时汇总,以及定期将汇总结果存储至redis集群中;

可以理解的是,storm处理模块13为流式处理的计算引擎,能够根据配置的应用场景进行计算操作,起到数据实时汇总的作用,并输出结果到对应的存储中。参见图2所示的流式计算软件架构示意图,spout节点负责从kafka集群中读取数据,并推送至bolt节点,bolt节点负责将spout推送的数据根据不同的业务应用(比如用户号码)进行分类,并进行实时数据汇总,并定时存储汇总结果至redis集群中。

redis存储模块14,采用分布式集群方案,用于将所述storm处理模块汇总的数据缓存在内存中;

可以理解的是,redis存储模块14为了保证效率,汇总数据都是缓存在内存中。redis集群考虑到数据规模巨大,调用并发度极高等情况,采用分布式集群方案,这种解决方案具有负载均衡及主备机容错等功能,可以有效的解决容错和并发问题。

数据输出模块15,用于将流式处理的结果以标准的接口提供给第三方数据者使用。

可以理解的是,数据输出模块15主要负责将流式处理的结果以标准的接口提供给第三方数据者使用。参见图2所示的流式计算软件架构示意图,该数据输出模块15支持以组件的方式进行横向扩展,包括hbase组件、codis组件、hive组件、oracle组件、gp组件,也支持用户手机app通过webservice调用进行实时查询。

与hadoop等离线批量大数据处理技术相比,本发明实施例提供的流数据处理装置更为擅长突发性、单条事件的实时处理。以xdr类数据处理为例,从xdr数据采集到位开始计算,只需要经过秒级别时间的处理,即可完成数据的解析入库。再经过后台应用模块的处理,用户行为和网络指标只需要经过秒级别的时延即可得到呈现。这样的时延相对与传统技术2-3小时的时延,完全可以称为实时处理,在重要赛事/会议监控保障、实时信令跟踪等应用场景是可以满足应用要求的。

本发明另一实施例提供了一种通信网优系统,参见图3,该通信网优系统包括:从下向上依次设置的数据采集层31、数据处理与存储层32、技术服务组件层33和应用展现层34;

所述数据采集层31通过云化采集技术,用于对采集任务进行分布式部署,支持实时采集、批量采集和互联网爬虫采集,用于对pb级数据进行采集与收敛,提供流数据处理工具,支撑实时数据的采集处理,实现数据分发和加载;

可以理解的是,数据采集层31通过云化采集技术,可对采集任务进行分布式部署,支持实时采集、批量采集、互联网爬虫采集等采集技术。可对pb级数据进行采集与收敛,提供流数据处理工具,支撑实时数据的采集处理,并实现数据分发和加载。所述数据采集层31采集的数据包括网络基础数据、mr数据、参数数据、话单数据和信令数据。

所述数据处理与存储层32采用了如上面实施例所述的流数据处理装置;所述数据处理与存储层采用“流式计算+hadoop+mpp+rdb”混搭的数据处理架构以支撑多样化海量混搭计算存储能力,提供实时运算、库外运算和流式计算的计算组件与服务;

可以理解的是,通信网优系统的技术核心在于对各种大数据进行处理的多种软件技术的综合应用。hadoop技术拥有天生的分布式数据处理优势,主要用于实现mr、话单、xdr等类大数据原始文件的批量存储解析和初步的kpi指标汇总,速度快,效率高;mpp为列式数据库集群,适用于长期海量分析数据(mr汇总数据、话单数据、话统数据等)的存储,尤其适合话单、信令类分析应用的查询,数据存储压缩比高,为网优系统采用的数据存储方案之一;rdb为传统的关系型数据库,具有高并发、小容量等技术特点,适用于小数据量的结果类数据、周期/实时更新类数据(基站工参数据、考核结果数据、工单数据、管理数据等)的存储;流式计算则是为了解决大数据实时处理需求而出现的技术,主要应用于小时延类数据采集、分析、处理场景,如重要赛事/会议监控保障、实时信令跟踪等。可以理解的是,数据处理与存储层32是网优系统对大数据处理特色的体现,采用“流式计算+hadoop+mpp+rdb”混搭的数据处理架构,以支撑多样化海量数据混搭计算存储能力,提供实时运算、库外运算、流式计算等计算组件与服务,还提供数据完整性、准确性等数据质量管理功能。

比如,在通信网优系统的高铁专项分析中,需要对用户在高铁乘车期间使用无线网络的质量进行分析,且需要能按用户进行监控和分析。为实现用户级的实时感知分析,需要采用实时流式计算处理方案,以提供尽可能低的处理时延。为了提高xdr话单数据的处理实时性,降低处理时延,搭建storm流处理集群完成单用户实时分析功能。在项目实际应用中,配置6个节点组成storm流处理集群,配置4个节点组成redis内存数据库集群,配置4个节点组成kafka消息集群。集群部署在万兆以太网内,以保证网络传输速度。在实际运行过程中,xdr文件中的单条用户话单数据的处理过程,从xdr文件输出完成到用户实时行为和感知分析的kpi指标数据输出到实时监控分析平台,总体处理时延约为5秒。可见,通过采用流式处理集群技术,极大的提高了用户级别数据的处理性能,将处理时延降低到“实时”的范围,为实时用户行为监控和感知分析提供了有效支撑。

所述技术服务组件层33用于支撑上层应用的报表/报告、搜索引擎、gis服务和信息推送服务;

可以理解的是,技术服务组件层33支撑上层应用的报表/报告、搜索引擎、gis服务、信息推送服务等基础组件,亦采用模块化、组件化设计,方面灵活升级与替换。参见图4所示的通信网优系统的软件架构示意图,技术服务组件层33包括webservices组件、spss组件、solr组件和struts2组件。

所述应用展现层34用于实现系统的图形界面展示,包括pc版应用展现层和移动智能终端版应用展现层,图形展示形式包括gis和图表。

可以理解的是,应用展现层34主要实现系统图形界面的展示,包括pc版(web浏览器方式)和移动智能终端版(ios、android、windowsphone的原生app、非原生app、微信、短信等方式),展现形式包括gis、图表等。参见图4所示的通信网优系统的软件架构示意图,pc版应用展现层采用jsp、easyui、jquery和arcgis技术实现图形展示;移动智能终端版应用展现层采用ios、android、html5和baidumap技术实现图形展示。

本发明实施例提供的通信网优系统,应用“流式计算+hadoop+mpp+rdb”混搭模式的系统架构技术,既兼顾了大数据处理的实时分析和离线分析需求,又没有摈弃常规数据的高并发、在线分析的需求,使网优系统能够提供用户级别的实时感知分析功能。

以上实施例仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1