一种大数据的数据接入统一管理平台的制作方法

文档序号:25089135发布日期:2021-05-18 19:26阅读:112来源:国知局
一种大数据的数据接入统一管理平台的制作方法

1.本申请涉及大数据技术领域,具体而言,涉及一种大数据的数据接入统一管理平台。


背景技术:

2.随着大数据技术与应用的逐渐普及,越来越多的公司在面对日益增多的业务和数据增长时选择拥抱大数据。但是随着公司的发展,业务不断扩展,数据呈现爆炸式增长态势,数据采集工作作为大数据工作的基础,变得尤为重要,同时也面临着更多问题与挑战。
3.虽然文件存储和计算已采用分布式集群方案,但是数据采集环节多为编写独立程序或脚本,甚至bs架构的采集工具。由此便产生了一系列的问题,如单点故障,性能、稳定性一般,计算资源分配、利用不合理,难于统一维护管理等一系列问题。例如:
4.1)数据输入输出多为本地磁盘或rdbms,方式相对单一。随着业务变得越来越复杂,需要不断的开发适配不同输入、输出方式的处理功能,开发、维护难度不断增加。
5.2)现有架构下,各组件之间相对独立,结构松散。每个组件需要各自维护,且组件间关联、依赖关系维护困难,复杂业务场景下更是很难维护且容易误操作。
6.3)数据采集过程中,缺少必要的稽核统计。缺乏对数据资产的管理,且数据出现问题时不易发现和排查。
7.4)容错能力差。当发生网络波动、中断或者其它情况导致数据采集异常,数据容易发生缺失或者产生脏数据,数据质量下降。


技术实现要素:

8.针对上述技术问题,本申请提供了一种大数据的数据接入统一管理平台。
9.一种大数据的数据接入统一管理平台,包括高可用+负载均衡模块、分布式协同模块、数据采集集群模块、数据计算集群模块、web统一管理调度平台;
10.其中,所述高可用+负载均衡模块连接所述数据采集集群模块,所述数据采集集群模块连接所述数据计算集群模块,所述分布式协同模块输出端连接所述数据采集集群模块及所述数据计算集群模块,所述web统一管理调度平台连接所述高可用+负载均衡模块、所述数据采集集群模块及所述数据计算集群模块。
11.可选地,所述高可用+负载均衡模块为两层结构的负载均衡架构,即第一层的lvs处理模块和第二层的nginx负载均衡模块,中间通过redirect联通两层架构。
12.可选地,所述分布式协同模块,用于所述数据采集集群模块和所述数据计算集群模块的协同。
13.可选地,所述分布式协同模块基于zookeeper组件实现所述协同。
14.可选地,所述数据采集集群模块包括若干流式数据采集器a和若干批处理数据采集器b。
15.可选地,所述数据采集集群模块,用于根据配置和业务需求,启动一个或多个采集
服务,并根据所述分布式协同模块中的配置和注册的计算服务进行数据分发;发送日志数据到消息队列;接受消息队列中的补传消息,生成补传任务,作为批处理任务,对数据进行补传。
16.可选地,所述数据计算集群模块,用于根据配置和业务需求,启动相应的计算服务,并将信息注册到所述分布式协同模块,接受采集集群发送的数据,经过计算后,根据配置发送到数据仓库或其他组件;发送日志数据到消息队列。
17.可选地,所述平台还包括容错识别模块,所述容错识别模块用于从消息队列调取日志数据进行分析、统计。
18.可选地,所述平台还包括执行单元和服务接口;所述执行器用于控制服务的启停、配置的下发以及集群监控;所述服务接口,用于为前端设备提供接口,以及通过与所述执行单元交互来执行用户操作。
19.可选地,所述web统一管理调度平台,用于为用户提供统一管理调度平台,以实现对整个服务的维护。
20.本发明的有益效果在于:
21.本申请提供的一种大数据的数据接入统一管理平台包括高可用+负载均衡模块、分布式协同模块、数据采集集群模块、数据计算集群模块、web统一管理调度平台。通过设置统一的接入管理平台,可以针对具有不同输入、输出方式的处理功能及对应数据进行统一管理,不再需要各数据采集环节分别编写独立程序或脚本,有效降低开发、维护难度,也显著提高了平台的性能及稳定性。
22.另外,通过设置高可用+负载均衡模块作为服务集群的入口,可以显著提高管理平台对集群数据的高可用和负载均衡能力;分布式协同模块能够根据实时的需要来优化采集集群和计算集群的协同作业,显著提高管理平台的数据处理效率。
23.另外,本申请中的管理平台还包括容错识别模块,其可以对采集集群和计算集群传输到消息队列中的日志数据进行分系统计,从而可以及时发现冲突、错误及异常数据,充分保障数据质量,也更容易对异常数据及原因进行排查和原因分析。
附图说明
24.为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
25.图1是本申请实施例公开的一种大数据的数据接入统一管理平台的结构示意图;
26.图2是本申请实施例二公开的改进的一种大数据的数据接入统一管理平台的结构示意图;
27.图3是本申请实施例三公开的另一种改进的大数据的数据接入统一管理平台的结构示意图。
具体实施方式
28.为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例
中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
29.因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
30.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
31.在本申请的描述中,需要说明的是,若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
32.此外,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
33.需要说明的是,在不冲突的情况下,本申请的实施例中的特征可以相互结合。
34.虽然现有技术中已经采用了分布式集群方案来实现文件的存储和计算,但是数据采集环节多为编写独立程序或脚本,甚至bs架构的采集工具。由此便产生了一系列的问题,如单点故障,性能、稳定性一般,计算资源分配、利用不合理,难于统一维护管理等一系列问题。针对上述一系列问题,本申请提供了一整套的解决方案,即设计了统计接入管理平台来实现分布式集群设备的大数据接入管理,既降低了系统开发及维护难度,还可以显著提高数据采集及处理效率,还可以保障数据质量,相对于现有方案,技术效果明显,市场应用价值高。
35.实施例一
36.请参阅图1,图1是本申请实施例公开的一种大数据的数据接入统一管理平台的结构示意图。如图1所示,本申请实施例的一种大数据的数据接入统一管理平台,包括高可用+负载均衡模块、分布式协同模块、数据采集集群模块、数据计算集群模块、web统一管理调度平台;
37.其中,所述高可用+负载均衡模块连接所述数据采集集群模块,所述数据采集集群模块连接所述数据计算集群模块,所述分布式协同模块输出端连接所述数据采集集群模块及所述数据计算集群模块,所述web统一管理调度平台连接所述高可用+负载均衡模块、所述数据采集集群模块及所述数据计算集群模块。
38.本申请方案通过设置统一的接入管理平台,可以针对具有不同输入、输出方式的处理功能及对应数据进行统一管理,不再需要各数据采集环节分别编写独立程序或脚本,有效降低了开发、维护难度,同时,由于在统一平台进行数据的采集及计算处理,便于设置更为合理的处理方案,能够显著提高平台的性能及稳定性。
39.可选地,所述高可用+负载均衡模块为两层结构的负载均衡架构,即第一层的lvs处理模块和第二层的nginx负载均衡模块,中间通过redirect联通两层架构。
40.为了实现平台接入层的高可用和负载均衡,本申请设计了两层负载均衡架构,具
体实现时:用户的请求会先到达lvs处理模块,根据dr模式同步请求转发的策略,在lvs处理模块接收到请求之后,通过redirect传输到后端的nginx负载均衡模块,然后由nginx负载均衡模块做二次负载均衡。通过上述两层负载均衡架构,本申请的方案在接入层实现了高可用和负载均衡。
41.可选地,所述分布式协同模块,用于所述数据采集集群模块和所述数据计算集群模块的协同。
42.可选地,所述分布式协同模块基于zookeeper组件实现所述协同。
43.zookeeper是一种提供配置信息维护、命名服务、分布式同步和服务分组等功能的分布式协调服务。它具有如下优点:zookeeper暴露的接口是无等待的,且提供一种事件驱动机制;zookeeper的实现是高效的;zookeeper对每个客户端保证请求以fifo(first in,first out,先进先出)的顺序执行并对所有改变zookeeper状态的请求具有线性化能力。本申请利用zookeeper的上述特性将其应用于采集和计算两个集群的协同,具体可采用如下方式实现:
44.zookeeper组件接收并存储平台发送的业务需求,基于所述业务需求制定配置和业务需求并发送给所述数据采集集群模块,以触发所述数据采集集群模块进行数据采集工作,同时还监测所述数据计算集群模块的工作状态及处理负荷,在所述数据计算集群模块的工作状态为空闲或处理负荷低于预设值时,触发所述数据计算集群模块基于配置和业务需求进行数据处理。
45.实施例二
46.请参阅图2,图2是本申请实施例公开的另一种大数据的数据接入统一管理平台的结构示意图。该实施例二是在实施例一的基础上的进一步改进,其与实施例一的区别在于:
47.所述数据采集集群模块包括若干流式数据采集器和若干批处理数据采集器。
48.可选地,所述数据采集集群模块,用于根据配置和业务需求,启动一个或多个采集服务,并根据所述分布式协同模块中的配置和注册的计算服务进行数据分发;发送日志数据到消息队列;接受消息队列中的补传消息,生成补传任务,作为批处理任务,对数据进行补传。
49.可选地,所述数据计算集群模块,用于根据配置和业务需求,启动相应的计算服务,并将信息注册到所述分布式协同模块,接受采集集群发送的数据,经过计算后,根据配置发送到数据仓库或其他组件;发送日志数据到消息队列。
50.实施例三
51.请参阅图3,图3是本申请实施例公开的另一种大数据的数据接入统一管理平台的结构示意图。该实施例三是在实施例二的基础上的进一步改进,其与实施例二的区别在于:
52.所述平台还包括容错识别模块,所述容错识别模块用于从消息队列调取日志数据进行分析、统计。
53.因网络波动、中断或者其它情况经常会导致数据采集异常,具体表现为数据容易发生缺失或者产生脏数据,因此导致的数据质量下降会严重影响数据的可靠性。因此,本申请设置了容错识别模块用于从消息队列调取日志数据进行分析、统计,以及时发现异常数据。另外,对于异常数据的处理既可以包括异常数据的删除、挂起后重新获取、异常标记等,还可以采用深度学习算法来分析识别导致异常数据的原因以及进行异常情况的统计分析,
以便于管理平台评估系统稳定性以及进行异常溯源追踪。
54.可选地,所述平台还包括执行单元和服务接口;所述执行器用于控制服务的启停、配置的下发以及集群监控;所述服务接口,用于为前端设备提供接口,以及通过与所述执行单元交互来执行用户操作。
55.可选地,所述web统一管理调度平台,用于为用户提供统一管理调度平台,以实现对整个服务的维护。
56.本领域普通技术人员可以理解上述实施例的各功能模块的全部或部分的功能实现均是可以通过程序来指令相关的硬件来完成,该程序可以存储于以计算机可读存储介质中,存储介质可以包括:rom、ram、磁盘或光盘等。
57.以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1