多数据源数据的处理系统以及多数据源数据的处理方法与流程

文档序号:28724647发布日期:2022-01-29 15:35阅读:276来源:国知局
多数据源数据的处理系统以及多数据源数据的处理方法与流程

1.本技术涉及计算技术领域,尤其涉及到一种多数据源数据的处理系统以及多数据源数据的处理方法。


背景技术:

2.随着大数据概念兴起,数据的形态和特征发生很大变化,由以往的单一、少量、非实时转变成海量、实时、低价值密度、多样性。
3.目前在一个企业里面,不同类型数据通常是分布在众多独立信息系统中,各个业务系统的数据采集独立存储和处理,缺乏关联性和综合处理能力,尤其在大数据量的采集接收以及处理时,不仅部署难度大,采集配置繁琐,整个流程需要人为操作,维护的成本也比较高,而且因数据孤岛,导致数据分析成为当前众多企业急需解决的难题。


技术实现要素:

4.有鉴于此,本技术提供了一种多数据源数据的处理系统以及多数据源数据的处理方法,可采用分布式架构设计,实现对多数据源数据的统一处理,降低数据维护成本,同时为数据分析提供数据基础。
5.根据本技术的一个方面,提供了一种多数据源数据的处理系统,所述系统采用分时、分布式设计,所述系统包括:任务管理模块、采集引擎模块、数据处理模块;
6.所述采集引擎模块,一端与所述任务管理模块连接,另一端与不同数据源会话连接,用于接收所述任务管理模块下发的数据采集指令,并响应于所述数据采集指令采集目标数据;
7.所述数据处理模块,一端与所述任务管理模块连接,另一端与所述采集引擎模块连接,用于在所述采集引擎模块提取所述目标数据,在所述任务管理模块拉取与所述目标数据匹配的数据处理规则,并利用所述数据处理规则格式化处理所述目标数据。
8.可选地,所述任务管理模块,包括:
9.任务创建单元,通过客户端接口与用户客户端连接,用于接收任务创建请求,并基于所述任务创建请求中携带的任务需求信息确定数据源类型、解析规则模板以及存储模板,并根据所述数据源类型、所述解析规则模板以及所述存储模板生成新建任务;
10.任务修改单元,通过客户端接口与用户客户端连接,用于接收任务修改请求,并基于所述任务修改请求中携带的任务标号确定目标任务,并修改与所述目标任务匹配的调度配置信息。
11.可选地,所述采集引擎模块,包括:
12.主动数据采集单元,用于按照预设时间间隔主动采集目标数据;
13.被动数据采集单元,与所述任务管理模块连接,用于响应于所述任务管理模块下发的数据采集指令采集目标数据;
14.标签化处理单元,与所述主动数据采集单元和所述被动数据采集单元连接,用于
按照预设标签类型对所述主动数据采集单元或所述被动数据采集单元采集到的所述目标数据进行标签化处理,所述预设标签类型包括日志类型和日志源类型。
15.可选地,所述采集引擎模块,还包括:
16.心跳检测单元,与所述任务管理模块建立通讯连接,用于对所述采集引擎模块进行心跳检测,并将心跳检测结果上传至所述任务管理模块。
17.可选地,所述数据处理模块包括:
18.数据缓存子模块,与所述采集引擎模块连接,用于缓存所述目标数据;
19.数据解析子模块,与所述数据缓存子模块和所述任务管理模块连接,用于在所述数据缓存子模块提取所述目标数据,在所述任务管理模块拉取与所述目标数据匹配的目标解析规则,并利用所述目标解析规则对所述目标数据进行解析处理;
20.数据清洗子模块,与所述数据解析子模块连接,用于获取所述目标数据的解析数据,并对所述解析数据进行数据清洗。
21.可选地,所述数据缓存子模块,包括:
22.缓存命名单元,与所述采集引擎模块连接,用于在所述数据缓存子模块提取所述目标数据后,利用预设命名规则对所述目标数据进行命名并缓存。
23.可选地,所述数据解析子模块,包括:
24.规则树生成单元,与所述任务管理模块连接,用于在所述任务管理模块拉取与目标数据匹配的目标解析规则,并基于所述目标解析规则生成规则树;
25.解析树执行单元,与所述规则树生成单元连接,用于基于所述规则树对所述目标数据进行解析处理。
26.可选地,所述数据清洗子模块,包括以下单元中的至少一种:
27.数据过滤单元,用于过滤与第一预设字符匹配的解析数据;
28.数据替换单元,用于替换过滤与第二预设字符匹配的解析数据;
29.数据补全单元,用于确定所述解析数据中的缺失值,并利用预设词典对所述缺失值进行填补处理;
30.时间转换模块,用于将在预设时间字段内的解析数据转换为时间戳;
31.数据截取模块,用于依据数据截取起始位置与数据截取结束位置,在所述解析数据中提取第一关键字段;
32.数据模糊模块,用于依据模糊起始位置与模糊结束位置,在所述解析数据中提取第二关键字段,并对所述第二关键字段进行模糊处理。
33.可选地,所述系统还包括:
34.数据输出模块,与所述数据清洗子模块连接,用于按照预设输出类型输出对所述解析数据的数据清洗结果,所述预设输出类型包括es输出、hdfs输出、hbase输出、kafka输出中的至少一种。
35.根据本技术的另一个方面,提供了一种多数据源数据的处理方法,所述多数据源数据的处理方法应用于上述的多数据源数据的处理系统中,所述方法包括:
36.采集引擎模块接收任务管理模块下发的数据采集指令,并响应于所述数据采集指令采集目标数据;
37.数据处理模块在所述采集引擎模块提取所述目标数据,在所述任务管理模块拉取
与所述目标数据匹配的数据处理规则,并利用所述数据处理规则格式化处理所述目标数据。
38.借由上述技术方案,本技术提供的一种多数据源数据的处理系统以及多数据源数据的处理方法,通过采集引擎模块与不同数据源会话连接,在接收到任务管理模块下发的数据采集指令后,可响应于数据采集指令在对应数据源处采集目标数据,而后由数据处理模块在任务管理模块拉取与所述目标数据匹配的数据处理规则,并依据数据处理规则对目标数据进行格式化处理。通过本技术中的技术方案,可实现对不同数据源数据存储格式的统一转化,便于对多数据源数据的自动维护与存储,降低人工维护成本,同时为数据分析提供数据基础,并通过分时、分布式设计,可保证数据的处理效率。
39.上述说明仅是本技术技术方案的概述,为了能够更清楚了解本技术的技术手段,而可依照说明书的内容予以实施,并且为了让本技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本技术的具体实施方式。
附图说明
40.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
41.图1示出了本技术实施例提供的一种多数据源数据的处理系统的结构示意图;
42.图2示出了本技术实施例提供的另一种多数据源数据的处理系统的结构示意图;
43.图3示出了本技术实施例提供的一种数据缓存子模块的结构示意图;
44.图4示出了本技术实施例提供的一种数据解析子模块的结构示意图;
45.图5示出了本技术实施例提供的一种数据清洗子模块的结构示意图;
46.图中:
47.1-任务管理模块,101-任务创建单元,102-任务修改单元;
48.2-采集引擎模块,201-主动数据采集单元,202-被动数据采集模块,203-标签化处理单元,204-心跳检测单元;
49.3-数据处理模块,31-数据缓存子模块,32-数据解析子模块,33-数据清洗子模块,311-缓存命名单元,321-规则树生成单元,322-解析执行单元,331-数据过滤单元,332-数据替换单元,333-数据补全单元、334-时间转换模块、335-数据截取模块、336-数据模糊模块;
50.4-数据输出模块。
具体实施方式
51.在本技术的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本技术的限制。
52.此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者
隐含地包括一个或者更多个该特征。在本技术的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
53.在本技术中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本技术中的具体含义。
54.下文中将参考附图并结合实施例来详细说明本技术。需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。
55.在本实施例中提供了一种多数据源数据的处理系统,如图1所示,该系统包括:任务管理模块1、采集引擎模块2、数据处理模块3;采集引擎模块2,一端与任务管理模块1连接,另一端与不同数据源会话连接,用于接收任务管理模块1下发的数据采集指令,并响应于数据采集指令在对应的数据源采集目标数据;数据处理模块3,一端与任务管理模块1连接,另一端与采集引擎模块2连接,用于在采集引擎模块2中提取目标数据,在任务管理模块1拉取与目标数据匹配的数据处理规则,并利用数据处理规则格式化处理目标数据。其中,数据处理规则对应为将不同数据源数据转化为相同格式数据的转化规则,具体可涉及到对数据的缓存处理、解析处理、清洗处理等。
56.本技术实施例提供的多数据源数据的处理系统,该系统用于实现对不同数据源数据存储格式的统一转化。该系统采用分布式设计,能支持每秒千万级的数据处理,另外,为了提高数据源数据的处理的响应速度,采用了分时系统,分时系统具有多路性和独立性,其次具有及时性和交互性,使用分时系统能够明显的提高响应速度和处理数据的速度。
57.其中,任务管理模块1主要可用于维护采集任务生命周期,包括任务的创建、任务的启停、任务参数修改、任务调度、任务的删除等。其中,任务创建功能涉及到数据源类型选择,本技术支持数据源类型有如下常见类型:kafka、tcp、udp、oracle、mysql、文本、目录、ftp、sftp等。任务调度功能支持立即执行、定时执行、跨天执行等。
58.相应的,如图2所示,任务管理模块1可包括:任务创建单元101,通过客户端接口与用户客户端连接,用于接收任务创建请求,并基于任务创建请求中携带的任务需求信息确定数据源类型、解析规则模板以及存储模板,进而根据数据源类型、解析规则模板以及存储模板生成新建任务。在具体的应用场景中,鉴于不同数据源类型和设备有关,不同设备产生的日志以及格式不同,故可预先针对每个数据源类型分别确定对应匹配的存储模板以及解析规则模板,并创建数据源类型与对应模板之间的映射关系,以便依据解析规则模板将不同数据源转化为规范的数据表达。具体的,可在接收到任务创建请求后,解析任务创建请求中携带的任务需求信息,确定数据源类型,进而根据上述映射关系筛选与该数据源类型匹配的解析规则模板以及存储模板,并将解析规则模板以及存储模板进行存储,以便后续数据处理模块3通过在任务管理模块1提取解析规则模板以及存储模板,利用解析规则模板以及存储模板对采集到的目标数据进行数据处理。
59.此外,任务管理模块1还可包括:任务修改单元102,通过客户端接口与用户客户端连接,用于接收任务修改请求,并基于任务修改请求中携带的任务标号确定目标任务,并修改与目标任务匹配的调度配置信息。其中,任务修改具体可涉及到对任务参数的修改,对任
in-cx-当前日期+随机数。清洗后数据命名规范:global-日志类型。
66.相应的,如图3所示,数据缓存子模块31包括:缓存命名单元311,与采集引擎模块2连接,用于在数据缓存子模块31提取目标数据后,利用预设命名规则对目标数据进行命名并缓存。
67.相应的,数据解析子模块32的主要职责为对异构数据进行格式化解析,将采集引擎模块2采集到的数据进行范式化,方便后续数据清洗流程。目前该模块支持格式有json解析、正则表达式解析、自定义分隔符解析、键值对解析、cef解析等。基本囊括市面常见安全日志和业务数据格式。其中,如图4所示,数据解析子模块32具体可包括:规则树生成单元321、解析执行单元322。规则树生成单元321,与任务管理模块1连接,用于在任务管理模块1拉取与目标数据匹配的目标解析规则,并基于目标解析规则生成规则树;解析执行单元322,与规则树生成单元321连接,用于基于规则树对目标数据进行解析处理。
68.在具体的应用场景中,在利用数据解析子模块32对目标数据进行解析时,可首先确定与目标数据匹配的目标解析规则,并利用规则树生成单元321生成与目标解析规则对应的规则树,生成规则树的作用在于方便进行规则遍历,便于将数据与规则树中的各个规则进行匹配;进而利用解析执行单元322执行数据解析和transform转换,数据解析用于进行格式化解析,对不同格式数据进行统一的格式解析,进而利用transform对格式解析后的数据进行数据的转换。
69.在具体的应用场景中,常见的日志分析场景对数据的质量和数据关联性有较高要求,数据清洗子模块33负责为数据进一步加工处理,该模块实现以下基本功能:数据过滤功能、数据替换功能、数据补全功能、时间转换功能、静态标签功能、数据截取功能、数据模糊功能等。具体功能描述如下:数据过滤功能描述:当数据中某个字段的值与指定值进行指定比较运算满足条件成立,则丢弃此条数据;数据替换功能描述:当数据中某个字段的值与指定值进行指定比较运算,满足条件成立,则替换数据中指定字段值;数据补全功能描述:当数据中某个字段的值与指定字典中某个字段值进行精准匹配,在等式成立情况下,对该数据补全指定字典中某几个字段值,达到对数据丰富功能;时间转换功能描述:对该类数据指定时间字段的值格式,统一转成时间戳类型,方便后续分析与查询功能;数据截取功能描述:对数据中的关键词提取方式,通过指定该数据中某个字段的数据截取起始位置与截取结束位置,达到数据关键字段提取目的;数据模糊功能描述:对数据中的关键词提取方式,通过指定该数据中某个字段的数据模糊起始位置与模糊结束位置,达到数据关键字段模糊目的。其中,比较运算是指本系统内置比较运算符,如《、》、=、》=、《=、in、like、gt、lt、eq等。
70.相应的,如图5所示,数据清洗子模块33,包括以下单元中的至少一种:数据过滤单元331、数据替换单元332、数据补全单元333、时间转换模块334、数据截取模块335、数据模糊模块336。数据过滤单元331,用于过滤与第一预设字符匹配的解析数据;数据替换单元332,用于替换过滤与第二预设字符匹配的解析数据;数据补全单元333,用于确定解析数据中的缺失值,并利用预设词典对缺失值进行填补处理;时间转换模块334,用于将在预设时间字段内的解析数据转换为时间戳;数据截取模块335,用于依据数据截取起始位置与数据截取结束位置,在解析数据中提取第一关键字段;数据模糊模块336,用于依据模糊起始位置与模糊结束位置,在解析数据中提取第二关键字段,并对第二关键字段进行模糊处理。
71.其中,数据过滤单元331可适用于恶意攻击、非法宣传等信息过滤场景中,通过对第一预设字符的过滤,可准确筛选出与预设信息过滤场景匹配的数据;数据替换单元332与数据截取模块335、数据模糊模块336功能类似,可用于防止用户信息被泄露,起到对信息加密的作用,在利用数据截取模块335解析数据中提取第一关键字段时,具体预先定义截取起始位置与数据截取结束位置,如可为文本中的具体字符位置,通过对截取起始位置与数据截取结束位置之间的关键字段进行截取,以防止信息的泄露。相应的,在利用数据替换单元332在解析数据中替换过滤与第二预设字符匹配的解析数据,或数据模糊模块336在解析数据中提取第二关键字段时,具体可预先定义模糊起始位置与模糊结束位置,通过对模糊起始位置与模糊结束位置之间的关键字段进行模糊处理。如对于11位手机号,可确定模糊起始位置为第四位字符,模糊结束位置为第七位字符,在进行模糊处理时,可将第四位字符至第七位字符替换为预设字符,如用“*”替换,通过此种模糊处理方式,可保证用户的隐私信息不被泄露,进而保证在数据在处理过程的安全性。
72.在具体的应用场景中,为了实现对数据的统一输出,如图2所示,该系统还包括:数据输出模块4,与数据清洗子模块33连接,用于按照预设输出类型输出对解析数据的数据清洗结果,预设输出类型包括es输出、hdfs输出、hbase输出、kafka输出中的至少一种。其中,es输出可适用于实时分析场景;hdfs输出可适用于离线分析场景,此外,鉴于hdfs具有存储空间大、存储时间长的优点,故其还可应用于数据的归档;hbase输出与es输出类似,但两者使用的技术不一样,可应用于数据的实时查询;kafka输出不适于存储,适用于数据的缓冲,在经过一段时间后,缓冲数据会被清除。在具体应用时,可根据客户应用需求在上述4种输出方式中选取最适合的数据输出类型。
73.在本实施例中提供了一种多数据源数据的处理方法,多数据源数据的处理方法应用于如图1或图2的多数据源数据的处理系统中,该方法包括:
74.a1,采集引擎模块接收任务管理模块下发的数据采集指令,并响应于数据采集指令采集目标数据;
75.a2,数据处理模块在采集引擎模块提取目标数据,在任务管理模块拉取与目标数据匹配的数据处理规则,并利用数据处理规则格式化处理目标数据。
76.进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例的具体实施过程,提供了另一种多数据源数据的处理方法,该方法包括:
77.b1,任务创建单元通过客户端接口接收任务创建请求,并基于任务创建请求中携带的任务需求信息确定数据源类型、解析规则模板以及存储模板,并根据数据源类型、解析规则模板以及存储模板生成新建任务;或,通过客户端接口接收任务修改请求,并基于任务修改请求中携带的任务标号确定目标任务,并修改与目标任务匹配的调度配置信息;基于新建任务或修改调度配置信息后的目标任务,向采集引擎模块发送数据采集指令。
78.b2,采集引擎模块接收任务管理模块下发的数据采集指令,并响应于数据采集指令采集目标数据;其中,在采集引擎模块响应于数据采集指令采集目标数据时,可由主动数据采集单元按照预设时间间隔主动采集目标数据;或,由被动数据采集单元响应于任务管理模块下发的数据采集指令采集目标数据。进一步的,利用标签化处理单元按照预设标签类型对主动数据采集单元或被动数据采集单元采集到的目标数据进行标签化处理,预设标签类型包括日志类型和日志源类型。心跳检测单元,对采集引擎模块进行心跳检测,并将心
跳检测结果上传至任务管理模块。
79.b3,数据处理模块在采集引擎模块提取目标数据,在任务管理模块拉取与目标数据匹配的数据处理规则,并利用数据处理规则格式化处理目标数据。包括:数据缓存子模块缓存目标数据;数据解析子模块在数据缓存子模块提取目标数据,在任务管理模块拉取与目标数据匹配的目标解析规则,并利用目标解析规则对目标数据进行解析处理;数据清洗子模块获取目标数据的解析数据,并对解析数据进行数据清洗。
80.其中,数据缓存子模块在缓存目标数据时,包括:缓存命名单元在数据缓存子模块提取目标数据后,利用预设命名规则对目标数据进行命名并缓存。
81.数据解析子模块在数据缓存子模块提取目标数据,在任务管理模块拉取与目标数据匹配的目标解析规则,并利用目标解析规则对目标数据进行解析处理时,包括:规则树生成单元在任务管理模块拉取与目标数据匹配的目标解析规则,并基于目标解析规则生成规则树;解析执行单元基于规则树对目标数据进行解析处理。
82.数据清洗子模块获取目标数据的解析数据,并对解析数据进行数据清洗时,包括以下方法中的至少一种:数据过滤单元过滤与第一预设字符匹配的解析数据;数据替换单元替换过滤与第二预设字符匹配的解析数据;数据补全单元确定解析数据中的缺失值,并利用预设词典对缺失值进行填补处理;时间转换模块将在预设时间字段内的解析数据转换为时间戳;数据截取模块依据数据截取起始位置与数据截取结束位置,在解析数据中提取第一关键字段;数据模糊模块依据模糊起始位置与模糊结束位置,在解析数据中提取第二关键字段,并对第二关键字段进行模糊处理。
83.b4,数据输出模块按照预设输出类型输出对解析数据的数据清洗结果,预设输出类型包括es输出、hdfs输出、hbase输出、kafka输出中的至少一种。
84.借由上述技术方案,本技术提供的一种多数据源数据的处理方法,通过采集引擎模块与不同数据源会话连接,在接收到任务管理模块下发的数据采集指令后,可响应于数据采集指令在对应数据源处采集目标数据,而后由数据处理模块在任务管理模块拉取与目标数据匹配的数据处理规则,并依据数据处理规则对目标数据进行格式化处理,具体可包括数据缓存处理、数据解析处理、数据清洗处理。通过本技术中的技术方案,可实现对不同数据源数据存储格式的统一转化,便于对多数据源数据的自动维护与存储,降低人工维护成本,同时为数据分析提供数据基础,并通过分时、分布式设计,可保证数据的处理效率。且在采集引擎与数据解析之间通过添加数据缓存子模块,可利用数据缓存组件解决数据采集器与数据解析器之间吞吐不一致问题,同时,提升整体数据etl吞吐量和执行效率。
85.本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本技术所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
86.上述本技术序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本技术的几个具体实施场景,但是,本技术并非局限于此,任何本领域的技术人员能思之的变化都应落入本技术的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1