本公开的实施例涉及计算机,具体涉及多源异构数据处理系统。
背景技术:
1、多源异构数据处理系统,是对多来源数据进行实时处理的系统。目前,在进行多源异构数据处理时,通常采用的方式为:对多来源数据进行分类,然后将同一类别的数据进行统一存储。同时,建立每个类型数据对应的数据标签,以用于数据查询。
2、然而,发明人发现,当采用上述方式进行多源异构数据处理时,经常会存在如下技术问题:
3、第一,多源异构数据结构复杂,数据量大,若进行实时的分类以及存储,不仅需要占用较多的数据处理时长,还由于建立了每个数据对应的数据标签,而占用更多的存储资源;
4、第二,对数据分类存储,难以去除不同种类数据之间的冗余数据,从而,需要占用更多的存储资源。
5、该背景技术部分中所公开的以上信息仅用于增强对本发明构思的背景的理解,并因此,其可包含并不形成本国的本领域普通技术人员已知的现有技术的信息。
技术实现思路
1、本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
2、本公开的一些实施例提出了多源异构数据处理系统,来解决以上背景技术部分提到的技术问题中的一项或多项。
3、第一方面,本公开的一些实施例提供了一种多源异构数据处理系统,该多源异构数据处理系统包括:响应于多源数据采集器获取到多源异构数据集,将上述多源异构数据集中的各个多源异构数据写入至上述数据分配处理引擎,其中,上述多源异构数据集中的各个多源异构数据是从不同数据平台获取的,上述数据分配处理引擎将接收到的每个多源异构数据添加至预设的数据待处理队列;通过上述数据分配处理引擎,将数据待处理队列中的每个多源异构数据分配至上述数据融合处理器组中的数据融合处理器;利用上述数据融合处理器组中的每个数据融合处理器,对接收到的多源异构数据进行数据解析以生成解析后字段信息,得到解析后字段信息集;对上述解析后字段信息集中的各个解析后字段信息进行数据清洗,得到清洗后字段信息集,以及将上述清洗后字段信息集返回至上述数据分配处理引擎,其中,上述数据分配处理引擎将接收到的各个清洗后字段信息添加至预设的数据待发送队列;通过上述数据分配处理引擎,将数据待发送队列中的各个清洗后字段信息分配至上述数据融合分发器组中的数据融合分发器;利用上述数据融合分发器组中的每个数据融合分发器,将接收到的清洗后字段信息写入至上述数据存储组件的数据库,以供存储。
4、第二方面,本公开的一些实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现上述第一方面任一实现方式所描述的方法。
5、第三方面,本公开的一些实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现上述第一方面任一实现方式所描述的方法。
6、本公开的上述各个实施例具有如下有益效果:通过本公开的一些实施例的多源异构数据处理系统,可以减少存储资源的占用。具体来说,造成占用更多的存储资源的原因在于:多源异构数据结构复杂,数据量大,若进行实时的分类以及存储,不仅需要占用较多的数据处理时长,还由于建立了每个数据对应的数据标签。基于此,本公开的一些实施例的多源异构数据处理系统,首先,响应于多源数据采集器获取到多源异构数据集,将上述多源异构数据集中的各个多源异构数据写入至上述数据分配处理引擎。其中,上述多源异构数据集中的各个多源异构数据是从不同数据平台获取的,上述数据分配处理引擎将接收到的每个多源异构数据添加至预设的数据待处理队列。然后,通过上述数据分配处理引擎,将数据待处理队列中的每个多源异构数据分配至上述数据融合处理器组中的数据融合处理器。之后,利用上述数据融合处理器组中的每个数据融合处理器,对接收到的多源异构数据进行数据解析以生成解析后字段信息,得到解析后字段信息集。通过数据解析,可以解析出不同来源数据字段信息,以便于进行数据清洗。接着,对上述解析后字段信息集中的各个解析后字段信息进行数据清洗,得到清洗后字段信息集,以及将上述清洗后字段信息集返回至上述数据分配处理引擎。其中,上述数据分配处理引擎将接收到的各个清洗后字段信息添加至预设的数据待发送队列。这里,通过数据清洗,可以用于将冗余的数据进行去除,以此减少存储资源的占用。而后,通过上述数据分配处理引擎,将数据待发送队列中的各个清洗后字段信息分配至上述数据融合分发器组中的数据融合分发器。最后,利用上述数据融合分发器组中的每个数据融合分发器,将接收到的清洗后字段信息写入至上述数据存储组件的数据库,以供存储。从而,上述实现方式无需对多源异构数据进行分类,且通过数据清洗可以进一步减少存储过程中占用的存储资源。
1.一种多源异构数据处理系统,包括:多源数据采集器、数据分配处理引擎、数据融合处理器组、数据融合分发器组、数据存储组件,其中:
2.根据权利要求1所述的多源异构数据处理系统,其中,所述将数据待处理队列中的每个多源异构数据分配至所述数据融合处理器组中的数据融合处理器,包括:
3.根据权利要求1所述的多源异构数据处理系统,其中,所述对多源异构数据进行数据解析,以生成解析后字段信息,包括:
4.根据权利要求1所述的多源异构数据处理系统,其中,所述对所述解析后字段信息集中的各个解析后字段信息进行数据清洗,得到清洗后字段信息集,包括:
5.根据权利要求1所述的多源异构数据处理系统,其中,将接收到的清洗后字段信息写入至所述数据存储组件的数据库,包括:
6.一种电子设备,包括:
7.一种计算机可读介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1-5中任一所述的多源异构数据处理系统。