本发明涉及数据集成领域,具体是一种基于分布式计算的多源异构数据集成系统。
背景技术:
1、多源机构数据集成系统是指将来自不同来源、不同类型、不同结构的数据整合到统一的平台或系统中,包括数据提取、转换、加载等功能,以确保能够被有效地整合和管理,其通常用于企业中,帮助企业将分散在不同系统、数据库或文件中的数据进行整合,从而支持数据分析、报告、决策等业务需求;
2、公开号为cn116483840a的一种基于分布式计算的多源异构数据集成系统公开了一种基于分布式计算的多源异构数据集成系统,用于解决现有的多源异构数据集成系统无法合理的对多源异构数据进行储存,无法保证数据的储存稳定性与储存效率的问题;该多源异构数据集成系统按照数据源将数据源的数据进行整合,并将其进行分布式储存,使得储存的数据之间互不干扰,保证了数据的安全性,同时避免数据杂乱无章,使其易于被查找,之后将分布储存区进行补充,保证了数据储存空间的充足性,保证了数据储存的稳定性与安全性,保证了储存效率,之后将源数包进行转移,进一步保证了储存空间的充足性,且能够对更多的数据进行储存;
3、然而,多源异构数据集成过程中的步骤繁琐,仅对其集成过程进行分布式计算,不能够全面提高企业账户中数据集成的效率,且数据集成过程中,仅能根据固定好的集成方式对数据信息进行集成处理,无法对数据集成系统进行灵活运用;因此,如何提高数据集成系统的效率和灵活性是我们需要解决的问题,为此,现提供一种基于分布式计算的多源异构数据集成系统。
技术实现思路
1、为了解决上述技术问题,本发明的目的在于提供一种基于分布式计算的多源异构数据集成系统。
2、本发明的目的可以通过以下技术方案实现:一种基于分布式计算的多源异构数据集成系统,包括数据集成平台,所述数据集成平台通信链接有数据采集模块、数据储存模块、数据预处理模块、数据分配模块、分布式计算模块以及数据集成模块;
3、所述数据采集模块用于采集企业账号内对应的多源异构数据以及分布式节点的负载数据,根据多源异构数据的数据来源,并根据数据来源对其进行标记;
4、所述数据储存模块用于根据企业账号中对应的多源异构数据的数据来源对其进行储存,获取其历史多源异构数据;
5、所述数据预处理模块用于根据企业账号对应的历史多源异构数据设置分布式格式化处理网络,根据分布式格式化处理网络对应的负载数据选择对应的分布式格式化处理节点对多源异构数据进行格式统一处理,获取多源异构数据对应的特征数据;
6、所述数据分配模块用于根据多源异构数据对应的特征数据的数据来源对其进行来源标记,设置分布式计算处理网络,根据来源标记和负载数据将多源异构数据的特征数据进行任务分配;
7、所述数据集成模块根据任务分配结果对特征数据进行计算,获取待集成数据,根据不同数据来源的待集成数据之间的关系设置快速集成节点进行集成处理,并根据企业账号需求设置临时集成节点,对待集成数据进行集成处理。
8、进一步的,所述数据采集模块采集企业账号内对应的多源异构数据以及分布式节点的负载数据的过程包括:
9、所述数据集成平台获取企业验证信息,所述企业验证信息中包括对应的组织结构和企业资质信息,所述组织结构为企业内各个组织部门的关系,其中包括多个组织部门,对所获得的企业验证信息设置企业账号;
10、所述数据采集模块中设置有数据采集单元和负载采集单元;
11、所述数据采集单元用于获取对应企业账号对应的组织结构,根据企业账号对应的组织结构生成关联窗口集;所述关联窗口集中包括各个组织部门对应的关联子窗口;所述关联子窗口获取对应企业账号内对应组织部门内对应的多源异构数据,将所获得的多源异构数据根据其组织部门进行标记,并将其发送至数据预处理模块;
12、所述负载采集单元用于采集该平台内分布式节点的负载数据,将所采集到的负载数据根据分布式节点的类型进行标记,根据标记结果分别发送至数据预处理模块和数据分配模块。
13、进一步的,所述数据储存模块根据企业账号中对应的多源异构数据的数据来源对其进行储存,获取其历史多源异构数据的过程包括:
14、所述数据储存模块获取对应企业账号的组织结构,根据企业账号的组织结构设置数据储存空间集,所述数据储存空间集根据企业账号对其进行标记,其中包括与组织结构内对应组织部门相应的数据储存子空间,所述数据储存子空间用于获取企业账号内对应组织部门所获取的历史多源异构数据和其格式处理结果,并将其记为历史数据对,对各个历史数据对进行标记储存。
15、进一步的,所述数据预处理模块根据企业账号对应的历史多源异构数据设置分布式格式化处理网络的过程包括:
16、所述数据预处理模块中设置有格式化网络构建单元;
17、所述格式化网络构建单元用于根据企业账号设置对应的分布式格式化处理网络,获取该企业账号对应数据储存空间集中各个数据储存子空间内所储存的历史数据对,并对其数据量进行统计,获取各个数据储存子空间内所储存的数据量,获取对应数据储存空间集内所储存数据量的综合总值;预设数据监测周期,获取数据监测周期内对应数据储存子空间内所储存数据量的周期占比值,根据数据监测周期内对应的周期占比值对应的平均占比值;根据各个数据监测周期内对应的周期占比值设置波动占比区间,获取各个数据储存子空间波动占比区间的下限占比值和平均占比值,预设固定节点系数,根据下限占比值、平均占比值和固定节点系数进行分析处理,获取各个数据储存子空间对应的固定分布式处理节点占比值;
18、根据各个储存子空间对应的固定分布式节点占比值对其分配对应数据量的固定分布式格式化处理节点,完成分配后,将剩余的分布式格式化处理节点标记为弹性分布式格式化处理节点;将固定分布式格式化处理节点和弹性分布式格式化处理节点的分布情况设置分布式格式化处理网络。
19、进一步的,所述数据预处理模块根据分布式格式化处理网络对多源异构数据进行格式统一处理的过程包括:
20、所述数据预处理模块中设置格式化处理单元;
21、所述格式化处理单元获取分布式格式化处理网络中对应数据储存子空间对应的固定分布式格式化处理节点对应的格式化处理节点负载数据以及对应组织部门所采集到的多源异构数据;获取多源异构数据的待处理数据量;根据格式化处理节点负载数据获取空载数据;将所获得的空载数据与待处理数据量进行对比分析,当空载数据大于等于待处理数据量时,则由对应的固定分布式格式化处理节点对多源异构数据进行格式统一处理;当空载数据小于待处理数据量时,则获取其差值数据,根据差值数据获取对应的弹性分布式格式化处理节点对多源异构数据进行格式统一处理;
22、所述格式化处理单元对完成格式统一处理的多源异构数据进行特征提取,其中预设有企业账号相关的特征提取算法,基于特征提取算法对多源异构数据进行分析处理,获取其对应的特征数据。
23、进一步的,所述数据分配模块设置分布式计算处理网络,将多源异构数据的特征数据进行任务分配的过程包括:
24、所述数据分配模块中设置有计算网络构建单元和数据分配单元;
25、所述计算网络构建单元获取企业账号对应的组织结构以及对应的组织部门,根据组织部门设置分布式计算节点;根据组织结构将所设置的分布式计算节点进行连接,构建分布式计算处理网络;
26、所述数据分配单元用于获取分布式计算处理网络中各个分布式计算节点的负载数据,根据所述负载数据设置分布式计算处理网络的资源配置表,并对其进行实时更新;获取各个分布式计算节点内待处理的特征数据的数据量,将其与资源配置表中对应的分布式计算处理网络进行匹配,若匹配成功,则完成任务分配;若未匹配成功,则获取资源配置表中与该分布式计算节点相连接的其他分布式计算节点与特征数据的数据量进行匹配,直至匹配成功,完成任务分配;根据任务分配结果发送至数据集成模块。
27、进一步的,所述数据集成模块根据任务分配结果对特征数据进行计算的过程包括:
28、所述数据集成模块中设置数据集成单元和用户管理单元;
29、所述数据集成单元获取分布式计算处理网络内各个分布式计算节点对应任务的特征数据,由对应的分布式计算节点对相应的特征数据进行分析处理,获取待集成数据;
30、所述数据集成单元根据待集成数据对应的组织部门进行多部门融合,获取多部门数据集;所述多部门数据集中包括不同组织部门相融合的融合子集;所述融合子集中包括对应组织部门的待集成数据;对融合子集中的待集成数据进行集成处理,获取其关联性数据,预设关联性阈值,当关联性数据大于等于关联性阈值时,则保存该融合子集中的组织部门,并设置快速集成节点;将所获得的快速集成节点进行储存,并由快速集成节点进行数据集成处理。
31、进一步的,所述用户管理单元用于对应企业账号内工作人员临时集成节点,所述临时集成节点内根据工作人员需求选择不同组织部门的待集成数据,根据工作人员的需求选择对待集成数据进行集成处理。
32、与现有技术相比,本发明的有益效果是:
33、1、通过设置分布式格式化处理网络和分布式计算处理网络分别对多源异构数据进行格式化处理和计算分析处理,且通过设置资源配置表对分布式计算处理网络内的分布式计算节点对完成格式化处理的多源异构数据进行分析处理,从而在最大程度上提高了数据集成系统内的资源利用和效率;
34、2、预设数据监测周期,根据对应企业账号内对应组织部门数据在该数据集成平台内的占比值设置分布式格式化处理节点,对分布式格式化处理网络进行调整,从而在一定程度上提高了该数据集成系统的灵活性;
35、3、通过企业设置对应的组织结构和其中对应的组织部门,设置对应的分布式格式化处理网络和分布式计算处理网络,且通过企业账号内工作人员需求设置临时集成节点对待集成数据进行分析处理,从而在一定程度上保证了该数据集成系统的灵活性。