一种多源数据集中融合方法与流程

文档序号:35907043发布日期:2023-10-29 03:51阅读:24来源:国知局
一种多源数据集中融合方法与流程

本发明涉及数据出具,具体为一种多源数据集中融合方法。


背景技术:

1、多源数据指的是来自不同数据源的数据,这些数据源可以是不同的数据库、文件、api接口或其他数据存储和提供方式,通过对多源数据进行融合,可以帮助我们从不同的角度和维度来理解和利用数据,提供更全面和准确的信息支持,促进数据驱动的决策和创新,但现有的多源数据在融合的过程中,由于数据源广泛,从而导致不同数据之间的格式不同,在后续融合的过程中,增加了融合的困难程度,且在不同的数据库进行数据的获取时,增加了对数据进行保护的困难程度,易导致数据的泄露。


技术实现思路

1、本发明的目的在于提供一种多源数据集中融合方法,以解决上述背景技术中提出的问题。

2、为实现上述目的,本发明提供如下技术方案:一种多源数据集中融合方法,包括以下步骤:步骤一,连接数据库;步骤二,数据集判断;步骤三,数据集清洗;步骤四,特征提取;步骤五,加权分配;步骤六,数据集融合;步骤七,数据集评估;

3、其中在上述步骤一中,连接所需多源数据库,并获取相关数据集,将保证获取的相关数据集的完整性;

4、其中在上述步骤二中,将步骤一中的获取的数据集,根据所需融合的数据内容判断获取的数据集是否与所需融合的数据一致;

5、其中在上述步骤三中,对步骤二中判断后的数据集进行清洗;

6、其中在上述步骤四中,将步骤三中清洗后的数据集中的数据进行特征提取,提取出具有代表性和区分度的特征;

7、其中在上述步骤五中,将步骤四中提取的每个特征数据进行分配一个权重,且分配权重的方法采用加权平均的方式进行分配权重;

8、其中在上述步骤六中,将步骤五中分权后的数据进行融合处理得到一个新的整体数据集;

9、其中在上述步骤七中,对步骤六中新的整体数据集进行评估,检查数据的一致性、准确性和完整性指标。

10、优选的,所述步骤一中,在连接多源数据库的过程中,可采用连接工具进行连接,连接工具包括mysql workbench、navicat以及datagrip。

11、优选的,所述步骤一中,在对数据进行连接传输的过程中,采用安全协议对数据进行加密处理,且安全协议包括https和ssh,并且连接的多源数据库均设置了加密功能。

12、优选的,所述步骤二中,在判断的过程中,若一致则进行下一步骤,若不一致,则对获取的单个数据集进行删除处理,在判断获取的数据集是否与所需融合的数据一致时,第一次采用人工审查的方式进行判断,当自适应学习算法有了第一次的学习标本后,采用自适应学习算法的方式对数据进行判断,以确保数据的准确信和一致性。

13、优选的,所述步骤三中,原始数据集的清洗包括去除相关数据集之间的重复数据、对无关数据进行删除处理以及对数据集的格式统一转换的工作。

14、优选的,所述步骤七中,将评估后的数据集输入到自适应学习算法中,根据自适应学习算法,可及时的判断处所需融合后的数据集内容,通过对多源数据的集中融合,可不断得到新的数据集,并且利用新的数据集不断地提高自适应学习算法的准确度。

15、与现有技术相比,本发明的有益效果是:该一种多源数据集中融合方法,在连接不同的数据库时,采用加密的方式对数据进行加密处理,避免了数据的泄露,保证了该多源数据集中融合的正常进行,同时对获取的数据集进行了清洗,可简化数据的内容,并且转换数据集的格式,便于后续数据的融合,同时利用自适应学习算法对获取的数据集进行研判处理,有利于精准的获取所需数据集,在后续使用融合后的数据集中,体现了该方法的高效性以及准确性。



技术特征:

1.一种多源数据集中融合方法,包括以下步骤:步骤一,连接数据库;步骤二,数据集判断;步骤三,数据集清洗;步骤四,特征提取;步骤五,加权分配;步骤六,数据集融合;步骤七,数据集评估;其特征在于:

2.根据权利要求1所述的一种多源数据集中融合方法,其特征在于:所述步骤一中,在连接多源数据库的过程中,可采用连接工具进行连接,连接工具包括mysql workbench、navicat以及datagrip。

3.根据权利要求1所述的一种多源数据集中融合方法,其特征在于:所述步骤一中,在对数据进行连接传输的过程中,采用安全协议对数据进行加密处理,且安全协议包括https和ssh,并且连接的多源数据库均设置了加密功能。

4.根据权利要求1所述的一种多源数据集中融合方法,其特征在于:所述步骤二中,在判断的过程中,若一致则进行下一步骤,若不一致,则对获取的单个数据集进行删除处理,在判断获取的数据集是否与所需融合的数据一致时,第一次采用人工审查的方式进行判断,当自适应学习算法有了第一次的学习标本后,采用自适应学习算法的方式对数据进行判断,以确保数据的准确信和一致性。

5.根据权利要求1所述的一种多源数据集中融合方法,其特征在于:所述步骤三中,原始数据集的清洗包括去除相关数据集之间的重复数据、对无关数据进行删除处理以及对数据集的格式统一转换的工作。

6.根据权利要求1所述的一种多源数据集中融合方法,其特征在于:所述步骤七中,将评估后的数据集输入到自适应学习算法中,根据自适应学习算法,可及时的判断处所需融合后的数据集内容,通过对多源数据的集中融合,可不断得到新的数据集,并且利用新的数据集不断地提高自适应学习算法的准确度。


技术总结
本发明公开了一种多源数据集中融合方法,包括以下步骤:步骤一,连接数据库;步骤二,数据集判断;步骤三,数据集清洗;步骤四,特征提取;步骤五,加权分配;步骤六,数据集融合;步骤七,数据集评估;其中在上述步骤一中,连接所需多源数据库,并获取相关数据集,将保证获取的相关数据集的完整性;其中在上述步骤二中,将步骤一中的获取的数据集,根据所需融合的数据内容判断获取的数据集是否与所需融合的数据一致;该发明,在连接不同的数据库时,采用加密的方式对数据进行加密处理,避免了数据的泄露,保证了该多源数据集中融合的正常进行,同时对获取的数据集进行了清洗,可简化数据的内容,并且转换数据集的格式,便于后续数据的融合。

技术研发人员:程国坚,戚华彪,石云,袁芳,徐伟,袁程,黄威,崔欣欣
受保护的技术使用者:江苏集萃工业过程模拟与优化研究所有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1