一种用于网络威胁的多源异构数据治理方法和系统与流程

文档序号:38326833发布日期:2024-06-14 11:02阅读:15来源:国知局
一种用于网络威胁的多源异构数据治理方法和系统与流程

本发明属于互联网领域,尤其涉及一种用于网络威胁的多源异构数据治理方法和系统。


背景技术:

1、单纯的堆叠安全设备和人工运维安全策略,已无法应对层出不穷的新型网络威胁。利用大数据与人工智能技术,汇集各企业上报的数据、开源情报源的情报、权威机构平台的情报,生成行业威胁情报,并配合各企业其他安全产品和平台形成联防联控体系是网络安全发展的趋势。

2、威胁情报作为应对新的攻击手段和变化多端的网络威胁的利器,也是将传统的被动防御转为主动防御的核心动力。但目前各机构的威胁情报存在如下问题:

3、1)通用情报针对性差。

4、2)各企业上报的数据存在数据孤岛,且重数量轻质量。

5、3)开源情报及时性差,且情报价值低。

6、4)单一情报源的情报真实性难以保证。

7、现有技术及其缺陷

8、大数据技术,每个行业都有自身的大数据架构,并根据行业特点,进行不同业务逻辑的数据治理。

9、目前网络安全企业是基于各自的情报来源,通过大数据技术,对情报进行数据治理,从而形成各自的威胁情报库。

10、目前网络安全企业的数据治理的情报存在如下问题,导致无法形成高价值的威胁情报。

11、1)情报源单一

12、2)情报种类单一

13、3)情报及时性低。


技术实现思路

1、为解决上述技术问题,本发明提出一种用于网络威胁的多源异构数据治理方法的技术方案,以解决上述技术问题。

2、本发明第一方面公开了一种用于网络威胁的多源异构数据治理方法,所述方法包括:

3、步骤s1、根据数据索引对各源系统常态化报送与反馈报送的多源异构网络威胁数据进行分类采集;

4、步骤s2、对所述多源异构网络威胁数据以数据仓库的形式临时存储;

5、步骤s3、对数据仓库中多源异构网络威胁数据的进行数据探查,得到数据探查结果;所述数据探查包括接入探查、字段探查、业务探查、数据标准探查和数据规模探查;

6、步骤s4、根据数据探查结果 ,编辑多源异构网络威胁数据的数据标准;所述数据标准包括数据元标准、限定词标准、数据集标准、数据字典、基础资源标准和应用系统标准;

7、步骤s5、根据所述数据标准,配置自定义任务,所述自定义任务规范化处理数据仓库中的多源异构网络威胁数据,完成数据清洗、数据关联和数据回填工作,最终将处理后数据存储到对应的原始情报库中。

8、根据本发明第一方面的方法,在所述步骤s3中,对数据仓库中多源异构网络威胁数据的进行接入探查,即对某类数据索引的网络威胁数据的接入信息进行探查,具体方法包括:

9、从数据仓库的信息中获取接入时间、来源平台、接入协议、数据格式、数据中心编号和数据仓库编号的信息;从数据索引中获取数据流向、数据大类和数据小类的分类信息;

10、对数据仓库中多源异构网络威胁数据的进行字段探查,即对某类数据索引的网络威胁数据字段进行智能解析,给出字段统计和数据元建议,具体方法包括:

11、对于非结构化的多源异构网络威胁数据,记录文件来源、文件路径和文件名的信息;对于结构化的多源异构网络威胁数据,记录数据字段的空值率、取值范围、类型统计和实体命名;

12、对数据仓库中多源异构网络威胁数据的进行业务探查,即对某类数据索引的多源异构网络威胁数据的内容进行智能解析,与相同数据大类下的数据小类的数据集标准中数据集进行数据项比对,给出业务相似度分析结果,具体方法包括:

13、根据字段探查中各字段推荐的数据元作为集合a,相同数据大类下的数据小类的数据集标准中数据集的数据项作为集合b,计算出两个集合的数据项交集|a∩b|,同时计算出两个集合的数据项并集|a∪b|,业务相似度为两个集合交集的大小与并集的大小的比值,即计算公式为相似度=|a∩b| / |a∪b|;

14、对数据仓库中多源异构网络威胁数据的进行数据标准探查,即对某类数据索引的多源异构网络威胁数据与相关数据标准配置进行比对,具体方法包括:

15、数据索引和数据集标准中数据集是一一对应的关系,对于数据索引已配置数据集标准中数据集的多源异构网络威胁数据,将多源异构网络威胁数据的各字段与数据集对应数据项进行比对,比对内容包括字段名称、字段类型和字段格式,记录字段匹配情况,如果有异常匹配情况,需要人工探查;

16、对数据仓库中多源异构网络威胁数据的进行数据规模探查,即

17、对某类数据索引的多源异构网络威胁数据的数据总量、增量和更新频度进行探查,具体方法包括:

18、根据数据索引,统计数据仓库中相同数据索引的数据总量;根据小时时间段,统计数据仓库中相同数据索引的数据增量,分析更新频度,增量趋势。

19、根据本发明第一方面的方法,在所述步骤s3中,所述空值率的计算方法为:(每个字段空值总数/字段总数)*100%。

20、根据本发明第一方面的方法,在所述步骤s3中,所述取值范围的计算方法为:分析字段类型,再根据字段名称、字段类型和字段数值对比已定义的数据元,给出取值范围。

21、根据本发明第一方面的方法,在所述步骤s3中,所述类型统计是统计数据字段的长度、类型以及在数据字段中各种类型的百分比。

22、根据本发明第一方面的方法,在所述步骤s3中,所述实体命名是分析字段名称和字段数值,与已定义的数据元匹配,给出数据元定义。

23、根据本发明第一方面的方法,在所述步骤s4中,所述根据数据探查结果 ,编辑多源异构网络威胁数据的数据标准的方法包括:

24、数据集标准是数据标准的核心标准,数据集由数据项组成,数据项是标准的数据元或者限定词加数据元,即数据项涉及数据元标准和限定词标准,同时数据项的取值范围来自数据字典标准,数据项的资源分级分类定义来自基础资源标准,另外数据集的来源系统信息来自应用系统标准;

25、根据所述接入探查结果中的平台信息以及平台人工调研,编辑应用系统标准的平台信息;

26、根据所述字段探查结果和业务探查结果中的数据元和业务相似度,编辑数据中的数据项的数据元、限定词和基础资源分类分级,再根据编辑的数据项,编辑数据集标准的数据集;

27、根据数据标准探查结果,检查数据与数据集的匹配度,调整数据元标准、限定词标准和数据集标准。

28、本发明第二方面公开了一种用于网络威胁的多源异构数据治理系统,所述系统包括:

29、第一处理模块,被配置为,根据数据索引对各源系统常态化报送与反馈报送的多源异构网络威胁数据进行分类采集;

30、第二处理模块,被配置为,对所述多源异构网络威胁数据以数据仓库的形式临时存储;

31、第三处理模块,被配置为,对数据仓库中多源异构网络威胁数据的进行数据探查,得到数据探查结果;所述数据探查包括接入探查、字段探查、业务探查、数据标准探查和数据规模探查;

32、第四处理模块,被配置为,根据数据探查结果 ,编辑多源异构网络威胁数据的数据标准;所述数据标准包括数据元标准、限定词标准、数据集标准、数据字典、基础资源标准和应用系统标准;

33、第五处理模块,被配置为,根据所述数据标准,配置自定义任务,所述自定义任务规范化处理数据仓库中的多源异构网络威胁数据,完成数据清洗、数据关联和数据回填工作,最终将处理后数据存储到对应的原始情报库中。

34、本发明第三方面公开了一种电子设备。电子设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时,实现本公开第一方面中任一项的一种用于网络威胁的多源异构数据治理方法中的步骤。

35、本发明第四方面公开了一种计算机可读存储介质。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,实现本公开第一方面中任一项的一种用于网络威胁的多源异构数据治理方法中的步骤。

36、综上,本发明提出的方案能够实现对多源异构网络威胁数据的汇聚、清洗、关联、分发等全流程的处理,具备了一站式的数据治理能力和多源异构跨平台的数据适配能力。进行数据治理后的标准化、二维化的原始数据情报更适合科学管理和数据增值,为形成高价值的威胁情报作了重要准备。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1