基于样本维度的数据降噪方法、装置、设备及存储介质与流程

文档序号:30059509发布日期:2022-05-17 20:54阅读:58来源:国知局
基于样本维度的数据降噪方法、装置、设备及存储介质与流程

1.本发明涉及网络安全技术领域,尤其涉及一种基于样本维度的数据降噪方法、装置、设备及存储介质。


背景技术:

2.在高级威胁(advanced persistent threat,apt)行为体与安全终端产品测试对抗的过程中,高级威胁行为体绝大多数情况下会在一个虚拟环境下安装该终端产品,并测试其恶意工具对抗安全终端产品能力,从而评估下一步攻击投放的可行性。
3.在对抗过程中,高级威胁行为体会持续暴露自身习惯特征,因此,可以通过对该类日志进行提取标识整理形成知识库,利用多维度方法快速关联确认曾经进行或者正在进行的测试对抗活动,实现对高级威胁行为体快速识别,并预测其下一步攻击动向。
4.但是,在与高级威胁行为体对抗过程中,捕获的疑似测试机样本数据中通常都含有大量噪音样本,即疑似测试机样本中含有大量正常用户的数据样本,若全部进行分析,则会浪费大量的计算资源,且分析难度也会大大增加,因此,需要对捕获的疑似测试机样本进行数据降噪,以排除噪音样本。
5.上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。


技术实现要素:

6.本发明的主要目的在于提供一种基于样本维度的数据降噪方法、装置、设备及存储介质,旨在解决如何对捕获的疑似测试机样本进行数据降噪,以排除噪音样本的技术问题。
7.为实现上述目的,本发明提供了一种基于样本维度的数据降噪方法,所述基于样本维度的数据降噪方法包括以下步骤:
8.获取疑似测试机样本集中各个疑似测试机样本对应的样本特征;
9.将所述样本特征与样本组织规则进行匹配,获得对应的样本家族;
10.获取所述样本家族与高级威胁行为体之间的关联关系;
11.根据所述关联关系对所述疑似测试机样本集进行降噪处理。
12.可选地,所述获取疑似测试机样本集中各个疑似测试机样本对应的样本特征的步骤之前,还包括:
13.获取测试机样本集中各个测试机样本对应的样本特征;
14.根据所述样本特征构建样本组织规则。
15.可选地,所述根据所述样本特征构建样本组织规则的步骤,包括:
16.对所述样本特征进行聚类分析,获得各个测试机样本对应的样本家族;
17.根据所述样本家族对所述测试机样本集进行分组,获得各个样本家族对应的测试机样本子集;
18.根据所述测试机样本子集构建对应的组织规则;
19.根据所述组织规则构建样本组织规则。
20.可选地,所述根据所述测试机样本子集获取对应的组织规则的步骤,包括:
21.获取所述测试机样本子集中各个测试机样本的样本特征;
22.获取所述样本特征中的动态特征及静态特征;
23.根据所述动态特征及所述静态特征构建对应的组织规则。
24.可选地,所述获取疑似测试机样本集中各个疑似测试机样本对应的样本特征的步骤之前,还包括:
25.获取初始测试机样本集中各个疑似测试机样本对应的样本日志;
26.根据所述样本日志对所述初始测试机样本集进行降噪处理,获得疑似测试机样本集。
27.可选地,所述根据所述样本日志对所述初始测试机样本集进行降噪处理的步骤,包括:
28.根据所述样本日志对所述初始测试机样本集中的各个疑似测试机样本进行标记;
29.将所述初始测试机样本集中被标记为噪音样本的疑似测试机样本清除。
30.可选地,所述根据所述样本日志对所述初始测试机样本集中的各个疑似测试机样本进行标记的步骤,包括:
31.根据所述样本日志获取所述初始测试机样本集中各个疑似测试机样本对应的日志打点量级;
32.将所述日志打点量级大于预设量级阈值的疑似测试机样本标记为噪音样本。
33.可选地,所述根据所述关联关系对所述疑似测试机样本集进行降噪处理的步骤,包括:
34.根据所述关联关系对所述疑似测试机样本集中的各个疑似测试机样本进行标记;
35.将所述疑似测试机样本集中被标记为噪音样本的疑似测试机样本清除。
36.可选地,所述根据所述关联关系对所述疑似测试机样本集中的各个疑似测试机样本进行标记的步骤,包括:
37.根据所述关联关系获取所述疑似测试机样本集中各个疑似测试机样本的关联分值;
38.将所述关联分值小于或等于预设分数阈值的疑似测试机样本标记为噪音样本。
39.可选地,所述将所述样本特征与样本组织规则进行匹配,获得对应的样本家族的步骤,包括:
40.将所述样本特征与所述样本组织规则进行匹配,获得样本特征与各个样本家族的匹配分值;
41.根据所述匹配分值确定所述样本特征对应的样本家族。
42.可选地,所述根据所述匹配分值确定所述样本特征对应的样本家族的步骤,包括:
43.将所述匹配分值按从大到小进行排序,获得排序结果;
44.将排序第一的匹配分值对应的样本家族作为所述样本特征对应的样本家族。
45.此外,为实现上述目的,本发明还提出一种基于样本维度的数据降噪装置,所述装置包括:
46.特征提取模块,用于获取疑似测试机样本集中各个疑似测试机样本对应的样本特征;
47.家族匹配模块,用于将所述样本特征与样本组织规则进行匹配,获得对应的样本家族;
48.关联获取模块,用于获取所述样本家族与高级威胁行为体之间的关联关系;
49.降噪处理模块,用于根据所述关联关系对所述疑似测试机样本集进行降噪处理。
50.可选地,所述特征提取模块还用于获取测试机样本集中各个测试机样本对应的样本特征;根据所述样本特征构建样本组织规则。
51.可选地,所述特征提取模块还用于对所述样本特征进行聚类分析,获得各个测试机样本对应的样本家族;根据所述样本家族对所述测试机样本集进行分组,获得各个样本家族对应的测试机样本子集;根据所述测试机样本子集构建对应的组织规则;根据所述组织规则构建样本组织规则。
52.可选地,所述特征提取模块还用于获取初始测试机样本集中各个疑似测试机样本对应的样本日志;根据所述样本日志对所述初始测试机样本集进行降噪处理,获得疑似测试机样本集。
53.可选地,所述降噪处理模块还用于根据所述关联关系对所述疑似测试机样本集中的各个疑似测试机样本进行标记;将所述疑似测试机样本集中被标记为噪音样本的疑似测试机样本清除。
54.可选地,所述家族匹配模块还用于将所述样本特征与所述样本组织规则进行匹配,获得样本特征与各个样本家族的匹配分值;根据所述匹配分值确定所述样本特征对应的样本家族。
55.可选地,所述家族匹配模块还用于将所述匹配分值按从大到小进行排序,获得排序结果;将排序第一的匹配分值对应的样本家族作为所述样本特征对应的样本家族。
56.此外,为实现上述目的,本发明还提出一种基于样本维度的数据降噪设备,所述基于样本维度的数据降噪设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于样本维度的数据降噪程序,所述基于样本维度的数据降噪程序被所述处理器执行时实现如上述任一项所述的基于样本维度的数据降噪方法的步骤。
57.此外,为实现上述目的,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有基于样本维度的数据降噪程序,所述基于样本维度的数据降噪程序执行时实现如上述任一项所述的基于样本维度的数据降噪方法的步骤。
58.本发明通过获取疑似测试机样本集中各个疑似测试机样本对应的样本特征,将样本特征与样本组织规则进行匹配,获得对应的样本家族,再获取样本家族与高级威胁行为体之间的关联关系,根据关联关系对疑似测试机样本集进行降噪处理。因本发明是通过将疑似测试机样本的样本特征与样本组织规则进行匹配,获得对应的样本家族,即可通过样本家族与高级威胁行为体的关联关系快速对疑似测试机样本集进行降噪处理,将疑似测试机样本为测试机样本的可能性较低的样本进行清除,以减少计算资源的损耗,提高样本分析速度,降低样本分析难度。
附图说明
59.图1是本发明实施例方案涉及的硬件运行环境的电子设备的结构示意图;
60.图2为本发明基于样本维度的数据降噪方法第一实施例的流程示意图;
61.图3为本发明基于样本维度的数据降噪方法第二实施例的流程示意图;
62.图4为本发明基于样本维度的数据降噪方法第三实施例的流程示意图;
63.图5为本发明基于样本维度的数据降噪装置第一实施例的结构框图。
64.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
65.应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
66.参照图1,图1为本发明实施例方案涉及的硬件运行环境的基于样本维度的数据降噪设备结构示意图。
67.如图1所示,该电子设备可以包括:处理器1001,例如中央处理器(central processing unit,cpu),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(wireless-fidelity,wi-fi)接口)。存储器1005可以是高速的随机存取存储器(random access memory,ram)存储器,也可以是稳定的非易失性存储器(non-volatile memory,nvm),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
68.本领域技术人员可以理解,图1中示出的结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
69.如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于样本维度的数据降噪程序。
70.在图1所示的电子设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明电子设备中的处理器1001、存储器1005可以设置在基于样本维度的数据降噪设备中,所述电子设备通过处理器1001调用存储器1005中存储的基于样本维度的数据降噪程序,并执行本发明实施例提供的基于样本维度的数据降噪方法。
71.本发明实施例提供了一种基于样本维度的数据降噪方法,参照图2,图2为本发明一种基于样本维度的数据降噪方法第一实施例的流程示意图。
72.本实施例中,所述基于样本维度的数据降噪方法包括以下步骤:
73.步骤s10:获取疑似测试机样本集中各个疑似测试机样本对应的样本特征;
74.需要说明的是,本实施例的执行主体是所述基于样本维度的数据降噪设备,所述基于样本维度的数据降噪设备可以为个人电脑、服务器、云服务器等电子设备,还可为其他可实现相同或相似功能的设备,本实施例对此不作限制,在本实施例以及下述各实施例中,以基于样本维度的数据降噪设备为例对本发明基于样本维度的数据降噪方法进行说明。
75.需要说明的是,终端用户为在终端上安装安全终端产品进行使用的用户,而以测试对抗为目的在终端安装安全终端产品进行使用的用户为测试机用户,简称为测试机。疑
似测试机样本为从有疑似测试对抗行为的终端用户的终端采集的数据样本,疑似测试机样本集为多个疑似测试机样本进行组合构建的样本集合,样本特征为样本的特征信息,特征信息可以区分为动态特征及静态特征,静态特征可以包括采集的可疑程序的代码特征等,动态特征可以包括采集的用户终端运行的进程信息、网络数据包、运行日志等。
76.步骤s20:将所述样本特征与样本组织规则进行匹配,获得对应的样本家族;
77.需要说明的是,样本家族为通过对已确定为测试机的样本的样本特征进行聚类分析,将样本特征相似、相同或有关联的一类划分得到的;样本组织规则是由各个样本家族的组织规则组合构建而成的;通过将疑似测试机样本的样本特征与样本组织规则进行匹配,则可以得到与疑似测试机样本相似相近的样本家族。
78.进一步地,为了更直观的表示样本特征与各个样本家族的匹配关系,方便确定疑似测试机样本对应的样本家族,本实施例将所述样本特征与样本组织规则进行匹配,获得对应的样本家族的步骤,可以为:
79.将所述样本特征与所述样本组织规则进行匹配,获得样本特征与各个样本家族的匹配分值;根据所述匹配分值确定所述样本特征对应的样本家族。
80.需要说明的是,一个疑似测试机样本可能会与样本组织规则中多个组织规则都存在相似或相同的情况,为了更直观的表现匹配度,便于获取最近似的样本家族,可以通过计算匹配分值,用于表示匹配关系,通过匹配分值量化匹配度,而后通过匹配分值即可快速、便捷的确定疑似测试机样本的样本特征对应的样本家族,具体的匹配分值可以根据实际情况进行设置,本实施例对此不加以限制。
81.进一步地,为了确定疑似测试机样本对应的样本家族,本实施例根据所述匹配分值确定所述样本特征对应的样本家族的步骤,可以为:
82.将所述匹配分值按从大到小进行排序,获得排序结果;将排序第一的匹配分值对应的样本家族作为所述样本特征对应的样本家族。
83.需要说明的是,匹配分值是用于表示疑似测试机样本的样本特征与各个样本家族的组织规则的匹配度的分值,因此,匹配分值越高则说明匹配度越高,因此,将匹配分值从大到小排序,选取排序第一的匹配分值对应的样本家族即可获得匹配度最高的样本家族,则可将选取的样本家族作为疑似测试机样本的样本特征对应的样本家族。
84.例如:疑似测试机样本p的样本特征通过与样本组织规则进行匹配,确定了与a、b、c三个样本家族的组织规则都存在相同、相似关系,匹配分值分别为70、90、65,则此时可以将匹配分值从大到小排序,选择排序第一的匹配分值90,匹配分值90对应的样本家族为b,则此时可以将b作为疑似测试机样本p的样本特征对应的样本家族。
85.步骤s30:获取所述样本家族与高级威胁行为体之间的关联关系;
86.需要说明的是,高级威胁,又称高级持续性威胁、先进持续性威胁等,是指隐匿而持久的电脑入侵过程,通常由某些人员精心策划,针对特定的目标。其通常是出于商业或政治动机,针对特定组织或国家,并要求在长时间内保持高隐蔽性。高级长期威胁包含三个要素:高级、长期、威胁。高级强调的是使用复杂精密的恶意软件及技术以利用系统中的漏洞。长期暗指某个外部力量会持续监控特定目标,并从其获取数据。威胁则指人为参与策划的攻击。apt攻击,即高级可持续威胁攻击,也称为定向威胁攻击,指某组织对特定对象展开的持续有效的攻击活动。具备apt攻击行为的个体,被称为apt行为体,即高级威胁行为体。
87.可以理解的是,高级威胁行为体会持续暴露自身的特征信息,因此,可以将样本家族与高级威胁行为体的特征信息进行关联,获得对应的关联关系。
88.在实际使用中,关联关系的确定可以通过多维度的消息进行判定,例如使用厂商共享的高级威胁行为体报告线索、网络资产信息、网站ip解析结果、高级威胁行为体分析报告等多维度信息判断样本家族与高级威胁行为体的关联关系,可以实时分析样本家族与高级威胁行为体的关联关系,也可以预先分析样本家族与高级威胁行为体的关联关系,生成对应的关联关系表,在需要时直接进行查表使用,本实施例对此不加以限制。
89.步骤s40:根据所述关联关系对所述疑似测试机样本集进行降噪处理。
90.需要说明的是,关联关系表示了样本家族与高级威胁行为体之间的关联性,通过关联关系表示疑似测试机样本为测试机的可能性,因此,可以通过关联关系对疑似测试机样本集进行降噪处理,排除掉关联性较低的样本,即为测试机可能性较低的疑似测试机样本。
91.进一步地,为了提高降噪处理速度,本实施例根据所述关联关系对所述疑似测试机样本集进行降噪处理的步骤,可以为:
92.根据所述关联关系对所述疑似测试机样本集中的各个疑似测试机样本进行标记;将所述疑似测试机样本集中被标记为噪音样本的疑似测试机样本清除。
93.需要说明的是,对集合的处理一般是采用遍历的方式,但是若是在遍历过程中直接对集合数据进行修改,可以会出现索引异常等现象,导致漏删或者误删等现象,且在遍历过程中进行过多的操作,会大大的降低处理的效率,因此,可以先通过关联关系对疑似测试机样本集中的各个疑似测试机样本进行标记,将需要清除的样本标记为噪音样本,而后在遍历完成之后,将疑似测试机样本集中所有被标记为噪音样本的疑似测试机样本统一进行清除,可以提高处理速度。
94.进一步地,为了便于对疑似测试机样本集中各个疑似测试机样本进行标记,本实施例根据所述关联关系对所述疑似测试机样本集中的各个疑似测试机样本进行标记的步骤,可以为:
95.根据所述关联关系获取所述疑似测试机样本集中各个疑似测试机样本的关联分值;将所述关联分值小于或等于预设分数阈值的疑似测试机样本标记为噪音样本。
96.需要说明的是,关联关系难以量化,以关联关系对疑似测试机样本集中各个疑似测试机样本进行标记十分困难,因此,可以使用关联分值将关联关系进行量化,使用关联分值表示具体的关联性。根据实际情况预设分数阈值,关联分值小于或等于预设分数阈值,则可以说明关联性低,可以将关联分值小于或等于预设分数阈值的疑似测试机样本标记为噪音样本,进行降噪处理时进行清除。
97.本实施例通过获取疑似测试机样本集中各个疑似测试机样本对应的样本特征,将样本特征与样本组织规则进行匹配,获得对应的样本家族,再获取样本家族与高级威胁行为体之间的关联关系,根据关联关系对疑似测试机样本集进行降噪处理。因本发明是通过将疑似测试机样本的样本特征与样本组织规则进行匹配,获得对应的样本家族,即可通过样本家族与高级威胁行为体的关联关系快速对疑似测试机样本集进行降噪处理,将疑似测试机样本为测试机样本的可能性较低的样本进行清除,以减少计算资源的损耗,提高样本分析速度,降低样本分析难度。
98.参考图3,图3为本发明一种基于样本维度的数据降噪方法第二实施例的流程示意图。
99.基于上述第一实施例,本实施例基于样本维度的数据降噪方法在所述步骤s10之前,还包括:
100.步骤s01:获取测试机样本集中各个测试机样本对应的样本特征;
101.需要说明的是,测试机样本是已经被确定为测试机的数据样本,测试机样本集是由多个测试机样本构建而成的样本集,样本特征为测试机样本的特征信息,特征信息可以区分为动态特征及静态特征,静态特征可以包括采集的可疑程序的代码特征等,动态特征可以包括采集的用户终端运行的进程信息、网络数据包、运行日志等。
102.步骤s02:根据所述样本特征构建样本组织规则。
103.需要说明的是,可以根据样本特征进行分析构建样本组织规则,样本组织规则包括了各个样本家族对应的组织规则。
104.进一步地,为了根据所述样本特征构建样本组织规则,本实施例根据所述样本特征构建样本组织规则的步骤,可以为:
105.对所述样本特征进行聚类分析,获得各个测试机样本对应的样本家族;根据所述样本家族对所述测试机样本集进行分组,获得各个样本家族对应的测试机样本子集;根据所述测试机样本子集构建对应的组织规则;根据所述组织规则构建样本组织规则。
106.需要说明的是,通过对样本特征进行聚类分析,可以划分出若干个样本家族,并确定各个测试机样本对应的样本家族,而后将测试机样本集根据样本家族进行分组,即可获得各个样本家族对应的测试机样本子集,通过对测试机样本子集中的各个测试机样本进行分析,可以确定测试机样本子集对应的组织规则,即样本家族对应的组织规则,而后将各个样本家族的组织规则进行组合,即可构建样本组织规则。
107.进一步地,为了根据测试机样本子集构建对应的组织规则,本实施例根据所述测试机样本子集构建对应的组织规则的步骤,可以为:
108.获取所述测试机样本子集中各个测试机样本的样本特征;获取所述样本特征中的动态特征及静态特征;根据所述动态特征及所述静态特征构建对应的组织规则。
109.需要说明的是,测试机样本的样本特征是测试机样本的特征信息,特征信息包括了动态特征及静态特征,通过对测试机样本子集中各个测试机样本的动态特征及静态特征进行归纳、分析、汇总,提取出特征相同、相似的规则,即可构建对应的组织规则。
110.本实施例通过获取测试机样本集中各个测试机样本对应的样本特征,根据所述样本特征构建样本组织规则,通过对已经确定为测试机的测试机样本的样本特征进行分析构建样本组织规则,便于通过疑似测试样本的样本特征匹配对应的样本家族进行下一步分析。
111.参考图4,图4为本发明一种基于样本维度的数据降噪方法第三实施例的流程示意图。
112.基于上述第一实施例,本实施例基于样本维度的数据降噪方法在所述步骤s10之前,还包括:
113.步骤s01':获取初始测试机样本集中各个疑似测试机样本对应的样本日志;
114.需要说明的是,样本日志是疑似测试机样本的用户终端的用户操作日志,初始测
试机样本集是包含了若干个疑似测试机样本的样本集合。
115.步骤s02':根据所述样本日志对所述初始测试机样本集进行降噪处理,获得疑似测试机样本集。
116.需要说明的是,测试机主要目的是用于测试恶意工具对抗安全终端产品的能力,目标十分明确,点击量较少,在达到测试目的之后,会卸载安全终端产品并消除系统痕迹,因此真正的测试机用户安装安全终端产品时间一般都会较短,产生的用户操作日志量都较少,可以通过对样本日志进行分析,对初始测试机样本集进行降噪处理,清除掉部分为测试机可能性较低的疑似测试机样本,得到疑似测试机样本集。
117.进一步地,为了快速进行降噪处理,本实施例根据所述样本日志对所述初始测试机样本集进行降噪处理的步骤,可以为:
118.根据所述样本日志对所述初始测试机样本集中的各个疑似测试机样本进行标记;将所述初始测试机样本集中被标记为噪音样本的疑似测试机样本清除。
119.需要说明的是,对集合的处理一般是采用遍历的方式,但是若是在遍历过程中直接对集合数据进行修改,可以会出现索引异常等现象,导致漏删或者误删等现象,且在遍历过程中进行过多的操作,会大大的降低处理的效率,因此,可以先通过样本日志对初始测试机样本集中的各个疑似测试机样本进行标记,将需要清除的样本标记为噪音样本,而后在遍历完成之后,将初始测试机样本集中所有被标记为噪音样本的疑似测试机样本统一进行清除,可以提高处理速度。
120.进一步地,为了合理的通过样本日志对疑似测试机样本进行标记,本实施例根据所述样本日志对所述初始测试机样本集中的各个疑似测试机样本进行标记的步骤,可以为:
121.根据所述样本日志获取所述初始测试机样本集中各个疑似测试机样本对应的日志打点量级;将所述日志打点量级大于预设量级阈值的疑似测试机样本标记为噪音样本。
122.需要说明的是,真正的测试机用户安装安全终端产品时间一般都会较短,且目的明确,点击量也会较少,因此产生的用户操作日志量都较少,因此样本日志较多的疑似测试机样本为测试机的可能性较低,可以通过对样本日志进行日志数量统计,获得对应的日志打点量级,根据实际情况预设量级阈值,在疑似测试机样本对应的日志打点量级大于预设量级阈值时,将疑似测试机样本标记为噪音样本,在降噪处理时清除。
123.本实施例通过获取初始测试机样本集中各个疑似测试机样本对应的样本日志,根据所述样本日志对所述初始测试机样本集进行降噪处理,获得疑似测试机样本集,预先根据样本日志进行分析,将初始测试机样本集中为测试机可能性较低的疑似测试机样本进行了清除,进一步减少计算资源的损耗,提高样本分析速度,降低样本分析难度。
124.此外,本发明实施例还提出一种存储介质,所述存储介质上存储有基于样本维度的数据降噪程序,所述基于样本维度的数据降噪程序被处理器执行时实现如上文所述的基于样本维度的数据降噪方法的步骤。
125.参照图5,图5为本发明基于样本维度的数据降噪装置第一实施例的结构框图。
126.如图5所示,本发明实施例提出的基于样本维度的数据降噪装置包括:
127.特征提取模块501,用于获取疑似测试机样本集中各个疑似测试机样本对应的样本特征;
128.家族匹配模块502:将所述样本特征与样本组织规则进行匹配,获得对应的样本家族;
129.关联获取模块503:获取所述样本家族与高级威胁行为体之间的关联关系;
130.降噪处理模块504:根据所述关联关系对所述疑似测试机样本集进行降噪处理。
131.本实施例通过获取疑似测试机样本集中各个疑似测试机样本对应的样本特征,将样本特征与样本组织规则进行匹配,获得对应的样本家族,再获取样本家族与高级威胁行为体之间的关联关系,根据关联关系对疑似测试机样本集进行降噪处理。因本发明是通过将疑似测试机样本的样本特征与样本组织规则进行匹配,获得对应的样本家族,即可通过样本家族与高级威胁行为体的关联关系快速对疑似测试机样本集进行降噪处理,将疑似测试机样本为测试机样本的可能性较低的样本进行清除,以减少计算资源的损耗,提高样本分析速度,降低样本分析难度。
132.进一步地,所述特征提取模块501还用于获取测试机样本集中各个测试机样本对应的样本特征;根据所述样本特征构建样本组织规则。
133.进一步地,所述特征提取模块501还用于对所述样本特征进行聚类分析,获得各个测试机样本对应的样本家族;根据所述样本家族对所述测试机样本集进行分组,获得各个样本家族对应的测试机样本子集;根据所述测试机样本子集构建对应的组织规则;根据所述组织规则构建样本组织规则。
134.进一步地,所述特征提取模块501还用于获取所述测试机样本子集中各个测试机样本的样本特征;获取所述样本特征中的动态特征及静态特征;根据所述动态特征及所述静态特征构建对应的组织规则。
135.进一步地,所述特征提取模块501还用于获取初始测试机样本集中各个疑似测试机样本对应的样本日志;根据所述样本日志对所述初始测试机样本集进行降噪处理,获得疑似测试机样本集。
136.进一步地,所述特征提取模块501还用于根据所述样本日志对所述初始测试机样本集中的各个疑似测试机样本进行标记;将所述初始测试机样本集中被标记为噪音样本的疑似测试机样本清除。
137.进一步地,所述特征提取模块501还用于根据所述样本日志获取所述初始测试机样本集中各个疑似测试机样本对应的日志打点量级;将所述日志打点量级大于预设量级阈值的疑似测试机样本标记为噪音样本。
138.进一步地,所述降噪处理模块504还用于根据所述关联关系对所述疑似测试机样本集中的各个疑似测试机样本进行标记;将所述疑似测试机样本集中被标记为噪音样本的疑似测试机样本清除。
139.进一步地,所述降噪处理模块504还用于根据所述关联关系获取所述疑似测试机样本集中各个疑似测试机样本的关联分值;将所述关联分值小于或等于预设分数阈值的疑似测试机样本标记为噪音样本。
140.进一步地,所述家族匹配模块502还用于将所述样本特征与所述样本组织规则进行匹配,获得样本特征与各个样本家族的匹配分值;根据所述匹配分值确定所述样本特征对应的样本家族。
141.进一步地,所述家族匹配模块502还用于将所述匹配分值按从大到小进行排序,获
得排序结果;将排序第一的匹配分值对应的样本家族作为所述样本特征对应的样本家族。
142.应当理解的是,以上仅为举例说明,对本发明的技术方案并不构成任何限定,在具体应用中,本领域的技术人员可以根据需要进行设置,本发明对此不做限制。
143.需要说明的是,以上所描述的工作流程仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的,此处不做限制。
144.另外,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的基于样本维度的数据降噪方法,此处不再赘述。
145.此外,需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
146.上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
147.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器(read only memory,rom)/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
148.以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
149.本发明公开了a1、一种基于样本维度的数据降噪方法,所述基于样本维度的数据降噪方法包括以下步骤:
150.获取疑似测试机样本集中各个疑似测试机样本对应的样本特征;
151.将所述样本特征与样本组织规则进行匹配,获得对应的样本家族;
152.获取所述样本家族与高级威胁行为体之间的关联关系;
153.根据所述关联关系对所述疑似测试机样本集进行降噪处理。
154.a2、如a1所述的基于样本维度的数据降噪方法,所述获取疑似测试机样本集中各个疑似测试机样本对应的样本特征的步骤之前,还包括:
155.获取测试机样本集中各个测试机样本对应的样本特征;
156.根据所述样本特征构建样本组织规则。
157.a3、如a2所述的基于样本维度的数据降噪方法,所述根据所述样本特征构建样本组织规则的步骤,包括:
158.对所述样本特征进行聚类分析,获得各个测试机样本对应的样本家族;
159.根据所述样本家族对所述测试机样本集进行分组,获得各个样本家族对应的测试机样本子集;
160.根据所述测试机样本子集构建对应的组织规则;
161.根据所述组织规则构建样本组织规则。
162.a4、如a3所述的基于样本维度的数据降噪方法,所述根据所述测试机样本子集获取对应的组织规则的步骤,包括:
163.获取所述测试机样本子集中各个测试机样本的样本特征;
164.获取所述样本特征中的动态特征及静态特征;
165.根据所述动态特征及所述静态特征构建对应的组织规则。
166.a5、如a1所述的基于样本维度的数据降噪方法,所述获取疑似测试机样本集中各个疑似测试机样本对应的样本特征的步骤之前,还包括:
167.获取初始测试机样本集中各个疑似测试机样本对应的样本日志;
168.根据所述样本日志对所述初始测试机样本集进行降噪处理,获得疑似测试机样本集。
169.a6、如a5所述的基于样本维度的数据降噪方法,所述根据所述样本日志对所述初始测试机样本集进行降噪处理的步骤,包括:
170.根据所述样本日志对所述初始测试机样本集中的各个疑似测试机样本进行标记;
171.将所述初始测试机样本集中被标记为噪音样本的疑似测试机样本清除。
172.a7、如a6所述的基于样本维度的数据降噪方法,所述根据所述样本日志对所述初始测试机样本集中的各个疑似测试机样本进行标记的步骤,包括:
173.根据所述样本日志获取所述初始测试机样本集中各个疑似测试机样本对应的日志打点量级;
174.将所述日志打点量级大于预设量级阈值的疑似测试机样本标记为噪音样本。
175.a8、如a1所述的基于样本维度的数据降噪方法,所述根据所述关联关系对所述疑似测试机样本集进行降噪处理的步骤,包括:
176.根据所述关联关系对所述疑似测试机样本集中的各个疑似测试机样本进行标记;
177.将所述疑似测试机样本集中被标记为噪音样本的疑似测试机样本清除。
178.a9、如a8所述的基于样本维度的数据降噪方法,所述根据所述关联关系对所述疑似测试机样本集中的各个疑似测试机样本进行标记的步骤,包括:
179.根据所述关联关系获取所述疑似测试机样本集中各个疑似测试机样本的关联分值;
180.将所述关联分值小于或等于预设分数阈值的疑似测试机样本标记为噪音样本。
181.a10、如a1所述的基于样本维度的数据降噪方法,所述将所述样本特征与样本组织规则进行匹配,获得对应的样本家族的步骤,包括:
182.将所述样本特征与所述样本组织规则进行匹配,获得样本特征与各个样本家族的匹配分值;
183.根据所述匹配分值确定所述样本特征对应的样本家族。
184.a11、如a10所述的基于样本维度的数据降噪方法,所述根据所述匹配分值确定所述样本特征对应的样本家族的步骤,包括:
185.将所述匹配分值按从大到小进行排序,获得排序结果;
186.将排序第一的匹配分值对应的样本家族作为所述样本特征对应的样本家族。
187.本发明公开了b12、一种基于样本维度的数据降噪装置,所述基于样本维度的数据降噪装置包括:
188.特征提取模块,用于获取疑似测试机样本集中各个疑似测试机样本对应的样本特征;
189.家族匹配模块,用于将所述样本特征与样本组织规则进行匹配,获得对应的样本家族;
190.关联获取模块,用于获取所述样本家族与高级威胁行为体之间的关联关系;
191.降噪处理模块,用于根据所述关联关系对所述疑似测试机样本集进行降噪处理。
192.b13、如b12所述的基于样本维度的数据降噪装置,所述特征提取模块还用于获取测试机样本集中各个测试机样本对应的样本特征;根据所述样本特征构建样本组织规则。
193.b14、如b13所述的基于样本维度的数据降噪装置,所述特征提取模块还用于对所述样本特征进行聚类分析,获得各个测试机样本对应的样本家族;根据所述样本家族对所述测试机样本集进行分组,获得各个样本家族对应的测试机样本子集;根据所述测试机样本子集构建对应的组织规则;根据所述组织规则构建样本组织规则。
194.b15、如b12所述的基于样本维度的数据降噪装置,所述特征提取模块还用于获取初始测试机样本集中各个疑似测试机样本对应的样本日志;根据所述样本日志对所述初始测试机样本集进行降噪处理,获得疑似测试机样本集。
195.b16、如b12所述的基于样本维度的数据降噪装置,所述降噪处理模块还用于根据所述关联关系对所述疑似测试机样本集中的各个疑似测试机样本进行标记;将所述疑似测试机样本集中被标记为噪音样本的疑似测试机样本清除。
196.b17、如b12所述的基于样本维度的数据降噪装置,所述家族匹配模块还用于将所述样本特征与所述样本组织规则进行匹配,获得样本特征与各个样本家族的匹配分值;根据所述匹配分值确定所述样本特征对应的样本家族。
197.b18、如b17所述的基于样本维度的数据降噪装置,所述家族匹配模块还用于将所述匹配分值按从大到小进行排序,获得排序结果;将排序第一的匹配分值对应的样本家族作为所述样本特征对应的样本家族。
198.c19、一种基于样本维度的数据降噪设备,所述基于样本维度的数据降噪设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于样本维度的数据降噪程序,所述基于样本维度的数据降噪程序被所述处理器执行时实现如上所述的基于样本维度的数据降噪方法的步骤。
199.d20、一种计算机可读存储介质,所述计算机可读存储介质上存储有基于样本维度的数据降噪程序,所述基于样本维度的数据降噪程序执行时实现如上所述的基于样本维度的数据降噪方法的步骤。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1