本申请涉及网络安全,尤其涉及一种恶意代码溯源方法、系统、设备及存储介质。
背景技术:
1、近年来网络安全成为威胁互联网发展的主要因素,而在网络安全威胁中以apt(advanced persistent threat,高级长期威胁)攻击最为常见,apt攻击主要是通过恶意代码实现的。由于apt攻击具有隐蔽性、复杂性、持续性的特点,因此对apt攻击的组织溯源工作极为困难。apt攻击中最为常见的行为是向目标网络投放恶意代码,目前的最主要检测手段是将对apt攻击中的恶意代码进行特征提取,然后根据特征表现形式选择合适的深度学习模型对其进行分类。
2、但由于被apt样本的特征提取目前是基于威胁情报标准定义的。其中包含了大量复杂的特征向量,这对描述样本与apt组织的关系非常不友好,另一种是将恶意代码转化为图像,然后对其进行分类,但是在对图像处理时由于考虑到神经网络输入大小时,会对图像进行裁剪,可能导致某些特征的丢失,降低模型的准确率。
技术实现思路
1、本申请实施例提供了一种恶意代码溯源方法、系统、设备及存储介质,用以解决现有的apt恶意代码攻击溯源分析准确率较低的技术问题。
2、一方面,本申请实施例提供了一种恶意代码溯源方法,所述方法包括:
3、实时收集正在进行攻击的apt恶意代码组织数据;
4、将所述正在进行攻击的apt恶意代码组织数据输入预先训练的恶意代码组织溯源模型中,输出预测的apt恶意代码组织溯源结果;其中,所述恶意代码组织溯源模型是通过反汇编语言训练的。
5、在本申请的一种实现方式中,所述恶意代码组织溯源模型的训练过程,具体为:
6、处理apt恶意代码组织数据,形成apt组织函数库;
7、构建恶意代码组织溯源模型;
8、将所述apt组织函数库中的函数,输入到所述恶意代码组织溯源模型中进行训练。
9、在本申请的一种实现方式中,所述处理apt恶意代码组织数据,形成apt组织函数库,具体为:
10、将所述apt恶意代码组织数据按组织类别进行反汇编操作,生成汇编文件;
11、对所述汇编文件按照函数边界进行划分,形成所述apt组织函数库。
12、在本申请的一种实现方式中,所述将所述apt恶意代码组织数据按组织类别进行反汇编操作,生成汇编文件,具体为:
13、将所述apt恶意代码组织数据转化为pe格式的数据;
14、将经过pe格式转化后的数据通过radare2反汇编操作,生成汇编文件。
15、在本申请的一种实现方式中,在所述将所述apt组织函数库中的函数,输入到所述恶意代码组织溯源模型中进行训练之后,所述方法还包括:
16、生成apt组织向量库;其中,所述apt组织向量库由若干向量组成,所述若干向量由所述apt组织函数库中的若干函数对应生成。
17、在本申请的一种实现方式中,所述方法还包括:
18、处理待识别的apt恶意代码组织数据,得到测试集;
19、将所述测试集输入到所述恶意代码组织溯源模型,生成向量表示集;
20、将所述向量表示集中的向量与所述apt组织向量库中的向量进行比较,生成预测结果。
21、在本申请的一种实现方式中,所述恶意代码组织溯源模型是基于asm2vec模型构建的。
22、另一方面,本申请实施例还提供了一种恶意代码溯源系统,所述系统包括:
23、数据收集单元,用于收集正在进行攻击的apt恶意代码组织数据;
24、预测单元,用于将所述正在进行攻击的apt恶意代码组织数据输入预先训练的恶意代码组织溯源模型中,输出预测的apt恶意代码组织溯源结果;其中,所述恶意代码组织溯源模型是通过反汇编语言训练的。
25、此外,本申请实施例还提供了一种恶意代码溯源设备,所述设备包括:
26、至少一个处理器;以及,
27、与所述至少一个处理器通信连接的存储器;其中,
28、所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
29、收集正在进行攻击的apt恶意代码组织数据;
30、将所述正在进行攻击的apt恶意代码组织数据输入预先训练的恶意代码组织溯源模型中,输出预测的apt恶意代码组织溯源结果;其中,所述恶意代码组织溯源模型是通过反汇编语言训练的。
31、最后,本申请实施例还提供了一种恶意代码溯源的非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
32、收集正在进行攻击的apt恶意代码组织数据;
33、将所述正在进行攻击的apt恶意代码组织数据输入预先训练的恶意代码组织溯源模型中,输出预测的apt恶意代码组织溯源结果;其中,所述恶意代码组织溯源模型是通过反汇编语言训练的。
34、本申请实施例提供的一种恶意代码溯源方法、系统、设备及存储介质,通过对实时攻击的apt恶意代码实现了一种自动化提取函数块的方法。该方法可以在不需要执行恶意代码的条件下,将实时攻击的恶意代码转化为asm2vec函数所需类型,本申请使用了语义表示学习模型asm2vec揭示恶意代码汇编语言之间语义关系,此方法在训练过程中不需要任何先验知识,也不需要数据之间的正确映射。在语义学习表示阶段asm2vec能够捕捉到汇编代码之间潜在的语义关系。只需在向量库中搜索即可实现同源分析,以针对特定组织的攻击实时精确防御。
1.一种恶意代码溯源方法,其特征在于,所述方法包括:
2.根据权利要求1所述的一种恶意代码溯源方法,其特征在于,所述恶意代码组织溯源模型的训练过程,具体为:
3.根据权利要求2所述的一种恶意代码溯源方法,其特征在于,所述处理apt恶意代码组织数据,形成apt组织函数库,具体为:
4.根据权利要求3所述的一种恶意代码溯源方法,其特征在于,所述将所述apt恶意代码组织数据按组织类别进行反汇编操作,生成汇编文件,具体为:
5.根据权利要求2所述的一种恶意代码溯源方法,其特征在于,在所述将所述apt组织函数库中的函数,输入到所述恶意代码组织溯源模型中进行训练之后,所述方法还包括:
6.根据权利要求5所述的一种恶意代码溯源方法,其特征在于,所述方法还包括:
7.根据权利要求1所述的一种恶意代码溯源方法,其特征在于,所述恶意代码组织溯源模型是基于asm2vec模型构建的。
8.一种恶意代码溯源系统,其特征在于,所述系统包括:
9.一种恶意代码溯源设备,其特征在于,所述设备包括:
10.一种恶意代码溯源的非易失性计算机存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令设置为: