一种基于TF-IDF转移熵的恶意软件分类方法及装置

文档序号：34482883发布日期：2023-06-15 17:14阅读：138来源：国知局

本发明涉及网络信息安全，特别是涉及一种基于tf-idf转移熵的恶意软件分类方法及装置。

背景技术：

1、随着经济社会的网络化、数字化、智能化，以恶意软件为载体的网络攻击持续增长，网络空间安全堪忧，对恶意软件的进行分类识别尤为重要。

2、目前，对恶意软件分类可概况分为两种方式：静态和动态，其区别在于是否运行恶意软件进行特征提取。静态方式一般无需运行恶意软件直接提取其静态特征，如二进制代码片段，操作码字符串等。但静态方式无法对0-day漏洞和变种病毒进行精准分类，且易受到混淆技术的干扰，导致分类识别率欠佳。

3、针对静态方式的不足，动态方式提取恶意软件运行期间产生的动态特征，如api调用序列，api调用参数或程序语义等，提升了对0-day漏洞和部分变种病毒进行分类的识别率。但动态方式的特征提取时间成本高，且无法检测到恶意软件的所有动态特征执行路径，从而导致分类准确度下降。

4、针对静态和动态方式对恶意软件分类的不足，可以通过恶意软件可视化方法，将恶意软件分类问题转化为图像分类问题，并借助人工智能模型对恶意软件图像纹理和图形轮廓进行溯源和同源性分析，以达到分类识别恶意软件的目的。但是相似性计算方法因其计算量大，耗时长而逐渐被当下研究人员所放弃。

5、现如今，结合深度学习和恶意软件图像进行分类逐渐成为恶意软件研究领域的研究热点。尽管恶意软件可视化可以将恶意软件的分类问题转化为图像的分类问题，在分类准确度上也优于传统静态方式，且能够对最新的变种病毒和0-day漏洞进行分类，在分类速度上也远远超过传统的动态方式。但是，恶意软件可视化的方法也有其不足之处：（1）采用全局熵将特征转化为像素值的方法会导致信息冗余，分类鲁棒性不好等问题，且同家族转化的图像纹理之间有差异性，影响分类准确度。（2）对恶意软件图像进行裁剪，缩小等方法生成的图像可能会导致图像信息丢失，或导致不同恶意软件家族图像纹理或图像轮廓相似性过高，进而可能导致模型过拟合等问题出现。

技术实现思路

1、本发明提供了一种基于tf-idf转移熵的恶意软件分类方法及装置，可以减少信息冗余、提高图像的清晰度，降低分类难度，并提高了恶意软件分类的准确性和快捷性。

2、为了解决上述技术问题，本发明提供了一种基于tf-idf转移熵的恶意软件分类方法，包括：

3、在预设的良性软件数据集中提取所有操作码，构建idf语料库；

4、结合所述idf语料库，生成待分类恶意软件中每个操作码的权重；

5、选择待分类恶意软件中权重最高的若干个操作码，形成第一操作码，并根据所述第一操作码构成第一方阵；

6、计算所述第一方阵中每个坐标对应的转移概率，并结合第一操作码的权重，生成第一方阵中每个坐标对应的像素值；

7、根据所述第一方阵中每个坐标对应的像素值，将第一方阵转换为第一灰度图像；

8、将所述第一灰度图像输入至预设的恶意软件分类器，确定所述待分类恶意软件的类别。

9、本发明在分类恶意软件前，根据良性软件数据集生成idf语料库，可以提高恶意软件操作码的权重，以使恶意软件的特征更明显，从而提高分类恶意软件的简易性；对待分类恶意软件进行分类时，计算待分类恶意软件中所有操作码的权重，并选取若干个权重高的操作码为第一操作码，形成第一方阵，结合第一方阵中每个坐标的转移概率和第一操作码的权重，生成每个坐标对应的像素值，根据该方法求取的像素值可以生成图像纹理更清晰的灰度图像；根据像素值生成待分类恶意软件对应的第一灰度图像，并利用预先训练好的恶意软件分类器，在其输入第一灰度图像，可以得到待分类恶意软件的类别，降低了分析难度，也提高了分析的快捷性。

10、进一步地，所述在预设的良性软件数据集中提取所有操作码，构建idf语料库，具体为：

11、在预设的良性软件数据集中提取所有操作码；

12、根据逆文档频率公式，计算所述良性软件数据集中每个操作码的idf值，生成idf语料库。

13、本发明在预设的良性软件数据集中提取所有操作码，并计算每个操作码的idf值，可以生成idf语料库，以便计算待分类恶意软件操作码的权重，使用良性软件数据集而不是混合良性软件和恶意软件的数据集，可以提高恶意软件操作码的权重，从而更容易分类出恶意软件。

14、进一步地，结合所述idf语料库，生成待分类恶意软件中每个操作码的权重，具体为：

15、分别计算待分类恶意软件中每个操作码在待分类恶意软件中出现的概率，记为第一词频；

16、结合所述idf语料库，计算每个操作码的第一文档频率；

17、将待分类恶意软件中每个操作码对应的第一词频和第一文档频率相乘，得到待分类恶意软件中每个操作码的权重。

18、本发明计算待分类恶意软件操作码权重的方法是利用tf-idf算法，先计算操作码在待分类恶意软件的词频，再根据idf语料库计算该操作码的第一文档频率，将第一词频和第一文档频率相乘即可得到待分类恶意软件操作码的权重，利用tf-idf算法可以简单快捷地反映出操作码在整个语料库中的重要程度和相关性，提高权重计算的准确性。

19、进一步地，所述计算所述第一方阵中每个坐标对应的转移概率，具体为：

20、

21、其中，是第一方阵中每个坐标对应的转移概率;是在待分类恶意软件中一个操作码转移到另外一个操作码的频数；是x坐标对应行所有的频数之和。

22、进一步地，计算所述第一方阵中每个坐标对应的转移概率，并结合第一操作码的权重，生成第一方阵中每个坐标对应的像素值，具体为：

23、参考信息熵的计算方式，形成转移熵公式；

24、利用所述转移熵公式，根据第一方阵中每个坐标对应的转移概率和第一操作码的权重，计算第一方阵中每个坐标对应的像素值；

25、其中，所述计算第一方阵中每个坐标对应的像素值的具体公式为：

26、

27、其中，是第一方阵中每个坐标对应的像素值；是第一方阵中每个坐标对应的转移概率；是构成第一操作码的权重。

28、本发明生成像素值的方法是在计算第一方阵中坐标对应的转移概率后，结合第一操作码权重，利用转移熵公式计算像素值。利用转移熵的计算方式生成像素值，相比于现有技术中采用全局熵的方法，可以避免出现信息冗余，分类鲁棒性不好等问题，便于后续模型训练中能提取更加完整，关键的图像特征，从而提高分类的准确度。

29、进一步地，根据所述第一方阵中每个坐标对应的像素值，将第一方阵转换为第一灰度图像，具体为：

30、根据第一方阵的大小确定第一灰度图像的图片尺寸；

31、根据第一方阵中每个坐标对应的像素值，确定第一灰度图像的颜色分配；

32、在确定第一灰度图像的图片尺寸和颜色分配后，将第一方阵转换为第一灰度图像。

33、本发明在生成第一方阵中各坐标的像素值后，可以根据第一方阵的大小确定灰度图像的尺寸，根据像素值确定灰度图像的颜色分布，从而将第一方阵转换为第一灰度图像，利用灰度图像对恶意软件进行分类，可以提高分类的便捷性和准确性。

34、进一步地，预设的恶意软件分类器，具体为：

35、获取预设的恶意软件数据集中的所有恶意软件样本；

36、将所述所有恶意软件样本都转化为对应的灰度图像；

37、将所有灰度图像划分为恶意软件训练集和恶意软件测试集；

38、利用恶意软件训练集训练分类器模型，形成恶意软件分类器；

39、将恶意软件测试集输入至恶意软件分类器，验证恶意软件分类器的分类结果。

40、本发明生成恶意软件分类器可以通过获取恶意软件数据集中的所有样本，将样本都转换成灰度图像，从而将数据集分为训练集和验证集，充分训练后形成恶意软件分类器，利用灰度图像训练分类器，可以降低分类难度，同时也提高了分类的快捷性。

41、进一步地，利用恶意软件训练集训练分类器模型，形成恶意软件分类器，具体为：

42、提取恶意软件训练集中的若干种特征；

43、根据所述若干种特征形成若干个类别，并将所述若干种特征记录在恶意软件分类器中。

44、进一步地，将所述第一灰度图像输入至预设的恶意软件分类器，确定所述待分类恶意软件的类别，具体为：

45、提取第一灰度图像的第一特征；

46、在所述恶意软件分类器中搜寻与所述第一特征匹配的第一类别；

47、将第一类别确定为待识别恶意软件的类别。

48、本发明利用训练好的恶意软件分类器对待分类恶意软件进行分类，得出待分类恶意软件的类别，无需操作者具备恶意软件领域的相关知识，仅需在恶意软件分类器导入第一灰度图像即可进行分类，极大地降低了分类难度，同时也提高了恶意软件分类的准确性和快捷性。

49、本发明提供了一种基于tf-idf转移熵的恶意软件分类方法，根据良性软件数据集生成idf语料库，对待分类恶意软件进行分类时，计算待分类恶意软件中所有操作码的权重，并选取若干个权重高的操作码为第一操作码，形成第一方阵，结合第一方阵中每个坐标的转移概率和第一操作码的权重，利用转移熵的计算方式，生成每个坐标对应的像素值，根据像素值生成待分类恶意软件对应的第一灰度图像，并利用预先训练好的恶意软件分类器，在其输入第一灰度图像，可以得到待分类恶意软件的类别，降低了分析难度，也提高了分析的快捷性。

50、相应的，本发明提供了一种基于tf-idf转移熵的恶意软件分类装置，包括：提取模块、生成模块、构建模块、计算模块、转换模块和确定模块；

51、所述提取模块用于在预设的良性软件数据集中提取所有操作码，构建idf语料库；

52、所述生成模块用于结合所述idf语料库，生成待分类恶意软件中每个操作码的权重；

53、所述构建模块用于选择待分类恶意软件中权重最高的若干个操作码，形成第一操作码，并根据所述第一操作码构成第一方阵；

54、所述计算模块用于计算所述第一方阵中每个坐标对应的转移概率，并结合第一操作码的权重，生成第一方阵中每个坐标对应的像素值；

55、所述转换模块用于根据所述第一方阵中每个坐标对应的像素值，将第一方阵转换为第一灰度图像；

56、所述确定模块用于将所述第一灰度图像输入至预设的恶意软件分类器，确定所述待分类恶意软件的类别。

57、本发明提供了一种基于tf-idf转移熵的恶意软件分类装置，以模块间的有机结合为基础，可以减少信息冗余、提高图像的清晰度，降低分类难度，并提高了恶意软件分类的准确性和快捷性。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张瑜黄炜艺潘小明石元泉陈桂宏彭景惠陈兵陈艺芳欧阳佳
技术所有人：广东技术师范大学
我是此专利的发明人

上一篇：衍射光波导和显示设备的制作方法
上一篇：一种网联车辆的身份认证与加密通信方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。