一种基于集成剪枝的软件缺陷数据集分类方法

文档序号:35123308发布日期:2023-08-14 17:00阅读:来源:国知局

技术特征:

1.一种基于集成剪枝的软件缺陷数据集分类方法,其特征在于:包括以下步骤:(1)加载软件缺陷数据集信息;(2)使用bootstrap方法得到不同的训练集,将所有的数据集用于训练不同的基分类器;(3)对于验证集的生成,使用knn算法获得在训练集上与测试集相似的数据集作为验证集,并得到每个分类器的性能;(4)进化聚类算法的数据集构成,使用每个基分类器对验证集的置信度构成数据集;(5)使用进化聚类方法得到全局最优的聚类结果,将所有的基分类器进行分组;(6)根据精度最大原则,从每个分组中选择基分类器,减少集成学习在软件缺陷数据集上的运行时间和内存的需要,提高对未知软件缺陷数据的适应能力。

2.根据权利要求1所述的一种基于集成剪枝的软件缺陷数据集分类方法,其特征在于,所述步骤(1)加载输入的软件缺陷数据集,首先判断该数据集是否是分类问题数据集,然后对该数据集的实例信息,特征数信息,和类别信息进行统计,最后根据one-hot编码对字符类型的类别转换为数字类型。

3.根据权利要求1所述的一种基于集成剪枝的软件缺陷数据集分类方法,其特征在于,所述步骤(2)根据基分类器数量,使用bootstrap取样获得不同子训练集用于训练不同的基分类器,并保证基分类器之间的多样性。

4.根据权利要求1所述的一种基于集成剪枝的软件缺陷数据集分类方法,其特征在于,所述步骤(3)验证集的生成和获得基分类器性能的步骤如下:

5.根据权利要求1所述的一种基于集成剪枝的软件缺陷数据集分类方法,其特征在于,所述步骤(4)进化聚类数据集构成步骤如下:

6.根据权利要求1所述的一种基于集成剪枝的软件缺陷数据集分类方法,其特征在于,所述步骤(5)使用进化聚类方法得到全局最优聚类结果步骤如下:

7.根据权利要求1所述的一种基于集成剪枝的软件缺陷数据集分类方法,其特征在于,所述步骤(6)根据精度最大原则从每个组中选择基分类器步骤如下:


技术总结
本发明公开了一种基于集成剪枝的软件缺陷数据集分类方法,该框架包括:加入需要分类的软件缺陷数据集,然后根据bootstrap取样方法,取样多次,对多个基学习器进行训练,再使用KNN算法在验证集上找到测试集的邻居重新构成验证集。把得到的基学习器用于预测验证集,获得每一个基学习器的精度,排序,选择前50%的基学习器。最后使用遗传算法得到一个全局最好的个体,在每一个簇中筛选基学习器。本发明基于遗传算法原理的剪枝框架,从而可以减少集成学习在软件缺陷数据集上的时间,内存成本。在集成学习和剪枝算法有着良好的应用的前景。

技术研发人员:徐超
受保护的技术使用者:江苏大学
技术研发日:
技术公布日:2024/1/14
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1