1.一种基于集成剪枝的软件缺陷数据集分类方法,其特征在于:包括以下步骤:(1)加载软件缺陷数据集信息;(2)使用bootstrap方法得到不同的训练集,将所有的数据集用于训练不同的基分类器;(3)对于验证集的生成,使用knn算法获得在训练集上与测试集相似的数据集作为验证集,并得到每个分类器的性能;(4)进化聚类算法的数据集构成,使用每个基分类器对验证集的置信度构成数据集;(5)使用进化聚类方法得到全局最优的聚类结果,将所有的基分类器进行分组;(6)根据精度最大原则,从每个分组中选择基分类器,减少集成学习在软件缺陷数据集上的运行时间和内存的需要,提高对未知软件缺陷数据的适应能力。
2.根据权利要求1所述的一种基于集成剪枝的软件缺陷数据集分类方法,其特征在于,所述步骤(1)加载输入的软件缺陷数据集,首先判断该数据集是否是分类问题数据集,然后对该数据集的实例信息,特征数信息,和类别信息进行统计,最后根据one-hot编码对字符类型的类别转换为数字类型。
3.根据权利要求1所述的一种基于集成剪枝的软件缺陷数据集分类方法,其特征在于,所述步骤(2)根据基分类器数量,使用bootstrap取样获得不同子训练集用于训练不同的基分类器,并保证基分类器之间的多样性。
4.根据权利要求1所述的一种基于集成剪枝的软件缺陷数据集分类方法,其特征在于,所述步骤(3)验证集的生成和获得基分类器性能的步骤如下:
5.根据权利要求1所述的一种基于集成剪枝的软件缺陷数据集分类方法,其特征在于,所述步骤(4)进化聚类数据集构成步骤如下:
6.根据权利要求1所述的一种基于集成剪枝的软件缺陷数据集分类方法,其特征在于,所述步骤(5)使用进化聚类方法得到全局最优聚类结果步骤如下:
7.根据权利要求1所述的一种基于集成剪枝的软件缺陷数据集分类方法,其特征在于,所述步骤(6)根据精度最大原则从每个组中选择基分类器步骤如下: