一种跨项目软件缺陷预测数据选择方法

文档序号：31219402发布日期：2022-08-20 05:21阅读：来源：国知局

技术特征：
1.一种跨项目软件缺陷预测数据选择方法，其特征在于，包括以下步骤：步骤1：对多个源项目数据和目标项目数据进行数据预处理；步骤2：计算预处理后的每个源项目数据和目标项目数据之间的wasserstein距离；步骤3：根据wasserstein距离判断每个源项目数据与目标项目数据的相似性，选定源项目数据。2.根据权利要求1所述的一种跨项目软件缺陷预测数据选择方法，其特征在于，所述数据预处理包括剔除冗余样本、剔除含缺失值的样本和数据标准化；采用主成分分析方法对原始样本进行降维；利用z-score方法对源项目数据和目标项目数据进行标准化。3.根据权利要求1所述的一种跨项目软件缺陷预测数据选择方法，其特征在于，计算wasserstein距离的具体过程为：步骤21：源项目数据为x
s
，目标项目数据为x
t
，源项目数据中样本数量为n
s
，目标项目数据中样本个数为n
t
，则源项目数据与目标项目数据的概率分布公式为：其中p(x
s,i
)和p(x
t,i
)分别是源项目数据x
s
和目标项目数据x
t
中第的i个样本的概率分布；源项目数据和目标项目数据均为均匀分布，p(x
s,i
)＝1/n
s
，p(x
t,i
)＝1/n
t
；步骤22：计算p(x
s
)和p(x
t
)两个分布之间的概率耦合矩阵，其中，p为两个分布之间的概率耦合矩阵；其中，p为两个分布之间的概率耦合矩阵；r表示特征空间；步骤23：根据概率耦合矩阵计算wasserstin距离，公式为：其中<
·
,
·
>
f
代表矩阵内积，c为代价矩阵；c(i，j)代表样本x
s,i
与样本x
t,j
的平方欧式距离。4.根据权利要求1所述的一种跨项目软件缺陷预测数据选择方法，其特征在于，所述步骤3中按照所述wasserstein距离从小到大进行排序，选定所述wasserstein距离最小的源项目数据作为跨项目软件缺陷数据。5.根据权利要求1所述的一种跨项目软件缺陷预测数据选择方法，其特征在于，所述步骤3中根据所述wasserstein距离为所有所述源项目数据分配权重，所述wasserstein距离越小权重越大，根据所述权重对所有所述源项目数据进行加权，获得选定源项目数据。6.根据权利要求5所述的一种跨项目软件缺陷预测数据选择方法，其特征在于，所述步骤3的具体实现过程为：步骤31：根据所述wasserstein距离计算e值；
其中是第i个源项目数据与目标项目数据的欧式距离的平方；ω是控制wasseerstein距离范围的参数；步骤32：根据e值计算出k个源项目数据的权重；其中α
i
是第i个源项目数据的权重步骤33：将所有源项目数据的数据合并在一起，并将加权后的k个源项目数据以及其标签连接起来：x＝[α1x
s,1
,...,α
k
x
s,k
],y＝[y
s,1
,...,y
s,k
]
ꢀꢀꢀꢀ
(6)其中x
s,i
是第i个源项目数据的样本数据；y
s,i
是第i个源项目数据的标签。

技术总结
本发明公开了一种跨项目软件缺陷预测数据选择方法，首先度量源项目数据与目标项目数据的概率分布，通过计算源项目数据和目标项目数据之间的Wasserstein距离，从项目的角度选取与目标项目数据更为相似的源项目数据，从而为从事软件缺陷预测相关工作人员提供可靠的项目数据选择依据。项目数据选择依据。项目数据选择依据。

技术研发人员：吴玉美姚京秀王江山胡峥涛于永利
受保护的技术使用者：北京航空航天大学
技术研发日：2022.05.17
技术公布日：2022/8/19

完整全部详细技术资料下载

当前第2页1 2