一种基于二叉树结构的不平衡数据处理方法与流程

文档序号:16134722发布日期:2018-12-01 00:47阅读:来源:国知局

技术特征:

技术总结
本发明公开了一种基于二叉树结构的不平衡数据处理方法,具体包括:(1)将原始数据集Ω划分为正样本空间集合ΩP和负样本空间集合ΩN,创建ΩN的副本CN;(2)选择正负样本比r、树的深度D、叶子节点的最少样本数量LeafMin以及基聚类算法;(3)将CN划分为2个不相交的簇;(4)根据分裂准则,判断ΩN是否继续分裂,形成二叉树;(5)进行归一化处理,求取特征差异度方差和特征极差程度;重复上述步骤,挑选出最佳的负样本集合;(6)对最佳负样本集合进行抽样;(7)原始空间中的正样本集合与最佳负样本集合构成一个平衡样本集合。本发明解决了正负样本不平衡的问题,降低了数据集的噪声,提高训练速度,而且能够提高每个基分类器的泛化能力。

技术研发人员:胡勤生;梁亚玲;杜明辉
受保护的技术使用者:华南理工大学
技术研发日:2018.04.11
技术公布日:2018.11.30
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1