基于不平衡数据集的分类的制作方法

文档序号:33376945发布日期:2023-03-08 04:21阅读:来源:国知局

技术特征:
1.一种计算机实现的方法,包括:由一个或多个处理器基于包括在不平衡数据集中的多个正样本生成多个预测模型,其中所述多个正样本的数量低于包括在所述不平衡数据集中的多个负样本的数量,并且其中所述多个正样本和所述多个负样本中的每个样本包括多个参数;由一个或多个处理器从所述多个参数中识别所述多个正样本的多个影响参数组;以及由一个或多个处理器基于所述多个预测模型和所述多个影响参数组来确定最终预测模型,其中所述最终预测模型将样本分类为正类型或负类型。2.根据权利要求1所述的方法,其中生成所述多个预测模型包括:由一个或多个处理器基于正样本获得训练数据集,其中所述训练数据集包括至少一个正训练样本和多个负训练样本;以及由一个或多个处理器通过用所述训练数据集训练初始预测模型来生成所述多个预测模型。3.根据权利要求2所述的方法,其中获得所述训练数据集包括:由一个或多个处理器获得所述多个负训练样本,其中所述多个负训练样本选自由来自所述多个负样本的负样本和将所述正样本修改为负样本组成的群组;以及由一个或多个处理器将所述多个负训练样本添加到所述训练数据集中。4.根据权利要求2所述的方法,其中获得所述训练数据集包括:由一个或多个处理器基于所述正样本获得所述至少一个正训练样本;以及由一个或多个处理器基于所述多个负训练样本的数量与所述至少一个正训练样本的数量的比率来向所述至少一个正训练样本分配权重。5.根据权利要求1所述的方法,其中识别所述多个影响参数组包括:由一个或多个处理器识别所述多个正样本中的所述正样本的影响参数组,其中所述影响参数组包括所述多个参数中的使得所述正样本被分类为所述正类型的参数组。6.根据权利要求1所述的方法,还包括:响应于确定另一正样本被添加到所述不平衡数据集中,由一个或多个处理器基于所述另一正样本生成另一预测模型;由一个或多个处理器从所述多个参数中识别用于所述另一预测模型的另一影响参数组;以及由一个或多个处理器基于所述另一预测模型和所述另一影响参数组来更新所述最终预测模型。7.根据权利要求1所述的方法,还包括:响应于确定接收到目标样本,由一个或多个处理器基于包括在所述最终预测模型中的多个预测模型来确定所述目标样本的多个预测类型;以及响应于确定所述多个预测类型中的所有预测类型指示所述负类型,由一个或多个处理器将所述目标样本分类到所述负类型。8.一种计算机实现的方法,包括:由一个或多个处理器基于包括在不平衡数据集中的多个正样本生成多个预测模型,其中所述多个正样本的数量低于包括在所述不平衡数据集中的多个负样本的数量,并且其中所述多个正样本和所述多个负样本中的每个样本包括多个参数;
由一个或多个处理器从所述多个参数中识别所述多个正样本的多个影响参数组;由一个或多个处理器基于所述多个预测模型和所述多个影响参数组来确定最终预测模型,其中所述最终预测模型将样本分类为正类型或负类型;响应于确定所述多个预测类型中的至少一个预测类型指示所述正类型,由一个或多个处理器生成包括与所述至少一个预测类型相对应的至少一个预测模型的模型集合合;由一个或多个处理器确定与所述模型集合中的预测模型相关联的影响参数组;由一个或多个处理器从所述多个参数识别目标样本的目标影响参数组;由一个或多个处理器基于所述影响参数组与所述目标影响参数组之间的差来更新模型集合;以及由一个或多个处理器基于所述更新的模型集合来对所述目标样本进行分类。9.根据权利要求8所述的方法,其中更新所述模型集合包括:响应于确定差高于预定义阈值,由一个或多个处理器从所述模型集合移除所述预测模型。10.根据权利要求8所述的方法,其中更新所述模型集合包括:响应于确定所述差低于预定义阈值,由一个或多个处理器维持所述模型集合中的所述预测模型。11.根据权利要求8所述的方法,其中基于所述更新的模型集合来分类所述目标样本包括:响应于确定所述更新的模型集合为空,由一个或多个处理器将所述目标样本分类为负类型。12.根据权利要求8所述的方法,其中基于所述更新的模型集合来分类所述目标样本包括:响应于确定所述更新的模型集合不为空,由一个或多个处理器将所述目标样本分类为正类型。13.一种计算机实现的系统,包括耦合到计算机可读存储器单元的计算机处理器,所述计算机可读存储器单元包括指令,所述指令在由所述计算机处理器执行时实现权利要求1-10中任一项所述的方法。14.一种计算机程序产品,所述计算机程序产品包括程序指令,所述程序指令可由电子设备执行以实现权利要求1-10中任一项所述的方法。

技术总结
基于不平衡数据集的分类。本公开的实施例涉及基于不平衡数据集进行分类的方法、系统和计算机程序产品。在一种方法中,分别基于不平衡数据集中所包括的多个正样本来生成多个预测模型,多个正样本的数量低于不平衡数据集中所包括的多个负样本的数量,并且多个正样本和负样本中的每个样本包括多个参数。分别从多个正样本的多个参数中识别多个影响参数组。基于多个预测模型和多个影响参数组来确定最终预测模型,最终预测模型用于将样本分类为正类型和负类型中的一个。和负类型中的一个。和负类型中的一个。


技术研发人员:许静 韩四儿 张雪英 马小明 杨继辉
受保护的技术使用者:国际商业机器公司
技术研发日:2022.08.02
技术公布日:2023/3/7
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1