一种基于分解的多目标进化模糊规则分类方法

文档序号:8488141阅读:503来源:国知局
一种基于分解的多目标进化模糊规则分类方法
【技术领域】
[0001] 本发明属于数据挖掘中的分类技术领域,特别涉及一种在不平衡数据分类领域采 用进化算法对模糊分类器进行优化的方法。具体是一种基于分解的多目标进化模糊规则分 类方法。主要用于生物医学识别、肿瘤检测、信用卡欺诈检测、垃圾短信识别等领域中存在 的不平衡数据的分类。
【背景技术】
[0002] 随着科技的不断进步,数据挖掘技术越来越广泛的应用于我们的生产生活中,而 作为数据挖掘领域的一个重要的分支,分类技术也越来越受到人们的重视。分类技术是指 利用已知类别的数据训练分类模型,然后用此分类模型对未知数据进行类别预测的技术。 常见的应用如:语音识别、图像识别、生物医学识别、肿瘤检测、信用卡欺诈检测、垃圾短信 识别等都是应用分类技术的例子,可见分类技术与我们的工作和生活息息相关,它能提高 我们的工作效率和生活质量,给我们的生活带来极大地便利。而现实生活中大部分的分类 问题又都属于不平衡分类问题,不平衡分类问题是指待分类的两类中某一类(多数类)的 数据规模远远大于另一类(少数类)的数据规模,例如上面提到的生物医学识别、肿瘤检 测、信用卡欺诈检测、垃圾短信识别。由于不平衡分类问题特有的不平衡结构,使得常规的 分类技术如决策树C4. 5等更偏向于将未知数据预测为多数类而降低识别精度。
[0003] 近年来基于模糊规则的模糊分类技术被应用于生物医学检测、肿瘤检测、信用卡 欺诈检测、垃圾短信识别等不平衡问题分类领域并取得了较好的效果。但由于不平衡问题 中多数类数据集所包含的数据与少数类数据集所包含的数据在数量上的不平衡性,导致模 糊分类技术的识别精度很难提高;并且由于不平衡问题的特殊性,评价分类结果的指标也 由单标准(分类精度)变成了多标准(特异度FPR、灵敏度TPR),若用单个模糊分类器对 不平衡问题进行类别预测,就会导致对分类结果的评价不全面的问题。而多目标进化算法 是一种基于种群的迭代优化算法,通过对分类器的多次进化迭代可以提高分类器的识别精 度;并且该算法针对多标准情况能够同时优化多个模糊分类器,有效弥补了单个模糊分类 器对分类结果的评价不全面的缺点。但由于多目标进化算法较为复杂,需要多次迭代优化, 使得算法运行时间较长,导致现有分类方法在处理肿瘤检测、误差检测、信用卡欺诈检测、 垃圾短信识别等不平衡问题时不能兼顾较高的识别精度与较快的运行速度。数据分类过程 中由于算法复杂、运行速度慢,直接影响了数据分类的效率和限制了分类算法的广泛应用。

【发明内容】

[0004] 本发明的目的是针对生物医学识别、肿瘤检测、信用卡欺诈检测、垃圾短信识别存 在数据不平衡现象的应用中少数类不易被识别的问题,提出了一种识别精度高、运行速度 快的基于分解的多目标进化模糊规则分类方法。
[0005] 本发明是一种基于分解的多目标进化模糊规则分类方法,其特征在于,数据分类 过程包括有如下步骤:
[0006] 步骤1.从某一技术领域中采集或获取被测训练数据集X和测试数据集X',训练 数据集用来训练分类器,测试数据集用来检测训练好的分类器的性能,两个数据集所包含 的数据具有相同的数据格式,其数据格式为Xi=[XU,...,Xi,n,y],Xi为任一数据集中的第 i条数据,其中Xu,. ..,Xi,n为数据Xn个属性值,y为数据xi所属类别的类标。
[0007] 步骤2.分别将训练数据集X和测试数据集X'的n个属性值归一化到[0, 1]内, 并将训练数据集X按类别的类标分成多数类数据集Dmgative与少数类数据集Dp()sitiTC,多数类 数据集与少数类数据集所包含的数据个数分别为Nn6gatiV6、Np()sitiV6。
[0008] 步骤3.人为设定忽略概率pi,piG[0, 1],人为设定模糊分区数par,par辛0,取 值为正整数,人为初始化模糊分区的隶属度函数为三角隶属度函数。
[0009] 步骤4.初始化由pop个模糊分类器构成的原始种群P,每个模糊分类器代表一条 染色体chroh,hG{1,? ? ?,pop},每条染色体包含R条模糊规则1^=[ri;1,? ? ?,ri,n,Wi, 1J, ie{1,...,R},模糊规则ri的前n项属性值,记录了n个模糊分区标号,每个属性代表一个 基因,模糊分区标号的范围为{0,...,par},Wi为模糊规则的权重,1i为模糊规则所属类别 的类标,其中每一条模糊规则的权重采用具有加权因子的模糊规则权重公式来确定,其中 模糊规则的权重&,iG{1,. . .,R}。
[0010] 步骤5.人为设定迭代终止条件termination,初始迭代次数t= 1,迭代步长也为 1,理想点idealpoint= [0, 1] 〇
[0011] 步骤6.采用分解机制,根据原始种群P的大小pop,划分出pop个方向向量,其中 染色体chroh,hG{1,? ? ?,pop}对应的方向向量为1
【主权项】
1. 一种基于分解的多目标进化模糊规则分类方法,其特征在于,数据分类过程包括有 如下步骤: 步骤1.从某一技术领域中采集或获取被测训练数据集X和测试数据集X',两个数据 集所包含的数据具有相同的数据格式,其数据格式为Xi=[XU,...,Xi,n,y],Xi为两个数据 集中的任意一条数据,其中Xu,. . .,Xi,n为数据x^勺n个属性值,y为数据xi所属类别的类 标; 步骤2.分别将训练数据集X和测试数据集X'的n个属性值归一化到[0,1]内,并将 训练数据集X按类别的类标分成多数类数据集Dmgative与少数类数据集Dp()SitiTC,多数类数据 集与少数类数据集所包含的数据个数分别为Nn6gatiV6、Np()SitiV6; 步骤3.人为设定忽略概率pi,piG[〇,1],人为设定模糊分区数par,par辛0,取值为 正整数,人为设定模糊分区的隶属度函数为三角隶属度函数; 步骤4.初始化由pop个模糊分类器构成的原始种群P,每个模糊分类器代表一条染色 体chroh,hG{1,? ? ?,pop},每条染色体包含R条模糊规则1^=[rm? ? ?,rm,Wi,1J,iG{ 1,. . .,R},模糊规则ri的前n项属性值,记录了n个模糊分区标号,模糊分区标号的范围为 {0,...,par},Wi为模糊规则的权重,1i为模糊规则所属类别的类标,其中每一条模糊规则 的权重采用具有加权因子的模糊规则权重公式来确定; 步骤5.人为设定迭代终止条件termination,初始迭代次数t= 1,迭代步长也为1,理 想点idealpoint= [0, 1]; 步骤6.采用分解机制,根据原始种群P的大小pop,划分出pop个方向向量,其中染色 体chroh,hG{l,...,p〇p}对应的方向向量夕
步骤7.对原始种群P执行进化操作,得到子代染色体chrohn,chroh,"_2,chroh,mU_i,chroh,mu_2,hG{1,. . .,pop},依次用子代染色体对原始种群中的所有染色体 chroh,hG{1,. . .,pop}采用切比雪夫更新方式进行更新,最终得到由pop条染色体 chro'h,hG{l,...,p〇p}组成的进化种群P'; 步骤8.若迭代次数t小于迭代终止条件termination,则迭代次数t加1,并将进化种 群P记为原始种群P,将染色体chrc/h,hG{1,? ? ?,pop}记为chroh,hG{1,? ? ?,pop}, 返回执行步骤7,若迭代次数t等于迭代终止条件termination,执行步骤9 ; 步骤9.将进化种群P'中的所有染色体chro'11,11= 1,...4(^依次对测试数据 集X'进行分类,得到pop条分类结果resulth=
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1