组合降采样极限学习机的制作方法
【专利说明】组合降采样极限学习机 所属技术领域
[0001] 本发明涉及模式识别技术,具体涉及针对不平衡数据集的一种分类器。
【背景技术】
[0002] 随着信息智能技术的飞速发展,机器学习技术蓬勃发展,其应用领域方向更加广 泛,技术发展更加深入,分类是机器学习和数据挖掘中重要的知识获取手段之一。目前已有 许多分类算法如支持向量机(SVM)和神经网络等在各个领域得到了广泛应用。但现有的分 类算法通常假定用于训练的数据集是平衡的,即各类所含的样例数大致相等。而绝大多的 实际情况并非如此,特别是在医学领域,临床病例中,正例(即患病例)远远少于负例(即 正常例)。在以下的论述中,我们将默认少数样本为正样本,多数样本为负样本。在数据不 平衡时,分类器会过多的关注多数类,而对少数类的分类灵敏度下降,但少数类的识别率往 往是我们所主要关注的。
[0003] 针对数据不平衡这一实际问题科研人员提出了多种解决方法,根据操作对象可分 为两大类,即对样本的重采样法,和集成分类器法。
[0004] (1)最常见的样本重采样方法是降采样,通过对多数数据进行降采样,使正负例达 到平衡。专利"基于欠抽样面向不平衡数据集的交通事件自动检测方法"(CN103927874A) 就在实际交通事件自动检测算法中使用了欠抽样的方法,以得到新的相对平衡的训练集来 训练支持向量机。但该方法抛弃了一些负样本,对样本选择的依赖性较强。
[0005] (2)另外一种样本重采样方法为过采样法,即通过人工构造少数类样本,是少 数类样本与多数类样本数量达到平衡。专利"基于粒子群支持向量机的雷电近邻预测方 法"(CN103679263A)在使用支持向量机对雷电临近预测时针对有雷电样本与无雷电样本的 不平衡性,就通过对正样本(雷电样本)内部随机插值的过采样方法,使SVM训练样本中 的正负样本数量达到平衡。而文献[1]也提出了一种样本过采样法,即SMOTE(Synthetic Minority Over-sampling Technique):对少数数据过采样,然后使用支持向量机分类方法 分类。通过过采样方法得到的样本是通过对已有的少数样本按照一定规则进行内部差值得 到的,可能与真实样本的分布情况不符,且过采样增加了处理数据量,学习难度增大,耗时 更长。
[0006] (3)集成分类器法是一种通过集成多个基分类器共同决策的机器学习技术,文献 [2]提出了一种组合降采样支持向量机EUS-SVM(Ensemble of Under-Sampled SVMs):将多 数数据随机分为N组,每组数据量与少数数据大致相同,每组均与少数数据组合并成一组 训练样本,分别送入N个支持向量机(SVM :Support Vector Machine)基分类器中对分类器 进行训练。完成训练后,对于每个输入的测试样本,每个分类器都将得出一个分类结果,随 后将这N个分类结果组合,并根据一定的判别准则判定样本最终类型。该方法在SVM学习 机的基础上,采取了组合降采样结构,降低了单分类器的错误率,提高了分类功能的稳定性 和对少数样本的识别能力,但由于有多个SVM并联,耗时量大大增加。
[0007] 从以上分析可以看出,样本重采样法较难还原样本的真实分布,而集成分类器法 由于组合了多个分类器,则需要分类器的分类效率较高,训练消耗较小。EUS-SVM虽然克服 了单纯降采样的样本选择依赖性和不稳定性,在不平衡样本上能够取得较好的少数样本检 出率,但SVM作为基分类器,其训练耗时较长,参数设置较为复杂,当训练数据量较大,或少 数、多数样本比例比较悬殊需要集合多个基分类器时,EUS-SVM需要训练多个SVM分类器, 其分类效率则较为堪忧。
[0008] 通过上述总结我们可以看出,各种改进算法在解决样本不均衡问题的同时还存在 一些不足之处。
[0009] 参考文献:
[0010] [l]Nitesh V. Chawla, Kevin ff. Bowyer, Lawrence 0. Hal 1, ff. Phi 1 ip Kegelmeyer,SMOTE:Synthetic Minority Over-sampling Technique[J]. Journal of Artificial Intelligence Research 16(2002)321-357.
[0011] [2]Pilsung Kang, Sungzoon Cho,Ensemble of Under-Sampled SVMs for Data Imbalance Problems, International Conference on Neural Information Processing, 2006.
【发明内容】
[0012] 本发明旨在克服现有技术的上述不足,提供一种针对不平衡类数据集的组合学习 机,克服样本重采样的样本依赖性,并具有较高的分类效率和简便的参数调整方法。本发明 的技术方案如下:
[0013] 一种组合降采样极限学习机,包括下面的几个方面:
[0014] (1)对于一个类数据不平衡的训练样本,首先对其中的多数样本(FP data)进行 随机降采样,根据多数样本和少数样本的比值N,将其分割成N个多数类子样本FPi (i = 1,? ? ?,N);
[0015] (2)将N个多数类子样本分别与少数样本组合成N个训练子集Trainji = 1,? ? ?,N);
[0016] (3)用⑵得到的N个训练子集训练N个极限学习机,得到N个分类器;
[0017] (4)将测试样本分别送入(3)得到的N个分类器,每个分类器得出一个分类结果。
[0018] (5)每个分类器的投票权重相同,设置一个决策阈值D,将分类结果组合后与决策 阈值D相比较,决定最终分类结果;通过调节决策阈值D,调整分类器对少数样本的关注程 度,D越小则对少数样本的关注度越高。
[0019] 本发明结合了组合降采样支持向量机(EUS-SVM)的组合结构和ELM算法的优点, 保证所有样本均为原始真实样本,分类器功能更加稳定,降低了单个分类器的分类偏差,且 可以通过对决策阈值D的调节来调整对正样本的关注度。经实验比较,本发明在保证高准 确度的情况下拥有耗时短,效率高的绝对优势。
【附图说明】
[0020] 图1是EUS-SVM结构图。
[0021] 图2是EUS-ELM结构图。
【具体实施方式】
[0022] 本发明受EUS-SVM方法的启发,继承其组合降采样结构,使用极限学习机 ELM (Extreme Learning Machine)替代组合结构中的SVM作为基分类器,提出了 一种新的针 对不平衡数据集的学习机(EUS-ELM)。
[0023] 极限学习机(ELM)是一种基于源于BP神经网络的简单学习算法,在训练前只需 要设置网络隐层节点个数,算法执行过程中不需要调整网络的输入权值以及隐层单元的偏 置,并且产生唯一的最优解,参数选择容易、学习速度快且泛化性能好。使用ELM作为组合分 类器中的基分类器,可以大大提升分类效率,而且参数选择更加简便(可参见:M. Heath,K. Bowyer, D. Kopans, The Digital Database for Screening Mammography, in Proceedings of the Fifth International Workshop on Digital Mammography,212-218,Medical Physics Publishing, 2001)〇
[0024] 下面结合附图和实施例对发明作进一步详细的说明。
[0025] (1)取得测试和训练数据:数字乳腺X线图像(DDSM:Digital Database for Screening Mammography)[1]中取得的疑似肿瘤样本。样本数为1549,其中有401个经医师 确诊并标记的肿瘤正样本,正负样本比例约为1 :4。对每个样本提取尺寸,形状和纹理信息 等共34维特征。随机选取1/4的正样本和负样本作为测试样本,其余3/4作为训练样本。
[0026] (2)对多数样本,即负样本(FP data)进行随机降采样,将其分割成4个子样本 FPi (i = 1,. . .,4)。并将这4个子样本分别与少数样本TP data组合成4个训练集Trair^ (i =1,…,4) 〇
[0027] (3)使用这4个训练样本分别训练4个ELM学习机,其激励函数选择Sigmoidal函 数,并在[10, 100]范围内以10为步进采用10折交叉验证搜索最佳节点数。
[0028] (4)将4个学习机并联,如图2所示,并设定决策阈值D。这里我们认为这四个分 类器重要性相同,投票的权重一致。因此,我们设计一种简单的决策阈值方法,设置一个决 策值D,对于一个测试样本,第i个学习机投出的结果为Sc 〇rei (为正样时记为1,负样时为 〇),当2 D时,这个样本被认为是一个正样本,否则为一个负样本。通过调节决策 i=l 值D,可以调整分类器对少数样本(正样)的关注程度,D越小则对正样的关注度越高。这 里,由于正负样本的比例为1:4,并且有4个学习机,D e [1,2, 3, 4]。
[0029] (5)当四个学习机完成训练后,将测试样本分别送入得到的4个训练器,每个训练 器都将得出一个分类结果,根据(4)中的决策方法得出测试样本的最终分类结果。
[0030] 表1,表2和表3分别列出了直接在不平衡数据集上使用SVM分类,随机降采样SVM 分类,SM0TE-SVM分类,EUS-SVM和EUS-ELM在决策值分别为1,2, 3, 4情况下分类性能的对 比结果。我们采用以下几个指标来评判分类效果及分类效率。
【主权项】
1. 一种组合降采样极限学习机,包括下面的几个方面: (2) 对于一个类数据不平衡的训练样本,首先对其中的多数样本(FP data)进行随 机降采样,根据多数样本和少数样本的比值N,将其分割成N个多数类子样本FPi(i = 1,...,脚; (3) 将N个多数类子样本分别与少数样本组合成N个训练子集Train; (i = 1,...,脚; (4) 用(2)得到的N个训练子集训练N个极限学习机,得到N个分类器; (5) 将测试样本分别送入(3)得到的N个分类器,每个分类器得出一个分类结果。 (6) 每个分类器的投票权重相同,设置一个决策阔值D,将分类结果组合后与决策阔值 D相比较,决定最终分类结果;通过调节决策阔值D,调整分类器对少数样本的关注程度,D 越小则对少数样本的关注度越高。
【专利摘要】本发明涉及一种组合降采样极限学习机,包括:对于一个类数据不平衡的训练样本,首先对其中的多数样本(FP?data)进行随机降采样,根据多数样本和少数样本的比值N,将其分割成N个多数类子样本;将N个多数类子样本分别与少数样本组合成N个训练子集;用得到的N个训练子集训练N个极限学习机,得到N个分类器;将测试样本分别N个分类器,每个分类器得出一个分类结果;每个分类器的投票权重相同,设置一个决策阈值D,将分类结果组合后与决策阈值D相比较,决定最终分类结果。本发明具有较高的分类效率和简便的参数调整方法。
【IPC分类】G06K9-62, G06K9-66
【公开号】CN104573708
【申请号】CN201410802451
【发明人】闵行, 褚晶辉, 吕卫
【申请人】天津大学
【公开日】2015年4月29日
【申请日】2014年12月19日