一种随机森林模型的优化方法及系统的制作方法
【技术领域】
[0001]本发明属于数据处理技术领域,尤其涉及一种随机森林模型的优化方法及系统。
【背景技术】
[0002]随机森林是一种有监督的集成学习分类技术,其模型由一组决策树分类器组成,所述模型对数据的分类是通过单个决策树的分类结果进行集体投票来决定最终结果的。通过对训练样本空间和属性空间注入随机性,充分保证了每个决策树之间的独立性和差异性,很好地克服了决策树过拟合问题,同时对噪声和异常值也有较好的鲁棒性。虽然随机森林模型预测效果显著优于单个决策树,但其预测速度明显下降,随着决策树数目的增多,其预测时间也相应增加。
【发明内容】
[0003]本发明实施例在于提供一种随机森林模型的优化方法,以解决现有随机森林模型预测速度下降及预测时间增加的问题。
[0004]本发明实施例的第一方面,提供一种随机森林模型的优化方法,所述方法包括:
[0005]创建随机森林模型的热力分布直方图以及所述随机森林模型中不同预测精度决策树的分布直方图;
[0006]根据所述热力分布直方图以及所述随机森林模型中不同预测精度决策树的分布直方图,采用决策树间相同属性节点的比例计算决策树间的相似度;
[0007]根据所述随机森林模型中不同预测精度决策树的分布直方图,删除预测精度最小的决策树,和/或根据计算获得的决策树间的相似度,删除所述随机森林模型中决策树间相似度最高的决策树。
[0008]本发明实施例的第二方面,提供一种随机森林模型的优化系统,所述系统包括:
[0009]直方图创建单兀,用于创建随机森林模型的热力分布直方图以及所述随机森林模型中不同预测精度决策树的分布直方图;
[0010]相似度计算单元,用于根据所述热力分布直方图以及所述随机森林模型中不同预测精度决策树的分布直方图,采用决策树间相同属性节点的比例计算决策树间的相似度;
[0011]优化单元,用于根据所述随机森林模型中不同预测精度决策树的分布直方图,删除预测精度最小的决策树,和/或根据计算获得的决策树间的相似度,删除所述随机森林模型中决策树间相似度最高的决策树。
[0012]本发明实施例与现有技术相比存在的有益效果是:本发明实施例通过创建随机森林模型的热力分布直方图、创建不同预测精度决策树的分布直方图以及采用决策树间相同属性节点的比例计算决策树间的相似度对所述随机森林模型进行决策树的删减优化,使得优化后的随机森林模型具有规模小、预测精度高及预测速度快等特点,有效提高了随机森林模型的预测效率和准确率。
【附图说明】
[0013]为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0014]图1是本发明第一实施例提供的随机森林模型优化方法的实现流程图;
[0015]图2是本发明第二实施例提供的随机森林模型优化系统的组成结构图。
【具体实施方式】
[0016]为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0017]为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
[0018]实施例一:
[0019]图1示出了第一实施例提供的随机森林模型优化方法的实现流程,该方法过程详述如下:
[0020]在步骤SlOl中,创建随机森林模型的热力分布直方图以及所述随机森林模型中不同预测精度决策树的分布直方图。
[0021]在本实施例中,随机森林模型的热力分布直方图(Heat Map)可表示随机森林模型中决策树的密度分布情况。对随机森林模型进行分区,并构建分布网格,统计落入网格中的决策树数量,根据统计到的决策树数量通过量化得到不同颜色的热力分布直方图,通过所述热力分布直方图能清晰的显示决策树间的相似分布情况,方便实现随机森林模型的优化。
[0022]另外,利用随机森林中决策树的分类预测精度,创建所有不同精度决策树的分布直方图。可通过横轴表示决策树的精度分布,以一定的增量递增;纵轴表示某精度区间决策树的统计个数,通过不同预测精度决策树的分布直方图,可为随机森林模型优化提供以决策树预测精度优化的依据。
[0023]在步骤S102中,据所述热力分布直方图以及所述随机森林模型中不同预测精度决策树的分布直方图,采用决策树间相同属性节点的比例计算决策树间的相似度。
[0024]在本实施例中,随机森林模型中两两决策树之间的相似性度量可构建一个相似性矩阵,根据所述相似性矩阵结合多维标量法获取低维空间随机森林模型中决策树之间的相关性。
[0025]本实施例提出一种新的相似度计算方法,即采用决策树间相同属性节点的比例计算决策树间的相似度,可有效提高决策树间相似度计算的准确性,具体如下:
[0026]设随机森林模型为{h(X,9k)k=l,2,...,η},并且记{Node Cni, k)i, k=l, 2,...,n},则两棵决策树之间的相似度可采用以下公式计算获得:
[0027](Node Cni, k) Π Node Cnj, p) )/(Node Cni, k) U Node Cnj, p) ), i ^ j, k ^ p ;
[0028]其中,n为所述随机森林模型中决策树的个数,Node Cni, k)表示第k棵决策树中所含属性节点的个数Iii, Node (η」,p)表示第P棵决策树中所含属性节点的个数η」,NodeCni, k)n Node Cnj, p)表示第k棵决策树和第p棵决策树中所含相同属性节点的个数,NodeCni, k) U Node (η」,p)表示第k棵决策树和第p棵决策树中所含的全部属性节点的个数,i, j, k, p=l, 2,...,η。相似度数值越大表示两棵决策树越相似。
[0029]在步骤S103中,根据所述随机森林模型中不同预测精度决策树的分布直方图,删除预测精度最小的决策树,和/或根据计算获得的决策树间的相似度,删除所述随机森林模型中决策树间相似度最高的决策树。
[0030]在本实施例中,删除预测精度最小的决策树具体可以为:
[0031]定义{Precis1n (h(X, Θ k)) k=l, 2,...,η},其中η为所述随机森林模型中决策树的个数,h(X,9k)为单棵决策树,Precis1nO为单棵决策树预测精度的函数,通过sortincrease (Precis1n (.))表示对所有决策树按预测精度大小进行升序或降序排序,根据排序结果,依次删除预测精度最小的决策树。
[0032]和/或根据计算获得的决策树间的相似度,删除所述随机森林模型中决策树间相似度最高的决策树,具体可以是删除所述决策树间相似度最高的两颗决策树或者其中一颗决策树。
[0033]进一步的是,本实施例所述根据所述随机森林模型中不同预测精度决策树的分布直方图,删除预测精度最小的决策树,和/或根据计算获得的决策树间的相似度,删除决策树间相似度最高的决策树具体包括:
[0034]判断所述随机森林模型是否符合预设的优化停止条件;
[0035]若否,根据所述随机森林模型中不同预测精度决策树的分布直方图,删除预测精度最小的决策树,和/或根据计算获得的决策树间的相似度,删除决策树间相似度最高的决策树;否则停止当前优化操作。
[0036]优选的是,所述预设的优化停止条件为:
[0037]所述随机森林模型整体预测精度(StrengthKF)最大且所述随机森林模型中决策树之间才目关度(correlat1nRF)最,J、(SP Maximum(StrengthEF) U Minimum(correlat1nEF));或者所述随机森林模型整体预测精度收敛至预设极值且所述随机森林模型中决策树之间相关度(correlat1nKF)和所述随机森林模型的泛化误差界(errorBoundKF)最小(即Minimum(correlat1nEF) U Minimum(errorBoundRF))。
[0038]通过本发明实施例使得优化后的随机森林模型具有规模小、预测精度高及预测速度快的特点,有效提高了随机森林模型的预测效率和准确率。而且本发明实施例实现简单,对硬件要求较低,具有较高的灵活性。
[0039]实施例二:
[0040]图2示出了本发明第二实施例提供的随机森林模型优化系统的组成结构,为了便于说明,仅示出了与本发明实施例相关的部分。
[0041]该随机森林模型优化系统可应用于各种数据处理终端,例如口袋计算机(PocketPersonal Computer, PPC)、掌上电脑、计算机、笔记本电脑、个人数字助理(PersonalDigital Assistant, PDA)等,可以是运行于这些终端内的软件单元、硬件单元或者软硬件相结合的单元,也可以作为独立的挂件集成到这些终端中或者运行于这些终端的应用系统中。
[0042]该随机森林模型优化系统包括直方图创建单元21、相似度计算单元22以及优化单元23。其中,各单元具体功能如下:
[0043]直方图创建单兀21,用于创建随机森林模型的热力分布直方图以及所述随机森林模型中不同预测精度决策树的分布直方图;
[0044]相似度计算单元22,用于根据所述热力分布直方图以及所述随机森林模型中不同预测精度决策树的分布直方图,采用决策树间相同属性节点的比例计算决策树间的相似度;
[0045]优化单元23,用于根据所述随机森林模型中不同预测精度决策树的分布直方图,删除预测精度最小的决策树,和/或根据计算获得的决策