最后选择最优分裂属性时,就只需要从M个属性进行选择,那么计算Gini值的时间可以大大减少,最理想的情况下可以减少到1/M。
[0039]进一步地,所述协处理器220用于根据计算后的结果获取最优分裂属性构建决策树发送给所述主节点10,是指:
[0040]所述协处理器220判段计算后的结果是不是最优解,若是,则将所述计算结果为最优解的对应的数据分片子集作为最优分裂属性构建决策树,将构建的决策树发送给所述主节点;若不是,则继续处理所述从节点的其他数据分片,直至计算后的结果是最优解或所有数据分片全部处理完。
[0041]具体的,各所述协处理器220计算后的结果会进行汇总,对所有计算后的结果进行判断,例如可以判断计算后的基尼值是不是最小的,若是,则将基尼值最小的对应的数据分片子集作为最优分裂属性构建决策树,并将构建的决策树发送给所述主节点10 ;若不是,则继续处理从节点20的其他数据分片,直至计算后的基尼值是最小的或者是把所有的数据分片全部处理完。
[0042]图2为本发明实施例提供的异构系统并行随机森林优化方法实施例一的流程示意图,如图2所示,该方法应用于异构系统并行随机森林优化系统,其特征在于,所述系统包括:一个主节点和多个从节点;
[0043]S101、所述主节点将待计算的数据文件划分成多个数据分片,分别发送数据分片给各所述从节点,接收各所述从节点构建好的决策树生成随机森林;
[0044]S102、所述从节点接收所述主节点分配的所述数据分片进行计算,将计算后的最优解构建决策树发送到所述主节点。
[0045]本发明实施例提供的异构系统并行随机森林优化方法,应用于异构系统并行随机森林优化系统,包括至少一个主节点和多个从节点,通过主节点将待计算的数据文件划分成多个数据分片,分别发送数据分片给各从节点,各从节点用于接收主节点分配的数据分片进行计算,将计算后的最优解构建决策树发送到主节点,从而生成随机森林,实现了对超大规模数据文件的并行计算,从而加快了寻找最优解的时间,使得整个系统效率大幅提升,不需受限于网络带宽不足、内存容量小等情况,满足了高性能应用对于大规模数据进行处理的要求。
[0046]进一步地,所述从节点包括至少一个中央处理器和多个协处理器;
[0047]所述从节点接收所述主节点分配的所述数据分片,包括:所述中央处理器接收所述数据分片,将所述数据分片划分为多个数据分片子集,分配相应的所述数据分片子集给各所述线程,分发线程给各所述协处理器;
[0048]所述从节点计算所述数据分片并将计算后的最优解构建决策树发送到所述主节点,包括:所述协处理器接收对应的线程获取相应的所述数据分片子集和初始值进行计算,根据计算后的结果获取最优分裂属性构建决策树发送给所述主节点。
[0049]本发明实施例提供的异构系统并行随机森林优化方法,可以执行上述系统实施例,其实现原理和技术效果类似,在此不再赘述。
[0050]进一步地,所述协处理器接收对应的线程获取相应的所述数据分片子集和初始值进行计算之前,还包括:
[0051]所述主节点向各所述从节点分配进程,所述进程向所述从节点内所有设备发送调用请求的线程,接收各所述设备返回的调用请求的线程;其中,一个中央处理器作为一个设备,一块协处理器作为一个设备。
[0052]本发明实施例提供的大异构系统并行随机森林优化方法,可以执行上述系统实施例,其实现原理和技术效果类似,在此不再赘述。
[0053]进一步地,所述中央处理器划分数据分片为多个数据分片子集,包括:
[0054]所述中央处理器按照所述协处理器的数量将数据分片平均划分成多个数据分片子集。
[0055]本发明实施例提供的异构系统并行随机森林优化方法,可以执行上述系统实施例,其实现原理和技术效果类似,在此不再赘述。
[0056]进一步地,所述协处理器根据计算后的结果获取最优分裂属性构建决策树发送给所述主节点,包括:
[0057]所述协处理器判断计算后的结果是不是最优解,若是,则将所述计算后的最优解的对应的数据分片子集作为最优分裂属性构建决策树,将构建的决策树发送给所述主节点;若不是,则继续计算所述从节点的其他数据分片,直至计算后的结果是最优解或所有数据分片全部处理完。
[0058]本发明实施例提供的异构系统并行随机森林优化方法,可以执行上述系统实施例,其实现原理和技术效果类似,在此不再赘述。
[0059]本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:R0M、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
[0060]虽然本发明所揭露的实施方式如上,但所述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
【主权项】
1.一种异构系统并行随机森林优化系统,其特征在于,应用于中央处理器与协处理器混合异构集群,包括:一个主节点和多个从节点; 所述主节点用于将待计算的数据文件划分成多个数据分片,分别发送数据分片给各所述从节点,接收各所述从节点构建好的决策树生成随机森林; 所述从节点用于接收所述主节点分配的所述数据分片进行计算,将计算后的最优解构建决策树发送到所述主节点。2.根据权利要求1所述的系统,其特征在于,所述从节点包括至少一个中央处理器和多个协处理器; 所述从节点用于接收所述主节点分配的所述数据分片,包括:所述中央处理器接收所述数据分片,将所述数据分片划分为多个数据分片子集,分配相应的所述数据分片子集给各所述线程,分发线程给各所述协处理器; 所述从节点用于计算所述数据分片并将计算后的最优解构建决策树发送到所述主节点,包括:所述协处理器接收对应的线程获取相应的所述数据分片子集和初始值进行计算,根据计算后的结果获取最优分裂属性构建决策树发送给所述主节点。3.根据权利要求2所述的系统,其特征在于,所述协处理器用于接收对应的线程获取相应的所述数据分片子集和初始值进行计算之前,还包括: 所述主节点向各所述从节点分配进程,所述进程向所述从节点内所有设备发送调用请求的线程,接收各所述设备返回的调用请求的线程;其中,一个中央处理器作为一个设备,一块协处理器作为一个设备。4.根据权利要求2所述的系统,其特征在于,所述中央处理器用于划分数据分片为多个数据分片子集,是指: 所述中央处理器按照所述协处理器的数量将数据分片平均划分成多个数据分片子集。5.根据权利要求2所述的系统,其特征在于,所述协处理器用于根据计算后的结果获取最优分裂属性构建决策树发送给所述主节点,是指: 所述协处理器用于判断计算后的结果是不是最优解,若是,则将所述计算后的最优解的对应的数据分片子集作为最优分裂属性构建决策树,将构建的决策树发送给所述主节点;若不是,则继续计算所述从节点的其他数据分片,直至计算后的结果是最优解或所有数据分片全部处理完。6.一种异构系统并行随机森林优化方法,应用于异构系统并行随机森林优化系统,其特征在于,所述系统包括:一个主节点和多个从节点; 所述主节点调用将待计算的数据文件划分成多个数据分片,分别发送数据分片给各所述从节点,接收各所述从节点构建好的决策树生成随机森林; 所述从节点接收所述主节点分配的所述数据分片进行计算,将计算后的最优解构建决策树发送到所述主节点。7.根据权利要求6所述的方法,其特征在于,所述从节点包括至少一个中央处理器和多个协处理器; 所述从节点接收所述主节点分配的所述数据分片,包括:所述中央处理器接收所述数据分片,将所述数据分片划分为多个数据分片子集,分配相应的所述数据分片子集给各所述线程,分发线程给各所述协处理器; 所述从节点计算所述数据分片并将计算后的最优解构建决策树发送到所述主节点,包括:所述协处理器接收对应的线程获取相应的所述数据分片子集和初始值进行计算,根据计算后的结果获取最优分裂属性构建决策树发送给所述主节点。8.根据权利要求7所述的方法,其特征在于,所述协处理器接收对应的线程获取相应的所述数据分片子集和初始值进行计算之前,还包括: 所述主节点向各所述从节点分配进程,所述进程向所述从节点内所有设备发送调用请求的线程,接收各所述设备返回的调用请求的线程;其中,一个中央处理器作为一个设备,一块协处理器作为一个设备。9.根据权利要求7所述的方法,其特征在于,所述中央处理器划分数据分片为多个数据分片子集,包括: 所述中央处理器按照所述协处理器的数量将数据分片平均划分成多个数据分片子集。10.根据权利要求7所述的方法,其特征在于,所述协处理器根据计算后的结果获取最优分裂属性构建决策树发送给所述主节点,包括: 所述协处理器判断计算后的结果是不是最优解,若是,则将所述计算后的最优解的对应的数据分片子集作为最优分裂属性构建决策树,将构建的决策树发送给所述主节点;若不是,则继续计算所述从节点的其他数据分片,直至计算后的结果是最优解或所有数据分片全部处理完。
【专利摘要】本发明公开了一种异构系统并行随机森林优化系统和方法,应用于中央处理器与协处理器混合异构集群,包括:一个主节点和多个从节点;其中,主节点用于将待计算的数据文件划分成多个数据分片,分别发送数据分片给各从节点,各从节点用于接收主节点分配的数据分片进行计算,将计算后的最优解构建决策树发送到主节点,从而生成随机森林,通过多个从节点对数据分片并行计算,从而加快了寻找最优解的时间,使得整个系统效率大幅提升,不需受限于网络带宽不足、内存容量小等情况,满足了高性能应用对于大规模数据进行处理的要求。
【IPC分类】G06Q10/04
【公开号】CN105046382
【申请号】CN201510591067
【发明人】王娅娟, 张广勇, 吴韶华, 沈铂, 卢晓伟, 张清
【申请人】浪潮(北京)电子信息产业有限公司
【公开日】2015年11月11日
【申请日】2015年9月16日