基于决策树的作物育种评价方法_4

文档序号:9235883阅读:来源:国知局
、0. 44、0. 20,因此,D。的Gini指标为 0. 6368。
[0220] S3、判断D。是否小于预设阔值G或T。中性状的个数是否为0,若D。小于预设阔值 且T。中性状的个数为0,则将当前节点标记为叶子节点,取Pi中的最大值对应的实验结果 ri为该节点的实验结果;若D。大于等于预设阔值且TO中性状的个数不为0,则执行步骤 S4-S7。
[0221] 在本实施例中,取预设阔值G= 0. 20为划分结束阔值,当前节点为所述根节点时, Gini值。)=0. 6368,|Tj= 34,需要继续执行步骤S4至S7,完成决策树模型的构建。
[0222] S4、计算T。中各性状特征与实验结果的排序相关性。
[0223] 在具体应用中,所述步骤S4具体包括步骤S41-S46;
[0224]S41、根据所属实验e将D。划分为k个子集,每个子集中的数据是同一次实验的数 据,记为Sm,lk。
[0225] 在本实施例中,数据都属于同一实验,因此,D。中材料皆划入唯一子集S1。
[0226]S42、从T。中选择性状特征t。,并根据所述性状特征t。,将Sm中的数据的大小进行 排序,将升序排序结果记为巧:,将降序排序结果记为义。
[0227] 在本实施例中,首先选择ti=生育期,进行相关性计算。
[022引 S43、根据实验结果r,分别对所述巧:和<5,^,中的t。取值相同的数据进行降序微调。
[0229]S44、根据所述巧和义和第四公式,分别计算所述Sm中数据的性状特征t。与实验 结果r的相关性。
[0230] 其中,所述第四公式为:
[0231]
[0232] 其中,DCG(n,m)是通过第五公式计算得到的,IDCG(n,m)是通过第六公式计算得 到的,所述第五公式为:
[0236]其中,q为所述Sm中实验材料的编号,r(p)为所述巧或义中第P位置的实验材 料对应的实验结果,r*(p)为是所述Sm中实验材料根据实验结果降序排序时第P位置对应 的实验结果,《 (n,m)依其使用所述试或义中的排序结果分别记为《 ° (n,m)或《 1 (n,m)。
[0237]在本实施例中,《°(1,1) = 44. 89,《1(1,1) = 45. 78。
[023引 S45、根据第^;:公式,获取0。中性状特征t。的相关性《 (n)。
[0239] 其中,所述第走公式为:
[0240] ? (n) =max{ ?° (n), ? 1 (n)},
[0241] 其中,《°(n)是通过第八公式计算得到的,《i(n)是通过第九公式计算得到的,所 述第八公式为:
[024引其中,ISmI是Sm中实验材料的个数。
[024引在本实施例中,只存在唯一实验,因此;w°(l) = ?°(1,1) = 44. 89,《1(1)= ?1(1,1) = 45. 78,《 (1) =max{?0(l),= 45. 78。
[0247] S46、重复步骤S42至S45,直至获取所述T。中所有性状特征的相关性。
[024引S5、取T。中与实验结果排序相关性最大的性状特征作为当前节点的划分性状1\。[0249] 在本实施例中,与实验结果排序相关性最大的性状特征为小区产量,其相关性为 0. 98,因此根节点的划分性状L为小区产量。
[0250] S6、根据划分性状L计算划分阔值V,,并根据Vj尋D。划分为两个集合D1、〇2。
[0巧。在具体应用中,所述步骤S6具体包括步骤S61-S68 ;
[0252] S61、根据所属实验e将D。划分为k个子集,每个子集中的数据是同一次实验的数 据,记为Sm,lk。
[0巧3] 在本实施例中,数据都属于同一实验,因此,D。中材料皆划入唯一子集S1。
[0254]S62、根据所述划分性状L的大小,将所述Sm中的数据进行升序排序。
[0255] 本实施例中,对所述根节点计算划分阔值时,需对Si中的数据依划分性状小区产 量的大小进行升序排序。
[0巧6] S63、根据筛选条件,对排序后的Sm中的数据进行筛选。
[0巧7] 其中,所述筛选条件为:
[0巧8] Sm(n)声Sm(n+1)
[0259]其中,Sm(n)为Sm中第n个数据的划分性状TS的取值。
[0260] 在本实施例中,将每一个小区产量数据值对应的最后一条数据筛选出来。例如: Si(1) = 0,Si(3) = 0. 027,Si(4) = 0. 075。
[0261]S64、根据满足所述筛选条件的Sm(n),通过第十公式计算候选划分阔值Vm(x)。
[0262] 其中,所述第十公式为:
[0263]
[0264] 在本实施例中,利用所有筛选出数据的L取值计算候选划分阔值,举例来说:
[0266]S65、针对所有候选划分阔值Vm(x),通过第十一公式计算使用所有候选划分阔值 Vm(x)进对所述Sm进行划分后的Gini指标Gini,(Vm(x))。
[0267] 其中,所述第十一公式为:
[026引
[026引其中,Smi、Sm2为使用Vm(X)对Sm进行划分后的数据集合。
[0270] 在本实施例中,在根节点使用Vi(1)和Vi(2)划分后的Gini指标为;
[0273]S66、对所述S。,获取使Gini,(Vm(x))取最小值的Vm(x),根据使Gini,(Vm(x))取最 小值的Vm(x),通过第十二公式计算v,(m)。
[0274] 其中,所述第十二公式为:
[0275] V如)=V",Gc) - 5"
[027引其中,石为Sm对应实验e中所有实验材料划分性状Ts的平均值。
[0277] 在本实施例中,所有实验材料均属唯一实验,其在根节点划分性状小区产量的平 均值A=0.4277,当Vm(x) = 0. 4191 时,Ginis(Vm(x))取最小值 0. 4211,因此,Vs(l)= 0.4191-0. 4277 = -0. 0086。
[027引 S67、根据所述v,(m),通过第十S公式计算划分阔值V,。
[0279] 其中,所述第十S公式为:
[0280]
[0281] 在本实施例中,所有实验材料属于同一实验,因此v,=v,(l) = -0.0086。
[028引 S68、判断D。中的数据是否满足第一条件,将D。中满足所述第一条件的数据划入子 集01,将D。中不满足所述第一条件的数据划入子集D2。
[0283] 其中,所述第一条件为:
[0284] Sm(内)< &" +V,。
[0285] 在本实施例中,将所有小区产量不大于7 +,.'、=0.4277-0.0086二化4191的实验 材料划入〇1,其余划入〇2。
[0286] S7、从T。中移除T,,分别令Di、〇2作为D。,重复S2至S7建立其对应的决策树模型, 并将结果分别作为当前节点的左、右子树。
[0287] 在本实施例中,从T。移除小区产量,分别WS68中划分所得的D1、为新的D。,重 复步骤S2至S7构建相应决策树模型,作为根节点的左、右子树,参见图2,图2为使用本实 施例构建的决策树模型示例的示意图。
[028引104、根据所述作物育种评价模型对具有相同育种目标的待评价作物性状数据进 行分析,并获得评价结果。
[0289] 在具体应用中,上述步骤104包括步骤P1-P5 ;
[0290] P1、从所述作物育种评价模型中获取具有相同育种目标的决策树,令所述决策树 的根节点为当前节点N。。
[0291] 本实施例使用图2所示决策树,W其根节点为当前节点N。。
[029引 P2、判断当前节点N。是否为叶子节点,若是,则该节点的评价结果即为待评价作物 性状数据的评价结果,若否,则执行步骤P3至P5 ;
[029引 P3、获取所述当前节点N。的划分性状T,及划分阔值V
[0294] 在本实施例中,根节点的划分性状为小区产量,划分阔值V,为-0. 0086。
[0295] P4、利用与所述待评价作物性状数据为同一实验的所有数据,计算该实验的划分 性状Ts的平均值S。
[0296] 在本实施例中,视十条测试数据为待评价实验中的所有数据,其小区产量平均值 为 0.4569。
[0297] P5、判断所述待评价作物性状数据的划分性状L的取值Sd是否满足: <s+V,,若是,则令N。的左节点为当前节点,重复P2至P5步骤,若否,则令NO的右节 点为当前节点,重复P2至P5步骤。
[029引本实施例中材料#101的小区产量为0. 4169,该值小于S+V,=化巧69 -化0086 = 0. 4483,因此选择根节点的左节点为当前节点,继续步骤P2 至P5,直至寻找到叶子节点,最终叶子节点评价结果为{留},即使用基于决策树的作物育 种评价方法将材料#101评价为{留}。在实验中,该材料的真实评价结果亦为{留}。
[0299] 本实施例的基于决策树的作物育种评价方法,将作物育种过程中累积的评价数据 引入育种评价模型的训练中,作为构
当前第4页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1