基于随机森林的持久种子库预测方法与流程

文档序号:12365998阅读:908来源:国知局

本发明涉及植物学和恢复生态学领域,特别涉及一种基于随机森林算法、用于预测植物种是否存在持久种子库的方法。是理解植物与环境相互作用,促进植被恢复和物种多样性保护的重要手段。



背景技术:

持久种子库是指在土壤中存在1年以上,仍具有萌发能力的种子。持久种子库是植物适应环境特别是恶劣生境的重要繁殖策略,对于理解植物与环境的相互作用,植物种的适应与进化有重要意义。

植物在进化过程中发展出多种繁殖策略,持久种子库并非所有植物共用的繁殖策略。如榆树利用风力传播在当年即可完成种子的扩散与萌发,无需也不存在持久种子库。因此,哪些植物具有持久种子库与其所处环境、自身进化策略有关。研究植物持久种子库是理解植物繁殖策略的基础与前提。

目前持久种子库研究主要依赖物理分离法和种子萌发法。物理分离法是应用水漂洗、筛子筛选以及在解剖镜或显微镜下观察并分离等方法,先把种子从土壤中挑选出来,通过鉴定种子种类,确定物种是否具有持久种子库的方法。该方法必须包括鉴定种子活力的步骤,否则无法判断种子具有萌发能力,常用方法有四唑染色法和直接检验胚法。种子萌发法就是把土壤中种子样品放在适合温度、水份和光照条件下进行萌发,通过鉴定萌发出的幼苗的种类,确定物种是否具有持久种子库。可见,以往持久种子库的判定需要建立在实验研究基础上,具有费时、费力等缺点。

因此,建立一种用于持久种子库判定的预测方法,对于持久种子库及相关研究,理解植物对环境的响应机制,促进促进植被恢复和物种多样性保护具有重要意义。



技术实现要素:

本发明的目的是针对当前持久种子库研究过度依赖费时、费力的实验方法的特点,提出一种基于随机森林的持久种子库预测方法,以更加有效率地研究植物持久种子库。

本发明提供的基于随机森林的持久种子库预测方法,其方法如下:

1)收集植物种子性状,构建种子性状数据库;

2)收集植物持久种子库属性,构建持久种子库数据库;

3)以物种名称作为关联项,将种子性状数据库与持久种子库数据库相关联;

4)从种子性状数据库和持久种子数据库中随机选取数据,删除仅有种子性状或者持久种子库信息的数据,利用随机森林算法构建训练集;

5)基于所述训练集,建立预测模型,预测模型中具有多个决策树,根据决策树的分类投票结果,实现分类;

6)从种子性状与持久种子库关联数据库中选取不包含持久种子库信息的数据,建立预测集;

7)利用所述预测模型,对预测集进行预测,得到持久种子库存在/不存在的概率值;

8)根据概率大小,将持久种子库归为概率较大的一类,即可判断相应植物是否存在持久种子库。

所述的步骤3)中种子性状数据库与持久种子库数据库关联的主要依据在于物种拉丁名。

步骤4)所述的训练集中,同一条数据包含的种子性状不少于2个。

本发明的有益效果是:

(1)利用随机森林算法简化或者节省了持久种子库研究中需要的大量人力和时间,有助于提高研究效率,节约成本。

(2)对于一时间无法确认持久种子库是否存在的物种,在诸如重量、形状等指标可测的基础上,可进行初步判定持久种子库情况;对于新发现的植物种或者种子极其稀少难以开展实验的植物种,该方法具有重要价值。

具体实施方式

基于随机森林的持久种子库预测方法,步骤如下:

1)收集植物种子性状,构建种子性状数据库;

2)收集植物持久种子库属性,构建持久种子库数据库;

3)以物种名称作为关联项,将种子性状数据库与持久种子库数据库相关联;

4)从种子性状数据库和持久种子数据库中随机选取数据,删除仅有种子性状或者持久种子库信息的数据,利用随机森林算法构建训练集;

5)基于所述训练集,建立预测模型,预测模型中具有多个决策树,根据决策树的分类投票结果,实现分类;

6)从种子性状与持久种子库关联数据库中选取不包含持久种子库信息的数据,建立预测集;

7)利用所述预测模型,对预测集进行预测,得到持久种子库存在/不存在的概率值;

8)根据概率大小,将持久种子库归为概率较大(概率超过50%)的一类,即可判断相应植物是否存在持久种子库。

其中,步骤3)中种子性状数据库与持久种子库数据库关联的主要依据在于物种拉丁名。

步骤4)所述的训练集中,同一条数据包含的种子性状不少于2个。

将本发明方法具体应用在科尔沁沙地部分植物持久种子库研究过程如下:

应用例 科尔沁沙地部分植物持久种子库研究

本应用例主要采用收集的科尔沁沙地部分植物种数据,进一步阐述本发明应用过程,具体步骤如下:

1.收集种子性状,构建种子性状数据库

我们收集到科尔沁沙地143种植物的种子重量、种子形状、附属结构、生活型等数据。

2.收集植物持久种子库属性,构建持久种子库数据库

我们收集到科尔沁沙地91种植物种子是否具有持久种子库信息。其中具有持久种子库的植物52种,不具有持久种子库的植物39种。

3.将种子性状数据库与持久种子库数据库相关联

经过物种对照和比较,并删除部分无效信息,我们只保留了具有持久种子库数据的91个物种信息。为简化计算,我们只保留种子重量和种子形状两个指标的数据。种子重量最大值为130.8 mg,最小值为0.05 mg, 中位数和均值分别为0.99 mg和5.62 mg。种子形状最大值为0.207,最小值为0.007, 中位数和均值分别为0.088和0.093。

4.利用随机森林算法构建训练集

由于随机森林方法不需要交叉验证,我们选择其中的90个物种作为训练集,剩余1个物种差巴嘎蒿(Artemisia halodendron)用于验证预测的准确性。

5.基于所述训练集,建立预测模型

根据随机森林算法,我们建立了预测模型。该模型使用了500个决策树,00B错误率为32.97%。

6.建立预测集

本例中,预测集仅有一个物种,即差巴嘎蒿(Artemisia halodendron),其种子重量为0.51 mg,种子形状为0.12,该物种具有持久种子库。

7.利用所述预测模型,预测集进行预测

我们利用之前建立的预测模型进行预测,得到该物种具有持久种子库的概率为87%,不具有持久种子库的概率为13%。可以应该将其判断为具有持久种子库。而这一判断符合实际情况。

8.根据预测结果,判断是否相应植物是否存在持久种子库。

根据预测概率,我们将其判断为具有持久种子库。而这一判断符合实际情况。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1