植被水分利用效率WUE的影响因子的计算方法及装置与流程

文档序号:19157790发布日期:2019-11-16 01:02阅读:2371来源:国知局
植被水分利用效率WUE的影响因子的计算方法及装置与流程

本发明涉及遥感技术领域,更具体地,涉及植被水分利用效率wue的影响因子的计算方法及装置。



背景技术:

植被水分利用效率(wateruseefficiency,wue)是刻画陆地生态系统碳水循环的一个关键参数,可以用来评估区域生态状况。wue表示的是植物消耗每单位水分所生成的碳,在生态系统尺度通常被定义为生态系统生产力与蒸散量的比值,是联系了陆地生态系统和大气之间的碳和水交换过程的关键。

wue变化受外界环境状况以及自身生长状况决定。气象因子,如温度、降水和太阳辐射等对生态系统wue有着重要的影响,除此之外,退耕还林、耕地管理等人类活动引起的土地利用覆盖变化也是影响wue变化的重要因素,生长季长度、树龄、干旱恢复的时长、叶面积大小、叶片气孔导度等植被生长状况,土壤含水量、土壤含氮量、土壤类型等土壤情况等也对wue的变化有重要影响。影响因子的多样性为衡量和评价影响wue的影响因子的贡献相对大小提出需求。

如何能够实现将影响因子从定性评价转向定量衡量,是现有技术仍需解决的问题。



技术实现要素:

本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的植被水分利用效率wue的影响因子的计算方法及装置。

第一个方面,本发明实施例提供一种植被水分利用效率wue的影响因子的计算方法,包括:

选取历史时段的wue以及若干种影响因子;将处于同一时空位置的wue以及所述若干种影响因子的测量值作为一个样本,以获得原始样本集;

根据所述原始样本集训练随机森林模型,根据训练好的随机森林模型预测各影响因子对wue的影响权重。

第二个方面,本发明实施例提供一种植被水分利用效率wue的影响因子的计算装置,包括:

样本集获取模块,用于选取历史时段的wue以及若干种影响因子;将处于同一时空位置的wue以及所述若干种影响因子的测量值作为一个样本,以获得原始样本集;

权重计算模块,用于根据所述原始样本集训练随机森林模型,根据训练好的随机森林模型预测各影响因子对wue的影响权重。

第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。

第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的植被水分利用效率wue的影响因子的计算方法及装置,通过随机森林模型的方式计算各影响因子对wue的影响权重,实现了将影响因子从定性评价转向定量衡量,就能够对区域生态状况的恢复和治理提供更好的帮助。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例的植被水分利用效率wue的影响因子的计算方法的流程示意图;

图2为本发明实施例提供的植被水分利用效率wue的影响因子的计算装置的结构示意图;

图3为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

近年来,机器学习的发展为研究影响因子关系提供了新的手段和方法,随机森林(randomforest,rf)算法是一种基于bagging的集合学习算法,通过聚合大量的决策树优化学习准确性,在运算量没有显著提高的前提下提高了预测精度,它对多元共线性不敏感,结果对缺失数据和非平衡数据相对稳健,可以很好预测数千个解释变量的作用,是当前最好的模型算法之一。利用rf的important函数可以定量评价影响wue因子的相对贡献。

图1为本发明实施例的植被水分利用效率wue的影响因子的计算方法的流程示意图,如图1所示,包括:

s101、选取历史时段的wue以及若干种影响因子;将处于同一时空位置的wue以及所述若干种影响因子的测量值作为一个样本,以获得原始样本集。

具体地,本发明实施例所选的影响因子主要分为气候因素和人类活动因素。天气因素即自然因素,包括但不限于温度、降水量和太阳辐射等。人类活动因素包括但不限于土地利用/覆盖的变化情况。需要注意的是,一般的人类活动因素通常很难客观地进行量化,本发明实施例以土地利用/覆盖的变化数据来表征人类活动对wue的影响,土地利用/覆盖的变化数据是指土地利用覆盖情况不同时间出现变化的数据。比如某块土地在2010年为耕地,在2019年变更为林地,即土地利用/覆盖出现了变化,可以作为一个样本,而如果一块土地在每次监测的时候都没有发生变化,则该土地不作为样本。

具体地,可以将wue数据,温度、降水和太阳辐射等气象数据以及土地利用覆盖数据以raster格式读入,并提取每个对应栅格的值,整理到dataframe数据类型中,包含wue、温度、降水、太阳辐射、以及土地利用覆盖数据,共5个字段。需要注意的是,本发明实施例将土地利用覆盖数据标签化为离散变量,例如,某块土地在2015年为耕地,在2016年之后直到2019年都变更为林地,那么这块土地的数据可以表示为01111,其中0表示耕地,而1表示林地。每一行表示wue与其对应同一时空位置影响因子的情况。

s102、根据原始样本集训练随机森林模型,根据训练好的随机森林模型预测各影响因子对wue的影响权重。

需要说明的是,随机森林是一个树形分类器的集合,可以表示为:

{h(x,βk),k=1,2…}

其中基本分类器h(x,βk)是用cart算法构建的没有剪枝的分类决策树;x是输入变量;βk是独立同分布的随机变量,它决定了单棵决策树的生长过程。

随机森林的输出结果通常采用简单多数进行投票得出,或者根据单棵树输出的结果进行简单平均求值获得。其中简单多数投票法主要针对分类模型,单棵决策树输出的结果进行简单平均主要针对回归模型。

本发明实施例通过随机森林模型的方式计算各影响因子对wue的影响权重,实现了将影响因子从定性评价转向定量衡量,就能够对区域生态状况的恢复和治理提供更好的帮助。

在上述各实施例的基础上,作为一种可选实施例,根据原始样本集训练随机森林模型,具体为:

定义原始样本集中的样本总数为n,影响因子的总种类数为m,设置决策树中的每个节点做决定时使用的影响因子的种类数为m,m为小于m的定值;

获取k个自助样本集,每个自助样本集的获取方法为:从所述原始样本集中进行有放回的随机抽样n次,获得一个自助样本集,所述自助样本集中样本的个数为n;

利用每个自助样本集构建一颗决策树,从而获得具有k颗决策树的随机森林。

需要说明的是,根据发展的多个决策树分类器对需要进行预测的数据进行预测,根据每棵决策树的投票结果取票数最高的一个类别,或所有决策树的简单平均值表示结果。随机森林的“随机”体现在两方面:一是生成每棵决策树时,所应用的自助样本集从原始的训练样本集中随机选取,二是每棵决策树所应用的变量也是从所有变量m中随机选取。

在上述各实施例的基础上,作为一种可选实施例,所述利用每个自助样本集构建一颗决策树,具体为:

对于构建决策树中的每个节点,从m种影响因子中随机挑选m种影响因子,作为目标影响因子集;

遍历目标影响因子集中每一个影响因子对每一种节点的分割方式,从所有分割方式中找到最优的分割点情况,使所述决策树进行生长,当所有节点的不纯度达到最小时,停止决策树生长;

其中,所述决策树不进行剪枝操作。

随机森林的分类性能取决于森林中单棵树的分类强度以及树之间的相关度。在随机森林中,每棵决策树的分类强度越大,分支越多,整体随机森林的分类性能越好;除此之外,每棵决策树之间的相关度越大,树的分支相互穿插越多,随机森林的分类性能越差。

随机森林有两个重要参数,第一个是决策树生成的节点选取变量个数m,变量个数决定了所生成的单棵决策树情况,从微观层面决定了模型构造;另一个是随机森林中决策树的个数k,决策树的个数决定了组成森林的总体规模,从宏观上决定了模型。这两个参数是构建随机森林模型过程中的两个重要参数。在本发明实施例中变量即为影响因子。

随机森林模型可以度量模型各个变量,即影响因子的重要性结果。计算每个变量对模型分类的影响程度,可以表示模型的哪个具体的特征对结果有重大影响,以此评价植被水分利用效率的影响因子之间相对贡献大小。

本发明实施例的随机森林模型的实现主要在r语言(r是用于统计分析、绘图的语言和操作环境)中进行,r中randomforest是专用于随机森林的软件包,用于建立随机森林的回归模型和分类模型。重要性评价的度量主要是基于软件包中的importance()以及randomforest()函数。函数randomforest()用于建立随机森林的分类模型以及归回模型,importance()用于提取利用randomforest()建立随机森林模型中方程变量的重要性度量结果。除此之外,函数plot()能够讲随机森林模型进行相应可视化,便于对模型进行分析和改进。

randomforest():

函数randomforest()是随机森林建立的核心函数,主要用来建立随机森林模型中给的分类模型和回归模型。

randomforest(formula,data=null,…,subset,na.action=na.fail)

其中,

1、formula表示模型形式。例如“class~.”,表示除class以外的其他数据全部为模型自变量,或者“class~x1+x2”表示x1和x2为模型自变量。

2、data表示用于建立的模型的数据,是一组有变量信息的可选格式数据,一般为dataframe格式。

3、subset主要用于抽取样本中给的部分样本作为训练集,该参数使用给的数据格式为向量,向量中的每个数表示所需要抽取样本的行数。

4、na.action用于设置构建模型过程中遇到数据中缺失值如何处理。该参数默认为na.fail,即没有缺失值。该参数还可以设置为na.omit,即忽略有缺失值的样本。

函数importance()用于提取随机森林模型中各个变量的重要性度量结果,也是衡量因子相对贡献在重要函数。

例如,importance(x,type=null,class=null,scale=true,…)

其中:

1、x代指利用函数randomforest()生成的随机森林模型。

2、type指代用于变量重要性度量的标准。其中,1表示采用精度平均值最小作为度量标准。当然,本发明实施例还可以采用其他度量重要性的方法,并相应地配置不同的type值。

3、class用于针对随机森林的分类问题。

4、scale代表是否对变量重要性进行标准化,即将重要值处以它们对应的标准差。

在上述各实施例的基础上,所述获取k个自助样本集,同时还包括:将每次获取自助样本集时未抽取到的样本作为一个袋外数据oob,以获得k个袋外数据oob。在随机森林构建过程中,自助样本集用于每棵决策树的形成,每次抽样生成的袋外数据(oob)被用来预测分类的正确率,对每次预测的结果进行汇总得到误分率,用来评估组合分类的正确率。

在上述各实施例的基础上,所述根据训练好的随机森林模型预测各影响因子对wue的影响权重,具体为:根据表示精度平均降低值预测各影响因子对wue的影响权重。需要说明的是,本发明实施例输出重要性度量采用的是表示精度平均降低值,输出结果中对应变量重要值越大,说明相对贡献量越大,越重要。

在上述各实施例的基础上,所述根据表示精度平均降低值预测各影响因子对wue的影响权重,具体为:

将随机森林模型中的每一棵决策树作为目标决策树,将所述目标决策树对应的袋外数据oob作为输入样本输入至目标决策树中,计算目标决策树的误分率,根据所有决策树的误分率获得随机森林的第一误分率;

随机改变所述袋外数据oob中的第j个影响因子,获得改变后的袋外数据oob,并作为输入样本输入至对应的目标决策树中,计算目标决策树的新的误分率,根据所有决策树的新的误分率获得随机森林的第二误分率;

根据所述第一误分率和第二误分率的差值,作为第j个影响因子对wue的影响权重。

图2为本发明实施例提供的植被水分利用效率wue的影响因子的计算装置的结构示意图,如图2所示,该植被水分利用效率wue的影响因子的计算装置包括:样本集获取模块201和权重计算模块202,其中:

样本集获取模块,用于选取历史时段的wue以及若干种影响因子;将处于同一时空位置的wue以及所述若干种影响因子的测量值作为一个样本,以获得原始样本集;

权重计算模块,用于根据原始样本集训练随机森林模型,根据训练好的随机森林模型预测各影响因子对wue的影响权重。

本发明实施例提供的植被水分利用效率wue的影响因子的计算装置,具体执行上述各植被水分利用效率wue的影响因子的计算方法实施例流程,具体请详见上述各植被水分利用效率wue的影响因子的计算方法实施例的内容,在此不再赘述。本发明实施例提供的植被水分利用效率wue的影响因子的计算装置通过随机森林模型的方式计算各影响因子对wue的影响权重,实现了将影响因子从定性评价转向定量衡量,就能够对区域生态状况的恢复和治理提供更好的帮助。

图3为本发明实施例提供的电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(communicationsinterface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储在存储器330上并可在处理器310上运行的计算机程序,以执行上述各实施例提供的植被水分利用效率wue的影响因子的计算方法,例如包括:选取历史时段的wue以及若干种影响因子;将处于同一时空位置的wue以及所述若干种影响因子的测量值作为一个样本,以获得原始样本集;根据原始样本集训练随机森林模型,根据训练好的随机森林模型预测各影响因子对wue的影响权重。

此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的植被水分利用效率wue的影响因子的计算方法,例如包括:选取历史时段的wue以及若干种影响因子;将处于同一时空位置的wue以及所述若干种影响因子的测量值作为一个样本,以获得原始样本集;根据原始样本集训练随机森林模型,根据训练好的随机森林模型预测各影响因子对wue的影响权重。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1