本发明涉及水文水资源领域,具体涉及一种基于互信息与随机森林的中长期水文预报因子选择方法。
背景技术:
1、基于机器学习理论的中长期降水预报的流程主要包括预报因子的筛选和预报模型的建立,其中预报模型的建立需要基于预报因子的筛选这一步骤,它决定了预报模型的输入信息流,并直接影响最终的预报结果,因此,构建一种能够快速剔除冗余因子并保证预报因子能有效的反映预报变量复杂的变化机理的因子筛选技术对提高中长期降水预报精度至关重要,也是众多水文工作者长期研究的热点问题之一。
2、目前,预报因子的筛选方式随着机器学习在水文领域中的不断应用而日趋多元,常见的方法主要可分为三大类:第一类是过滤式方法,先对样本数据集进行特征选择,然后再训练模型,即先利用某种评价准则对初始特征进行“过滤”,大于评分的可以被选择,小于评分的则被过滤掉,再用过滤后的特征对模型进行训练,特征选择过程与预报模型训练过程是独立的,如互信息和偏互信息等;第二类方法是包裹式方法,根据预报模型在特征子集上的预报精度来对所选特征进行判定与排序,即特征选择过程是被训练模型“包裹”着的,如拉斯维加斯包裹法和递归特征消除法;第三类方法是嵌入式方法,则是特征选择与模型训练同时进行,在训练的过程中选择合适的特征,应用于水文领域较多的嵌入式方法是基于决策树类的筛选方法,如随机森林等。
3、三种方法各有优劣,例如过滤算法效率很高,在处理大规模数据时较有优势,且得到的特征子集可适合各种模型与算法,但是最终的性能并不一定很高,而嵌入法和包裹法虽能得到较高的性能,但是计算复杂程度较高,运行效率较低,且容易出现过拟合的现象。
技术实现思路
1、本发明要解决的技术问题是提供一种基于互信息与随机森林的中长期水文预报因子选择方法,预报因子筛选过程合理、预报因子的有效性强以及预报因子集精简,在预报因子的选择过程中,既剔除了冗余因子,又保证了预报因子能有效的反映预报对象复杂的变化机理。
2、为了解决上述技术问题,本发明提供了一种基于互信息与随机森林的中长期水文预报因子选择方法,包括以下步骤:
3、基于互信息理论,采用最大相关度最小冗余度算法计算预报因子间的信息差和信息熵并用于初选若干项预报因子,得到初选预报因子集,然后通过基于随机森林的递归特征消除法从初选预报因子集中筛选出规定数量的预报因子,作为最终的预报因子筛选结果。
4、进一步的,从初选预报因子集中筛选出规定数量的预报因子的步骤如下:
5、step1、利用随机森林模型对初选预报因子集中的预报因子进行重要性度量;
6、step2、将预报因子重要性最大的因子挑选出来保留,形成新的预报因子集;
7、step3、在新的预报因子集上重复step1和step2,进行反复构建随机森林模型,直至遍历初选预报因子集中的所有预报因子;
8、step4、根据预报因子被消除的次序进行排序,在排序中筛选出规定数量的预报因子。
9、进一步的,在step1中,计算每个预报因子的重要性,并按照降序排序。
10、进一步的,在计算每个预报因子的重要性过程中,对随机森林中每一颗决策树,选择相应的袋外数据oob,计算袋外数据误差,记为erroob1,然后随机对袋外数据oob中所有样本的预报因子加入噪声干扰,再次计算袋外数据误差,记为erroob2;如果加入噪声后,袋外数据oob准确率有大幅度的降低,即erroob2增大,表明该预报因子对于样本的预报结果有很大影响,进而表明其重要性程度。
11、进一步的,根据随机森林中的m棵树,预报因子的重要性s可表示为:
12、
13、进一步的,在step2中,先确定要剔除的比例,依据预报因子重要性程度剔除相应比例的预报因子。
14、本发明的有益效果:
15、基于互信息理论,采用最大相关度最小冗余度算法,能够消除预报因子中冗余的信息且更加有效地衡量预报因子与预报变量间的相关性,从而能够寻找到“最优”的预报因子集,基于随机森林的递归特征消除法,有助于得到较高效能的预报因子集,从而使得预报因子筛选过程合理、预报因子的有效性强以及预报因子集精简。
1.基于互信息与随机森林的中长期水文预报因子选择方法,其特征在于,包括以下步骤:
2.如权利要求1所述的基于互信息与随机森林的中长期水文预报因子选择方法,其特征在于,从初选预报因子集中筛选出规定数量的预报因子的步骤如下:
3.如权利要求2所述的基于互信息与随机森林的中长期水文预报因子选择方法,其特征在于,在step1中,计算每个预报因子的重要性,并按照降序排序。
4.如权利要求3所述的基于互信息与随机森林的中长期水文预报因子选择方法,其特征在于,在计算每个预报因子的重要性过程中,对随机森林中每一颗决策树,选择相应的袋外数据oob,计算袋外数据误差,记为erroob1,然后随机对袋外数据oob中所有样本的预报因子加入噪声干扰,再次计算袋外数据误差,记为erroob2;如果加入噪声后,袋外数据oob准确率有大幅度的降低,即erroob2增大,表明该预报因子对于样本的预报结果有很大影响,进而表明其重要性程度。
5.如权利要求3所述的基于互信息与随机森林的中长期水文预报因子选择方法,其特征在于,根据随机森林中的m棵树,预报因子的重要性s可表示为:
6.如权利要求2所述的基于互信息与随机森林的中长期水文预报因子选择方法,其特征在于,在step2中,先确定要剔除的比例,依据预报因子重要性程度剔除相应比例的预报因子。