一种基于随机森林的元胞自动机城市扩展模拟方法

文档序号：6624050阅读：1164来源：国知局

一种基于随机森林的元胞自动机城市扩展模拟方法
【专利摘要】本发明公开了一种基于随机森林的元胞自动机城市扩展模拟方法，是基于随机森林算法，在决策树的生成过程中分别对训练样本集和分裂节点时的候选空间变量引入随机因素，提取城市扩展元胞自动机模型的转换规则，可用于城市扩展的模拟与预测。本发明的优点在于：在运算量没有显著增加的前提下提高预测的精度；对多元共线性不敏感，不容易出现过拟合现象，对城市扩展中存在的随机因素有很好的容忍度；可进行袋外误差估计，快速获取模型参数；可度量空间变量重要性，解释各空间变量在城市扩展中的作用。
【专利说明】一种基于随机森林的元胞自动机城市扩展模拟方法

【技术领域】
[0001] 本发明涉及地理信息领域，尤其涉及到一种元胞自动机城市扩展模拟方法。

【背景技术】
[0002] 兀胞自动机（Cellular Automata，CA)是由数学家 Stanislaw M. Ulam 与 von Neumann于1948年提出来的，最开始用于模拟生命系统所特有的自复制现象，是一个描述自然界复杂现象的简化数学模型。自1970年Tobler首次将元胞自动机应用于城市扩展模拟以来，已经有众多学者开展有关城市元胞自动机的应用，在规划、生态等众多领域取得了丰富的成果。
[0003] 元胞自动机模型的核心是定义元胞的转换规则。在每次循环迭代运算中，转换规则是由元胞的当前状态及其邻居状态确定下一时刻该元胞状态的动力学函数。元胞自动机模型是否成功，很大程度上在于转换规则的设计是否合理，能否真实地反映事物间内在的本质。为了让元胞自动机能够精确地模拟出城市扩展现象，众多学者从不同的角度提出了确定转换规则的方法。FULONG Wu提出采用多准则判断（MCE)及逻辑回归模型确定元胞自动机的转换规则。黎夏和叶嘉安提出用神经网络训练的方法自动获取转换规则。刘小平等提出使用蚁群智能算法模仿蚂蚁寻找食物的方式来构造转换规则。但这些方法仍然存在一定的局限性。例如逻辑回归模型要求空间变量之间是线性无关的，而影响城市扩展的空间变量之间往往存在相关性，比如当高速公路与铁路的空间距离比较接近时，到铁路的距离和到高速公路的距离的相关性很大。神经网络能较好地解决非线性分类问题，但该方法属于黑箱结构，对物理机制不易理解，且存在收敛速度慢的问题。蚁群智能算法具有较强的自适应能力，但其存在计算开销大、收敛速度慢、易陷入局部最优等缺陷。
[0004] 针对上述已有元胞自动机模型的不足之处，有必要提出一种精度高，计算复杂度适中，具有较好解释性的定义转换规则的方法，以能够更有效地进行元胞自动机城市扩展模拟。

【发明内容】

[0005] 本发明的目的是为了克服传统元胞自动机城市扩展模拟方法的不足之处，而提出一种能够兼顾预测精度和计算机运算性能，并对模型机制给出一定解释的基于随机森林的元胞自动机城市扩展模拟方法。
[0006] 本发明是可以通过以下技术方案来实现：
[0007] -种基于随机森林的元胞自动机城市扩展模拟方法，包括以下步骤：
[0008] (1)首先获取研究区起始年份和终止年份的遥感影像，通过遥感影像预处理、解译得到该研究区各年份的土地利用分类图；使用ArcGIS软件得到影响城市扩展的各空间变量；
[0009] (2)采用随机分层抽样方法，从土地利用分类图中转变为城市用地的元胞和尚未转变为城市用地的元胞中分别抽取η个样本点，读取这些样本点对应的城市发展值和空间变量值，得到元胞自动机模型的原始训练集X ;
[0010] (3)使用原始训练集X对随机森林模型进行训练，得到生成好的随机森林，并且进行模型袋外误差估计和变量重要性度量；
[0011] (4)利用生成好的随机森林，预测每个元胞在空间变量作用下的发展适宜性，在此基础上计算在邻域元胞、随机变量、约束条件共同影响下初始状态非城市元胞的城市发展概率；
[0012] (5)将得到的城市发展概率与阀值比较，决定是否转变为城市用地；
[0013] (6)以上步骤（4)、（5)多次迭代，直到非城市用地转变为城市用地达到指定的数量为止，得到指定年份的城市扩展模拟预测图，输出并保存模拟预测图；
[0014] (7)将城市扩展模拟预测图与该指定年份的城市用地实际状况图进行比较，得到模拟结果精度评价报告。
[0015] 所述的步骤（3)中的随机森林模型构建方法为：应用Bootstrap方法从原始训练集X中有放回地随机抽取ntree个自助样本集{XJ，对每个自助样本集Xi构建一颗不剪枝的决策树。在对决策树内部节点进行分裂过程中，是从Μ个原始空间变量中随机抽出mtry 个预测空间变量作为该分裂节点的候选空间变量。
[0016] 所述的步骤（3)中的随机森林模型袋外误差估计是利用原始训练集X中没有被抽取进自助样本集Xi中的数据作为袋外数据，估计随机森林元胞自动机模型的误差。
[0017] 通过比较参数ntree、mtry在不同取值时的袋外误差大小，在CPU(计算机）性能允许的情况下，选择精度最高时参数的取值，可确定模型的参数ntree、mtry。
[0018] 所述的步骤（3)中的变量重要性度量是利用平均精度减少方法，把一个空间变量的取值变为随机数，通过袋外数据衡量随机森林预测准确性的降低程度，来度量该空间变量的重要性。
[0019] 所述的步骤（4)中的发展适宜性用来衡量各空间变量影响下的元胞转换为城市用地的适宜性，在随机森林模型中，一个元胞的开发适宜性是随机森林中所有决策树有关该元胞发展为城市用地的平均预测概率Pij :
[0020] Pjj = Njj/ntree (1)
[0021] 式中，是ij位置元胞的转变为城市用地的开发适宜性，为在所有决策树中，将该元胞判别为发展成城市用地的决策树的数量，ntree为随机森林中决策树的总个数。
[0022] 所述的步骤（3)、（4)中得到ntree个自助样本集后，在使用随机森林模型进行训练、预测时，能够分发给多核CPU并行独立地运行。
[0023] 与现有技术相比，本发明具有以下优点：
[0024] (1)城市元胞自动机模型具有大量的数据需要处理，而构成随机森林的决策树不需要进行剪枝，可以在运算量没有显著增加的前提下提高预测的精度。
[0025] (2)由于在决策树生成过程中引入了随机性，随机森林对多元共线性不敏感，不容易出现过拟合现象，能够对城市扩展中存在的随机因素有很好的容忍度。
[0026] (3)袋外误差估计能够取得和N折交叉验证同样的效果，能够方便快速地对元胞自动机模型进行参数设置和模型评价。
[0027] (4)随机森林能够根据各空间变量对预测的贡献程度，对各空间变量进行重要性度量，从而可解释各空间变量在城市扩展中的作用。

【专利附图】

【附图说明】
[0028] 图1为本发明的流程图。
[0029] 图2为本发明的分类精度与树的数量之间的关系图。
[0030] 图3为本发明的分类精度与预测变量个数之间的关系图。
[0031] 图4为本发明的各空间变量重要性度量图。

【具体实施方式】
[0032] 下面以本发明的流程图以及一个具体的实施例对本发明的实施方式进行详细说明。
[0033] 如图1所示，本发明的具体流程如下：
[0034] (1)获取研究区起始年份和终止年份的遥感影像，通过遥感影像预处理、
[0035] 解译得到该研究区各年份的土地利用分类图。使用ArcGIS软件得到影响城市扩展的各空间变量，所需空间变量及获取方法如表1所示。
[0036] 表1空间变量及获取方法
[0037]

【权利要求】
1. 一种基于随机森林的元胞自动机城市扩展模拟方法，其特征在于，包括以下步骤： (1) 首先获取研究区起始年份和终止年份的遥感影像，通过遥感影像预处理、解译得到该研究区起始年份和终止年份的土地利用分类图；使用ArcGIS软件得到影响城市扩展的各空间变量； (2) 采用随机分层抽样方法，从土地利用分类图中抽取η个样本点，读取这些样本点对应的城市发展值和空间变量值，得到元胞自动机模型的原始训练集X; (3) 使用原始训练集X对随机森林模型进行训练，得到生成好的随机森林，并且进行模型袋外误差估计和变量重要性度量； (4) 利用生成好的随机森林，预测每个元胞在空间变量作用下的发展适宜性，在此基础上计算在邻域元胞、随机变量、约束条件共同影响下初始状态非城市元胞的城市发展概率； (5) 将得到的城市发展概率与阀值比较，决定是否转变为城市用地； (6) 采用步骤（4)、（5)多次迭代，直到非城市用地转变为城市用地达到指定的数量为止，得到指定年份的城市扩展模拟预测图，输出并保存模拟预测图。
2. 根据权利要求1所述的基于随机森林的元胞自动机城市扩展模拟方法，其特征在于，所述步骤（3)中的随机森林模型构建方法为： (31) 应用Bootstrap方法从原始训练集X中有放回地随机抽取ntree个自助样本集 {XJ ； (32) 对每个自助样本集Xi构建一颗不剪枝的决策树，在对决策树内部节点进行分裂过程中，是从Μ个原始空间变量中随机抽出mtry个预测空间变量作为该分裂节点的候选空间变量，Μ表示自助样本集Xi的不剪枝决策树的原始变量，mtry < < Μ ; (33) 重复步骤（31)、（32)，直到生成ntree棵决策树； (34) 对未知类别的数据进行预测时，其预测结果的类别标签由ntree棵树的多数投票决定。
3. 根据权利要求2所述的基于随机森林的元胞自动机城市扩展模拟方法，其特征在于，所述步骤（3)中的随机森林模型袋外误差估计，是利用原始训练集X中未被抽取进自助样本集Xi中的数据作为袋外数据，估计随机森林元胞自动机模型的误差；通过比较参数ntree、mtry在不同取值时的袋外误差大小，在CPU性能允许的情况下，选择精度最高时参数的取值，确定模型的参数ntree、mtry。
4. 根据权利要求3所述的基于随机森林的元胞自动机城市扩展模拟方法，其特征在于，所述步骤（3)中的变量重要性度量是利用平均精度减少方法，把一个空间变量的取值变为随机数，通过袋外数据衡量随机森林预测准确性的降低程度，来度量该空间变量的重要性。
5. 根据权利要求4所述的基于随机森林的元胞自动机城市扩展模拟方法，其特征在于，所述步骤（4)中的发展适宜性用来衡量各空间变量影响下的元胞转换为城市用地的适宜性，在随机森林模型中，一个元胞的开发适宜性是随机森林中所有决策树有关该元胞发展为城市用地的平均预测概率Ρυ : Pjj = Njj/ntree (1) 式中，是ij位置元胞的转变为城市用地的开发适宜性，为在所有决策树中，将该元胞判别为发展成城市用地的决策树的数量，ntree为随机森林中决策树的总个数。
6.根据权利要求5所述的基于随机森林的元胞自动机城市扩展模拟方法，其特征在于，所述步骤（3)、（4)中得到ntree个自助样本集后，在使用随机森林模型进行训练、预测时，能够分发给多核CPU并行独立地运行。
【文档编号】G06F17/50GK104156537SQ201410409993
【公开日】2014年11月19日申请日期:2014年8月19日优先权日:2014年8月19日
【发明者】柳林, 陈凯, 刘凯申请人:中山大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：柳林;陈凯;刘凯
技术所有人：中山大学
我是此专利的发明人

上一篇：基于路段od反推的实时交通流分布预测系统的制作方法
上一篇：测试方法和装置制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。