一种基于随机森林模型的管线健康状态评估方法

文档序号:9911844阅读:520来源:国知局
一种基于随机森林模型的管线健康状态评估方法
【技术领域】
[0001] 本发明涉及一种对管线健康状态进行日常评估的方法,属于城市供水管网领域。
【背景技术】
[0002] 作为城市基础设施的重要组成部分,城市供水管网的安全、高效运行是人民正常 生活、发展生产的重要保障。目前我国的城市供水管网存在管线老化严重、维护难度大、管 理水平落后、维护管理不力等问题,不可避免地导致破损事故多发,影响供水系统的服务水 平。这一方面浪费大量优质水资源,增加供水成本;另一方面引发地下公共设施的损坏,甚 至妨碍交通,破坏市民生活和生产秩序。因此,对城市管网进行有计划的更新势在必行,而 确定大型复杂管网的优化更新方案,对管网进行有效、可行的健康状态评估必不可少。
[0003] 现有管线健康状态评估方法大致分成两大类,直接检测法和建模分析法。直接检 测法能够更为准确的得到管道的运行情况,但是往往需要大量资金的投入,并且实际监测 会受到场地等情况的限制;建模分析法节省人力物力,是国内外专家学者的研究热点。
[0004] 管线健康的影响因素众多,存在复杂的非线性关系,且难以定量评价其影响程度; 我国管网数据库的建设水平滞后,对历史数据的记录不完整、不准确,缺乏统一标准,差异 性较大。目前已有的管线评价方法多采用Logistic广义线型回归(CN102222169)、遗传算法 (CN102072409)、层次分析法(CN103578045)、神经网络(CN103258243)等方法建立模型,而 这些方法不同程度上存在主观性较强、数据质量要求高、适用于特定管网、计算量大等不 足。

【发明内容】

[0005] 鉴于上述问题,本发明的目的是提供一种新的对数据质量要求不高、适用范围广、 准确性较高的基于随机森林模型的管线健康状态评估方法,以便在事故发生前发现管线问 题,为管线维护、更新改造计划的制定提供参考,辅助供水管网日常管理的科学决策。
[0006] 本发明的技术方案如下:
[0007] -种基于随机森林模型的管线健康状态评估方法,其特征在于该方法包括如下步 骤:
[0008] 1)分别从城市供水管网的基础数据库和破损数据库中提取管线基本信息和历史 破损情况,所述的基本信息包括管线属性信息、地理环境、运行状况和空间位置四大类;所 述的历史破损情况包括破损管线编号、破损时间、破损原因和破损位置;
[0009] 2)对获取到的管线信息进行数据预处理:
[0010] a.数据库关联:对城市供水管网的基础数据库和破损数据库按照管线编号或者空 间位置进行关联,匹配出每根管线的历史破损信息;
[0011] b.确定影响因子:筛选出对管线健康有直接或间接影响的属性因子作为模型的输 入参数,该输入参数包括管材、管径、管龄、管长、接口类型、管道防腐、埋深、道路负荷、覆土 类型、杂散电流和运行压力;
[0012] c.数字编码:根据影响因子的数据属性,将其分为连续变量和分类变量,对分类变 量进行数字编码,用不同数字表示数据类别;对于管线的历史破损信息,用〇表示管线未发 生过破损,用1表示管线发生破损;
[0013] 3)利用随机森林模型建立自变量与因变量之间的关系,评价模型的分类效果:
[0014] 自变量为筛选出的影响因子,因变量为用0和1表示的历史破损信息;模型分类误 差小于20 %时,认为模型效果较好,误差大于20 %时,可通过调整参数重新建立模型;评价 模型分类效果时,采用随机森林自身特有的00B误差估计模型误差。
[0015] 4)利用通过分类效果评估的随机森林模型预测供水管网的破损概率:
[0016] 预测结果为介于[0,1]之间的数值,其值越接近于1,管线越危险,越接近于0,管线 越健康;
[0017] 5)对预测结果进行分级,用不同颜色表示健康等级,绘制健康状态专题图;
[0018] 6)评价管线破损影响因子重要性,分析影响规律:用平均精度下降和平均基尼指 数下降两个参数评价管线破损影响因子的重要性,其值越大表示因子重要性越大:
[0019] 通过绘制偏相关图,用图表描述一个因子对类的概率的边际效应,来分析各因子 对管线破损的影响规律。
[0020] 上述技术方案中,步骤3)利用随机森林模型中,原始数据样本集由破损管线和未 破损管线两部分组成,数据量占比为1:1;评价模型分类效果时,采用随机森林自身特有的 00B误差估计模型误差。
[0021] 本发明步骤5)中,所述的对预测结果进行分级,采用等间隔分类法,根据0~0.2、 0.2~0.4、0.4~0.6、0.6~0.8、0.8~1的概率区间将健康状态评估结果分别划分为健康、 较好、一般、较差和危险五个等级,并在ArcGIS平台上用不同的颜色表示,绘制健康状态专 题图。
[0022] 与现有城市供水管网评估方法相比,本发明具有以下优点及突出性的技术效果: [0023]①随机森林模型虽然结构复杂,但是简单易用。与传统模型相比,需要的假设条件 及模型参数少,一般情况下,模型参数的缺省值即可得到最优结果。对于众多影响管线健康 的因素,无需检查各因素间的交互作用和非线性关系是否显著。
[0024]②随机森林的学习过程快,通过随机抽取样本和随机抽取特征降低了对异常值和 噪声的敏感程度,提高了准确率和稳定性。针对我国城市供水管网数据量大、记录不完整不 准确等问题,依然可以高效处理,在较小的运算量下提供较高的预测准确度。
[0025] ③随机森林模型具备影响因子重要性评价和影响规律分析功能,拓展了管线健康 状态评估的成果,对供水管网的日常管理工作具有较好地实际意义。
[0026] ④我国各城市供水管网的数据记录标准不同,用于评估管线状态的数据指标存在 差异。应用随机森林模型,只需针对不同城市的实际情况,改变输入输出参数,模型自身即 可通过学习新的样本,建立适合该数据集的"森林",可使评价结果更科学、准确。因此,本技 术的适用范围非常广泛。
【附图说明】
[0027] 图1示出了基于随机森林模型的管线健康状态评估方法的流程图。
[0028]图2示出了随机森林方法的原理图。
[0029] 图3(a)和图3(b)示出了随机森林方法预测专题图与实际情况对比图。
[0030] 图4示出了管线破损影响因子重要性评价图。
[0031] 图5(a)和图5(b)示出了管线破损影响因子的影响规律分析图
【具体实施方式】
[0032] 为更好的理解和实施本发明,下面将结合附图和具体实施例对本发明进行详细阐 述。
[0033] 为了提升供水管网的服务水平,优化管线维护改造计划制定的科学方法,需要在 供水管线发生事故前,建立健康状态评估方法,确定问题管线,制定维护方案与优先次序, 及时发现管线安全隐患并排除,以节省管网检测耗费的大量人力物力财力。
[0034]为实现上述目的,本发明利用R软件作为健康状态评估方法的开发平台。R是一个 免费、开源的自由软件,有着强大的统计分析功能及作图功能,内置丰富的数学计算、统计 计算函数。本发明采用RandomForest功能包,编写相应代码以实现所需功能,大大提高了开 发效率。
[0035] 图1示出了基于随机森林模型的管线健康状态评估方法的流程图,主要步骤如下:
[0036] 1)分别从城市供水管网的基础数据库和破损数据库中提取管线基本信息和历史 破损情况。
[0037] 从城市供水管网的基础数据库中,提取管线的基础属性信息、地理环境、运行状 况、空间位置。其中基础属性信息包括管线编号、管材、管径、管长、管龄、接口类型等,地理 环境信息包括管道埋深、道路负荷、土壤性质等,运行状况包括运行压力、海森-威廉系数 等。在具体实施中,可根据实际数据质量情况,扩充数据类型。
[0038] 从城市供水管网的破损数据库中,提取管线的历史破损情况,包括破损管线编号、 破损时间、破损原因、破损位置信息。
[0039] 2)对获取到的管线信息进行数据预处理:
[0040]数据筛选:剔除非自然因素(第三方、人为)导致事故的破损记录;修正录入错误, 剔除明显异常数据;
[0041] 数据库关联:对城市供水管网的基础数据库和破损数据库按照管线编号或者空间 位置进行关联,匹配出每根管线的历史破损信息;
[0042] 确定影响因子:筛选出对管线健康有直接或间接影响的属性因子作为模型的输入 参数,该输入参数包括管材、管径、管龄、管长、接口类型、管道防腐、埋深、道路负荷、覆土类 型、杂散电流和运行压力;
[0043] 数字编码:根据影响因子的数据属性,将其分为连续变量和分类变量,对分类变量 进行数字编码,用不同数字表示数据类别;对于管线的历史破损信息,用〇表示管线未发生 过破损,用1表示管线发生破损;
[0044] 3)利用随机森林模型建立自变量与因变量之间的关系,评价模型的分类效果:
[0045] 自变量为筛选出的影响因子,因变量为用0和1表示的历史破损信息;模型分类误 差小于20 %时,认为模型效果较好,误差大于20%时,可通过调整参数重新建立模型;利用 随机森林模型中,原始数据样本集由破损管线和未破损管线两部分组成,数据量占比为1: 1。评价模型分类效果时,可采用随机森林自身特有的00B误差估计模型误差。
[0046] 4)利用通过分类效果评估的随机森林模型预测供水管网的破损概率:
[0047] 预测结果为介于[0,1]之间的数值,其值越接近于1,管线越危险,越接近于0,管线 越健康;
[0048] 5)对预测结果进行分级,用不同颜色表示健康等级,绘制健康状态专题图;
[0049] 6)评价管线破损影响因子重要性,分析影响规律:用平均精度下降和平均基尼指 数下降两个参数评价管线破损影响因子的重要性,其值越大表示因子重要性越大:
[0050] 通过绘制偏相关图,用图表描述一个因子对类的概率的边际效应,来分析各因子 对管线破损的影响规律。
[0051] 下面以我国南方某城市供水管网为实施例,详细介绍基于随机森林模型的管线健 康状态评估的具体步骤:
[0052] (1)分别从城市供水管网的基础数据库和破损数据库中提取管线基本信息和历史 破损情况。
[0053] 从城市供水管网的基础数据库中,提取管线的基础属信息包括:管线编号、管材、 管
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1