一种基于决策树的电缆状态评价和特征提取方法与流程

文档序号:33650918发布日期:2023-03-29 08:28阅读:57来源:国知局
一种基于决策树的电缆状态评价和特征提取方法与流程

1.本发明属于电力设备维护技术领域,具体涉及一种基于决策树的电缆状态评价和特征提取方法。


背景技术:

2.电缆线路数量庞大,分布纵横交错,虽为用户带来了用电便捷,但复杂的运行环境、工况和外力等因素都会使电缆线路在运行中出现缺陷或故障,给电力系统带来潜在威胁,国家电网公司正积极推进输变电设备状态检修工作,强化电网运行状态监测与分析,及时发现并消除设备隐患和缺陷,对电缆多状态量的监测以及综合评估提出了更高的要求。
3.目前,可监测电缆温度、接地环流、局部放电等多种数据的在线监测系统已普遍安装于110kv及以上的高压电缆,各监测系统加上日常运维、定期在线检测和离线试验,已为电力电缆累积了大量数据,为电缆的状态综合评价提供了数据支撑,因此全面分析表征电缆运行状态的各项参数,提取关键核心指标,形成基于多维度风险评价模型,具有重要研究与应用价值。
4.现有的电缆状态评估方法主要包括切片法和建立数学模型的方法,其中切片法虽然结果直观,但是难以满足实际电缆运维的要求;其中建立数学模型的方法很多,但是电缆实际故障样本少,影响因素多,重要特征指标难以选取;为解决上述问题,开发一种基于决策树的电缆状态评价和特征提取方法很有必要。


技术实现要素:

5.本发明的目的是为了克服现有技术的不足,而提供一种基于决策树的电缆状态评价和特征提取方法,可以根据电缆老化影响因素,对电缆老化状态进行评估,并提取电缆运行状态的关键特征,建立电缆评价体系,为电缆运维提供理论指导。
6.本发明的目的是这样实现的:一种基于决策树的电缆状态评价和特征提取方法,包括如下步骤:步骤(1),对电缆运行特征相关参数的数据进行预处理;步骤(2),在步骤(1)提供的数据基础上,采用决策树算法对影响电缆老化程度的相关特征参数进行评价。
7.优选的,所述步骤(1)中,数据预处理包括无量纲归一化处理和/或缺失值处理。
8.进一步优选的,所述无量纲归一化处理包括min-max归一化和z-score标准化;其中min-max归一化是对原始数据进行线性变换,将其映射到[0,1]之间,公式如下:上式中,x是原始数据,min(x)是样本的最小值,max(x)是样本的最大值;
其中,z-score标准化是将原始数据集标准化成均值为0,方差为1且接近于标准正态分布的数据集,公式如下:上式中,x是原始数据,u是样本均值,σ是样本标准差。
[0009]
进一步优选的,所述缺失值处理采用数据填补法中的常值填补,具体为:选择样本数据集中的某个属性的统计特征值来填补缺失值,统计特征值包括中位数、众数或均值。
[0010]
优选的,所述步骤(2)具体为:首先,将数据分为训练集和测试集,并确认属性集;然后,对属性集中特征进行特征选择,从属性集中选择最优划分属性,对节点计算所有特征的信息增益,选择信息增益最大的特征作为最优划分属性;接着,根据该特征的不同取值建立子节点,并将该属性从属性集的可选特征中去除;最后,对每个子节点使用相同的方式生成新的子节点,直到信息增益很小或者没有特征可以选择为止;其中,决策树学习的基本流程如下:输入:训练集d={(x1,y1),(x2,y2),

,(xm,ym)};属性集a={a1,a2,

,ad},过程:函数treegenerate(d,a)1:生成节点node;2:if d中样本全属于同一类别c then递归返回,情形(1). 3:将node标记为c类叶结点;return4:end if5:ifa =or d中样本在a上取值相同then递归返回,情形(2). 6:将node标记为叶结点,其类别标记为d中样本数最多的类;return7:end if8:从a中选择最优划分属性a
*
;9:for a
*
的每一个值do10:为node生成一个分支;令dv表示d中在a
*
上取值为的样本子集;11:if dv为空then12:将分支结点标记为叶结点,其类别标记为d中样本最多的类;return13:else从a中去掉14:以treegenerate(dv,a\{a
*
})为分支结点15:end if16:end for输出:以node为根结点的一棵决策树其中,决策树学习的关键是第8行,即如何选择最优划分属性,随着划分过程不断进行,使决策树的分支结点所包含的样本尽可能属于同一类别,即结点的纯度越来越高。
[0011]
进一步优选的,其中度量样本集合纯度采用信息熵,设定当前样本集合d中第k类
样本所占的比例为,|y|表示当前样本集合d中一共有y类样本,则d的信息熵定义为:设定离散属性a有v个可能的取值,使用a来对样本集d进行划分,则会产生v个分支结点,其中第v个分支结点包含了d中所有在属性a上取值为av的样本即为dv;根据上面的公式计算出dv的信息熵,考虑到不同的分支结点所包含的样本数不同,给分支结点赋予权重,即样本数越多的分支结点影响越大,于是计算出a属性对样本集d进行划分所获得的信息增益,公式如下:。
[0012]
进一步优选的,其中重要特征的选取公式如下:上式中,n是样本的总数,n_t是当前节点的样本数目,n_t_l是结点左孩子的样本数目,n_t_r是结点右孩子的样本数目,impurity为信息熵。
[0013]
由于采用了上述技术方案,本发明的有益效果是:本发明采用决策树直观展示,依据特征对电缆状态的分类,可以进行可视化图形展示,可以对特征重要性程度进行排序,便于后来生成对电缆评价的指标体系。
附图说明
[0014]
图1是本发明的方法流程示意图。
[0015]
图2是本发明的实施例的决策树示意图。
具体实施方式
[0016]
下面通过实施例,并结合附图,对本发明的技术方案做进一步具体的说明。
[0017]
如图1所示,本发明提供了一种基于决策树的电缆状态评价和特征提取方法,主要包括如下两个步骤:步骤(1),对电缆运行特征相关参数的数据进行预处理。通常,由于在现实生活中获得的数据格式往往是不完整的(可能缺少某些感兴趣的属性值),是不一致的(可能包含代码或者名称的差异),是极易受到噪声侵扰的(可能含有错误或异常值),于是就会引起数据库出现各种各样的问题,因此需要对各种数据进行预处理,使其更为完整。
[0018]
步骤(2),在步骤(1)提供的数据基础上,采用决策树算法对影响电缆老化程度的相关特征参数进行评价。具体而言,决策树算法是一种逼近离散函数值的方法,是一种典型的分类方法,首先对电缆数据进行处理,利用归纳算法生成可读的各参数对电缆影响规则
和决策树,最后使用决策树对电缆数据进行分析,评价电缆状态,其本质上是通过一系列规则对电缆数据进行分类并得到各参数对电缆老化影响的过程。
[0019]
具体的,步骤(1)中的数据预处理包括无量纲归一化处理和/或缺失值处理。
[0020]
其中,数据无量纲归一化是数据预处理的基本方法,数据无量纲化是对数据进行规范化处理,无量纲归一化是将原始指标数据通过简单的数学变换来消除各指标量纲影响的方法它把所有的指标值规范化到同一个范围内进行比较,从而使所有指标数据之和等于1,解决各指标数值不能直接进行合成以进行综合分析与比较的问题。
[0021]
具体的,无量纲归一化处理包括min-max归一化和z-score标准化。
[0022]
其中min-max归一化是对原始数据进行线性变换,将其映射到[0,1]之间,公式如下:上式中,x是原始数据,min(x)是样本的最小值,max(x)是样本的最大值。
[0023]
其中,z-score标准化是将原始数据集标准化成均值为0,方差为1且接近于标准正态分布的数据集,公式如下:上式中,x是原始数据,u是样本均值,σ是样本标准差。
[0024]
其中,数据缺失是数据预处理中的常见问题,针对此问题目前通用的解决方法是数据填补法,数据填补法即通过多种方式利用数据集中的现有信息对缺失数据值进行预测和估计,常值填补是最简单的填补方法,它选择样本数据集中的某个属性的统计特征值(可以是中位数、众数、均值等)来填补缺失值,该方法对针对不同的缺失数据类型都具有较好的填补准确率,高质量的数据是取得有效分析结果的前提,对缺失数据的填补是获得高质量数据的重要途径。
[0025]
具体的,缺失值处理采用数据填补法中的常值填补,具体为:选择样本数据集中的某个属性的统计特征值来填补缺失值,统计特征值包括中位数、众数或均值。
[0026]
具体的,步骤(2)具体为:首先,将数据分为训练集和测试集,并确认属性集;然后,对属性集中特征进行特征选择,从属性集中选择最优划分属性,对节点计算所有特征的信息增益,选择信息增益最大的特征作为最优划分属性;接着,根据该特征的不同取值建立子节点,并将该属性从属性集的可选特征中去除;最后,对每个子节点使用相同的方式生成新的子节点,直到信息增益很小或者没有特征可以选择为止,从而完成采用决策树对电缆老化程度进行评价的工作。
[0027]
决策树(decision tree)是一类常见的机器学习方法。以二分类任务为例,如果希望从给定训练数据集学得一个模型用以对新示例进行分类,这个把样本分类的任务,可看作对“当前样本是否属于正类”,这个问题的决策或判定过程。顾名思义决策树是基于树结构来进行决策的,这恰是人类在面临决策问题时一种很自然的处理机制。
[0028]
一般的,一棵决策树包含一个根结点、若干个内部结点和若干个叶结点,叶结点对
应于决策结果,其他每个结点则对应于一个属性测试;每个结点包含的样本集合根据属性测试的结果被划分到子结点中,根结点包含样本全集。从根结点到每个叶结点的路径对应了一个判定测试序列。决策树学习的目的是为了产生一棵泛化能力强,即处理未见示例能力强的决策树,其基本流程遵循简单且直观的分而治之(divide-and-conquer)策略,如下所示:输入:训练集d={(x1,y1),(x2,y2),

,(xm,ym)};属性集a={a1,a2,

,ad},过程:函数treegenerate(d,a)1:生成节点node;2:if d中样本全属于同一类别c then递归返回,情形(1). 3:将node标记为c类叶结点;return4:end if5:ifa =or d中样本在a上取值相同then递归返回,情形(2). 6:将node标记为叶结点,其类别标记为d中样本数最多的类;return7:end if8:从a中选择最优划分属性a
*
;9:for a
*
的每一个值do10:为node生成一个分支;令dv表示d中在a
*
上取值为的样本子集;11:if dv为空then12:将分支结点标记为叶结点,其类别标记为d中样本最多的类;return13:else从a中去掉14:以treegenerate(dv,a\{a
*
})为分支结点15:end if16:end for输出:以node为根结点的一棵决策树其中,决策树学习的关键是第8行,即如何选择最优划分属性,随着划分过程不断进行,使决策树的分支结点所包含的样本尽可能属于同一类别,即结点的纯度(purity)越来越高。
[0029]
具体的,度量样本集合纯度采用信息熵(information entropy),设定当前样本集合d中第k类样本所占的比例为,|y|表示当前样本集合d中一共有y类样本,则d的信息熵定义为:。
[0030]
设定离散属性a有v个可能的取值,使用a来对样本集d进行划分,则会产生v个分支结点,其中第v个分支结点包含了d中所有在属性a上取值为av的样本
即为dv;根据上面的公式计算出dv的信息熵,考虑到不同的分支结点所包含的样本数不同,给分支结点赋予权重,即样本数越多的分支结点影响越大,于是计算出a属性对样本集d进行划分所获得的信息增益(information gain),公式如下:。
[0031]
具体的,重要特征的选取公式如下:上式中,n是样本的总数,n_t是当前节点的样本数目,n_t_l是结点左孩子的样本数目,n_t_r是结点右孩子的样本数目,impurity为信息熵。
[0032]
下面是本发明具体实施时采用的50个数据样本,如下表所示:序号运行时间/月是否发生过接地故障局放介损电缆老化程度1180070.03612204080.02813156090.031416808.50.0251513207.50.03916216110.60.026371440120.022181440130.0311913209.20.0231102161160.1183111560180.126312188160.035213228170.0293141950110.0292152400130.052161800140.0721171680190.1023181560200.109319204010.60.0671201321100.1011211800100.081122224090.103223156060.095124144070.125125132070.0721
26132070.104127204090.0641281580110.1032292160100.1153301200110.0891311780100.1062322040110.051133168070.0841342040110.123135132070.11136120070.041372040110.043138120060.0711392161100.069340228190.0813412040110.11142156070.05143132080.046144204090.0851451200110.125146192160.11147195090.047248206060.119249132090.046150180070.091该数据样本来源于授权公告号为cn111610407的中国发明专利《基于朴素贝叶斯的电缆老化状态评估方法》。应理解,由于安全的需要,电缆本身实际运行中并没有太多缺陷数据,大多都是正常运行数据,因此本发明采用了该专利文献中的数据。
[0033]
该数据集包含50个训练样例,用以学习一棵能预测电缆老化程度的决策树。
[0034]
如图2所示,显然=3。在决策树学习开始时,根结点包含d中的所有样例。
[0035]
按照上表的例子,50个样本中,选取40个进行决策树训练,最上层根节点中,老化程度1/2/3三类各有26,6,8个样本,计算信息熵。
[0036]
可以得到如下结果:。
[0037]
决策树接着向下分枝,直到计算出信息熵entropy=0,决策树停止生长,所有样本分类完成。
[0038]
决策树模型建立,然后可以用测试集(剩余10个样本)去验证。
[0039]
按照这种方法计算,可以得出如下结果:[('运行时间',0.4569458444365065),('接地故障',0.10077360590509808),('局放',0.3296946800132714),('介损',0.11258586964512413)]可以得出运行时间是对电缆老化程度影响最大的特征,该结论与实际工作中普遍认为的运行时间对电缆老化影响最大一致,验证成功,可以为电缆运维提供理论指导。
[0040]
最后应说明的是,以上实施例仅用以说明本发明的技术方案,而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解,依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1