一种基于ft-kmeans的智能电表健康度评估方法
技术领域
1.本发明属于智能电表健康度评价领域,具体的讲,涉及使用改进后的kmeans算法进行智能电表健康度进行评估的方法。
背景技术:2.随着用电信息规模日渐庞大,数据深化应用不断加强,已经积累了丰富的数据资产。同时随着电能表智能化程度的提高,智能电能表应用以及用电信息采集系统建设的覆盖率的不断扩大,运行故障越来越多地呈现出突发性、多面性、复杂性、难复现的特征。作为用户用电信息采集最重要的计量装置,智能电表资产的管理就变得尤为重要和关键,尤其是对于在运智能电表的资产健康情况,如果能够做到有效的监测,管理人员对智能电表的当前健康情况做到了然于胸,将大大提升对智能电表资产的管理水平。
技术实现要素:3.本发明为了实现对智能电表的健康度进行评估,运用大数据分析技术,立足当前用智能电表运行数据,进行数据价值挖掘,利用智能电表的数据资产为智能电表进行建模分析,形成智能电表动态健康指数,有效利用数据资产,让数据“会说话”,实现一表一指数,为电力公司的智能电表资产管理提供有价值的决策,提高计量资产全寿命管理水平。
4.本发明采用的技术方案是,一种基于ft-kmeans的智能电表健康度评估方法,包括对智能电表的数据进行预处理、构建模型对智能电表进行训练、以及用训练好的模型进行健康度评估的步骤,关键是,所述的构建模型步骤包括:
5.a、讲预处理好的二维空间数据借助径向基核函数转换为三维空间数据,再用泰勒公式展开径向基核函数进行数据映射转换得到所有数据样本,每个数据样本都包含n个对象,每一个对象包含m个维度,n与m都属于正整数;
6.b、基于kmeans算法确定类簇中心,其中类簇中心就是类簇内所有对象在各个维度的均值;
7.c、对于步骤a处理好的每一个数据样本用kmeans算法计算出每一个对象到每一个聚类中心的欧式距离,并把该欧式距离归为离它最近的簇,根据得到的簇,重新计算簇中心;
8.d、重复步骤c,不断进行模型训练与学习;
9.e、优化输入参数,用于智能电表健康度的评估。
10.所述的预处理步骤包括数据清洗、数据集成、数据变换和数据归约。
11.本发明的有益效果是,通过使用改进后的ft-kmeans模型进行智能电表健康度的评估,实时掌握智能电表运行状态,为智能电表的检修与维护提供科学、合理的决策依据,降低设备运行成本及故障的发生。基于海量运行数据,深度挖掘数据潜在规律,识别智能电表健康状态演变过程,利用ft-kmeans模型进行仿真推演,提前做出相应的应对措施,避免故障的发生。
附图说明
12.图1是本发明的智能电表健康度评估的流程示意图。
具体实施方式
13.参看附图1,本发明基于kmeans算法,对算法进行优化改进,利用特征转换ft,将低维度数据映射到高维空间,实现智能电表健康度评估与评价,构建科学合理的指标评价体系。
14.本发明的技术方案包含数据预处理、以及模型构建的步骤,其中模型构建中包括ft特征映射、以及kmeans模型学习的步骤。
15.一、数据预处理
16.数据预处理包括:数据清洗(data cleaning)、数据集成(data integration)、数据变换(data transformation)、数据归约(data reduction)。
17.数据清洗(data cleaning)的主要内容是按照一定的规则和标准把原始数据中存在的如数据缺失、奇异值和离群点等问题处理掉,也包括处理原始数据中留存的重复信息和噪声干扰。
18.数据集成(data integration)是按照一定的特征规则将数据有机地集中,将来源各异的现实世界的数据相互匹配和统一的过程。这一过程改善了系统的协作性和统一性,大大节省了准备和分析数据所需的时间成本,提高了数据资源的利用率。这个过程的主要难点包括如何选择数据,如何解决数据不兼容,如何根据不同的理论和规则将数据统一起来。例如冗余问题,常用的冗余相关分析方法有皮尔逊积距系数、卡方检验、数值属性的协方差等。
19.据数据变换(data transformation)是数据处理中的重要一环,就是按照规则将数据进行转换,使其满足一定的条件来适用于下一步的工作。是找到数据的特征表示,用维变换或转换来减少有效变量的数目或找到数据的不变式,包括规格化、切换和投影等操作。它的主要转换形式:(1)数据光滑。即运用分箱、聚类等进行数据光滑。(2)数据聚集。即将数据进行集中汇总。(3)数据概化。即用高一级的概念代替低一级的概念。(4)数据规范。把特征数据缩放,将原始数据映射到指定的区域中。(5)特征构造。即构造出新的特征并汇合到原本特征集中。(6)规范化。最小-最大规范化;零一均值规范化等,其中最大最小规范化计算公式如下:
[0020][0021]
其中x
new
为规范化后的样本值,x为原始值,x
min
为特征最小值,x
max
为特征最大值。
[0022]
零一均值规范化计算公式如下:
[0023][0024]
其中x
new
为规范化后的样本值,x为原始值,μ为样本均值,σ为样本标准差。
[0025]
二、ft特征映射
[0026]
对于“线性不可分”的情况,可以将原始数据映射到另一个空间,使其变得“线性可分”,再用线性分类器进行分类。原始数据在二维空间内不是线性可分的,但是把它映射到
三维空间,此时数据集变得线性可分了。利用映射后的数据特征进行kmeans迭代训练,使得距离的计算更加合理,模型的泛化能力能够得到进一步提高。
[0027]
步骤1:核函数选择。数据在二维空间不可分时,通过将数据映射到高维空间。本发明利用径向基核函数,将数据从低维空间映射到高维空间。它能将原始特征映射到无穷维,通过调整参数σ的值的大小来控制映射空间的维度,其值越大,高次特征权重衰减越快,就相当于一个低维子空间,其值越小,相当于维度越高。径向基核函数表达式为:
[0028][0029]
其中,x和y代表两个不同的样本点。
[0030]
步骤2:数据映射转换(ft)。借助泰勒公式展开径向基核函数:
[0031][0032]
化简后,得到映射公式为:
[0033][0034]
其中n为空间特征数,σ为样本标准差。
[0035]
例如将二维空间数据(t1,t2)映射到三维空间,即可得到:
[0036][0037]
其中,(z1,z2,z3)即为三维空间中的数据坐标点。
[0038]
三、ft-kmeans模型学习
[0039]
基于经过ft数据映射得到的样本数据,构建kmeans智能电表健康度评估模型,用于智能电表健康度评估。
[0040]
kmeans算法主要作用是将相似的样本自动归到一个类别中。所谓的无监督算法,就是输入样本没有对应的输出或标签。该算法的核心思想是:在给定k值和k个初始类簇中心点的情况下,把每个点(亦即数据记录)分到离其最近的类簇中心点所代表的类簇中,所
有点分配完毕之后,根据一个类簇内的所有点重新计算该类簇的中心点(取平均值),然后再迭代的进行分配点和更新类簇中心点的步骤,直至类簇中心点的变化很小,或者达到指定的迭代次数。
[0041]
步骤1:距离度量方式选择。假定给定数据样本x,包含了n个对象x={x_1,x_2,x_3,
…
,x_n,},其中每个对象都具有m个维度的属性。kmeans算法的目标是将n个对象依据对象间的相似性聚集到指定的k个类簇中,每个对象属于且仅属于一个其到类簇中心距离最小的类簇中。对于kmeans,首先需要初始化k个聚类中心{c_1,c_2,c_3,
…
,c_k,},1《k《n,然后通过计算每一个对象到每一个聚类中心的欧式距离,其计算公式如下:
[0042][0043]
其中,x和y代表两个不同的样本点。
[0044]
步骤2:类簇中心确定。kmeans算法用中心定义了类簇的原型,类簇中心就是类簇内所有对象在各个维度的均值,其计算公式如下:
[0045][0046]
其中,c
t
表示第t个类簇中心,s
l
表示第l个类簇中对象的个数,xi表示第l个类簇中第i个对象。
[0047]
步骤3:模型训练。计算每个数据到簇中心的距离,并把该数据归为离它最近的簇,根据得到的簇,重新计算簇中心。假设含有n个样本的数据集x={x_1,x_2,x_3,
…
,x_n,},k个簇为k={k_1,k_2,k_3,
…
,k_k,},则:
[0048][0049]
其中,x为样本数据,c
t
为簇中心。sse越小,表示数据越接近它们的簇中心,聚类效果也就越好。
[0050]
步骤4:参数优化。结合模型预测效果,调整模型相关超参数n_clusters、algorithm等。调参通过gridsearchcv进行调整,输入相关参数范围区间,返回最优参数值。利用轮廓系数来评价调参效果,其计算公式如下:
[0051][0052]
其中a(i)为i向量到所有它属于的簇中其它点的距离,b(i)为向量到某一不包含它的簇内的所有点的平均距离的最小值。
[0053]
最后将经过参数优化后的ft-kmeans模型用于智能电表健康度评估。