基于互信息值的发电机组性能各参数数据类型确定方法与流程

文档序号:20349799发布日期:2020-04-10 22:54阅读:142来源:国知局
基于互信息值的发电机组性能各参数数据类型确定方法与流程

本发明属于电力系统数据处理的方法,具体涉及一种发电系统后评价时,发电机组性能各物理参数数据类型相关性的确定方法。



背景技术:

随着风电行业快速发展,大量风力发电机组已累计运行多年,风电场高效运维及提质增效需求凸显,同时风电行业平价进程持续推进,风电开发商对于风电场后评估工作的精细化要求也随之提高。而在所有风电场后评估工作中,风电机组性能评估是最为重要的一项内容。而现有技术手段下,风电场后评估工作中主要使用风机scada(supervisorycontrolanddataacquisition,即数据采集与监视控制系统)数据。但scada数据采集系统往往采集的数据类型种类繁多,数量从几十个到上百个不等,其覆盖的物理量范围也较广,包括但不限于气温、风速、风向、电压、电流、有功无功功率、叶片桨角、偏航角度、齿轮箱及轴承温度、风机振动等,同时针对风机的任意部件,以上物理变量通常配备有单独的传感器测量。在这些不同的数据类型中,并不是所有的数据类型都与后评估工作中风机性能表现相关。所以研究一种能够从scada数据类型中判别与风电机组性能“相关“性最高的数据类型的方法是十分必要的。

目前国内外对于scada数据类型与风电机组性能“相关“性的判定多采用线性相关方法,此方法将分别将不同的scada数据类型与风电机组输出功率进行线性回归分析,并以最终两者的线性相关性系数r2作为判定标准,线性相关性系数的值越高表明该scada数据类型越能反映风电机组的性能表现。然而线性相关方法不论是从全局出发还是将数据进行区间分段再分别分析,都存在一定的局限性,最主要的就是此类相关性分析法均只能反应数据间的线性相关关系,虽然数据集的富化(如将原始数据的幂次方也作为数据集的一部分使用,这样就可以在相关性分析同体现数据间的高阶关系)可以一定程度上改善这一问题,但是数据集的富化一方面依赖于经验(即富化的程度),另一方面其也会使得数据量呈指数级增长。

cn102103037b公开了一种《汽轮发电机组低频振动与功率递增相关性分析方法》;仅仅解决低频振动与功率递增相关性,参数数据单一,不适合于多参数条件的相关性研究。

cn110378504a公开了一种《一种基于高维copula技术的光伏发电爬坡事件概率预测方法》,提供的高维copula建模方法,根据光伏功率爬坡特征量之间的随机相关性,建立各个特征量的条件概率模型。它的应用是基于确定数据相关性后,得到各爬坡特征量的点预测值,给出预测值的置信区间;提高概率预测的精确性和鲁棒性。



技术实现要素:

本发明的目的在于解决发电机组后评价过程中,数据相关性仅通过线性相关方法,只能反应数据间的线性相关关系的局限性问题,提供一种基于互信息值的发电机组性能各参数数据类型确定方法。

本发明的技术方案为:一种基于互信息值的发电机组性能各参数数据类型确定方法,将采集的到发电机组的各种物理参数数据,利用copula函数以及copula密度函数的计算得到互信息值,排序确定发电机组性能各物理参数数据与风电机组实际输出功率之间的互信息关系。

上述获得各种物理参数数据均是可以直接用于copula函数的有效数据。

在实际的数据采集过程中,可能采集到明显无效的数据,在采用上述计算方案是需要去掉无效的数据,可以称为数据过滤,也可以称为数据去噪。

上述各种物理参数数据是风机数据采集与监视控制系统scada(supervisorycontrolanddataacquisition)采集到的数据,包括但不限于气温、风速、风向、电压、电流、有功无功功率、叶片桨角、偏航角度、齿轮箱及轴承温度、风机振动等。

优选的技术方案为:利用copula函数计算之前,对采集的到发电机组的各种物理参数数据进行转换,将物理数据量转化为copula函数可接受的数学数字变量。

优选的技术方案为:所述数学数字变量是数据标准化。

优选的技术方案为:所述数据标准化的方法采用min-max标准化法。

优选的技术方案为:对采集的到发电机组的各种物理参数数据进行处理,包括数据过滤。

所述数据标准化的方法采用min-max标准化法。

优选的技术方案为:所述copula函数的计算采用的是经验分布函数的计算方法。

优选的技术方案为:所述copula密度函数的计算采用的是基于beta函数的核密度估计法。

优选的技术方案为:所述发电机组是风力发电机组。

优选的技术方案为:采集的物理参数数据是基于风力发电数据采集与监视控制系统采集得到的。

本专利的基于互信息判定scada数据类型与风电机组性能“相关“性的方法,不仅可以反映数据间除线性外的相关关系,同时也不需要进行数据集的富化从而节省计算资源。改善现有依据线性相关性研究数据收集的富化问题和局限性,也包含数据间的线性相关性。

附图说明

图1为本发明实施例的程序流程图。

图2为本发明互信息与信息熵关系示意图。

具体实施方式

下面以风力发电机组说明本发明权利要求书的技术特征,以便于本领域技术人员理解本发明技术解决方案,但本发明的保护范围不限于下列的具体实施方式。

如图1所示

s101,获取风力发电机组的各种物理参数数据:可以利用风机数据采集与监视控制系统scada(supervisorycontrolanddataacquisition)采集到的数据,包括但不限于气温、风速、风向、电压、电流、有功无功功率、叶片桨角、偏航角度、齿轮箱及轴承温度、风机振动等。

s102数据过滤:,采用分位数离群值过滤法对风电机组的每个scada数据类型进行数据过滤。

scada数据采集的数据类型多种多样,每个数据通道在其测量时间段内,均采用十分钟步长的时间序列记录。因此若统计每个数据类型的分布,可以得到其各自的平均值与标准偏差值。不论是哪一种类型的数据,在其测量周期内,会由于某些客观原因存在测量数据不合理的数据(例如,风速出现负值,功率出现负值等),对于这些不合理数据需要进行过滤,采用的方法是分位数离群值过滤法(quantileoutlierfilter)。即首先将每个数据类型中明显不符合物理规律的数据删除(如风速小于0,功率小于0等),之后假定每个数据类型的分布符合正态分布,接着为每个数据类型设定一个合理的统计致信分位数区间,以95%分位数为例,最后检验每个测量数据与该数据类型平均值的差异,当且仅当这一差异小于等于1.65倍的标准偏差时,才认为该数据是合理的。该过滤方法的数学表达如下:

xisvalid,if|x-xmean|≤1.65σx

实际操作中,以scada数据中的风速数据为例,只需针对风速数据时间序列统计出其平均风速以及风速标准偏差,再将风速数据时间序列代入上式进行数据过滤即可,其他scada记录数据处理方式以此类推。

s103数据转化---数据标准化:将过滤后的数据采用min-max标准化方法进行维度标准化。

过滤后的数据仍然不能直接用于后续分析。本发明中的互信息计算对于入口数据的维度差异均极为敏感,若不同数据类型之间量级差异过大,则会导致计算效率下降或结果不准确。

因此过滤后的scada数据需要进一步进行标准化。采用的方法为min-max标准化法,该方法的数学表达如下所示,经过此方法后,scada数据中所有的数据类型均会标准化至[0,1]区间之内:

其中,dataoriginal是实际采集到的物理量中的一个数据值,min(data)是实际采集到的相同物理量数据值中最小数据,max(data)是实际采集到的相同物理量数据值中最大数据。

实际操作中以scada数据中的风速数据为例,只需统计过滤后的风速时间序列的最大值及最小值,再将风速数据时间序列代入上式进行数据标准化即可,其他scada记录数据处理方式以此类推。

采用经验分布函数法计算每个scada数据类型与风电机组输出功率之间的copula函数。

根据shannon在信息论中的定义以双连续随机变量x和y为例,其之间的互信息可以定义为如下形式。

或如下形式

i(x;y)=h(x)-h(x|y)=h(y)-h(y|x)=h(x)+h(y)-h(x,y)=h(x,y)-h(x|y)-h(y|x)

其中p(x,y)为随机变量x和y的联合概率分布函数,px(x)和py(y)则分别为随机变量x和随机变量y的边缘分布,x和y分别为两个随机变量的定义域。

h(x)为随机变量x的边缘熵,h(y)为随机变量y的边缘熵。

h(x)=e[-log(px(x))]=-∫xpx(x)logpx(x)dx

h(y|x)为随机变量y在随机变量x下的条件熵,h(x|y)为随机变量x在随机变量y下的条件熵。

h(x,y)为随机变量x与随机变量y的联合熵。

h(x,y)=-∫x∫yp(x,y)logp(x,y)dxdy

图2是以上各类信息熵与互信息的关系示意图。

可见如果想直接通过以上定义式计算互信息,则需要已知各随机变量的边缘分布函数以及联合分布函数。实际情况中,随机变量的边缘分布以及联合分布均无法被准确测量或获得。因此需要找到一种不依赖随机变量边缘分布与联合分布的互信息计算方法。

基于得到的copula函数进一步采用核密度函数估计法计算scada数据类型与风电机组输出功率之间的copula密度函数。

借由sklar定理可知若p为多维随机变量x=x_1...x_n的联合累积分布函数(jointcumulativedistributionfunction),同时多维随机变量x具有边缘分布{p_i,i=1,...,n},则p可以通过copula函数c以及边缘累积分布函数(margincumulativedistributionfunction)pi来表达。

p(x)=c(p1(x1),...,pn(xn))

将上式改写为双随机变量形式。

p(x,y)=c(px(x),py(y))

再通过联合累积分布函数的定义式可知:

p(x,y)=∫x∫yp(x,y)dxdy

因此若将sklar定理公式两边同时进行微分,则有:

进一步整理最终得到:

p(x,y)=c(px(x),py(y))px(x)py(y)

其中c被称为copula密度函数,我们将以上转换代入回互信息的定义式中:

i(x;y)=∫x∫yc(px(x),py(y))px(x)py(y)log(c(px(x),py(y))dxdy

设px(x)=a,py(y)=b,则上式可最终整理为:

i(x;y)=∫01∫01c(a,b)logc(a,b)dadb

可以发现借由copula函数以及copula密度函数,互信息的计算可以绕开随机变量的边缘概率分布以及联合概率分布获取,同时从copula相关计算出发,可以注意到其与随机变量的联合累积概率分布相关,相较于实际应用中较难测量与估计的概率分布函数,累积概率分布可以通过无参估计(nonparametricestimation)来获得,最终使得随机变量之间的互信息可以被计算出来。

s104copula函数计算

对于copula计算采用了经验分布函数法(empiricaldistributionfunction),对于随机变量x以及随机变量y的一组采样{xi,yi}n,将sklar定理公式中的联合累积概率分布函数p(x,y)通过采样数据的累计求和代替,即可得到经验copula函数的数学表达:

式中的两个随机变量的边缘累积概率函数p_x(x_i)和p_y(y_i)则可以通过基于采样的经验分布公式来近似:

s105copula密度函数的计算

在经验copula函数计算得到之后,下一步需要根据经验copula函数进一步计算其密度函数,本专利中采用了核密度估计法(kerneldensityestimation),最终可以推导得到copula密度函数的估计式:

实际操作中,需要将上式中随机变量y替换为scada数据中筛选和标准化后的风机实际输出功率;随机变量x依次替换为scada数据中筛选和标准化后的其他数据类型,如气温、风速、风向、电压、电流、有功无功功率、叶片桨角、偏航角度、齿轮箱及轴承温度、风机振动等。然后将(a,b)依次取遍[0,h,2h……,1]x[0,h,2h……,1]的所有可能组合。

举例说明(a,b)依次取遍[0,h,2h……,1]x[0,h,2h……,1]的所有可能组合,假设h为0.1即(a,b)在a=0时可以为(0,0),(0,0.1),(0,0.2),(0,0.3),(0,0.4),(0,0.5),(0,0.6),(0,0.7),(0,0.8),(0,0.9),(0,1.0)。(a,b)在a=0.1时可以为(0.1,0),(0.1,0.1),(0.1,0.2),(0.1,0.3),(0.1,0.4),(0.1,0.5),(0.1,0.6),(0.1,0.7),(0.1,0.8),(0.1,0.9),(0.1,1.0)。以此类推,a的值共可取0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0。

上式中k_x和k_y分别为针对不同随机变量所使用的核(kernel)函数,可以选择的核函数有很多,包括但不局限于beta函数,高斯函数等,h为密度函数评估中所使用的窗宽(bandwidth),典型取值为对应数据类型数据总量的五次方根分之一

s106互信息值计算

采用核密度估计法得到每个scada数据类型(如气温、风速、风向、电压、电流、有功无功功率、叶片桨角、偏航角度、齿轮箱及轴承温度、风机振动等)与风电机组输出功率的copula密度函数后,进一步即可采用下式计算两者的互信息。

利用公式

i(x;y)=∫01∫01c(a,b)logc(a,b)dadb

计算各scada数据类型与风电机组输出功率之间的互信息值。

s107互信息值排序

将上面计算得到的所有scada数据类型与风电机组输出功率的互信息值由大到小降序排列,排名越靠前的数据类型即为与风电机组性能“相关性”越高的数据类型。

本发明利用信息论中,互信息值反映不同随机变量间相互携带信息量的多少,评价发电机组(特别是风力发电系统的数据离散性系统中)性能各参数数据类型的相关性,适用于scada数据的繁杂系统,评价全面,系统,准确性高。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1