1.本发明涉及光伏发电技术领域,尤其涉及一种光伏电站异常数据清洗的方法。
背景技术:2.近年来,光伏发电发展迅速,装机容量快速增长,使得光伏发电系统智能化运行显得尤为重要。光伏发电高质量和高可靠性的数据是光伏系统实现智能运行的基础。然而光伏发电系统在实际运行过程中采集到的运行数据存在大量的异常值,造成这些异常值的原因多种多样,包括数据采集传播系统的信号噪声、最大功率跟踪异常以及阵列停机等因素。对这些异常数据的清洗是提高数据质量、实现光伏智能运行的关键环节,具有重要意义。
3.目前,有关新能源发电系统数据清洗的研究大致可以分为两种,分别是全局概率统计法和基于人工智能的数据清洗方法。全局概率统计方法通过对功率曲线类似的历史样本数据建立统计学模型实现异常数据的识别和清洗,方法较为成熟,但是其缺点在于当大量异常数据局部堆积时会造成部分数据误清洗,且全局概率统计方法的数据筛选结构易受到样本数据分布的影响。基于人工智能的数据清洗方法对理论要求弱,技术性强,通过计算机进行大量重复地计算实现异常数据的识别和清洗,但其缺点在于人工智能方法的泛化能力需要对大量的样本数据进行训练学习,实际过程中样本数据量难以保证;另外,部分人工智能方法所得结果的物理意义难以解释。
4.由于光伏出力会同时受到多维外部因素的影响,其中主要的影响因素为辐照度和温度。大多数学者考虑从环境因素入手研究其与电气参数之间的关系,从而判断光伏电站异常数据,但大多数研究只考虑了某一单层关系,例如温度与电压之间的单层关系或辐照度和功率的单层关系。而事实上,光伏电站的实际运行数据受到辐照度、温度等多方面的影响,其出力分布受到多变量的影响。
技术实现要素:5.本发明所要解决的技术问题是提供一种具有有效性和可行性的光伏电站异常数据清洗的方法。
6.为解决上述问题,本发明所述的一种光伏电站异常数据清洗的方法,包括以下步骤:
⑴
选取原始数据:收集某个光伏电站的历史运行数据以及历史气象数据为原始数据样本,并确认样本分布情况;
⑵
建立数据索引:对原始数据样本中的环境数据以及光伏电站历史功率数据进行标签,按照时间轴进行数据对齐;
⑶
二步分位数算法的第一步:按照辐照度和功率数据关系进行清洗;
⑷
二步分位数算法的第二步:按照温度和功率数据关系进行清洗;
⑸
清洗结果整理:将第二步清洗后的数据进行重新整理,按照辐照度、温度以及功率三种参数种类对结果数据进行重构,使正常数据的分布趋势符合光伏阵列多维理论电气参数关系即可。
7.所述步骤
⑵
中环境数据是指辐照度数据和温度数据。
8.所述步骤
⑶
中按照辐照度和功率数据关系进行清洗的方法是指先索引原始数据中的辐照度与光伏输出功率数据,并清洗辐照度零值点数据;然后设置分位数参数,按分位数算法获得样本数据的异常值内限,并以此为依据对数据进行划分,最后将数据异常值内限之外的数据进行清洗。
9.所述步骤
⑷
中按照温度和功率数据关系进行清洗的方法是指先索引第一步清洗后的数据中温度与光伏输出功率数据;然后设置分位数参数,按分位数算法获得样本数据的异常值内限,并以此为依据对数据进行划分,最后将数据异常值内限之外的数据进行清洗。
10.所述数据划分公式为:;;式中:y
l,i
表示第i维的异常数据集,y
n,i
表示第i维的正常数据集;xj表示第j个异常数据,xk表示第k个正常数据;f
1,i
表示数据异常值内限中的下限,f
u,i
表示数据异常值内限的上限;s1,s2分别表示异常数据和正常数据的个数;i为维度;r为实数集。
11.本发明与现有技术相比具有以下优点:1、本发明考虑多个环境因素来实现光伏阵列异常数据清洗,利用分位数算法分两步对光伏阵列异常数据进行清洗,从而实现光伏电站异常数据的有效识别和筛选。
12.2、采用本发明方法后,不仅能有效识别不同条件下的异常数据,还能将底部堆叠的异常值准确识别,说明本发明方法对于光伏电站数据清洗具有有效性和可行性。同时经测试,采用本发明方法后异常数据错误识别率远远小于单一四分位数方法。
附图说明
13.下面结合附图对本发明的具体实施方式作进一步详细的说明。
14.图1为本发明的流程图。
15.图2为本发明不同光伏电站运行数据清洗的结果。其中:左图为350m202m4m355汇流箱数据,右图为350m202m4m356汇流箱数据。
具体实施方式
16.如图1所示,一种光伏电站异常数据清洗的方法,包括以下步骤:
⑴
选取原始数据:收集某个光伏电站的历史运行数据以及历史气象数据为原始数据样本,并确认样本分布情况。
17.⑵
建立数据索引:
对原始数据样本中的环境数据(辐照度、温度)以及光伏电站历史功率数据进行标签,按照时间轴进行数据对齐,方便后续索引与分析。
18.⑶
二步分位数算法的第一步:按照辐照度和功率数据关系进行清洗。
19.先索引原始数据中的辐照度与光伏输出功率数据,并清洗辐照度零值点数据,避免零值点数据堆积影响分位数算法识别;然后设置分位数参数,按分位数算法获得样本数据的异常值内限,并以此为依据对数据进行划分,最后将数据异常值内限之外的数据进行清洗。
20.其中:数据划分公式为:;;式中:y
l,i
表示第i维的异常数据集,y
n,i
表示第i维的正常数据集;xj表示第j个异常数据,xk表示第k个正常数据;f
1,i
表示数据异常值内限中的下限,f
u,i
表示数据异常值内限的上限;s1,s2分别表示异常数据和正常数据的个数;i为维度;r为实数集。
21.⑷
二步分位数算法的第二步:按照温度和功率数据关系进行清洗。
22.先索引第一步清洗后的数据中温度与光伏输出功率数据;然后设置分位数参数,按分位数算法获得样本数据的异常值内限,并以此为依据对数据进行划分,最后将数据异常值内限之外的数据进行清洗。
23.其中:数据划分公式同步骤
⑶
。
24.⑸
清洗结果整理:将第二步清洗后的数据进行重新整理,按照辐照度、温度以及功率三种参数种类对结果数据进行重构,使正常数据的分布趋势符合光伏阵列多维理论电气参数关系即可。
25.实施例 一种光伏电站异常数据清洗的方法,包括以下步骤:
⑴
采用某光伏电站两个汇流箱(350m202m4m355汇流箱和350m202m4m356汇流箱)6个月内实测运行数据以及环境数据(包括历史辐照度数据和历史温度数据等)为原始数据样本,并确认样本分布情况。
26.⑵
建立数据索引:对原始数据样本中的环境数据(辐照度、温度)以及光伏电站历史功率数据进行标签,按照时间轴进行数据对齐。
27.⑶
二步分位数算法的第一步:按照辐照度和功率数据关系进行清洗。具体过程如下:先索引原始数据中的辐照度与光伏输出功率数据,并清洗辐照度零值点数据,避免零值点数据堆积影响分位数算法识别;然后设置分位数参数,按分位数算法获得样本数据的异常值内限,并以此为依据对数据进行划分,最后将数据异常值内限之外的数据进行清洗。
28.分位法是统计学中分析数据集分布特征的重要方法,该方法是指将数据集中的全部数据按大小顺序依次排列并分为四等份,处于分割点位置的三个数值q1、q2、q3就是分位数。分位数的计算方法如下:
已知一个升序排列的样本集合x=[x
1 x2…
xn],对样本集合x依次计算中位数q2、第一个四分位数q1以及第三个分位数q3:
①
第2个分位数即中位数q2的计算公式如下:
②
第1个分位数q1和第三个分位数q3的计算公式如下:当n=2k(k=1,2,
…
)时,从q2处将x分为两个部分(不包含q2)分别计算这两部分的中位数,得到的这两个中位数即为q1和q3。
[0029]
当n=4k+3(k=0,1,2,
…
)时,有其中a,b为分位点参数,有0《a《1,0《b《1,a+b=1。
[0030]
同理,当n=4k+1(k=0,1,2,
…
)时,有
③
分位距i
qr
的计算公式如下:得到样本数据的异常值的内限:;式中:f
1,i
表示数据异常值内限中的下限,f
u,i
表示数据异常值内限的上限。
[0031]
样本x中处于内限外的数据都为异常数据,即异常数据集为表1为不同分位数参数设置的数据清洗效果。由表1可以看出,参数a数值设置越大,对数据的删除率就越高。较大的a值保证了剩余数据的高准确率,但是也会造成大量的数据误清洗。所以要根据实际数据的清洗要求设置对应的分位数参数,以达到更好的应用效果。
[0032]
表1 去除零值点下不同分位点设置下分位数算法清洗结果
光伏电站输出功率受到辐照度与环境温度的多重影响,故单一维度的分位数算法数据清洗无法适应不同的数据清洗需求。将光伏发电的样本数据按照不同种类数据,例如光伏输出功率与辐照度,光伏输出功率与温度两种关系进行分类。得到样本数据集y1,y2,其中yi={y
n,i
,y
l,i
} i=1,2,y
n,1
表示第i维的正常数据集,y
l,i
表示第i维的异常数据集。选取分位参数a,b,按照分位数算法步骤计算,得到不同维度样本数据的异常值内限[f
1,i,fu,i
]。以此为依据对数据进行划分,清洗异常数据。
[0033]
数据划分公式为:;;式中:y
l,i
表示第i维的异常数据集,y
n,i
表示第i维的正常数据集;xj表示第j个异常数据,xk表示第k个正常数据;f
1,i
表示数据异常值内限中的下限,f
u,i
表示数据异常值内限的上限;s1,s2分别表示异常数据和正常数据的个数;i为维度;r为实数集。
[0034]
对于光伏输出功率与辐照度的数据集按照上述公式进行清洗,实现二步分位数算法的第一步清洗。
[0035]
⑷
二步分位数算法的第二步:按照温度和功率数据关系进行清洗。具体过程如下:先索引第一步清洗后的数据中温度与光伏输出功率数据;然后设置分位数参数,按分位数算法获得样本数据的异常值内限,并以此为依据对数据进行划分,最后将数据异常值内限之外的数据进行清洗。
[0036]
⑸
清洗结果整理:将第二步清洗后的数据进行重新整理,按照辐照度、温度以及功率三种参数种类对结果数据进行重构,使正常数据的分布趋势符合光伏阵列多维理论电气参数关系即可。
[0037]
图2为不同光伏电站运行数据清洗的结果,其中灰色数据点为识别的正常数据,黑色为识别的异常数据点。由图2可以看出,正常数据的分布情况趋势符合光伏发电理论出力
特性,因此,本发明方法不仅能有效识别不同条件下的异常数据,还能将底部堆叠的异常值准确识别,说明本发明方法对于光伏电站数据清洗具有有效性和可行性。
[0038]
下面对传统单一四分位数方法和本发明、的二步分位数方法对异常数据清洗能力进行对比,两种方法的分位数参数设置一致,均为a=0.2,b=0.8。设计了两种不同的场景,包含常规的光伏电站运行数据与拟合的光伏电站输出功率异常数据,结果如表2所示:表2:传统单一四分位数方法和二步分位数方法对异常数据清洗能力对比由表2可知,本发明数据清洗方法能够将新添加的功率异常数据给全部识别出来,而单一分位数算法无法将其识别出来。因此,除了分位数算法本身由于统计原理造成的少量异常数据错误识别,采用本发明方法后异常数据错误识别率为4.94%,比单一四分位数方法要小许多,更具优势。