本发明涉及分布式光伏运维
技术领域:
,具体是一种基于接收者操作特征曲线(receiveroperatingcharacteristiccurve,roc曲线)的分布式光伏系统异常预警准确率计算方法。
背景技术:
:光伏发电作为全球最具发展前景的可再生能源利用方式之一,得到了各国政府、行业企业以及科研机构的高度重视。截止到2017年底,世界范围内光伏装机容量接近398gw,累计发电460twh,占总发电量的2%,其中,分布式光伏占比达40%。分布式光伏运维形成了巨大的市场需求,异常预警方面的技术突破已成为国内外研究热点,但对于众多的预警模型缺乏一种科学、有效的评价方法。因此,如何用构图法揭示预警模型敏感性和特异性的相互关系,全面、有效地揭示模型虚警、漏警的比例,是综合评价分布式光伏系统异常预警准确率的难点。目前,国内外分布式光伏系统运维的异常预警模型评价仅停留在字面意义上,即“某分布式光伏系统在特定周期内发生了n次异常,预警模型正确预警出了n-m次,则预警准确率即为(n-m)/n”。但是该类计算方法仅仅只是预警模型漏警比例,对于虚警情况并不能有效描述,即“某分布式光伏系统运行在特定周期内发生了n次异常,预警模型正确预警除了n-m次,但错误预警了t次,则传统预警准确率依然为(n-m)/n”。因此,在构建分布式光伏系统异常预警准确率的计算方法时要考虑虚警率的影响,综合评价预警模型的运行性能。技术实现要素:本发明针对现有分布式光伏系统异常预警准确率计算方法无法有效评价虚警率的问题,提供基于roc曲线的分布式光伏系统异常预警准确率计算方法,在不改变试验样本空间的情况下,通过auc综合评价预警模型的运行性能。本发明采用如下技术方案来实现:一种基于roc曲线的分布式光伏系统异常预警准确率计算方法,包括如下步骤:步骤1、构建分布式光伏系统异常预警结果二元分类模型:将一个预警结果映射到一个特定类的过程;步骤2、根据二元分类模型建立roc空间:将分布式光伏系统实际发生异常,预警模型正确预警出异常发生了的比例定义为x轴,实际没有发生异常,但预警模型误报异常发生的比例定义为y轴,从而构建成为roc空间;步骤3、将异常预警模型每个阈值的座标在roc空间里进行描绘,形成特定模型的roc曲线:修改预警模型中异常判断的阈值,形成一系列异常判断结果的准确性度量结果,将度量结果在roc空间中进行逐一描点,形成用于评价特定预警模型准确性的roc曲线;步骤4、计算auc,作为异常预警准确率的计算方法。进一步的,步骤4采用梯形法计算auc,具体的,将roc曲线上每个相邻的点以直线连接,构成一个梯形并计算其面积,将所有梯形的面积加和即为roc曲线下的总面积,即auc。本发明具有如下优点:1、该方法简单、直观,通过图示可观察分布式光伏系统异常预警的运行准确性,并可用肉眼做出判断;2、roc曲线不固定分类界值,允许中间状态存在,利于运维人员结合专业知识和工作经验,权衡漏警与虚警的影响,选择较为符合实际情况的截断点作为预警参考值;3、提供不同分布式光伏系统之间在共同场景下的直观比较,roc曲线越凸越近左上角表明其预警价值越大,利于不同指标间的比较,曲线下面积可评价预警准确性。附图说明图1为本发明roc空间示例图;图2为本发明roc曲线图;图3为本发明auc计算方法示意图。具体实施方式下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述。一种基于roc曲线的分布式光伏系统异常预警准确率计算方法,包括如下步骤:步骤1、构建分布式光伏系统异常预警结果二元分类模型。分布式光伏系统异常预警结果是一个典型的二元分类问题,其预警结果有4种情形:(1)真阳性(tp,truepositive):预警结果为分布式光伏系统发生异常,实际上异常也发生了,即传统意义上的正确预警;(2)伪阳性(fp,falsepositive):预警结果为分布式光伏系统发生异常,实际却没有发生异常,即传统意义上的虚警;(3)真阴性(tn,truenegative):预警结果为分布式光伏系统没有发生异常,实际上也没有发生异常;(4)伪阴性(fn,falsenegative):预警结果为分布式光伏系统没有发生异常,实际却发生了异常,即传统意义上的漏警。这4种情形可以画成2×2的混淆矩阵,如表1所示。表1异常预警模型结果的混淆矩阵步骤2、根据二元分类模型建立roc空间。对正确预警和虚假预警的比例进行定义,即真阳性率(tpr,truepositiverate)和假阳性率(fpr,falsepositiverate)。tpr:对于实际发生了异常的样本,预警模型正确预警了的比例。tpr=tp/(tp+fn)fpr:对于实际没有异常的样本,预警模型没有报异常的比例。fpr=fp/(fp+tn)roc空间将tpr定义为y轴,将fpr定义为x轴,形成了一个特定的二维空间。对于某个特定的异常预警模型和判断阈值,就能从所有样本的(发生异常/未发生异常)真实值和预测值计算出一个(x=fpr,y=tpr)座标点。完美的预警模型位于左上角的一个点,在roc空间座标(0,1)点,x=0代表着没有伪阳性,即没有虚警情况发生,y=1代表着没有伪阴性,即也没有发生漏警情况。一个随机的预测会得到位于从(0,0)到(1,1)对角线(也叫无识别率线)上的一个点;最直观的随机预警的例子就是通过抛硬币的方式来进行异常预警。从(0,0)到(1,1)的对角线将roc空间划分为左上/右下两个区域,在这条线的以上的点代表了该模型有效,即优于随机预警,而在这条线以下的点代表了该模型无效,即差于随机预警。针对实际发生异常和未发生异常的运行状态各100次的样本案例,4种预警模型的结果差异如表2所示。表24种预警模型的结果表abcc’tp63772476fp28778812tn37237624fn72231288tpr0.630.770.240.76fpr0.280.770.880.12将这4种结果画在roc空间里,如图1所示。点与随机预警线的距离,是预警能力的指标:离左上角越近的点预警准确率越高。离右下角越近的点,预警越不准。在a、b、c三者当中,最好的结果是a方法。b方法的结果位于随机预警线(对角线)上。c虽然预测准确度最差,甚至劣于随机预警,也就是低于对角线。然而,当将c以(0.5,0.5)为中点作一个镜像后,c'的结果甚至要比a还要好。这个作镜像的方法,简单说,不管c(或任何roc点低于对角线的情况)的预警结果是什么,就做相反的结论。步骤3、将异常预警模型每个阈值的座标在roc空间里进行描绘,形成特定模型的roc曲线。对于同一个异常预警模型,阈值的不同设定对roc曲线的影响,有一些规律可循:(1)当阈值设定为最高时,亦即所有样本都被预测为阴性,没有样本被预测为阳性,此时在伪阳性率fpr算式中的fp=0,所以fpr=0%;同样,在真阳性率tpr算式中,tp=0,所以tpr=0%。即阈值设定为最高时,必得出roc座标系左下角的点(0,0)。(2)当阈值设定为最低时,亦即所有样本都被预测为阳性,没有样本被预测为阴性,此时在伪阳性率fpr算式中的tn=0,所以fpr=100%;同样,在真阳性率tpr算式中,fn=0,所以tpr=100%。即阈值设定为最低时,必得出roc座标系右上角的点(1,1)。(3)因为tp、fp、tn、fn都是累积次数,tn和fn随着阈值调低而减少(或持平),tp和fp随着阈值调低而增加(或持平),所以fpr和tpr皆必随着阈值调低而增加(或持平)。随着阈值调低,roc点往右上(或右/或上)移动,或不动;但绝不会往左下(或左/或下)移动。调整表2中的预警模型a的阈值,并分别在roc空间中进行描点,最后通过曲线拟合的方式,即可得出如图2所示的roc曲线。步骤4、采用梯形法计算auc,作为异常预警准确率的计算方法。roc曲线下方的面积auc的意义在于,假设阈值以上是发生异常,以下是未发生异常,若随机抽取一个异常样本和一个未异常样本,预测模型正确预警异常样本的值高于未异常样本的概率为auc,即auc值越大的分类器,正确率越高。所谓梯形法,即简单地将每个相邻的点以直线连接,计算连线下方的总面积,如图3所示。则异常预警模型准确率的计算公式为:auc=∑si以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何属于本
技术领域:
的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。当前第1页12