1.本发明涉及一种自动发电控制建模变量的识别方法。
背景技术:2.随着化石能源的日益短缺与化石能源燃烧造成的环境污染问题越来越严重,人们开始大力开发利用可再生能源,使得新一轮能源技术革命不断挑战传统能源的基础和主题地位,为此,提出了大力发展新型清洁可再生能源。但是可再生能源存在反调峰和不确定性,拉大负荷的峰谷差,加大了电力系统的调频调峰负担,大量间歇性可再生能源的嵌入也使得火电机组将会更多地参与深度调峰运行。同时,明确规定了燃煤电厂需要承担电网的灵活调峰任务,在深度调峰工况下,依照传统实验测试的方式获得的机组运行参数,再从机理上去构建自动发电控制模型,从理论上选取模型的输入变量,不能从数据本身反应机组各个参数之间的相关性,所以为了更好的选取建模时的输入变量,让所建的模型能够更精确,有必要从机组各个参数运行数据之间的关系出发,选取合适的输入变量。
3.最大相关-最小冗余(mrmr)算法是一种滤波式的特征选取方法,即在原始特征集合中找到与最终输出结果相关性最大,但是特征彼此之间相关性最小的一组特征。在自动发电控制当中,机组负荷发生变化时,多个特征变量一起变化,最大相关-最小冗余(mrmr)算法能很好地筛选出建模时的输入特征变量,不仅能快速的筛选出建输入特征变量,还能减少建模时输入特征变量的个数,能有效的降低模型的复杂度,从而避免模型出现过拟合的现象。
技术实现要素:4.本发明所要解决的技术问题是提供一种自动发电控制建模变量的识别方法,通过最大相关-最小冗余算法筛选出自动发电控制建模时的输入变量。
5.本发明所采用的技术方案是:
6.一种自动发电控制建模变量的识别方法,其包括如下步骤:
7.步骤1:采集历史运行数据;
8.步骤2:将采集到的数据进行数据清洗和划分,将机组长期稳定的数据剔除,保留机组在深度调峰工况下自动发电控制动态过程时的所有参数数据,记为样本数据集合d,将样本数据集d划分为相关特征集合v和目标变量y;
9.步骤3:使用最大相关-最小冗余算法对数据进行特征变量筛选,得到特征集合v与目标变量y相关性最大的特征变量;
10.步骤4:选取下一个特征变量;
11.步骤5:重复步骤4直到取出k个特征变量。
12.进一步的,在步骤1中,通过火力发电厂的控制系统获取试验机组在长期稳定运行方式与深度调峰工况下自动发电控制试验的数据。
13.进一步的,采样的参数包括目标负荷设定、机组负荷、当前转速差、主蒸汽压力、主
蒸汽温度、再热蒸汽温度、中间点实际过热度、排汽压力主控、管道排汽压力、总阀位开度、锅炉主给水流量、汽机实际速度、高压主汽调节阀后蒸汽压力、汽机调速级压力以及高压调节级后蒸汽温度。
14.进一步的,在步骤2中,v={v1,v2,v3,
…
,vn},其中vn为特征变量, n为特征维度,d={v1,v2,v3,
…
vn,y},将机组负荷作为目标变量y。
15.进一步的,步骤3的具体包括:
16.步骤3-1:将样本数据集合d划分为t*n的输入矩阵d和t*1的向量f,其中矩阵d为特征集合v在t时间段内所有数值,f为目标变量y在t时间段内所有机组功率负荷值,并且确定预选取的特征变量个数k;
17.步骤3-2:分别计算特征{v1,v2,v3,
…
,vn}与目标向量f之间的互信息值,记为{a
1f
,a
2f
,a
3f
,
…
,a
nf
},其中a
1f
,a
2f
,a
3f
,
…
,a
nf
≥0;
18.步骤3-3:将步骤3-2中计算出来的互信息值a
1f
,a
2f
,a
3f
,
…
,a
nf
取其相反数{-a
1f
,-a
2f
,-a
3f
,
…
,-a
nf
},并将{-a
1f
,-a
2f
,-a
3f
,
…
,-a
nf
}按照从小到大的规则排序,并记录这些排序后这些互信息值对应原本的位置序号;
19.步骤3-4:取出第一个序号对应的特征变量作为选出的第一个特征变量,并将它对应的序号赋予fea(1),获取剩余特征的位置序号。
20.进一步的,步骤3-2中,互信息值的计算公式为:
[0021][0022]
其中p(v,f)是特征变量v与目标向量f的联合概率密度函数,其边际概率密度函数分别为p(v)和p(y),a的值越大,说明特征变量v与目标向量f之间的相关性越大,此特征越重要。
[0023]
进一步的,步骤4包括如下步骤:
[0024]
步骤4-1:获取剩余特征变量的个数,记为nc,记录当前已选择的特征变量;
[0025]
步骤4-2:从第一个剩余特征变量个数到最后一个剩余特征变量中,依次计算步骤4-1中位置序号对应的特征变量与目标向量f之间的互信息值,记为t
.
mi(i),其中i代表已经挑选到剩余特征变量的个数,即i∈[1,nc];
[0026]
步骤4-3:计算已选取的特征变量与步骤4-1中位置序号对应的特征变量之间的互信息值,并求这些互信息值的平均值,记为c
.
mi(i);
[0027]
步骤4-4:在t
.
mi(i)-c
.
mi(i)取最大值时,记录最大值和并将取得最大值时对应的个数i;
[0028]
步骤4-5:将步骤4-4中第i个序号对应的剩余特征变量作为选取的第二个特征变量,并将选取出来的第二个特征变量对应的位置序号从步骤 4-4中删除。
[0029]
进一步的,采样时间为24个小时,数据采样间隔1s。
[0030]
一种终端设备,其包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述自动发电控制建模变量的识别方法的步骤。
[0031]
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,程序指令当被处理器执行时所述处理器执行上述的识别方法。
[0032]
本发明的积极效果为:
[0033]
本发明通过采集火电机组一段时间内运行内多个参数的数据变化,再通过数据清洗和筛选,保留机组自动发电控制动态过程时的所有参数数据,将清洗和筛选之后得到的数据划分为特征变量和目标变量,通过最大相关
ꢀ‑
最小冗余算法筛选出自动发电控制建模时的输入变量。本发明对自动发电控制建模时输入变量的确定,旨在找出与目标变量之间相关性最大、而特征变量彼此之间相关性最小的一组特征变量,以便减少输入数据的维度,降低模型的复杂度,让模型能够更准确的表现,对后续设计故障预警装置提供参考变量依据。
附图说明
[0034]
为了更清楚的说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0035]
图1为本发明步骤图;
[0036]
图2为本发明系统流程图;
[0037]
图3为本发明终端设备示意图。
具体实施方式
[0038]
下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本技术及其应用或使用的任何限制。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
[0039]
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本技术的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0040]
实施例1
[0041]
如附图1、2所示,本发明提供一种自动发电控制建模的识别方法,以实现从火电机组众多参数中寻找出与机组负荷关系最大的特征变量。具体方案如下:
[0042]
步骤1:采集历史运行数据。通过火力发电厂的控制系统获取试验机组在长期稳定运行方式与深度调峰工况下自动发电控制试验的数据,采样时间为24个小时,数据采样间隔1s。其中采样的参数包括目标负荷设定、机组负荷、当前转速差、主蒸汽压力、主蒸汽温度、再热蒸汽温度、中间点实际过热度、排汽压力主控、管道排汽压力、总阀位开度、锅炉主给水流量、汽机实际速度、高压主汽调节阀后蒸汽压力、汽机调速级压力、高压调节级后蒸汽温度等。
[0043]
步骤2:将采集到的数据进行数据清洗和划分,将机组长期稳定的数据剔除,保留机组在深度调峰工况下自动发电控制动态过程时的所有参数数据,记为样本数据集合d,将
样本数据集d划分为相关特征集合v和目标变量y,其中v={v1,v2,v3,
…
,vn},其中vn为特征变量,n为特征维度,d= {v1,v2,v3,
…
vn,y},将机组负荷作为目标变量y。
[0044]
步骤3:使用最大相关-最小冗余算法对数据进行特征变量筛选,得到特征集合v与目标变量y相关性最大,但是特征{v1,v2,v3,
…
,vn}彼此之间相关性最小的一组特征{v
′1,v
′2,v
′3,
…
,v
′m},其中m《n。
[0045]
具体步骤如下:
[0046]
步骤3-1:将样本数据集合d划分为t*n的输入矩阵d和t*1的向量f,其中矩阵d为特征集合v在t时间段内所有数值,f为目标变量y在t时间段内所有机组功率负荷值。并且确定所自己想选取的特征变量个数k。
[0047]
步骤3-2:分别计算特征{v1,v2,v3,
…
,vn}与目标向量f之间的互信息值,记为{a
1f
,a
2f
,a
3f
,
…
,a
nf
},其中d
1f
,a
2f
,a
3f
,
…
,a
nf
≥0。互信息值的计算公式为:
[0048][0049]
其中p(v,f)是特征变量v与目标向量f的联合概率密度函数,其边际概率密度函数分别为p(v)和p(y),a的值越大,说明特征变量v与目标向量f之间的相关性越大,此特征越重要。
[0050]
步骤3-3:将上述步骤中计算出来的互信息值a
1f
,a
2f
,a
3f
,
…
,a
nf
取其相反数{-a
1f
,-a
2f
,-a
3f
,
…
,-a
nf
},并将{-a
1f
,-a
2f
,-a
3f
,
…
,-a
nf
}按照从小到大的规则排序,并记录这些排序后这些互信息值对应原本的位置序号。
[0051]
步骤3-4:取出第一个序号对应的特征变量作为选出的第一个特征变量,并将它对应的序号赋予fea(1),获取剩余特征的位置序号。
[0052]
步骤4:开始选取下一个特征变量。具体步骤如下:
[0053]
步骤4-1:获取剩于特征变量的个数,记为nc,记录当前已选择的特征变量。
[0054]
步骤4-2:从第一个剩余特征变量个数到最后一个剩余特征变量中,依次计算步骤4-1中位置序号对应的特征变量与目标向量f之间的互信息值,记为t
.
mi(i),其中i代表已经挑选到剩余特征变量的个数,即i∈[1,nc]。
[0055]
步骤4-3:计算已选取的特征变量与步骤4-1中位置序号对应的特征变量之间的互信息值,并求这些互信息值的平均值,记为c
.
mi(i)。
[0056]
步骤4-4:在t
.
mi(i)-c
.
mi(i)取最大值时,记录最大值和并将取得最大值时对应的个数i。
[0057]
步骤4-5:将步骤4中第i个序号对应的剩余特征变量作为选取的第二个特征变量,并将选取出来的第二个特征变量对应的位置序号从步骤4中删除,。
[0058]
步骤5:重复步骤4直到取出k个特征变量。
[0059]
本发明在进行自动发电控制预测建模时大大的减少了输入变量选取的工作量,可高效率处理大量数据,有效解决火电机组特征变量多,输入特征参数难以选取的问题。只需要有火电机组运行时各个参数变化,在建模时就能做到很好的特征变量选取。调试过程简便,主要需要调试的参数是所需要选择的特征变量个数k,既考虑特征变量与目标变量之间相关性最大的同时,让特征变量之间的相关性最小,有效的筛选有用的特征变量,降低了建模时模型的复杂度,从而得到更好得预测效果。
[0060]
实施例2
[0061]
如附图3所示,本实施例提供一种终端设备,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序。所述处理器执行所述计算机程序时实现如实施例1中的各步骤。
[0062]
所述终端设备是指具有数据处理能力的终端,包括但不限于计算机、工作站、服务器,甚至是一些性能优异的智能手机、掌上电脑、平板电脑、个人数字助理(pda)、智能电视(smart tv)等。终端设备上一般都安装有操作系统,包括但不限于:windows操作系统、linux操作系统、安卓 (android)操作系统、symbian操作系统、windows mobile操作系统、以及 ios操作系统等等。以上详细罗列了终端设备的具体实例,本领域技术人员可以意识到,终端设备并不限于上述罗列实例。
[0063]
所述终端设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,图3仅仅是终端设备的示例,并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
[0064]
所称处理器可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0065]
所述存储器可以是所述终端设备的内部存储单元,例如终端设备的硬盘或内存。所述存储器也可以是所述终端设备的外部存储设备,例如所述终端设备上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。进一步地,所述存储器还可以既包括所述终端设备的内部存储单元也包括外部存储设备。所述存储器用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。
[0066]
实施例3
[0067]
本实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现如实施例1中所述的各实施例中的步骤。
[0068]
所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信号以及软件分发介质等。
[0069]
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出
本发明的范围。
[0070]
在本发明所提供的实施例中,应该理解到,所揭露的终端设备和方法,可以通过其它的方式实现。例如,以上所描述的系统/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
[0071]
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。