本发明涉及风电领域,具体是一种基于大数据云计算平台的风电场scada系统及其运行方法。
背景技术:
风能作为一种清洁的可再生能源,已经日益引起世界各国的注意,风力发电技术已基本趋于成熟。在大型的风电场中有几十台甚至上百台风力机,如何有效地对各风力机状态进行监控,使整个风电场风机安全、可靠、经济地运行变得至关重要。解决上述问题的途径是建立风电场scada(supervisorycontrolanddataacquisition,数据采集与监视控制)系统,实现风电场全系统风机监控、信息共享和故障诊断及维护。scada系统的出现改变了风电场运维的面貌,打造“无人值班、少人值守、区域管理”的风电场运维模式,建立风电场远程集控中心,极大地改善了工作人员恶劣的工作环境,吸纳了更多的高科技人才加入风电产业,增强了风电公司的市场竞争力,大大推动了风电产业的进一步发展。
虽然scada系统的出现为风电场的运维带来了翻天覆地的变化,但是鉴于风电场底部的数据采集层具有数据采集量大、采集频率高的特点,历史库必将形成复杂、异构的风电大数据,传统的scada系统开始面临计算机cpu升级、内存不足、计算机硬件扩充、成本增加等一系列的问题。传统的数据处理方式,难以快速处理海量的风电场大数据。申请号201310471096.5公开了风电场集中监控系统平台,包括实时系统、数据采集子系统及mis/dmis系统;实时系统包括数据服务器组、scada服务器、通讯服务器、电子值班、远程维护及工作站;数据采集子系统包括数据服务器、数据采集服务器;mis/dmis系统包括mis/dmis服务器、mis/dmis工作站及mis工作站;整个系统是双网结构,数据库服务器、scada服务器和数据采集服务器则是双机冗余配置,面向各个风电场的通道也采用一个以太网为主通道,另一个以太网为备通道的双通道模式。但是该系统采用传统的数据采集和传输方法,对硬件设备的要求较高,系统复杂,成本很高,但是数据采集和传输的速率和安全性并不高。更为突出的问题是系统只具备基本的风电场监控功能,存在数据处理速度慢、数量小、数据挖掘能力不足等数据处理方面的问题,对风电场大数据本身是一种资源浪费,制约系统开发出更多的高级应用,不利于风电场监控系统的智能化。
技术实现要素:
针对现有技术的不足,本发明拟解决的技术问题是,提供一种基于大数据云计算平台的风电场scada系统及其运行方法。该系统把传统的风电场scada系统与云计算平台结合,借助大数据云计算平台架构灵活多变、数据并行处理和成本低的优势,降低了系统对硬件设备的要求,使风电大数据的作用最大化,并且在数据处理过程中采用mapreduce化的标准k-means算法,在降低系统成本的前提下,大幅度提升了数据处理速度。
本发明解决所述系统技术问题的技术方案是,提供一种基于大数据云计算平台的风电场scada系统,其特征在于该系统包括风电场侧、云计算平台和集控中心侧;所述风电场侧和集控中心侧通过互联网均与云计算平台连接;
所述风电场侧包括风机、升压站、箱变、测风塔、电度表、agc、avc、保信子站、故障录波、远动装置、前置服务器、防火墙和交换机;所述风机通过以太网与前置服务器连接;所述升压站、箱变、测风塔、电度表、agc、avc、保信子站和故障录波通过以太网分别与远动装置连接;所述远动装置通过以太网和前置服务器连接,前置服务器与防火墙连接,防火墙与交换机连接;
所述云计算平台包括大数据服务器、高级应用服务器和交换机;所述大数据服务器、高级应用服务器和交换机之间均通过以太网相互连接;
所述集控中心侧包括网络打印机、风机集控工作站、升压站监控工作站、报表和告警工作站与维护工作站;所述网络打印机、风机集控工作站、升压站监控工作站、报表和告警工作站与维护工作站之间均通过以太网相互连接。
本发明解决所述运行方法技术问题的技术方案是,提供一种基于大数据云计算平台的风电场scada系统的运行方法,其特征在于包括以下步骤:
(1)数据采集和传输:风机的数据直接传输给前置服务器,升压站、箱变、测风塔、电度表、agc、avc、保信子站和故障录波的数据经过远动装置的规约转换均转换成标准的规约数据包,再通过通过以太网传输给前置服务器;风电场侧的数据在前置服务器汇集后,经过防火墙加密,由交换机通过用户访问接口把数据上传至云计算平台;
(2)数据存储:数据采集和传输到云计算平台后,云计算平台首先要对风电场大数据进行存储,存储架构中sc是部署在一台大数据服务器上的存储控制器,与搭建的虚拟服务器vm连接,vm的数量根据需要是可变的,每一个vm关联一个存储器volume来扩展存储,vm之间数据共享,共同访问一个大数据存储区域;vm与集群控制器cc连接,最终连接基于hadoop基础框架建立在hdfs文件中的hbase数据库;
(3)数据处理:采用云计算平台中mapreduce化的标准k-means算法对hbase数据库中的数据进行处理;mapreduce标准编程模型中的map/reduce程序被hadoop平台中的hive数据仓库工具划分为顺序执行的map函数和reduce函数,初始的一个键值对经过map函数,生成一组作为桥梁的中间键值对,但是只有键值相同的中间键值对,才能传送给reduce函数;reduce函数的作用是接受其中一个键值和一组相关的键值,进行组合,形成更小的一组键值;输入的海量数据存储在分布式文件系统hdfs中,程序采用迁移运算的方式,map/reduce任务被下载到划分好的数据节点并行执行,数据处理的最终结果仍保存hdfs文件中,集控中心侧通过用户访问接口接收云计算平台处理后的数据。
与现有技术相比,本发明有益效果在于:借助当下互联网云计算平台的优势,把标准的数据处理方法与云计算平台结合,不但极大的提升了数据处理速度,而且方便系统开发更多的高级应用,有利于风电场scada系统的智能化。云计算平台采用hadoop+mapreduce的分布式数据处理技术,与风电行业之前传统的数据处理方式相比,该平台基于更加灵活多变的开源框架,根据系统功能需要随时改变组件,且支持水平扩展,具有互联网属性,更加开放安全。整个云计算平台能够完成一个完整的任务,包括数据存储和处理,不需要传统scada系统中的磁盘阵列等存储设备,不仅极大地提升了数据存储的空间,而且把存储数据的成本降到了最低,同时让数据的处理速度得到了质的提升。
附图说明
图1为本发明基于大数据云计算平台的风电场scada系统及其运行方法一种实施例的整体连接框图;
图2为本发明基于大数据云计算平台的风电场scada系统及其运行方法一种实施例的云计算平台存储架构图;
图3为本发明基于大数据云计算平台的风电场scada系统及其运行方法一种实施例的系统运行流程图;
图4为本发明基于大数据云计算平台的风电场scada系统及其运行方法实施例1中标准k-means算法和mapreduce化后的k-means算法不同数据量的耗时示意图;
具体实施方式
下面给出本发明的具体实施例。具体实施例仅用于进一步详细说明本发明,不限制本申请权利要求的保护范围。
本发明提供了一种基于大数据云计算平台的风电场scada系统(参见图1-4,简称系统),其特征在于该系统包括风电场侧1、云计算平台2和集控中心侧3;所述风电场侧1和集控中心侧3通过互联网的用户访问接口均与云计算平台2连接;
所述风电场侧1包括风机11、升压站12、箱变13、测风塔14、电度表15、agc16、avc17、保信子站18、故障录波19、远动装置110、前置服务器111、防火墙112和交换机113;所述风机11通过以太网与前置服务器111连接,将风机11的数据直接传输给前置服务器111;所述升压站12、箱变13、测风塔14、电度表15、agc16、avc17、保信子站18和故障录波19通过以太网分别与远动装置110连接,经过远动装置110的规约转换,将升压站12、箱变13、测风塔14、电度表15、agc16、avc17、保信子站18和故障录波19的数据均转换成标准的104规约数据包;所述远动装置110通过以太网和前置服务器111连接,前置服务器111与防火墙112连接,防火墙112与交换机113连接;风电场侧1的数据在前置服务器111汇集后,经过防火墙112加密,由交换机113通过互联网的用户访问接口把数据上传至云计算平台2。
风机11指风电场中实际的风机;升压站12用来使风电场发出来的电升压,目的是减小线路电流借以减小电能的损失;箱变13是一种高压开关设备、配电变压器和低压配电装置,主要用来改变电压;测风塔14用于对风电场气流运动情况进行观测和记录;agc16控制着调频机组的出力,以满足不断变化的用户的电力需求;avc17能够进行在线电压无功优化控制,保障电能质量,提高输电效率,降低网损;保信子站18是将风电场的远动信息、保护信息和图模信息进行上传;故障录波19可在系统发生故障时,自动准确地记录故障前后过程的各种电气量的变化情况,通过原始波形对这些电气量的分析和比较,分析处理事故、判断保护是否正确动作、提高电力系统安全运行水平;远动装置110用来对风电场设备的数据进行采集和转发,所述远动装置110的型号是pcs-9799;前置服务器111用于显示风电场接收到的实时数据、通道状态、通讯报文等;防火墙112是指一种将内部网(如以太网)和公众访问网(如互联网)分开的方法,它实际上是一种安全隔离技术;交换机113主要是在互联网中完成信息的交换。
所述云计算平台2包括大数据服务器21、高级应用服务器22和交换机23;所述大数据服务器21、高级应用服务器22和交换机23之间均通过以太网相互连接;所述交换机23用于互联网和云计算平台2的信息交换;所述大数据服务器21用于存储和处理风电场数据,提供查询、更新、事务管理、索引、高速缓存、查询优化、安全及多用户存取控制等功能;所述高级应用服务器22为风电场的智能化发展开发更多的高级应用,例如风功率预测、风机震动监测、web发布、设备预测维修、风电事故预测报警等等。
所述集控中心侧3包括网络打印机31、风机集控工作站32、升压站监控工作站33、报表和告警工作站34与维护工作站35;所述网络打印机31、风机集控工作站32、升压站监控工作站33、报表和告警工作站34与维护工作站35之间均通过以太网相互连接;网络打印机31指通过打印服务器将打印机作为独立的设备接入局域网或者互联网,是一个与网络并列的网络节点和输出终端;风机监控工作站32用来监控风电场中风机的实时运行情况;升压站监控工作站33用来监控风电场升压站的实时运行情况;报表和告警工作站34提供定制化的数据展现功能,提供报表的生成、打印和上报功能,与上级单位的报表系统无缝连接,同时对于随时出现的故障,进行声光报警,报警内容显示在最前端,便于运行人员查看报警内容;维护工作站35用于工作人员对风电场设备出现的故障进行及时的维修,减少事故的发生,保证风电场的安全运行。
云计算平台2采用hadoop+mapreduce的分布式数据处理技术,与风电行业之前传统的数据处理方式相比,该平台基于更加灵活多变的开源框架,根据系统功能需要随时改变组件,且支持水平扩展,具有互联网属性,更加开放安全。整个云计算平台能够完成一个完整的任务,包括数据存储和处理,不需要传统scada系统中的磁盘阵列等存储设备,不仅极大地提升了数据存储的空间,而且把存储数据的成本降到了最低,同时让数据的处理速度得到了质的提升。
hadoop是与云计算平台契合的基础框架,支持各种数据算法,包括数据排序、查询、图形分析、聚类分析、统计分析、最优化、数据挖掘、调度等等。风电场云计算平台是以风电大数据作为输入,在给定算法的规则下,处理给定的数据,并计算出最终的结果。
hadoop是典型的分布式并行的运行架构,与云计算平台并行处理海量数据的算法无缝对接,其工作原理简单来说,就是将输入的海量数据划分成不同的区,这样每个区的数据量就会大大减少,原来总的大任务也就分成了几个小任务,每个小任务处理自己对应的分区数据,每个小任务之间并行执行。hbase采用了基于列存储模式,能够便捷地为数据库中数据提供物理相邻的存储单元,因此能够快速读取和存储海量数据,采用hbase技术大大降低了搭建大规模结构化存储对硬件的需求,简易的pc服务器即可满足要求。hive是hadoop平台的数据仓库工具,利用hive这个工具,能够把云计算平台中结构化的数据文件映射为数据库表,hive工具还可以把sql语句转换为mapreduce任务分步执行。mapreduce具有简单易理解、灵活多变、高容错的特点,是各种大数据处理算法都可以套用的并行处理的标准编程模型。
一种基于大数据云计算平台的风电场scada系统的运行方法,其特征在于包括以下步骤:
(1)数据采集和传输:风机11的数据直接传输给前置服务器111,升压站12、箱变13、测风塔14、电度表15、agc16、avc17、保信子站18和故障录波19的数据经过远动装置110的规约转换均转换成标准的104规约数据包,再通过通过以太网传输给前置服务器111;采集的变量包括五类,具体为遥测量、遥信量、遥控量、遥调量和电度量,为了保证数据准确性,远动装置110的采集频率不得小于0.2。风电场侧1的数据在前置服务器111汇集后,经过防火墙112加密,由交换机113通过用户访问接口把数据上传至云计算平台2。数据采集和传输期间如果碰到网络连接中断的情况,也不会对数据采集产生影响,因为接口程序会重复检测网络连接状态,断网时间段内的数据不会丢失,只会形成暂时的缓存文件,一旦网络连接恢复,立刻正常传输。
(2)数据存储:数据采集和传输到云计算平台2后,云计算平台2首先要对风电场大数据进行存储,结合风电场大数据和云计算平台2的特点,采用如图2所示的存储架构。此存储架构中sc是部署在一台大数据服务器21上的存储控制器,与搭建的虚拟服务器vm连接,vm的数量根据需要是可变的,每一个vm关联一个存储器volume来扩展存储,vm之间数据共享,共同访问一个大数据存储区域;vm与集群控制器cc连接,最终连接基于hadoop基础框架建立在hdfs文件中的hbase数据库;
(3)数据处理:采用云计算平台2中mapreduce化的标准k-means算法对hbase数据库中的数据进行处理;mapreduce标准编程模型中的map/reduce程序被hadoop平台中的hive数据仓库工具划分为顺序执行的map函数和reduce函数,初始的一个键值对经过map函数,生成一组作为桥梁的中间键值对,但是只有键值相同的中间键值对,才能传送给reduce函数;reduce函数的作用是接受其中一个键值和一组相关的键值,进行组合,形成更小的一组键值;输入的海量数据存储在分布式文件系统hdfs中,程序采用迁移运算的方式,map/reduce任务被下载到划分好的数据节点并行执行,数据处理的最终结果仍保存hdfs文件中,集控中心侧3通过用户访问接口接收云计算平台2处理后的数据。
k-means聚类分析算法是一种经典的数据处理算法,该算法以k作为参数,一个数据集中的n个数据元组,被拆分成k个子集,拆分的基本要求是每个子集内的数据元组的相似度要尽可能的高,但不同子集之间的数据元组的相似度要尽可能的低,相似度的评判标准是子集内对象的平均值。标准k-means算法的执行步骤如下:
(1)选择k个初始聚类中心,如cp[0]=d[0],cp[k-1]=d[k-1]...,其中d是事务数据集,cp一般而言,初始中心的选择是随机的;
(2)对于d[0]...d[n],分别计算与其对应的cp[0]...cp[k-1]距离,距离最近者记为c[i],c[i]的总个数记为ci;
(3)对于第2步的所有c[i],计算新的聚类中心cp[i]=(∑c[i]对应的d[j])/ci;
(4)重复执行2、3步骤,直到d[i]中的数据元组与当前c[i]的距离小于给定阈值或每个聚类都不再发生变化为止,算法执行完毕,得到了k个聚类。
在标准k-means算法执行过程中,在计算d[0]与cp[0]...cp[k-1]的距离的同时,可以计算d[1]与cp[0]...cp[k-1]的距离,此过程与云计算平台分布式并行运行的架构吻合,本发明把标准k-means算法与云计算平台结合,使标准k-means算法mapreduce化,大大提高了数据处理速度。标准k-means算法mapreduce化的执行步骤如下:
(1)随机选择k个初始聚类中心,如cp[0]=d[0],cp[k-1]=d[k-1]...,同时将这些初始聚类中心复制到初始聚类模块originalcluster[]中,并将初始聚类模块originalcluster[]分块,根据计算节点集群的情况,将初始聚类模块originalcluster[]分配给各个计算节点;
(2)map:对于d[0]...d[n],分别计算其与cp[0]...cp[n-1]的距离,距离最近者记为c[i],c[ic]的总个数记为ci,同时在mapreduce框架下,把键值对key-value的key和value分别对应到i、d[k];
(3)reduce:由于i是mapreduce框架中键值对key,这保证了同一个key的所有d[k]会分配到同一个reduce进程,则在此reduce进程可以计算新的聚类中心cp[i]=(∑c[i]对应的d[j]/ci),并将此新的聚类中心存入最终聚类模块destinationcluster[]中;
(4)比较最终聚类模块destinationcluster[]与初始聚类模块originalcluster[],如果两者的变化小于预先给定的阈值,则聚类完成,否则将最终聚类模块destinationcluster[]复制到初始聚类模块originalcluster[]后跳转到第2步继续执行;集控中心侧3通过用户访问接口接收云计算平台2处理后的数据。
k-means算法的mapreduce化只需要将算法可供map和reduce的部分剥离出来,构造键值对,其他通讯、监控、调度等任务全部交给基于hadoop平台的mapreduce框架去完成。
利用云计算平台的优势,标准k-means算法mapreduce化后数据处理速度明显加快,而且数据集规模越大,速度优势越明显,为风功率预测、风机震动监测、web发布、设备预测维修、风电事故预测报警等更多高级应用的开发奠定了基础,便于风电场将来的智能化管理。
实施例1
选取某风电场升压站的遥测引用表中的电压、电流、频率、电压相角差、电流相角差等适合做聚类分析的数据集,调用存储在scada系统历史服务器中的4500万条记录作为实验数据,分为100万、200万、500万、1000万、1800万、3000万和4500万五组,不同数据量的耗时(如表1所示),仿真结果(如图4所示)。
表1不同数据量两种算法耗时对比
通过采用不同的数据量进行实验仿真,对比两条曲线可以得出如下结论,与标准k-means算法相比,与云计算平台结合mapreduce化后的k-means算法数据处理速度明显加快,而且数据集规模越大,速度优势越明显,验证了系统的可行性和有效性,为风电场将来更加的智能化奠定了基础。
本发明未述及之处适用于现有技术。