本发明属于电力信息化技术领域,具体涉及一种输变电设备多源状态评估数据处理方法的设计。
背景技术:
随着电力系统的数字化、信息化、智能化不断发展,电力系统的数据呈现爆炸式的增长模式,主要包含设备当前状态数据、系统运行工况数据、设备所处环境信息、历史信息数据等几部分。这些信息一方面呈现出多源异构的特点;另一方面,随着监测点的增多及采样周期的缩短,这些数据的体量呈现高速的增长;同时,输变电设备状态评估数据的信息挖掘也十分欠缺。
数据的多源性体现为数据来源于不同的子系统。如事故记录来自生产管理系统;SCADA量测数据来自运维自动化平台;作业表单则来自输电精益作业管理系统等。
当前,输变电设备多源状态评估工作面临以下问题与困难:首先,原有各业务信息系统存有较大差异,输变电设备多源状态评估数据的集成与共享严重不足,传统关系型数据库无法满足海量、多源、异构数据的管理需求;其次,输变电设备多源数据利用率低,信息资源的应用过于简单,真实价值未能得到充分地挖掘与利用,致使诸如基于数据挖掘的设备缺陷分析、故障预测等高级服务功能不能实现。现有的数据处理技术不能使电力行业从海量数据中快速获取知识与信息并进行分析,在电力行业智能化、信息化发展的大趋势下,电力大数据技术的应用是必然要求。因此,如何利用新的技术和方法来挖掘海量数据的潜在价值,并指导主网的生产运行具有重要意义。
技术实现要素:
本发明的目的在于:在分析输变电设备多源状态评估数据特点的基础上,提出一种输变电设备多源状态评估数据处理方法的设计,并在大数据平台上应用。旨在对主网输变电设备多源数据提供存储、检索与挖掘等服务,并为风险评估等高级服务提供数据支撑。
为解决上述问题,拟采用这样一种输变电设备多源状态评估数据处理方法,包括如下步骤:
步骤1.多源数据获取
数据的获取分信息内外网两部分,信息内网的数据直接获取并转置,经安全隔离装置获取、处理信息外网业务系统的数据;
步骤2.数据跨平台接入
步骤3.数据预处理及初步清洗
步骤4.数据质量评价模型
针对数据类型特征以及业务特征总结数据质量评价指标体系,从面向输变电设备状态评估的应用场景出发,针对数据质量评价指标,结合典型数据质量,构建适合设备状态评估的数据质量评价模型,主要包括评价指标、依赖关系、算法库及关联关系,初步形成面向输变电设备状态评估的数据质量评价模型。
步骤5.数据规范化转制
数据规范化主要通过数据泛化、规范化、数据属性构造操作,提高数据或数据流挖掘的性能及精度。数据泛化通过概念分层,将低层次“原始”数据替换为高层次概念,用泛化成用户目标的聚合的、概念层次上的、具有统计意义的元数据替换数据库中的初始数据,使在线分类有优质的数据环境;契合的泛化算法有基于数据立方体的泛化算法及面向属性归纳的泛化算法等。数据转换是指将数据归并至适合数据挖掘的描述形式,类型有大大表连结、大小表连结、行列转换以及聚集。
输变电多源数据处理系统的规则与规范均采用插件方式,可以灵活部署与扩展。规则与规范可以通过用户定义或业务系统提供,根据不同的应用场景及需求,定义相应的规则与规范。
步骤6.数据输出
经清洗、转换好的数据,由装置出口至综合分析系统中,根据数据的不同类型,由通用的数据库访问接口和文件传输接口,写入存储系统,供综合分析系统使用。
前述方法的步骤一中,输变电设备的多源数据都能为状态评估服务,状态评估数据主要来源于信息内网和信息外网相关的业务应用系统,包括了设备当前状态数据、系统运行工况数据、设备所处环境信息和历史信息数据,其中设备当前状态数据包含产气速率、热点温度、老化情况和风速;系统运行工况数据包含潮流、电压、频率及温度;设备所处环境信息含覆冰、山火、雷电及微气象;历史信息数据则由事故记录、状态参数、工况记录和环境参数组成。
数据获取的总体步骤是在企业服务总线的基础上,通过数据接口、数据中心共享和网络隔离下的安全文件传输方式,配置相关策略,定义相关接口、周期、调用对象和频率参数,从业务系统中自动选取数据,完成跨平台数据库访问、跨平台大数据库文件高速并发读取、跨平台数据安全传输和同步的关键技术。
前述方法的步骤二中,多源异构数据跨平台接入依托输变电多源数据处理系统实现,跨平台输变电多源数据处理系统是集成了相关软件功能的一体化硬件装置,该装置的输入是各业务系统中的实时、历史和环境数据,它以单台或集群的方式部署在信息内网,对于同处信息内网的业务系统,直接获取由业务系统推送的数据;对于部署在信息外网的业务系统和数据,在隔离系统的保护下进行数据的传输。
前述方法的步骤三中,输变电多源数据处理系统的主要功能是获取业务数据,经过数据获取、数据初步清洗和数据转换的处理环节,为输变电设备状态评估系统的分析和展示提供数据基础。输变电多源数据处理系统经过数据预处理,供设备评估系统使用,提供日志服务。由于输变电设备状态评估数据来源多样、平台繁多及数据质量参差不齐,不能确保数据的有效性、完整性、一致性等指标,因此针对获取的数据,装置将对数据进行初步清洗。
本发明将输变电设备多源状态评估数据处理系统的功能设计应用于大数据平台,并研究大数据平台并行化技术、搭建全耦合分析模型框架。融合电网、设备和环境信息的大数据综合分析系统主要作用是提高大数据的存储、检索和预处理服务,支撑数据访问以及各种高性能的数据挖掘分析算法服务,整体采用hadoop框架,在该技术框架下进一步研究面向输变电设备状态评估的大数据预处理、分布式存储、高效检索方法、全耦合分析模型,具体由下详述。
a.异构大数据的预处理、分布式存储和高效检索关键技术。综合分析系统的异构大数据存储采用hadoop分布式文件存储,分布式NoSQL列数据库、可扩展数据仓库技术,提供大数据应用支撑,能够满足本发明对大数据管理平台的技术要求,主要包括分布式文件系统、分布式数据库、分布式协同工作系统、分布式数据仓库、非结构化数据预处理和多级综合索引。
分布式文件系统使用HBase和HDFS文件系统,对于非结构化TB级及以下的小文件以及负载多变的结构化数据,使用HBase和key-value存储;对于PB级的较大单个文件,直接存储在HDFS文件系统中,分布式数据库通过一写多读、多写多读的NoSQL分布式数据库构建,基于加速组件的主从复制技术,保证多个数据库之间的数据一致性,实现灾备功能,分担读数据时的压力;分布式协同工作系统基于YARN资源管理器,实现高效的选举方法和统一命名服务,确保分布式系统一致性;分布式数据仓库基于Hive数据仓库,根据一致的存储规则将多源数据进行有机结合形成融合的数据存储仓库。非结构化数据预处理采用非监督式的深度学习方法,针对电力系统中的非结构化数据,如来源于变电站巡检机器人、输电线路无人机、带电监测、变电站监控系统等海量图像数据,实现非人工监督的特征提取和分类。主要方法是构建基于多隐层的机器学习模型和海量训练数据,主动挖掘特征信息,具体实现过程如下:原始图像信息通过卷积神经网络和递归神经网络进行处理,将获得的特征向量输入SoftMax分类器进行自主训练和特征学习,实现非结构化数据特征的结构化转变,多级综合索引能提高相似特征数据的检索功能,其中一级索引采用多维R树基本结构,依据非传统地理分类规则,将清理后数据对象分成多个字空间每个字空间对应R树的一个节点,非叶节点存放叶节点所有子树的最小外接矩形(MBR),叶节点中存放每个空间对象对应的MBR,二级以下索引采用基于相邻密度(LCF)的对象聚类,根据相对密度的接近程度,实现聚类后的对象划分,克服以简单全局距离标准作为划分依据带来的问题,提升聚类的可调整性、可扩展性和时效性。
b.面向输变电设备大数据分析的核心算法及并行化技术。面向输变电设备大数据分析的核心算法包括分类算法、回归算法、聚类算法、关联算法、聚席查询等算法,但已有的实现方法不能满足海量数据的分析需求,继而需要研究大数据应用场景下的算法实现及并行化技术。面向输变电设备大数据分析的核心算法及并行化技术研究步骤如下。
首先,研究核心分析算法的基本流程,找出其中能并行处理的步骤,考虑所处理的数据规模、类型以及用途等因素,提出综合分析系统并行技术框架的选择策略,并进行实现。
针对易于并行化的经典串行算法,结合应用场景选择合适的并行框架;针对难以实现并行化的串行算法,根据分析要求,结合相关应用实际,从并行化角度重新设计并行框架,达到扩大数据规模,提高数据分析效率的目的。
最后,优化所进行的并行算法。使用工具对并行化分析算法的运行过程进行监控,记录计算步骤之间、工作节点之间的资源消耗和数据规模,针对测试过程中的不足,设计优化策略,进一步提高算法性能。
c.大数据全耦合分析模型框架。全耦合分析模型是在分布式存储和基本核心算法实现基础上,建立的内在关联的设备本征数据分析模型框架。通过对多种挖掘结果进行基于迁移学习的耦合,以统一接口下一阶段状态评估提供全耦合分析,主要包括特征关联分析、状态特征聚类、状态分类、故障预测和差异化分析等中间层分析。
全耦合分析模型框架的关键技术包括存储模型、分析模型和计算模型三种。
其中存储模型通过基于关系数据库和分布式文件系统的数据仓库,提供了结构化与非结构化数据的关联和分领域独立数据的统一视图。计算模型基于映射-规约的计算模式,对上层分析模型提供统一的计算框架,实现可扩展至PB级数据的计算能力。
分析模型间基于迁移学习的规则耦合,实现混合计算模式算法封装,模型管理接口和可视化分析接口的开发。针对特征关联分析、状态特征聚类、状态分类、故障预测和差异化分析等不同模型,根据状态评估要求,灵活选择映射耦合,将一种分析模型作为迁移学习的源领域,另一种分析模型作为目标领域,将源领域中获得的学习信息分析映射到目标领域,在目标领域中以更高的起点获得更加准确的学习分析规则,形成闭环形态的全耦合分析模型。
与现有技术相比,本发明在分析输变电设备多源状态评估数据特点的基础上,提出一种输变电设备多源状态评估数据处理系统的设计,并在大数据平台上应用,对主网输变电设备多源数据提供存储、检索与挖掘等服务,并为风险评估等高级服务提供数据支撑,使电力行业从海量数据中快速获取知识与信息并进行分析,有效解决了输变电设备多源状态评估数据的集成与共享严重不足的问题,满足现有关系数据库海量、多源、异构数据的管理需求;提高输变电设备多源数据的利用率,使其真实价值得以充分地挖掘与利用,以促进诸如基于数据挖掘的设备缺陷分析、故障预测等高级服务功能的实现。
附图说明
图1为输变电设备多源数据处理系统的功能设计流程示意图。
图2为数据初步清洗流程图示意图。
图3为数据质量体系和评价模型示意图。
图4为大数据综合分析系统示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将通过附图对发明作进一步地详细描述。
实施例:
输变电设备多源数据处理系统旨在对输入的数据进行规范化转制并输出。具体的功能设计如下。首先跨平台接入数据并进行含数据标记和数据传输策略的数据预处理;接着对数据进行数据检验、噪声平滑、离群点识别、缺失值填充等步骤在内的数据清洗;并制定质量评价模型分析数据质量;然后对数据格式进行规则规范,完成规范化转制;最后输出数据。为提升工作人员进行接下来的设备故障率建模、风险评估、风险管控、差异化运维等提供前期数据保障。具体功能设计流程如图1。
步骤(1)多源数据获取
输变电设备的多源数据都可为状态评估服务。状态评估数据主要来源于信息内网和信息外网相关的业务应用系统,包括了设备当前状态数据、系统运行工况数据、设备所处环境信息、历史信息数据等几部分。其中设备当前状态含产气速率、热点温度、老化情况和风速;系统运行工况数据包含潮流、电压、频率及温度;设备所处环境信息含覆冰、山火、雷电及微气象;历史信息则由事故记录、状态参数、工况记录、环境参数等组成。
数据的获取分信息内外网两部分,信息内网的数据直接获取并转置,经安全隔离装置可获取、处理信息外网业务系统的数据。数据获取的总体步骤是在企业服务总线的基础上,通过数据接口、数据中心共享、网络隔离下的安全文件传输等方式,配置相关策略,定义相关接口、周期、调用对象和频率等参数,从业务系统中自动选取数据,完成跨平台数据库访问、跨平台大数据库文件高速并发读取、跨平台数据安全传输和同步等关键技术。
步骤(2)数据跨平台接入
多源异构数据跨平台接入依托输变电多源数据处理系统实现。跨平台输变电多源数据处理系统是集成了相关软件功能的一体化硬件装置,该装置的输入是各业务系统中的实时、历史和环境数据。它以单台或集群的方式部署在信息内网,对于同处信息内网的业务系统(如设备实时运行数据、当前状态数据、历史信息数据等),直接获取由业务系统推送的数据;对于部署在信息外网的业务系统和数据(如设备所处环境信息等),将在隔离系统的保护下进行数据的传输。
步骤(3)数据预处理及初步清洗
输变电多源数据处理系统的主要功能是获取业务数据,经过数据获取、数据初步清洗和数据转换等处理环节,为输变电设备状态评估系统的分析和展示提供数据基础。输变电多源数据处理系统经过数据预处理,供设备评估系统使用,提供日志服务。由于输变电设备状态评估数据来源多样、平台繁多及数据质量参差不齐,不能确保数据的有效性、完整性、一致性等指标,因此针对获取的数据,装置将对数据进行初步清洗,基本流程如图2所示。
步骤(4)数据质量评价模型
针对大数据的数据类型特征以及业务特征总结数据质量评价指标体系,从面向输变电设备状态评估大数据分析的应用场景出发,针对数据质量评价指标,结合典型数据质量,构建适合设备状态评估的数据质量评价模型,主要包括评价指标、依赖关系、算法库及关联关系等,初步形成面向输变电设备状态评估大数据分析的数据质量评价模型。数据质量体系和评价模型如图3所示。
步骤(5)数据规范化转制
数据规范化主要通过数据泛化、规范化、数据属性构造等操作,提高数据或数据流挖掘的性能及精度。数据泛化通过概念分层,将低层次“原始”数据替换为高层次概念,用泛化成用户目标的聚合的、概念层次上的、具有统计意义的元数据替换数据库中的初始数据,使在线分类有优质的数据环境;契合的泛化算法有基于数据立方体的泛化算法及面向属性归纳的泛化算法等。数据转换是指将数据归并至适合数据挖掘的描述形式,类型有大大表连结、大小表连结、行列转换以及聚集。
输变电多源数据处理系统的规则与规范均采用插件方式,可以灵活部署与扩展。规则与规范可以通过用户定义或业务系统提供,根据不同的应用场景及需求,定义相应的规则与规范。
步骤(6)数据输出
经清洗、转换好的数据,由装置出口至综合分析系统中,根据数据的不同类型,由通用的数据库访问接口和文件传输接口,写入存储系统,供综合分析系统使用。
将输变电设备多源状态评估数据处理系统的功能设计应用于大数据平台,并研究大数据平台并行化技术、搭建全耦合分析模型框架。融合电网、设备和环境信息的大数据综合分析系统主要作用是提高大数据的存储、检索和预处理服务,支撑数据访问以及各种高性能的数据挖掘分析算法服务,整体采用hadoop框架,在该技术框架下进一步研究面向输变电设备状态评估的大数据预处理、分布式存储、高效检索方法、全耦合分析模型,总体架构如图4所示。
(1)异构大数据的预处理、分布式存储和高效检索关键技术。综合分析系统的异构大数据存储采用hadoop分布式文件存储,分布式NoSQL列数据库、可扩展数据仓库等技术,提供大数据应用支撑,能够满足本课题对大数据管理平台的技术要求,主要包括分布式文件系统、分布式数据库、分布式协同工作系统、分布式数据仓库、非结构化数据预处理和多级综合索引等功能模块。
分布式文件系统使用HBase和HDFS文件系统。对于海量的非结构化TB级及以下的小文件以及负载多变的结构化数据,试用HBase和key-value存储;对于PB级的较大单个文件,直接存储在HDFS文件系统中。分布式数据库通过一写多读、多写多读的NoSQL分布式数据库构建。基于加速组件的主从复制技术,保证多个数据库之间的数据一致性,实现灾备功能,分担读数据时的压力。分布式协同工作系统基于YARN资源管理器,实现高效的选举方法和统一命名服务,确保分布式系统一致性。分布式数据仓库基于Hive数据仓库,根据一致的存储规则将多源数据进行有机结合形成融合的数据存储仓库。非结构化数据预处理采用非监督式的深度学习方法,针对电力系统中的非结构化数据,如来源于变电站巡检机器人、输电线路无人机、带电监测、变电站监控系统等海量图像数据,实现非人工监督的特征提取和分类。主要方法是构建基于多隐层的机器学习模型和海量训练数据,主动挖掘特征信息。具体实现过程如下:原始图像信息通过卷积神经网络和递归神经网络进行处理,将获得的特征向量输入SoftMax分类器进行自主训练和特征学习,实现非结构化数据特征的结构化转变。多级综合索引可以提高相似特征数据的检索功能。其中一级索引采用多维R树基本结构,依据非传统地理分类规则,将清理后数据对象分成多个字空间每个字空间对应R树的一个节点,非叶节点存放叶节点所有子树的最小外接矩形(MBR),叶节点中存放每个空间对象对应的MBR。二级以下索引采用基于相邻密度(LCF)的对象聚类,根据相对密度的接近程度,实现聚类后的对象划分,克服以简单全局距离标准作为划分依据带来的问题,提升聚类的可调整性、可扩展性和时效性。
(2)面向输变电设备大数据分析的核心算法及并行化技术。面向输变电设备大数据分析的核心算法包括分类算法、回归算法、聚类算法、关联算法、聚席查询等算法,但已有的实现方法不能满足海量数据的分析需求,继而需要研究大数据应用场景下的算法实现及并行化技术。面向输变电设备大数据分析的核心算法及并行化技术研究步骤如下。
首先,研究核心分析算法的基本流程,找出其中能并行处理的步骤,考虑所处理的数据规模、类型以及用途等因素,提出综合分析系统并行技术框架的选择策略,并进行实现。
针对易于并行化的经典串行算法,结合应用场景选择合适的并行框架;针对难以实现并行化的串行算法,根据分析要求,结合相关应用实际,从并行化角度重新设计并行框架,达到扩大数据规模,提高数据分析效率的目的。
最后,优化所进行的并行算法。使用工具对并行化分析算法的运行过程进行监控,记录计算步骤之间、工作节点之间的资源消耗和数据规模,针对测试过程中的不足,设计优化策略,进一步提高算法性能。
(3)大数据全耦合分析模型框架。全耦合分析模型是在分布式存储和基本核心算法实现基础上,建立的内在关联的设备本征数据分析模型框架。通过对多种挖掘结果进行基于迁移学习的耦合,以统一接口下一阶段状态评估提供全耦合分析,主要包括特征关联分析、状态特征聚类、状态分类、故障预测和差异化分析等中间层分析。
全耦合分析模型框架的关键技术包括存储模型、分析模型和计算模型三种。其中基于输变电设备大数据的并行关联耦合模型如图6所示。
其中存储模型通过基于关系数据库和分布式文件系统的数据仓库,提供了结构化数据与非结构化数据的关联和分领域独立数据的统一视图。计算模型基于映射-规约的计算模式,对上层分析模型提供统一的计算框架,实现可扩展至PB级数据的计算能力。
分析模型间基于迁移学习的规则耦合,混合计算模式算法实现的封装,模型管理接口和可视化分析接口的开发。针对特征关联分析、状态特征聚类、状态分类、故障预测和差异化分析等不同模型,根据输变电设备状态评估中的要求,灵活选择映射耦合,将一种分析模型作为迁移学习的源领域,另一种分析模型作为目标领域,将源领域中获得的学习信息分析映射到目标领域,在目标领域中以更高的起点获得更加准确的学习分析规则,最终形成闭环形态的全耦合分析模型。