1.一种输变电设备多源状态评估数据处理方法,其特征在于,包括如下步骤:
步骤1.多源数据获取
数据的获取分信息内外网两部分,信息内网的数据直接获取并转置,经安全隔离装置获取、处理信息外网业务系统的数据;
步骤2.数据跨平台接入
步骤3.数据预处理及初步清洗
步骤4.数据质量评价模型
针对数据类型特征以及业务特征总结数据质量评价指标体系,从面向输变电设备状态评估的应用场景出发,针对数据质量评价指标,结合典型数据质量,构建适合设备状态评估的数据质量评价模型,主要包括评价指标、依赖关系、算法库及关联关系,初步形成面向输变电设备状态评估的数据质量评价模型;
步骤5.数据规范化转制
数据规范化主要通过数据泛化、规范化、数据属性构造操作,提高数据或数据流挖掘的性能及精度;数据泛化通过概念分层,将低层次“原始”数据替换为高层次概念,用泛化成用户目标的聚合的、概念层次上的、具有统计意义的元数据替换数据库中的初始数据,数据转换是将数据归并至适合数据挖掘的描述形式,类型有大大表连结、大小表连结、行列转换以及聚集;
步骤6.数据输出
经清洗、转换好的数据,由装置出口至综合分析系统中,根据数据的不同类型,由通用的数据库访问接口和文件传输接口,写入存储系统,供综合分析系统使用。
2.根据权利要求1所述一种输变电设备多源状态评估数据处理方法,其特征在于:输变电设备的多源数据都能为状态评估服务,状态评估数据主要来源于信息内网和信息外网相关的业务应用系统,包括设备当前状态数据、系统运行工况数据、设备所处环境信息和历史信息数据,其中设备当前状态数据包含产气速率、热点温度、老化情况和风速;系统运行工况数据包含潮流、电压、频率及温度;设备所处环境信息含覆冰、山火、雷电及微气象;历史信息数据则由事故记录、状态参数、工况记录和环境参数组成。
3.根据权利要求1所述一种输变电设备多源状态评估数据处理方法,其特征在于:数据获取的总体步骤是在企业服务总线的基础上,通过数据接口、数据中心共享和网络隔离下的安全文件传输方式,配置相关策略,定义相关接口、周期、调用对象和频率参数,从业务系统中自动选取数据,完成跨平台数据库访问、跨平台文件高速并发读取、跨平台数据安全传输和同步的关键技术。
4.根据权利要求1所述一种输变电设备多源状态评估数据处理方法,其特征在于:多源异构数据跨平台接入依托跨平台输变电多源数据处理系统实现,它以单台或集群的方式部署在信息内网,对于同处信息内网的业务系统,直接获取由业务系统推送的数据;对于部署在信息外网的业务系统和数据,在隔离系统的保护下进行数据的传输,跨平台输变电多源数据处理系统是集成了相关软件功能的一体化硬件装置,该装置的输入是各业务系统中的实时、历史和环境数据,主要功能是获取业务数据,经过数据获取、数据初步清洗和数据转换的处理环节,为输变电设备状态评估系统的分析和展示提供数据基础,步骤三中,输变电多源数据处理系统对数据预处理,供设备评估系统使用,提供日志服务。
5.根据权利要求1所述一种输变电设备多源状态评估数据处理方法,其特征在于:步骤五中,输变电多源数据处理系统的规则与规范均采用插件方式,规则与规范通过用户定义或业务系统提供。
6.权利要求1-5中任一权利要求所述输变电设备多源状态评估数据处理方法的应用,其特征在于:输变电设备多源状态评估数据处理系统应用于大数据平台,并研究大数据平台并行化技术、搭建全耦合分析模型框架。
7.根据权利要求6中所述输变电设备多源状态评估数据处理方法的应用,其特征在于,具体方法为:搭建融合电网、设备和环境信息的大数据综合分析系统,支撑数据访问以及数据挖掘分析算法服务,整体采用hadoop框架,其具体技术包括面向输变电设备状态评估的大数据预处理、分布式存储、检索和全耦合分析模型,具体如下:
a.异构大数据的预处理、分布式存储和检索
综合分析系统的异构大数据存储采用hadoop分布式文件存储,分布式NoSQL列数据库、可扩展数据仓库技术,提供大数据应用支撑,主要包括分布式文件系统、分布式数据库、分布式协同工作系统、分布式数据仓库、非结构化数据预处理和多级综合索引;
b.面向输变电设备大数据分析的核心算法及并行化技术
面向输变电设备大数据分析的核心算法包括分类算法、回归算法、聚类算法、关联算法和聚席查询;
c.大数据全耦合分析模型框架
全耦合分析模型是在分布式存储和基本核心算法实现基础上,建立的内在关联的设备本征数据分析模型框架,通过对多种挖掘结果进行基于迁移学习的耦合,以统一接口下一阶段状态评估提供全耦合分析,主要包括特征关联分析、状态特征聚类、状态分类、故障预测和差异化分析。
8.根据权利要求7中所述输变电设备多源状态评估数据处理方法的应用,其特征在于:分布式文件系统使用HBase和HDFS文件系统,对于非结构化TB级及以下的小文件以及负载多变的结构化数据,使用HBase和key-value存储;对于PB级的较大单个文件,直接存储在HDFS文件系统中,分布式数据库通过一写多读、多写多读的NoSQL分布式数据库构建;分布式协同工作系统基于YARN资源管理器,;分布式数据仓库基于Hive数据仓库;非结构化数据预处理采用非监督式的深度学习方法,主要方法是构建基于多隐层的机器学习模型和训练数据,主动挖掘特征信息,具体实现过程如下:原始图像信息通过卷积神经网络和递归神经网络进行处理,将获得的特征向量输入SoftMax分类器进行自主训练和特征学习,实现非结构化数据特征的结构化转变,多级综合索引能提高相似特征数据的检索功能,其中一级索引采用多维R树基本结构,依据非传统地理分类规则,将清理后数据对象分成多个字空间每个字空间对应R树的一个节点,非叶节点存放叶节点所有子树的最小外接矩形(MBR),叶节点中存放每个空间对象对应的MBR,二级以下索引采用基于相邻密度(LCF)的对象聚类,根据相对密度的接近程度,实现聚类后的对象划分。
9.根据权利要求7中所述输变电设备多源状态评估数据处理方法的应用,其特征在于:面向输变电设备大数据分析的核心算法及并行化技术研究步骤如下:
首先,研究核心分析算法的基本流程,找出其中能并行处理的步骤,考虑所处理的数据规模、类型以及用途因素,提出综合分析系统并行技术框架的选择策略,并进行实现;
针对易于并行化的经典串行算法,结合应用场景选择合适的并行框架;针对难以实现并行化的串行算法,根据分析要求,结合相关应用实际,从并行化角度重新设计并行框架,达到扩大数据规模,提高数据分析效率的目的;
最后,优化所进行的并行算法,使用工具对并行化分析算法的运行过程进行监控,记录计算步骤之间、工作节点之间的资源消耗和数据规模,针对测试过程中的不足,设计优化策略,进一步提高算法性能。
10.根据权利要求7中所述输变电设备多源状态评估数据处理方法的应用,其特征在于:全耦合分析模型框架技术包括存储模型、分析模型和计算模型,其中,存储模型通过基于关系数据库和分布式文件系统的数据仓库,提供了结构化与非结构化数据的关联和分领域独立数据的统一视图,计算模型基于映射-规约的计算模式,对上层分析模型提供统一的计算框架,实现可扩展至PB级数据的计算能力;分析模型间基于迁移学习的规则耦合,实现混合计算模式算法封装,模型管理接口和可视化分析接口的开发,针对特征关联分析、状态特征聚类、状态分类、故障预测和差异化分析,根据状态评估要求,灵活选择映射耦合,将一种分析模型作为迁移学习的源领域,另一种分析模型作为目标领域,将源领域中获得的学习信息分析映射到目标领域,在目标领域中以更高的起点获得更准确的学习分析规则,形成闭环形态的全耦合分析模型。