多源异构数据融合多核分类方法与流程

文档序号：18192817发布日期：2019-07-17 05:39阅读：617来源：国知局

本发明涉及电网物联网数据整合融合方法，具体涉及多源异构数据融合多核分类方法。

背景技术：

当今世界，随着互联网的发展，社会治理双向互动越来越多，线下与线上融合，从单纯的政府监管向更加注重社会协同治理。我们耍深刻认识物联网在电网管理中的作用，以数据集中和共享为途径，建设微电网一体化的电网大数据中心，推进技术融合、业务融合、数据融合，实现跨层级、跨地域、跨系统、跨部门、蹄业务的协同管理和服务。

在分布式新能源规模化接入的大背景下，为实现对分布式新能源海量数据的有效管理，研究分布式能源接入信息、电网生产管理信息、地理气象信息等多源异构数据的预评估、抽取、质量控制等数据处理技术，保障跨部门分布式新能源数据的一致性与完整性；建立分布式新能源数据融合计算模型，提出分布式数据库构建方案与可视化展示方法，开发分布式新能源信息管理数据库，为辅助决策提供数据基础；借助河南电网积累的分布式新能源数据，实现对省级电网公司规划设计、营销、调度、运检、发策等各部门相关数据的提取、融合与定制化加工，为后续分布式新能源相关业务扩展应用提供数据基础。

通过研究分布式新能源相关数据的高阶耦合关联性数据挖掘技术，提出状态监测与运营诊断技术，建立收益分析与预测模型，实现面向各类用户的智能辅助决策；基于数据挖掘及分析技术，实现对分布式新能源方向的市场个性化需求和企业自身良性发展的挖掘和满足，提高分布式新能源海量数据的核心价值，促进分布式新能源优化配置、引导分布式新能源发电生产经营和保障电网安全稳定运行。

提出面向大规模分布式新能源的状态监测、运营诊断、收益分析与运行维护服务框架；掌握面向不同社会对象个性化需求的定制服务内容生成技术；提出电网公司与不同社会对象之间需求互动与模式创新的跨界信息化服务架构。

开发分布式新能源信息管理数据库、信息管理系统、公共信息化服务平台，并在中原经济区核心地区唯一的省级电网公司—河南省电力公司开展示范应用，实现对分布式新能源运行状态在线监测、运营诊断、收益评估、运维服务，支撑各业务部门对分布式新能源的协同决策，进一步提高分布式新能源并网容量、消纳能力和运行效率。

中国公开专利号cn107247787a，公开日2017年10月13日，公开了一种基于多源数据融合的分类方法，该分类方法通过数据梳理、数据个性化分类、多源数据融合分类三步实现；数据梳理：分别对政府数据、社会数据、互联网数据生产者及数据进行梳理；数据个性化分类：根据政府数据、社会数据、互联网数据各自属性，分别对其按照不同的维度进行分类；多源数据融合分类：根据政府数据、社会数据、互联网数据各自分类，寻找共性分类维度，按照主题、行业进行融合分类，建立公有的主题和行业分类体系及各自个性化的分类维度，实现政府数据、社会数据、互联网数据深度融合。本发明实现了政府数据、社会数据、互联网数据的深度融合，为实现一体化大数据中心建设提供基础保障；该方法实用性较强，适用范围广泛。

但是其不足之处是只对数据进行了进行了分纬度和分类，没有涉及到具体的融合方式。

技术实现要素：

本发明是为在线监测系统等各类历史数据和实时数据融合的基础上，应用大数据技术进行故障诊断，并为状态检修提供决策，可实现对电网设备关键性能的动态评估与基于复杂相关关系识别的故障诊断，为解决现有状态维修问题提供技术支撑所设计的多源异构数据融合多核分类方法。

多源异构数据融合多核分类方法，包括以下步骤：

m1，取运行中电网的分布式新能源接入信息、电网生产管理信息与地理气象信息作为样本；

m2，对步骤m1中的样本进行人工处理作为训练样本；

m3，计算分布式新能源接入信息、电网生产管理信息与地理气象信息，公共参数pb

m4，对公共参数pb进行多种多核学习试验对比计算差异公共参数pbd，得到总计公共参数子核数pa=pb*pbd；

m5，以步骤m2中的训练样本对pa个核进行核学习，用于构造随机核；

m6，把训练完毕的随机核函数投入试验点对多源异构数据进行融合分类；

m7，对分类完毕的数据进行无损压缩加密储存。

通过数据评估、数据重组、数据清洗、数据抽取、数据过滤、数据归约等技术实现分布式新能源相关的多源异构数据的预处理，并利用矩阵恢复理论框实现数据的质量控制。基于数据管道技术、xml技术和关系数据库技术构建分布式数据库。基于混合可视化方法实现分布式新能源相关的多源异构数据融合的数据可视化。

作为优选，所述的步骤m2包括：

a1，数据分类为能源信息、管理数据以及地理气象信息

a2，对步骤a1中的能源信息、管理数据以及地理气象信息，进行二次分类；

a3，以步骤a2中完成二次分类地理气象信息与能源信息进行信息重叠分类；

a4，以步骤a2中的管理数据与能源信息进行信息重叠分类；

a5，把步骤a3与步骤a4中的对应步骤a2中数据的结论数据添加至步骤a2中数据的结尾，形成新的样本数据

a6，对步骤a5中的能源信息、管理数据以及地理气象信息，进行高纬映射计算，完成样本处理。

分布式新能源相关数据在表示方式、数据维度等方面存在诸多的差异，无法直接进行联合处理，需要研究如何将各数据映射至同一的同性元空间。核方法是解决非线性模式表示问题的一种有效方法，核函数的主要目的是有效度量样本数据间的相关性，使得映射后的特征在高维空间仍然能够保持样本的近邻结构。

而步骤m2的具体分类和二次分类就是对多种数据进行核分类。

作为优选，所述的步骤m5包括：

b1，设定随机输出抽取比例per

b2，对步骤m2中的数据以步骤b1中的抽取比例进行随机抽取；

b3，以步骤b2中抽取的样本对所有pa个子核进行训练；

b4，以步骤b2抽取完后剩余的数据进行校验数据对步骤b3中训练完毕子核进行测试；

b5，重复70次步骤b1至b4；

b6，改变抽取比例per执行步骤b5；

b7，重复执行b6执行3次；

b8，进行10次交叉验证计算平衡因子c。

自学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。本项目利用深度卷积网络隐式地从数据中进行特征提取。通过逐层特征变换，将样本在原数据空间的特征表示变换到一个新特征空间，实现对数据语义特征的自动提取。通过大量样本的重复训练达到数据整理优化的自学习目的。

作为优选，所述的步骤a2对能源信息进行分类时进行对来源非重叠领域数据进行空填充。

作为优选，还包括：

m8，定期对储存数据进行取样；

m9，还原取样数据为原始数据，并由此作为测试样本；

m10，以步骤m8中的数据样本进行人工处理，作为校对测试样本；

m11，对子核以步骤m9以及步骤m10中的数据进行校对，如果出现测试样本或校对测试样本分类错误，则进行步骤m12，否则完成定期取样校队；

m12，重新训练子核并对已分类数据按能源信息、管理数据以及地理气象信息大类用新训练子核进行分类，对比差异并进行人工复查。

本发明的实质性效果在于运用本发明所示的多源异构数据融合多核分类方法能够以此建立分布式新能源信息管理数据库、信息化管理系统及信息服务发布平台；为各部门提供了统一的、合规的、高质量的分布式新能源相关数据，提高省市公司对分布式新能源的管理水平和管理质量，为社会各界提供不同需求的信息化定制服务。

具体实施方式

下面通过具体实施例，对本发明的技术方案作进一步的具体说明。

实施例1

所述的多源异构数据融合多核分类方法，包括以下步骤：