一种基于最近邻聚类的神经网络数据挖掘方法

文档序号：10656385阅读：420来源：国知局

一种基于最近邻聚类的神经网络数据挖掘方法
【专利摘要】本发明公开了一种基于最近邻聚类的神经网络数据挖掘方法，该神经网络数据挖掘方法采用一种改进的最近邻聚类学习算法对神经网络进行训练，使神经网络在满足精度要求的前提下，减少隐层节点数，简化网络结构，加快神经网络的学习速度，达到进一步改善神经网络学习效率和精度的目的，在此基础上用神经网络进行数据挖掘，以进一步提高神经网络对大型实际电力系统数据库进行挖掘时的效率。本发明的目的在于保证电力系统的安全、稳定、优质、经济的运行，满足数字电力系统中的海量数据以及人们对数据信息的可靠性、一致性和共享性提出的更高的要求。
【专利说明】
-种基于最近邻聚类的神经网络数据挖掘方法
技术领域
[0001] 本发明设及一种应用于电力系统相关信息的数据挖掘方法，特别是设及一种利用最近邻聚类算法训练神经网络的神经网络数据挖掘方法，本发明属电力系统数据分析领域。
【背景技术】
[0002] 随着电力工业的飞速发展和信息技术W及计算机技术在电力系统中的普及，数字化技术近年来得到广泛应用，出现了电力信息化--数字电力系统。在线实时监控系统、交易系统、地理信息管理系统、故障诊断、离线的各种分析计算和规划系统，W及电力企业的日常事务处理、通信和能量管理等系统在电力企业得到了广泛应用。但电力系统是一个动态非线性的大系统，运些系统在运行过程中不断产生和积累大量的数据，运些实时数据已经呈爆炸增长态势。此外，？35/6,611?，？343?，8?4等电力系统仿真软件在电力系统分析计算中的广泛应用，也使系统产生了大量的仿真数据。基于传统数据库的数据管理系统，随着数据量的增加，统计查询性能大幅度下降，用户不能随意地利用运些大量的数据进行统计分析，而且数据利用率低下，海量的历史数据在默默地沉睡，数据中有价值的特征提取困难，导致利用运些数据对业务进行及时地预测和指导就比较困难。
[0003] 随着人们对数据信息的可靠性、一致性和共享性提出的更高要求，W及更好地保证电力系统的安全、稳定、优质、经济的运行，电力系统中日益迫切需要解决的问题就是如何对海量、时变及移动数据进行综合处理，W及对采集到的数据进行数据挖掘。运样就可W 更加充分地利用运行数据，掲示历史数据背后蕴含的规则和原理，找到更加合理的解决问题的方法，为决策的制定和执行提供更加有力的科学依据。数据挖掘在电力系统中的主要应用有电力系统负荷预测和分类、电力系统的运行模式分类、电力系统运行状态和设备状态监控和电力调度优化、电力系统建模等。
[0004] 数据挖掘(Data Mninig)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。主要有概念描述、关联分析、聚类、自动预测趋势和行为、偏差检测等几类功能。聚类就是将数据对象分成多个类或簇，使得同一个簇中的对象较相似，而不同簇中的对象不相似。电力系统的研究人员对不同的电力用户或发电商进行聚类分析，W期获得不同的类别属性。从电力监测和调度系统中提取不同地区不同类型的用户负荷曲线，进行用电特性聚类分析，为电力公司营销和负荷管理提供依据。
[0005] 神经网络为解决复杂问题提供了一种相对来说比较有效的简单方法。神经网络具有良好的鲁棒性、自组织、自适应、自学习、并行处理、分布存储和高度容错等特性，能根据新的输入数据自适应调整网络参数。而且神经网络对噪声数据具有较强承受能力，对数据分类准确性高，W及可用各种算法进行规则提取。更重要的是神经网络很容易在并行计算机上实现，可W把它的节点分配到不同的CPU上并行计算。因此，可W借助神经网络来进行数据挖掘。
[0006] 但是在利用神经网络进行数据挖掘过程中，神经网络学习算法不能保证收敛到最理想的结果;神经网络很容易过度训练，从而导致在训练数据上工作地很好，而在检验数据上表现欠佳。而且神经网络的学习时间长短影响其在数据挖掘中的应用，网络的训练时间长短与问题的规模、网络的复杂性W及训练算法相关。本发明采用RB巧申经网络。因为RB巧申经网络具有良好的逼近任意非线性映射和处理系统内在的难W解析表达的规律性的能力； RB巧申经网络的拓扑结构不仅使得学习速度大大加快，而且避免了局部极小问题;RB巧申经网络另一个突出优点是可解释性好。RB巧巾经网络的拓扑结构在很大程度上影响着神经网络自身的性能，而决定RB巧申经网络拓扑结构的因素主要有四个:RBF的中屯、矢量、隐节点数目、径向基函数的宽度W及隐含层到输出层之间的权值矩阵。核函数的宽度参数决定了隐节点对外部输入信号的响应范围，影响中屯、的数目、学习速度和精度。k-均值聚类算法的只能达到依赖所选中屯、初值的局部最优解。一般的最近邻聚类算法需要根据经验和先验知识确定合适的聚类半径，确定W后就不能更改，不利于算法的应用。而且随着输入数据的增加，隐含层的节点数会单调递增，运将会产生大量的冗余节点，造成网络结构过于庞大，从而不能协调学习精度和学习速度之间的关系，影响数据挖掘的结果。
[0007] 本发明提出的基于最近邻聚类的神经网络数据挖掘方法，正是基于W上需求，实现了对电力系统数据更加高效的挖掘。

【发明内容】

[0008] 本发明的目的在于针对现有数据挖掘技术的不足，提供一种能针对电力系统数据进行效率更高的利用最近邻聚类优化神经网络的数据挖掘方法。该方法主要解决神经网络数据挖掘过程中网络复杂、学习时间过长的问题，保证获得最佳的电力系统数据挖掘效果。
[0009] 为了实现上述目的，本发明采用的技术方案如下：
[0010] 提供一种适用于电力系统的基于最近邻聚类的神经网络数据挖掘方法，所述方法包括W下步骤：
[0011] 步骤1:对电力数据进行清洗和选择
[0012] 电力数据具有高维性、离散数据和连续数据混合、数据的时间特性和统计特性、存在不确定性如噪声、缺损数据等问题，作为数据初始集的数据仓库中数据很多，但也许只需要其中一部分数据用于某一决策。因此需要对用于本次数据挖掘的数据进行选择。一般情况下，哪些参数对于某一决策来说是重要的是不知道的，但神经网络可W辅助解决运个问题，它能建立一个与此参数相关的模型。
[0013] 步骤2:对电力数据预处理和转换
[0014] 数据预处理就是对选择出的干净数据进行增强处理的过程。对神经网络数据挖掘来说，还需将数据转化成一种能够被神经网络数据挖掘算法接受的形式。神经网络只能处理数值性的数据，文本数据需要转换为神经网络能够识别的数值性数据。大多数神经网络模型只接受(〇，1)或(-1,1)范围的数据值，而电力系统中的数据在数值的数量级上存在较大的差别，因此，数据必须对训练样本进行归一化处理到运个区间。标量数据值基本上均匀地分布在某一范围内，可W直接映射到区间（〇，1);若数值分布不均匀，可用分段线性方程或对数方程进行转换，然后再按比例缩小到指定区间；离散数据通过用0和1对其进行编码来表示。
[00巧]假设系统的训练样本集的最大值为Dw，最小值为Dwxn，数据本身为Di，则A =I ^川;扮。，归一化处理对网络训练非常重要，有利于神经网络训练时的收敛，能够有效提高神经网络学习速度，减少训练时间，避免神经网络对某一输入量特别灵敏或不灵敏。
[0016] 步骤3:数据集的管理
[0017] 将原始数据随机地划分成训练数据集、测试数据集和确认数据集=个数据集，前两个数据集用来训练神经网络、测试网络的精度来构造神经网络模型，确认数据集独立地测试网络，运S个数据集的比例分别为80%、10%和10%。
[0018] 步骤4:确定神经网络类型、算法并训练神经网络；
[0019] 本发明采用S层前馈RB巧申经网络，并采用改进的最近邻聚类学习算法训练该神经网络。神经网络输入、输出节点的数目由电力系统具体的决策决定，隐含层节点的数目由最近邻聚类算法决定。从归一化后的训练样本集中等间隔选取数据进行训练，根据具体要求设置训练精度。本发明采用的改进最近邻聚类学习算法可W自动调整聚类半径，在满足系统性能的要求下，通过对聚类半径的调整，使其达到一个满意的值，从而使聚类中屯、个数达到最佳，是RB巧巾经网络的参数和结构两个过程进行在线自适应调整。
[0020] 步骤5:数据结果显示输出，并对挖掘结果进行分析。
[0021] 有效结果：
[0022] 本发明提供一种适用于电力系统的基于最近邻聚类的神经网络数据挖掘方法，可 W对电力系统中的海量数据进行分析、处理、推理、预测，最终根据用户设定的条件，实现最优方案。
[0023] 采用变聚类半径的最近邻聚类学习算法训练RB巧巾经网络，使神经网络在满足精度要求的前提下，减少隐层节点数，从而简化网络结构，加快神经网络的学习速度。运种方法可W使RB巧巾经网络可W同时在线进行网络参数和网络结构的自适应调整，可W消除主观选择固定的聚类半径对网络性能的影响，达到进一步改善神经网络学习效率和精度的目的，在此基础上用神经网络进行数据挖掘，W进一步提高神经网络对大型实际电力系统数据库进行挖掘时的效率。
【附图说明】
[0024] 图1适用于电力系统神经网络数据挖掘方法流程图；
[0025] 图2 R邸神经网络的拓扑结构图；
[00%]图3变聚类半径的最近邻聚类算法流程；
【具体实施方式】
[0027] 下面结合附图对本发明的实施例作详细说明：本实施例给出了详细的实施方式和具体实施过程，但本发明的保护范围不限于下述的实施例。
[0028] 电力系统数据仓库的数据源主要来自于电力系统的能量管理系统化MS)、用电营业数据、地理信息系统等。EMS系统保存了电网的运行方式、实时运行参数入全网负荷、潮流分布、中枢电压、系统频率等；用电营业数据包括用户资料、售电、电价、计量等数据;地理信息系统包括用户、电力设备的地理位置信息；其它的数据来源包括经济状况，气象条件，手工录入的数据等。如图I所示，一种基于最近邻聚类的神经网络数据挖掘方法。包括W下步骤：
[0029] 步骤1:对电力数据进行清洗和选择；
[0030] 电力数据具有高维性、离散数据和连续数据混合、数据的时间特性和统计特性、存在不确定性如噪声、缺损数据等问题。作为数据初始集的数据仓库中数据很多，但也许只需要其中一部分数据用于某一决策，需要对用于本次数据挖掘的数据进行选择。一般情况下，哪些参数对于某一决策来说是重要的是不知道的，但神经网络可W辅助解决运个问题，它能建立一个与此参数相关的模型。
[0031] 步骤2:对电力数据预处理和转换；
[0032] 数据预处理就是对选择出的干净数据进行增强处理的过程。对神经网络数据挖掘来说，还需将数据转化成一种能够被神经网络数据挖掘算法接受的形式。神经网络只能处理数值性的数据，文本数据需要转换为网络能够识别的数值性数据。大多数神经网络模型只接受(〇，1)或(-1,1)范围的数据值，而电力系统中的数据在数值的数量级上存在较大的差别，因此，数据必须对训练样本进行归一化处理到运个区间。标量数据值基本上均匀地分布在某一范围内，可W直接映射到区间（〇，1);若数值分布不均匀，可用分段线性方程或对数方程进行转换，然后再按比例缩小到指定区间；离散数据通过用0和1对其进行编码来表 /J、- O
[0033] 假设系统的训练样本集的最大值为Dmax,最小值为Dmin,数据本身为Di，则归一化后的数据为
[0034]
化
[0035] 归一化处理对网络训练非常重要，有利于神经网络训练时的收敛，能够有效提高网络学习速度，减少训练时间，避免神经网络对某一输入量特别灵敏或不灵敏。
[0036] 步骤3:数据集的管理；
[0037] 将预处理W后的数据随机地划分成训练数据集、测试数据集和确认数据集=个数据集，前两个数据集用来训练神经网络，测试网络的精度来构造神经网络模型，确认数据集独立地测试网络，运S个数据集的比例分别为80%，10%和10%。
[0038] 步骤4:确定神经网络类型、算法与训练神经网络；
[0039] 本发明采用S层前馈RB巧巾经网络，网络的拓扑结构图如图2所示。为了得到最佳逼近性能，由模糊推理系统推出正则化RB巧申经网络
[0040] 巧
[0041] 其中，COj为RB巧申经网络隐层到输出层权值，R^Xk)为隐含层单元第j个隐层节点的输出为：
[0042]
锐
[0043] 式中：祉为n维输入向量;Cj为隐层第j个高斯函数的中屯、;Oj为第j个隐单元的高斯函数宽度;m为隐单元的个数。Mxk-cj M表示Xk和Cj之间的距离。
[0044] RB巧巾经网络实现从输入空间到隐含层空间的非线性变换依赖于RBF中屯、的数目、位置W及作用域宽度，即半径r。半径r对聚类的影响非常大，传统的RBF中屯、选择算法的一个主要缺点是都要求中屯、个数预先固定，则r的选取值将对网络的分类能力和泛化能力产生显著影响。用人为试凑的方法选取r难度较大，而且不总能保证聚类的合理性。针对聚类半径r的重要性，本发明提出一种基于调整聚类半径的最近邻聚类算法，在满足系统性能的要求下，通过对聚类半径的调整，使其达到一个满意的值，从而使聚类中屯、个数即RBF隐层节点数达到最佳，从而使聚类中屯、个数达到最佳，使RB巧巾经网络的参数和结构两个过程进行在线自适应调整。该算法的具体流程如图3所示。
[0045] 在聚类算法中引入自适应律，选取合适的聚类半径r，使性能指标函数达到设定值，其算法如下：
[0046] Stepl:设置一个初始聚类半径r，将归一化的数据Xk读入，作为RB巧巾经网络的输入，并计算与现有其它数据的最小欧式距离，得到最小的距离cUin，并将位置记为P;
[0047] Step2:若dmin>:r，则聚类数力日1为m=m+l，当前样本送新的聚类中屯、Ci,否则第P个聚类成员加1，并修正聚类相关变量；
[0048] Step3:各类的输出矢量之和记为A( 1)，用一个计数器B( 1)表示用于统计属于各类的样本个数，其中1是类别数，计算神经网络隐层到输出层权矢量
[0049] Wi = A(i)/B(i) (4)
[0050] 其中，i表示第i个迭代，A(i)表示第i个迭代时的各类输出矢量之和，B(i)表示第i 个迭代时各类样本个数之和，W( i)表示第i个输出层权矢量；
[0051] (4)Step4:根据正则化R邸神经网络的输出得到
[0化2] 巧）
[0053] 其中，Cl为隐层第i个高斯函数的中屯、；[0054] steps:计算性能指标函数式
[0化5] (6)
[0056]其中，N为当前迭代总次数，Xk为n维输入向量，y(xk)和乂&)分别为目标数据对和神经网络的输出。对性能指标进行判断:若Jo>e(e为事先设定的很小的数），则转steps，否则转Step7;
[0化7] Step6:选择一定合适的变化步长h，则聚类半径为r = r-h，返回Stepl;
[0化引Step7:聚类结束；
[0059] 步骤5:从训练好的神经网络中提取规则；
[0060] 基于捜索的算法，对于任一给定的隐结点或输出结点，先提取符号规则，然后对生成的规则按网络的传导途径进行连接和整理，并转换为某种易理解的形式表达出来，最后将数据结果显示输出，并对挖掘结果进行分析和评估。
[0061 ]步骤6:对提取的规则进行评估。
[0062]对被提取的规则用测试数据集和确认数据集进行正确性的测试，检测在神经网络中还有多少知识未被提取出来，检测被提取出来的规则与训练好的神经网络之间存在的不一致性的地方等。
【主权项】
1. 一种基于最近邻聚类的神经网络数据挖掘方法，其特征在于:采用最近邻聚类学习算法对神经网络进行训练，减少神经网络的隐层节点数，简化网络结构，加快神经网络的学习速度，在此基础上用神经网络对大型实际电力系统数据库进行数据挖掘，具体步骤包括：步骤1:对实际电力系统数据库中的电力数据进行清洗和选择；步骤2:对经过步骤1处理后的电力数据预处理和转换；步骤3:对经过步骤2处理后的电力数据进行数据集管理；步骤4:针对步骤3产生的数据集，确定神经网络类型、算法并训练神经网络；步骤5:从训练好的神经网络中提取规则；步骤6:对提取的规则进行评估。2. 根据权利要求1所述的一种基于最近邻聚类的神经网络数据挖掘方法，其特征在于：所述步骤1、步骤2中，对电力系统中的数据，根据具体的目标和需要进行清洗和选择，剔除不需要的数据;然后对数值型数据采用归一化方法进行处理，将文本数据转换为数值数据进行处理。3. 根据权利要求1所述的一种基于最近邻聚类的神经网络数据挖掘方法，其特征在于：所述步骤3中，将预处理以后的数据随机地划分成三个数据集：训练数据集、测试数据集和确认数据集，所述训练数据集用以训练神经网络，所述测试数据集用以测试网络的精度，所述确认数据集用以独立地测试网络，并对步骤6产生的提取规则进行评估。4. 根据权利要求1所述的一种基于最近邻聚类的神经网络数据挖掘方法，其特征在于：所述步骤4中，所述神经网络类型采用三层前馈RBF神经网络;所述算法采用改进的最近邻聚类学习算法训练该神经网络，神经网络输入、输出节点的数目由电力系统具体的决策决定，神经网络的输出由模糊推理系统推出正则化输出，隐含层节点的数目由最近邻聚类算法决定。5. 根据权利要求4所述的一种基于最近邻聚类的神经网络数据挖掘方法，其特征在于：通过对聚类半径r的调整，使聚类中心个数即RBF隐层节点数达到最佳，对RBF神经网络的参数和结构两个过程同时进行在线自适应调整，具体步骤包括： Stepl:设置初始聚类半径为r，将归一化的数据^读入，作为RBF神经网络的输入，并计算Xk与现有其它数据的最小欧式距离，得到最小的距离dmin，并将位置记为p; Step2:若dmin>r，则聚类数加1为m = m+l，m表示聚类数，当前样本送新的聚类中心ci，否则第P个聚类成员加1，并修正聚类相关变量； Step3:各类的输出矢量之和记为A(1)，用一个计数器B(1)表示用于统计属于各类的样本个数，其中1是类别数，计算神经网络隐层到输出层权矢量11 = 4(1)作(1); 其中，i表示第i个迭代，A(i)表示第i个迭代时的各类输出矢量之和，B(i)表示第i个迭代时各类样本个数之和，W(i)表示第i个输出层权矢量； Step4:根据正则化RBF神经网络的输出得到其中，(^为隐层第i个高斯函数的中心； Step5:计算性能指标函数式其中，N为当前迭代总次数，Xk为N 维输入向量，y(xk)和分别为目标数据对和神经网络的输出；对性能指标进行判断:若Jo>e，ε为事先设定的阈值，则转Step6,否则转Step7; Step6:设定变化步长h，则聚类半径为r = r-h，返回Stepl; Step7:聚类结束。6. 根据权利要求5所述的一种基于最近邻聚类的神经网络数据挖掘方法，其特征在于： Step6中，所述变化步长h根据Step5中性能指标函数在线自适应调整RBF神经网络的聚类半径，使聚类中心个数即RBF隐层节点数达到最佳，从而使RBF神经网络的结构最佳。7. 根据权利要求1所述的一种基于最近邻聚类的神经网络数据挖掘方法，其特征在于：步骤5、步骤6中，神经网络网络训练结束以后，采用搜索算法提取规则，对被提取的规则用测试数据集和确认数据集进行测试，验证神经网络数据挖掘的正确性。
【文档编号】G06Q10/06GK106022614SQ201610343564
【公开日】2016年10月12日
【申请日】2016年5月22日
【发明人】刘育权, 胡剑锋, 莫文雄, 潘玉春, 陆国俊, 唐晓莉, 王勇, 张高峰
【申请人】广州供电局有限公司, 南京南瑞继保电气有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘育权;胡剑锋;莫文雄;潘玉春;陆国俊;唐晓莉;王勇;张高峰;
技术所有人：广州供电局有限公司;南京南瑞继保电气有限公司;
我是此专利的发明人

上一篇：基于云计算的企业资源管理方法
上一篇：基于企业检修文件包的风力发电机组移动标准化检修系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。