一种基于最近邻聚类的神经网络数据挖掘方法

文档序号:10656385阅读:390来源:国知局
一种基于最近邻聚类的神经网络数据挖掘方法
【专利摘要】本发明公开了一种基于最近邻聚类的神经网络数据挖掘方法,该神经网络数据挖掘方法采用一种改进的最近邻聚类学习算法对神经网络进行训练,使神经网络在满足精度要求的前提下,减少隐层节点数,简化网络结构,加快神经网络的学习速度,达到进一步改善神经网络学习效率和精度的目的,在此基础上用神经网络进行数据挖掘,以进一步提高神经网络对大型实际电力系统数据库进行挖掘时的效率。本发明的目的在于保证电力系统的安全、稳定、优质、经济的运行,满足数字电力系统中的海量数据以及人们对数据信息的可靠性、一致性和共享性提出的更高的要求。
【专利说明】
-种基于最近邻聚类的神经网络数据挖掘方法
技术领域
[0001] 本发明设及一种应用于电力系统相关信息的数据挖掘方法,特别是设及一种利用 最近邻聚类算法训练神经网络的神经网络数据挖掘方法,本发明属电力系统数据分析领 域。
【背景技术】
[0002] 随着电力工业的飞速发展和信息技术W及计算机技术在电力系统中的普及,数字 化技术近年来得到广泛应用,出现了电力信息化--数字电力系统。在线实时监控系统、交易 系统、地理信息管理系统、故障诊断、离线的各种分析计算和规划系统,W及电力企业的日 常事务处理、通信和能量管理等系统在电力企业得到了广泛应用。但电力系统是一个动态 非线性的大系统,运些系统在运行过程中不断产生和积累大量的数据,运些实时数据已经 呈爆炸增长态势。此外,?35/6,611?,?343?,8?4等电力系统仿真软件在电力系统分析计算 中的广泛应用,也使系统产生了大量的仿真数据。基于传统数据库的数据管理系统,随着数 据量的增加,统计查询性能大幅度下降,用户不能随意地利用运些大量的数据进行统计分 析,而且数据利用率低下,海量的历史数据在默默地沉睡,数据中有价值的特征提取困难, 导致利用运些数据对业务进行及时地预测和指导就比较困难。
[0003] 随着人们对数据信息的可靠性、一致性和共享性提出的更高要求,W及更好地保 证电力系统的安全、稳定、优质、经济的运行,电力系统中日益迫切需要解决的问题就是如 何对海量、时变及移动数据进行综合处理,W及对采集到的数据进行数据挖掘。运样就可W 更加充分地利用运行数据,掲示历史数据背后蕴含的规则和原理,找到更加合理的解决问 题的方法,为决策的制定和执行提供更加有力的科学依据。数据挖掘在电力系统中的主要 应用有电力系统负荷预测和分类、电力系统的运行模式分类、电力系统运行状态和设备状 态监控和电力调度优化、电力系统建模等。
[0004] 数据挖掘(Data Mninig)就是从大量的、不完全的、有噪声的、模糊的、随机的数据 中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。主要有 概念描述、关联分析、聚类、自动预测趋势和行为、偏差检测等几类功能。聚类就是将数据对 象分成多个类或簇,使得同一个簇中的对象较相似,而不同簇中的对象不相似。电力系统的 研究人员对不同的电力用户或发电商进行聚类分析,W期获得不同的类别属性。从电力监 测和调度系统中提取不同地区不同类型的用户负荷曲线,进行用电特性聚类分析,为电力 公司营销和负荷管理提供依据。
[0005] 神经网络为解决复杂问题提供了一种相对来说比较有效的简单方法。神经网络具 有良好的鲁棒性、自组织、自适应、自学习、并行处理、分布存储和高度容错等特性,能根据 新的输入数据自适应调整网络参数。而且神经网络对噪声数据具有较强承受能力,对数据 分类准确性高,W及可用各种算法进行规则提取。更重要的是神经网络很容易在并行计算 机上实现,可W把它的节点分配到不同的CPU上并行计算。因此,可W借助神经网络来进行 数据挖掘。
[0006] 但是在利用神经网络进行数据挖掘过程中,神经网络学习算法不能保证收敛到最 理想的结果;神经网络很容易过度训练,从而导致在训练数据上工作地很好,而在检验数据 上表现欠佳。而且神经网络的学习时间长短影响其在数据挖掘中的应用,网络的训练时间 长短与问题的规模、网络的复杂性W及训练算法相关。本发明采用RB巧申经网络。因为RB巧申 经网络具有良好的逼近任意非线性映射和处理系统内在的难W解析表达的规律性的能力; RB巧申经网络的拓扑结构不仅使得学习速度大大加快,而且避免了局部极小问题;RB巧申经 网络另一个突出优点是可解释性好。RB巧巾经网络的拓扑结构在很大程度上影响着神经网 络自身的性能,而决定RB巧申经网络拓扑结构的因素主要有四个:RBF的中屯、矢量、隐节点数 目、径向基函数的宽度W及隐含层到输出层之间的权值矩阵。核函数的宽度参数决定了隐 节点对外部输入信号的响应范围,影响中屯、的数目、学习速度和精度。k-均值聚类算法的只 能达到依赖所选中屯、初值的局部最优解。一般的最近邻聚类算法需要根据经验和先验知识 确定合适的聚类半径,确定W后就不能更改,不利于算法的应用。而且随着输入数据的增 加,隐含层的节点数会单调递增,运将会产生大量的冗余节点,造成网络结构过于庞大,从 而不能协调学习精度和学习速度之间的关系,影响数据挖掘的结果。
[0007] 本发明提出的基于最近邻聚类的神经网络数据挖掘方法,正是基于W上需求,实 现了对电力系统数据更加高效的挖掘。

【发明内容】

[0008] 本发明的目的在于针对现有数据挖掘技术的不足,提供一种能针对电力系统数据 进行效率更高的利用最近邻聚类优化神经网络的数据挖掘方法。该方法主要解决神经网络 数据挖掘过程中网络复杂、学习时间过长的问题,保证获得最佳的电力系统数据挖掘效果。
[0009] 为了实现上述目的,本发明采用的技术方案如下:
[0010] 提供一种适用于电力系统的基于最近邻聚类的神经网络数据挖掘方法,所述方法 包括W下步骤:
[0011] 步骤1:对电力数据进行清洗和选择
[0012] 电力数据具有高维性、离散数据和连续数据混合、数据的时间特性和统计特性、存 在不确定性如噪声、缺损数据等问题,作为数据初始集的数据仓库中数据很多,但也许只需 要其中一部分数据用于某一决策。因此需要对用于本次数据挖掘的数据进行选择。一般情 况下,哪些参数对于某一决策来说是重要的是不知道的,但神经网络可W辅助解决运个问 题,它能建立一个与此参数相关的模型。
[0013] 步骤2:对电力数据预处理和转换
[0014] 数据预处理就是对选择出的干净数据进行增强处理的过程。对神经网络数据挖掘 来说,还需将数据转化成一种能够被神经网络数据挖掘算法接受的形式。神经网络只能处 理数值性的数据,文本数据需要转换为神经网络能够识别的数值性数据。大多数神经网络 模型只接受(〇,1)或(-1,1)范围的数据值,而电力系统中的数据在数值的数量级上存在较 大的差别,因此,数据必须对训练样本进行归一化处理到运个区间。标量数据值基本上均匀 地分布在某一范围内,可W直接映射到区间(〇,1);若数值分布不均匀,可用分段线性方程 或对数方程进行转换,然后再按比例缩小到指定区间;离散数据通过用0和1对其进行编码 来表示。
[00巧]假设系统的训练样本集的最大值为Dw,最小值为Dwxn,数据本身为Di,则A =I ^川;扮。, 归一化处理对网络训练非常重要,有利于神经网络训练时的收敛,能够有效提高神经网络 学习速度,减少训练时间,避免神经网络对某一输入量特别灵敏或不灵敏。
[0016] 步骤3:数据集的管理
[0017] 将原始数据随机地划分成训练数据集、测试数据集和确认数据集=个数据集,前 两个数据集用来训练神经网络、测试网络的精度来构造神经网络模型,确认数据集独立地 测试网络,运S个数据集的比例分别为80%、10%和10%。
[0018] 步骤4:确定神经网络类型、算法并训练神经网络;
[0019] 本发明采用S层前馈RB巧申经网络,并采用改进的最近邻聚类学习算法训练该神 经网络。神经网络输入、输出节点的数目由电力系统具体的决策决定,隐含层节点的数目由 最近邻聚类算法决定。从归一化后的训练样本集中等间隔选取数据进行训练,根据具体要 求设置训练精度。本发明采用的改进最近邻聚类学习算法可W自动调整聚类半径,在满足 系统性能的要求下,通过对聚类半径的调整,使其达到一个满意的值,从而使聚类中屯、个数 达到最佳,是RB巧巾经网络的参数和结构两个过程进行在线自适应调整。
[0020] 步骤5:数据结果显示输出,并对挖掘结果进行分析。
[0021] 有效结果:
[0022] 本发明提供一种适用于电力系统的基于最近邻聚类的神经网络数据挖掘方法,可 W对电力系统中的海量数据进行分析、处理、推理、预测,最终根据用户设定的条件,实现最 优方案。
[0023] 采用变聚类半径的最近邻聚类学习算法训练RB巧巾经网络,使神经网络在满足精 度要求的前提下,减少隐层节点数,从而简化网络结构,加快神经网络的学习速度。运种方 法可W使RB巧巾经网络可W同时在线进行网络参数和网络结构的自适应调整,可W消除主 观选择固定的聚类半径对网络性能的影响,达到进一步改善神经网络学习效率和精度的目 的,在此基础上用神经网络进行数据挖掘,W进一步提高神经网络对大型实际电力系统数 据库进行挖掘时的效率。
【附图说明】
[0024] 图1适用于电力系统神经网络数据挖掘方法流程图;
[0025] 图2 R邸神经网络的拓扑结构图;
[00%]图3变聚类半径的最近邻聚类算法流程;
【具体实施方式】
[0027] 下面结合附图对本发明的实施例作详细说明:本实施例给出了详细的实施方式和 具体实施过程,但本发明的保护范围不限于下述的实施例。
[0028] 电力系统数据仓库的数据源主要来自于电力系统的能量管理系统化MS)、用电营 业数据、地理信息系统等。EMS系统保存了电网的运行方式、实时运行参数入全网负荷、潮流 分布、中枢电压、系统频率等;用电营业数据包括用户资料、售电、电价、计量等数据;地理信 息系统包括用户、电力设备的地理位置信息;其它的数据来源包括经济状况,气象条件,手 工录入的数据等。如图I所示,一种基于最近邻聚类的神经网络数据挖掘方法。包括W下步 骤:
[0029] 步骤1:对电力数据进行清洗和选择;
[0030] 电力数据具有高维性、离散数据和连续数据混合、数据的时间特性和统计特性、存 在不确定性如噪声、缺损数据等问题。作为数据初始集的数据仓库中数据很多,但也许只需 要其中一部分数据用于某一决策,需要对用于本次数据挖掘的数据进行选择。一般情况下, 哪些参数对于某一决策来说是重要的是不知道的,但神经网络可W辅助解决运个问题,它 能建立一个与此参数相关的模型。
[0031] 步骤2:对电力数据预处理和转换;
[0032] 数据预处理就是对选择出的干净数据进行增强处理的过程。对神经网络数据挖掘 来说,还需将数据转化成一种能够被神经网络数据挖掘算法接受的形式。神经网络只能处 理数值性的数据,文本数据需要转换为网络能够识别的数值性数据。大多数神经网络模型 只接受(〇,1)或(-1,1)范围的数据值,而电力系统中的数据在数值的数量级上存在较大的 差别,因此,数据必须对训练样本进行归一化处理到运个区间。标量数据值基本上均匀地分 布在某一范围内,可W直接映射到区间(〇,1);若数值分布不均匀,可用分段线性方程或对 数方程进行转换,然后再按比例缩小到指定区间;离散数据通过用0和1对其进行编码来表 /J、- O
[0033] 假设系统的训练样本集的最大值为Dmax,最小值为Dmin,数据本身为Di,则归一化后 的数据为
[0034]

[0035] 归一化处理对网络训练非常重要,有利于神经网络训练时的收敛,能够有效提高 网络学习速度,减少训练时间,避免神经网络对某一输入量特别灵敏或不灵敏。
[0036] 步骤3:数据集的管理;
[0037] 将预处理W后的数据随机地划分成训练数据集、测试数据集和确认数据集=个数 据集,前两个数据集用来训练神经网络,测试网络的精度来构造神经网络模型,确认数据集 独立地测试网络,运S个数据集的比例分别为80%,10%和10%。
[0038] 步骤4:确定神经网络类型、算法与训练神经网络;
[0039] 本发明采用S层前馈RB巧巾经网络,网络的拓扑结构图如图2所示。为了得到最佳 逼近性能,由模糊推理系统推出正则化RB巧申经网络
[0040] 巧
[0041] 其中,COj为RB巧申经网络隐层到输出层权值,R^Xk)为隐含层单元第j个隐层节点 的输出为:
[0042]

[0043] 式中:祉为n维输入向量;Cj为隐层第j个高斯函数的中屯、;Oj为第j个隐单元的高斯 函数宽度;m为隐单元的个数。Mxk-cj M表示Xk和Cj之间的距离。
[0044] RB巧巾经网络实现从输入空间到隐含层空间的非线性变换依赖于RBF中屯、的数目、 位置W及作用域宽度,即半径r。半径r对聚类的影响非常大,传统的RBF中屯、选择算法的一 个主要缺点是都要求中屯、个数预先固定,则r的选取值将对网络的分类能力和泛化能力产 生显著影响。用人为试凑的方法选取r难度较大,而且不总能保证聚类的合理性。针对聚类 半径r的重要性,本发明提出一种基于调整聚类半径的最近邻聚类算法,在满足系统性能的 要求下,通过对聚类半径的调整,使其达到一个满意的值,从而使聚类中屯、个数即RBF隐层 节点数达到最佳,从而使聚类中屯、个数达到最佳,使RB巧巾经网络的参数和结构两个过程进 行在线自适应调整。该算法的具体流程如图3所示。
[0045] 在聚类算法中引入自适应律,选取合适的聚类半径r,使性能指标函数达到设定 值,其算法如下:
[0046] Stepl:设置一个初始聚类半径r,将归一化的数据Xk读入,作为RB巧巾经网络的输 入,并计算与现有其它数据的最小欧式距离,得到最小的距离cUin,并将位置记为P;
[0047] Step2:若dmin>:r,则聚类数力日1为m=m+l,当前样本送新的聚类中屯、Ci,否则第P个 聚类成员加1,并修正聚类相关变量;
[0048] Step3:各类的输出矢量之和记为A( 1),用一个计数器B( 1)表示用于统计属于各类 的样本个数,其中1是类别数,计算神经网络隐层到输出层权矢量
[0049] Wi = A(i)/B(i) (4)
[0050] 其中,i表示第i个迭代,A(i)表示第i个迭代时的各类输出矢量之和,B(i)表示第i 个迭代时各类样本个数之和,W( i)表示第i个输出层权矢量;
[0051] (4)Step4:根据正则化R邸神经网络的输出得到
[0化2] 巧)
[0053] 其中,Cl为隐层第i个高斯函数的中屯、;[0054] steps:计算性能指标函数式
[0化5] (6)
[0056]其中,N为当前迭代总次数,Xk为n维输入向量,y(xk)和乂&)分别为目标数据对和 神经网络的输出。对性能指标进行判断:若Jo>e(e为事先设定的很小的数),则转steps,否 则转Step7;
[0化7] Step6:选择一定合适的变化步长h,则聚类半径为r = r-h,返回Stepl;
[0化引Step7:聚类结束;
[0059] 步骤5:从训练好的神经网络中提取规则;
[0060] 基于捜索的算法,对于任一给定的隐结点或输出结点,先提取符号规则,然后对生 成的规则按网络的传导途径进行连接和整理,并转换为某种易理解的形式表达出来,最后 将数据结果显示输出,并对挖掘结果进行分析和评估。
[0061 ]步骤6:对提取的规则进行评估。
[0062]对被提取的规则用测试数据集和确认数据集进行正确性的测试,检测在神经网络 中还有多少知识未被提取出来,检测被提取出来的规则与训练好的神经网络之间存在的不 一致性的地方等。
【主权项】
1. 一种基于最近邻聚类的神经网络数据挖掘方法,其特征在于:采用最近邻聚类学习 算法对神经网络进行训练,减少神经网络的隐层节点数,简化网络结构,加快神经网络的学 习速度,在此基础上用神经网络对大型实际电力系统数据库进行数据挖掘,具体步骤包括: 步骤1:对实际电力系统数据库中的电力数据进行清洗和选择; 步骤2:对经过步骤1处理后的电力数据预处理和转换; 步骤3:对经过步骤2处理后的电力数据进行数据集管理; 步骤4:针对步骤3产生的数据集,确定神经网络类型、算法并训练神经网络; 步骤5:从训练好的神经网络中提取规则; 步骤6:对提取的规则进行评估。2. 根据权利要求1所述的一种基于最近邻聚类的神经网络数据挖掘方法,其特征在于: 所述步骤1、步骤2中,对电力系统中的数据,根据具体的目标和需要进行清洗和选择,剔除 不需要的数据;然后对数值型数据采用归一化方法进行处理,将文本数据转换为数值数据 进行处理。3. 根据权利要求1所述的一种基于最近邻聚类的神经网络数据挖掘方法,其特征在于: 所述步骤3中,将预处理以后的数据随机地划分成三个数据集:训练数据集、测试数据集和 确认数据集,所述训练数据集用以训练神经网络,所述测试数据集用以测试网络的精度,所 述确认数据集用以独立地测试网络,并对步骤6产生的提取规则进行评估。4. 根据权利要求1所述的一种基于最近邻聚类的神经网络数据挖掘方法,其特征在于: 所述步骤4中,所述神经网络类型采用三层前馈RBF神经网络;所述算法采用改进的最近邻 聚类学习算法训练该神经网络,神经网络输入、输出节点的数目由电力系统具体的决策决 定,神经网络的输出由模糊推理系统推出正则化输出,隐含层节点的数目由最近邻聚类算 法决定。5. 根据权利要求4所述的一种基于最近邻聚类的神经网络数据挖掘方法,其特征在于: 通过对聚类半径r的调整,使聚类中心个数即RBF隐层节点数达到最佳,对RBF神经网络的参 数和结构两个过程同时进行在线自适应调整,具体步骤包括: Stepl:设置初始聚类半径为r,将归一化的数据^读入,作为RBF神经网络的输入,并计 算Xk与现有其它数据的最小欧式距离,得到最小的距离dmin,并将位置记为p; Step2:若dmin>r,则聚类数加1为m = m+l,m表示聚类数,当前样本送新的聚类中心ci,否 则第P个聚类成员加1,并修正聚类相关变量; Step3:各类的输出矢量之和记为A(1),用一个计数器B(1)表示用于统计属于各类的样 本个数,其中1是类别数,计算神经网络隐层到输出层权矢量11 = 4(1)作(1); 其中,i表示第i个迭代,A(i)表示第i个迭代时的各类输出矢量之和,B(i)表示第i个迭 代时各类样本个数之和,W(i)表示第i个输出层权矢量; Step4:根据正则化RBF神经网络的输出得到其中,(^为隐层第i个高斯函数的中心; Step5:计算性能指标函数式其中,N为当前迭代总次数,Xk为N 维输入向量,y(xk)和分别为目标数据对和神经网络的输出; 对性能指标进行判断:若Jo>e,ε为事先设定的阈值,则转Step6,否则转Step7; Step6:设定变化步长h,则聚类半径为r = r-h,返回Stepl; Step7:聚类结束。6. 根据权利要求5所述的一种基于最近邻聚类的神经网络数据挖掘方法,其特征在于: Step6中,所述变化步长h根据Step5中性能指标函数在线自适应调整RBF神经网络的聚类半 径,使聚类中心个数即RBF隐层节点数达到最佳,从而使RBF神经网络的结构最佳。7. 根据权利要求1所述的一种基于最近邻聚类的神经网络数据挖掘方法,其特征在于: 步骤5、步骤6中,神经网络网络训练结束以后,采用搜索算法提取规则,对被提取的规则用 测试数据集和确认数据集进行测试,验证神经网络数据挖掘的正确性。
【文档编号】G06Q10/06GK106022614SQ201610343564
【公开日】2016年10月12日
【申请日】2016年5月22日
【发明人】刘育权, 胡剑锋, 莫文雄, 潘玉春, 陆国俊, 唐晓莉, 王勇, 张高峰
【申请人】广州供电局有限公司, 南京南瑞继保电气有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1