一种支持大数据的负荷预测方法

文档序号:10553419阅读:647来源:国知局
一种支持大数据的负荷预测方法
【专利摘要】本发明提供了一种支持大数据的负荷预测方法。本发明在网络训练时,通过改进模拟退火算法根据测试误差反馈寻找最优信息熵比对原始输入矩阵经行维度压缩及最小样本集合半径后作为构建径向基神经元内核函数的参数。改进型模拟退火算法在全局优化时不宜陷入局域最优的基础上,实现了优化初始阶段全局寻优,优化过程后期局域寻优的优点,缩短了优化过程,提升了优化效率,增强了预测的准确度及泛化能力。
【专利说明】
一种支持大数据的负荷预测方法
技术领域
[0001] 本发明一种支持大数据训练样本的负荷预测模型优化方法,属于人工智能技术领 域。
【背景技术】
[0002] 电力负荷预测是电力系统经济潮流规划的基石,准确的未来负荷预测对电网的优 化调度起到了至关重要的作用,对减少电网的备用容量,降低电网投资有重要意义。随着 《电改九号文》的出台,对用户侧的能源管理提出了新的指导意见。负荷预测从电网主干节 点的用电预测拓展至单位更小的工厂、商业区、住宅区,甚至工业生产线、商业楼宇特定功 能区域以及家庭。相比传统的负荷预测,主要影响因素不仅需考虑季节性、气象环境、预测 日类型,还需考虑预测目标所特有负荷特征的影响因素,这些影响因素或可由预先认知知 识获得,例如分时电价激励;也可选择一些影响权重未知的因素,例如机场的航班起降信 息,航站楼的实时人口密度,等。小微化的预测区域使得负荷预测样本具大样本数据 (Volume)、多样性(Variety)、真实性(Veracity)的特点,而负荷预测模型需具有处理以上 数据的高速性(Ve loc i ty)和准确性。
[0003] 1988 年,Broomhead 和 Low 在他们合作撰写的论文 "Radial Basis Functions, Multi-Variable Functional Interpolation and Adaptive Networks"首次提出了径向 基网络的理论模型。在之后的27年里,径向基网络广泛的运用在函数逼近、时间序列预测、 分类、系统控制等领域,包括电力负荷预测模型中。
[0004] 应用径向基网络预测电力负荷的具体流程如图1所示。首先将历史数据去奇异化, 然后通过Max-Min法或Z-score法,将数据归一化:
[0008] 在式(1)及式(2)中,Xi,n_是指一个归一化后的样本,max(X)、min(X)、y、〇分别是 所有样本中各因素最大值、最小值、均值、标准差的集合。
[0009] 在归一化后,按照式(3)构建径向基神经元,将其与网络输出的线性回归系数作为 网络的链接权重。将非线性关系通过输入空间低维至高维的转换变化为简单的线性关系, 应用Moore-Penrose广义逆矩阵求解径向基神经元与预测目标的线性系数,确定连接权重, 降低了学习的复杂性。
[0011]式(3)中,@( ?)为高斯置换算子,Xl为输入样本,输入样本为lXm的向量,其炜度 为m,输入样本共有n个,xj为径向基,〇为扩散系数。经过映射后,输入空间从n X m变为一个n 父(肝1)的矩阵,11+1>>111。
[0013] 式(4)中,第一列元素等于1的向量为隐含层与输出层的偏置权重。最后线性求和 层的权重W通过Moore-Penrose广义逆矩阵式(5)及(6)来求:
[0014] G ? ff=Y (5)
[0015] ff=(GTG)_1GTY (6)
[0016] 预测值#由下式求得:
[0017] (?)
[0018] 由于对训练样本没有事先聚类过程,将所有的样本直接作为径向基,径向基隐含 层的输出为一 nX(n+l)的矩阵,且径向基方程的扩散系数〇选取也由经验确定。这种方法在 训练样本数较少时,加快了训练速度。然而在大数据环境下,基于径向基网络开发的预测模 型需对4V样本数据进行学习,若采取这种方法,必然造成训练时间缓慢、精度不高的结果。
[0019] 公开号为CN 104881706 A的发明专利申请涉及一种基于大数据技术的电力系统 短期负荷预测方法,提出了对负荷根据形状特征分类,并对每一类建立基于支持向量机的 负荷预测模型。通过分布式运算的概念,从形式分散了大训练样本对单一神经网络预测模 型的计算压力。但对于某一类别中包含大量训练样本,另一类别中包含少量训练样本的预 测事件,其创新点无法发挥其声明的作用。且技术中采用的支持向量机在计算最后线性权 重时,需对n个训练样本的在n+1维的空间映射进行支持向量的寻优。此算法已被普遍认为 不适合运用在大数据环境下。
[0020] 公开号为CN 103488869的发明专利申请涉及一种最小二乘支持向量机的风力发 电短期负荷预测方法,提出对负荷预测模型输入因数进行主成分分析,确定预测模型的输 入主成分。这一种主成分分析的方法是不正确的,因为当对输入因素进行特征根值的信息 熵贡献度排序后所得的变换矩阵实质上对原始输入数据中的信息进行压缩处理。当原始因 素与转换矩阵相乘后得到新的降维后的输入矩阵并不能表征哪些因素是主成分,哪些是次 要成分。只能表述转换后降维的输入矩阵包含了原输入矩阵中大部分的信息量,是一个压 缩过程而不是主成分筛选的过程。技术中采用的支持向量机在使用最小二乘法计算最后线 性权重时,需对n个训练样本的在n+1维的空间映射进行支持向量的寻优。此算法已被普遍 认为不适合运用在大数据环境下。
[0021]申请号为201210390738.4的发明专利申请涉及一种需求响应下的短期负荷预测 方法,也应用了支持向量机作为预测模型主体,在计算最后线性权重时,需对n个训练样本 的在n+1维的空间映射进行支持向量的寻优。此算法已被普遍认为不适合运用在大数据环 境下。

【发明内容】

[0022] 本发明要解决的技术问题是:在大数据环境下,提高预测模型的训练时间及精度。
[0023] 为了解决上述技术问题,本发明的技术方案是提供了一种支持大数据的负荷预测 方法,其特征在于,包括以下步骤:
[0024]步骤1、利用傅里叶系数分解方法对负荷进行奇异值的剥离及插值估算;
[0025]步骤2、卡洛变换:
[0026] U = X ? WT,式中,X为输入数据样本集合,大小为nXm;W为投影向量,U为变换后的 输入数据;
[0027] 步骤3、对变换后的输入样本数据进行归一化、随机化,生成训练样本;
[0028] 步骤4、运用层次分裂分析算法对训练样本进行分类,将隐含层的大小从nX(n+l) 的矩阵缩小为nX(k+l)的矩阵,k为分类后得到的集合数,k<<n;
[0029]步骤5、构建径向基网络隐含层;
[0030]步骤6、网络误差评估;
[0031] 步骤7、误差反馈优化网络参数,在网络训练时,通过改进模拟退火算法根据测试 误差反馈寻找最优信息熵比对原始输入矩阵经行维度压缩及最小样本集合半径后作为构 建径向基神经元内核函数的参数。
[0032] 优选地,在所述步骤7中,所述改进模拟退火算法包括以下步骤:
[0033]步骤7.1、设定迭代数i = 0、初始温度to、温度下降系数a,并生成包含N个随机解 W〇, 1,《〇,2,…,〇〇,〃的初始解集合Q 〇,则有:
[0034] ? I ' |; ?> ?> 々 i
[0035]步骤7.2、计算能量值Eo,有:
[%'[
[0036] 焉H ,式中,〇Q,i,〇Q,2,…,〇0,N为eo,i,e(),2,…,eo,N对应的解,将初始最小能 ' ; ; ? 量值作为目前网络最优表现,记为ebest, 0,ebest, 0所对应的解作为目前最优解,记做《 best, 0 ;
[0037] 步骤7.3、1 = 1+1山=(1?1^-1山为第1次迭代的温度山-1为第卜1次迭代的温度, 进入下一次迭代过程;
[0038] 步骤7.4、运用改进的变异方程计算第i次迭代的集合Qi,则集合^:中第i个元素 〇 i, n为:
[0042] n为该解在解集中的序号;b为不均匀随机系数;r是均匀分布随机数,rG[0,l],n 是一个均等概率的随机整数;=max(R)],P为卡洛变换信息量的比例,V为 分类时集合最小半径,max(R)为最大的训练数据样本间的距离;《min = [pzO,]^ =min (R)],min(R)为最小的训练数据样本间的距离;
[0043]步骤7.5、生成解集Q i,并计算能量值Ei,有:
[0046]步骤7.6、若最小能量值111;[11他)<61^1;,。,则61^1;,1=111;[11浪),61^1;,:1为第:[次迭代最 小能量值,对应的《 1>n则为第i次迭代最优解《 be5St,:,返回步骤7.3进入下一次迭代过 程,若min(Ei)彡ebe5St,o,则下式决定是否将Ei所对应的c0i, n作为最优解:
,式中,k为Boltzmann系数,p为随机数,0<p<l, 若上式成立,对应的COw则为第i次迭代最优解cobest,:,返回步骤7.3进入下一次迭代 过程,若不成立,则返回步骤7.4重新生成解集;
[0048] 步骤7.7、当温度U下降至0,或循环到达最大迭代次数时,网络优化中止,此时的 W best, i为全局最优解,ebest, i为全局最优网络表现。
[0049] 在设计支持大数据的负荷预测模型时,需考虑大量、高维数据在记录、存储时由于 各种原因造成的数据奇异及数据丢失。本发明使用傅里叶系数分解方法对负荷进行奇异值 的剥离及对丢失数据进行插值估算,降低误差样本对网络训练的干扰。输入因素的选择由 于负荷预测的场合、类型、用途不同而差异很大,由于对待预测负荷的成因无法进行系统的 定性、定量分析,为了避免重要输入因素的遗漏,对输入因素的选取往往宁滥勿缺,使得输 入样本具有高维度的特征。本发明使用卡洛变换,在样本信息损失(信息熵比)可控的情况 下,降低样本的维度,有效的减少在训练或测试阶段对运算能力的需求。将输入样本的取值 范围归一化,避免不同的量纲影响网络学习;对输入样本的排列做随机化处理,避免神经网 络将排列顺序作为潜在的因果关系进行学习。
[0050] 在构建径向基网络隐含层时,使用分裂分类算法,将输入样本分类,将隐含层的大 小从n X (n+1)的矩阵缩小为n X (k+1)的矩阵,n为样本数,k为集合数,k< <n。在求解隐含 层与输出层的线性权重时提高了运算效率,提高了预测网络对于大数据训练样本的运算能 力。
[0051] 在网络训练时,通过改进模拟退火算法根据测试误差反馈寻找最优信息熵比对原 始输入矩阵经行维度压缩及最小样本集合半径后作为构建径向基神经元内核函数的参数。 改进型模拟退火算法在全局优化时不宜陷入局域最优的基础上,实现了优化初始阶段全局 寻优,优化过程后期局域寻优的优点,缩短了了优化过程,提升了优化效率,增强了预测的 准确度及泛化能力。
【附图说明】
[0052]图1为径向基网络训练流程;
[0053]图2为本发明的优化方案流程图;
[0054] 图3为使用傅里叶系数分解法光滑后的原始负荷数据;
[0055] 图4为使用傅里叶系数分解法光滑后分离出的随机负荷数据;
[0056] 图5为预测模型预测数据与原始数据的对比表现(全局);
[0057]图6为预测模型预测数据与原始数据的对比表现(一天)。
【具体实施方式】
[0058]为使本发明更明显易懂,兹以优选实施例,并配合附图作详细说明如下。
[0059] 结合图2,本发明提供了一种支持大数据的负荷预测方法,包括以下步骤:
[0060] 步骤一:傅里叶系数分解方法对负荷进行奇异值的剥离及插值估算(本方法引用 自发明人2008年 12月发表的硕士论文,A hybrid neural network architecture for power system load forecasting)
[0061] 通过观察历史数据的趋势及峰谷特征并通过傅里叶系数分解原始数据再重组的 方法来对热负荷建模。负荷曲线Load可分解为基值Load base、增量Loadgr?th及周期性分量 Loadperiodic,见式(8 )。
[0062] L〇cld - L〇£ldbase+L〇£ldgr〇wth+L〇£ldperi〇dic (8)
[0063] 式(8)可改写如下的矩阵形式:
[0064] L=W*X (9)
[0065]
[0066] 其中
[0069] 式(10)及式(11)中,《 〇为基波角频率,匕为基荷,132为线性增长率,br-b2n+1为谐波 分量的系数。所以系数矩阵W可由式(12)求得:
[0070] ff=pinv(X) ? L (12),在式(12)中,pinv(X)表示矩阵X的伪逆矩阵。
[0071] 负荷模型1可由式(13)所得
[0072] (13).
[0073] 步骤二:卡洛变换(本方法引用自发明人2008年12月发表的硕士论文,A hybrid neural network architecture for power system load forecasting)
[0074]卡洛变换如下:
[0075] U=X ? ffT (14)
[0076] 式(14)中,X为输入数据样本集合,大小为nXm;W为投影向量;U为变换后的输入数 据。在投射过程中U应保留原数据集中绝大部分的方差信息。计算X协方差矩阵A的特征向 量[ 61,62,...,6"],定义0为信息熵的比例值,一般取〇.9-〇.95。
(15)
[0078]式(15)中,d表示前d维因素所含的信息熵值占所有m维因素信息熵值的90%-95%〇
[0079] 将特征值有大到小排列后存入向量E,投影向量W由下式获得:
[0080] ff=ET, (16)
[0081] 步骤三:历史数据样本归一化、随机化(通用神经网络预测模型步骤)
[0082] Max-Min 法:
[0086] 式(17)及式(18)中x为数据样本,xn_为归一化后的数据样本,max(X)、min(X)为 样本集中的最大、最小数据,y为样本平均值,〇为样本标准差。
[0087] 随机化:
[0088] 假设训练样本数为n,随机生成一数列N,max(N) = n,min(N) = 1,且N(i)辛N( j)。将 X矩阵以新的随机序列N赋值于X,X = X[N,:]。
[0089] 步骤四:运用层次分裂分析算法(Divisive Analysis,DIANA)对训练样本进行分 类.(本方法引用自发明人2008年12月发表的硕士论文,A hybrid neural network architecture for power system load forecasting)
[0090] 首先定义最小集合半径r,并将所有样本视为一个集合。初始阶段,计算所有样本 间的相对距离,并找出相对距离最远的两个样本。将这两个样本定义为新的集合中心,其他 样本根据与新集合中心的相对距离进行分类。根据上述步骤对半径最大集合进行分裂,当 下一次集合分裂半径小于预先定义的最小集合半径时,分裂停止。计算各集合中心G,及集 合半径〇i
[0091] 步骤五:构建径向基网络隐含层(本方法引用自发明人2008年12月发表的硕士论 文,A hybrid neural network architecture for power system load forecasting)内 核方程修改为:
[0093] 式(19)中,Xi为输入样本,1 Xm,m为样本维度n为样本数;Cj为jth样本集合中心,j G [1,k] ;〇j为最jth样本集合扩散系数。经过映射后,输入空间从nXm变为一个nX (k+1)的 矩阵,n+1 > >k+l > >m。
[0094] ^ sk I ^ (20) :? X 5 s 丨'i私… c&)J
[0095] G ? ff=Y (21)
[0096] ff=(GTG)_1GTY (22)
[0097] 预测值f由下式求得:
[0098] f = (23)
[0099] 步骤六:网络误差评估(现阶段国际常用神经网络预测评价函数)
[0100] 选用平均绝对百分误差(Mean Absolute Percentage Error)来作为网络的评价 函数,见式(24)。
(24)
[0102]其中n为样本数,71为实际值,爲为预测值。
[0103]步骤七:误差反馈优化网络参数 [0104] 建立目标方程:
[0105] min(e) =min(frbf(r7 ,p)) (25)
[0106] 式(25)中,e为平均绝对百分误差,V为分类时集合最小半径,P为卡洛变换信息量 的比例。确定自变量变化空间〇彡V彡max(d),0彡P彡1。自变量的边界值为《 max=[P=l,V =max(R) ],〇min= |> = 0,:1^ =min(R)]。解集中包含的解的个数N,max(R)为最大的训练样 本间的距离,min(R)为最小的训练样本间的距离。
[0107] 改进退火算法的优化流程如下:
[0108] 步骤7.1、设定迭代数i = 0、初始温度to、温度下降系数a,并生成包含N个随机解 Wo, 1,《〇,2,…,〇〇,〃的初始解集合Q 0,则有:
[0109] " ! (26);
[0110]步骤7.2、计算能量值E〇,有: p%l
[0111]' |(27),式(26)及式(27)中,《 〇, 1,w 〇,2,…,《 q,n为eo, 1,eo,2,…,eo,N对应 U:J 的解,将初始最小能量值作为目前网络最优表现,记为eb(5St, o,ebe5St, 〇所对应的解作为目前最 优解,记做wbest,0;
[0112] 步骤7.3、1 = 1+1山=(1?1^-1山为第1次迭代的温度山-1为第卜1次迭代的温度, 进入下一次迭代过程;
[0113]步骤7.4、运用改进的变异方程计算第i次迭代的集合Qi,则集合^:中第i个元素 〇 i, n为:
[0117] n为该解在解集中的序号;b为不均匀随机系数;r是均匀分布随机数,rG[0,l],n 是一个均等概率的随机整数;
[0118] 步骤7.5、生成解集Q i,并计算能量值Ei,有:
[0121 ]步骤7 ? 6、若最小能量值min(Ei) <ebest,。,则ebest, i=min(Ei),ebest,i为第i次迭代最 小能量值,对应的《 1>n则为第i次迭代最优解《 be5St,:,返回步骤7.3进入下一次迭代过 程,若min(Ei)彡ebe5St, Q,则式(33)决定是否将Ei所对应的c〇i,n作为最优解:
[0123] 式(33)中,k为Boltzmann系数,p为随机数,0彡p彡1,若式(33)成立,Ei所对应的 则为第i次迭代最优解,返回步骤7.3进入下一次迭代过程,若式(33)不成立,则 返回步骤7.4重新生成解集;
[0124] 步骤7.7、当温度U下降至0,或循环到达最大迭代次数时,网络优化中止,此时的 W best, i为全局最优解,ebest, i为全局最优网络表现。
[0125]下面结合具体数据对本发明作进一步介绍,负荷数据采集自New England ISO 2000.1.1至2002.12.31,采样间隔为1小时。
[0126]在图3及图4中,经过傅里叶系数分解法滤去原数据中的高频谐波分量形成光滑后 的负荷曲线模型。负荷光滑模型与原始模型的关联系数(R2)为0.9434。
[0127] 在此案例中,选取待预测负荷前3小时的干球温度、露点温度及历史负荷,及待预 测小时的干球温度与露点温度作为初始输入因素。初始输入矩阵【Dry Bulb-i Dry Bulb一2 Dry Bulb-3 Dry Bulb Dew Point-1 Dew Point-2 Dew Point-3 Dew Point Load-i Load-2 Load-3】为一个26208X11的矩阵。应用卡洛变换进行压缩降维后输入矩阵的大小为,所含信 息熵之比为99.85 %。
[0128] 对输入及输出数据进行z-score归一化以后,应用分裂分析算法对输入样本聚类。 设初始最小集合半径为1,经过改进退火算法优化后,最小半径修正为〇 . 3375,集合数为 892,故径向基隐含层矩阵1大小为,预测结果如图5及图6所示。预测模型的预测输出与原始 模型的关联系数(R 2)为〇.9821,MAPE=1.98%。
【主权项】
1. 一种支持大数据的负荷预测方法,其特征在于,包括W下步骤: 步骤1、利用傅里叶系数分解方法对负荷进行奇异值的剥离及插值估算; 步骤2、卡洛变换: U = X ? WT,式中,X为输入数据样本集合,大小为nXm;W为投影向量,U为变换后的输入数 据; 步骤3、对变换后的输入样本数据进行归一化、随机化,生成训练样本; 步骤4、运用层次分裂分析算法对训练样本进行分类,将隐含层的大小从nX(n+l)的矩 阵缩小为n X化+1)的矩阵,k为分类后得到的集合数,k< <n; 步骤5、构建径向基网络隐含层; 步骤6、网络误差评估; 步骤7、误差反馈优化网络参数,在网络训练时,通过改进模拟退火算法根据测试误差 反馈寻找最优信息赌比对原始输入矩阵经行维度压缩及最小样本集合半径后作为构建径 向基神经元内核函数的参数。2. 如权利要求1所述的一种支持大数据的负荷预测方法,其特征在于,在所述步骤7中, 所述改进模拟退火算法包括W下步骤: 步骤7.1、设定迭代数i = 0、初始溫度to、溫度下降系数a,并生成包含N个随机解CO 0,1, W 0, 2,…,W 0,N的初始解集合Q 0,则有:步骤7.2、计算能量值Eo,有::中,"日,1,"日,2,…,《o,N为eo,i,eo,2,…,eo,N对应的解,将初始最小能量值 作为目前网络最优表现,记为ebest,日,ebest,日所对应的解作为目前最优解,记做W best, 0 ; 步骤7.3、i = i+l,ti = a ? 为束i次迭代的溫度,ti-i为束i-l次迭代的溫度,进入 下一次迭代过程; 步骤7.4、运用改进的变异方程计算第i次迭代的集合Q 1,则集合Q 1中第i个元素CO i,n 为:n为该解在解集中的序号;b为不均匀随机系数;r是均匀分布随机数,rG[0,l],rl是一 个均等概率的随机整数;《。3、=[0=1^/=1113^(1〇],0为卡洛变换信息量的比例^/为分类 时集合最小半径,max(R)为最大的训练数据样本间的距离;Omin= [P = Oj/ =Hiin(R)],min (R)为最小的训练数据样本间的距离; 步骤7.5、生成解集Q 1,并计算能量值Ei,有:步骤7.6、若最小能量值min(;Ei) <ebest,日,贝ijebest, i=min化i),ebest, i为第i次迭代最小能 量值,Ei所对应的CO i,n则为第i次迭代最优解CObest,1,返回步骤7.3进入下一次迭代过程,若 min化i)>ebest,日,则下式决定是否将Ei所对应的COi,n作为最优解:式中,k为Bo Itzmann系数,P为随机数,1,若上 式成立,Ei所对应的O i,n则为第i次巧代最优解《 best, i,返回步骤7.3进入下一次迭代过程, 若不成立,则返回步骤7.4重新生成解集; 步骤7.7、当溫度ti下降至0,或循环到达最大迭代次数时,网络优化中止,此时的CO best, 1 为全局最优解,ebest, i为全局最优网络表现。
【文档编号】G06Q10/04GK105913141SQ201610210313
【公开日】2016年8月31日
【申请日】2016年4月6日
【发明人】吴小东, 奚培锋, 方文, 张少迪, 江浩
【申请人】上海电器科学研究院, 上海电器科学研究所(集团)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1