1.本技术涉及风电发电技术领域,尤其涉及一种基于随机森林的风电发电量预测方法及设备。
背景技术:2.在实际风电发电量预测中,发电量可能与多个因素有关,如气温、风速、海拔等因素,这些因素与发电量之间的关系可能不是简单的线性关系,而是复杂的非线性关系,且各个变量对预测发电量的贡献不尽相同,可能存在大量的无关变量。在训练模型以及进行预测时,如选择变量太少预测效果不理想,将所有变量传入模型,又会极大的拖慢模型的运行速度并影响模型预测结果的准确性。
技术实现要素:3.本技术实施例提供了一种基于随机森林的风电发电量预测方法及设备,用于解决如下技术问题:现有的风电发电量预测模型的准确性低。
4.本技术实施例采用下述技术方案:
5.一方面,本技术实施例提供了一种基于随机森林的风电发电量预测方法,方法包括:采集风电发电厂的历史相关数据并进行预处理;基于预处理后的所述历史相关数据,拟合随机森林回归模型;根据所述随机森林回归模型,选取用于预测风电发电量的自变量;根据选取的所述自变量以及对应的风电发电量,得到训练集以及测试集;通过所述训练集,训练长短期记忆网络lstm模型;将训练好的lstm模型在所述测试集上进行验证,并根据验证结果,对所述lstm模型进行优化;采集所述风电发电厂的实时相关数据,并输入到所述lstm模型中,得到实时预测风电发电量;根据所述实时预测风电发电量,判断是否需要调配其他电力,以满足用电需求。
6.本技术实施例通过将随机森林回归模型与长短期记忆网络模型相结合,筛选出对预测发电量贡献较大的变量对当期风电发电量进行预测,进而可以给决策者提供信息支持,在电力不足时及时调配其他电力,以满足用电需求。
7.在一种可行的实施方式中,采集风电发电厂的历史相关数据并进行预处理,具体包括:在数据库中获取所述风电发电厂每个时期的历史相关数据;其中,所述历史相关数据至少包括每个时期对应的气温、气压、风速、海拔以及风电发电量;对所述历史相关数据进行缺失值检测,并删除缺失值,得到预处理后的历史相关数据。
8.本技术实施例通过收集尽可能多的可能影响风电发电量的变量来做预测,并对收集的数据进行删除缺失值的处理,使用于训练长短期记忆网络模型的数据更加有代表性,且完整性更高,从而提高长短期记忆网络模型的训练准确率。
9.在一种可行的实施方式中,基于预处理后的所述历史相关数据,拟合随机森林回归模型,具体包括:将预处理后的所述历史相关数据中的风电发电量作为因变量,将其他数据作为自变量,拟合随机森林回归模型。
10.在一种可行的实施方式中,根据所述随机森林回归模型,选取用于预测风电发电量的自变量,具体包括:通过所述随机森林回归模型,对每个自变量进行打分,并按照分数对每个自变量进行排序,得到每个自变量对预测风电发电量的重要性排序;在所述重要性排序中,从前向后选取预设数量的自变量,作为所述用于预测风电发电量的自变量。
11.在一种可行的实施方式中,根据选取的所述自变量以及对应的风电发电量,得到训练集以及测试集,具体包括:在所述历史相关数据中,将选取的所述自变量以及对应的风电发电量取出,并按照3:1的比例,划分为训练集和测试集。
12.在一种可行的实施方式中,将训练好的lstm模型在所述测试集上进行验证,并根据验证结果,对所述lstm模型进行优化,具体包括:通过所述测试集,对训练好的lstm模型进行测试;将测试得到的每条预测风电发电量分别与所述测试集中对应的实际风电发电量进行差值计算;若所述差值小于第一预设阈值,则对应的验证结果正确;计算验证结果正确的预测风电发电量的数量,占预测风电发电量的总数量的比值;若所述比值小于第二预设阈值,则调整所述lstm模型中的相关参数,并再次进行训练,直至所述比值达到所述第二预设阈值为止。
13.本技术实施例通过验证长短期记忆网络模型的预测准确率,对长短期记忆网络模型进行不断优化,直到得到预测准确率达标的长短期记忆网络模型。
14.在一种可行的实施方式中,采集所述风电发电厂的实时相关数据,并输入到所述lstm模型中,得到实时预测风电发电量,具体包括:根据选取的所述用于预测风电发电量的自变量,通过传感器组采集对应的实时相关数据;将所述实时相关数据输入到优化后的所述lstm模型中,输出对应的实时预测风电发电量。
15.在一种可行的实施方式中,根据所述实时预测风电发电量,判断是否需要调配其他电力,以满足用电需求,具体包括:若所述实时预测风电发电量大于等于风电发电阈值,则确定风电发电量正常,不需要调配其他电力;其中,所述风电发电阈值是根据所述风电发电厂负责的用电区域的当前时期的用电量确定的;若所述实时预测风电发电量小于所述风电发电阈值,则向决策者的终端发出提示信息,提醒所述决策者调配其他电力以满足用电需求。
16.在一种可行的实施方式中,在采集所述风电发电厂的实时相关数据,并输入到所述lstm模型中,得到实时预测风电发电量之前,所述方法还包括:将优化后的所述lstm模型部署到对应的设备上,以进行后续的预测工作。
17.另一方面,本技术实施例还提供了一种基于随机森林的风电发电量预测设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有能够被所述至少一个处理器执行的指令,以使所述至少一个处理器能够执行根据上述任一实施方式所述的一种基于随机森林的风电发电量预测方法。
18.本技术实施例通过选择收集尽可能多的可能影响风电发电量的变量来做预测,以风电发电量为因变量,气温、海拔等影响因素为自变量,拟合随机森林回归模型。随机森林回归模型可以捕获自变量和因变量之间的非线性关系并对输入的自变量进行打分,并给出重要性排序。然后筛选出对预测发电量贡献较大的变量进行后续分析。将筛选好的变量数据导入lstm模型中进行训练,当训练好模型后,当传感器传入新的风电发电影响因素数据,lstm模型就会根据传入数据对当期风电发电量进行预测,进而可以给决策者提供信息支
持,方便决策者制订合理的电力调度计划并确保电网安全经济运行。
附图说明
19.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
20.图1为本技术实施例提供的一种基于随机森林的风电发电量预测方法流程图;
21.图2为本技术实施例提供的一种基于随机森林的风电发电量预测设备结构示意图。
具体实施方式
22.为了使本技术领域的人员更好地理解本技术中的技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
23.本技术实施例提供了一种基于随机森林的风电发电量预测方法,如图1所示,基于随机森林的风电发电量预测方法具体包括步骤s101-s106:
24.s101、采集风电发电厂的历史相关数据并进行预处理。
25.具体地,风电发电厂定期通过传感器采集风电发电影响因素的相关数据,如气温、气压、风速、海拔等数据,然后记录这些数据采集的时期内,风电发电厂的风电发电量。将风电发电影响因素的相关数据与对应的风电发电量合称为历史相关数据,并按照采集时间保存在数据库中。
26.进一步地,在需要训练长短期记忆网络模型时,在数据库中获取风电发电厂每个时期的历史相关数据。并对历史相关数据进行缺失值检测,删除历史相关数据中的缺失值,得到预处理后的历史相关数据。
27.s102、基于预处理后的历史相关数据,拟合随机森林回归模型。
28.具体地,将预处理后的历史相关数据中的风电发电量作为因变量,将其他数据作为自变量,拟合随机森林回归模型。
29.随机森林算法是一种广泛使用的机器学习算法,其既可以用于回归也可以用于分类。随机森林回归模型由多棵回归树构成,且森林中的每一棵决策树之间没有关联,模型的最终输出由森林中的每一棵决策树共同决定。每一个回归树最终的预测结果为该样本点所到叶节点的均值,随机森林最终的预测结果为所有回归树预测结果的均值。
30.s103、根据随机森林回归模型,选取用于预测风电发电量的自变量。
31.具体地,通过随机森林回归模型,对每个自变量进行打分,并按照分数对每个自变量进行排序,得到每个自变量对预测风电发电量的重要性排序。在重要性排序中,从前向后选取预设数量的自变量,作为用于预测风电发电量的自变量。
32.作为一种可行的实施方式,随机森林回归模型可以根据自变量对预测因变量的贡
献程度进行打分,得到自变量对预测风电发电量的重要性排序,然后我们去除那些对于预测发电量贡献不大的自变量,只选取那些预测发电量贡献较大的自变量。
33.在一个实施例中,若通过随机森林回归模型得到的自变量的重要性排序为:风速》海拔》气温》气压,那么可以选取前三个或者前两个自变量进行后续的步骤。具体选取几个可以根据实际情况进行调整。
34.s104、根据选取的自变量以及对应的风电发电量,得到训练集以及测试集,通过训练集,训练长短期记忆网络(long short-term memory,lstm)模型。
35.具体地,在历史相关数据中,将选取的自变量的具体数据以及对应的风电发电量取出,并按照3:1的比例,划分为训练集和测试集。通过训练集,对lstm模型进行训练。
36.长短期记忆网络是一种时间循环神经网络,是为了解决一般的rnn(循环神经网络)存在的长期依赖问题而专门设计出来的,主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。简单来说,就是相比普通的rnn,lstm能够在更长的序列中有更好的表现。
37.在一个实施例中,若选取的自变量为风速、海拔和气温这三个自变量,那么在历史相关数据中,取出每个时期采集的风速、海拔、气压以及对应的风电发电量的具体数值,并按照3:1的比例划分为训练集和测试集。
38.s105、将训练好的lstm模型在测试集上进行验证,并根据验证结果,对lstm模型进行优化。
39.具体地,通过测试集,对训练好的lstm模型进行测试。将测试得到的每条预测风电发电量分别与测试集中对应的实际风电发电量进行差值计算。若差值小于第一预设阈值,则对应的验证结果正确。计算验证结果正确的预测风电发电量的数量,占预测风电发电量的总数量的比值,若比值小于第二预设阈值,则调整lstm模型中的相关参数,并再次进行训练,直至比值达到第二预设阈值为止。将优化后的lstm模型部署到对应的设备上,以进行后续的预测工作。
40.在一个实施例中,若测试集中共有100条数据,通过训练好的lstm模型输出了对应的100个预测风电发电量。在计算这100个预测风电发电量与实际风电发电量的差值后,若小于第一预设阈值的差值数量有90个,那么该模型的预测准确率为90%。若第二预设阈值为95%,那么说明lstm模型的预测准确率还没有达标,还需要调整lstm模型的相关参数后,再次进行训练,直至预测准确率达标为止。
41.s106、采集风电发电厂的实时相关数据,并输入到lstm模型中,得到实时预测风电发电量;根据实时预测风电发电量,判断是否需要调配其他电力,以满足用电需求。
42.具体地,根据选取的用于预测风电发电量的自变量,通过传感器组采集对应的实时相关数据。将实时相关数据输入到优化后的lstm模型中,输出对应的实时预测风电发电量。
43.在一个实施例中,若选取的用于预测风电发电量的自变量为风速、海拔和气温,那么通过传感器组分别采集风电发电厂当前的风速、海拔和气温,然后输入到优化后的lstm模型中,得到当前的实时预测风电发电量。
44.进一步地,若实时预测风电发电量大于等于风电发电阈值,则确定风电发电量正常,不需要调配其他电力。若实时预测风电发电量小于风电发电阈值,则向决策者的终端发
出提示信息,提醒决策者调配其他电力以满足用电需求。
45.在一个实施例中,风电发电阈值是根据风电发电厂负责的用电区域的当前时期的用电量确定的。
46.另外,本技术实施例还提供了一种基于随机森林的风电发电量预测设备,如图2所示,基于随机森林的风电发电量预测设备200具体包括:
47.至少一个处理器201;以及,与至少一个处理器201通信连接的存储器202;其中,存储器202存储有能够被至少一个处理器201执行的指令,以使至少一个处理器201能够执行:
48.采集风电发电厂的历史相关数据并进行预处理;
49.基于预处理后的历史相关数据,拟合随机森林回归模型;
50.根据随机森林回归模型,选取用于预测风电发电量的自变量;
51.根据选取的自变量以及对应的风电发电量,得到训练集以及测试集;
52.通过训练集,训练长短期记忆网络lstm模型;
53.将训练好的lstm模型在测试集上进行验证,并根据验证结果,对lstm模型进行优化;
54.采集风电发电厂的实时相关数据,并输入到lstm模型中,得到实时预测风电发电量;
55.根据实时预测风电发电量,判断是否需要调配其他电力,以满足用电需求。
56.本技术实施例提供的一种基于随机森林的风电发电量预测方法及设备,提出了根据气温、湿度、风速等因素预测风电发电量的具体应用,以随机森林算法和lstm深度学习方法为核心技术,将训练数据通过随机森林进行特征提取,然后将特征提取后的数据训练lstm深度学习模型,当传感器获取到新的温度、湿度等信息,就可以根据这些数据来预测风电的发电量,并将预测的发电量信息传递到客户端,方便确定合理的电力调度计划并确保电网安全经济运行。
57.本技术中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
58.上述对本技术特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
59.以上所述仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术的实施例可以有各种更改和变化。凡在本技术实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。