一种基于lgbm决策树的负荷预测方法及系统
技术领域
1.本发明涉及电力数据预测技术领域,尤其涉及一种基于lgbm决策树的负荷预测方法及系统。
背景技术:
2.电力负荷预测对电网的供需平衡以及电力市场的平稳运行具有非常重要的意义,近年来人工智能发展迅速,许多智能算法被引进负荷预测领域。
3.目前,机器学习在负荷预测领域的应用较为广泛,但机器学习模型对样本的依赖性较大,样本的质量直接影响模型预测结果,但目前的电力负荷预测对样本的处理较为简单,容易导致负荷预测的样本质量较低,影响电力负荷预测结果的准确性。
技术实现要素:
4.本发明提供了一种基于lgbm决策树的负荷预测方法及系统,解决了负荷预测的样本质量较低的技术问题。
5.有鉴于此,本发明第一方面提供了一种基于lgbm决策树的负荷预测方法,包括以下步骤:获取同一历史时间窗口内的采样点的历史数据,所述历史数据包括历史负荷数据以及对应的历史气象数据,所述历史气象数据包括温度、风向、风力和湿度;对所述历史数据进行预处理,得到历史纯净数据;在所述历史纯净数据筛选出与待预测日的气象数据的差值在预设差值范围内的历史纯净数据;根据筛选出的历史纯净数据构建样本特征矩阵,所述样本特征矩阵中的元素为每日所有采样点对应的负荷值以及对应的气象数据和是否为节假日情况;构建lgbm决策树,以所述样本特征矩阵作为输入,生成t颗弱回归树,得到该t颗回归树的输出值之和,作为lgbm模型的输出,以得到负荷预测值。
6.优选地,对所述历史数据进行预处理,得到历史纯净数据的步骤具体包括:对所述历史数据进行异常值检测,将检测到的异常值进行剔除;对所述历史数据中的缺失数据进行检测,获取缺失数据对应的采样点的温度,根据所述温度在所述历史数据中匹配到相同温度对应的负荷数据,将匹配到的负荷数据填充至相应的缺失数据中。
7.优选地,在所述历史纯净数据筛选出与待预测日的气象数据的差值在预设差值范围内的历史纯净数据的步骤具体包括:利用下式在所述历史纯净数据筛选出与待预测日的气象数据的差值在预设差值范围内的历史纯净数据:
式中,和分别表示历史纯净数据中的当日最大温度、当日最小温度,和分别表示待预测日的最大温度、最小温度。
8.优选地,本方法还包括:获取待预测日的前两日内的各个采样点对应的负荷值,利用前两日内的各个采样点对应的负荷值进行曲线拟合,得到第一拟合曲线;对待预测日的各个采样点对应的预测负荷值进行曲线拟合,得到第二拟合曲线;对所述第一拟合曲线和所述第二拟合曲线进行相似度计算,若所述相似度小于预设的相似度阈值,则基于线性回归算法对所述预测负荷值进行修正。
9.第二方面,本发明还提供了一种基于lgbm决策树的负荷预测系统,,包括:数据获取模块,用于获取同一历史时间窗口内的采样点的历史数据,所述历史数据包括历史负荷数据以及对应的历史气象数据,所述历史气象数据包括温度、风向、风力和湿度;预处理模块,用于对所述历史数据进行预处理,得到历史纯净数据;数据筛选模块,用于在所述历史纯净数据筛选出与待预测日的气象数据的差值在预设差值范围内的历史纯净数据;矩阵构建模块,用于根据筛选出的历史纯净数据构建样本特征矩阵,所述样本特征矩阵中的元素为每日所有采样点对应的负荷值以及对应的气象数据和是否为节假日情况;负荷预测模块,用于构建lgbm决策树,以所述样本特征矩阵作为输入,生成t颗弱回归树,得到该t颗回归树的输出值之和,作为lgbm模型的输出,以得到负荷预测值。
10.优选地,所述预处理模块具体包括:异常检测模块,用于对所述历史数据进行异常值检测,将检测到的异常值进行剔除;数据填充模块,用于对所述历史数据中的缺失数据进行检测,获取缺失数据对应的采样点的温度,根据所述温度在所述历史数据中匹配到相同温度对应的负荷数据,将匹配到的负荷数据填充至相应的缺失数据中。
11.优选地,数据筛选模块具体用于,利用下式在所述历史纯净数据筛选出与待预测日的气象数据的差值在预设差值范围内的历史纯净数据:式中,和分别表示历史纯净数据中的当日最大温度、当日最小温度,和分别表示待预测日的最大温度、最小温度。
12.优选地,本系统还包括:修正模块,用于对负荷预测值进行修正。
13.从以上技术方案可以看出,本发明具有以下优点:本发明通过获取同一历史时间窗口内的采样点的历史负荷数据以及对应的历史气象数据,并进行预处理,再筛选出与待预测日的气象数据的差值在预设差值范围内的历
史纯净数据,以保证负荷预测样本的质量,并将每日所有采样点对应的负荷值以及对应的气象数据和是否为节假日情况构建为样本特征矩阵,基于lgbm决策树对样本特征矩阵进行处理,得到负荷预测值,从而提高负荷预测的的准确性。
附图说明
14.图1为本发明实施例提供的一种基于lgbm决策树的负荷预测方法的流程图;图2为本发明实施例提供的一种基于lgbm决策树的负荷预测系统的结构示意图。
具体实施方式
15.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
16.为了便于理解,请参阅图1,本发明提供的一种基于lgbm决策树的负荷预测方法,包括以下步骤:s1、获取同一历史时间窗口内的采样点的历史数据,历史数据包括历史负荷数据以及对应的历史气象数据,历史气象数据包括温度、风向、风力和湿度。
17.其中,可以从电力数据库中获取到同一历史时间窗口内的采样点的历史数据,同时,可以设定采样周期,从而确定采样点,在一个示例中,每日设置有96个采样点。
18.s2、对历史数据进行预处理,得到历史纯净数据。
19.s3、在历史纯净数据筛选出与待预测日的气象数据的差值在预设差值范围内的历史纯净数据。
20.可以理解的是,通过对历史纯净数据进行筛选,得到与待预测日的气象数据相近的负荷数据,其作为后续负荷预测的样本数据,可以提高其预测的准确性。
21.s4、根据筛选出的历史纯净数据构建样本特征矩阵,样本特征矩阵中的元素为每日所有采样点对应的负荷值以及对应的气象数据和是否为节假日情况。
22.可以理解的是,考虑到天气情况、是否为节假日对负荷预测的影响,在构建样本特征矩阵时,将每日所有采样点对应的负荷值以及对应的气象数据和是否为节假日情况构建为样本特征矩阵,其中,每个元素可以采用数组形式进行表示。
23.s5、构建lgbm决策树,以样本特征矩阵作为输入,生成t颗弱回归树,得到该t颗回归树的输出值之和,作为lgbm模型的输出,以得到负荷预测值。
24.其中,lgbm决策树可以调用python中的lightgbm机器学习库实现,lgbm决策树可以直接输入类别特征,不需要编码。在训练时采用直方图算法寻找最佳分枝点,有效的提升了训练速度,其基本思想是先把连续的浮点特征值离散化成k个整数,同时构造一个宽度为k的直方图。在遍历数据的时候,根据离散化后的值作为索引在直方图中累积统计量,当遍历一次数据后,直方图累积了需要的统计量,然后根据直方图的离散值,遍历寻找最优的分割点。
25.本发明提供了一种基于lgbm决策树的负荷预测方法,通过获取同一历史时间窗口内的采样点的历史负荷数据以及对应的历史气象数据,并进行预处理,再筛选出与待预测
日的气象数据的差值在预设差值范围内的历史纯净数据,以保证负荷预测样本的质量,并将每日所有采样点对应的负荷值以及对应的气象数据和是否为节假日情况构建为样本特征矩阵,基于lgbm决策树对样本特征矩阵进行处理,得到负荷预测值,从而提高负荷预测的的准确性。
26.在一个具体实施例中,步骤s2具体包括:s201、对历史数据进行异常值检测,将检测到的异常值进行剔除;具体是,可以判断温度数据是否存在异常,若温度过高或过低,则剔除对应的数据;还可以判断负荷数据是否存在异常,若负荷值为负或负荷值过大,则剔除对应数据。
27.s202、对历史数据中的缺失数据进行检测,获取缺失数据对应的采样点的温度,根据温度在历史数据中匹配到相同温度对应的负荷数据,将匹配到的负荷数据填充至相应的缺失数据中。
28.可以理解的是,对于节假日日期,容易出现缺失数据,对缺失数据进行检测后,可以获取当日的温度,利用温度在历史数据中匹配到相同温度对应的负荷数据,将匹配到的负荷数据填充至相应的缺失数据中。
29.在另一实施例中,由于网络或系统问题,负荷或气象数据可能存在缺失值,根据时间排序后,统一对缺失值进行线性插值填充。
30.在一个具体实施例中,步骤s3具体包括:利用下式在历史纯净数据筛选出与待预测日的气象数据的差值在预设差值范围内的历史纯净数据:式中,和分别表示历史纯净数据中的当日最大温度、当日最小温度,和分别表示待预测日的最大温度、最小温度。
31.在一个具体实施例中,本方法还包括:获取待预测日的前两日内的各个采样点对应的负荷值,利用前两日内的各个采样点对应的负荷值进行曲线拟合,得到第一拟合曲线;对待预测日的各个采样点对应的预测负荷值进行曲线拟合,得到第二拟合曲线;对所述第一拟合曲线和所述第二拟合曲线进行相似度计算,若所述相似度小于预设的相似度阈值,则基于线性回归算法对所述预测负荷值进行修正。
32.其中,线性回归算法,具体公式如下:其中,线性回归算法,具体公式如下:为历史负荷值,为对应权重,一般权重均取值为1/n,y为修正后的负荷值。
33.以上为本发明提供的一种基于lgbm决策树的负荷预测方法的实施例的详细描述,以下为本发明提供的一种基于lgbm决策树的负荷预测系统的实施例的详细描述。
34.为了方便理解,请参阅图2,本发明提供的一种基于lgbm决策树的负荷预测系统,
包括:数据获取模块100,用于获取同一历史时间窗口内的采样点的历史数据,历史数据包括历史负荷数据以及对应的历史气象数据,历史气象数据包括温度、风向、风力和湿度;预处理模块200,用于对历史数据进行预处理,得到历史纯净数据;数据筛选模块300,用于在历史纯净数据筛选出与待预测日的气象数据的差值在预设差值范围内的历史纯净数据;矩阵构建模块400,用于根据筛选出的历史纯净数据构建样本特征矩阵,样本特征矩阵中的元素为每日所有采样点对应的负荷值以及对应的气象数据和是否为节假日情况;负荷预测模块500,用于构建lgbm决策树,以样本特征矩阵作为输入,生成t颗弱回归树,得到该t颗回归树的输出值之和,作为lgbm模型的输出,以得到负荷预测值。
35.在一个具体实施例中,预处理模块具体包括:异常检测模块,用于对历史数据进行异常值检测,将检测到的异常值进行剔除;数据填充模块,用于对历史数据中的缺失数据进行检测,获取缺失数据对应的采样点的温度,根据温度在历史数据中匹配到相同温度对应的负荷数据,将匹配到的负荷数据填充至相应的缺失数据中。
36.在一个具体实施例中,数据筛选模块具体用于,利用下式在历史纯净数据筛选出与待预测日的气象数据的差值在预设差值范围内的历史纯净数据:式中,和分别表示历史纯净数据中的当日最大温度、当日最小温度,和分别表示待预测日的最大温度、最小温度。
37.在一个具体实施例中,本系统还包括:第一拟合模块,用于获取待预测日的前两日内的各个采样点对应的负荷值,利用前两日内的各个采样点对应的负荷值进行曲线拟合,得到第一拟合曲线;第二拟合模块,用于对待预测日的各个采样点对应的预测负荷值进行曲线拟合,得到第二拟合曲线;修正模块,用于对所述第一拟合曲线和所述第二拟合曲线进行相似度计算,若所述相似度小于预设的相似度阈值,则基于线性回归算法对所述预测负荷值进行修正。
38.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
39.在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
40.作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络
单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
41.另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
42.以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。