一种电力数据预测模型优化方法及系统与流程

文档序号:31499499发布日期:2022-09-14 08:27阅读:104来源:国知局
一种电力数据预测模型优化方法及系统与流程

1.本本专利涉及到配电网大数据挖掘技术、人工智能技术领域,具体是一种通过设计在线困难样本挖掘损失函数,在训练过程降低易识别样本权重,加速模型收敛的一种电力数据预测模型优化方法及系统。


背景技术:

2.随着经济社会发展,电网系统变电站、配电网络覆盖面不断扩大,大风、雷电、雾霾等灾害性天气对电网安全运行产生的侵扰随之增大,在极端天气的影响下,10kv配电架空线更容易发生跳闸,造成区域电网线路故障停运,影响居民正常的生产生活。
3.近年来,得益于智能电网与大数据技术的蓬勃发展,电力数据呈现数据采集渠道多元化、数据分析维度多样化的特征。架空线电网数据包括气象数据、地理数据、电网特征数据等,随着时间积累,其蕴含的信息量迅速提升。如何通过大数据与人工智能技术挖掘电网状态信息是当下研究的热点。当前学术界及工业界对架空线电网数据挖掘研究主要依赖数据挖掘算法,如随机森林、决策树、人工神经网络等。如上数据挖掘算法对数据依赖性极强,需要大量不含噪音的数据,且正负样本有一定均衡性要求。专利号为cn202110038306的发明专利《模型训练、回归分析的方法、装置、存储介质和设备》利用待训练的回归模型确定样本图像的权重分布;用第一损失函数和第二损失函数对权重分布执行损失计算,得到第一损失值和第二损失值,第一损失函数为对权重分布中与真实值对应的权重进行计算的熵损失函数;第二损失函数为对权重分布中每一个权重和真实值进行计算的加权求和损失函数;对第一损失值和第二损失值运算得到模型损失值;若模型损失值不符合模型收敛条件,根据模型损失值更新待训练的回归模型的参数,再次训练直至符合模型收敛条件为止。然而架空线数据存在大量的长尾数据,即架空线停电感知的停电样本数据相比较正常样本数据少很多,极端情况,一个季度出现一次架空线停电情况,那停电样本与正常样本比例为89:1,数据样本分布极不均衡。
4.虽然通过聚类算法与数据增强算法缓解数据样本均衡问题,但是在训练过程中,仍然存在样本不均衡问题。样本类别不均衡主要体现在两方面:正负样本不均衡(正负样本比例达到1:100)和难易样本不均衡简单样本主导损失函数。这对于机器学习或者深度学习算法训练效率影响极大。对于一个样本,如果它能很容易地被正确分类,那么这个样本对模型来说就是一个简单样本,模型很难从这个样本中得到更多的信息;而对于一个分错的样本,它对模型来说就是一个困难的样本,它更能指导模型优化的方向。对于分类器来说,简单样本的数量非常大,他们产生的累计贡献在模型更新中占主导作用,而这部分样本本身就能被模型很好地分类,所以这部分的参数更新并不会改善模型的判断能力,这会导致整个训练变得低效。


技术实现要素:

5.本发明所要解决的技术问题在于:如何解决在训练过程易识别样本权重高,模型
收敛性低的技术问题。
6.本发明通过以下技术手段实现解决上述技术问题的:提供一种电力数据预测模型优化方法,应用于电力数据预测模型收敛,所述方法包括:
7.采集获取电力结构化信息,据以生成电力状态样本数据;
8.分类识别所述电力状态样本数据,据以获取样本标签信息,针对架空线场景的训练样本不均衡问题,本专利基于强对流天气因素与电网历史故障数据,生成特征数据与对应的真值数据;
9.从预设训练模型中获取训练模型参数和预测目标数据;
10.处理训练模型参数和预测目标数据,以得到样本损失参数;
11.根据样本损失参数处理所述样本标签信息,据以得到自适应样本挖掘数据;
12.以所述自适应样本挖掘数据收敛处理所述预设训练模型,设计在线困难样本挖掘损失函数,在训练过程降低易识别样本权重,加速模型收敛,使得随机森林和神经网络训练性能得到极大提升。
13.作为更具体的技术方案,所述采集获取电力结构化信息,据以生成电力状态样本数据的步骤,包括:
14.从所述电力结构化信息中获取架空线特征数据;
15.量纲统一处理所述架空线特征数据,以得到特征向量数据。
16.作为更具体的技术方案,所述分类识别所述电力状态样本数据,据以获取样本标签信息的步骤,包括:
17.训练所述预设训练模型,识别训练中样本训练难度数据;
18.根据所述样本训练难度数据分类处理所述电力状态样本数据,以得到易分样本和难分样本;
19.从所述易分样本和所述难分样本提取所述样本标签信息。
20.作为更具体的技术方案,所述从预设训练模型中获取训练模型参数和预测目标数据的步骤,包括:
21.提取所述预设训练模型中的模型预测值数据;
22.处理所述模型预测值数据,以得到所述预测目标数据。
23.作为更具体的技术方案,所述提取所述预设训练模型中的模型预测值数据的步骤中,所述模型预测值数据为模型预测概率。
24.作为更具体的技术方案,所述处理训练模型参数和所述预测目标数据,以得到样本损失参数的步骤,包括:
25.按照下述逻辑:
26.loss(p)=-(1-p)
γ
log(p)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
27.处理所述训练模型参数和所述预测目标数据,式(1)中(1-p)
γ
为调变因子,p为模型预测值。这里γ≥0,定义为聚焦参数,通过该损失函数提升机器学习或者深度学习模型性能,损失函数应用到人工神经网络训练过程中,使得神经网络训练收敛速度明显提升,并且性能也提升很大。
28.作为更具体的技术方案,所述根据样本损失参数处理所述样本标签信息,据以得到自适应样本挖掘数据的步骤,包括:
29.根据所述样本损失参数处理所述样本标签信息,以得到样本权重数据;
30.根据所述样本权重数据处理所述样本标签信息,据以得到所述自适应样本挖掘数据,本专利针对架空线停电预测模型训练训练中数据不均衡问题,提出在线困难样本挖掘算法提升模型训练效率,加速模型收敛速度,并最终提升机器学习或者深度学习模型性能。
31.作为更具体的技术方案,所述根据所述样本权重数据处理所述样本标签信息,据以得到所述自适应样本挖掘数据的步骤,包括:
32.检测模型训练过程,据以得到所述样本权重数据;
33.获取检测模型的调变因子数据;
34.根据所述调变因子数据调整所述易分样本和所述难分样本的权重,使得模型训练更关注于困难的、错分的样本,本发明针对强对流天气下架空线停电预测模型训练样本均衡问题,本专利设计自适应困难样本挖掘损失函数,使得模型训练过程中更加关注于困难样本,最终能够让深度学习模型或者机器学习模型深度挖掘架空线大数据,获得高性能的深度学习或者机器学习模型。
35.作为更具体的技术方案,所述根据所述调变因子数据调整所述易分样本和所述难分样本的权重的步骤,包括:
36.获取样本分类状态数据;
37.根据所述样本分类判断数据判断样本是否发生错误;
38.若是,则判定该样本为所述难分样本,通过上述自适应困难样本挖掘损失函数,在实际训练过程中,使得模型训练更加关注停电状态预测不准的样本,对于易分样本,模型尽可能降低其损失函数权重,这样极大的提升了模型训练效率与性能;
39.根据所述调变因子数据提升当前所述难分样本的权重,这样减少了简单样本的影响,大量预测概率很小的样本叠加起来后的效应才可能比较有效;
40.若否,则判定该样本为所述易分样本;
41.根据所述调变因子数据降低当前所述易分样本的权重。
42.作为更具体的技术方案,一种电力数据预测模型优化系统,所述系统包括:
43.样本采集生成模块,用以采集获取电力结构化信息,据以生成电力状态样本数据;
44.标签处理模块,用以分类识别所述电力状态样本数据,据以获取样本标签信息,标签处理模块连接样本采集生成模块;
45.模型参数模块,用以从预设训练模型中获取训练模型参数和预测目标数据;
46.损失参数模块,用以处理训练模型参数和预测目标数据,以得到样本损失参数,损失参数模块连接模型参数模块;
47.自适应挖掘参数模块,用以根据样本损失参数处理所述样本标签信息,据以得到自适应样本挖掘数据,自适应挖掘参数模块连接标签处理模块和损失参数模块;
48.模型优化模块,用于以所述自适应样本挖掘数据收敛处理所述预设训练模型,模型优化模块连接模型参数模块、自适应挖掘参数模块,针对强对流天气下架空线停电预测模型训练样本均衡问题,本专利设计自适应困难样本挖掘损失函数,使得模型训练过程中更加关注于困难样本,最终能够让深度学习模型或者机器学习模型深度挖掘架空线大数据,获得高性能的深度学习或者机器学习模型。
49.本发明相比现有技术具有以下优点:本发明提供的一种电力数据预测模型方法及
系统能够通过设计自适应困难样本挖掘损失函数,使得模型训练过程中更加关注于困难样本,最终能够让深度学习模型或者机器学习模型深度挖掘架空线大数据,获得高性能的深度学习或者机器学习模型,解决了在训练过程易识别样本权重高,模型收敛性低的技术问题。
附图说明
50.图1是电力数据预测模型优化方法的流程示意图;
51.图2是生成电力状态样本数据示意图;
52.图3是样本标签信息获取流程示意图;
53.图4是训练模型设置流程示意图;
54.图5是自适应样本挖掘参数处理流程示意图;
55.图6是样本标签信息处理示意图;
56.图7是易分样本和难分样本的权重处理流程示意图;
57.图8是电力数据预测模型优化系统模块连接示意图;
58.图9是模型预测示意图。
具体实施方式
59.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
60.如图1所示,提供一种电力数据预测模型优化方法,应用于预测模型收敛,方法包括:
61.s1、采集获取电力结构化信息,据以生成电力状态样本数据。实际训练过程中,本专利取γ=2,停电状态样本规模在5000条,正常状态样本规模在50000条,首先综合分析并处理天气、地理、电网历史故障等状态大数据,形成架空线结构化信息特征,本专利具体算法分为样本类型定义、自适应困难样本挖掘损失函数优化两部分。如下详细介绍两部分原理及实际算法过程;
62.s2、分类识别电力状态样本数据,据以获取样本标签信息,针对架空线场景的训练样本不均衡问题,本专利基于强对流天气因素与电网历史故障数据,生成特征数据与对应的真值数据;
63.s3、从预设训练模型中获取训练模型参数和预测目标数据,在架空线停电预测模型训练任务中,架空线停电数据条目可能是数百条规模,正常状态数据条目在百万甚至千万规模;
64.s4、处理训练模型参数和预测目标数据,以得到样本损失参数;
65.s5、根据样本损失参数处理样本标签信息,据以得到自适应样本挖掘数据,在模型训练过程中,改进交叉熵损失函数,使得损失函数能够根据模型预测情况自适应调整样本损失权重,使得损失函数更加关注难分样本;
66.s6、以自适应样本挖掘数据收敛处理预设训练模型,设计在线困难样本挖掘损失
函数,在训练过程降低易识别样本权重,加速模型收敛,使得随机森林和神经网络训练性能得到极大提升。
67.如图2所示,采集获取电力结构化信息,据以生成电力状态样本数据的步骤s1,包括:
68.s11、从电力结构化信息中获取架空线特征数据,本专利利用的特征数据包括气象特征、地理特征、电网特征数据;
69.s12、量纲统一处理架空线特征数据,以得到特征向量数据,气象特征包括强对流雷达强度最大值f1、雷电电流大小f2、和雷电回击次数f3;地理特征包括高程l1、坡度l2、坡向l3;电网数据包括过载次数n1、重载次数n2、缺陷次数n3。由于上述数据量纲不一致,对机器学习模型训练不友好,本专利利用如下过程将数据进行量纲统一。
70.x

=(x-x
mean
)/x
std
71.其中,x

为量纲统一后的变量数值;x为原始变量数值;x
mean
和x
std
分别为原始变量中的均值和标准差。经过上述量纲统一后,得到算法输入input_data=(f1,f2,f3,l1,l2,l3,n1,n2,n3)


72.如图3所示,分类识别电力状态样本数据,据以获取样本标签信息的步骤s3,包括:
73.s31、训练预设训练模型,识别训练中样本训练难度数据,根据深度学习或者机器学习训练过程中的样本识别难易程度,可以定义如下四种类别的样本,易分正样本:容易正确分类的正样本,在实际训练过程中,该类占总体样本的比重非常高,单个样本的损失函数较小,但是累计的损失函数会主导损失函数,易分负样本:容易正确分类的负样本,在实际训练过程中,该类占的比重非常高,单个样本的损失函数较小,但是累计的损失函数会主导损失函数,难分正样本:错分成负样本的正样本,这部分样本在训练过程中单个样本的损失函数比较高,但是该类占总体样本的比例较小。难分负样本:错分成正样本的负样本,这部分样本在训练过程中单个样本的损失函数比较高,但是该类占总体样本的比例较小;
74.s32、根据样本训练难度数据分类处理电力状态样本数据,以得到易分样本和难分样本,根据架空线停电预测任务与机器学习模型或者深度学习模型,将样本分为易分正样本、易分负样本、难分正样本、难分负样本;
75.s33、从易分样本和难分样本提取样本标签信息。
76.如图4及图9所示,从预设训练模型中获取训练模型参数和预测目标数据的步骤s5,包括:
77.s51、提取预设训练模型中的模型预测值数据,在架空线停电预测任务中,定义正样本类别为架空线停电状态样本类别,定义负样本类别为架空线正常状态样本类别。如下是架空线停电预测深度学习模型或者机器学习模型训练框架;
78.s52、处理模型预测值数据,以得到预测目标数据。
79.提取预设训练模型中的模型预测值数据的步骤中,模型预测值数据为模型预测概率。
80.处理训练模型参数和预测目标数据,以得到样本损失参数的步骤s7,包括:
81.按照下述逻辑:
82.loss(p)=-(1-p)
γ
log(p)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
83.处理训练模型参数和预测目标数据,式(1)中(1-p)
γ
为调变因子,p为模型预测值。
这里γ≥0,定义为聚焦参数,聚焦参数(γ)平滑地调整易于分类的示例向下加权的速率。自适应困难样本损失函数首先在原有损失函数基础上加了一个因子,其中γ》0使得减少易分类样本的损失。本发明采用自适应困难样本挖掘损失函数。本专利首先介绍机器学习/深度学习模型常用分类损失函数:交叉熵损失函数,然后介绍在此基础上改进的自适应困难样本挖掘损失函数,本专利将停电预测问题建模层二分类问题,即停电类别与正常类别。常规模型训练利用交叉熵损失函数来优化机器学习/深度学习模型参数。在二分的情况下,模型最后需要预测的结果只有两种情况,我们假定停电状态置信度为p,则正常状态置信度为1-p。此时表达式为:
[0084][0085]
其中y∈{0,1}是真实标签。在本任务中,神经网络最后一层得到每个类别的得分停电score与正常score;该得分经过sigmoid(或softmax)函数获得概率输出;模型预测的类别概率输出与真实类别的one hot形式进行交叉熵损失函数的计算。由上述损失函数优化公式可见普通的交叉熵对于正样本而言,输出概率越大损失越小。对于负样本而言,输出概率越小则损失越小。此时的损失函数在大量简单样本的迭代过程中比较缓慢且可能无法优化至最优。通过该损失函数提升机器学习或者深度学习模型性能,该损失函数应用到人工神经网络训练过程中,使得神经网络训练收敛速度明显提升,并且性能也提升很大。
[0086]
如图5所示,根据样本损失参数处理样本标签信息,据以得到自适应样本挖掘数据的步骤s5,包括:
[0087]
s51、根据样本损失参数处理样本标签信息,以得到样本权重数据,为此,本专利改进普通的交叉损失函数,它使容易分类的样本权重降低,而对难分类的样本权重增加;
[0088]
s52、根据样本权重数据处理样本标签信息,据以得到自适应样本挖掘数据,本专利针对架空线停电预测模型训练训练中数据不均衡问题,提出在线困难样本挖掘算法提升模型训练效率,加速模型收敛速度,并最终提升机器学习或者深度学习模型性能。
[0089]
如图6所示,根据样本权重数据处理样本标签信息,据以得到自适应样本挖掘数据的步骤s93,包括:
[0090]
s521、检测模型训练过程,据以得到样本权重数据;
[0091]
s522、获取检测模型的调变因子数据;
[0092]
s523、根据调变因子数据调整易分样本和难分样本的权重,使得模型训练更关注于困难的、错分的样本,本发明针对强对流天气下架空线停电预测模型训练样本均衡问题,本专利设计自适应困难样本挖掘损失函数,使得模型训练过程中更加关注于困难样本,最终能够让深度学习模型或者机器学习模型深度挖掘架空线大数据,获得高性能的深度学习或者机器学习模型。
[0093]
如图7所示,根据调变因子数据调整易分样本和难分样本的权重的步骤s523,包括:
[0094]
s5231、获取样本分类状态数据;
[0095]
s5232、根据样本分类判断数据判断样本是否发生错误。举例而言,γ为2时,对于正类样本而言,预测结果为0.95肯定是简单样本,所以(1-0.95)的γ次方就会很小,这时损失函数值就变得更小。而预测概率为0.3的样本其损失相对很大。对于负类样本而言同样,
预测0.1的结果应当远比预测0.7的样本损失值要小得多。对于预测概率为0.5时,损失只减少了0.25倍。所以更加关注于这种难以区分的样本,这样减少了简单样本的影响,大量预测概率很小的样本叠加起来后的效应才可能比较有效;
[0096]
s5233、若是,则判定该样本为难分样本,通过前述自适应困难样本挖掘损失函数,在实际训练过程中,使得模型训练更加关注停电状态预测不准的样本,对于易分样本,模型尽可能降低其损失函数权重,这样极大的提升了模型训练效率与性能;根据所述调变因子数据提升当前所述难分样本的权重;
[0097]
s5234、根据调变因子数据提升当前难分样本的权重,当样本分类错误时,p趋于0,调变因子趋于1,使得损失函数几乎不受影响。这样减少了简单样本的影响,大量预测概率很小的样本叠加起来后的效应才可能比较有效;
[0098]
s5235、若否,则判定该样本为易分样本;
[0099]
s5236、根据调变因子数据降低当前易分样本的权重。另一方面,如果示例被正确分类,p将趋于1,调变因子将趋向于0,使得损耗非常接近于0,从而降低了该特定示例的权重。本专利针对架空线停电预测模型训练训练中数据不均衡问题,提出在线困难样本挖掘算法提升模型训练效率,加速模型收敛速度,并最终提升机器学习或者深度学习模型性能。
[0100]
如图8所示,一种电力数据预测模型优化系统1,系统包括:
[0101]
样本采集生成模块11,用以采集获取电力结构化信息,据以生成电力状态样本数据;
[0102]
标签处理模块12,用以分类识别所述电力状态样本数据,据以获取样本标签信息,标签处理模块12连接样本采集生成模块11;
[0103]
模型参数模块13,用以从预设训练模型中获取训练模型参数和预测目标数据;
[0104]
损失参数模块14,用以处理训练模型参数和预测目标数据,以得到样本损失参数,损失参数模块14连接模型参数模块13;
[0105]
自适应挖掘参数模块15,用以根据样本损失参数处理所述样本标签信息,据以得到自适应样本挖掘数据,自适应挖掘参数模块15连接标签处理模块12和损失参数模块14;
[0106]
模型优化模块16,用于以所述自适应样本挖掘数据收敛处理所述预设训练模型,模型优化模块16连接模型参数模块13、自适应挖掘参数模块15。
[0107]
实施例1:
[0108]
针对强对流天气下架空线停电预测模型训练样本均衡问题,本专利设计自适应困难样本挖掘损失函数,使得模型训练过程中更加关注于困难样本,最终能够让深度学习模型或者机器学习模型深度挖掘架空线大数据,获得高性能的深度学习或者机器学习模型。
[0109]
本专利具体算法分为样本类型定义、自适应困难样本挖掘损失函数优化两部分。如下详细介绍两部分原理及实际算法过程。
[0110]
数据样本:
[0111]
本专利利用的特征数据包括气象特征、地理特征、电网特征数据。气象特征包括强对流雷达强度最大值f1、雷电电流大小f2、和雷电回击次数f3;地理特征包括高程l1、坡度l2、坡向l3;电网数据包括过载次数n1、重载次数n2、缺陷次数n3;
[0112]
由于上述数据量纲不一致,对机器学习模型训练不友好,本专利利用如下过程将数据进行量纲统一。
[0113]
x

=(x-x
mean
)/x
std
[0114]
其中,x

为量纲统一后的变量数值;x为原始变量数值;x
mean
和x
std
分别为原始变量中的均值和标准差。经过上述量纲统一后,得到算法输入input_data=(f1,f2,f3,l1,l2,l3,n1,n2,n3)

[0115]
在架空线停电预测任务中,定义正样本类别为架空线停电状态样本类别,定义负样本类别为架空线正常状态样本类别。如下是架空线停电预测深度学习模型或者机器学习模型训练框架。
[0116]
根据深度学习或者机器学习训练过程中的样本识别难易程度,可以定义如下四种类别的样本。
[0117]
易分正样本:容易正确分类的正样本,在实际训练过程中,该类占总体样本的比重非常高,单个样本的损失函数较小,但是累计的损失函数会主导损失函数
[0118]
易分负样本:容易正确分类的负样本,在实际训练过程中,该类占的比重非常高,单个样本的损失函数较小,但是累计的损失函数会主导损失函数
[0119]
难分正样本:错分成负样本的正样本,这部分样本在训练过程中单个样本的损失函数比较高,但是该类占总体样本的比例较小
[0120]
难分负样本:错分成正样本的负样本,这部分样本在训练过程中单个样本的损失函数比较高,但是该类占总体样本的比例较小
[0121]
自适应困难样本挖掘损失函数:
[0122]
本专利首先介绍机器学习/深度学习模型常用分类损失函数:交叉熵损失函数,然后介绍在此基础上改进的自适应困难样本挖掘损失函数。
[0123]
本专利将停电预测问题建模层二分类问题,即停电类别与正常类别。常规模型训练利用交叉熵损失函数来优化机器学习/深度学习模型参数。在二分的情况下,模型最后需要预测的结果只有两种情况,我们假定停电状态置信度为p,则正常状态置信度为1-p。
[0124]
此时表达式为:
[0125][0126]
其中y∈{0,1}是真实标签。
[0127]
在本任务中,神经网络最后一层得到每个类别的得分停电score与正常score;该得分经过sigmoid(或softmax)函数获得概率输出;模型预测的类别概率输出与真实类别的one hot形式进行交叉熵损失函数的计算。
[0128]
由上述损失函数优化公式可见普通的交叉熵对于正样本而言,输出概率越大损失越小。对于负样本而言,输出概率越小则损失越小。此时的损失函数在大量简单样本的迭代过程中比较缓慢且可能无法优化至最优。
[0129]
为此,本专利改进普通的交叉损失函数,它使容易分类的样本权重降低,而对难分类的样本权重增加。如下是自适应困难样本损失函数:
[0130]
loss(p)=-(1-p)
γ
log(p)
[0131]
(1-p)
γ
为调变因子,p为模型预测值。这里γ≥0,定义为聚焦参数。
[0132]
自适应困难样本损失函数首先在原有损失函数基础上加了一个因子,其中γ》0使得减少易分类样本的损失。使得更关注于困难的、错分的样本。举例而言,γ为2时,对于正
类样本而言,预测结果为0.95肯定是简单样本,所以(1-0.95)的γ次方就会很小,这时损失函数值就变得更小。而预测概率为0.3的样本其损失相对很大。对于负类样本而言同样,预测0.1的结果应当远比预测0.7的样本损失值要小得多。对于预测概率为0.5时,损失只减少了0.25倍。所以更加关注于这种难以区分的样本。这样减少了简单样本的影响,大量预测概率很小的样本叠加起来后的效应才可能比较有效。
[0133]
从上述定义中可以提取出自适应困难样本挖掘损失函数的两个性质:
[0134]
1)当样本分类错误时,p趋于0,调变因子趋于1,使得损失函数几乎不受影响。另一方面,如果示例被正确分类,p将趋于1,调变因子将趋向于0,使得损耗非常接近于0,从而降低了该特定示例的权重
[0135]
2)聚焦参数(γ)平滑地调整易于分类的示例向下加权的速率。
[0136]
根据上述公式,本专利将损失函数替换为自适应困难样本挖掘损失函数。如下图所示:
[0137]
在架空线停电预测模型训练任务中,架空线停电数据条目可能是数百条规模,正常状态数据条目在百万甚至千万规模。通过上述自适应困难样本挖掘损失函数,在实际训练过程中,使得模型训练更加关注停电状态预测不准的样本,对于易分样本,模型尽可能降低其损失函数权重,这样极大的提升了模型训练效率与性能。实际训练过程中,本专利取γ=2,停电状态样本规模在5000条,正常状态样本规模在50000条,该损失函数应用到人工神经网络训练过程中,使得神经网络训练收敛速度明显提升,并且性能也提升很大。
[0138]
本发明提供的一种电力数据预测模型优化方法及系统,相比于现有技术具有以下有益效果:本发明针对强对流天气下架空线停电预测模型训练样本均衡问题,本专利设计自适应困难样本挖掘损失函数,使得模型训练过程中更加关注于困难样本,最终能够让深度学习模型或者机器学习模型深度挖掘架空线大数据,获得高性能的深度学习或者机器学习模型。本专利针对架空线停电预测模型训练训练中数据不均衡问题,提出在线困难样本挖掘算法提升模型训练效率,加速模型收敛速度,并最终提升机器学习或者深度学习模型性能。本发明解决了在训练过程易识别样本权重高,模型收敛性低的技术问题。
[0139]
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1