窃电行为识别方法、系统、终端设备及存储介质与流程

文档序号:27211942发布日期:2021-11-03 15:06阅读:170来源:国知局
窃电行为识别方法、系统、终端设备及存储介质与流程

1.本发明涉及窃电行为检测技术领域,具体涉及一种窃电行为识别方法、系统、终端设备及存储介质。


背景技术:

2.随着用电量的大幅增大,各类窃电行为日益严重,窃电主体也从以前的私人组织到现在演变成企业、事业单位窃电。针对窃电行为识别,传统方法包括以下几种,一种是采用物理方法,通过优化计量箱的结构、改变计量箱的材质,以削弱高频信号和强磁信号带来的干扰,但是这种方法在改善电量流失方面作用有限,窃电防范管理水平仍然得不到有效地提高。另一种是通过防窃电装置进行用电行为的监管,但是该方法仅能起到预防作用,而无法对窃电行为进行有效分析。
3.为了进一步加强窃电行为的监管,现有技术推出一种新的检测技术,即基于 dbn的网络入侵检测技术,该项技术通过单一的深度置信网络dbn算法来进行数据的拟合检测。dbn算法虽然具备强大的训练能力,但是在数据输入处理方面却没有考虑到处理速度是否受限以及本身训练所需的参数是否达到最优状态的问题,因此无法保证训练结果的可靠性。因此,单一地采用dbn算法是无法满足实际窃电行为的监管需求。


技术实现要素:

4.本发明的目的在于提供一种窃电行为识别方法、系统、终端设备及存储介质,以解决现有窃电行为识别方法中存在的局限性强、识别结果不够准确的技术问题。
5.为了克服上述现有技术中的缺陷,本发明提供一种窃电行为识别方法,包括:
6.采集待测用户的历史用电数据,按第一预设比例将所述历史用电数据分为第一训练样本和测试样本;
7.对所述第一训练样本进行降维处理,利用降维后的训练样本对dbn模型训练,得到目标dbn模型及第一输出结果;
8.对所述第一输出结果进行加权,得到异常检测阈值;
9.将所述测试样本输入至所述目标dbn模型,得到第二输出结果,利用所述第二输出结果确定待测用户用电行为的目标检测值;
10.判断所述目标检测值是否大于所述异常检测阈值;若是,则当前待测用户用电行为正常;若否,则当前待测用户用电行为异常。
11.进一步地,所述利用降维后的训练样本对dbn模型训练,得到目标dbn模型,包括:
12.利用sampling算法从降维后的训练样本抽取第二预设比例的样本,作为第二训练样本,将剩余降维后的训练样本作为第三训练样本;
13.将所述第二训练样本输入至多个第一dbn模型以进行无监督预训练,得到多个第二dbn模型及对应的网络参数;
14.根据所述多个第二dbn模型,将所述第三训练样本输入至任意一个第二 dbn模型
以进行微调,利用微调后的网络参数确定目标dbn模型。
15.进一步地,在将所述第二训练样本输入至多个第一dbn模型以进行无监督预训练之前,还包括:
16.利用ag算法对原始dbn模型的网络参数进行全局寻优,将寻优结果作为第一dbn模型的网络参数。
17.进一步地,所述第一输出结果包括:将所述第二训练样本输入至多个第一 dbn模型后的输出结果,及将所述第三训练样本输入至任意一个第二dbn模型后的输出结果。
18.进一步地,利用lasso对所述第一输出结果进行稀疏化加权处理,得到异常检测阈值。
19.进一步地,利用pca算法对所述第一训练样本进行降维处理。
20.进一步地,所述利用所述第二输出结果确定待测用户用电行为的目标检测值,包括:
21.计算所述第二输出结果的检出率及误检率;
22.以所述检出率为横坐标、所述误检率为纵坐标建立roc曲线,将距离坐标 (0,1)最近的点作为目标检测值。
23.本发明还提供一种窃电行为识别系统,包括:
24.数据获取单元,用于采集待测用户的历史用电数据,按第一预设比例将所述历史用电数据分为第一训练样本和测试样本;
25.预训练单元,用于对所述第一训练样本进行降维处理,利用降维后的训练样本对dbn模型训练,得到目标dbn模型及第一输出结果;
26.加权处理单元,用于对所述第一输出结果进行加权,得到异常检测阈值;
27.目标检测值确定单元,用于将所述测试样本输入至所述目标dbn模型,得到第二输出结果,利用所述第二输出结果确定待测用户用电行为的目标检测值;
28.用电行为判断单元,用于判断所述目标检测值是否大于所述异常检测阈值;若是,则当前待测用户用电行为正常;若否,则当前待测用户用电行为异常。
29.本发明还提供一种终端设备,包括:处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上任一项所述的窃电行为识别方法。
30.本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行实现如上任一项所述的窃电行为识别方法。
31.相对于现有技术,本发明的有益效果在于:
32.本发明通过利用pca算法对待训练样本进行降维处理,为后续的训练降低计算难度;通过利用dbn模型对降维后的数据进行无监督训练,同时利用ag算法为dbn提供最优的网络参数,满足dbn网络的训练需要,以输出最佳的待测用户的异常检测阈值;最后对待测样本进行模拟动态检测以输出直观的roc曲线,并判断目标检测值与待测用户的异常检测阈值的关系是否符合正常的用电行为。本发明能够提高用户窃电行为行为识别的准确率,进而增强供电系统的安全性和可靠性,具有成本低、精确度高及适用性强的优点。
附图说明
33.为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
34.图1是本发明某一实施例提供的窃电行为识别方法的流程示意图;
35.图2是本发明某一实施例提供的窃电行为识别系统的结构示意图;
36.图3是本发明某一实施例提供的终端设备的结构示意图。
具体实施方式
37.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
38.应当理解,文中所使用的步骤编号仅是为了方便描述,不作为对步骤执行先后顺序的限定。
39.应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
40.术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
41.术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
42.第一方面:
43.请参阅图1,本发明某一实施例提供了一种窃电行为识别方法,包括以下步骤:
44.s10、采集待测用户的历史用电数据,按第一预设比例将所述历史用电数据分为第一训练样本和测试样本。
45.本步骤中,首先采集待测用户在预设时间范围(过去1年)内的每小时的用电量数据作为原始参考数据,作为历史用电数据;需要说明的是,过去1年的用电量数据只是本实施例中数据采集的一种优选方式,在实际应用中,可以根据需要选择其他时间范围的数据,在此不作任何限制。
46.进一步地,在获取好历史用电数据后,按照第一预设比例将所述历史用电数据分为第一训练样本和测试样本,通常第一预设比例可设为7:3或者8:2。同样地,在实际应用中,可以根据环境需要选择其他比例作为第一预设比例,在此也不作任何限制。
47.具体地,本实施例中的第一训练样本设为x
r
,测试样本设为x
j
。然后,对第一训练样本x
r
按照一定规则进行尺度划分,得到分类后的第一训练样本:例如,对第一训练样本x
r
中所包含用户的用电数据按照连续30天的时间尺度进行划分,得到x
j
=(x1,x2,

,x
720
),
48.s20、对所述第一训练样本进行降维处理,利用降维后的训练样本对dbn模型训练,得到目标dbn模型及第一输出结果;
49.本步骤中,基于步骤s10中的到的训练样本x
j
,对该训练样本x
j
进行降维处理,以得到质量更高的训练样本,然后用该质量更高的样本对dbn模型进行训练。需要说明的是,dbn模型即深度置信网络模型,其每一层的隐含层代表对输入模式的一种中间表示,每一个神经元代表输入数据的一个特征,神经元和神经元之间的连接关系表示这些特征之间的联系,这些特征和连接关系的综合构成了对输入数据的一种抽象表示。其中,dbn模型逐层进行特征提取和重构,层数越高,隐含层中的神经元节点数越少,对输入模式表示越简单,因此采用这种方式就能够把一个复杂的输入模式简单化,最终得到一个简单的输出。
50.在某一实施例中,对第一训练样本进行降维处理采用主成分分析算法,即 pca算法。需要说明的是,pca算法是一种常用的数据分析方法。pca通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。
51.具体地,利用pca算法进行降维处理包括以下步骤:
52.1.1)计算n维样本x
j
的投影数据方差σ2,获取样本x
j
的分散程度:
[0053][0054]
式中,v为投影单位向量,v
t
为v的转置向量,n为样本数量。
[0055]
令则有:
[0056]
σ2=v
t
c
x
v
[0057]
1.2)对pca降维的优化问题进行建模:
[0058][0059]
1.3)利用拉格朗日方程求解最优化值,得到:
[0060]
f(v,λ)=v
t
c
x
v

λ(‖v‖

1)=v
t
c
x
v

λ(v
t
v

1)
[0061]
式中,λ为拉格朗日乘子。
[0062]
对f(v,λ)进行微分求解,得到:
[0063][0064]
因此,maxσ2=max v
t
c
x
v=max v
t
λv=maxλ
[0065]
计算投影数据对x
j
的贡献率r:
[0066][0067]
当r趋向于1时,说明有k(k≤n)组投影数据能够完全表征原始样本数据,即通过pca对x
j
降维处理后得到x
f
=(x
f1
,x
f2


,x
fk
)。
[0068]
进一步地,本实施例中利用降维后的训练样本对dbn模型训练,得到目标 dbn模型及第一输出结果。
[0069]
在某一实施例中,所述利用降维后的训练样本对dbn模型训练,得到目标 dbn模型,包括:
[0070]
2.1)利用sampling算法从降维后的训练样本抽取第二预设比例的样本,作为第二训练样本,将剩余降维后的训练样本作为第三训练样本。
[0071]
其中,利用sampling算法从x
r
中按照第二预设比例循环抽取少量样本,得到
[0072]
2.2)将所述第二训练样本输入至多个第一dbn模型以进行无监督预训练,得到多个第二dbn模型及对应的网络参数。
[0073]
在某一个实施例中,在将所述第二训练样本输入至多个第一dbn模型以进行无监督预训练之前,还包括:
[0074]
利用ag算法对原始dbn模型的网络参数进行全局寻优,将寻优结果作为第一dbn模型的网络参数。
[0075]
需要说明的是,蚁群算法(ag)是一种模拟蚂蚁觅食行为的模拟优化算法,其基本原理包括:a)蚂蚁在路径上释放信息素;b)碰到还没走过的路口,就随机挑选一条路走。同时,释放与路径长度有关的信息素;c)信息素浓度与路径长度成反比。后来的蚂蚁再次碰到该路口时,就选择信息素浓度较高路径;d)最优路径上的信息素浓度越来越大;e)最终蚁群找到最优寻食路径。
[0076]
具体地,本实施例中ag算法进行全局寻优的过程包括:
[0077]
a)计算原始dbn模型某一时刻网络参数θ的变化概率:
[0078][0079]
式中,n∈j
s
(m),j
s
(m)为网络参数θ的变化趋势上所组成的集合,τ
mn
(t)为变化趋势上的信息素浓度,γ
mn
(t)为启发式信息,即为原始网络参数θ的信息,α为信息素浓度的启发因子,β为启发因子的期望值,m、n分别为变化始末点,s 为网络参数θ中的各参数值。
[0080]
b)对信息素浓度进行更新,并计算更新后的变化概率:
[0081]
τ
mn
(t+1)=(1

ρ)τ
mn
(t)+δτ
mn
(t)
[0082]
式中,δτ
mn
(t)为信息素增量值,为残留信息素值,q为信息素强度值,l
s
为变化路径的长度,ρ为信息素挥发因子。
[0083]
c)当更新后的当网络参数θ的变化概率小于或等于预设阈值时,将此时的信息素浓度作为网络参数的最优结果a1。其中,w
ij
为权值,代表dbn模型中的输入层与隐藏层之间的关系,b
i
为输入层的偏置向量,c
j
为隐藏层的偏置向量。
[0084]
进一步地,执行步骤2.2),即将所述第二训练样本输入至多个第一dbn模型以进行无监督预训练,得到多个第二dbn模型及对应的网络参数。
[0085]
具体地,步骤2.2)中,设置第一dbn模型中的各参数值,具体为:输入层的神经元个数为40,第一隐藏层的神经元个数为50,第二隐藏层的神经元个数为20,输出层的神经元个数为1,学习速率为0.3,动量项为0.3,批处理量为10,迭代次数为20,目标误差值为0.0001。
[0086]
然后,对初始训练样本进行归一化处理,将处理后的样本输入至待训练的第一dbn模型,得到输出结果。具体地,归一化处理为:
[0087][0088]
式中,x为归一化值,x
min
为样本数据的最小值,x
max
为样本数据的最大值,x为初始数据。
[0089]
进一步地,根据该输出结果,计算训练后的第一dbn模型输出结果的误差;
[0090][0091]
然后,利用误差值e对权值w
ij
进行修正:
[0092][0093]
式中,η为学习速率。
[0094]
最后,利用修正后的w
ij
调整b
i
、c
j
,输出训练后的网络参数a2。即第二dbn 模型的网络参数为a2。
[0095]
2.3)根据所述多个第二dbn模型,将所述第三训练样本输入至任意一个第二dbn模型以进行微调,利用微调后的网络参数确定目标dbn模型。
[0096]
具体地,从n个第二dbn模型中选取第m个第二dbn模型,以为训练样本,并将第m个第二dbn模型中的网络参数a2微调为a3。
[0097]
需要说明的是,在本实施例中还需要获取第一输出结果,所述第一输出结果为将所述第二训练样本输入至多个第一dbn模型后的输出结果,及将所述第三训练样本输入至任意一个第二dbn模型后的输出结果。也即第一dbn模型、第二dbn模型对训练样本x
r
的输出值y=(y
ij
)
k
×
n

[0098]
s30、对所述第一输出结果进行加权,得到异常检测阈值。
[0099]
本步骤中,主要利用lasso对弱分类器稀疏化,得到外权值β={β1,β2,

,β
n
},对弱分类器进行加权,获取模型输出分类器进行加权,获取模型输出以作为该模型对第i个待测用户的单一时间点的异常检测阈值。
[0100]
在某一实施例中,步骤s30又包括以下子步骤:
[0101]
3.1)利用lasso对弱分类器稀疏化,得到外权值;
[0102]
其中lasso算法的计算公式为:
[0103][0104]
式中,β
j
为第j个弱分类器的外权,λ∈[0,+∞)为惩戒因子,l
i
为第i个训练样本标签。
[0105]
3.2)利用所述外权值对弱分类器的输出值进行加权。
[0106]
具体地,获取弱分类器的外权值β={β1,β2,

,β
n
},对各个弱分类器的输出进行加权,获取模型输出
[0107]
s40、将所述测试样本输入至所述目标dbn模型,得到第二输出结果,利用所述第二
输出结果确定待测用户用电行为的目标检测值;
[0108]
具体地,首先将测试样本x
t
用于模拟动态检测,利用第二输出结果及样本标签l
t
绘制该模型对第二输出结果的roc曲线;其次,获取该roc曲线上的最佳临界点,将该点作为确定待测用户用电行为的目标检测值。
[0109]
具体地,步骤s40又包括以下子步骤:
[0110]
4.1)计算所述第二输出结果的检出率及误检率;
[0111]
需要说明的是,若目标检测值选取过低,将倾向于判断用电量数据异常导致误检率上升;若目标检测值选取过高,将倾向于判断用电量数据正常导致检出率降低。目标检测值的选取将决定窃电行为检测的质量。
[0112]
具体地,检出率的计算公式为:
[0113]
t
pr
=t
p
/(t
p
+f
n
)
[0114]
式中,t
p
为异常用电量数据被检测为异常的样本数,f
n
为异常用电量数据为检测为正常的样本数。
[0115]
计算误检率的计算公式为:
[0116]
f
pr
=f
p
/(f
p
+t
n
)
[0117]
式中,f
p
为正常用电量数据被检测为异常的样本数,t
n
为正常用电量数据为检测为正常的样本数。
[0118]
4.2)以所述检出率为横坐标、所述误检率为纵坐标建立roc曲线,将距离坐标(0,1)最近的点作为目标检测值。
[0119]
以测试样本x
t
检测结果的检出率为横坐标、测试样本x
t
检测结果的误检率为纵坐标建立roc曲线,定义点(0,1)为完美检测点,选取roc曲线上距离点(0,1)最近的点,将该点对应的检测结果作为目标检测值y0。
[0120]
s50、判断所述目标检测值是否大于所述异常检测阈值;若是,则当前待测用户用电行为正常;若否,则当前待测用户用电行为异常。
[0121]
本步骤中,判断所述目标检测值y0是否大于第i个待测用户的异常检测阈值;若是,则判断第i个待测用户的用电行为正常;若否,则判断第i个用户的用电行为异常。
[0122]
本发明实施例提供的窃电行为识别方法,通过利用主成分分析算法pca对待训练样本进行降维处理,为后续的训练降低计算难度;通过利用蚁群算法ag 为dbn提供最优的网络参数,以输出最佳的待测用户的异常检测阈值;最后对待测样本进行模拟动态检测以输出直观的roc曲线,从而准确的判断用户的用电行为。本发明实施例能够提高用户窃电行为行为识别的准确率,增强供电系统的安全性和可靠性,不仅成本低且及适用性强。
[0123]
第二方面:
[0124]
请参阅图2,本发明某一实施例中还提供了一种窃电行为识别系统,包括:
[0125]
数据获取单元01,用于采集待测用户的历史用电数据,按第一预设比例将所述历史用电数据分为第一训练样本和测试样本;
[0126]
预训练单元02,用于对所述第一训练样本进行降维处理,利用降维后的训练样本对dbn模型训练,得到目标dbn模型及第一输出结果;
[0127]
加权处理单元03,用于对所述第一输出结果进行加权,得到异常检测阈值;
[0128]
目标检测值确定单元04,用于将所述测试样本输入至所述目标dbn模型,得到第二
输出结果,利用所述第二输出结果确定待测用户用电行为的目标检测值;
[0129]
用电行为判断单元05,用于判断所述目标检测值是否大于所述异常检测阈值;若是,则当前待测用户用电行为正常;若否,则当前待测用户用电行为异常。
[0130]
本发明实施例提供的窃电行为识别系统用于执行如第一方面所述的窃电行为识别方法,该方法通过利用主成分分析算法pca对待训练样本进行降维处理,为后续的训练降低计算难度;通过利用蚁群算法ag为dbn提供最优的网络参数,以输出最佳的待测用户的异常检测阈值;最后对待测样本进行模拟动态检测以输出直观的roc曲线,从而准确的判断用户的用电行为。本发明实施例能够提高用户窃电行为行为识别的准确率,增强供电系统的安全性和可靠性,不仅成本低且及适用性强。
[0131]
第三方面
[0132]
请参阅图3,本发明某一实施例还提供了一种终端设备,该终端设备包括:
[0133]
处理器、存储器和总线;
[0134]
所述总线,用于连接所述处理器和所述存储器;
[0135]
所述存储器,用于存储操作指令;
[0136]
所述处理器,用于通过调用所述操作指令,可执行指令使处理器执行如本技术的第一方面所示的窃电行为识别方法对应的操作。
[0137]
在一个可选实施例中提供了一种终端设备,如图3所示,图3所示的终端设备包括:处理器001和存储器003。其中,处理器001和存储器003相连,如通过总线002相连。可选地,终端设备还可以包括收发器004。需要说明的是,实际应用中收发器004不限于一个,该终端设备的结构并不构成对本技术实施例的限定。
[0138]
处理器001可以是cpu,通用处理器,dsp,asic,fpga或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本技术公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,dsp和微处理器的组合等。
[0139]
总线002可包括一通路,在上述组件之间传送信息。总线002可以是pci总线或eisa总线等。总线002可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0140]
存储器003可以是rom或可存储静态信息和指令的其他类型的静态存储设备,ram或者可存储信息和指令的其他类型的动态存储设备,也可以是eeprom、 cd

rom或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
[0141]
存储器003用于存储执行本技术方案的应用程序代码,并由处理器001来控制执行。处理器001用于执行存储器003中存储的应用程序代码,以实现前述任一方法实施例所示的内容。
[0142]
其中,终端设备包括但不限于:移动电话、笔记本电脑、数字广播接收器、 pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。
[0143]
本技术的又一实施例提供了一种计算机可读存储介质,该计算机可读存储介质上
存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中的相应内容。
[0144]
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1