本发明涉及电力营销领域,特别是涉及一种线损异常相关的用电户识别方法与系统。
背景技术:
随着电力设备的不断完善,电力也走进了千家万户。然而,当前社会中仍然存在部分用户采用各种手段进行窃电,这不仅影响到了电力公司的线损率技术指标,同时还存在着严重的安全隐患。
而现有技术中,用于识别用户用电量异常的方法主要依靠业务人员多年的从业经验对用户历史用电量数据与台区线损率数据人工对比分析,这需要业务人员具有多年的相关经验,此外,也无法保证分析出来的结果的准确率,而需要从大量的用户用电量数据中对比分析出异常的用电量,需要耗费大量的人力和精力。
可见,现有的线损异常相关的用电户识别方法存在着效率低、无法保证结果的准确率、需要耗费大量的人力和精力的技术问题,尤其是在需要处理大量的用户用电量时,使用人工对比分析还很容易出现遗漏等技术问题。
技术实现要素:
本发明实施例提供一种线损异常相关的用电户识别方法与系统,旨在解决现有技术存在的效率低、无法保证结果的准确率、需要耗费大量的人力和精力的技术问题。
本发明实施例提供一种线损异常相关的用电户识别方法,所述方法包括以下步骤:
获取预设的时间范围内待分析的台区的多个线损数据及对应时间内所述台区内所有用户的多个用电量数据;
对所述台区的多个线损数据以及用户的多个用电量数据进行标准化处理,以获取台区线损特征向量与用户用电量特征向量;
根据所述台区线损特征向量与用户用电量特征向量计算趋势相似系数;
根据所述台区线损特征向量与用户用电量特征向量计算特征相关系数;
根据历史异常用电用户的用电量数据与对应时间内所述异常用电用户所在台区线损数据计算用电异常阈值;
根据所述趋势相似系数以及特征相关系数计算综合相关系数,并判断所述综合相关系数是否超过所述用电异常阈值,根据所述判断的结果,确认用户是否为用电异常用户。
本发明实施例还提供一种线损异常相关的用电户识别系统,所述系统包括:
数据采集单元,用于获取预设的时间范围内待分析的台区的多个线损数据及对应时间内所述台区内所有用户的多个用电量数据;
数据标准化处理单元,用于对所述台区的多个线损数据以及用户的多个用电量数据进行标准化处理,以获取台区线损特征向量与用户用电量特征向量;
趋势相似系数计算单元,用于根据所述台区线损特征向量与用户用电量特征向量计算趋势相似系数;
特征相关系数计算单元,用于根据所述台区线损特征向量与用户用电量特征向量计算特征相关系数;
用电异常阈值计算单元,用于根据历史异常用电用户的用电量数据与对应时间内所述异常用电用户所在台区线损数据计算用电异常阈值;
用电异常判断单元,用于根据所述趋势相似系数以及特征相关系数计算综合相关系数,并判断所述综合相关系数是否超过所述用电异常阈值,根据所述判断的结果,确认用户是否为用电异常用户。
本发明通过获取预设的时间内台区的多个线损数据以及对应时间内所述台区内所有用户的多个用电量,并对所述数据进行标准化处理,经过标准化处理后的数据能够更加直观的表示所述数据到平均数据之间的距离,再对标准化的数据通过相关算法计算趋势相似系数以及特征相关系数,所述趋势相似系数表示用户用电量特征向量与台区线损特征向量中各数据变化趋势的相似程度,所述趋势相似系数越大,表明越符合用户用电量较少,台区线损增加的情况,说明用户存在用电异常的可能性越高,而所述特征相关系数的计算仅仅依赖于数据之间排名的关系,而不依赖于各数据的大小,能够有效的提高所述算法的鲁棒性,此外,通过对历史用电异常数据以及对应台区同期线损的数据确定了用户可能存在异常用电的标准,提高了判断的准确率。本发明实施例提供的线损异常相关的用电户识别方法以及系统大大提高了识别的效率,并且具有较高的准确率以及鲁棒性。
附图说明
图1为本发明实施例提供的一种线损异常相关的用电户识别方法的整体流程图;
图2为本发明实施例提供的标准化处理的流程图;
图3为本发明实施例提供的计算趋势相似系数的流程图;
图4为本发明实施例提供的计算特征相关系数的流程图;
图5为本发明实施例提供的计算用电异常阈值的流程图;
图6为本发明实施例提供的线损异常相关的用电户识别系统的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例提供了一种基于多种算法的线损异常相关的用电户识别方法,利用多种算法对用户用电量数据以及台区线损数据进行处理,能够确定用户用电量数据与台区线损数据的综合相关系数,并判定用户用电量是否存在异常,整个识别方法具有较高的准确率以及鲁棒性。本发明实施例还提供了一种基于多种算法的线损异常相关的用电户识别系统,支持通过相应的设备获取、计算、处理用户用电量数据以及台区线损数据,相比于现有技术中利用人力对用电量数据以及台区线损数据进行分析对比,能够有效地提高工作效率,而且判断的准确率更高,同时还节约了大量的人力成本。
图1为本发明实施例提供的一种线损异常相关的用电户识别方法,详述如下。
步骤s101,获取预设的时间范围内待分析的台区的多个线损数据及对应时间内所述台区内所有用户的多个用电量数据。
本发明实施例中,所述预设时间范围内的多个数据可以是最近一年内每个月的用电量数据,也可以是最近一个月内每个星期的用电量数据,还可以是最近一个星期内每天的用电量数据。
作为本发明的一个优选实施例,所述预设范围为最近一个季度内每个星期的用电量数据。
在本发明实施例中,所述台区的线损数据与用户的用电量数据在时间上是一一对应的,每一个时间点中台区的线损数据都对应着一个用户的用电量数据。
步骤s102,对所述台区的多个线损数据以及用户的多个用电量数据进行标准化处理,以获取台区线损特征向量与用户用电量特征向量。
在本发明实施例中,经过标准化处理后的数据能够更加直观的表示所述数据到平均数据之间的距离,通过标准化处理能够有效的降低数据振幅以及外界因素的干扰,例如,以一个电力用户的在某个时序内的用电量,与该时序内其对应台区的线损率,在数据振幅(数量级)上相差非常大,但是经过标准化处理后的数据,仍能保证单个用户的用电时序数据与台区线损的时序数据在振幅上具有可比性。
在本发明实施例中,由于所述台区的多个线损数据与所述用户的多个用电量数据在时间上是一一对应的关系,因此经过标准化处理后的台区线损特征向量与用户用电量特征向量中各数据在时间上仍然保持着一一对应的关系。
步骤s103,根据所述台区线损特征向量与用户用电量特征向量计算趋势相似系数。
在本发明实施例中,所述趋势相似系数表示用户用电量特征向量与台区线损特征向量中各数据变化趋势的相似程度,所述趋势相似系数越大,表明越符合“用户用电量较少,台区线损增加”的情况,说明用户存在用电异常的可能性越高。
步骤s104,根据所述台区线损特征向量与用户用电量特征向量计算特征相关系数。
在本发明实施例中,所述特征相关系数的计算仅仅依赖于数据之间排名的关系,而不依赖于各数据的大小,因此,能够有效的提高所述算法的鲁棒性,使得判断的结果更加准确。
步骤s105,根据历史异常用电用户的用电量数据与对应时间内所述异常用电用户所在台区线损数据计算用电异常阈值。
在本发明实施例中,通过对历史用电异常数据以及对应台区同期线损的数据确定了用户可能存在异常用电的标准,提高了判断的准确率。
在本发明实施例中,需要对所述历史异常用电用户的用电量数据与对应时间内所述异常用电用户所在台区线损数据进行标准化处理生成异常用户用电量特征向量以及异常用户所在台区线损特征向量,并依次计算异常用户用电量特征向量与异常用户所在台区线损特征向量之间的趋势相似系数以及特征相关系数。
在本发明实施例中,所述根据所述趋势相似系数以及特征相关系数计算用电异常阈值的方法包括将所述趋势相似系数以及特征相关系数加权相加、计算所述趋势相似系数以及特征相关系数的分布系数,还可以根据相关业务经验在结合实际情况下进行修改。
步骤s106,根据所述趋势相似系数以及特征相关系数获取综合相关系数,并判断所述综合相关系数是否超过所述用电异常阈值,根据所述判断的结果,确认用户是否为用电异常用户。
在本发明实施例中,当判断所述综合相关系数超过所述用电异常阈值时,确认所述用户为用电异常用户;当判断所述综合相关系数未超过所述用电异常阈值时,确认所述用户为用电正常用户。
本发明通过获取预设的时间内台区的多个线损数据以及对应时间内所述台区内所有用户的多个用电量,并对所述数据进行标准化处理,经过标准化处理后的数据能够更加直观的表示所述数据到平均数据之间的距离,再对标准化的数据通过相关算法计算趋势相似系数以及特征相关系数,所述趋势相似系数表示用户用电量特征向量与台区线损特征向量中各数据变化趋势的相似程度,所述趋势相似系数越大,表明越符合用户用电量较少,台区线损增加的情况,说明用户存在用电异常的可能性越高,而所述特征相关系数的计算仅仅依赖于数据之间排名的关系,而不依赖于各数据的大小,能够有效的提高所述算法的鲁棒性,此外,通过对历史用电异常数据以及对应台区同期线损的数据确定了用户可能存在异常用电的标准,提高了判断的准确率。本发明实施例提供的线损异常相关的用电户识别方法以及系统大大提高了识别的效率,并且具有较高的准确率以及鲁棒性。
图2为本发明实施例提供的标准化的流程图,详述如下。
步骤s201,对所述台区线损数据取反生成台区线损取反数据。
在本发明实施例中,由于台区线损数据与用户用电量数据呈负相关,将所述台区线损数据取反能够使得台区线损取反数据与用户用电量数据呈正相关,便于后续的处理。
步骤s202,计算所述台区线损取反数据的平均数以及用户的用电量数据的平均数。
步骤s203,计算所述台区线损取反数据的标准差以及用户的用电量数据的标准差。
步骤s204,计算所述台区的多个线损取反数据与所述台区线损取反数据的平均数的线损取反数据差,并计算所述线损取反数据差除以所述台区线损取反数据的标准差的线损取反数据商。
步骤s205,计算所述用户的多个用电量数据与所述用户的用电量数据的平均数的用电量数据差,并计算所述用电量数据差除以所述用户的用电量数据的标准差的用电量数据商。
在本发明实施例中,上述步骤s202~步骤s205为利用标准分数算法进行标准化处理的详细流程,所述标准分数算法的具体公式如下式:
z=(x-μ)/σ
其中,所述μ表示向量的平均数,σ表示数据的标准差。
步骤s206,根据所述多个线损取反数据商生成台区线损特征向量。
步骤s207,根据所述多个用电量数据商生成用户用电量特征向量。
在本发明实施例中,由于所述台区的多个线损数据与所述用户的多个用电量数据在时间上是一一对应的关系,因此经过标准化处理后的台区线损特征向量与用户用电量特征向量中各数据在时间上仍然保持着一一对应的关系。
在本发明实施例中,经过标准化处理后的数据能够更加直观的表示所述数据到平均数据之间的距离,通过标准化处理能够有效的降低数据振幅以及外界因素的干扰,例如,以一个电力用户的在某个时序内的用电量,与该时序内其对应台区的线损率,在数据振幅(数量级)上相差非常淡,但是经过标准化处理后的数据,仍能保证单个用户的用电时序数据与台区线损的时序数据在振幅上具有可比性。
图3为本发明实施例提供的计算趋势相似系数的流程图,详述如下。
步骤s301,将所述台区线损特征向量中的每个数据与上一个数据进行比较,生成用电量标识字符串。
作为本发明的一个实施例,将所述台区线损特征向量中的每个数据与上一个数据进行比较,如果上升则标记为“+”,下降则标记为“-”,生成仅由“+”和/或“-”组成的线损率标识字符串。
步骤s302,将所述用户用电量特征向量中每个数据与上一个数据进行比较,生成线损标识字符串。
作为本发明的一个实施例,将所述用户用电量特征向量中每个数据与上一个数据进行比较,如果上升则标记为“+”,下降则标记为“-”,生成仅由“+”和/或“-”组成的线损率标识字符串。
在本发明实施例中,由于台区线损特征向量与用户用电量特征向量中各数据在时间上仍然保持着一一对应的关系,因此所述用电量标识字符串与线损率标识字符串在时间上同样保持着一一对应的关系。
步骤s303,计算所述用电量标识字符串以及线损标识字符串中对应位置字符相同的字符占整个标识字符串的比例系数,所述比例系数即为趋势相似系数。
本发明实施例中,所述趋势相似系数表示用户用电量特征向量与台区线损特征向量中各数据变化趋势的相似程度,所述趋势相似系数越大,表明越符合用户用电量较少,台区线损增加的情况,说明用户存在用电异常的可能性越高。
图4为本发明实施例提供的计算特征相关系数的流程图,详述如下。
步骤s401,依照大小关系获取所述台区线损特征向量中各数据的排序序号与用户用电量特征向量中各数据的排序序号。
在本发明实施例中,所述大小关系包括从小到大排序和从大到小排序,但需要保持所述台区线损特征向量与用户用电量特征向量的排序方式相同。
步骤s402,计算台区线损特征向量中各数据的排序序号与用户用电量特征向量中对应数据的排序序号的差的平方。
步骤s403,对所述各数据的排序序号的差的平方求和,并计算特征相关系数。
在本发明实施例中,所述特征相关系数η由下述公式计算得到:
η=1-6a/n3-n
其中,a为所述各数据的排序序号的差的平方和,n为所述台区线损特征向量中数据的个数。
在本发明实施例中,上述步骤s202~步骤s205为利用斯皮尔曼等级相关算法计算特征相关系数的详细流程,为了便于说明斯皮尔曼等级相关算法的流程,以下述例子为例:
假如用户用电量特征向量为(0,-0.5,1,0.5,-1),台区线损特征向量为(-10%,-12%,-9.5%,-11%,-11.5%),则按照从小到大排序,可得用户用电量特征向量的排序序号为(3,2,5,4,1),台区线损特征向量的排序序号为(4,1,5,3,2),取对应数据的排列序号之差的平方和为(3-4)2+(2-1)2+(5-5)2+(4-3)2+(1-2)2=4,则相关性系数η根据公式计算为0.8。
在本发明实施例中,由于斯皮尔曼等级算法检验的不是数据之间的关系,而是数据排名之间的关系,利用斯皮尔曼等级算法计算出的结果具有更强的鲁棒性。
图5为本发明实施例提供的计算用电异常阈值的流程图,详述如下。
步骤s501,对所述历史异常用电用户的用电量数据与对应时间内所述异常用电用户所在台区线损数据进行标准化处理。
在本发明实施例中,对所述历史异常用电用户的用电量数据与对应时间内所述异常用电用户所在台区线损数据进行标准化处理,以获取历史异常用电用户的用电量特征向量与异常用电用户所在台区线损特征向量。
在本发明实施例中,所述标准化处理为利用标准分数算法进行标准化处理。
步骤s502,根据所述历史异常用电用户的用电量特征向量与所述异常用电用户所在台区线损特征向量计算异常用电用户的趋势相似系数。
步骤s503,根据所述历史异常用电用户的用电量特征向量与所述异常用电用户所在台区线损特征向量计算异常用电用户的特征相关系数。
在本发明实施例中,利用趋势相似系数以及特征相关系数判断历史异常用电用户的用电量特征向量与所述异常用电用户所在台区线损特征向量之间可能存在关系。
在本发明实施例中,通过结合趋势相似系数以及特征相关系数,提高了判断的准确率。
步骤s504,根据所述异常用电用户的趋势相似系数与所述异常用电用户的特征相关系数确定用电异常阈值。
在本发明实施例中,所述根据所述趋势相似系数以及特征相关系数计算用电异常阈值的方法包括将所述趋势相似系数以及特征相关系数加权相加、计算所述趋势相似系数以及特征相关系数的分布系数,还可以根据相关业务经验在结合实际情况下进行修改。
图6为本发明实施例提供的线损异常相关的用电户识别系统的结构图,为了便于说明,仅示出与本发明实施例相关的部分。
在本发明实施例中,所述线损异常相关的用电户识别系统包括:
数据采集单元601,用于获取预设的时间范围内待分析的台区的多个线损数据及对应时间内所述台区内所有用户的多个用电量数据。
本发明实施例中,所述预设时间范围内的多个用电量数据可以是最近一年内每个月的用电量数据,也可以是最近一个月内每个星期的用电量数据,还可以是最近一个星期内每天的用电量数据。
作为本发明的一个优选实施例,所述预设范围为最近一个季度内每个星期的用电量数据。
在本发明实施例中,所述台区的线损数据与用户的用电量数据在时间上是一一对应的,每一个时间点中台区的线损数据都对应着一个用户的用电量数据。
数据标准化处理单元602,用于对所述台区的多个线损数据以及用户的多个用电量数据进行标准化处理,以获取台区线损特征向量与用户用电量特征向量。
在本发明实施例中,经过标准化处理后的数据能够更加直观的表示所述数据到平均数据之间的距离,通过标准化处理能够有效的降低数据振幅以及外界因素的干扰,例如,以一个电力用户的在某个时序内的用电量,与该时序内其对应台区的线损率,在数据振幅(数量级)上相差非常大,但是经过标准化处理后的数据,仍能保证单个用户的用电时序数据与台区线损的时序数据在振幅上具有可比性。
在本发明实施例中,由于所述台区的多个线损数据与所述用户的多个用电量数据在时间上是一一对应的关系,因此经过标准化处理后的台区线损特征向量与用户用电量特征向量中各数据在时间上仍然保持着一一对应的关系。
趋势相似系数计算单元603,用于根据所述台区线损特征向量与用户用电量特征向量计算趋势相似系数。
在本发明实施例中,所述趋势相似系数表示用户用电量特征向量与台区线损特征向量中各数据变化趋势的相似程度,所述趋势相似系数越大,表明越符合用户用电量较少,台区线损增加的情况,说明用户存在用电异常的可能性越高。
特征相关系数计算单元604,用于根据所述台区线损特征向量与用户用电量特征向量计算特征相关系数。
在本发明实施例中,所述特征相关系数的计算仅仅依赖于数据之间排名的关系,而不依赖于各数据的大小,因此,能够有效的提高所述算法的鲁棒性,使得判断的结果更加准确。
用电异常阈值计算单元605,用于根据历史异常用电用户的用电量数据与对应时间内所述异常用电用户所在台区线损数据计算用电异常阈值。
在本发明实施例中,通过对历史用电异常数据以及对应台区同期线损的数据确定了用户可能存在异常用电的标准,提高了判断的准确率。
在本发明实施例中,需要对所述历史异常用电用户的用电量数据与对应时间内所述异常用电用户所在台区线损数据进行标准化处理生成异常用户用电量特征向量以及异常用户所在台区线损特征向量,并依次计算异常用户用电量特征向量与异常用户所在台区线损特征向量之间的趋势相似系数以及特征相关系数。
在本发明实施例中,所述根据所述趋势相似系数以及特征相关系数计算用电异常阈值的方法包括将所述趋势相似系数以及特征相关系数加权相加、计算所述趋势相似系数以及特征相关系数的分布系数,还可以根据相关业务经验在结合实际情况下进行修改。
用电异常判断单元606,用于根据所述趋势相似系数以及特征相关系数计算综合相关系数,并判断所述综合相关系数是否超过所述用电异常阈值,根据所述判断的结果,确认用户是否为用电异常用户。
在本发明实施例中,当判断所述综合相关系数超过所述用电异常阈值时,确认所述用户为用电异常用户;当判断所述综合相关系数未超过所述用电异常阈值时,确认所述用户为用电正常用户。
本发明通过获取预设的时间内台区的多个线损数据以及对应时间内所述台区内所有用户的多个用电量,并对所述数据进行标准化处理,经过标准化处理后的数据能够更加直观的表示所述数据到平均数据之间的距离,再对标准化的数据通过相关算法计算趋势相似系数以及特征相关系数,所述趋势相似系数表示用户用电量特征向量与台区线损特征向量中各数据变化趋势的相似程度,所述趋势相似系数越大,表明越符合用户用电量较少,台区线损增加的情况,说明用户存在用电异常的可能性越高,而所述特征相关系数的计算仅仅依赖于数据之间排名的关系,而不依赖于各数据的大小,能够有效的提高所述算法的鲁棒性,此外,通过对历史用电异常数据以及对应台区同期线损的数据确定了用户可能存在异常用电的标准,提高了判断的准确率。本发明实施例提供的线损异常相关的用电户识别方法以及系统大大提高了识别的效率,并且具有较高的准确率以及鲁棒性。