一种面向综合能源系统用户侧的多属性时空聚类算法的制作方法

文档序号:30385707发布日期:2022-06-11 09:41阅读:143来源:国知局
一种面向综合能源系统用户侧的多属性时空聚类算法的制作方法

1.本发明涉及能源数据处理技术领域,具体为一种面向综合能源系统用户侧的多属性时空聚类算法。


背景技术:

2.综合能源系统可在某一区域内同时接入风电、光伏、天然气等多种形式的可再生能源,为打破信息孤岛,达到数据共享和价值挖掘的目的,城市综合能源平台应运而生。综合能源平台依托先进的信息采集设备和传感器技术集成了大量数据源,各类海量用户信息及用能数据其背后蕴藏着巨大价值,用户侧用能数据的信息挖掘与提取将在能源市场化进程中发挥着极其重要的作用。通过数据挖掘算法,挖掘用户信息及用能数据所蕴含的用能模式及用能特征对实现节能降耗具有重要意义。
3.传统的用能行业聚类算法存在以下不足:传统的用能行业聚类方法忽略了数据的时空特性,而很多不同来源的能源数据都包含有时间和空间信息,如何结合时空数据和能源数据,并且通过对时间和空间属性的观测分析获得决定性的认知从而优化决策就显得至关重要。
4.传统的用能行业聚类仅聚焦于行业属性来进行分类,但由于对各种影响因素的敏感度不同,即使业务范围相同的不同企业,其用能也可能呈现不同的模式。传统的行业分类方法难以有效区分不同的用能模式。
5.传统的时空聚类算法存在以下不足:传统的时空聚类算法仅是针对三维时空数据的聚类分析,目前还没有一种可以综合考虑到多种属性类型维度的时空聚类算法。
6.现有的时空聚类算法中的阈值为人为的主观设定,没有一个合理的设定方法,因此阈值的设定存在较大随机性的缺陷,从而导致聚类结果不理想。
7.综上,通过对传统行业聚类算法以及传统时空聚类算法不足之处的深入剖析发现,如何利用综合能源用户侧数据的多维属性,实现用能用户的有效聚类,更好的挖掘数据背后用户的用能行为特征,是综合能源平台建设过程中的一大难题。


技术实现要素:

8.本发明的目的在于克服现有技术的不足之处,提供一种面向综合能源系统用户侧的多属性时空聚类算法,该算法综合考虑用户侧多属性特征,利用mast-dbscan算法实现对综合能源系统用户侧的聚类,使聚类结果更为准确合理。
9.一种面向综合能源系统用户侧的多属性时空聚类算法,包括以下步骤:
10.步骤1:分类属性值,将属性特征定义为attribute,用att表示;同时att∈att,att={att1,att2,...,att
p
}为p个不同属性特征的集合,且attq={att
q1
,att
q2
,...,att
qw
}为第q个属性项里的w各不同属性值的集合;
11.步骤2:建立混合属性相似计算模型,以计算不同类型属性特征的时空对象之间是否相似;其模型计算公式为:
[0012][0013]
式中,edg表示具有多种不同类型属性特征的两个时空对象是否相似的结果;e表示具有连续变量属性的两个时空对象是否相似的结果,dg表示具有分类变量属性特征的两个时空对象是否相似的结果;当且仅当e与dg同时相似时,edg才为相似;
[0014]
e值的判断条件如下式:
[0015][0016]
式中,δe为具有多个连续变量属性特征的两个时空对象的相似距离,该距离越大,两个时空对象相似度越小;δe_threshold为连续变量相似度阈值,根据用户对属性相似度要求程度来自行设定;
[0017]
dg值的判断条件如下式:
[0018][0019]
式中,δdg为具有多个分类变量属性特征的两个时空对象的相似度大小,δdg值越大,两个时空对象相似度越大;δdg_threshold为分类变量相似度阈值,根据用户对属性相似度要求程度来自行设定;且有:
[0020][0021]
式中,δd是具有多个无序分类变量属性特征的两个时空对象之间的相似度值,δg是具有多个有序分类变量属性特征的两个时空对象之间的相似度值;
[0022]
步骤3:通过绘制时空对象距离频数柱状图来确定时间与空间阈值,其具体步骤为:
[0023]
3.1计算时空对象事物集中两两时空对象在时间及空间维度下的时间及空间距离大小值;
[0024]
3.2计算上步所得各个距离大小值出现的频数;
[0025]
3.3将上步所得的频数值对应纵轴,距离大小值对应横轴,绘制出时空对象距离频数柱状图,找出柱状图中最大距离频数值所对应的点,该点的时间及空间距离的大小便可作为该纬度下的阈值,即时间阈值temporal_threshold及空间阈值spatial_threshold;
[0026]
3.4计算时空对象量阈值minpts,其计算公式为:
[0027]
minpts=ln(|d
p
|)
[0028]
式中,|d
p
|为时空对象点总数;
[0029]
步骤4:定义多属性时空聚类算法,包括:
[0030]
1)、时空对象:任意一个具有时空位置数据的事物都可称为时空对象,此处用表示,x和y为该时空对象的平面位置数据,t为该时空对象的时间数据,混合属性特征为att;
[0031]
2)、时空相邻点:如有p2为p1的时空相邻点,则需满足时空对象p2和p1之间的空间距离δs与时间距离δt同时满足以下公式:
[0032][0033]
两个时空对象点p2=(id
p2
,x2,y2,t2,att2),之间的时间及空间距离公式为:
[0034]
δt=|t
1-t2|
[0035]
δs=|distance((x1,y1)-(x2,y2))|
[0036]
=r
×
arcos[cos(y1)
×
cos(y2)
×
cos(x
1-x2)+sin(y1)
×
sin(y2)]
[0037]
式中r为地球赤道半径,r=6378.1km;
[0038]
3)、时空邻域:给定一个时空对象p1,以p1为圆柱中心,空间距离阈值spatial_thresh old为底面半径,2倍时间距离阈值temporal_threshold为高的圆柱体即为p1的时空邻域;
[0039]
4)、时空直接密度可达:假设存在两个时空对象p1和p2,若p2在p1的时空邻域内,且p1为时空核心对象,则称p1到p2时空直接密度可达;
[0040]
5)、时空核心对象:若在时空对象p的时空邻域内,与p时空直接密度可达的时空对象个数大于等于时空对象量阈值minpts,则称p为时空核心对象;
[0041]
6)、时空密度可达:假设存在n个时空对象p1,p2,p3,...,pn,任取pi到p
i+1
时空直接密度可达,则称p1到pn时空密度可达;
[0042]
7)、时空密度相连:假设存在三个时空对象p1,p2,p3,若p1和p3分别从p2时空密度可达,则称p1,p3时空密度相连;
[0043]
8)、簇:所有从核心点密度相连的对象形成一个簇;
[0044]
9)、时空独立点:即噪声,因不满足条件而最终无法归类到任一簇中的时空对象。
[0045]
而且,步骤1中,按照事务属性特征的性质,将属性特征的变量值进一步归为了两大类型,分别为连续变量及分类变量,其定义为:
[0046]
连续变量,该变量可在一定区间内任意取值,并且该值是连续不断的,同时相邻两个数值可以无限分割,如用户用电数据及用水数据;连续变量型的属性特征用attu表示;
[0047]
分类变量,该变量表明事物的类别,其取值是分类数据;同时,分类变量有可细分为有序分类变量和无序分类变量;
[0048]
a.有序分类变量各类别之间存在一定程度的差别,如按照年用电费用可将用户分为一般大用户、i类关键用户、ii类关键用户;有序分类变量的属性特征用att
of
表示,att
of
∈att
of
={att
of1
,att
of2
,...,att
ofg
}为g个不同有序分类变量属性特征的集合;
[0049]
b.无序分类变量是指其类别或属性之间无程度和顺序的分别;无序分类变量的属性特征用att
nf
表示,att
nf
∈att
nf
={att
nf1
,att
nf2
,...,att
nfh
}为h个不同有序分类变量属性特征的集合。
[0050]
而且,步骤2还包括以下子步骤:
[0051]
2.1计算连续变量属性特征的相似度δe:
[0052]
计算两个时空对象多维的连续变量属性值之间的相似度距离通常采用欧式距离计算方法;欧氏距离指在多维空间中两点之间的实际距离;
[0053]
两个时空对象中n维连续变量之间的相似度距离公式为:
[0054][0055]
2.2计算无序分类变量属性特征的相似度δd:
[0056]
计算两个时空对象的无序分类变量属性值之间的相似度,因该类属性值之间无任何关联关系,
[0057]
因此仅考虑两个时空对象中某一属性特征值是否相同即可,相同则相似度为1,不同相似度为0;选取dice相似系数来计算该类型特征的相似度,其定义公式为:
[0058][0059]
其中,att
nf1
,att
nf2
为两个时空对象中无序分类变量属性值的集合,comm(att
nf1
,att
nf2
)是集合att
nf1
,att
nf2
中具有相同属性特征的个数,leng(att
nf1
),leng(att
nf2
)是集合att
nf1
,att
nf2
的长度;
[0060]
2.3计算有序分类变量属性特征的相似度δg:
[0061]
在计算两个时空对象的有序分类变量属性值之间的相似度时,因有序分类变量各类别之间有程度的差别或顺序的关联关系,因此计算其相似度时不可单一判断两个属性值是否相同,还要考虑两个值之间的差别距离,利用gower相似系数可有效解决这一问题;两个时空对象中n维有序分类变量之间的gower系数计算公式为:
[0062][0063][0064]
其中,ri为时空对象中第i个有序分类变量属性特征中值的极差,即最大属性值与最小属性值相减;时空对象之间相似程度越高,其gower系数越接近于1;相似程度越低,其gower系数越接近于0。
[0065]
而且,步骤4中的多属性时空聚类算法步骤如下:
[0066]
4.1:建立一个多维度的时空信息数据库,库中数据地址的经度为x,纬度维y,数据发生时间为t,混合属性特征为att,一条信息数据为一个对象点i为时空对象数据序号,所有对象的集合为d
p

[0067]
4.2:设置时空对象量阈值minpts,根据多维时空数据集画出时空对象距离频数柱状图,确定空间阈值spatial_threshold、时间阈值spatial_threshold;
[0068]
4.3:从d
p
依次选取一个对象点pi,判断其是否已属于现有簇中,是则重新选取下一个对象点,否则进行下一步;
[0069]
4.4:判断对象点pi是否为时空核心对象,是则进行下一步,否则回到步骤4.3中重新选取下一个对象点;
[0070]
4.5:搜寻时空核心对象点pi的所有时空相邻点qi,若qi不属于任何已有的簇,则进行下一步,否则重新选取下一个qi继续本步骤;
[0071]
4.6:通过混合属性相似计算模型计算出pi与qi的混合属性特征是否相似,相似则
将qi放入新建的簇中,否则重新选取下一个qi继续步骤4.5;
[0072]
4.7:判断簇中的各对象是否为时空核心对象,是则对该时空核心对象重复步骤4.5,否则将不再进行下一步操作;
[0073]
4.8:重复上述步骤4.3到4.7,直到d
p
中所有对象都属于某个簇,或为时空孤立点;
[0074]
4.9:将上述得到的簇标签赋值给数据库新建的字段“簇标签”中。
[0075]
本发明的优点和技术效果是:
[0076]
本发明的一种面向综合能源系统用户侧的多属性时空聚类算法,结合综合能源系统用户的时空特性,因传统的用能行业聚类方法仅针对用户行业属性进行分类,而忽略了聚类对象的时空特性,故本方法提出利用时空聚类算法实现综合能源系统用户侧的时空聚类。
[0077]
本发明的一种面向综合能源系统用户侧的多属性时空聚类算法,结合综合能源系统用户得属性特征,因传统时空聚类方法忽略了聚类对象的属性维度的分析,故本方法从时空三维拓展到多属性特征维度,通过引入gower相似系数、dice相似系数与欧几里得距离构建出混合属性相似计算模型来计算多个事物对象之间属性特征的相似度大小,实现了对综合能源系统用户侧的多属性时空聚类。
[0078]
本发明的一种面向综合能源系统用户侧的多属性时空聚类算法,合理设定时空阈值,如果时空阈值设定的太大,则稀疏的时空对象点可能会被错误地归到某一时空簇;如果设定的时空阈值太小,则包含较少时空对象的簇可能会被误认为噪声。通过绘制时空对象距离频数柱状图来合理确定时间与空间阈值。当两两时空对象点间的某一时间(或空间)距离值得频数达到最大,两两时空对象点的组合数量达到最多,即组合密度最大,因此选取该距离值作为对应维度的阈值将能识别出较多的时空相邻点,从而使聚类结果更为准确合理。
附图说明
[0079]
图1为本发明的多属性时空聚类算法mast-dbscan实现步骤流程图;
[0080]
图2为本发明的多属性时空聚类算法相关定义示意图(时空邻域立体示意图);
[0081]
图3为本发明的多属性时空聚类算法相关定义示意图(时空直接密度可达俯视示意图);
[0082]
图4为本发明的多属性时空聚类算法相关定义示意图(时空密度可达俯视示意图);
[0083]
图5为本发明的多属性时空聚类算法相关定义示意图(时空密度相连俯视示意图);
[0084]
图6为本发明的多属性时空聚类算法思路示意图。
具体实施方式
[0085]
为能进一步了解本发明的内容、特点及功效,兹例举以下实施例,并配合附图详细说明如下。需要说明的是,本实施例是描述性的,不是限定性的,不能由此限定本发明的保护范围。
[0086]
一种面向综合能源系统用户侧的多属性时空聚类算法,包括以下步骤:
[0087]
步骤1:分类属性值,将属性特征定义为attribute,用att表示;同时att∈att,att={att1,att2,...,att
p
}为p个不同属性特征的集合,且attq={att
q1
,att
q2
,...,att
qw
}为第q个属性项里的w各不同属性值的集合;
[0088]
步骤2:建立混合属性相似计算模型,以计算不同类型属性特征的时空对象之间是否相似;其模型计算公式为:
[0089][0090]
式中,edg表示具有多种不同类型属性特征的两个时空对象是否相似的结果;e表示具有连续变量属性的两个时空对象是否相似的结果,dg表示具有分类变量属性特征的两个时空对象是否相似的结果;当且仅当e与dg同时相似时,edg才为相似;
[0091]
e值的判断条件如下式:
[0092][0093]
式中,δe为具有多个连续变量属性特征的两个时空对象的相似距离,该距离越大,两个时空对象相似度越小;δe_threshold为连续变量相似度阈值,根据用户对属性相似度要求程度来自行设定;
[0094]
dg值的判断条件如下式:
[0095][0096]
式中,δdg为具有多个分类变量属性特征的两个时空对象的相似度大小,δdg值越大,两个时空对象相似度越大;δdg_threshold为分类变量相似度阈值,根据用户对属性相似度要求程度来自行设定;且有:
[0097][0098]
式中,δd是具有多个无序分类变量属性特征的两个时空对象之间的相似度值,δg是具有多个有序分类变量属性特征的两个时空对象之间的相似度值;
[0099]
步骤3:通过绘制时空对象距离频数柱状图来确定时间与空间阈值,其具体步骤为:
[0100]
3.1计算时空对象事物集中两两时空对象在时间及空间维度下的时间及空间距离大小值;
[0101]
3.2计算上步所得各个距离大小值出现的频数;
[0102]
3.3将上步所得的频数值对应纵轴,距离大小值对应横轴,绘制出时空对象距离频数柱状图,找出柱状图中最大距离频数值所对应的点,该点的时间及空间距离的大小便可作为该纬度下的阈值,即时间阈值temporal_threshold及空间阈值spatial_threshold;
[0103]
3.4计算时空对象量阈值minpts,其计算公式为:
[0104]
minpts=ln(|d
p
|)
[0105]
式中,|d
p
|为时空对象点总数;
[0106]
步骤4:定义多属性时空聚类算法,包括:
[0107]
1)、时空对象:任意一个具有时空位置数据的事物都可称为时空对象,此处用表示,x和y为该时空对象的平面位置数据,t为该时空对象的时间数据,混合属性特征为att;
[0108]
2)、时空相邻点:如有p2为p1的时空相邻点,则需满足时空对象p2和p1之间的空间距离δs与时间距离δt同时满足以下公式:
[0109][0110]
两个时空对象点p2=(id
p2
,x2,y2,t2,att2),之间的时间及空间距离公式为:
[0111]
δt=|t
1-t2|
[0112]
δs=|distance((x1,y1)-(x2,y2))|
[0113]
=r
×
arcos[cos(y1)
×
cos(y2)
×
cos(x
1-x2)+sin(y1)
×
sin(y2)]
[0114]
式中r为地球赤道半径,r=6378.1km;
[0115]
3)、时空邻域:给定一个时空对象p1,以p1为圆柱中心,空间距离阈值spatial_thresh old为底面半径,2倍时间距离阈值temporal_threshold为高的圆柱体即为p1的时空邻域;
[0116]
4)、时空直接密度可达:假设存在两个时空对象p1和p2,若p2在p1的时空邻域内,且p1为时空核心对象,则称p1到p2时空直接密度可达;
[0117]
5)、时空核心对象:若在时空对象p的时空邻域内,与p时空直接密度可达的时空对象个数大于等于时空对象量阈值minpts,则称p为时空核心对象;
[0118]
6)、时空密度可达:假设存在n个时空对象p1,p2,p3,...,pn,任取pi到p
i+1
时空直接密度可达,则称p1到pn时空密度可达;
[0119]
7)、时空密度相连:假设存在三个时空对象p1,p2,p3,若p1和p3分别从p2时空密度可达,则称p1,p3时空密度相连;
[0120]
8)、簇:所有从核心点密度相连的对象形成一个簇;
[0121]
9)、时空独立点:即噪声,因不满足条件而最终无法归类到任一簇中的时空对象。
[0122]
而且,步骤1中,按照事务属性特征的性质,将属性特征的变量值进一步归为了两大类型,分别为连续变量及分类变量,其定义为:
[0123]
连续变量,该变量可在一定区间内任意取值,并且该值是连续不断的,同时相邻两个数值可以无限分割,如用户用电数据及用水数据;连续变量型的属性特征用attu表示;
[0124]
分类变量,该变量表明事物的类别,其取值是分类数据;同时,分类变量有可细分为有序分类变量和无序分类变量;
[0125]
a.有序分类变量各类别之间存在一定程度的差别,如按照年用电费用可将用户分为一般大用户、i类关键用户、ii类关键用户;有序分类变量的属性特征用att
of
表示,att
of
∈att
of
={att
of1
,att
of2
,...,att
ofg
}为g个不同有序分类变量属性特征的集合;
[0126]
b.无序分类变量是指其类别或属性之间无程度和顺序的分别;无序分类变量的属性特征用att
nf
表示,att
nf
∈att
nf
={att
nf1
,att
nf2
,...,att
nfh
}为h个不同有序分类变量属性特征的集合。
[0127]
而且,步骤2还包括以下子步骤:
[0128]
2.1计算连续变量属性特征的相似度δe:
[0129]
计算两个时空对象多维的连续变量属性值之间的相似度距离通常采用欧式距离计算方法;欧氏距离指在多维空间中两点之间的实际距离;
[0130]
两个时空对象中n维连续变量之间的相似度距离公式为:
[0131][0132]
2.2计算无序分类变量属性特征的相似度δd:
[0133]
计算两个时空对象的无序分类变量属性值之间的相似度,因该类属性值之间无任何关联关系,
[0134]
因此仅考虑两个时空对象中某一属性特征值是否相同即可,相同则相似度为1,不同相似度为0;选取dice相似系数来计算该类型特征的相似度,其定义公式为:
[0135][0136]
其中,att
nf1
,att
nf2
为两个时空对象中无序分类变量属性值的集合,comm(att
nf1
,att
nf2
)是集合att
nf1
,att
nf2
中具有相同属性特征的个数,leng(att
nf1
),leng(att
nf2
)是集合att
nf1
,att
nf2
的长度;
[0137]
2.3计算有序分类变量属性特征的相似度δg:
[0138]
在计算两个时空对象的有序分类变量属性值之间的相似度时,因有序分类变量各类别之间有程度的差别或顺序的关联关系,因此计算其相似度时不可单一判断两个属性值是否相同,还要考虑两个值之间的差别距离,利用gower相似系数可有效解决这一问题;两个时空对象中n维有序分类变量之间的gower系数计算公式为:
[0139][0140][0141]
其中,ri为时空对象中第i个有序分类变量属性特征中值的极差,即最大属性值与最小属性值相减;时空对象之间相似程度越高,其gower系数越接近于1;相似程度越低,其gower系数越接近于0。
[0142]
而且,步骤4中的多属性时空聚类算法步骤如下:
[0143]
4.1:建立一个多维度的时空信息数据库,库中数据地址的经度为x,纬度维y,数据发生时间为t,混合属性特征为att,一条信息数据为一个对象点i为时空对象数据序号,所有对象的集合为d
p

[0144]
4.2:设置时空对象量阈值minpts,根据多维时空数据集画出时空对象距离频数柱状图,确定空间阈值spatial_threshold、时间阈值spatial_threshold;
[0145]
4.3:从d
p
依次选取一个对象点pi,判断其是否已属于现有簇中,是则重新选取下一
个对象点,否则进行下一步;
[0146]
4.4:判断对象点pi是否为时空核心对象,是则进行下一步,否则回到步骤4.3中重新选取下一个对象点;
[0147]
4.5:搜寻时空核心对象点pi的所有时空相邻点qi,若qi不属于任何已有的簇,则进行下一步,否则重新选取下一个qi继续本步骤;
[0148]
4.6:通过混合属性相似计算模型计算出pi与qi的混合属性特征是否相似,相似则将qi放入新建的簇中,否则重新选取下一个qi继续步骤4.5;
[0149]
4.7:判断簇中的各对象是否为时空核心对象,是则对该时空核心对象重复步骤4.5,否则将不再进行下一步操作;
[0150]
4.8:重复上述步骤4.3到4.7,直到d
p
中所有对象都属于某个簇,或为时空孤立点;
[0151]
4.9:将上述得到的簇标签赋值给数据库新建的字段“簇标签”中。
[0152]
为了更清楚地说明本发明的具体实施方式,下面对现有技术中无线体域网网络架构进行说明:
[0153]
如图2所示为本发明的多属性时空聚类算法相关定义示意图(时空邻域立体示意图),即为时空邻域概念示意图,时空对象p1为圆柱中心,以空间距离阈值spatial_threshold为底面半径,2倍时间距离阈值temporal_threshold为高的圆柱体即为p1的时空邻域;图3中为本发明的多属性时空聚类算法相关定义示意图(时空直接密度可达俯视示意图),即为时空直接密度可达概念示意图,p1到p2时空直接密度可达;图4为本发明的多属性时空聚类算法相关定义示意图(时空密度可达俯视示意图),即为时空密度可达概念示意图,p1到p5任取pi到pi+1时空直接密度可达,则称p1到p5时空密度可达;图5为本发明的多属性时空聚类算法相关定义示意图(时空密度相连俯视示意图),即为时空密度相连概念示意图,p1和p3分别从p2时空密度可达,则p1和p3时空密度相连。
[0154]
如图6所示,多属性时空聚类其理论方法是在对时空数据集进行时间与空间维度在阈值设定优化条件下是否相似的判定后,增加混合属性相似计算模型来判断两两时空对象在多种不同类型的属性特征维度下是否相似,同时满足以上两个相似条件的时空对象集合则作为聚类簇,簇内的对象相似,否则作为时空独立点。
[0155]
最后,本发明的未述之处均采用现有技术中的成熟产品及成熟技术手段。
[0156]
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1