一种基于关联分析的地区能源消耗研究方法与流程

文档序号:23761518发布日期:2021-01-29 18:58阅读:62来源:国知局
一种基于关联分析的地区能源消耗研究方法与流程

[0001]
本发明属于能源管理与节能领域,具体涉及一种基于关联分析的地区能源消耗研究方法。


背景技术:

[0002]
能源作为经济社会发展的重要动力和引擎,已成为全球共同关注的核心问题之一。能源消耗与其影响因素的关系分析是地区降低能耗,实现低碳、高质量、节能发展的重要依据。由于能源的社会属性,消耗情况受多种不确定性因素的影响,很难建立一个准确的数学模型对其进行预测和描述。传统的方法依靠能耗的历史数据,利用数理统计进行回归方程分析,虽然能起到一定的预测作用,但其适用范围有限,且缺乏合理的科学依据,无法深入理解能源消耗的发展规律、准确把握能源消耗与影响因素之间的关系。因此,亟待应用一种行之有效的方法对能源消耗数据进行分析。
[0003]
鉴于上述需求,本发明人基于从事此类产品设计制造多年丰富的实务经验及专业知识,并配合学理的运用,积极加以研究创新,以期创设一种基于关联分析的地区能源消耗研究方法,使其更具有实用性。


技术实现要素:

[0004]
本发明是提供一种基于关联分析的地区能源消耗研究方法,能够深入理解能源消耗的发展规律、准确把握能源消耗与影响因素之间的关系,为地区节能发展提供辅助决策。
[0005]
为达到上述目的,本发明的技术方案如下:
[0006]
一种基于关联分析的地区能源消耗研究方法,包括以下步骤:
[0007]
s1数据选择:分析地区能源消耗及其可能的影响因素,根据挖掘目的,获取核实及修正后的相关数据;
[0008]
s2数据预处理:对已获取的所述相关数据进行计算和换算处理,得到与研究主题相关的衍生数据,并至少对部分所述相关数据和衍生数据利用聚类算法进行分类和归并,实现连续数据的离散化和量化,获得数据源;
[0009]
s3数据挖掘:对所述数据源进行综合挖掘,获取频繁项目集,通过计算关联规则的各个参数,筛选出满足指定条件的有效的强关联规则;
[0010]
s4提取知识:对所述强关联规则进行分析、解释和评估,确定影响地区能耗的相关因素,总结规律。
[0011]
进一步地,步骤s1中,所述相关数据至少包括区人口规模、地区气候、地区gdp 总量、地区第二产业比重和地区年能耗量。
[0012]
进一步地,步骤s2中,所述衍生数据至少包括地区gdp年增长率、人均gdp、地区年能耗量增长率和人均年能耗量。
[0013]
进一步地,步骤s2中,所述聚类算法采用基于距离的k-means聚类算法,根据样本值与中心点的距离,对数据进行划分,每一类对应一个数值范围,落入所述数据范围的样本
即归为一类。
[0014]
进一步地,所述综合挖掘包括以下步骤:
[0015]
s31:计算所述项目集出现的频率;
[0016]
s32:判断所述项目集的出现次数是否满足最低支持度阈值,若是,则执行步骤s33,若否,则执行步骤s34;
[0017]
s33:提取所述项目集内的所有事务,并执行步骤s35;
[0018]
s34:判断不满足最低支持度阈值的低频项目集是否包含影响因素,若是,则提取包含影响因素的事务,并在数量大于支持度阈值时执行步骤s36,若否,则提取包含目标因素的事务,并执行s35;
[0019]
s35:利用fp-growth算法挖掘关联规则,并执行步骤s36;
[0020]
s36:进行置信度和支持度判断,并输出强关联规则。
[0021]
进一步地,步骤s33中,提取项目集内的所有事务组成一般组,利用经典fp-growth 算法挖掘关联规则。
[0022]
进一步地,步骤s34中,提取的包含目标因素的事务组成低频能耗组,通过提取该组中包含低频影响因素的事务构造新的事务集,利用fp-growth算法挖掘关联规则。
[0023]
进一步地,步骤s34中,提取包含影响因素的事务组成低频影响因素组,通过提取该组低频影响因素和能耗类别,建立一个新的事务集,利用fp-growth算法挖掘关联规则。
[0024]
本发明中基于关联分析的地区能源消耗研究方法具有以下技术效果;
[0025]
将关联规则挖掘技术引入地区能源消耗的分析中,分析研究地区(省/自治区/直辖市)能源消耗与地区人口规模、地区气候、地区gdp总量及其增长率、地区第二产业比重、地区人均gdp等数据之间的关系,能够挖掘出庞大数据中不易察觉的规则,得到一些具有参考或指导意义的知识,帮助深入理解能源消耗的发展规律、准确把握能源消耗与影响因素之间的关系,为地区节能发展提供辅助决策,其中量化的关联规则还可对地区能耗增长趋势起预测作用。
附图说明
[0026]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0027]
图1为本发明中基于关联分析的地区能源消耗研究方法的流程图。
具体实施方式
[0028]
下面将结合本发明实施例中的附表以及上述附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
[0029]
如图1所示,一种基于关联分析的地区能源消耗研究方法,包括以下步骤: s1数据选择:分析地区能源消耗及其可能的影响因素,根据挖掘目的,获取核实及修正后的相关数据;
[0030]
数据挖掘的目的是从海量数据中发掘先前未知的、具有潜在价值的信息和知识,协助决策者做出科学有效的决策,在电力能源领域主要用于电力市场营销、电力负荷预测、电力设备故障预测等;然而,利用关联规则数据挖掘方法对地区能源消耗数据进行的研究极为少见;根据对背景知识和问题特性的了解,确定挖掘目的及方向,从能源、经济、人口等指标的统计年鉴中初步筛选出可能的研究对象,剔除与主题严重偏离的数据项,从而整理构建出高质量、高效率、比较完备的历史数据库,作为本实施例的研究对象;其中,相关数据至少包括区人口规模、地区气候、地区gdp总量、地区第二产业比重和地区年能耗量;
[0031]
s2数据预处理:对已获取的相关数据进行计算和换算处理,得到与研究主题相关的衍生数据;
[0032]
本实施例中,衍生数据包括地区gdp年增长率、人均gdp、地区年能耗量增长率和人均年能耗量,并至少对部分相关数据和衍生数据利用聚类算法进行分类和归并,实现连续数据的离散化和量化,获得数据源,具体到本实施例中,除了相关数据的地区气候无需离散化,其他数据均要离散化处理;
[0033]
本实施例中,在对数据进行分类和归并的过程中,根据数据间的共性和差异,引用k-means方法对数据样本进行分类和归并,把数据样本划分为不同族的独立子集,每个独立子集分别被赋予高、中高、中等、中低和低水平5个区间属性值,实现了连续数据的离散化,为挖掘工作提供直接的数据源。本实施例中,为了便于本发明的理解,列举了一组数据,并根据数据特征,将其分为无需概化和待概化组,处理后的结果中无需概化的影响因素见表1,其他待概化数据的离散化结果见表2和表3;
[0034][0035]
表1
[0036][0037]
表2
[0038][0039][0040]
表3
[0041]
s3数据挖掘:对数据源进行综合挖掘,获取频繁项目集,通过计算关联规则的各个参数,筛选出满足指定条件的有效的强关联规则;
[0042]
在具体实施过程中,一般用支持度、置信度、期望概率和提升度来描述某条关联规则的属性。具体的,在本实施例中,对于规则a={a1,a2,a3,

,an}=>b,其中 a1,a2,a3,

,an为能耗影响因素,b为目标,即地区能耗状况,参数定义见表4:
[0043][0044]
表4
[0045]
其中,支持度和置信度两个属性通常作为门槛值,用于筛选具有普遍性和代表性的数据,剔除占比和置信度偏低的数据;提升度则是作为评估数据价值和增益的参考量,三个指标同时满足要求时,所得到的强关联规则才成立、有效。
[0046]
s4提取知识:对强关联规则进行分析、解释和评估,确定影响地区能耗的相关因素,总结规律,为地区节能发展提供科学、合理的建议。
[0047]
作为上述实施例的优选,步骤s2中,聚类算法采用基于距离的k-means聚类算法,根据样本值与中心点的距离,对数据进行划分,每一类对应一个数值范围,落入数据范围的样本即归为一类。
[0048]
作为上述实施例的优选,综合挖掘包括以下步骤:
[0049]
s31:计算项目集出现的频率,即事务数据库中某元素或子集出现的次数;
[0050]
s32:判断项目集的出现次数是否满足最低支持度阈值,若是,则执行步骤s33,若否,则执行步骤s34;
[0051]
s33:提取项目集内的所有事务,并执行步骤s35;
[0052]
s34:判断不满足最低支持度阈值的低频项目集是否包含影响因素,若是,则提取包含影响因素的事务,并在数量大于支持度阈值时执行步骤s36,若否,则提取包含目标因素的事务,并执行s35;
[0053]
s35:挖掘关联规则,并执行步骤s36;
[0054]
s36:进行置信度和支持度判断,并输出强关联规则。
[0055]
具体到本优选方案中,上述综合挖掘过程中判断项目集是否满足最低支持度阈值、判断项目集隶属影响因素数据或者目标因素数据,将项目集分为一般组、低频影响因素组和低频能耗组;
[0056]
其中,步骤s33中,提取项目集内的所有事务组成一般组采用经典fp-growth算法;步骤s34中,提取的包含目标因素的事务组成低频能耗组,通过提取该组中包含低频影响因素的事务来构造新的事务集,利用fp-growth算法挖掘关联规则,此时n(b)=n(all), n(ab)=n(a),然后利用fp-growth算法寻找频繁项集,输出{a=>b} 的关
联规则;步骤s34中,提取包含影响因素的事务组成低频影响因素组,通过提取该组低频影响因素和能耗类别,建立一个新的事务集,利用fp-growth算法挖掘关联规则,此时,n(a)=n(all),统计低频组中各类能耗的数目,如果支持度大于预设阈值,则可以输出{a=>b}的关联规则。
[0057]
为验证本发明提出方法的有效性,运用关联规则方法对我国30个地区(省/自治区/ 直辖市)在2012-2016年间的149条“能耗—影响因素”事务进行分析,所涉及的数据来自国家及地区年度统计信息。采用关联规则分析方法,所得挖掘结果及分析如下:
[0058]
1、省市类别与能耗量之间关联规则挖掘
[0059]
取最小支持度阈值min-support=5%,最小置信度阈值min-confidence=45%,共挖掘得到7条有效强关联规则,强关联规则结果数据如表5所示。
[0060][0061][0062]
表5
[0063]
下面是对表5中的有效强关联规则进行分析:
[0064]
(1)人口规模对能耗量的影响
[0065]
规则1-4:人口多的省份消耗的能源更多。在人口规模很小的地区,能源消耗处于低水平e1(3567-13714万吨标准煤),可信度极高。在人口规模庞大的省市,能源消费处于e3-e5的高水平区域,并趋于e4。人口是影响居民生活能耗的重要因素,人口规模越大,用于交通、餐饮、住宅照明、采暖/制冷等日常生活需要的能源种类(电力、煤、天然气、液化石油气等)和总量就会越多,两者呈显著的正相关关系。由此可见,生活能源消耗对降低一个地区的能源消费总量具有重要意义,因此,从居民节能意识的培养、照明设备与采暖/制冷设施升级改造等方面入手,提高能源利用效率,提倡节能的生产和生活方式,将成为今后各地区降低能耗的重要途径。
[0066]
(2)气候类型对人均年能耗量的影响
[0067]
规则5-7:从地域气候来看,处在亚热带季风气候的地区人均年能耗量较低,处在 s1水平;温带季风气候地区的人均年能耗与前者相比有明显增多,约在s3水平;而处于温带大陆性气候和高山高原气候的地区能耗处于s4-s5的高水平。参考地理和气象方面的资料可知,一般而言,亚热带季风气候区夏冬气候较温和,不太热也不太冷,相应制冷/采暖用能
量较低;温带季风气候区夏冬温度相对而言变化较大,使得冬季供暖和夏季制冷用能需求有所增加;温带大陆性气候和高山高原气区,冬季严寒、夏天炎热、气温年变化大,导致供暖/制冷的周期有所延长、供暖/制冷的要求更为高,使得人均年能耗量大大增加,处于很高水平。由此可知,气候条件对地区能源消耗有较大影响,应从制冷/采暖设施与设备的能效入手,降低人均制冷/采暖能耗。
[0068]
2、若干经济因素与能耗量之间关联规则挖掘
[0069]
同上,设置支持度、置信度最低阈值,共挖掘得到15条有效强关联规则,强关联规则结果数据如表6所示。
[0070][0071]
表6
[0072]
下面是对表6中的有效强关联规则进行分析:
[0073]
(3)gdp总量对能耗量的影响
[0074]
规则8-12:gdp总量越多的地区,能耗也会越高。如gdp处在g1水平的欠发达地区,能耗量保持在e1低水平;而gdp处在g5水平的高度发达地区,能耗量处在e4 和g5等高水平。可见地区的gdp总量对能源消耗的影响是十分明显的,这也反映出区域经济发展大多是建立在能源投入上的,属于资源消耗型发展模式,并不符合绿色发展的方向。因此,主要依靠增加物质能源消耗来推动经济增长的地区应从转变发展方式、调整产业结构入手,重视技术创新,着力质量与效益的协调推进,实现节能发展的目标。
[0075]
(4)gdp增长率对能耗量增长率的影响
[0076]
规则13-14:gdp增长率r1(-1—2%)以及r4(10-12%),对应能耗量增长率r2(-2—2%) 和r4(7-11%),其在数值上十分相近,可知gdp增长率与能耗量增长率具有某种紧密的关联。经济增长离不开能源消耗,能源消耗的增加很多程度上是由于经济的发展。
[0077]
(5)第二产业比重对能耗量增长率的影响
[0078]
规则15:第二产业比重处于b4水平时,能耗量增长率会处于r4水平,可见第二产业对地区能耗量增长率有较大影响。第二产业比重高,即工业发展迅猛的地区,第二产业构成了推动地区经济增长的支柱性产业,但第二产业多为高能耗产业,从长远来看,高能耗产业的不断壮大,必然会造成产业结构过于单一的极端现象,给经济转型带来更大的压力。如果不主动采取转型措施,势必导致产业结构严重扭曲,阻碍经济持续健康增长。
[0079]
(6)第二产业比重、gdp总量对能耗量的综合影响
[0080]
规则16-20:gdp总量处在g1、g2低水平的地区,即使第二产业比重处于b4、 b5较高水平,其能耗量仍将处于e1较低水平。当第二产业gdp总量较低时,能耗量也较低,这从侧面也证明了第二产业对能耗量的影响起主要作用。
[0081]
(7)人均gdp对人均年能耗量的影响
[0082]
规则21-22:人均gdp越多的地区,其人均年能耗量越高。通常,一个地区的人均 gdp水平反映了该地区经济发达程度以及居民的贫富状况。经济发达的地区,其城市配套基础设施、公共服务设施较为完备,人均出行里程较其他地区长。居民人均收入高,对生活水平有更高追求,在电器产品、私家车等方面拥有更强的购买力,其对能源的消费能力几乎不受能源价格波动的影响,综合多方面因素,从而使居民生活能耗大大增加。经济欠发达的地区情况刚好相反。因此对于发达地区,可通过加强对基础设施、公共服务设施的日常运行管理,倡导居民低碳生活等方式降低人均能耗,进而实现节能的目的。它也从侧面说明了规则1-4:人口因素对能耗量影响的正确性。
[0083]
3、综合因素与能耗量之间关联规则挖掘
[0084]
同上,设置支持度、置信度最低阈值,共挖掘得到3条有效强关联规则,强关联规则结果数据如表7所示。
[0085][0086][0087]
表7
[0088]
下面是对表7中的有效强关联规则进行分析:
[0089]
(8)人口、气候、人均gdp及gdp总量对能耗量的综合影响
[0090]
规则23:气候类型属于亚热带季风气候,人均gdp处在a2水平的地区,人均能耗量处于s1水平,这与规则5结果是一致的。气候适宜,发达水平较低的地区,采暖/ 制冷需求小,经济条件也在一定程度上限制了对能源的消费,从而使得人均能耗量较低。
[0091]
规则24-25:随着人口数量、gdp总量的增长,能耗总量也随着增加,且具有极高的
可信度。这也证明了规则1、2、8的正确性。
[0092]
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的技术人员显然可以对本发明做出各种相应的改变和变形,这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1