公共建筑空调用电能耗数据清洗方法及系统与流程

文档序号:22387397发布日期:2020-09-29 17:50阅读:105来源:国知局
本公开涉及建筑数据清洗
技术领域
:,特别是涉及公共建筑空调用电能耗数据清洗方法及系统。
背景技术
::本部分的陈述仅仅是提到了与本公开相关的
背景技术
:,并不必然构成现有技术。目前,建筑能耗需求占全球能耗需求的比例较大。公共建筑是发展较快、能耗消耗量较大且难以降耗的建筑,而空调能耗比例在公共建筑中达到50%以上,公共建筑降耗的首要任务是从减少空调系统的能耗入手。随着公共建筑能耗监测平台被应用于公共建筑中,该平台采集建筑能耗数据,但实际传到平台的建筑能耗数据存在大量的问题数据,该问题数据包括缺失数据和异常数据,所以数据预处理成为建筑数据挖掘分析前的重要工作。数据清洗、集成、转换和简化是其他领域中广泛使用的数据预处理步骤。在建筑领域中,因为建筑能耗监控平台的方案定制,在平台数据库中会预先设定数据属性和精度,保证相关数据属性和精度的一致性。因此,构建建筑数据预处理任务主要包括数据简化(减少数据维等),数据清洗(识别缺失和异常数据、数据填补)和数据转换(数据离散化和缩减等)。由于数据简化和数据转换两个任务在数据填补算法中被应用。因此在数据预处理中,数据清洗成为相对重要的任务。在实现本公开的过程中,发明人发现现有技术中存在以下技术问题:目前公共建筑空调用电能耗数据清洗方法中,在识别问题数据方面,由于没有以实际空调用电能耗数据的特点为依据,数据中的异常数据类型不明确,无法准确的识别出异常数据,导致识别出很多正常数据。在填补问题数据方面,目前针对公共建筑空调用电能耗数据填补问题,大多只采用直接删除、单一的机器学习算法或统计学算法填补,填补时没有考虑整个空调用电能耗数据的特点,填补速度快但导致最终填补精度不高。假如以不适当的方式进行数据清洗,数据填补精度不高,得到完整的数据质量较差,会导致数据分析挖掘出错误的知识和结论。技术实现要素:针对目前公共建筑空调用电能耗数据清洗方法中无法准确识别异常数据、仅采用单一填补方法、填补精度不高、没有统一的处理方法体系等缺点,本公开提供了公共建筑空调用电能耗数据清洗方法及系统;其中通过分析平台数据特点,对数据集中异常数据类型分类,并准确识别每种类型的异常数据,解决了无法准确识别异常数据的问题。依据数据判定实际空调运行模式,根据不同空调运行模式选择不同的填补算法,解决了仅采用单一填补方法且填补精度不高的问题。第一方面,本公开提供了公共建筑空调用电能耗数据清洗方法;公共建筑空调用电能耗数据清洗方法,包括:获取公共建筑空调用电能耗数据,对获取的数据进行缺失数据识别和异常数据识别,将识别的异常数据转换成缺失数据;得到待填补的空调用电能耗数据;将不同空调运行模式下,待填补的空调用电能耗数据划分为与建筑冷热负荷相关的数据和与建筑冷热负荷无关的数据两种数据类型;对不同数据类型分别进行数据填补。第二方面,本公开提供了公共建筑空调用电能耗数据清洗系统;公共建筑空调用电能耗数据清洗系统,包括:获取模块,其被配置为:获取公共建筑空调用电能耗数据,对获取的数据进行缺失数据识别和异常数据识别,将识别的异常数据转换成缺失数据;得到待填补的空调用电能耗数据;划分模块,其被配置为:将不同空调运行模式下,待填补的空调用电能耗数据划分为与建筑冷热负荷相关的数据和与建筑冷热负荷无关的数据两种数据类型;填补模块,其被配置为:对不同数据类型分别进行数据填补。与现有技术相比,本公开的有益效果是:(1)分析了建筑空调用电能耗数据的特点,将数据中的异常数据类型分为两类,包括长期连续重复数据和突变数据,并详细介绍了每一种异常数据的识别方法,解决了异常数据识别不准确的缺点;(2)依据不同空调运行模式下的用电能耗数据,利用相关系数法计算用电能耗数据与室外环境参数之间的相关性,将数据分为与建筑冷热负荷相关和无关两类。与建筑冷热负荷相关的问题数据采用bp神经网络算法填补,与建筑冷热负荷无关的问题数据采用knn回归插补,解决了不分析数据特点,只采用单一算法填补数据的缺陷。(3)针对目前空调数据清洗方法,形成了建筑空调用电能耗数据清洗方法体系,优化了空调数据清洗方法,提高了问题数据的填补精度。在该填补算法的基础上稍加修改,可应用于建筑能耗监测平台中其它分项用电能耗数据清洗及修复中,同时对数据挖掘知识的准确性以及建筑节能提供了依据和保障。附图说明构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。图1是本公开实施例一的公共建筑空调用电能耗数据清洗方法流程图;图2是本公开实施例一的问题数据(缺失和异常数据)识别流程图;图3是本公开实施例一的每月空调运行模式识别流程图;图4是本公开实施例一的问题数据填补算法选择流程图;图5是本公开实施例一的某建筑制冷季两日空调用电能耗数据填补值与真实值对比图;图6是本公开实施例一的某建筑过渡季两日空调用电能耗数据填补值与真实值对比图。具体实施方式应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属
技术领域
:的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。实施例一本实施例提供了公共建筑空调用电能耗数据清洗方法;公共建筑空调用电能耗数据清洗方法,包括:s101:获取公共建筑空调用电能耗数据,对获取的数据进行缺失数据识别和异常数据识别,将识别的异常数据转换成缺失数据;得到待填补的空调用电能耗数据;s102:将不同空调运行模式下,待填补的空调用电能耗数据划分为与建筑冷热负荷相关的数据和与建筑冷热负荷无关的数据两种数据类型;s103:对不同数据类型分别进行数据填补。作为一个或多个实施,所述s101中,异常数据,包括:长期连续重复数据和突变数据两类;其中,长期连续重复数据,是指在设定时间段内相同数据连续出现的时间长度超过设定值;突变数据,是指在设定时间段内该数据大于设定阈值或小于设定阈值。进一步地,对长期连续重复数据进行识别,首先识别出每个月空调用电能耗数据中的相同数据,然后,判断所述相同数据连续出现的时间长度是否超过设定值,如果是,就认为存在长期连续重复数据;否则,就认为不存在长期连续重复数据。进一步地,对突变数据进行识别,是采用k-means算法识别。进一步地,对突变数据进行识别,具体包括:将12个月的空调用电能耗数据划分为12个组,每一组的数据为一列,,对原始空调用电能耗数据进行标准化处理;通过轮廓系数法确定聚类中心的个数;对每个月的空调用电能耗数据进行聚类识别;采用组间平方和与总距离平方和的商来评价聚类结果:若商大于设定阈值(例如0.9),则表示聚类结果满足要求,否则,在当前聚类中心个数的基础上加一,然后继续聚类,直至商值满足要求。示例性的,所述对原始空调用电能耗数据进行标准化处理;具体步骤包括:将原始空调用电能耗数据标准化:式中:xi为原始空调用电能耗数据,为标准化后数据,m为每一组数据的均值,σ为每一组数据的标准差。示例性的,所述通过轮廓系数法确定聚类中心的个数;具体步骤包括:计算出每组数据的轮廓系数:式中:a(i)为组内相似度,b(i)为组间相似度,s(i)为轮廓系数。示例性的,根据式(5)计算组间平方和,根据式(3)计算总距离平方和:between_ss=total_ss-within_ss(5)式中:μ为所有数据的平均值,k为组个数,μk为第k组数据的平均值,total_ss为总距离平方和,within_ss为组内总的距离平方和,between_ss为组间平方和。作为一个或多个实施例,所述s102中,将不同空调运行模式下待填补的空调用电能耗数据划分为与建筑冷热负荷相关的数据和与建筑冷热负荷无关的数据两种数据类型;具体步骤包括:根据每种空调运行模式下空调用电能耗数据与室外环境参数之间的相关度,将不同空调运行模式下待填补的空调用电能耗数据划分为与建筑冷热负荷相关的数据和与建筑冷热负荷无关的数据两种数据类型。进一步地,不同空调运行模式,具体是指:制冷模式、供热模式和新风模式。进一步地,不同空调运行模式,具体划分步骤包括:通过聚类算法和每个月室外的环境温度,将预处理后的空调用电能耗数据按月划分到三个季度,所述三个季度分别为供暖季、过渡季和制冷季;供暖季对应空调的供热模式,过渡季对应空调的新风模式,制冷季对应空调的制冷模式;进而得到每种空调运行模式下的空调用电能耗数据。示例性的,所述聚类算法为k-means聚类算法。应理解的,k-means聚类算法聚类时,以每月的日平均空调用电能耗作为聚类原始数据。由于数据集中存在问题数据,需将问题数据删除,所以最终以除去问题数据后的每月日平均空调用电能耗数据作为算法的聚类原始数据。进一步地,根据每种空调运行模式下空调用电能耗数据与室外环境参数之间的相关度,将不同空调运行模式下待填补的空调用电能耗数据划分为与建筑冷热负荷相关的数据和与建筑冷热负荷无关的数据两种数据类型;具体步骤包括:计算空调用电能耗数据与室外环境温度的第一相关性;计算空调用电能耗数据与室外环境湿度、太阳辐射和风速的第二相关性;当第一相关性或第二相关性大于设定阈值;将当前空调运行模式下待填补的空调用电能耗数据视为与建筑冷热负荷相关的数据;否则,将当前空调运行模式下待填补的空调用电能耗数据视为与建筑冷热负荷无关的数据。示例性的,所述第一相关性,采用pearson相关系数法进行计算获取。示例性的,所述第二相关性,采用spearman相关系数法进行计算获取。应理解的,建筑逐时负荷和逐时室外环境温度呈正态分布,建筑逐时负荷与逐时相对湿度、太阳辐射和风速不服从正态分布。pearson相关系数法主要适用于具有连续且符合正态分布的变量,采用该方法计算空调用电能耗数据与室外环境温度的相关性。spearman相关系数法主要适用于具有连续且不服从正态分布的变量,采用该方法计算空调用电能耗数据与相对湿度、太阳辐射和风速的相关性。根据式(6)计算pearson相关系数:式中:yi为室外各环境参数的数据,n为变量取值的个数,r为pearson相关系数。根据式(7)计算spearman相关系数:式中:yi为室外各环境参数的数据,和为各数据的平均值,ρ为spearman相关系数。作为一个或多个实施例,所述s103中,对不同数据类型分别进行数据填补;具体步骤包括:s1031:对于与建筑冷热负荷相关的数据,使用预训练的神经网络模型进行缺失数据的填补;s1032:对于与建筑冷热负荷无关的数据,使用相邻日的空调用电能耗历史数据进行缺失数据的填补。进一步地,所述预训练的神经网络模型;训练步骤包括:构建训练集,所述训练集为已知的不存在问题数据的与建筑冷热负荷相关的数据;构建神经网络模型,将训练集输入到神经网络模型中,对神经网络模型进行训练,得到训练好的神经网络模型。示例性的,训练集可表示为:samp={[(toi,illi,ei,di),xi]}(i=1,2,…n),其中,(toi,illi,ei,di)为第i输入,4维;xi为第i输出:1维。to为室外温度,ill为太阳辐射、e为照明插座用电、d为人员在室率,x为空调用电能耗,n为训练集样本数。示例性的,所述将训练集输入到神经网络模型中,例如,将该建筑某一时间段已知的不存在问题数据的空调用电能耗数据作为输出训练数据,室外温度、太阳辐射、照明插座用电以及人员在室率作为输入训练数据,对神经网络的内部参数进行训练。示例性的,所述神经网络模型,可以采用bp神经网络、循环神经网络等,本领域技术人员可以根据实际需要进行选择,本申请对此不作任何限定。进一步地,s1032中,对于与建筑冷热负荷无关的数据,使用相邻日的空调用电能耗历史数据进行问题数据的填补;具体采用knn回归插补算法进行填补。应理解的,与建筑冷热负荷相关的空调用电能耗数据与已知室外气象参数相关,所以在填补这类空调用电能耗问题数据时应利用影响建筑冷热负荷相关度较高的参数作为输入参数,问题空调用电能耗数据作为输出参数,填补算法采用bp神经网络。与建筑冷热负荷无关的空调用电能耗数据则与已知的室外气象参数几乎无关,但相同月相同时间段,但不同日内的空调用电能耗数据波动不大,以相邻日的空调用电能耗历史数据作为输入参数,填补算法采用knn回归插补算法。图1为公共建筑空调用电能耗数据清洗方法流程图,并依据流程图介绍简要步骤:首先识别问题数据(缺失和异常数据),然后删除其中问题数据,计算除去问题数据的每月空调日平均用电能耗数据为聚类原始数据,通过k-means算法得到聚类结果,结合当地的室外环境温度,识别空调的运行模式分别为供热模式、新风模式、制冷模式。依据相关系数法计算三种模式下的空调用电能耗数据与室外气象参数的相关性,从而将与建筑冷热负荷相关的问题数据采用bp神经网络填补,反之,则采用knn回归插补算法填补问题数据。图2是问题数据(缺失和异常数据)识别流程图。识别缺失数据,先以月份为列名,每个月数据为一列,将文件格式保存为.csv格式,利用r语言中的read.csv函数访问保存文件的地址,将数据导入到程序中,读取数据会发现每个月数据中空值被“na”代替,通过is.na函数直接识别读入的文件。通过table函数统计is.na函数中的数据情况,为了清楚每个月份缺失数据在各自月份数据总数中的占比,通过aggr函数进一步统计缺失数据占比图。识别异常数据,包括长期连续重复数据识别和突变异常数据识别。先识别连续重复数据,采用duplicated函数主要是判断数据集中每个取值是否有重复数据。再采用“data[which(diff(data$某月)==0),]”语句判断这些重复数据中是否存在连续的重复数据,最终统计每个月份中空调用电数据中连续重复数据的个数并判定其时间长度是否超过设定值。对突变异常数据识别,采用k-means函数对数据进行聚类,分别导入每个月的用电能耗数据后,先利用na.omit函数删除每个月中的缺失数据,后将每个月的用电能耗数据利用scale函数对数据进行标准化,将数据标准化后的空调用电能耗数据分别通过fviz_nbclust函数实现轮廓系数法,得到轮廓系数图,找轮廓系数最大的点对应的坐标数作为聚类中心数目,同时需要组间平方和与总的距离平方和的商评价该聚类中心的聚类结果,满足大于90%时则为合格,以该结果为最终的聚类结果。图3是每月空调运行模式识别流程图。先分别计算该建筑每月空调日平均用电能耗数据作为聚类的原始数据,根据该数据将每年12个月份分别归类到高、中、低三个能耗月类型。由于将12个月份空调用电能耗分为三种耗电类型,直接确定k-means聚类中心数目为3个,利用r语言编写程序得到聚类图。按照每个月日平均用电能耗的聚类结果,并结合每月的室外环境温度,将12个月分别归类到制冷季、供热季以及过渡季中,依次的空调运行模式为制冷模式、供热模式、新风模式。图4是问题数据填补算法选择流程图。利用相关系数法,将三种模式下的空调用电能耗数据分别与室外环境参数做相关性分析。采用r语言cor函数中的pearson相关系数法和spearman相关系数法。通过计算相关系数,得知太阳辐射度、室外环境温度与制冷季、供热季的空调用电能耗数据呈强、中相关性,则该类空调用电能耗数据被称为与建筑冷热负荷相关空调用电能耗数据。所有参数与过渡季空调用电能耗数据之间呈弱、无相关性,则该类空调用电能耗数据被称为与建筑冷热负荷无关空调用电能耗数据。前者填补空调用电能耗问题数据时,应利用影响建筑冷热负荷相关度较高的参数作为输入参数,问题空调用电能耗数据作为输出参数,填补算法采用bp神经网络。在公共建筑的工作日和非工作日中,与冷热负荷无关的空调用电能耗的差距较大,所以将其分为两类。相同类型的空调用电能耗数据的变化规律基本保持稳定,相同时刻的用电能耗数据相差不大。相同月相同时间段,但不同日内的空调用电能耗数据波动不大,以相邻日的空调用电能耗历史数据作为输入参数,采用knn回归插补算法填补。图5是某建筑制冷季两日空调用电能耗数据填补值与真实值对比图。该图是采用bp神经网络算法,以太阳辐射度、室外环境温度、照明插座用电数据以及人员在室率作为输入参数,问题空调用电能耗数据作为输出参数,填补与建筑冷热负荷相关的制冷季两日空调用电能耗问题数据。图6是某建筑过渡季两日空调用电能耗数据填补值与真实值对比图。该图是采用knn回归插补方法,以问题数据邻近几日的不存在问题数据的用电能耗数据作为原始数据集,将每日空调用电能耗数据以日期为横坐标,以24小时时间点为纵坐标构建成数据矩阵,填补与建筑冷热负荷无关的过渡季两日空调用电能耗问题数据。实施例二本实施例提供了公共建筑空调用电能耗数据清洗系统;公共建筑空调用电能耗数据清洗系统,包括:获取模块,其被配置为:获取公共建筑空调用电能耗数据,对获取的数据进行缺失数据识别和异常数据识别,将识别的异常数据转换成缺失数据;得到待填补的空调用电能耗数据;划分模块,其被配置为:将不同空调运行模式下待填补的空调用电能耗数据划分为与建筑冷热负荷相关的数据和与建筑冷热负荷无关的数据两种数据类型;填补模块,其被配置为:对不同数据类型分别进行数据填补。此处需要说明的是,上述获取模块、划分模块和填补模块对应于实施例一中的步骤s101至s103,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。所提出的系统,可以通过其他的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个系统,或一些特征可以忽略,或不执行。以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1