一种用于建筑负荷预测的数据完备性检验与特征学习方法

文档序号:29494873发布日期:2022-04-06 14:49阅读:174来源:国知局
一种用于建筑负荷预测的数据完备性检验与特征学习方法

1.本发明属于建筑负荷预测与数据挖掘的研究领域,具体涉及一种用于建筑负荷预测的数据完备性检验与特征迁移学习方法。


背景技术:

2.在公共建筑能耗中,空调系统能耗占比大约在40%甚至更高,建筑的空调系统具有巨大的节能潜力。为了提高建筑空调系统的能效,现阶段诸如可再生能源与建筑蓄能的协同优化、建筑需求侧响应以及分布式能源系统优化等各种建筑节能技术和能源系统优化方法层出不穷。然而,这些研究中提到的各种控制系统和优化设计的实现均是建立在准确的负荷预测基础之上的,因此获得高效、准确的负荷预测结果就显得尤为重要。
3.在建筑的设计和运行阶段,均需要对建筑的负荷进行预测。从建筑冷负荷预测模型的结构来看,是构建输入特征和输出负荷之间的映射关系。对预测精度起到决定性作用的因素,包括数据集本身的质量、数据处理方法和预测算法的选取三个方面。由于数据驱动模型对数据的质量有一定要求,这在一定程度上限制了该方法在实际工程中的使用。然而,对于一些建造完善的建筑能源系统而言,其负荷相关的数据信息是丰富的,但如何能将这部分丰富的建筑能源信息数据应用到信息匮乏的模型中去,并结合相应的预测算法,使这些数据匮乏的建筑能够在小样本条件下仍然能够达到理想的预测精度,在推进负荷预测应用于实际工程的过程中是十分有意义的。


技术实现要素:

4.有鉴于此,本发明提供一种用于建筑负荷预测的数据完备性检验与特征学习方法,在数据匮乏的条件下,实现从其他建筑的能源信息中挖掘到可迁移的数据信息作为补充,以保证对于数据信息不完备的建筑进行负荷预测的结果依然能达到满足预测精度要求的负荷预测结果。
5.为实现上述目的,本发明提出了一种用于建筑负荷预测的数据完备性检验与特征学习方法,包括以下步骤:
6.步骤1:首先,采用一种基于扩散核密度估计(dkde)的计算方法,自动生成合适的带宽。进一步的,计算离散负荷变量间的互信息熵:
[0007][0008][0009]
式中,p(x)和p(y)分别为x和y的概率密度函数(pdf);x和y分别表示x和y中的任意变量;p(x,y)为变量x和y的联合概率分布。
[0010]
通过引入最大相关最小冗余(mrmr)算法将多变量间互信息的计算方法简化为最
佳特征集的构建方法:
[0011][0012][0013]
式中,sn为n个特征组成的特征集,i(sn;y)表示建筑冷负荷y和特征集sn的互信息值;表示特征集中各特征变量之间的信息冗余度;s\s
h-1
表示全体特征集s与已选特征集s
h-1
的差集。
[0014]
增量搜索过程在式(4)取值非正时停止,这表明新增特征只能提高特征集的冗余度,而无法提供与负荷相关的新的信息,从而获得最佳特征集。
[0015]
步骤2:在进行数据预处理后,首先需要参考最佳特征集对数据集的特征完备性进行评估和判定,来确定使用该数据集是否能够达到相应的预测精度。以新数据集中的特征为基础,将最佳特征集中包含的特征与新数据集中的各个特征分别做负荷相关性的计算,达到阈值即表明新数据集中包含与最佳特征集中对应的特征,观察最佳特征集中的各个特征是否与新数据集中的特征均有对应,若均有对应,则表明新数据集的特征是完备的,否则为不完备的。
[0016]
采用对称不确定性(su)作为特征间相关性的度量指标,即ifc(fi,fj)=su(fi,fj),通过计算特征fi和fj的互信息,随后进行标准化处理,可得到su。计算方法如式(5)所示:
[0017][0018]
其中,h(fi)表示特征的不确定度(即熵),其定义如式(6)所示。
[0019]
h(fi)=-∑p(fi′
)
×
log2p(fi′
)
ꢀꢀꢀꢀꢀꢀ
(6)
[0020]
式中,p(fi′
)表示特征fi取某个特定值的先验概率。
[0021]
ig(fi|fj)表示信息增益率,其计算方法如式(7)所示:
[0022]
ig(fi|fj)=h(fi)-h(fi|fj)=h(fj)-h(fj|fi)
ꢀꢀꢀꢀꢀ
(7)
[0023]
h(fi|fj)表示特征fj确定情况下,特征fi的熵,其计算方法如式(8)所示:
[0024][0025]
式中,p(f
′j)表示fj取某个特定值的先验概率。
[0026]
使用k-s(kolmogorov-sminov)参数来检验两个不同的数据集上相同特征对应的数据分布相似性。该方法通过分析特征在两个数据集的累计频次数分布是否接近来判断特征分布是否相似。k-s检验的步骤如下:
[0027]
1)设定两个假设:h0:s1(x)=s2(x),h1:s1(x)≠s2(x)。
[0028]
2)确定累计概率分布函数。令s1(x),s2(x)分别表示两个数据集中某特征的累计概率分布函数。
[0029]
3)计算检验统计量。检测统计量d=max|s1(x)-s2(x)|。
[0030]
进行分布相似性的判断。如果对于每个特征,检测统计量都很小(在本文中设定阈
值为0.05),则表明两个数据集的拟合程度很高,则接受假设h0。否则拒绝。
[0031]
步骤3:基于完备性判定,如果判定结果为数据集完备,则该数据集可以通过特征工程作为模型的输入来训练预测模型;如果判定结果为数据集不完备,则需要从其它完备的数据集中进行特征迁移,补全缺失的特征。本发明采用迁移成分分析方法进行特征迁移,该方法的步骤如下:
[0032]
1)使用k
s,s
、k
t,t
和k
s,t
表示源域、目标域和交叉域的核矩阵,定义一个复合核矩阵,转化为经验核映射的样式,如式(2-47)所示。
[0033][0034]
2)引入一个(n1+n2)
×
m的转换矩阵w将对应的特征向量转换到m维空间,其中m<<n1+n2,将最小化域间差异的问题简化为等价的矩阵迹最大化问题,如式(10)所示。
[0035][0036]
式中,μ代表权衡参数;
[0037]
i∈rm×m,且为单位矩阵;1
[0038]
且为协方差矩阵,其中是元素均为1的列向量,是元素均为1的列向量,是单位矩阵。
[0039]
求解矩阵(i+μklk)-1
khk的特征值对应的特征向量,即为式(10)的解,其中最多可提取ns+n
t-1个特征向量。
[0040]
有益效果
[0041]
(1)本发明可以解决由于数据特征不完备所造成的建筑负荷预测精度下降的问题,大幅提升了建筑负荷的预测精度。
[0042]
(2)本发明在模型的输入产生微小的变化时仍然能够保持预测结果的稳定,增强了负荷预测模型的鲁棒性。
[0043]
(3)本发明降低了建筑负荷预测模型的计算复杂度,减少了计算时长。
附图说明
[0044]
图1为本发明一种用于建筑负荷预测的数据完备性检验与特征学习方法的技术路线图;
[0045]
图2为本发明一个实施例中室外温度概率分布的核密度估计结果;
[0046]
图3为本发明一个实施例中建筑冷负荷与外扰参数互信息分布图;
[0047]
图4为本发明一个实施例中新数据集特征相关性及特征分布相似性计算结果;
[0048]
图5为本发明一个实施例中各模型下预测结果的r-squared与cv_rmse分布箱形图。
[0049]
图6为本发明一个实施例中模型a、b、c在不同样本下的预测结果鲁棒性图。
[0050]
图7为本发明一个实施例中模型a、b、c训练过程cpu占用率对比图
具体实施方式
[0051]
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
[0052]
以某案例建筑a、b为实施例。建筑a为数据完备的源域,外扰数据包括4种类型共12维特征,如表1所示;内扰数据包括8种类型共63维特征,如表2所示。
[0053]
表1 外扰参数汇总表
[0054][0055]
表2 内扰参数汇总表
[0056][0057]
建筑b为数据不完备的目标域。从建筑a中需要迁移的最佳特征集、取得最佳预测精度时的完备特征集,以及建筑b中的新数据集中包含的特征如表3所示。
[0058]
表3 新数据集包含特征对比
[0059]
[0060]
本发明提供一种用于建筑负荷预测的数据完备性检验与特征学习方法,其流程图如图1所示,包括以下步骤:
[0061]
步骤1:首先针对建筑a,采用一种基于扩散核密度估计(dkde)的计算方法,自动生成合适的带宽。如图2所示,以室外温度为例,展示了室外温度概率分布的核密度估计情况。进一步的,计算离散负荷变量间的互信息熵:如图3所示,展示了建筑冷负荷与外扰参数互信息分布的计算结果。通过引入最大相关最小冗余(mrmr)算法将多变量间互信息的计算方法简化为最佳特征集的构建方法,在每一类特征中选取与建筑冷负荷互信息最大的特征构成特征集作为增量搜索的起点,其中每次增量搜索的结果如表3所示。
[0062]
表3 mrmr特征选择结果
[0063][0064]
由表3的特征选择结果可以得知,当特征增量更新至特征集fs11时,根据步骤1)中所描述的方法可以判定,当式(4)取值非正时,新增的特征已无法提供新的信息,此时停止特征增量更新,获得最佳特征集fs11。
[0065]
步骤2:在完备特征集fs11的基础上,比较特征变量缺失对建筑冷负荷短期预测精度的影响,从而明确每一类特征变量对数据完备性的贡献度,以cv_rmse作为预测精度的指标。完备性贡献率排序结果如表4所示。
[0066]
表4 短期冷负荷预测模型特征变量完备性贡献率排序
[0067][0068]
从表4中可以发现,进行建筑冷负荷短期预测时,每种类型特征变量的缺失都会造成预测精度的降低,即cv_rmse的增加,根据预测精度变化率的不同,间接反映出每种特征类型对数据特征完备性的贡献率,其中特征变量的数据特征完备性贡献率排序从高到低依次为:建筑室内温度、太阳辐射强度、室外环境温度、建筑室内照明功率、建筑室内照度、建筑室内空气湿度、全楼耗电量、室外露点温度、热泵系统耗功率。
[0069]
使用步骤2)中的特征相关性和特征分布相似性相结合的评价方法,从宽松标准下的最佳特征集中选取与新数据集中的各特征相关性及分布相似性较高的特征,选取结果如图4所示。
[0070]
图4中,x轴为新数据集内的各项特征,左侧y轴表示特征间相关性,采用对称不确定性(su)作为衡量指标,其值在[0,1]范围内,越接近1代表两个特征相关性越高,与图中的柱状图相对应,选取阈值为0.6,大于0.6的值表示两个特征具有的相关性;右侧y轴表示特征分布相似性,根据步骤2)中的介绍,将使用k-s检验方法,并将阈值p-value设置为0.05,当计算出来的值大于0.05时则接受原假设h0,即两个特征间具有分布相似性,否则拒绝。右侧y轴的值即为p-value,与图中的散点图相对应。
[0071]
步骤3:基于步骤2)的完备性判定,判定结果为建筑b的数据集不完备,则需要从建筑a的完备数据集中进行特征迁移,补全缺失的特征。采用迁移成分分析法(tca)为依据从构建的来自建筑a的源域特征集中选取需要迁移的特征,与来自建筑b的目标域特征共同构建出新的数据集,随后输入到lstm模型的输入层训练模型。
[0072]
具体地,本实例对比分析了以下四种预测模型的建筑冷负荷预测结果,模型a:使用源域特征选择方法,将源域最佳特征集作为输入进行特征迁移;模型b:使用源域特征选择方法,将源域最佳特征集作为输入进行特征迁移;模型c:未使用源域特征选择方法,直接将所有源域特征作为输入进行特征迁移;模型d:不使用特征迁移方法,直接使用目标域数据对lstm模型进行训练。其中模型a、b、c均使用步骤3)中介绍的迁移成分分析法(tca)在源域中进行特征迁移。
[0073]
图5展示了各模型下预测结果的cv_rmse与r-squared分布箱形图,模型a、b、c效果均优于模型d,说明引入特征迁移后,预测精度均有了不同程度的提升,cv_rmse值均达到了30%以下。
[0074]
进一步比较模型a、b、c的鲁棒性,在每个样本中对三个模型的预测精度变化进行对比,如图6所示。其中横坐标对应的是逐渐减少特征变量的目标域,纵坐标为r-squared值,(a)~(g)分别对应表5中所建立的样本i~vi。
[0075]
表5 目标域中包含的特征变量情况
[0076][0077]
从图6中可知,模型a在目标域缺失两个特征变量时仍能保证比较高的预测精度,而且随着目标域特征的减少,预测精度下降的趋势也最为缓慢,表现了其良好的鲁棒性。
[0078]
模型的复杂程度可以直观地体现在cpu的占用率上,进一步对比a、b、c三种特征迁移预测模型在计算复杂度上的差异,转化为对比三种特征迁移预测模型在训练过程中的cpu占用率,从而比较出三种模型的计算时长,如图7所示。
[0079]
由图7比较可知,模型a能够在提高预测精度的前提下,大大降低训练过程中cpu的占用率和训练所需时间,体现了模型a在减少训练时间,提高模型运算效率方面的优越性。
[0080]
应当理解的是,这里所讨论的实施方案及案例只是为了说明,对本领域技术人员来说,可以加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1