本发明涉及深度学习,特别是一种基于非冗余特征选择的数据中心服务器能耗预测方法。
背景技术:
1、it设备和制冷设备是数据中心的两大组成部分,二者的能耗约占总能耗的90%。由服务器、存储和网络通信设备等所构成的it设备系统所产生的功耗约占数据中心总功耗的45%,其中服务器系统约占50%。准确地预测服务器能耗不仅可以为数据中心节能提供重要依据,也是数据中心资源调度方法的基础。
2、然而数据中心服务器能耗特征复杂且维度高,如何选择合适的特征,缩减特征的维度,提高数据处理的效率和预测准确率显得尤为重要。针对以上需求,服务器能耗特征选择和模型构建成为数据中心服务器能耗预测的关键问题。
3、特征选择是机器学习中一个重要的“数据预处理”过程,可以将数据集中相关性较小的数据清除,从而提升机器学习的效率和精度。然而目前的特征选择方法对冗余特征的判定标准和方法不尽相同。大多数的研究是从两个特征的相关性判定冗余性,比如说计算两个特征之间的余弦相似度,很少有分析特征与特征的相关性和特征与目标值的相关性之间的联系。另外数据中心服务器能耗特征集维度巨大,一些特征选择算法也无法适用。
技术实现思路
1、发明目的:本发明的目的是提供一种基于非冗余特征选择的数据中心服务器能耗预测方法,从而使数据中心运维人员能够直观准确地掌握影响服务器能耗的关键因子,更好地分析、预测服务器运行时的负载变化和能耗趋势。
2、技术方案:本发明所述的一种基于非冗余特征选择的数据中心服务器能耗预测方法,包括以下步骤:
3、(1)选择出服务器能耗原始特征集中的强相关特征集。
4、(1.1)计算原始特征中每个特征fi与目标标量能耗y之间的皮尔逊相关性系数ρi,y。皮尔逊相关性系数ρi,y的计算公式为:
5、
6、其中cov(i,y)是特征fi和目标变量能耗y的协方差,σi和σy分别为特征fi和目标变量能耗y的标准差。
7、(1.2)设定一个阈值α,选出相关性系数ρi,y大于等于设定阈值α的特征作为强相关特征集,并将强相关特征集按相关性大小降序排列。设定的阈值α大于等于0.8且小于1。
8、(2)通过冗余特征判定算法找出强相关特征中的非冗余特征。
9、(2.1)记原始特征集中每个特征与目标变量能耗的皮尔逊相关性系数ρi,y中的最大值为ρmax。
10、(2.2)从强相关特征集最左端获取第一个特征fj,再依次获取fj右侧的特征fi(i≠j且ρj,y≥ρi,y),计算fi和fj的皮尔逊相关性系数ρi,j。
11、(2.3)判定ρi,y和ρmax是很接近的情况(相差不超过0.1),如果ρi,j>ρmax,则特征fi是近似特征,从强相关特征集合中删除特征fi。
12、(2.4)判定ρi,y和ρmax不是很接近的情况(相差不超过0.1),但是其中为所有强相关特征和目标标量能耗相关性系数的平均值,则特征fi是近似特征,从强相关特征集合中删除特征fi。
13、(2.5)选择fj右侧的第一个特征作为新一轮的fj,重复步骤(2.2)至(2.4),直到没有新的fj可选。
14、(2.6)输出最终的强相关特征集,即非冗余强相关性特征集。
15、(3)利用门控循环单元(gate recurrent unit,gru)神经网络构建模型预测服务器能耗。
16、(3.1)筛选出的非冗余强相关特征作为服务器能耗分析模型的输入。
17、(3.2)服务器能耗特征分析模型的计算过程为:
18、rt=σ(wr·[ht-1,xt]+br)
19、zt=σ(wz·[rt·ht-1,xt]+bh)
20、
21、
22、其中,rt、zt代表更新门和重置门;wr、wz是更新门和重置门的权重参数;br、bh表示更新门和重置门的偏置参数;激活函数σ(·)将计算值压缩到[0,1];tanh(·)是双曲正切激活函数,将计算值压缩到[-1,1];xt是一个包含输入特征数据的向量,也就是筛选的非冗余强相关特征;表示gru单元当前时刻t的记忆内容,由重置门储存的历史有效内容和xt的有效内容组成,取值为[-1,1];ht、ht-1分别表示当前时刻t、前一时刻t-1的gru单元学习到与预测服务器能耗相关的有效内容。
23、(3.3)利用服务器能耗分析模型的输出,构建非冗余强相关特征与服务器能耗值之间的关联关系,从而实现预测服务器能耗。
24、一种计算机存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的一种基于非冗余特征选择的数据中心服务器能耗预测方法。
25、一种计算机设备,包括储存器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的一种基于非冗余特征选择的数据中心服务器能耗预测方法。
26、有益效果:与现有技术相比,本发明具有如下优点:
27、1、本发明通过分析特征与特征相关性系数、特征与目标变量相关性系数二者之间联系,确定了冗余特征的判定准测,可以有效地缩减服务器能耗特征维数。
28、2、本发明通过以非冗余强相关特征作为输入训练gru神经网络模型,训练后的模型在服务器能耗预测上有着更高的准确率。
29、3、本发明通过对服务器能耗的预测,辅助数据中心运维人员更好地了解数据中心的运行情况,为数据中心资源调度系统提供依据,降低数据中心能耗。
1.一种基于非冗余特征选择的数据中心服务器能耗预测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于非冗余特征选择的数据中心服务器能耗预测方法,其特征在于,所述步骤(1)具体为:
3.根据权利要求2所述的一种基于非冗余特征选择的数据中心服务器能耗预测方法,其特征在于,所述步骤(1.1)中皮尔逊相关性系数ρi,y的计算公式为:
4.根据权利要求2所述的一种基于非冗余特征选择的数据中心服务器能耗预测方法,其特征在于,所述步骤(1.2)中设定的阈值α大于等于0.8且小于1。
5.根据权利要求1所述的一种基于非冗余特征选择的数据中心服务器能耗预测方法,其特征在于,所述步骤(2)具体为:
6.根据权利要求1所述的一种基于非冗余特征选择的数据中心服务器能耗预测方法,其特征在于,所述步骤(3)具体为:
7.一种计算机存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-6中任一项所述的一种基于非冗余特征选择的数据中心服务器能耗预测方法。
8.一种计算机设备,包括储存器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-6中任一项所述的一种基于非冗余特征选择的数据中心服务器能耗预测方法。