中央空调控制模型的训练方法、中央空调控制方法及装置与流程

文档序号:30595668发布日期:2022-07-01 20:36阅读:165来源:国知局
中央空调控制模型的训练方法、中央空调控制方法及装置与流程

1.本技术涉及中央空调技术领域,特别是涉及一种中央空调控制模型的训练方法、中央空调控制方法及装置。


背景技术:

2.中央空调作为大型公共建筑的基础设施,用以满足人们对室内温度的需求。与此同时,中央空调的能耗问题,受到越来越多的关注。以数据中心为例,据《绿色数据中心白皮书(2019)》统计,2020年全球数据中心的用电量将占到全球用电量的3%-4%,其中,相当大一部分电量用于中央空调的制冷和制热。因此,如何在维持室内温度的同时,降低中央空调的能耗,是一个亟待解决的问题。


技术实现要素:

3.有鉴于此,本技术提供一种中央空调控制模型的训练方法、中央空调控制方法及装置,主要目的在于在维持室内温度的同时,降低中央空调的能耗。
4.为了解决上述问题,本技术主要提供如下技术方案:
5.第一方面,本技术提供了一种中央空调控制模型的训练方法,该方法应用于目标终端设备,该方法包括:
6.根据实际环境采用的业务规律建立神经网络模型,并对所述神经网络模型进行训练,以获得仿真环境模型;
7.根据预置算法建立强化学习模型;
8.基于所述仿真环境模型对所述强化学习模型进行训练,直至达到预设训练停止条件,以获得中央空调控制模型。
9.可选的,所述基于所述仿真环境模型对所述强化学习模型进行训练,直至达到预设训练停止条件,以获得中央空调控制模型,包括:
10.步骤s1:使用所述仿真环境模型生成第一训练状态向量,其中,所述第一训练状态向量为所述仿真环境模型根据第一时刻所述仿真环境模型的状态生成的,所述第一训练状态向量包括:不受控制设备的开关状态、目标外部参数、非控设备的运行参数和目标内部参数,所述第一时刻为当前时刻;
11.步骤s2:将所述第一训练状态向量输入至所述强化学习模型中,以便所述强化学习模型输出训练动作向量,所述训练动作向量包括:热泵出水温度设定值,循环水泵频率设定值,ahu水阀开度设定值;
12.步骤s3:将所述训练动作向量输入至所述仿真环境模型中,以便所述仿真环境模型根据所述训练动作向量控制仿真中央空调;
13.步骤s4:根据预设时长和预设规则从所述仿真环境模型中获取多个室内温度设定值、多个室内温度实际值、多个系统总功率和预设比重系数,并将多个所述室内温度设定值、多个所述室内温度实际值、多个所述系统总功率和所述预设比重系数代入预置奖励函
数公式中,以计算训练奖励值;
14.步骤s5:使用所述仿真环境模型生成第二训练状态向量,并将所述第一训练状态向量、所述训练动作向量、所述训练奖励值和所述第二训练状态向量作为训练样本存放至训练样本集中,所述第二训练状态向量为所述仿真环境模型根据第二时刻所述仿真环境模型的状态生成的,所述第二训练状态向量包括:不受控制设备的开关状态、目标外部参数、非控设备的运行参数和目标内部参数,所述第二时刻与所述第一时刻间隔所述预设时长;
15.步骤s6:从所述训练样本集中随机获取n个训练样本,并使用n个所述训练样本对所述强化学习模型中的模型参数进行优化调整,n为正整数;
16.步骤s7:判断是否到达所述预设训练停止条件;若达到,则将所述强化学习模型确认为所述中央空调控制模型;若未达到,则回到步骤s1。
17.第二方面,本技术提供了一种中央空调控制方法,用于基于第一方面所述的训练方法得到的中央空调控制模型对目标中央空调进行控制。
18.可选的,在对所述目标中央空调进行控制时,根据第一时刻实际环境的状态生成第一实际状态向量,其中,所述第一实际状态向量包括:不受控制设备的开关状态、目标外部参数、非控设备的运行参数和目标内部参数,所述第一时刻为当前时刻;
19.将所述第一实际状态向量输入至所述中央空调控制模型中,以便所述中央空调控制模型输出实际动作向量,所述实际动作向量包括:热泵出水温度设定值,循环水泵频率设定值,ahu水阀开度设定值;
20.使用所述实际动作向量控制目标中央空调。
21.可选的,在所述使用所述实际动作向量控制目标中央空调之后,所述方法还包括:
22.从所述实际环境中获取所述目标中央空调对应的工作模式、室内温度设定值和室内温度实际值;
23.当所述工作模式为制冷模式时,若所述室内温度实际值大于所述室内温度设定值,则依次调整ahu水阀开度、循环水泵频率和热泵出水温度,以使得调整后的所述室内温度实际值小于或等于所述室内温度设定值;
24.当所述工作模式为制热模式时,若所述室内温度实际值小于所述室内温度设定值,则依次调整ahu水阀开度、循环水泵频率和热泵出水温度,以使得调整后的所述室内温度实际值大于或等于所述室内温度设定值。
25.可选的,在所述使用所述实际动作向量控制目标中央空调之后,所述方法还包括:
26.根据预设时长和预设规则从所述实际环境中获取多个室内温度设定值、多个室内温度实际值、多个系统总功率和预设比重系数,并将多个所述室内温度设定值、多个所述室内温度实际值、多个所述系统总功率和所述预设比重系数代入预置奖励函数公式中,以计算实际奖励值;
27.根据第二时刻实际环境的状态生成第二实际状态向量,其中,所述第二实际状态向量包括:不受控制设备的开关状态、目标外部参数、非控设备的运行参数和目标内部参数,所述第二时刻与所述第一时刻间隔所述预设时长;
28.将所述第一实际状态向量、所述实际动作向量、所述实际奖励值和所述第二实际状态向量作为训练样本存放至训练样本集中;
29.从所述训练样本集中随机获取m个训练样本,并使用m个所述训练样本对所述中央
空调控制模型中的模型参数进行优化调整,m为正整数。
30.第三方面,本技术提供了一种中央空调控制模型的训练装置,该装置包括:
31.第一建立单元,用于根据实际环境采用的业务规律建立神经网络模型;
32.第一训练单元,用于对所述神经网络模型进行训练,以获得仿真环境模型;
33.第二建立单元,用于根据预置算法建立强化学习模型;
34.第二训练单元,用于基于所述仿真环境模型对所述强化学习模型进行训练,直至达到预设训练停止条件,以获得中央空调控制模型。
35.可选的,所述第二训练单元包括:
36.第一生成模块,用于使用所述仿真环境模型生成第一训练状态向量,其中,所述第一训练状态向量为所述仿真环境模型根据第一时刻所述仿真环境模型的状态生成的,所述第一训练状态向量包括:不受控制设备的开关状态、目标外部参数、非控设备的运行参数和目标内部参数,所述第一时刻为当前时刻;
37.第一输入模块,用于将所述第一训练状态向量输入至所述强化学习模型中,以便所述强化学习模型输出训练动作向量,所述训练动作向量包括:热泵出水温度设定值,循环水泵频率设定值,ahu水阀开度设定值;
38.第二输入模块,用于将所述训练动作向量输入至所述仿真环境模型中,以便所述仿真环境模型根据所述训练动作向量控制仿真中央空调;
39.获取模块,用于根据预设时长和预设规则从所述仿真环境模型中获取多个室内温度设定值、多个室内温度实际值、多个系统总功率和预设比重系数,并将多个所述室内温度设定值、多个所述室内温度实际值、多个所述系统总功率和所述预设比重系数代入预置奖励函数公式中,以计算训练奖励值;
40.第二生成模块,用于使用所述仿真环境模型生成第二训练状态向量,并将所述第一训练状态向量、所述训练动作向量、所述训练奖励值和所述第二训练状态向量作为训练样本存放至训练样本集中,所述第二训练状态向量为所述仿真环境模型根据第二时刻所述仿真环境模型的状态生成的,所述第二训练状态向量包括:不受控制设备的开关状态、目标外部参数、非控设备的运行参数和目标内部参数,所述第二时刻与所述第一时刻间隔所述预设时长;
41.调整模块,用于从所述训练样本集中随机获取n个训练样本,并使用n个所述训练样本对所述强化学习模型中的模型参数进行优化调整,n为正整数;
42.判断模块,用于判断是否到达所述预设训练停止条件;当达到所述预设训练停止条件时,将所述强化学习模型确认为所述中央空调控制模型;当未达到所述预设训练停止条件时,控制所述第一生成模块、所述第一输入模块、所述第二输入模块、所述获取模块、所述第二生成模块和所述调整模块对所述强化学习模型进行训练。
43.第四方面,本技术提供了一种目标中央空调控制系统,该目标中央空调控制系统用于基于第一方面所述的训练方法得到的中央空调控制模型对目标中央空调进行控制。
44.可选的,该目标中央空调控制系统包括:
45.第一生成单元,用于根据第一时刻实际环境的状态生成第一实际状态向量,其中,所述第一实际状态向量包括:不受控制设备的开关状态、目标外部参数、非控设备的运行参数和目标内部参数,所述第一时刻为当前时刻;
46.第一输入单元,用于将所述第一实际状态向量输入至所述中央空调控制模型中,以便所述中央空调控制模型输出实际动作向量,所述实际动作向量包括:热泵出水温度设定值,循环水泵频率设定值,ahu水阀开度设定值;
47.控制单元,用于使用所述实际动作向量控制目标中央空调。
48.可选的,所述目标中央空调控制系统还包括:
49.第一获取单元,用于从所述实际环境中获取所述目标中央空调对应的工作模式、室内温度设定值和室内温度实际值;
50.第一调整单元,用于当所述工作模式为制冷模式时,若所述室内温度实际值大于所述室内温度设定值,则依次调整ahu水阀开度、循环水泵频率和热泵出水温度,以使得调整后的所述室内温度实际值小于或等于所述室内温度设定值;
51.所述第一调整单元,还用于当所述工作模式为制热模式时,若所述室内温度实际值小于所述室内温度设定值,则依次调整ahu水阀开度、循环水泵频率和热泵出水温度,以使得调整后的所述室内温度实际值大于或等于所述室内温度设定值。
52.可选的,所述目标中央空调控制系统还包括:
53.第二获取单元,用于根据预设时长和预设规则从所述实际环境中获取多个室内温度设定值、多个室内温度实际值、多个系统总功率和预设比重系数,并将多个所述室内温度设定值、多个所述室内温度实际值、多个所述系统总功率和所述预设比重系数代入预置奖励函数公式中,以计算实际奖励值;
54.第二生成单元,用于根据第二时刻实际环境的状态生成第二实际状态向量,其中,所述第二实际状态向量包括:不受控制设备的开关状态、目标外部参数、非控设备的运行参数和目标内部参数,所述第二时刻与所述第一时刻间隔所述预设时长;
55.存放单元,用于将所述第一实际状态向量、所述实际动作向量、所述实际奖励值和所述第二实际状态向量作为训练样本存放至训练样本集中;
56.第二调整单元,用于从所述训练样本集中随机获取m个训练样本,并使用m个所述训练样本对所述中央空调控制模型中的模型参数进行优化调整,m为正整数。
57.为了实现上述目的,本技术的第五方面,提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述第一方面所述的中央空调控制模型的训练方法;或执行上述第二方面所述的中央空调控制方法。
58.为了实现上述目的,本技术的第六方面,提供了一种电子设备,所述设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行上述第一方面所述的中央空调控制模型的训练方法;或执行上述第二方面所述的中央空调控制方法。
59.借由上述技术方案,本技术提供的技术方案至少具有下列优点:
60.本技术提供了一种中央空调控制模型的训练方法、中央空调控制方法及装置,本技术能够在目标终端设备根据实际环境采用的业务规律建立神经网络模型,并对神经网络模型进行训练,从而获得仿真环境模型后,根据预置算法建立强化学习模型,并基于仿真环境模型对强化学习模型进行训练,直至达到预设训练停止条件,从而获得中央空调控制模型,在将中央空调控制模型迁移至目标中央空调控制系统中后,目标中央空调控制系统便
可基于中央空调控制模型控制目标中央空调。由于,仿真环境模型的训练过程简单,基于仿真环境模型训练强化学习模型,能够使得强化学习模型快速达到训练停止条件,因此,能够快速训练获得中央空调控制模型;并且,中央空调控制系统基于中央空调控制模型能够实现对中央空调的精准控制,从而可以在维持室内温度的同时,降低中央空调的能耗。
61.上述说明仅是本技术技术方案的概述,为了能够更清楚了解本技术的技术手段,而可依照说明书的内容予以实施,并且为了让本技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本技术的具体实施方式。
附图说明
62.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
63.图1示出了本技术实施例提供的第一种中央空调控制模型的训练方法流程图;
64.图2示出了本技术实施例提供的第二种中央空调控制模型的训练方法流程图;
65.图3示出了本技术实施例提供的第三种中央空调控制方法流程图;
66.图4示出了本技术实施例提供的第四种中央空调控制方法流程图;
67.图5示出了本技术实施例提供的第一种中央空调控制模型的训练装置的组成框图;
68.图6示出了本技术实施例提供的第二种中央空调控制模型的训练装置的组成框图;
69.图7示出了本技术实施例提供的第一种目标中央空调控制系统的组成框图;
70.图8示出了本技术实施例提供的第二种目标中央空调控制系统的组成框图;
71.图9示出了本技术实施例提供的一种设备的结构框图。
具体实施方式
72.下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
73.需要注意的是,除非另有说明,本技术使用的技术术语或者科学术语应当为本技术所属领域技术人员所理解的通常意义。
74.第一方面,本技术实施例提供一种中央空调控制模型的训练方法,该方法应用于目标终端设备,如图1所示,该方法包括:
75.101、根据实际环境采用的业务规律建立神经网络模型,并对神经网络模型进行训练,以获得仿真环境模型。
76.其中,目标终端设备可以但不限于为:计算机、服务器等。其中,实际环境采用的业务规律可以但不限于包括:(1)设置的制冷温度越低,中央空调的功率越高(2)设置的制冷温度越高,中央空调的功率越低(3)设置的制热温度越高,中央空调的功率越高(4)设置的制热温度越低,中央空调的功率越低(5)循环水泵频率越高,循环水的流量越高(4)循环水
泵频率越低,循环水的流量越低等等;其中,建立的神经网络模型可以为任意类型的神经网络模型,本技术实施例对此不进行具体限定。
77.在本技术实施例中,目标终端设备首先需要根据实际环境采用的业务规律建立神经网络模型,并对神经网络模型进行训练,从而获得仿真环境模型,其中,训练获得的仿真环境模型与实际环境具有相同的业务规律。
78.具体的,在本步骤中,可以采用以下方式对神经网络模型进行训练,从而获得仿真环境模型:根据预置训练数据生成训练样本集和测试样本集,使用训练样本集中的训练样本对神经网络模型进行训练,使用测试样本集中的测试样本对神经网络模型进行测试,当神经网络模型的精度达到预设精度要求时,将神经网络模型确定为仿真环境模型;也可以采用其他现有的神经网络模型训练方法对神经网络模型进行训练,本技术实施例对此不进行具体限定。
79.102、根据预置算法建立强化学习模型,并基于仿真环境模型对强化学习模型进行训练,直至达到预设训练停止条件,以获得中央空调控制模型。
80.其中,预置算法具体为:td3算法;预设训练停止条件可以但不限于包括:强化学习模型的损失函数收敛,当室内温度设定值不变时,强化学习模型输出的动作向量中包含的各个控制参数的值趋于稳定,即各个控制参数的值在规定范围内浮动或保持不变。
81.在本技术实施例中,目标终端设备在训练获得仿真环境模型后,便可根据预置算法(即td3算法)建立强化学习模型,并基于仿真环境模型对强化学习模型进行训练,直至达到预设训练停止条件,从而获得中央空调控制模型,在将中央空调控制模型迁移至目标中央空调控制系统中后,目标中央空调控制系统便可基于中央空调控制模型控制目标中央空调。
82.本技术实施例提供了一种中央空调控制模型的训练方法,本技术实施例能够在目标终端设备根据实际环境采用的业务规律建立神经网络模型,并对神经网络模型进行训练,从而获得仿真环境模型后,根据预置算法建立强化学习模型,并基于仿真环境模型对强化学习模型进行训练,直至达到预设训练停止条件,从而获得中央空调控制模型,在将中央空调控制模型迁移至目标中央空调控制系统中后,目标中央空调控制系统便可基于中央空调控制模型控制目标中央空调。由于,仿真环境模型的训练过程简单,基于仿真环境模型训练强化学习模型,能够使得强化学习模型快速达到训练停止条件,因此,能够快速训练获得中央空调控制模型;并且,中央空调控制系统基于中央空调控制模型能够实现对中央空调的精准控制,从而可以在维持室内温度的同时,降低中央空调的能耗。
83.第二方面,本技术实施例提供一种中央空调控制模型的训练方法,该方法应用于目标终端设备,如图2所示,该方法包括:
84.201、根据实际环境采用的业务规律建立神经网络模型,并对神经网络模型进行训练,以获得仿真环境模型。
85.其中,关于步骤201、根据实际环境采用的业务规律建立神经网络模型,并对神经网络模型进行训练,以获得仿真环境模型,可以参考图1对应部分的描述,本技术实施例此处将不再赘述。
86.202、根据预置算法建立强化学习模型。
87.其中,关于步骤202、根据预置算法建立强化学习模型,可以参考图1对应部分的描
述,本技术实施例此处将不再赘述。
88.203、基于仿真环境模型对强化学习模型进行训练,直至达到预设训练停止条件,以获得中央空调控制模型。
89.在本技术实施例中,目标终端设备在根据预置算法建立强化学习模型后,便可基于仿真环境模型对强化学习模型进行训练,直至达到预设训练停止条件,从而获得中央空调控制模型。以下将对目标终端设备如何基于仿真环境模型对强化学习模型进行训练,直至达到预设训练停止条件,以获得中央空调控制模型进行详细说明。
90.(1)使用仿真环境模型生成第一训练状态向量。
91.其中,第一训练状态向量为仿真环境模型根据第一时刻仿真环境模型的状态生成的;第一时刻为当前时刻。
92.其中,第一训练状态向量包括:不受控制设备的开关状态、目标外部参数、非控设备的运行参数和目标内部参数;其中,不受控制设备为中央空调控制系统无法进行控制的设备,即需要人为控制开启关闭的设备,其可以但不限于包括:部分出风口开关、循环水泵等;目标外部参数为中央空调控制系统外部的部分参数,其可以但不限于为:室外温度、室外湿度、室外二氧化碳浓度等;非控设备为中央空调控制系统可以进行控制,但不进行控制的设备;目标内部参数为中央空调控制系统中受控制参数影响的内部参数,控制参数为强化学习模型输出的训练动作向量中包含的多个参数。
93.(2)将第一训练状态向量输入至强化学习模型中,以便强化学习模型输出训练动作向量。
94.其中,训练动作向量包括:热泵出水温度设定值,循环水泵频率设定值,ahu水阀开度设定值。
95.(3)将训练动作向量输入至仿真环境模型中,以便仿真环境模型根据训练动作向量控制仿真中央空调。
96.在本技术实施例中,在目标终端设备将强化学习模型输出的训练动作向量输入至仿真环境模型中后,仿真环境模型便会使用训练动作向量中包含的控制参数(即热泵出水温度设定值、循环水泵频率设定值和ahu水阀开度设定值)控制仿真中央空调。
97.(4)根据预设时长和预设规则从仿真环境模型中获取多个室内温度设定值、多个室内温度实际值、多个系统总功率和预设比重系数,并将多个室内温度设定值、多个室内温度实际值、多个系统总功率和预设比重系数代入预置奖励函数公式中,以计算训练奖励值。
98.其中,预设时长可以但不限于为:1s、10s、50s、100s等等;预设规则可以但不限于为:每间隔x秒获取一次数据,x为小于预设时长对应数值的正整数。
99.在本技术实施例中,在仿真环境模型使用动作向量中包含的控制参数控制仿真中央空调后的预设时长内,目标终端设备根据预设规则从仿真环境模型中获取多个室内温度设定值、多个室内温度实际值、多个系统总功率和预设比重系数,并将多个室内温度设定值、多个室内温度实际值、多个系统总功率和预设比重系数代入预置奖励函数公式中,从而计算训练奖励值,其中,预置奖励函数公式具体如下:
[0100][0101]
其中,r为训练奖励值,t
set_t+i
为与当前时刻间隔i秒的时刻获取得到的室内温度
设定值,t
t+i
为与当前时刻间隔i秒的时刻获取得到的室内温度实际值,p
t+i
为与当前时刻间隔i秒的时刻获取得到的系统总功率,λ为预设比重系数,n为多个室内温度设定值的数量,i为x的自然数倍数。
[0102]
(5)使用仿真环境模型生成第二训练状态向量,并将第一训练状态向量、训练动作向量、训练奖励值和第二训练状态向量作为训练样本存放至训练样本集中。
[0103]
其中,第二训练状态向量为仿真环境模型根据第二时刻仿真环境模型的状态生成的,第二训练状态向量包括:不受控制设备的开关状态、目标外部参数、非控设备的运行参数和目标内部参数;第二时刻与第一时刻间隔预设时长。
[0104]
(6)从训练样本集中随机获取n个训练样本,并使用n个训练样本对强化学习模型中的模型参数进行优化调整。
[0105]
其中,n为正整数。
[0106]
具体的,在本步骤中,目标终端设备采用td3算法对应的参数调整机制,使用n个训练样本对强化学习模型中的模型参数进行优化调整。
[0107]
需要进行说明的是,在实际应用过程中,当训练样本集中存放的训练样本数量小于或等于n时,目标终端设备获取训练样本集中存放的所有训练样本,并使用这些训练样本对强化学习模型中的模型参数进行优化调整。
[0108]
需要进行说明的是,在实际应用过程中,训练样本集为容量固定的有序集合,当训练样本集中存放的训练样本数量达到阈值,且有新生成的训练样本需要存放至训练样本集中时,目标终端设备需要将最先存放至训练样本集中的训练样本删除,再将新生成的训练样本存放至训练样本集中。
[0109]
(7)判断是否到达预设训练停止条件;若达到预设训练停止条件,则将训练完成的强化学习模型确认为中央空调控制模型;若未达到预设训练停止条件,则目标终端设备需要再次采用上述步骤(1)-(6)记录的方法对强化学习模型进行训练,直至达到预设训练停止条件。
[0110]
第三方面,本技术实施例提供一种中央空调控制方法,该方法用于基于第一方面或第二方面所述的训练方法得到的中央空调控制模型对目标中央空调进行控制,如图3所示,该方法包括:
[0111]
301、根据第一时刻实际环境的状态生成第一实际状态向量。
[0112]
其中,第一时刻为当前时刻。其中,第一实际状态向量包括:不受控制设备的开关状态、目标外部参数、非控设备的运行参数和目标内部参数;其中,不受控制设备为目标中央空调控制系统无法进行控制的设备,即需要人为控制开启关闭的设备,其可以但不限于包括:部分出风口开关、循环水泵等;目标外部参数为目标中央空调控制系统外部的部分参数,其可以但不限于为:室外温度、室外湿度、室外二氧化碳浓度等;非控设备为目标中央空调控制系统可以进行控制,但不进行控制的设备;目标内部参数为目标中央空调控制系统中受控制参数影响的内部参数,控制参数为中央空调控制模型输出的实际动作向量中包含的多个参数。
[0113]
在本技术实施例中,在将中央空调控制模型迁移至目标中央空调控制系统中后,目标中央空调控制系统便可基于中央空调控制模型对目标中央空调进行控制;目标中央空调控制系统在基于中央空调控制模型对目标中央空调进行控制时,首先需要根据第一时刻
(即当前时刻)实际环境的状态生成第一实际状态向量。
[0114]
302、将第一实际状态向量输入至中央空调控制模型中,以便中央空调控制模型输出实际动作向量。
[0115]
其中,实际动作向量包括:热泵出水温度设定值,循环水泵频率设定值,ahu水阀开度设定值。
[0116]
在本技术实施例中,目标中央空调控制系统在根据第一时刻(即当前时刻)实际环境的状态生成第一实际状态向量后,需要将第一实际状态向量输入至中央空调控制模型中;在目标中央空调控制系统将第一实际状态向量输入至中央空调控制模型中后,中央空调控制模型便会输出实际动作向量。
[0117]
303、使用实际动作向量控制目标中央空调。
[0118]
在本技术实施例中,在中央空调控制模型输出实际动作向量后,目标中央空调控制系统便可使用实际动作向量中包含的控制参数(即热泵出水温度设定值、循环水泵频率设定值和ahu水阀开度设定值)控制目标中央空调。
[0119]
第四方面,本技术实施例提供一种中央空调控制方法,该方法用于基于第一方面或第二方面所述的训练方法得到的中央空调控制模型对目标中央空调进行控制,如图4所示,该方法包括:
[0120]
401、根据第一时刻实际环境的状态生成第一实际状态向量。
[0121]
其中,关于步骤401、根据第一时刻实际环境的状态生成第一实际状态向量,可以参考图1对应部分的描述,本技术实施例此处将不再赘述。
[0122]
402、将第一实际状态向量输入至中央空调控制模型中,以便中央空调控制模型输出实际动作向量。
[0123]
其中,关于步骤402、将第一实际状态向量输入至中央空调控制模型中,以便中央空调控制模型输出实际动作向量,可以参考图1对应部分的描述,本技术实施例此处将不再赘述。
[0124]
403、使用实际动作向量控制目标中央空调。
[0125]
其中,关于步骤403、使用实际动作向量控制目标中央空调,可以参考图1对应部分的描述,本技术实施例此处将不再赘述。
[0126]
进一步的,在本技术实施例中,为了保证实际环境中的室内温度实际值符合室内温度设定值,在使用实际动作向量中包含的控制参数控制目标中央空调后,目标中央空调控制系统可以从实际环境中获取目标中央空调对应的工作模式、室内温度设定值和室内温度实际值,当目标中央空调对应的工作模式为制冷模式时,若实际环境中的室内温度实际值大于室内温度设定值,则依次调整ahu水阀开度、循环水泵频率和热泵出水温度,以使得调整后的室内温度实际值小于或等于室内温度设定值;当目标中央空调对应的工作模式为制热模式时,若实际环境中的室内温度实际值小于室内温度设定值,则依次调整ahu水阀开度、循环水泵频率和热泵出水温度,以使得调整后的室内温度实际值大于或等于室内温度设定值。具体的,在本步骤中,在依次调整ahu水阀开度、循环水泵频率和热泵出水温度,以使得调整后的室内温度实际值小于或等于室内温度设定值的过程中,目标中央空调控制系统可以在将ahu水阀开度调整到最大后,室内温度实际值仍然大于室内温度设定值时,调整循环水泵频率;在将循环水泵频率调整到最大后,室内温度实际值仍然大于室内温度设定
值时,调整热泵出水温度。在依次调整ahu水阀开度、循环水泵频率和热泵出水温度,以使得调整后的室内温度实际值大于或等于室内温度设定值的过程中,目标中央空调控制系统可以在将ahu水阀开度调整到最大后,室内温度实际值仍然小于室内温度设定值时,调整循环水泵频率;在将循环水泵频率调整到最大后,室内温度实际值仍然小于室内温度设定值时,调整热泵出水温度,但不限于此。
[0127]
404、基于实际环境对中央空调控制模型进行训练。
[0128]
在本技术实施例中,在使用实际动作向量中包含的控制参数控制目标中央空调后,目标中央空调控制系统还可以基于实际环境对中央空调控制模型进行训练。
[0129]
具体的,目标中央空调控制系统可以采用以下方式基于实际环境对中央空调控制模型进行训练:
[0130]
(1)根据预设时长和预设规则从实际环境中获取多个室内温度设定值、多个室内温度实际值、多个系统总功率和预设比重系数,并将多个室内温度设定值、多个室内温度实际值、多个系统总功率和预设比重系数代入预置奖励函数公式中,以计算实际奖励值。
[0131]
其中,预设时长可以但不限于为:1s、10s、50s、100s等等;预设规则可以但不限于为:每间隔x秒获取一次数据,x为小于预设时长对应数值的正整数。
[0132]
在本技术实施例中,在使用实际动作向量中包含的控制参数控制目标中央空调后的预设时长内,目标中央空调控制系统需要根据预设规则从实际环境中获取多个室内温度设定值、多个室内温度实际值、多个系统总功率和预设比重系数,并将多个室内温度设定值、多个室内温度实际值、多个系统总功率和预设比重系数代入预置奖励函数公式中,从而计算实际奖励值其中预置奖励函数公式具体如下:
[0133][0134]
其中,r为实际奖励值,t
set_t+i
为与当前时刻间隔i秒的时刻获取得到的室内温度设定值,t
t+i
为与当前时刻间隔i秒的时刻获取得到的室内温度实际值,p
t+i
为与当前时刻间隔i秒的时刻获取得到的系统总功率,λ为预设比重系数,n为多个室内温度设定值的数量,i为x的自然数倍数。
[0135]
(2)根据第二时刻实际环境的状态生成第二实际状态向量。
[0136]
其中,第二实际状态向量包括:不受控制设备的开关状态、目标外部参数、非控设备的运行参数和目标内部参数,所述第二时刻与所述第一时刻间隔所述预设时长。
[0137]
(3)将第一实际状态向量、实际动作向量、实际奖励值和第二实际状态向量作为训练样本存放至训练样本集中。
[0138]
(4)从训练样本集中随机获取m个训练样本,并使用m个训练样本对中央空调控制模型中的模型参数进行优化调整。
[0139]
其中,m为正整数。
[0140]
具体的,在本步骤中,目标中央空调控制系统采用td3算法对应的参数调整机制,使用m个训练样本对中央空调控制模型中的模型参数进行优化调整。
[0141]
需要进行说明的是,在实际应用过程中,当训练样本集中存放的训练样本数量小于或等于n时,目标中央空调控制系统获取训练样本集中存放的所有训练样本,并使用这些训练样本对中央空调控制模型中的模型参数进行优化调整。
[0142]
需要进行说明的是,在实际应用过程中,训练样本集为容量固定的有序集合,当训练样本集中存放的训练样本数量达到阈值,且有新生成的训练样本需要存放至训练样本集中时,目标中央空调控制系统需要将最先存放至训练样本集中的训练样本删除,再将新生成的训练样本存放至训练样本集中。
[0143]
为了实现上述目的,根据本技术的另一方面,本技术实施例还提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述第一方面所述的中央空调控制模型的训练方法或第二方面所述的中央空调控制模型的训练方法。
[0144]
为了实现上述目的,根据本技术的另一方面,本技术实施例还提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述第三方面所述的中央空调控制方法或第四方面所述的中央空调控制方法。
[0145]
为了实现上述目的,根据本技术的另一方面,本技术实施例还提供了一种电子设备,所述设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行上述第一方面所述的中央空调控制模型的训练方法或第二方面所述的中央空调控制模型的训练方法。
[0146]
为了实现上述目的,根据本技术的另一方面,本技术实施例还提供了一种电子设备,所述设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行上述第三方面所述的中央空调控制方法或第四方面所述的中央空调控制方法。
[0147]
进一步的,作为对上述图1及图2所示方法的实现,本技术另一实施例还提供了一种中央空调控制模型的训练装置。该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。该装置应用于在维持室内温度的同时,降低中央空调的能耗,具体如图5所示,该装置包括:
[0148]
第一建立单元51,用于根据实际环境采用的业务规律建立神经网络模型;
[0149]
第一训练单元52,用于对所述神经网络模型进行训练,以获得仿真环境模型;
[0150]
第二建立单元53,用于根据预置算法建立强化学习模型;
[0151]
第二训练单元54,用于基于所述仿真环境模型对所述强化学习模型进行训练,直至达到预设训练停止条件,以获得中央空调控制模型。
[0152]
进一步的,如图6所示,第二训练单元54包括:
[0153]
第一生成模块541,用于使用所述仿真环境模型生成第一训练状态向量,其中,所述第一训练状态向量为所述仿真环境模型根据第一时刻所述仿真环境模型的状态生成的,所述第一训练状态向量包括:不受控制设备的开关状态、目标外部参数、非控设备的运行参数和目标内部参数,所述第一时刻为当前时刻;
[0154]
第一输入模块542,用于将所述第一训练状态向量输入至所述强化学习模型中,以便所述强化学习模型输出训练动作向量,所述训练动作向量包括:热泵出水温度设定值,循环水泵频率设定值,ahu水阀开度设定值;
[0155]
第二输入模块543,用于将所述训练动作向量输入至所述仿真环境模型中,以便所述仿真环境模型根据所述训练动作向量控制仿真中央空调;
[0156]
获取模块544,用于根据预设时长和预设规则从所述仿真环境模型中获取多个室内温度设定值、多个室内温度实际值、多个系统总功率和预设比重系数,并将多个所述室内温度设定值、多个所述室内温度实际值、多个所述系统总功率和所述预设比重系数代入预置奖励函数公式中,以计算训练奖励值;
[0157]
第二生成模块545,用于使用所述仿真环境模型生成第二训练状态向量,并将所述第一训练状态向量、所述训练动作向量、所述训练奖励值和所述第二训练状态向量作为训练样本存放至训练样本集中,所述第二训练状态向量为所述仿真环境模型根据第二时刻所述仿真环境模型的状态生成的,所述第二训练状态向量包括:不受控制设备的开关状态、目标外部参数、非控设备的运行参数和目标内部参数,所述第二时刻与所述第一时刻间隔所述预设时长;
[0158]
调整模块546,用于从所述训练样本集中随机获取n个训练样本,并使用n个所述训练样本对所述强化学习模型中的模型参数进行优化调整,n为正整数;
[0159]
判断模块547,用于判断是否到达所述预设训练停止条件;当达到所述预设训练停止条件时,将所述强化学习模型确认为所述中央空调控制模型;当未达到所述预设训练停止条件时,控制第一生成模块541、第一输入模块542、第二输入模块543、获取模块544、第二生成模块545和调整模块546对所述强化学习模型进行训练。
[0160]
进一步的,作为对上述图3及图4所示方法的实现,本技术另一实施例还提供了一种目标中央空调控制系统,该目标中央空调控制系统用于基于第一方面或第二方面所述的训练方法得到的中央空调控制模型对目标中央空调进行控制。该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的目标中央空调控制系统能够对应实现前述方法实施例中的全部内容。该目标中央空调控制系统应用于在维持室内温度的同时,降低中央空调的能耗,具体如图7所示,该装置包括:
[0161]
第一生成单元61,用于根据第一时刻实际环境的状态生成第一实际状态向量,其中,所述第一实际状态向量包括:不受控制设备的开关状态、目标外部参数、非控设备的运行参数和目标内部参数,所述第一时刻为当前时刻;
[0162]
第一输入单元62,用于将所述第一实际状态向量输入至所述中央空调控制模型中,以便所述中央空调控制模型输出实际动作向量,所述实际动作向量包括:热泵出水温度设定值,循环水泵频率设定值,ahu水阀开度设定值;
[0163]
控制单元63,用于使用所述实际动作向量控制目标中央空调。
[0164]
进一步的,如图8所示,该目标中央空调控制系统还包括:
[0165]
第一获取单元64,用于从所述实际环境中获取所述目标中央空调对应的工作模式、室内温度设定值和室内温度实际值;
[0166]
第一调整单元65,用于当所述工作模式为制冷模式时,若所述室内温度实际值大于所述室内温度设定值,则依次调整ahu水阀开度、循环水泵频率和热泵出水温度,以使得调整后的所述室内温度实际值小于或等于所述室内温度设定值;
[0167]
第一调整单元65,还用于当所述工作模式为制热模式时,若所述室内温度实际值
小于所述室内温度设定值,则依次调整ahu水阀开度、循环水泵频率和热泵出水温度,以使得调整后的所述室内温度实际值大于或等于所述室内温度设定值。
[0168]
进一步的,如图8所示,该目标中央空调控制系统还包括:
[0169]
第二获取单元66,用于根据预设时长和预设规则从所述实际环境中获取多个室内温度设定值、多个室内温度实际值、多个系统总功率和预设比重系数,并将多个所述室内温度设定值、多个所述室内温度实际值、多个所述系统总功率和所述预设比重系数代入预置奖励函数公式中,以计算实际奖励值;
[0170]
第二生成单元67,用于根据第二时刻实际环境的状态生成第二实际状态向量,其中,所述第二实际状态向量包括:不受控制设备的开关状态、目标外部参数、非控设备的运行参数和目标内部参数,所述第二时刻与所述第一时刻间隔所述预设时长;
[0171]
存放单元68,用于将所述第一实际状态向量、所述实际动作向量、所述实际奖励值和所述第二实际状态向量作为训练样本存放至训练样本集中;
[0172]
第二调整单元69,用于从所述训练样本集中随机获取m个训练样本,并使用m个所述训练样本对所述中央空调控制模型中的模型参数进行优化调整,m为正整数。
[0173]
本技术实施例提供了一种中央空调控制模型的训练方法、中央空调控制方法及装置,本技术实施例能够在目标终端设备根据实际环境采用的业务规律建立神经网络模型,并对神经网络模型进行训练,从而获得仿真环境模型后,根据预置算法建立强化学习模型,并基于仿真环境模型对强化学习模型进行训练,直至达到预设训练停止条件,从而获得中央空调控制模型,在将中央空调控制模型迁移至目标中央空调控制系统中后,目标中央空调控制系统便可基于中央空调控制模型控制目标中央空调。由于,仿真环境模型的训练过程简单,基于仿真环境模型训练强化学习模型,能够使得强化学习模型快速达到训练停止条件,因此,能够快速训练获得中央空调控制模型;并且,中央空调控制系统基于中央空调控制模型能够实现对中央空调的精准控制,从而可以在维持室内温度的同时,降低中央空调的能耗。
[0174]
所述中央空调控制模型的训练装置包括处理器和存储器,上述第一建立单元、第一训练单元、第二建立单元和第二训练单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
[0175]
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来在维持室内温度的同时,降低中央空调的能耗。
[0176]
所述目标中央空调控制系统包括处理器和存储器,上述第一生成单元、第一输入单元和控制单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
[0177]
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来在维持室内温度的同时,降低中央空调的能耗。
[0178]
本技术实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现如上第一方面或第二方面所述的中央空调控制模型的训练方法;或如上第三方面或第四方面所述的中央空调控制方法。
[0179]
本技术实施例提供了一种电子设备70,如图9所示,电子设备70包括至少一个处理器701、以及与处理器连接的至少一个存储器702、总线703;其中,处理器701、存储器702通
过总线703完成相互间的通信;处理器701用于调用存储器702中的程序指令,以执行如上第一方面或第二方面所述的中央空调控制模型的训练方法;或如上第三方面或第四方面所述的中央空调控制方法。
[0180]
本技术还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
[0181]
根据实际环境采用的业务规律建立神经网络模型,并对所述神经网络模型进行训练,以获得仿真环境模型;
[0182]
根据预置算法建立强化学习模型;
[0183]
基于所述仿真环境模型对所述强化学习模型进行训练,直至达到预设训练停止条件,以获得中央空调控制模型。
[0184]
进一步的,所述基于所述仿真环境模型对所述强化学习模型进行训练,直至达到预设训练停止条件,以获得中央空调控制模型,包括:
[0185]
步骤s1:使用所述仿真环境模型生成第一训练状态向量,其中,所述第一训练状态向量为所述仿真环境模型根据第一时刻所述仿真环境模型的状态生成的,所述第一训练状态向量包括:不受控制设备的开关状态、目标外部参数、非控设备的运行参数和目标内部参数,所述第一时刻为当前时刻;
[0186]
步骤s2:将所述第一训练状态向量输入至所述强化学习模型中,以便所述强化学习模型输出训练动作向量,所述训练动作向量包括:热泵出水温度设定值,循环水泵频率设定值,ahu水阀开度设定值;
[0187]
步骤s3:将所述训练动作向量输入至所述仿真环境模型中,以便所述仿真环境模型根据所述训练动作向量控制仿真中央空调;
[0188]
步骤s4:根据预设时长和预设规则从所述仿真环境模型中获取多个室内温度设定值、多个室内温度实际值、多个系统总功率和预设比重系数,并将多个所述室内温度设定值、多个所述室内温度实际值、多个所述系统总功率和所述预设比重系数代入预置奖励函数公式中,以计算训练奖励值;
[0189]
步骤s5:使用所述仿真环境模型生成第二训练状态向量,并将所述第一训练状态向量、所述训练动作向量、所述训练奖励值和所述第二训练状态向量作为训练样本存放至训练样本集中,所述第二训练状态向量为所述仿真环境模型根据第二时刻所述仿真环境模型的状态生成的,所述第二训练状态向量包括:不受控制设备的开关状态、目标外部参数、非控设备的运行参数和目标内部参数,所述第二时刻与所述第一时刻间隔所述预设时长;
[0190]
步骤s6:从所述训练样本集中随机获取n个训练样本,并使用n个所述训练样本对所述强化学习模型中的模型参数进行优化调整,n为正整数;
[0191]
步骤s7:判断是否到达所述预设训练停止条件;若达到,则将所述强化学习模型确认为所述中央空调控制模型;若未达到,则回到步骤s1。
[0192]
本技术还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
[0193]
在对所述目标中央空调进行控制时,根据第一时刻实际环境的状态生成第一实际状态向量,其中,所述第一实际状态向量包括:不受控制设备的开关状态、目标外部参数、非控设备的运行参数和目标内部参数,所述第一时刻为当前时刻;
[0194]
将所述第一实际状态向量输入至所述中央空调控制模型中,以便所述中央空调控制模型输出实际动作向量,所述实际动作向量包括:热泵出水温度设定值,循环水泵频率设定值,ahu水阀开度设定值;
[0195]
使用所述实际动作向量控制目标中央空调。
[0196]
进一步的,在所述使用所述实际动作向量控制目标中央空调之后,所述方法还包括:
[0197]
从所述实际环境中获取所述目标中央空调对应的工作模式、室内温度设定值和室内温度实际值;
[0198]
当所述工作模式为制冷模式时,若所述室内温度实际值大于所述室内温度设定值,则依次调整ahu水阀开度、循环水泵频率和热泵出水温度,以使得调整后的所述室内温度实际值小于或等于所述室内温度设定值;
[0199]
当所述工作模式为制热模式时,若所述室内温度实际值小于所述室内温度设定值,则依次调整ahu水阀开度、循环水泵频率和热泵出水温度,以使得调整后的所述室内温度实际值大于或等于所述室内温度设定值。
[0200]
进一步的,在所述使用所述实际动作向量控制目标中央空调之后,所述方法还包括:
[0201]
根据预设时长和预设规则从所述实际环境中获取多个室内温度设定值、多个室内温度实际值、多个系统总功率和预设比重系数,并将多个所述室内温度设定值、多个所述室内温度实际值、多个所述系统总功率和所述预设比重系数代入预置奖励函数公式中,以计算实际奖励值;
[0202]
根据第二时刻实际环境的状态生成第二实际状态向量,其中,所述第二实际状态向量包括:不受控制设备的开关状态、目标外部参数、非控设备的运行参数和目标内部参数,所述第二时刻与所述第一时刻间隔所述预设时长;
[0203]
将所述第一实际状态向量、所述实际动作向量、所述实际奖励值和所述第二实际状态向量作为训练样本存放至训练样本集中;
[0204]
从所述训练样本集中随机获取m个训练样本,并使用m个所述训练样本对所述中央空调控制模型中的模型参数进行优化调整,m为正整数。
[0205]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0206]
在一个典型的配置中,设备包括一个或多个处理器(cpu)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。
[0207]
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。
[0208]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法
或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0209]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0210]
本领域技术人员应明白,本技术的实施例可提供为方法、系统或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0211]
以上仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1