专利 一种基于进化深度强化学习的商业建筑HVAC控制方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210631141.8 (22)申请日 2022.06.06 (66)本国优先权数据 202111517120.5 2021.12.13 CN (71)申请人南京邮电大学地址 210023 江苏省南京市鼓楼区新模范马路66号 (72)发明人余亮　张予涵　岳东　窦春霞　 (74)专利代理机构南京纵横知识产权代理有限公司 32224 专利代理师许婉静 (51)Int.Cl. G06F 30/13(2020.01) G06F 30/27(2020.01) G06F 119/02(2020.01) (54)发明名称一种基于进化深度强化学习的商业建筑 HVAC控制方法及系统 (57)摘要本发明公开了一种基于进化深度强化学习的商业建筑HVAC控制方法及系统，包括：获取商业建筑HVAC控制模型；将HVA C控制模型设计为与风阀控制和区域供风速率控制相关的马尔可夫博弈问题；采用多智能体注意力进化深度强化学习算法并行求解马尔可夫博弈问题，得到多组多智能体群的最优控制策略；对不同种群的最优控制策略进行重组并将其作为规模更大的多智能体群的初始策略；重复求解规模更大的马尔可夫博弈问题直到种群规模与风阀数量与区域数量之和相等，最终得到HVAC系统的最优控制策略；将训练得到的HVAC最优控制策略部署到实际系统进行在线控制。相比现有方法，本发明可在维持高舒适性的同时显著降低能量成本。权利要求书4页说明书10页附图3页 CN 115017584 A 2022.09.06 CN 115017584 A 1.一种基于进化深度强化学习的商业建筑HV AC控制方法，其特征在于，所述方法包括：获取预先建立的多区域商业建筑HV AC控制模型；将HVAC控制模型转化为与风阀智能体和区域供风智能体相关的马尔可夫博弈问题；采用多智能体注意力进化深度强化学习算法并行求解马尔可夫博弈问题，最终训练出多组智能体种群的最优控制策略；利用训练得到的多组智能体种群的最优控制策略进行性能测试，筛选出测试阶段的若干组智能体种群；对筛选出的若干组智能体种群的深度神经网络权重进行重组；将重组后的深度神经网络权重作为规模更大的多智能体种群模型的初始权重，重复求解规模更大的马尔可夫博弈问题直到智能体种群的规模等于区域数量与风阀数量之和，筛选出适应度最高的一组多智能体种群，进而得到风阀智能体和区域供风智能体的最优控制策略；将得到风阀智能体和区域供风智能体的HVAC最优控制策略部署到实际HVAC系统进行在线控制。 2.根据权利要求1所述的一种基于进化深度强化学习的商业建筑HVAC控制方法，其特征在于，所述HV AC控制模型包括目标函数、决策变量和约束条件；所述目标函数表达式如下：式中： Φ1,t表示与送风机相关的能量成本， Φ2,t表示与冷却盘管相关的能量成本；其中：送风机相关的能量成本表示为：式中：为送风机相关的能耗， μ是常数系数， mi,t表示i区域t时隙内空气供给速率， pt表示t时隙下的电价， τ表示一个时隙的持续时间；冷却盘管相关的能量成本表示为： Φ2,t＝Ptptτ (3) 其中： Pt为t时隙下冷却盘管能耗，表示为：式中： Ca表示空气的比热容， η是冷却盘管的效率系数， COP是和冷却器相关的性能系数，是t时隙下混合空气的温度， Ts是送风机的送风温度；所述决策变量包括每个区域的空气供给速率 mi,t和HVAC中空气处理机组的风阀位置σt，表达式如下： mi,t∈{m1,m2,...,mM} (5) 权　利　要　求　书 1/4 页 2 CN 115017584 A 2式中： mi,t其值从M个离散级别中选择，总空气供给速率要小于所有区域最大空气供给速率之和， σt的值可以从Z个离散级别中选择： σt∈{σ1, σ2,..., σZ} (7) 当σt＝0时，表示混合空气中只有室外新鲜空气，而当σt＝1时，表示混合空气全部来自每个区域的回风；所述约束条件包括与室内温度和二氧化碳浓度相关的约束，表达式如下：若表示i区域在t时隙下的室内温度，则有：式中： Ki,t表示i区域t时隙下的室内人数， Timin和Timax分别表示i区域舒适温度范围的最低值和最高值； cbi,t表示i区域t时隙下的二氧化碳浓度，则有：式中：表示i区域室内二氧化碳浓度舒适范围上限值。 3.根据权利要求1所述的一种基于进化深度强化学习的商业建筑HVAC控制方法，其特征在于，所述马尔可夫博弈问题包括状态、动作和奖励函数：所述环境状态St的表达式如下： St＝(o1,t,o2,t,...,on,t,o*,t) (11) 式中： o1,t,o2,t,...,on,t中oi,t(1≤i≤n)表示与i区域t时隙内空气供给速率决策相关的智能体的观测状态， o*,t表示t时隙与风阀位置决策相关的总控智能体的观测状态， o*,t＝(cb1,t,...,cbi,t,...,cbn,t,K1,t,...,Ki,t,...,Kn,t)， Ttout为i区域t时隙的室外温度， Ttin为i区域t时隙的室内温度，为i区域t时隙的相邻 j区域的室内温度， Ni表示i区域的相邻区域集合， pt为t时隙的电价， t'为t时隙当前绝对时间在一天内的相对时间， cbi,t为i区域t时隙的二氧化碳浓度， Ki,t为i区域t时隙的占用人数；所述动作At的表达式如下： At＝(m1,t,...,mi,t,...,mn,t, βt) (12) 式中： mi,t为HVAC的i区域t时隙的空气供给速率， βt为HVAC的风阀位置；所述奖励函数Rt的表达式如下：式中： R1,i,t为i区域t时隙与空气供给速率决策相关的智能体所获得的奖励， R2,i,t为t时隙与风阀位置决策相关的总控智能体所获得的奖励， α 为HVAC能量成本对于舒适温度范围偏离导致的惩罚成本的重要性系数， β 为室内二氧化碳浓度超出上限导致的惩罚成本对于舒适温度范围偏离导致的惩罚成本的重要性系数， C1,i,t(oi,t)为i区域t时隙内因违背室内权　利　要　求　书 2/4 页 3 CN 115017584 A 3

专利 一种基于进化深度强化学习的商业建筑HVAC控制方法及系统

专利一种基于进化深度强化学习的商业建筑HVAC控制方法及系统