(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210631141.8
(22)申请日 2022.06.06
(66)本国优先权数据
202111517120.5 2021.12.13 CN
(71)申请人 南京邮电大 学
地址 210023 江苏省南京市 鼓楼区新模范
马路66号
(72)发明人 余亮 张予涵 岳东 窦春霞
(74)专利代理 机构 南京纵横知识产权代理有限
公司 32224
专利代理师 许婉静
(51)Int.Cl.
G06F 30/13(2020.01)
G06F 30/27(2020.01)
G06F 119/02(2020.01)
(54)发明名称
一种基于进化深度强化学习的商业建筑
HVAC控制方法及系统
(57)摘要
本发明公开了一种基于进化深度强化学习
的商业建筑HVAC控制方法及系统, 包括: 获取商
业建筑HVAC控制模型; 将HVA C控制模型设计为与
风阀控制和区域供风速率控制相关的马尔可夫
博弈问题; 采用多智能体注意力进化深度强化学
习算法并行求解马尔可夫博弈问题, 得到多组多
智能体群的最优控制策略; 对不同种群的最优控
制策略进行重组并将其作为规模更大的多智能
体群的初始策略; 重复求解规模 更大的马尔可夫
博弈问题直到种群规模与风阀数量与区域数量
之和相等, 最终得到HVAC系统的最优控制策略;
将训练得到的HVAC最优控制策略部署到实际系
统进行在线控制。 相比现有方法, 本发明可在维
持高舒适性的同时显著降低能量成本 。
权利要求书4页 说明书10页 附图3页
CN 115017584 A
2022.09.06
CN 115017584 A
1.一种基于进化深度强化学习的商业建筑HV AC控制方法, 其特 征在于, 所述方法包括:
获取预先建立的多区域商业建筑HV AC控制模型;
将HVAC控制模型转 化为与风阀智能体和区域供风智能体相关的马尔可 夫博弈问题;
采用多智能体注意力进化深度强化学习算法并行求解马尔可夫博弈问题, 最终训练出
多组智能体种群的最优 控制策略;
利用训练得到的多组智能体种群的最优控制策略进行性 能测试, 筛选出测试阶段的若
干组智能体种群;
对筛选出的若干组智能体种群的深度神经网络 权重进行重组;
将重组后的深度神经网络权重作为规模更大的多智能体种群模型的初始权重, 重复求
解规模更大的马尔可夫博弈问题直到智能体种群的规模等于区域数量与风阀数量之和, 筛
选出适应度最高的一组多智能体种群, 进而得到风阀智能体和区域供风智能体的最优控制
策略;
将得到风 阀智能体和区域供风智能体的HVAC最优控制策略部署到实际HVAC系 统进行
在线控制。
2.根据权利要求1所述的一种基于进化深度强化学习的商业建筑HVAC控制方法, 其特
征在于, 所述HV AC控制模型包括目标函数、 决策变量和约束条件;
所述目标函数表达式如下:
式中: Φ1,t表示与送风机相关的能量成本, Φ2,t表示与冷却盘管相关的能量成本;
其中: 送风机相关的能量成本表示 为:
式中:
为送风机相关的能耗, μ是常数系数, mi,t表示i区域t时隙内空气供给
速率, pt表示t时隙下的电价, τ表示 一个时隙的持续时间;
冷却盘管相关的能量成本表示 为:
Φ2,t=Ptptτ (3)
其中: Pt为t时隙下冷却盘管能耗, 表示 为:
式中: Ca表示空气的比热容, η是冷却盘 管的效率系数, COP是和冷却器相关的性能系数,
是t时隙下混合空气的温度, Ts是送风机的送风温度;
所述决策变量包括每个区域的空气供给速率 mi,t和HVAC中空气处理机组的风阀位置σt,
表达式如下:
mi,t∈{m1,m2,...,mM} (5)
权 利 要 求 书 1/4 页
2
CN 115017584 A
2式中: mi,t其值从M个离散级别中选择, 总空气供给速率
要小于所有区域最 大空气供给
速率之和, σt的值可以从Z个离 散级别中选择:
σt∈{σ1, σ2,..., σZ} (7)
当σt=0时, 表示混合空气中只有室外新鲜空气, 而当σt=1时, 表示混合空气全部来自
每个区域的回风;
所述约束条件 包括与室内温度和二氧化 碳浓度相关的约束, 表达式如下:
若
表示i区域在t时隙下的室内温度, 则有:
式中: Ki,t表示i区域t时隙下的室内人数, Timin和Timax分别表示i区域舒适温度范围的最
低值和最高值;
cbi,t表示i区域t时隙下的二氧化 碳浓度, 则有:
式中:
表示i区域室内二氧化 碳浓度舒 适范围上限值。
3.根据权利要求1所述的一种基于进化深度强化学习的商业建筑HVAC控制方法, 其特
征在于, 所述马尔可 夫博弈问题包括状态、 动作和奖励函数:
所述环境状态St的表达式如下:
St=(o1,t,o2,t,...,on,t,o*,t) (11)
式中: o1,t,o2,t,...,on,t中oi,t(1≤i≤n)表示与i区域t时隙内空气供给速率决策相关
的智能体的观测状态,
o*,t表示t时隙与风阀位置决策
相关的总控智能体的观测状态, o*,t=(cb1,t,...,cbi,t,...,cbn,t,K1,t,...,Ki,t,...,Kn,t),
Ttout为i区域t时隙的室外温度, Ttin为i区域t时隙的室内温度,
为i区域t时隙的相邻
j区域的室内温度, Ni表示i区域的相邻区域集合, pt为t时隙的电价, t'为t时隙当前绝对时
间在一天内的相对时间, cbi,t为i区域t时隙的二氧化碳浓度, Ki,t为i区域t时隙的占用人
数;
所述动作At的表达式如下:
At=(m1,t,...,mi,t,...,mn,t, βt) (12)
式中: mi,t为HVAC的i区域t时隙的空气供 给速率, βt为HVAC的风阀位置;
所述奖励函数Rt的表达式如下:
式中: R1,i,t为i区域t时隙与空气供给速率决策相关的智能体 所获得的奖励, R2,i,t为t时
隙与风阀位置决策相关的总控智能体所获得的奖励, α 为HVAC能量成本对于舒适温度范围
偏离导致的惩罚成本的重要性系 数, β 为室内二氧化碳浓度超出上限导致的惩罚成本对于
舒适温度范围偏离导致的惩罚成本的重要性系数, C1,i,t(oi,t)为i区域t时隙内因违背室内权 利 要 求 书 2/4 页
3
CN 115017584 A
3
专利 一种基于进化深度强化学习的商业建筑HVAC控制方法及系统
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 01:27:15上传分享