基于深度强化学习的建筑能源系统优化策略

上传人：1*** IP属地：湖南上传时间：2024-08-23 格式：DOCX 页数：19 大小：1.96MB 积分：20 举报 版权申诉

已阅读5页，还剩14页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

01建筑能源系统结构及设备模型建筑能源系统包括光伏发电组件、蓄电池储能装置以及电热泵，具体结构如图1所示。图1

建筑能源系统结构Fig.1

Structureofbuildingenergysystem1.1

光伏发电组件决定光伏发电组件功率输出的主要因素包括局部太阳辐射强度、光伏板面积和光伏系统发电效率，其中发电效率主要考虑光伏系统逆变器和并网之间的转换效率。t时刻光伏发电功率为式中：

为太阳辐射，kW/m2；

Apv

为光伏板总面积，m2；

ηpv

为发电效率，设定为0.104；k为温度系数，设定为−3.7×10−3

；

Tref

为参照温度，设定为25℃；

Tcell

为光伏发电计算温度，具体表示为式中：

Tamb

为环境温度。1.2

蓄电池储能组件蓄电池储能组件可以消纳可再生能源和缓解负荷的不确定性。为t时刻电池荷电状态，定义为电量与电池容量的比值，具体表示为式中：

为蓄电池的自放电率；

ηch

、

ηdis

分别为蓄电池的充、放电效率；

为充放电功率；

为电池容量，kW·h；Δt

为时间步长。储能系统的约束包括充放电功率和电池容量状态，具体表示为式中：分别为蓄电池荷电状态的最小值、最大值；

Pmin

、

Pmax

分别为蓄电池充放电功率的最小值、最大值。1.3

电热泵组件冬季建筑内空气温度的变化与室外温度、热泵运行参数和建筑热参数等相关，故t+1时刻室内温度为式中：为t时刻室外温度；

为建筑热容量；

Ri−a

为室内和环境之间的热阻；

PHP

为电热泵额定功率；为t时刻空调运行状态动作；

αCOP

、

βCOP

为热泵线性COP系数，分别设定为0.0606和2.612；

为窗户面积；为窗户太阳辐射。

02基于深度强化学习算法求解过程2.1

马尔可夫决策过程天气状况、电价以及光伏发电等不确定性因素给能源管理系统的实时最优策略制订带来了极大的挑战。本文旨在获得最优的系统时序性决策链，最优意味着当下的决策不仅要考虑下一步的效果，还要考虑该决策所产生的后效性。为此，需要简化时序模型的复杂度，故提出马尔可夫假设，即假设系统下一时刻状态仅与当前时刻状态有关，而与之前状态无关。本文将该优化问题表述为1个马尔可夫决策问题，具体表示为(S,

π)，其中S为环境状态集合，A为智能体动作集合，S×A→R为奖励函数，π为智能体策略集。在每个时间步骤t中，智能体作为控制中心，通过观察环境状态

st∈S

，并基于策略π选择动作

at∈A(s)后，智能体得到奖励

r(st,at)，同时环境变成下一个状态。智能体与环境交互如图2所示。图2

智能体与环境交互Fig.2

Schematicoftheagentinteractingwiththeenvironment2.2

要素定义1）状态空间。状态空间包含一组与环境相关的已知物理量，在能源管理系统调度的过程中，t时刻智能体观察到的环境状态空间St为式中：

为实时电价，元/(kW·h)。2）动作空间。智能体通过观察环境状态判断后，作出控制策略的集合即为动作空间。在本文系统中，控制变量包含热泵的运行功率和蓄电池储能系统的充放电状态，将其分别定义为离散动作变量，具体表示为式中：分别为热泵和电池离散动作集合；为热泵动作取值（0，0.25，0.50，0.75，1.00），从0到1表示热泵负荷逐渐增大；为储能系统动作取值(1,–1,0)，分别表示充电、放电和不充不放电。3）奖励函数。对于本文提出的能源管理系统，智能体优化的目标包括降低用电成本、合理控制室内温度和消纳光伏发电量。为了实现多目标优化，提出多个任务奖励函数来实现联合控制。电力成本奖励函数可以表示为式中：

ζ1

是权重因子。室内温度奖励函数可以表示为式中：

Tmax

、

Tmin

分别为设置室内舒适温度区间的上、下限；

为室内温度没有控制在规定区间内的惩罚值；

ζ2

为权重因子。蓄电池储能过度充放电奖励函数可以表示为式中：

DSOC

为蓄电池过度充放电的惩罚值；

ζ3

为权重因子。当时，蓄电池储能系统充放电得到的奖励函数可以表示为式中：

ζ4

为权重因子。为鼓励光伏发电本地消纳，将此时充电动作的奖励函数设定为正值，放电设定为负值。当t时刻电价为峰值或谷值时，蓄电池储能系统充电得到的奖励函数可以表示为式中：

ζ5

为权重因子。当电价较高时，充电动作得到负的奖励值；当电价较低时，充电动作得到正的奖励值。当t时刻电价为峰值或谷值时，蓄电池储能系统放电得到的奖励函数可以表示为式中：

ζ6

为权重因子。当电价较高时，放电动作得到正的奖励值；当电价较低时，放电动作得到负的奖励值。综上，得到综合奖励函数

为充放电次数奖励函数

rSOC

为式中：

ζ7

和

ζ8

为权重因子；

为表征t时刻与t–1时刻的充放电状态是否发生变化的参数，如果发生变化取值为1，否则为0。2.3

算法求解1）Q学习。它是解决强化学习问题的一种常用方法，通过定义Q函数，即状态动作价值函数，并采用贝尔曼方程进行更新得到Q表格，Q值更新方式可以表示为式中：

Q(st,at)为状态动作价值函数，表示在状态

采取动作

产生的价值；

为折扣因子，其大小代表着未来奖励的重要性；

为学习率。运用贝尔曼方程更新Q函数的核心思想在于，评估当前状态

的决策动作

的效果时，不仅要考虑这一步决策所产生的奖励函数

rt+1

，而且要考虑当前的动作对于未来的持续性收益。2）深度Q网络。尽管Q学习算法经过更新可以逼近Q函数最优值，但是对于本文提出的环境状态空间，如温度、太阳辐射和电价等属于连续状态空间，此时采用传统强化学习算法会出现“维数灾难”问题。为此，提出价值函数近似的方法，即用参数

构造出深度Q网络替换Q学习中的价值函数，即式中：分别为状态s下采取动作a的价值函数近似值和准确值；

为价值网络权重系数；采用这种利用深度神经网络近似取代Q函数的方式，可以得到DQN。DQN的目标为最小化损失函数

L(θ)，即式中：

为目标网络函数，可以表示为式中：

θ−

为目标网络权重系数。3）决斗双深度Q网络。D3QN结合双深度Q网络和决斗深度Q网络。双深度Q网络相较于DQN算法，在计算目标Q值时将动作选择和动作评价分离，用评估网络选择动作，目标网络确定动作的价值，有效避免了过估计问题。那么，

可以表示为决斗深度Q网络提出了一种新的神经网络结构，如图3所示。与DQN中深度神经网络在接受状态值直接输出Q值所不同的是，决斗深度Q网络将输出Q值分成了状态价值V和动作优势价值A，从而避免了网络训练中过拟合问题，加快了训练速度，具体表示为图3

D3QN神经网络结构Fig.3

D3QNneuralnetworkstructure式中：

为全连接层参数；

和

分别为动作优势价值A和状态价值V支路的全连接层参数。D3QN的算法训练过程如图4所示。图4

D3QN训练过程Fig.4

D3QNtrainingprocess

03算例分析3.1

场景描述针对冬季工况下的系统优化，选取2018年1月、11月和12月的湖南省长沙市实测气象数据进行模拟，如图5所示。光伏板面积设定为40m2，根据气象数据计算得到冬季光伏发电量如图6所示。储能装置型号为6-GFMJ-200，容量为7.2kW·h，充放电效率为90%，充放电功率设定为1.44kW，荷电状态的最大/最小值为0.9/0.2。为考虑实时电价对系统策略的影响，采用澳洲能源网站中相似气候条件下冬季实时电价数据，高峰电价和低谷电价分别设置为0.7和0.4元/(kW·h)，余电上网电价为0.4548元/(kW·h)。电热泵与建筑相关参数如表1所示，将室内舒适温度上限和下限分别设置为22℃和18℃。图5

2018年湖南长沙气象参数Fig.5

MeteorologicalparametersofChangsha,Hunanin2018图6

电价与光伏发电功率Fig.6

Electricitypricesandphotovoltaicpower表1

热泵与建筑参数Table1

Heatpumpandbuildingparameters3.2

基准模式针对本文建筑能源系统，提出如下控制策略作为基准模型。电热泵和储能系统分别通过调整运行功率和充放电状态控制系统运行。其中热泵运行功率根据当前时刻室内温度和电价确定；充放电状态是在规定电池荷电状态范围内，根据当前时刻电价与光伏发电量确定。由此可知，基准模型的优势在于能够根据当前环境参数给出确定的控制策略，并及时进行动态调整来应对环境变化，从而满足用户的舒适性和经济性需求。具体控制策略如表2和表3所示。表2

基准模式热泵运行策略Table2

Baselinemodeheatpumpoperationstrategy表3

基准模式储能运行策略Table3

Baselinemodeenergystorageoperationstrategy3.3

参数设置设置最小优化步长为15min，优化周期设为31天，即周期内含有2976个优化时段。系统模型的训练过程使用11月和12月数据集，训练共进行1000个回合，训练时随机选取其中连续31天的数据；测试过程使用1月数据集进行性能验证。D3QN算法中Q网络和目标网络各包含3个全连接隐藏层，各层神经元数分别为128、256、256，并使用整流线性单元作为隐藏层的激活函数，选用Adam优化器来更新网络权重。主要超参数包括学习率

=0.0001，折扣因子

=0.99，最小批量为32，网络更新速率τ=0.002。3.4

效果及对比分析为探究不同深度学习算法在训练过程中的特性，本文选取D3QN和DQN算法并设置相同的超参数，对比研究迭代过程中的奖励函数曲线和均值奖励函数曲线，如图7所示。在前期训练过程中，2种算法的奖励函数都有不同程度震荡，这是由于智能体尚处于探索阶段，存在很多随机动作选择。但经过多次迭代之后，2条奖励函数曲线的收敛趋势基本一致，后期奖励函数趋于稳定且稳定值接近，都取得了良好的训练效果。通过对比D3QN和DQN曲线的缩略图，可以发现二者的奖励函数值在相同的训练回合内，D3QN总体较高，收敛速度更快，这得益于D3QN在计算目标Q值时将动作选择和动作评价分离，避免了过估计，改进了神经网络结构，从而加快了收敛速度。图7

2种算法训练过程奖励函数对比Fig.7

Comparisonofrewardfunctionsduringtrainingoftwoalgorithms采用基准模型和D3QN算法在同一场景下进行优化，并从供需侧的角度对优化结果进行讨论分析。需求侧的控制策略需要权衡经济性和热舒适性，要求模型对电价与天气条件的变化即时响应。采用1月份环境状态参数对2种优化模型进行评估，如图8所示。在一个月的时间尺度上室外温度有较大波动，基准模型虽然大部分情况下能够满足室温要求，但是在室外温度持续偏高（第8~12天）或者偏低（第22~28天）时，控制效果并不理想，热不舒适时长共为3975min。这是由于基准模型的控制策略面对一些特殊情况时，不具备自主调节的能力；对比D3QN优化模型则较好地将室内温度控制在舒适区间内，热不舒适时长降低为195min，充分体现了D3QN优化模型具有较强的适应性。图8

1月份室温对比Fig.8

RoomtemperaturecomparisoninJanuary为更直观地对比2种控制模型的区别，选取1月典型日，如图8中黑色虚线所示，得到热泵功率曲线如图9所示。可以看出，2种模型对电价变化的响应基本一致，即高电价时功率相应减小，低电价时功率增大。如在电价较低的时段06:00—08:00，二者的热泵功率都处于较高的状态，而在时段19:00—21:00，二者的热泵功率都出现了不同程度上的降低。但是在D3QN优化模型下热泵的功率变化幅度更大，对电价信号更加敏感，说明智能体经过学习面对不确定性环境能做出更灵活的决策。图9

1月份典型日热泵功率对比Fig.9

ComparisonoftypicaldailyheatpumppowerinJanuary能源供应侧评价储能系统控制策略的标准包括2点：1）蓄电池的充放电策略响应峰谷电价以减少用电成本；2）在光伏发电较多的时段，蓄电池应尽可能采取充电策略实现可再生能源的本地消纳。选取1月份典型日，得到2种控制模型下的蓄电池充放电功率如图10所示，基准模型控制下储能系统的充电时段分别在01:00—02:00（低谷电价）和09:00—13:00（高光伏发电），放电时段则集中在14:00—17:00（高峰电价）。经计算电成本为11.36元，未消纳光伏发电量为5.25kW·h。D3QN优化储能系统的整体控制逻辑与基准模型一致，不同的是充放电频率变高，主要体现在00:00—07:00和18:00—24:00（无光伏发电）时段，储能系统在电价升高时放电，电价降低时充电，以保证供电的经济性。经计算在该典型日用电成本为8.76元，未消纳光伏发电量为4.84kW·h，相较于基准模型分别降低22.89%、7.81%。图10

1月份典型日储能对比Fig.10

Comparisonoftypicalda

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于深度强化学习的建筑能源系统优化策略

文档简介

温馨提示

最新文档

评论

基于深度强化学习的建筑能源系统优化策略

文档简介

温馨提示

最新文档

评论

相关文档