基于RG-DDPG的直流微网能量管理策略_第1页
基于RG-DDPG的直流微网能量管理策略_第2页
基于RG-DDPG的直流微网能量管理策略_第3页
基于RG-DDPG的直流微网能量管理策略_第4页
基于RG-DDPG的直流微网能量管理策略_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要针对分布式能源的随机性和间歇性给直流微网能量管理带来的巨大挑战,提出一种基于奖励指导深度确定性策略梯度(rewardguidancedeepdeterministicpolicygradient,RG-DDPG)的直流微网能量管理策略。该策略将直流微网的优化运行描述为一个马尔科夫决策过程,利用智能体与直流微网环境间的持续交互,自适应地学习能量管理决策,实现直流微网能量的优化管理。在策略训练过程中,采用基于时序差分误差(temporaldifferenceerror,TD-error)的优先经验回放机制减少RG-DDPG在直流微网运行环境中学习、探索的随机性和盲目性,提升所提能量优化管理策略的收敛速度。同时,在训练回合间利用累计奖励的大小构造直流微网能量管理的优秀回合集,加强RG-DDPG智能体在训练回合间的联系,最大化利用优秀回合的训练价值。算例仿真结果表明:所提策略能够实现直流微网内能量的合理分配。相较于基于深度Q网络(deepQ-network,DQN)和粒子群算法(particleswarmoptimization,PSO)的能量管理策略,所提策略能使直流微网日平均运行成本分别降低11.16%和7.10%。01直流微网能量管理模型直流微网系统主要由分布式电源、可控电源、储能装置和负荷组成。在本文构建的直流微网模型中,分布式电源主要考虑光伏发电、风力发电机,可控电源为柴油发电机,储能装置为电池储能,负荷包含不可调度的重要负荷、可削减负荷和可平移负荷。直流微网结构如图1所示。图1

直流微网结构Fig.1

DCmicrogridstructure针对上述直流微网,本文提出一种基于RG-DDPG的直流微网能量管理策略,具体如图2所示。该策略在满足直流微网机组出力及储能电池充放电等各种约束条件的前提下,考虑源侧多类型电源出力及负荷侧多种类负荷用电特点,以直流微网系统的日运行成本最低为目标函数,并采用RG-DDPG模型学习可控电源出力、负荷的削减和平移以及直流微网的购售电情况,实现直流微网能量的最优管理。图2

基于RG-DDPG的能量管理策略Fig.2

EnergymanagementstrategybasedonRG-DDPG1.1

目标函数本文以最小化直流微网的日运行成本f为目标,最大化分布式电源消纳的同时使系统的日运行费用最低,即式中:

CPV(t)、

CWT(t)分别为t时段光伏、风机系统的运行成本;

CDE(t)为t时段柴油发电机组的运行成本;

CBA(t)为t时段储能电池的充放电成本;

CAL(t)为t时段可削减负荷的经济调度成本;

CMV(t)为t时段可平移负荷的转移成本;

CBUY(t)、

CSELL(t)分别为t时段直流微网与大电网间的购、售电成本;

cOM,PV

cOM,WT

分别为t时段光伏和风机系统单位运行维护费用;

PPV(t)、

PWT(t)分别为t时段光伏和风机系统的发电功率;

Pg(t)为t时段柴油发电机组出力;

PBA,c(t)、

PBA,d(t)分别为t时段储能电池的充、放电功率,储能电池不能同时充、放电;

ag

bg

cg

为柴油发电机组燃料成本系数;

ηc

ηd

分别为储能电池的充、放电效率;

cOM,BA

为储能电池单位运行维护费用;

cAL

cMV

分别为负荷削减和平移的补偿系数;ΔPAL(t)、ΔPMV(t)分别为t时段负荷削减和转移功率;

Ibuy(t)、

Isell(t)分别为t时段购、售电价;

Pbuy(t)、

Psell(t)分别为t时段直流微网系统与大电网间购、售电量,购、售电行为不能同时发生。1.2

约束条件1)功率平衡约束为式中:

Li(t)为

t

时段直流微网内第

i

种负荷的功率;

N

为负荷的种类数。2)分布式电源出力约束为式中:

PPV,max

PPV,min

分别为光伏出力上、下限;

PWT,max

PWT,min

分别为风电出力的上、下限。3)柴油发电机运行约束为式中:

Rdn

为柴油发电机向下爬坡功率限制;

Rup

为柴油发电机向上爬坡功率限制;

PDE,max

PDE,min

分别为柴油发电机出力的上、下限。4)储能电池约束为式中:

PBA,c,min

PBA,c,max

分别为储能电池的最小、最大充电功率;

PBA,d,min

PBA,d,max

分别为储能电池的最小、最大放电功率;

SOCBA(t)为储能电池的荷电状态;

SOCBA,min

SOCBA,max

分别为储能电池荷电状态的下限、上限;

SOCBA,0=SOCBA,23

,表示储能电池始末时刻荷电状态必须相等。5)联络线功率(购售电)约束为式中:

Pbuy,min

Pbuy,max

分别为直流微网系统最小、最大购电量;

Psell,min

Psell,max

分别为直流微网系统最小、最大售电量。6)负荷调度约束。可削减负荷约束为式中:

ϑAL

为可削减负荷的削减比例;

PAL(t)为t时段可削减负荷的功率;

PALN

为可削减负荷的额定功率。可平移负荷用电量约束为式中:

PMV(t)为调度前t时段可平移负荷的功率;为调度后t时段可平移负荷的功率。02基于RG-DDPG的直流微网能量管理策略2.1

马尔科夫决策过程强化学习是一种模仿生物自由探索环境获取知识的学习方法,其核心在于智能体能够在与环境的交互中获得奖励,最终使得累计奖励最大。本质上,智能体与环境的交互学习可以描述为一种马尔科夫决策过程。本文中直流微网能量优化管理的马尔科夫决策过程可以用以下5个元素来定义。1)环境状态

st

。对于本文直流微网能量管理模型,智能体能够感知的环境信息为风机、光伏出力、能源市场交易电价、负荷运行功率和储能电池的荷电状态。因此,直流微网模型的环境状态信息可定义为2)动作空间at。在本文的直流微网能量管理模型中可控调节的主要是购售电量、柴油发电机机组出力、储能电池的充放电、可削减负荷及可平移负荷的功率。因此,本文直流微网能量管理模型的动作空间可表示为3)奖励

rt

。智能体在状态

st

下执行动作at所得的奖励的集合。在本文直流微网能量管理模型中,智能体的最终目标是最大化分布式电源消纳的同时,使系统的日运行费用最低。直流微网运行成本主要来自设备的维护费用、负荷的功率削减惩罚和向电网购电的费用。因此,本文直流微网模型的奖励函数定义为4)状态转移概率p。马尔科夫决策过程中的状态转移概率,即智能体在状态st下采取动作at后转移到下一状态st+1的概率。5)折扣因子γ,用来表示智能体对于未来奖励的关注度系数,在本文中取0.95。2.2

直流微网能量管理策略2.2.1

DDPG为解决2.1节中描述的马尔科夫决策过程问题,提出了一种基于RG-DDPG的直流微网能量管理策略。DDPG采用Actor-Critic框架,使用类似DQN的双网络结构,在策略搜索过程中能够有效避免局部最优问题,适用于解决连续状态和动作空间的问题。双网络结构是指在Actor-Critic框架上构建相同结构、不同参数的评估网络和目标网络,通过软更新的方式更新目标网络参数。为增强DDPG的环境探索能力,本文所提策略在输出动作

at

时引入Ornstein-Ulenbeke(OU)过程产生随机噪声,以便学习到更优的策略。引入OU过程后的输出动作表示为式中:

μ(st|θμ)为Actor当前网络

μ

的输出;

θμ

为网络

μ

的参数;

nt

为OU过程产生的满足均值为0、方差为1约束的正态分布随机噪声。在DDPG中,目标策略网络的参数

θμ

和目标值网络的参数

θQ

分别与确定性策略

a=μ(st|θμ)和价值函数

Q=(s,a|θQ)相关。为增强策略学习收敛的稳定性,采用软更新方式更新神经网络参数,其表示为式中:

τ

为软更新系数,

τ=0.001。为解决DDPG在未知环境中由于搜索空间增大导致学习训练过程收敛不稳定的问题,本文采用基于TD-error的优先经验回放机制来减少样本数据间的关联,构建优秀回合集最大化优秀能量管理回合的利用价值。2.2.2

基于TD-error的优先经验回放机制DDPG采用经验池回放的方式,选择性重复使用历史数据以减少数据间的相关性,有效解决限定空间内动作值函数的不稳定、不收敛问题。但当状态空间变大、历史数据很多时,DDPG无法分辨不同经验样本间的重要性差别,这可能导致DDPG学习训练过程收敛不稳定的问题。考虑到智能体训练过程中不同经验样本间重要性的区别,在历史样本经验回放时引入TD-error。不同样本时序差分误差的大小可以反映其对智能体训练的利用价值。时序误差定义为目标网络与当前网络Q值之差。基于TD-error的样本经验优先采样等级

Y(i)为式中:为经验池中经验样本i被采样重复利用的优先级;

α

为调节经验样本重要性的系数,

α=0时采样为均匀采样;K为经验样本数量。如果经验样本的采样TD-error较大,则代表智能体的训练精度较低,需要被重复利用以提升训练精度。2.2.3

基于奖励的能量管理优秀回合集在DDPG的训练过程中,主要关注点是一个训练回合内智能体的累计奖励,对不同回合间的联系关注较少。忽略回合间的经验联系无疑会降低智能体的训练收敛速度。针对这一问题,本文构建了一个容量为d的能量管理优秀回合集Ω

。回合集主要指该回合内智能体一系列动作的组合集。当DDPG智能体训练完一个回合,会得到一个累计奖励T为将d个累计奖励按升序排序并放入优秀回合集

Ω

中,即

Ω={T1,T2,T3,⋯,Td}。是优秀回合集中所有累计奖励的算数平均,主要用来衡量该回合是否优秀。当时,则认为该回合为优秀回合。此时将

Td+1

放入到优秀回合集

Ω

中并且将

Ω

中排在首位的回合舍去,优秀回合集得到更新。在之后的直流微网能量管理策略训练过程中,智能体有

ς

的概率从优秀回合集中选择一个直流微网能量管理的历史经验回合进行训练,有(1−ς)的概率进行新的回合的训练(

ς

是一个较小的数,本文中取

ς=0.07)。通过构建优秀回合集,本文直流微网能量优化运行策略的训练过程更加倾向于学习有更大学习价值的经验样本,提升了高优先级经验样本的利用率,加快了策略的训练收敛速度。2.3

直流微网能量管理策略训练框架本文所提直流微网能量管理策略训练框架如图3所示。选取不同运行场景下光伏、风机出力,储能电池的充放电功率,市场交易的电价信息以及不同类型负荷的功率信息作为直流微网能量管理策略训练时的环境状态。在能量管理策略训练过程中,Actor网络会根据直流微网的环境状态输出相应动作,Critic网络会根据直流微网的环境状态和Actor网络的输出动作评估该动作的得分,以指导Actor网络下一步的动作。同时,Critic网络也会根据动作后环境反馈的奖励值来调整自己的打分策略。最终,Actor网络输出动作的累计奖励会收敛稳定,直流微网的能量管理策略趋于最优。基于TD-error的经验回放机制和基于奖励的优秀回合集模块加快了策略的训练收敛速度。图3

直流微网能量管理策略训练框架Fig.3

TrainingframeworkofDCmicrogridenergymanagementstrategy03算例分析3.1

实验设置本文采用图1所示的微电网结构作为算例系统。直流微网内各微电源配置及运行成本系数如表1所示。为避免柴油发电机频繁启停对其运行寿命的影响,本文设定柴油发电机最小出力为0.1PDE,max

。直流微网向大电网购电的分时电价信息如表2所示。直流微网风、光出力和负荷需求预测数据如图4所示。图4中,重要负荷由于其需求时间固定,稳定要求较高,不参与调度;可削减负荷能够在一定范围内调节消耗的功率;可平移负荷可在满足负荷总体需求的前提下对其进行用电时间的平移。表1

直流微网微源配置及成本系数Table1

DCmicrogridmicrosourceconfigurationandcostcoefficient表2

购电分时电价Table2

Timeofuseelectricityprice本文的算例测试硬件环境为Intel(R)Core(TM)i5-7500CPU,所有测试在python环境中运行,采用TensorFlow2.0为框架执行基于RG-DDPG的神经网络训练。3.2

策略训练在利用本文所提的策略进行能量管理之前,需要使用大量的直流微网历史数据对RG-DDPG进行训练。训练开始前,设定Actor网络学习率0.001,Critic网络学习率0.0001,经验池最大容量3000,优秀回合集容量100。策略训练过程中,奖励值会随训练轮次的增加而增加。RG-DDPG的迭代收敛如图5所示。图5中,在迭代50次左右奖励值突然下降是因为RG-DDPG智能体学习到了一个较差的动作,并不代表策略不稳定。定义当前回合奖励值大于–180且相邻平均奖励之差的绝对值小于10时策略收敛。当训练回合接近700次时,奖励值趋于收敛,说明此时RG-DDPG已经学习到了最优的能量管理策略。图4

风光出力及负荷预测曲线Fig.4

Forecastingcurvesofwindpowerandphotovoltaicoutputandload图5

RG-DDPG奖励收敛图Fig.5

RG-DDPGrewardconvergence3.3

不同策略下优化结果对比分析为验证本文所提能量管理策略的优越性,本文算例采用3种策略进行对比。策略一:基于RG-DDPG的直流微网能量管理策略,即本文所提策略;策略二:基于DQN的直流微网能量管理策略;策略三:基于PSO的直流微网能量管理策略。策略二的环境、奖励函数设定与本文所提策略相同,但由于其只能处理离散动作,动作空间须进行离散处理。此处,直流微网购电量、柴油发电机组出力、储能电池的充放电、可平移负荷和可削减负荷的动作间隔取为2kW。策略三中PSO算法种群规模取40,最大迭代次数取200,学习因子为c1=c2=1.5。经过3种能量管理策略优化后的可平移负荷功率如图6所示,可削减负荷功率如图7所示,直流微网内各微源出力及购电情况如图8所示,储能电池的荷电状态变化如图9所示。3种策略的计算时间和系统运行成本分别如表3、4所示。图6

3种策略下可平移负荷优化对比Fig.6

Comparisonofshiftableloadoptimizationunderthreestrategies图7

3种策略下可削减负荷优化对比Fig.7

Comparisonofcurtailableloadoptimizationunderthreestrategies图8

3种策略下直流微网微源出力及购售电量Fig.8

Outputandpowerpurchase(sale)ofDCmicrogridmicrosourcesunderthreestrategies图9

3种策略下储能电池荷电状态变化Fig.9

Stateofchargeofenergystoragebatteryunderthreestrategies

表3

3种策略计算时间对比Table3

Calculationtimecomparisonofthreestrategies表4

3种策略下的系统运行成本Table4

Systemoperationcostunderthreestrategies由图6、7可知,3种策略下可平移负荷和可削减负荷优化趋势基本一致。由图6可知,直流微网将部分12:00之后的可平移负荷平移至00:00—08:00时段。这主要是因为此时段购电价格较低且晚间风力资源充足,将负荷平移至此时段可有效降低系统运行成本。在08:00—12:00时段,风、光综合出力较大,此时段大部分可平移负荷被保留在了原使用时段,避免了负荷平移带来的经济补偿损失。由图7可知,可削减负荷的削减集中在08:00—20:00时段,而在00:00—08:00时段削减较少。这主要是因为在08:00—20:00时段,负荷需求较晚间大且电价高,对削减负荷进行适当的削减可使直流微网系统更为经济地运行。由图8可知,在07:00前,3种策略均会从大电网购电,且将部分电量用于储能电池充电以备电价高时使用。在08:00—12:00时段,光伏出力受光照强度影响出力开始增大。此时直流微网电源出力远高出负荷消纳水平,通过将多余的电量卖出以降低直流微网的运行成本。在13:00—14:00时段,电价进入峰时期,柴油发电机的发电量也随电价的上升有所提高。在15:00—17:00时段,电价再次进入平时期,且此时段风、光综合出力也下降到较低水平,直流微网向大电网大量购电以维持负荷和储能电池充电需求。在18:00—20:00时段,电价再次进入峰时期,此时将上一时段储能电池储存的电量放出弥补部分负荷需求。在21:00—23:00时段,由风机、柴油发电机、大电网对直流微网进行供电,且对储能电池充电使其恢复初始水平。由图9可知,储能电池的荷电状态均在上下限范围内,有利于减小储能电池的折旧率,延长储能电池使用寿命。在策略性能方面,由表3可知,虽然策略一和策略二需要的训练时间较长,但是在策略训练完成之后,智能体能够在秒级内给出

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论