




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于maddpg算法的v2g模式电动汽车集群充放电行为优化
近年来,电动汽车在世界范围内取得了显著成效,因为它具有清洁环保和降噪清洁的优势。目前,有许多的优化模型和算法应用于电动汽车充放电行为调度中,以满足电网侧或用户侧的利益.文献上述文献提供了电动汽车充电行为优化调度的解决方案,但没有充分挖掘历史用电数据特性以指导电动汽车充放电行为.近年来,由于具备对大数据的分析处理能力以及精准快速的决策能力,深度强化学习成为研究热点,并广泛应用在电动汽车充放电调度中.文献上述文献提供了电动汽车充放电行为策略的优化方案,但控制策略都是离散化的,缺少灵活性,且少有考虑通过集群内部合作的方式转移和限制峰值负荷的充放电行为优化.多智能体深度确定性策略梯度(Multi-AgentDeepDeterministicPolicyGradient,MADDPG)算法是一种融合博弈与数据处理的算法,由于其在多智能体环境中具备良好的决策能力,成为了多智能体深度强化学习的重要算法之一本文首先基于用户的历史用电数据,根据电动汽车用户群体与网侧双方的需求建立了家用电动汽车集群充放电行为优化调度模型,鼓励用户参与需求响应;其次,通过深度神经网络对大规模复杂数据的特征提取与存储,并利用强化学习算法在控制与决策方面的优势,实现对家用电动汽车充放电调度的在线优化.最后,算例分析表明该算法可以兼顾用户的经济性和舒适性,同时可以转移网侧峰值负荷,并限制峰值负荷的大小.1家庭电动汽车的充电作用规划模型1.1用户侧通信与电力调度本文的用电场景是一处智能小区,在该小区内,存在多户拥有电动汽车的家庭,住宅中均装有充电装置供各自的电动汽车使用.用户侧通过高级量测体系与电网侧进行双向实时通信,在线交换电价信息和用户的电动汽车充放电情况,并通过用户调度中心参与电力调度.示意图如图1所示.电动汽车用户可以自行决定出行时间与行驶里程,仅在电动汽车处于在家状态下才被允许参与调度.用户除了可以通过供电公司购电为电动汽车供电外,还可以将电动汽车作为家用储能装置向电网出售电能获取收益.1.2电动汽车充放电行为简化调度模型本文将家用电动汽车的调度周期设定为24小时,调度步长为1小时,时段数集合为H={1,…,t,…,24}.电动汽车集合为B={1,…,i,…,N},其中N为电动汽车的数量.在每个时段上,电动汽车的状态分为在线状态和离线状态.电动汽车i在线状态时段集合为电动汽车参与充放电行为优化调度的主要目标是实现电动汽车充放电成本的最小化,同时兼顾用户的舒适性和电网对电动汽车负荷的限制,因此需要尽可能提高用户的综合收益,即综合成本的最小化.用户的综合成本可以表示为公式中:在变动的电价下,用户的用电成本取决于电价与用电量.公式中:λ公式中:p不舒适成本公式中:δ为用户的不舒适系数;E为电池容量,公式中:SoC为了防止产生新的负荷高峰,缓解电动汽车集群总充电功率对电网造成的压力,引入高负荷惩罚成本公式中:ρ为惩罚系数,ρ>0;ll公式中:k1.3电动汽车充放电模型的描述由于电动汽车集群的充放电过程具备马尔可夫性,也包含用户之间的合作,该过程可以描述为马尔可夫博弈,这是多智能体强化学习算法的基础.在多智能体环境中,由于智能体之间存在着联系,每个智能体的下一状态不仅与当前自身的状态与动作相关,还与其它智能体的状态与动作相关.每个智能体不能完全观测其他智能体的状态和动作,需要根据自身的观测结果从复杂的状态空间中选取对自己更加有利的动作,保证每次决策的优势不断累积,形成优势策略在电动汽车的充放电模型中,每个智能体代表一辆电动汽车,代替用户进行充放电操作与参与环境的交互.电动汽车i在时段t充放电功率p将每一时刻的电价信息、电动汽车的充放电操作权限和荷电状态设置为状态量.智能体i能够观测到的状态量o公式中:σ全局状态量x包含当前时刻所有智能体的观测量,即当前电价和电动汽车集群的状态信息,定义为在执行动作a={a每个用户的用电行为会受到其他用户的限制,负荷越限后会同时受到惩罚.2ddpg动作空间MADDPG算法源起于确定性行为策略算法(DeepDeterministicPolicyGradient,DDPG),能够在动作空间是连续的情况下,无需对动作空间进行离散化,直接输出一个确定的动作值,从而避免由动作空间离散化而带来的复杂运算2.1白噪声机制设计在环境中含有N个智能体,每个智能体仅能观测到环境的局部状态信息,无法得知全局状态,且含有神经网络,网络参数分别为θ={θ策略网络引入确定性策略替代随机性策略,网络输出从动作的概率分布变为具体的动作,有助于算法在连续动作空间中进行学习.引入白噪声机制,用于提高策略网络在特定环境状态下输出不同的动作值的可能性,提高训练的探索度.智能体i的动作值a公式中:μ每次策略网络根据oMADDPG算法引入DDPG的目标网络结构,与主网络的结构相似,目的是保证训练的稳定性.目标网络同样分为目标策略网络μ′和目标价值网络Q′,分别使用主网络中的策略网络参数和价值网络参数进行初始化,作用是替代主网络完成在下一时刻的决策与评判,并将做策略网络与价值网络的更新.关于预期回报J(μ公式中:价值网络通过最小化TD误差来更新网络参数公式中:L(θ公式中:γ为折扣因子主网络的训练目标是最大化策略网络的期望收益J(μ目标网络采用Softupdate的更新方式,主网络参数用于目标网络的更新,目标网络的更新幅度由目标网络更新率τ决定,0≤τ<1,更新公式为2.2从不同智能体的神经网络主动训练到充放电行为优化基于MADDPG算法的电动汽车充放电实时优化流程如图3所示.MADDPG算法的学习过程包括训练阶段与执行阶段,采用集中式训练、分布式执行的学习框架.在训练阶段,系统首先依据电价信息、电动汽车集群的操作权限和荷电状态的历史数据进行行为探索,学习现实环境中多种可能发生的用电情况.然后,依据奖励函数评估每个充放电行为的优劣.如果该行为为集群带来更多收益,则给予该充放电行为较高的奖励值.反之,给予该行为较低的奖励值.将这些信息作为训练素材存储在经验池中,并通过抽样的方式参与神经网络的集中训练,积累大量的先验知识.在执行阶段,每个智能体不需要调动各自的价值网络对当前的状态与策略进行评价,依靠训练环节中完成优化的策略网络可以进行充放电行为的输出.向各个智能体的策略网络中输入局部观测量o由于算法采用集中式训练、分布式执行的学习框架,每个智能体在训练阶段考虑到了其他智能体对环境和自身的影响,有利于降低电动汽车用户群体的成本.在执行阶段,每个智能体的神经网络已经经过训练并得到优化.可以将各个智能体分散在用户家中,根据自身的观测量做出优化的行为决策,同时利于保护用户隐私.3计算与分析3.1仿真环境设置本文采用美国某电力公司2017年~2018年制定的电价数据.其中,2017年电价数据作为训练集使用,2018年数据作为测试集使用.仿真车型相关参数如表1所示.充放电模型参数如表2所示.由于用户出行行为具有习惯性与规律性,以出行链的方式对用户出行状态进行描述场景1:居民区→办公区/学校→居民区场景2:居民区→办公区/学校→商业区→居民区根据文献[21],综合场景下集群的电动汽车按照场景1出行的频率占比为65%,按照场景2出行的频率占比为35%.电动汽车的出行时间和到家时刻荷电状态服从正态分布,如表3所示.算法参数中,折扣因子γ取为0.99,学习率α取为0.001,目标网络更新率τ取为0.01.仿真环境为英特尔corei7-8700@3.2GHz,6核12线程,内存16GBDDR4,软件配置为Python3.7.0,Tensorflow1.13.0.3.2结果分析3.2.1不同放电行为场景的优化设计为了评估智能体参与需求响应的能力,随机抽取某用户在连续120h内电动汽车用电优化情况如图5所示.在不同的场景下,电动汽车处于在线状态的时段下系统可以做出不同的决策以适应不同的电价水平,最终的荷电状态稳定在较高水平,满足用户用电要求.因为高负荷惩罚项,充电功率被限制,有利于网侧充电负荷的控制.场景1放电行为更多集中在高电价时段,具有更大的调度空间.综合场景的优化效果介于两种场景之间.3.2.2优化前后用电成本分析本文对不同场景下用户个体的经济性进行评估.其不同场景下优化前后的用电成本和综合成本如图6(a)、图6(b)所示.考虑到在现实情况中用户无法在每个时段针对变动的电价调整电动汽车的充电行为,对比了优化前的充电模式.在这种情况下,电动汽车到家后以高功率充电,直到电池充满为止,之后不再进行充电,本次充电过程结束.在场景1下,优化后的日平均用电成本为0.2624$,较优化前降低了0.4567$.在场景2下,优化后的日平均用电成本为0.4806$,降低了0.1004$.在综合场景下,优化后的日平均用电成本为0.3509$,降低了0.2958$.由于电动汽车经历了先放电后充电的过程,优化后成本呈先下降后上升的趋势,成本得到控制.其不同场景下优化前后的费用占比情况如图6(c)所示.在同种场景下,优化后的用电成本普遍低于优化前的用电成本,综合场景的优化效果介于场景1与场景2之间.场景1的用电成本相比场景2优化效果更好,这是由于场景1下用户到家的时间比场景2更早,为系统调度提供了更多的时间,同时场景1下用电过程经历了更多的高电价时段,有利于汽车向电网放电以减小用电成本.同种场景下,综合成本在用电成本的基础上有小幅提高,但优化后的综合成本普遍低于优化前的水平.优化后的潜在成本降低,但潜在成本占比高于优化前,说明该算法在满足用户和电网的潜在需求下,大幅降低了用电成本.为了验证电动汽车集群的经济性,对含有30辆电动汽车的集群进行分组调度,随机抽取10辆电动汽车,其用户的年费用支出对比如图7所示.用户的优化结果略有差异,这与用户的出行习惯有关.用户的潜在成本占比较低,说明系统能够兼顾用户的出行需要和电网的负荷要求.用户的年平均用电成本如表4所示,在不同场景下优化后的用电成本较优化前有不同程度的下降,说明变动的电价下的充放电决策可以满足用户群体的经济性.3.2.3联合高负荷惩罚,降低峰值充电负荷电动汽车集群每日平均负荷情况如图8所示,其中虚线表示电动汽车集群的充电功率惩罚阈值.原有的充电方式在用电高峰时段进行充电,在17时至次日1时产生两个负荷高峰.经过初步优化后,电动汽车集群整体在17时至23时处于向电网放电的状态,并在次日0时至6时从电网吸收电能,转移峰时负荷,缓解电网压力.引入高负荷惩罚后,峰值充电负荷得到下降,负荷曲线更加平滑,峰值负荷向后续时段转移.这是由于集群的成员在充电行为上产生合作关系,为了防止集群总充电负荷超出阈值对每个用户施加惩罚,智能体对各自的充电功率进行限制,从而降低了峰值负荷.3.2.4相同用电成本下的比较在不同场景下用户的舒适性情况如图9所示.随着不舒适系数的升高,两种场景下的荷电状态在不断升高,直至电池完全充电,但用电成本也随之增加.当相同成本的情况下,场景1的系数比场景2的小,这是因为场景1包含更多高电价时期,系统指导电动汽车放电换取利润,具备更多的调度空间,充电成本较低,此时相对较低的系数可以满足需求;同样场景下,较高的系数使得荷电状态更高,可以带来更好的使用体验.4电动汽车集群充放电优化调度模型针对电动汽车集群参与需求响应的充放电行为,本文提出了一种基于MADDPG算法的电动汽车集群充放电行为在
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年振动排序上料机项目可行性研究报告
- 2025年女装货架项目可行性研究报告
- 2025年凉席机器项目可行性研究报告
- 标准出租房转让合同书样本
- 公司知识产权保密合同管理规定
- 度钢材采购供应合同
- 度助学担保合同书正式版
- 企业风险防范与危机公关合同2025
- 茶叶购销合作合同书模板版
- 农村集体资产租赁合同范本
- 社会心理学-社会心理学的研究方法
- (完整)TRD工法桩施工方案
- 南阳粮库专用门窗施工方案
- 某物业管理月度品质管理考核标准
- 新民主主义革命理论(教学案例)
- 船坞的施工方法与流程
- 四川省2023年普通高等学校高职教育单独招生文化考试(普高类)英语试题(含答案解析)
- 地质构造和构造地貌 -【公开课教学PPT课件】高中地理
- 大学生职业生涯规划PPT第3版高职完整全套教学课件
- 信息化武器装备智慧树知到答案章节测试2023年中北大学
- 中海大海洋化学课件02海洋的形成和海水的组成
评论
0/150
提交评论