版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
机器学习在电力行业的应用和展望0引言近年来世界能源结构正发生深刻变革并向着清洁替代和电能替代为主要内容的两个替代”逐渐转变。在此背景下能源互联网y互联网+智能电网+智联网等一系列能源与电力发展理念被相继提出促进了能源与电力系统y的快速发展。作为当前最具颠覆性的技术新一代人工智能结合大数据超级计算等新理论新技术正深刻影响和改变整个世界的电力与能源产业并在涵盖智能电网与的中发挥巨大潜力将驱动电力能源和信息产业的深度融合,形——的开启未来基于工业能源和智能电网+的智慧新时代。在上述发展过程中知识自动化是传统向未来转变的一个关键技术其核心要义是人工智能主要体现为硬件即插即用和软件定义的知识自动化。随着的出现并进化到o]和
使得其中的深度强化学习p作为0代表在无需先验知识降低资源消耗提高训练速度等方面取得了可喜进步为的发展提供了重要机遇和强劲动力。当前国外纷纷制定发展计划以抢占新一轮科技变革的先机。在中国新一代已上升为国家发展战略。国家电网有限公司启动编制新一代电力系统技术研究框架其中将列为基础性支撑技术并在电网领域相继开展了应用的可行性和关键技术研究。由上述可见发展在中国具备良好基础未来在领域将大有用武之地。基于此本文以中的机器学习e为例对其在及调度优化和控制决策中的应用进行综述研究。1新一代的内涵与概述的起源与历史简述是什么?一般认为是研究开发用于模拟延伸和扩展人的智能的理论方法技术及应用系统的一门集控制论信息论计算机科学数理逻辑神经生理学等学科于一体的新兴交叉学科,其终极目标是让计算机能像人一样思考和行动并进一步提升人的智能。的发展经历了个阶段其中第一阶段年概念被提出并得到了初步发展第二阶段年中的专家系统发展迅速并开始转向实用第三阶段世纪末至今迎来大爆发人类在上开始取得一系列顶尖研究成果如各国也纷纷提出国家发展战略。关于这三个阶段的详细描述参见附录A第节。新一代的内涵在移动互联网大数据超级计算传感网脑科学等新理论新技术的驱动下新一代即加速发展并呈现出深度学习、跨界融合人机协同群智开放自主操控等以应用为导向的新特征正在对经济发展社会进步国际政治经济格局等方面产生重大而深远的影响。在0内涵中海量数据资源超常计算能力核心算法模型将是推动其发展的三大关键要素将驱使其从计算智能向更高层的感知认知智能发展并推动通用技术发展及产品大规模应用。基于云计算和大数据两大基础平台将从模式识别等智能传感器机制造系统驾驶算法模型机器感知如文本识别计算机视觉自然语言处理等人机混合增强智能计算智能如进化计算等符号智能如专家系统等等主要技术应用领域取得新突破其研究分支参见附录A第节。3L是一个算法范畴其本质是找到一个目标函数f使其成为输入变量X到输出变量Y之间的最佳映射YfX。算法主要分四大类:有监督式学习无监督学习半监督式学习和强化学习。其中有监督式学习需要标识数据无监督学习不需要任何标识数据半监督式学习介于前两者之间有部分标识数据无需监督信号可在模型未知的环境中平衡探索和利用。其中常用的算法有线性回归逻辑回归、反向传递神经网络算法t算法均值图论推理算法支持向量机线性判别分析朴素贝叶斯-最近邻聚类算法奇异值分解矩阵分解降维算法如决策树随机森林最小二乘法主成分分析法等梯度提高和演算法-学习时间差分学习-学习、集成算法如随机森林和,等人工神经网络如等。在电力系统领域世纪年代曾在和模糊
集等早期的应用方面掀起一个研究热潮。近年来有关学者陆续提出了平行学习l混合学习d,对抗学习]等新的理论框架并引入中。可以预见的是将是0发展的关键技术和核心创造力,将起到主要的推动作用。总的来说主要分为五大流派即符号主义贝叶斯派联结主义进化主义和行为类比主义详情参见附录节表。可以看出前面4个流派从不同侧面抓住了智能的部分特征在制造方面都取得了里程碑式的成就。基于此受启发本文以0中为代表尤其以算法技术和框架为典型代表并结合笔者及所在团队在领域十余年的研究经验选取其中发展迅速的,迁移学习和集成学习等在涵盖及的中的应用进行综述研究。需说明的是限于研究视野笔者无法一一涵盖各类方法最终选取上述7类具有典型代表性的算法技术和框架并从运行调度优化控制管理市场等方面出发描述它们在领域的研究现状。为此附录A第节表简要总结了上述7类方法在等主要领域中的研究进展包括相关算法、技术和架构优势和缺点领域主要应用场景其他领域主要应用场景未来发展趋势含领域涉及相关文献和在领域的应用程度五星表示应用的程度最高。后文以附录A表为基础对上述7类方法在领域中的研究现状进行详细展开。2RL原理及应用原理属于中一个重要的研究领域与有监督式学习和无监督学习相比属于主动学习的一种即本质上是一种在环境中审时度势地学习策略的过程强调如何基于状态而行动以取得最大化的预期收益其特点详见附录A表具体细节见附录A第节。近年来以马尔可夫决策过程为严格数学基础的算法成为领域一个新的突破其中eo时间差分策略梯度-学习-学习和自适应动态规划等]经典算法被国内外学者陆续引入领域中并日益受到国际和智能控制学术界的重视。在安全稳定控制自动发电控制电压无功优化控制最优潮流控制供需互动电力市场电力信息网络等方面的研究和应用颇多详见附录A尤其在电力系统调度控制决策中颇具潜力。在领域中的应用安全稳定控制方法只需对当前控制效果的评价信息做出反应具有更高的控制实时性和鲁棒性因而在电力系统安全稳定控制中得到应用。为此文献]将算法应用于静止同步补偿电压控制器可在一定程度上确保系统的安全稳定运行;基于理论等构想一种电力系统稳定控制框架包含了方法的在线和离线两种控制模式。在此基础上文献将其中的离线控制模式应用于动态电气制动控制器的设计文献对其中的在线控制模式进行了深入研究提出了一种控制v函数与算法相结合的稳定控制方法可实现满足约束的稳定区域内的优化控制。此外文献基于算法分别设计了直流附加阻尼控制器动态正交增压器静止无功补偿器电力系统稳定器等电力系统安全稳定装置具有良好的适应性稳定性和优化控制特性。上面提到的是目前使用最为广泛的抑制系统低频振荡的措施之一。为此文献研究了基于Q学习算法的最优控制策略利用多步的经验来进行寻优在收敛速度上优于经典学习。另外还可将基于多步回溯的Q学习算法用于的最优控制。近年来相关学者将相结合形成用于电网的安全稳定控制,如文献提出了一种基于的电网切机控制策略可依据电网运行环境信息通过Q值大小得到切机控制策略。此外从分析评估电力系统脆弱性的各种因素出发文献基于多系统中各t之间交互式协作学习共同制定最优控制决策构建了一种新型战略电力基础设施防御系统与传统集控系统相比鲁棒性开放性和灵活性显著提高。2C在中互联电网是一个动态的多级决策问题其控制过程可视为以最终实现全系统内发电出力和负荷功率相匹配。为此基于马尔可夫链控制过程文献采用模型无关的-学
习控制算法对电力系统的负荷频率控制进行了研究可快速自动地在线优化控制系统的输出文献将分层相关均衡算法引入互联电网的控制性能标准指令优化分配有效解决了指令分配过程中的维数灾问题。文献则将方法引入水火混杂系统中针对水轮机系统的非线性特点将环境知识转化成算法的先验知识用以加快的调整速度。在互联电网的随机最优控制中同样可应用算法如基于平均报酬模型的全过程R学习和在策略算法,而具有先验知识的学习算法则在中应用得最为广泛。近年来有关学者将多和算法用于互联大规模电网的提出了一种基于时间隧道思想的多算法用于解决新能源大规模接入后互联电网的问题文献则提出了一种具有动作自寻优能力的算法用于解决新能源以及分布式能源大规模并网后给带来的随机扰动问题具有较强的鲁棒性及学习能力。此外还可与多目标优化策略相结合用于解决问题其中-学习与相结合可形成深度-学习用于强鲁棒性智能发电控制器的设计。有关学者还将中的R学习用于孤岛微电网的。总的来说在互联大电网的中引入机制可将性能指标转化为强化信号反馈给系统能够有效实现功率调节指令的在线优化。电压无功优化控制和最优潮流控制在电力系统电压无功控制中控制方法具有常规控制方法所不具备的自学习和实时性等特点因而非常适合解决问题。为此以最小化分区内主导节点电压偏差和发电机无功出力比例的方差为目标文献提出了求解多目标协调二级电压控制的简化方法可加快奖励值的传播速度针对地区电网文献提出采用-学习算法在动作策略与电网状态的交互中不断学习以得到各状态—动作对所对应的Q值函数形成电网各种运行状态下最佳的策略。文献则针对暂态电压紧急控制问题提出了一种多目标求解的方法。近年来基于相关均衡的协同算法基于的一致性算法多主体和文化进化算法迁移算法等陆续用于多区域和碳能复合流无功优化。随着与各类启发式群智能算法如粒子群优化和遗传算法多t系统等结合在电压无功优化控制决策中将发挥重要作用。此外在最优潮流控制中克服了传统的最优化算法在面对复杂非线性描述的多目标最优潮流时无法满足电力系统实时调度运行这一缺点其不依赖于对象模型将问题中的约束动作和目标转换成算法中的状态动作与奖励并通过不断的试错回溯迭代等来动态寻找最优动作在处理多目标问题时取得了良好的效果具有很强的可行性与有效性。例如文献中利用基于潮流计算结果的碳流模型提出了一种基于半的Q学习算法用于问题中的电力网络的碳排放优化控制通过不断试错与迭代来动态寻找最优动作策略取得了不错的效果。其他方面近年来在的应用中还可解决一些供需互动电力市场电力信息网络经济风险调度等问题。在处理这些问题时理论非常适用于分析含不确定性因素的复杂系统的动态行为与约束条件。如在挖掘供给侧发电机和需求侧柔性负荷的联合优化调度方面文献搭建了基于g博弈的电力系统实时供需互动模型并提出了一种全新的深度迁移算法其借助分布式计算优势可快速获得高质量的最优解。在求解包含复杂的电力市场规则及其约束的博弈模型方面理论亦发挥了重要作用如电力市场交易规则和竞标机制的设计等。为此文献提出了一种基于算法的电力拍卖市场智能仿真代理模型用来描述发电厂商的策略性报价行为使得仿真结果收敛到市场均衡状态等则将日前电力市场的拍卖竞价过程视为一个竞争型的并应用算法为日前市场参与者提供了一种有效的最优投标策略h等基于算法对电力批发市场中参与者的行为特性进行了深入研究。最近文献通过和数据驱动的方法将整个能源交易的过程建模为以实现间接的客户对客户的能源交易这有助于提高市场效率并鼓励地方一级的电力平衡。在电力信息网络方面有关学者利用算法搭建了半的入侵检测系统模型降低了误报率和漏报率。在风险调度方面算法可用于求解经济调度中的风险评估问题。例如文献提出了一种基于知识迁移的细菌觅食
优化算法用于求解大规模复杂电网的风险调度问题并以基于知识延伸的维度缩减方式有效避免了维数灾总的来说尤其是与其他算法的结合中具有广阔的应用前景为具有不确定模型的优化控制决策问题提供了有利的分析手段。但大规模优化和控制决策问题时易出现维数灾使得可行解探索困难。尤其是当状态空间很大时将导致计算成本过高需要与环境进行大量交互从而获得反馈用以更新模型学习效率其实并不很高。因此近年来很多学者开始将与多t系统其他方法经典控制方法智能控制理论等相结合已在多t系统协商学习分布式发电系统与微电网多能源综合系统电力系统控制负荷预测与负荷调度继电保护等领域开展了深入研究。理论的决策和自学习特性与其他方法可有效集成的特性以及在线学习技术等将有利于其在应用领域的进一步发展。3DL原理及应用原理本质上是具有多层隐藏层的神经网络事实上4层以上的神经网络就可称之是一种特定类型的典型其基本思想是通过多层的网络结构和非线性变换组合低层特征,形成抽象的易于区分的高层表示以发现数据的分布式特征表示。近年来为了改善深度神经网络的训练效果降低的优化难度一些特有的模型和框架被相继提出如堆叠自动编码器深度信念网络递归神经网络卷积神经网络深度森林超深度学习等详见附录A第节。在领域中的应用电力系统中存在着大量高维度的电力数据因此的理论具有一定的现实意义。目前在领域中的研究与应用已初现端倪其中应用较为经典的网络模型包括,主要应用领域则涵盖电力设备如发电机变压器断路器等的故障诊断电力系统暂态稳定评估电力大数据融合与异常检测、短期电力负荷预测电力设备图像识别电力信息网入侵检测等。例如e等结合天气预报数值模拟采用技术对能源消耗和发电量进行预测并利用中的玻尔兹曼机算法作为优化工具平台来求解非线性混合整数规划)问题取得了不错的效果u等采用两种不同对需求侧的短期负荷预测进行建模其中含无监督预训练的模型取得了较好的预测结果和训练速度。此外面向智能发电的功率预测文献]分别利用改进深度等进行风电光伏功率的短期预测有效提高了预测精度。面向智能输电系统的分析与控制文献提出了一种堆叠降噪自编码器和集成模型相结合的暂态稳定评估与严重度分级方法。面向智能输电系统的一次设备文献采用可有效识别高压电缆等一次设备的局部放电模式。文献则分别将中的和应用于变压器和高压断路器的故障诊断准确率得到了有效提升。近年来逐渐与其他方法结合形成了功能更强的高级混合算法并已在领域中得到了初步应用。例如文献将与结合开发了一种算法用于求解供给侧发电机和需求侧柔性负荷的联合优化调度问题近年来随着新能源发电电动汽车储能等大量接入包含高维复杂耦合关系的电力系统问题日益突出并亟待解决。为此清华大学吴文传教授等从系统的角度对领域中具有多模态自适应学习特征的方法体系进行探索提出了电力脑的概念包括自上而下的电力脑认知计算结构和交互反馈的自适应学习模式,以及-引导学习相结合的基础学习算法单元其核心特征在于用领域知识保证结果可行用数据驱动提升精度与性能。此外与中的经典学习等相结合形成的在电网紧急控制策略制定解决大规模互联电网问题智能发电控制器设计孤岛主动配电网发电控制与优化等方面已有深入的研究和应用。在当前大力发展新能源的背景下结合在特征提取及模型拟合方面的优势对于解决抑制新能源发展的问题具有重要意义比如风力发电中的弃风率高调峰能力不足新能源汽车充电桩地点设置分布不合理等问题利用及与其他相结合的综合方法可提供一个科学的决策方案。总之在领域中正扮演着极其重要的角色并将引领新变革。例如基于和中庞大海量的用户用电数据可利用在及方面的优点对用户用电行为进行有效分析充分挖掘用户的用电潜力制定对应的用电鼓励政策进
一步优化用户的用电模式提高电网的收益减少调峰的压力等。当然也应认识到的缺陷需在实际工程问题中进行改进例如受限于其反馈机制导致学习深度有限时而出现梯度弥散现象;进行工程问题研究时算法多为黑箱模型需要复杂的模型验证对数据的推理和理解能力较弱难以应对复杂的多数据模态建模。如清华大学张钹院士在今年召开的大会上所言已遇瓶颈未来发展不容乐观将行为特征向量和数据符号向量结合起来使用将始终在科研领域的难点而这也就限制了机器变得更加智能4TL原理及应用原理强调的是在不同但相似的领域任务和分布之间进行知识的迁移于世纪年代被引入领域早期研究有终生学习多任务学习知识迁移等。关于原理的详细描述及其算法分类参见附录A第节。在领域中的应用在领域经常会遇到机组组合经济调度无功优化等高维非线性规划问题问题解决这类问题的方法除了传统优化方法如内点法等还包括基于概率搜索的启发式群智能算法即算法包括,等。在求解过程中作为一种近年来受到广泛关注和研究的学习框架旨在根据任务间的相似性利用在辅助领域过去所学习到的经验知识或策略和结果应用到相似但不相同的目标领域中进行学习复用已有经验以加速新任务的学习速度有效提高新任务的学习效率和算法的收敛性。基于此文献将中的算法用于高渗透率可再生能源和的大型互联电网的互补发电控制在实际电网算例中针对的多层取得了不错的效果。文献则提出了一种迁移蜂群优化算法主要采用源任务和新任务的状态—动作空间转换作为蜂群的行为迁移用于解决大规模复杂电力系统的无功优化问题。此外与一些方法及上述提到的启发式算法结合用于解决大规模复杂系统的快速寻优问题成为中近年来研究的热点。相比传算法的好处在于可根据不同优化任务之间的相似性高效利用已学习的知识来加速新优化任务的学习极大提高了算法的收敛性并可有效解决传统面临的维数灾问题。因此在电力系统应用越趋成熟其算法体系]如图1所示。图1电力系统算法体系1ms在领域已在无功优化短期电力
5PL原理及应用原理年1月中科院自动化研究所王飞跃教授等提出了一个新型的理论框架即平行学习可实现虚实互动的平行智能。基于平行系统理论大致可分为数据处理eⅠ和行动学习eⅡ两个互相耦合关联的阶段如附录所示是一个把小数据炒成大数据再把大数据提炼成解决具体问题的精准知识的小智能的过程即小数据大定律到大数据小定律的过程即从牛顿定律到默顿定律的升华使得从已知训练样本集有限小数据)走向了自我探索获取海量假想训练样本无限大数负荷预测短期风速预测碳能复合流分散优
据的时代这也是
超越人类智力的分水岭。化经济风险调度孤岛微电网源—荷协同频
近期王飞跃等将上述
的决策能力进行有率控制等方面得到了初步应用。此外文献]算法结合用于集群风电场并网的区域无功电压控制文献则将与一致性算法、学习算法等结合形成一致性迁移学习算法用于虚拟发电部落的分散功率动态指令分配达到了分散自治集中协调的效果。在领域相关学者已将与启发式算法算法结合形成更高级的算法用于多能源系统的联合优化调度电力系统供需互动实时调度电力系统分散式最优碳能复合流优化含风—光—车的功率指令动态分配经济风险调度]等方面取得了不错的效果。近年来有关学者还尝试将结合用来训练深度策略网络。例如在深度学习网络中引入来加快收敛速度以提高学习性能。总的来说对于领域中不连续可微含多极值多约束的凸或非凸的问题引入能够将历史优化任务的有效信息转化到值函数中从而实现快速的在线优化。而将与其他和算法结合则可构成更高级的级联式算法对求解问题具有很好的适应性具有优化效果好收敛速度快等优势。当然也并非万能其在知识迁移过程中出现的小数据和个性化问题值得关注。此外当目标任务和源任务的动作空间不相等时导致迁移方式不易实现。在进行工程问题研究时其收敛性证明比较困难且迁移过程中出现的不稳定性将无法有效保障算法的迁移能力。
机结合提出了一种新颖的平行强化学习理论框架。关于及原理的具体细节描述参见本文附录A第节。在领域中的应用王飞跃等指出未来将进入工业时代工业与人类社会将充分融合形成更为复杂的信息—物理—社会融合系统即。王飞跃等借助于互联网+进一步提出了能源的概念提出可充分将工业的平行理论和技术应用于能源行业形成平行能源在上述背景下王飞跃等提出的一系列新型理论框架可以更好地解决数据取舍行动选择等传统理论不能很好解决的问题如维数灾问题。目前已在虚拟场景生成无人驾驶车辆智能测试、社会计算等多个领域得到了较好的应用效果。王飞跃教授团队自年提出平行智能概念年提出工业与能源构想,到年提出平行能源社会能源和M等理念再到年提出平行调度框架其间相继与国内外多个单位合作将和上述概念构想与框架应用到领域多个场景中来搭建了和平行能源的调度优化运行控制与智慧管理系统。其中与中国华电集团合作开展了如下研究利用并采用能源理念建设了分布式能源项目形成了分布式能源系统运行优化的智能化解决方案利用和火电发电框架对某信息程度较好的火力发电厂进行了智能监控和平行管理规划能很好地引导实际系统按优化方式运行。此外基于搭建的平行系统还可对智能家居的能源系统进行设计和运行管理。进一步基于生活习惯的大数据分析可提供能效分析和建议个性化电价节能方案等。近年来基于人工电力系统的建模理念]和运行于区块链上的智能分布式电力能源系统理念王飞跃等从法即人工系统计算实验和平行执行其核心技术之一为)核心思想出发相继提出了平行能源和社会能
源的概念认为可从社会中挖掘”能源并进一步将引入大规模复杂电力系统的调度中提出了平行调度的概念和框架为电力系统的调度提供了一个新范式如图所示。此外王飞跃等将结合提出了一种全新的理论框架并用于制定混合动力车辆的自适应能量管理策略其计算速度和控制效果都远优于传统的方法。图2电力系统调度的框架2mh可见已在的应用中初见端倪。未来在工业和能源背景下结合平行智能平行能源和社会能源等理念在综合能源系统M建设调度机器人开发、平行调度研究人工电力系统搭建基于区块链技术的智能分布式电力能源系统建模基于核能的平行核电系统仿真等方面将具有很大应用潜力期待取得突破性进展。总之基于莫顿定律融合了预测学习和指示学习的可以很好地解决传统理论不能有效解决的一些问题比如数据取舍行动选择等。但由于近年来才提出其很多细节之处尚需完备的理论证明。此外应用方法研究实际工程问题时往往需要通过构建复杂的平
行系统来产生海量的训练样本供机器进行学习对于研究人员来说是个不小的挑战。6HL原理及应用原理表示将至少两种优势互补的方法集成或综合为一种性能更强的。的典型代表是其基本原理和发展过程参见附录A第节。此外利用每种算法自身优势将与结合形成将与算法如蜂群优化算法)结合形成迁移蜂群优化算法将与结合形成深度算法将与-学习构成一种新型的算法构成一种新型的算法与极限学习算法形成极限迁移学习算法等算法在涵盖和的领域中也都取得了不错的应用效果。其中一种应用于的新型混合算法的理论框架]如附录A图所示。在领域中的应用在领域最近几年呈现飞速的发展态势其基于数据驱动的学习方法在提升控制效果和精度方面都展现了巨大的潜能。近年有关学者已将及启发式搜索算法策略式搜索智能算法等方法进行级联组合形成多种高级算法用于和的优化和控制中如文献将与结合形成具有动作自寻优能力的用于求解新能源及分布式能源大规模并网所带来的随机扰动问题可有效提高电网的安全和经济运行文献将多目标优化策略与理论结合用于求解大规模互联电网的问题文献将与-学习结合形成一种算法算法用于对强鲁棒性智能发电控制器的设计文献在协同一致性算法的基础上将其与学习算法结合形成高级算法用于求解虚拟发电部落的功率动态分配问题文献则将经典的启发式搜索算法细菌觅食算法与和-学习算法结合形成一种全新的基于知识迁移的算法用于求解在引入风险评估后的大规模电力系统经济调度问题文献进一步将附录A图所示的一种算法用于孤岛主动配电网的一体化智能发电控制与优化具有较强的鲁棒性。在所有算法中近年来作为感知”决策结合形成的一对合已被许多学者研究并应用到领域中来。例如文献基于电网运行环境信息和数据分析将用于制定紧急状态下的电网切机控制策略。总的来说代表了一种混合增强智能其虽可充分发挥各类算法的优势但也存在可解释性差算法多为黑箱模型稳定性无法有效保证不能很好地应用到非问题算法收敛性无法提供严格理论证明等缺陷因此,未来领域的研究需着重关注这些问题。7AL原理及应用原理AL是通过构造相互竞争的生成器和判别器来
提高学习的效率。因此又称作生成式对抗网络el。是一个强大的基于博弈论的生成模型学习框架由w于年提出其结合了生成模型和对抗学习思想目前已成为学界最为重要的研究热点之一。近年来一些先进的先后被提出其突出的生成能力不仅可用于生成各类图像和自然语言数据还启发和推动了各类半监督式学习和无监督学习任务的发展。关于的基本原理模型描述和最新进展详见附录A第节。在领域中的应用对真实电力系统进行建模往往需要大量的先验知识因此建模的好坏将直接影响到生成式模型的性能。此外真实电力系统的数据往往非常复杂拟合模型所需计算量往往非常庞大甚至难以承受。为此平行系统和应运而生。其中前文提到的新型理论框架中可用平行的人工系统产生大量虚拟的样本。此外也可利用来构造一个x对抗博弈系统来自动产生大量模型仿真数据并使用随机梯度下降)实现优化在很大程度上解决了真实环境样本小的问题。近年才被提出目前在领域的研究和应用鲜有涉及。国外方面g等将用于模型无关的可再生能源场景生成可产生具有完全多样化行为特征的风能和光伏发电场景,其中用于场景生成的架构如附录A图所示。国内方面中国电力科学研究院有限公司和清华大学等单位研究了基于的异构数据集成方法及其在智能配用电中的应用可解决配电系统异构数据资源难以有效利用的问题。此外东北大学孙秋野教授等研究了基于技术的数据—机理混合驱动方法用于对自能源,模型参数的辨识可解决在不同运行工况下的模型切换问题以及中输出序列离散的问题。作为的代表技术正在领域发挥着重要作用。提供了一个极具柔性的架构配合巧妙的内部对抗机制可显著提升模型设计的自由度并适应于概率密度不可计算的情形的最大优势在于无须对生成分布进行显式表达可大大降低训练难度并提高训练效率。当然也存在某些缺点最突出的就是训2练过程不稳定对多样性不足和准确性不足的惩罚并不平衡导致模式坍塌现象发生。未来将在克服模式坍塌方面继续提升并设法与其他模型融合比如融合能量函数]和的尤其是与的深度融合并用于跨任务学习。这将有力推进在领域中的应用发展。8EL原理及应用原理严格意义上说并不算一种算法而更像是一种优化手段或策略其通常结合多个简单的弱算法有策略地生成一些基础模型然后有策略地将它们集成模型组去更可靠地完成学习任务并做出最终决策。因此又称为多分类器系统。关于的基本原理和模型架构详见附录第节。在领域中的应用适合于静态数据的集中分类等问题而更为广义的技术可应用于动态系统的建模和控制。基于此目前在涵盖和的领域中的应用主要偏向于电网源—荷协同频率控制天气有关的配电系统断电事故预测电力系统安全评估光伏输出功率短期预测、短期电力负荷预测可再生能源消耗预测短期风电爬坡预测太阳能发电预测等。可以看出在中主要用于频率控制和电力系统安全及稳定性评估等而在中则主要用于负荷预测可再生能源消耗和发电量预测等。例如文献中提出了一种基于集体智慧的算法用于孤岛微电网下分布式电源与负荷的协同频率控制。文献中利用搭建了由风和闪电导致的配电系统停电中断的预估模型该模型的核心方法为一种基于g的称为+具有降低电网运营成本和减少客户停电时间的潜力预估准确性明显高于其他模型。总的来说目前在领域中应用较为广泛主要集中于控制评估和预测尤其是对新能源消耗和新在领域应用的主要难点在于究竟集成哪些独立的较弱的学习模型以及如何把学习结果整合起来。此外对噪声较为敏感有时陷入局部最优出现过拟合和欠拟合现象等也值得关注。为此,文献指出可与完美结合构成深度残差学习等网络这对于未来
领域问题并提供有效方案具有重要意义。9大数据思维下的发展思考笔者及所在团队过去十余年一直从事在领域的研究。通过研究笔者发现在领域应用的成功与否与该领域内爆炸式增长的电力大数据密切相关这些数据样本的质量参差不齐但基于某一目的均可供机器进行不同程度的学习。大数据具有5个典型特征简称:海量多样时效不精确和价值。在领域电力大数据往往存在多源多态异构复杂高维分布、非确定性指数级增长等特性导致对这些流数据的采集存储处理知识挖掘和价值应用等变得异常困难这也给在该领域的应用带来巨大挑战。这些挑战可以从大数据的特征出发进行分析包括海量性挑战多样性挑战时效性挑战、不精确性挑战和价值性挑战。年薛禹胜院士等提出了以电为核心的大能源体系。在该体系下笔者认为可将中的一类监督学习如统计机器学习和等与大数据思维如大数据挖掘融合形成新的数据挖掘技术。这类技术突破了传统的关联关系描述向着因果关系发展和推广因而在领域中具有广阔的应用前景。比如第节讨论的融合了监督式与非监督学习优点在于模型的表达能力极强能够处理具有高维稀疏特征的数据其基于多层隐层的结构可在一定程度上从数据中自动提取和理解隐藏的较为抽象的概念其性能已在领域众多应用中得到了验证而第4节讨论的则突破了统计学习理论的基本假定即训练数据和未来数据必须服从相同的概率分布否则其效果无法保证不要求原始域和目标域的数据服从同样的概率分布甚至可以位于不同的特征空间中因此可以利用服从不同概率分布但相互关联的数据样本集来提高学习的精度。因此对于领域而言,数据科学的发展和进步将极大地驱动0尤其是在该领域的快速发展和深层应用。未来需要与基于数学模型的研究相结合方能在各个有关领域取得长足发展。这也可以看出大数据思维下的数据挖掘方法与传统的通过建立人工模型进行推导的研究方法并不矛盾二者反而可以互为补充。当然大数据思维下的数据挖掘技术尚处于快速发展之中与中的研究热点如、等结合在研究中前景广阔大有可为未来值得深入研究。未来展望目前0突破了不能用不好用到可以用的技术拐点很好用还存在诸多瓶颈。例如①数据瓶颈以为例其依赖于大数据驱动发展需要大量的数据训练样本集。②泛化瓶颈现有方法在一些实际问题中仍无法取得理想的泛化性能训练好的模型用在变化的环境甚至出现泛化性能明显下降的现象。③能耗瓶颈现有计算机上实现的系统能耗很高。④语义鸿沟瓶颈目前缺乏真正的语言理解能力⑤可解释性瓶颈现有过于依赖训练数据缺乏深层次数据语义挖掘导致可解释性差。可靠性瓶颈现有系统可靠性较差某些错误识别结果可能会带来致命后果。中国科学院院士张钹教授在年6月于深圳召开的大会上提出未来必须走向具有理解力的即真正的针对缺陷张院士提出了探索的几个新方向一是数据处理层面语义向量空间或进一步拓宽入口为机器建立常识库二是在常识库的基础上,将感性和知识的世界统一起来这将为的发展带来一次质的飞跃。总的来说诚如众多院士专家所言0已到瓶颈其未来发展不容乐观。未来可解释性和可理解性等在理论研究方面仍将任重道远。是为了解决知识获取的瓶颈问题而出现的数据和模型对于0发展遇到的瓶颈也是未来发展所必须面对的。当前大多数系统都是黑箱导致即使利用做出非常准确的预测但很难解释为什么会做出这样的预测这使得很难用于一些高风险应用场景。此外数据隐私和所有权等问题也会阻止经验得到有效分享。如何有效利用的运行机理及其数据源通过合适的技术来处理系统的各种复杂任务以实现整个系统的安全可靠经济环保运行成为当前国内外的热点研究问题。为了充分挖掘的能力文献]指需要在电力工程实践科研机制和生产管理需求方面适应电力系统的需求在这个过程中关键点之一就是将领域知识和专家经验整合到中即开发嵌入专业知识的方法称为引导学
习其主要特点是结合了领域知识经验和提供了一种知识分析与数据挖掘相融合的范式为人类机器协同混合增强智能的实现机理和电力知识资产传承管理提供了一条可行的路线。总之尽管在当前的领域的应用还存在诸多瓶颈但其潜力和价值是无穷的。在大能源思维和大数据思维下未来通用的终极算法是有可能诞生的它将是大数据挖掘技术和多源数据融合思想的充分利用多种方式的深度交叉融合机器的情感和记忆推理等高级智能。例如通过引入具有群体智慧的平行建立虚拟的平行实现平行能源与社会能源的理念以及平行调度的构想。从能源区块链y]到智慧能源t未来基于新一代技术建立的平行能源互联网将是基于平行系统理论在互联网数据信息互联物联网感知控制互联能源要素互联的基础上,实现知识智能互联的能源智联网y即信息—物理—社会深度融合系统。因此,通过基于深度特征识别和加装存储记忆推理模块的等各种学习方式的交叉融合新一代数据驱动的智慧未来将有可能实现最终将会走向工业和能源发展的新时代。结语新的智能全球化将要来临未来打造的是有可能的其必将运用更多的新一代技术其中的主要代表之一方法具备核心驱动力和创造力将在中发挥重要作用。本文综述了7类典型方法在领域的应用现状。事实上笔者目前在领域已建立了较为完整的算法库如附录A第节所示。本文抛砖引玉旨在引起业内专家学者的兴趣期待在理论方法和技术研究及应用实践方面共同推进新中的技术在未来智慧中的蓬勃发展!附录A3第一阶段(1950~1960)AI的概念,(Symbolism)1956年,达特茅斯会议首次提出了“AIAI这门新兴学科的正式诞生,科学家发明了多种具有重大影响的算法,如强化学习模型的雏形——贝尔曼公式(BellmanEquation)。除在算法和方法论STUDENT(1964),ELIZA(1966)1974~19805AI对于超出范围的任务无法应对,智能水平较为低级,局限性较为突出。与此同时,联接主义蓬勃发展。第二阶段(1980~2000)中包括著名的多层神经网络(1986)和BP反向传播算法5月,IBM公司研制的深蓝(DeepBlue)计算机首次战胜了国际象棋大KasparovAI专家系统逐也渐淡出人们的视野,人工智能硬件市场出现明显萎缩,AI又一次进入低谷期。第三阶段(20世纪末至今(AI2.0)AI2006年开始[5],AI在很多应用领域取得了突破性进展,迎来了又一个繁荣期。2016AIDeepMind开AlphaGo[9]4:1LeeSedol60AI取得了突破性发展;2017年可看I5月,AlphaGo3:0AlphaGo[9]AlphaGoMaster、AlphaGoZero[10]AlphaZero[11]等版本,其训练和运行速度更快、AlphaZero为例,其完全无需人工特征、无需任何人类棋谱、甚至无需任何RL算法、只需要几小时的训练时间就可以超越此前最好的算法甚至人类世界冠军,这AI上所取得的顶尖研究成果。愈加海量 持续提升 不断优化的化的数据 的运算力 算法模型三大核心驱动力.愈加海量 持续提升 不断优化的化的数据 的运算力 算法模型三大核心驱动力..符号学习专家系统不确定性推理语音/图像识别 免疫计计算机视觉 进化计机器人学 神经计算成长性技术胶囊网络云端人工智能深度强化学习智能脑机交互AI情感智能元学习AI技术经网络.符号智能机器人/专家系统计算智能机器学习知识表达..推荐系统无/集成学习深度学习强化学习统计学习迁移学习平行学习对抗学习归纳/统计学习度量学习/模式识别/……回归/分类/BaggingStackingCNNs/…DRL/D-ADP/…DTRL/TBO/…预测/平行系统GAN启发式SI计算自然语言处理图搜索图A1目前人工智能的研究分支情况Fig.A1ResearchbranchesofcurrentAItechnologies表A1ML发展过程中形成的五大流派TableA1ThefivetribesofMLinitshistoricaldevelopment流派 起源 核心思想 研究问题代表性算法代表性应用 代表性人物符号主义贝叶斯
学
认知即计算,通过对符号的演绎和逆演绎进行结果预测主观概率估计,发生概率修正,
知识结构逆演绎算法 知识图谱反垃圾邮
Mitchell、SteveMuggleton、RossDavidHeckerman、Judea派联结主
统计学
最优决策
不确定性概率推理反向传播算
测
Pearl、MichaelJordanYannLeCun、Geoff神经科学 对大脑进行仿真 信度分义
法、深度学习
语音识别
Hinton、YoshuaBengio进化主义行为类
进化生物学
对进化进行模拟,使用遗传算法和遗传编程
结构发现基因编程 海星机器
JohnKoda、JohnHolland、HodLipsonPeterHart、Vladimir比主 心理学 新旧知识间的相似性 相似义
核机器、近邻算法
Netflix推荐系统
Vapnik、DouglasHofstadter、,、,7表A2本文综述的7类ML方法在EEPS等主要领域内的研究现状总结项目类型相关算法、技术和架构项目类型相关算法、技术和架构优势缺点EEPS领域主要应用场景其他领域主要应用场景未来发展趋势涉及相关(含EEPS领域) 文献EEPS中应用程度(五星为最高)强化学习(RL)蒙特卡洛RL时间差分算法策略梯度算法ADPQ-学习和R-学习SARSA算法深度Q网络无需有标签数据较强的自学习能力在线学习能力强实现动态优化决策具有延迟反馈效应序贯决策能力强DLTLPL可分别形成处理大规模EEPS制决策问题时解探索困难状态空间很大时计算成本过高学习效率并境进行大量交互从而获得反馈用以更新模型安全和稳定控制决策自动发电控制AGC电压和无功控制VQC最优潮流控制OPFC电力市场博弈问题电力信息网络问题负荷预测和负荷调度电力系统继电保护工业制造计算机仿真机器人控制计算机游戏证券投资管理工业优化调度医疗保健对话代理文本摘要引擎在线股票收敛特性研究信度分配问题研究与其他不确定分析方法结合研究离散化问题[12],研究 与其他ML方法结合研究比如DRL与多智能体系统理论、智能控制理论等结合研究DRL、TRL和 分布式发电和孤交易PRL算法 岛微网多能耦合系统调度决策堆叠自动编码器网络网络网络深度学习网络(DL) 深度Q-学习网络学习网络算法超深度学习算法很强的感知能力具有非常好的迁移学习特性能实现极为复杂的非线性映射知识表达能力极强性能力强抽象知识识图像和语音受限于反馈电力设备的故机制 诊断学习深度有电力系统暂态时有限 定评估有时出现梯电力大数据融度弥散 和检测需要复杂模短期电力负荷型验证 测有时需要先电力设备的图像进GPU和大量识别样本集支撑 电力信息网络入对数据的推侵检测理和理解能力智能发电系统较弱 力预测难以应对复杂的多数据模制决策态建模 大规模互联电网AGC合利用图像语音识别戏制参数优化分类机器视觉智能监控文字识别/NLP编辑记忆网络分析RL合加能增加络模块法研究络研究超深度学习算法法研究面研究DL研究[63]-[83]实例迁移学习特征表达TL参数迁移学习关联知识迁移学习TL(TL) 迁移强化学习深度迁移RL迁移蜂群优化迁移细菌觅食零基础到累积学习相似领域或任务间有效分享和迁移信息成本低且效率高关联性强的不同任务快速动态在线优化加快其他算法收敛数灾”知识迁移过电力系统优化问程中的小数据题中的连续单任务和个性化问题迁移、多任务线性/目标任务和非线性迁移,比如源任务的动作AGC空间不相等时短期电力负荷/风迁移方式不易速预测实现 离散碳能复合流收敛性证明优化较困难 风险调度和机组迁移过程不组合稳定导致迁移孤岛微网协调频能力无法保障率控制多能耦合系统调度优化图像分类命名实体识别自动规划问题交叉语言分类计算机游戏自然语言处理跨领域文本知识学习与其他ML结合形成高级算法,如TRL与启发式群智能算法融合形成高级的TL算法,如TBOTBFO贝叶斯多实例迁移学习算法研究[51]-[53],[56],[62][84]-[94],,、,,,、,平行强化很好解决数很多细节之平行能源调度控虚拟场景平行调度机学习算法据取舍和行动处尚需完备的制管理 生成 器人(PRL) 选择问题 理论证明 分布式能源智能无人驾驶平行能源系平行自适通过平行人需要通过构决策 测试 统研究应动态规划工系统进行大建复杂的平行火电厂平行管理社会计算智联网和平算法(P-ADP)数据预处理 系统来产生海和规划 和情报处理行智能基于ACP包含预测学量的训练样本智能家庭能量管城市平行社会能源系法的平行系习集成学习的供机器进行学理系统 交通 统研究[7],[14],平行学习统技术 数据学习 习 人工电力系统研平行机器平行知识自[15], (PL) 包含实现数 发 人 动化[95]-[107]据-行动引导的 社会能源系统开平行无人平行机器人指示学习 发 机 技术易于产生知 复杂电力系统平平行应急平行感知系识涌现 行调度 管理 统研究平行核能电力系平行眼技软件定义的统开发 术 人工社会系统平行区块链能源 研究及其应用系统DRL算法更强的ML算法收敛性随机干扰下的大计算机游混合增强智体系,如性能,如DRL有时无法提供规模互联电力系统戏能方法、技术和DQN,A3C,算法体系可很严格理论证明智能发电控制机器人控系统研究ADP算好地保证学习可解释性差,复杂电力系统经制DRLPRL等法等的有效性和执多为“黑箱模济调度 优化和调高级混合智能[10]-[12],深度迁移行端对端的感型”孤岛主动配电网度系统的开算法的研究[42]-[45],RL 知和决策能力算法稳定性的综合发电控制和发与启发式群混合学习分层DRL在提升控制有时无法得到优化问题 计算机仿智能算法的结(HL)算法 效果和精度方有效保证 电网紧急控制决真系统的开合形成互补特[90],深度记忆面潜力巨大 DRL算法不策问题,如电网切发 性更强的HL算RL 有效解“维能很好应用到机控制策略研究 人机混合法,比如[108]-[113]多智能体数灾” 非MDP问题电力市场仿真研增强智能系算RL 究 统的开发 法TBO ,TBFO等GAN系统的回报/训练过程有可再生能源海量引入到基于GAN损失函数不必时会出现不稳场景生成,比如风频等抽象知RL的决策问题自编码显式给出而是定 电数据的生成 识生成 中来研究GAN 通过对抗来自对多样性不智能配用电系统研究如何克[14],[15]对抗学习组合GAN动学习和挖掘足和缺乏准确中的多源异构数据神经信息服GAN训练过[17], (AL) FusedGAN产生 性二者的惩罚融合问题 处理系统研程中出现“模[114]-[127]DeblurGAN更好的知识力度不够均衡能源互联网领域究 式坍塌”现象Discret 泛化性 中的“自能源”问深度对抗利用GAN技GAN 样本训练效 题研究,如基于网络 术进行跨任务MMDGAN率很高 GAN技术的自能源平行对抗学习研究,,,,,,可自动生成 混合建模与参数辨学习海量场景供机 识方法研器进行学习集成学习(EL)基于Bagging架构的随机森林算法AdaBoost进机和梯度提升回归决策树算法Stacking构堆叠泛化算法优化手段和优化策略性能卓越可靠性和准确性高分类性能极好优越的群体群体决策和群体智慧的“涌现”对噪声较为敏感有时会陷入得到全局解有时会出现过拟合和欠拟合现象依赖于数据源孤岛微电网源-荷协同频率控制电力系统安全性和稳定性评估研究负荷预测、能源消耗预测电力系统发电出力预测电力中断事故预测电网调控群体智慧决策预测系统开发分类系统开发群体智慧研究投票系统开发决策系统开发数据分类和数据竞赛研究如何高效集成独立的较弱的学习模型以及如何把学习结果有效整合起来与DL和PL[91] 结合 [114],EL模型的优[128]-[140]化和平行化研究边际和多样性研究强化学习(RL)A2stπat,而环tta+2所示,RL包含了四个基本环节:MDP、值函数(valuefunction)、值迭代(valueiteration)和策略迭代(policyiteration)。总的来说,RL作为一个序贯决策(sequentialdecision-making)问题,它需要连续选择一些行为,并在这些行为完成后将得到的最大收益作为最好的结果。RL的经典案例就是AlphaGoZero[10]RL在模拟世界中的有效性。动作at/决策(MDP)π体 体 代/励rt状态/观察st+1环境A2强化学习原理图Fig.A2PrincipleofRL深度学习(DL)ML的技术,目前已在图像处理及分类、语音识别、自然语言处理等领TensorFlowCaffeKerasCNTKTheanoDeeplearning4J等[63]。DNNDNNDLAE)的堆叠自动编码器(stackedautoencodersSAE)、基于受限玻尔兹曼机(restrictedboltzmannmachine,RBM)的深度信念网络(deepbeliefnetworks,DBN)、递归神经网络(recurrentneuralnetworks,RNN)、深度残差网络(deepresidualnetworks,DRN)和卷积神经网络convolutionalneuralnetorks,CNEDBNCNNRNN的网络结构[43(a)~(d)所示。输出层W输出层W输入W1层W2W1输入层隐层隐层W 输IW 输I+1出层WI隐层隐层SAE网络结构RBM输W WRBM输W W1WWT入层2显层隐层隐层W 输I+1出层WI隐层隐层DBN网络结构S4:f.16@5×
C5:layerF6:layerOutputC3:f.maps16@101×0
120 84 10Input3232
C1:feature6@288
S2:f.maps6@141×4Full
GaussianFullConnectionsConnectionConvolutions
SubsamplingConvolutionsSubsampling
ConnectionCNN网络结构OutputlayerOutputlayerOutputlayerOutputlayerOutputlayerOutputlayerW1InputlayerW1InputlayerW1InputlayerW2W1InputlayerW1InputlayerW1InputlayerW2HiddenlayerWhW2HiddenlayerW2HiddenlayerRNN网络结构图A3四种基本的DL网络结构示意图Fig.A3ThestructureoffourbasicDLnetworks随着训练数据的增长和计算能力的提升,DL中的典型代表——CNN4个方向迅速发展。最近,南开大学的顾泽苍教授提出了“超深度学习[65]L2017Ndeepforet6NN的可能性。A7迁移学习(TL)基本原理与迁移学习(TL)TLTLTLTLTL划分为三大类TL(inductiveTL,ITL)、TL(unsupervisedTL,UTL)TL(transductiveTL,TTL)。其中,ITL强调源领域和目标TTL强调目标新任务和源任务必须是相同的,其他两种则可应用到不同的且相关的任务的学习迁移[53]A4所示,RL为例,可将其迁移分为行为迁移和知识迁移两种方式,其中行为迁移表示将源任务学到的策略应用到目标任务;实线箭头表示两种迁移的主要方向,但现实中可能经过虚线箭头所示的步骤。任务A任务任务A任务B 行为B行为A知识A知识B可能需要的步骤图A4强化学习的两种迁移方式Fig.A4TwotransferapproachesoftheRL平行学习(PL)A5所示,分为两个阶段数据处理阶段(StageI)和行动学习阶段(StageII)(Stage(对应牛顿定律/牛顿系统)”输入到软件定义的平行人工系统(software-definedparallelartificialsystem,SDPAS)产生大量新的数据(人工合成大数据)。然后,这些人工数据和特定的原始“小数据”一起构成解决问题所需要学习的开放、演变的“大数据(对应默顿定律/默顿系统)ML模型。(StageI)
原始数据
添加由平行控制产原始数据数据采集(物理与社会感知系统原始数据数据采集(物理与社会感知系统)选取的特定小数据开放、演变的虚拟平行人工系统开放、演变开放、演变的虚拟平行人工系统开放、演变的大数据生成数据数据交互Data平行控制和指示学习Action(Stage平行控制和指示学习
行动/数据交互小知识小知识提取特定小知识用于平行控制
基于计算实验的预测学习和集成学习行动/数据交互基于计算实验的预测学习和集成学习
行动/数据交互图A5新型的平行学习理论框架Fig.A5AnewtheoreticalframeworkofPL在行动学习阶段(StageRL(基于预测学习和集成学习)来刻画系统的动态变化,从人工合成的“大数据”中学习(小知识),并将学习到的知识存储在系统状态转移函数的过程(从牛顿系统到默顿系统)PL理论框架中,使用预测学习解决如何随时间发展对数据进行探索,使用集成学习解决如何在空间分布上对数据进行探索,使用指示学习解决如何探索数据生成的方向[14]。[14]和[15]AlphaGoAlphaGoCarloSearch,MCTS)来实现自我棋局探索[9]AlphaGo自我博弈算法(asingleAlphaZeroalgorithm)来产生[11]PL环路[15]AlphaGoPL系统[15]A6(a)和(b)自我博弈来产生大量“数据”样本供机器进行学习,使得ML从已知训练样本集(有限小数据)走向了自我探索获取海量假想训练样本(无限大数据)的时代[95],这也是AI超越人类智力的分水岭。Learning)预测学习预测学习进行探索解决如何随时间发展对数据进行探索真实系统环境策略一致性系统可能的系统Learning)预测学习预测学习进行探索解决如何随时间发展对数据进行探索真实系统环境策略一致性系统可能的系统PL环路搜索搜索树指示学习监督学习学习指示学习监督学习+强化学习环境历史棋局围棋程序Go策略策略网络策略网络网络AlphaGo的平行学习系统架构图A6完整的PL环路和AlphaGo的PL系统架构Fig.A6StructureofaPLloopandaPLsystemforAlphaGo智能体输入C1S2C3S4基于双向的长短期记忆的深度强化学习(DRL)输入参数经验人工合成的大数据策略人工系统输入输入参数经验人工合成的大数据策略人工系统输入参数目标任务励 动作动作奖励预测学习迁移学习学习系统计算实验(computationalexperiments)环境人工大数据反馈控制特定知识(specificknowledge)稀少的原始数据平行执行平行控制真实系统平行系统(parallelsystems)Fig.A7AnoveltheoreticalframeworkofPRL混合学习(HL)的典型代表——深度强化学习(DRL)8DLRLDRL[109]DL方法(DQN)来感知该观察,从而从RL的决策能力来评价各动作的价值函数,并通过某种策略将当前状态映射为相应的动作;最后,环境对此动作做出反应,A8所示。(DQN)观察st(Q-Learning等)上下文rRL决策t奖赏at环境基于预期回报评判动作价值图A8深度强化学习的基本原理示意图Fig.A8IllustrationofthebasicprincipleofDRLHL发展过程中,2016DeepMindDRLAlphaGo打破了围棋无法AIANNDLMDPRLMLAlphaGoZero的算法形式则更为简洁,采用完全不基于人类经验的自DRLDRLAI领域的进一步发展[113]DRLDLRL(state-actionspace)中进行端到端(end-to-end)的感知决策[10,113]DRLQ网络算法(DQN)、AsynchronousAdvantageActor-Critic算法(A3C)、策略梯度算法(policy-gradient)及其他算法的相应扩展[113]DLRL的代表性算法——ADPDeep-ADP(D-ADP)算法的理论框架[83,95]9所示。HL中,DRLDRL(value-basedDRL)、基于策略梯DRL(policy-basedDRL)DRL(searchandsupervisionbasedDRL)DRL在游戏、机器人、自然语言处理、智能驾驶、智能医疗等领域取得了重要进展。图A9一种新型的深度自适应动态规划算法理论框架Fig.A9AnewtheoreticalframeworkofD-ADP对抗学习(AL)又称作生成式对抗网络(GenerativeAdversarialNetwork,GAN)。GAN作为一种生成模合成数据x'x'orGG(z)Realorfake?真实数据x随机噪声z判别
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论