版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
生成对抗网络及自动驾驶应用第九章DeepLearningAndAutonomousDriving深度学习与自动驾驶应用DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第2页9.4实践项目9.1生成式对抗网络概述9.3生成对抗网络应用9.2生成式对抗网络基本理论目录ContentDeepLearningAndAutonomousDriving深度学习与自动驾驶应用第3页9.1生成式对抗网络概述什么是对抗?在射雕英雄传中,老顽童周伯通被困在桃花岛,闲的无聊,自创了左右手互搏术,左手打右手,右手打左手,双手的武功不断精进。这就是对抗在现实世界里没有左右手互搏术,但在人工智能的世界里却有,这就是GAN,中文名字:生成对抗网络。DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第4页9.1生成式对抗网络概述生成对抗网络能干啥?2018年10月,一幅肖像画在纽约佳士得以43万美元的高价被成功拍卖作者为GANDeepLearningAndAutonomousDriving深度学习与自动驾驶应用第5页9.1生成式对抗网络概述生成对抗网络能干啥?如果将GAN比作一个人的话,书法、作画、谱曲,样样都可以做到精通,就像他的名字“生成对抗网络”一样,他的诞生就是为了生成、为了创作。GAN有哪些应用?DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第6页9.1生成式对抗网络概述深度学习中常见生成式模型自编码(AE)其隐变量z是一个单值映射:z=f(x)变分自编码(VAE)其隐变量z是一个正态分布的采样生成式对抗网络(GAN)条件生成式对抗网络(CGAN)在生成器和判别器中添加某一标签信息深度卷积生成式对抗网络(DCGAN)判别器和生成器都使用了卷积神经网络(CNN)来替代GAN
中的多层感知机DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第7页9.1生成式对抗网络概述GAN起源GAN(GenerativeAdversarialNetworks),中文翻译为生成式对抗网络,是IanGoodfellow等在2014年提出的一种生成式模型。GAN的基本思想源自博弈论的二人零和博弈,由一个生成器和一个判别器构成,通过对抗学习的方式来训练.目的是估测数据样本的潜在分布并生成新的数据样本。2001年,TonyJebara在毕业论文中以最大熵形式将判别模型与生成模型结合起来联合学习2007年,ZhuowenTu提出将基于boosting分类器的判别模型与基于采样的生成模型相结合,来产生出服从真实分布的样本。2012年,JunZhu将最大间隔机制与贝叶斯模型相结合进行产生式模型的学习。2014年,IanGoodfellow等人提出生成式对抗网络,迎合了大数据需求和深度学习热潮,给出了一个大的理论框架及理论收敛性分析。起源发展DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第8页9.1生成式对抗网络概述
GAN的核心思想来源于博弈论的纳什均衡它设定参与游戏双方分别为一个生成器(Generator)和一个判别器(Discriminator),生成器的目的是尽量去学习真实的数据分布,而判别器的目的是尽量正确判别输入数据是来自真实数据还是来自生成器;为了取得游戏胜利,这两个游戏参与者需要不断优化,各自提高自己的生成能力和判别能力,这个学习优化过程就是寻找二者之间的一个纳什均衡。DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第9页9.1生成式对抗网络概述DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第10页9.4实践项目9.1生成式对抗网络概述9.3生成对抗网络应用9.2生成式对抗网络基本理论目录ContentDeepLearningAndAutonomousDriving深度学习与自动驾驶应用第11页9.2生成式对抗网络基本理论生成对抗模型的特性——博弈生成器的目标:接收随机向量,生成与真实样本尽可能相似的样本。判别器的目标:接收生成器生成的样本和真实样本,尽可能地判断两者之间的真假。纳什均衡:生成器和判别器都能得到最多的好处DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第12页9.2生成式对抗网络基本理论GAN应用的一般框架随机变量+真实数据+生成器+判别器
一般为二分类网络网络结构根据生成内容定义DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第13页9.2生成式对抗网络基本理论训练过程训练过程中,固定一方,更新另一方的网络权重,交替迭代。那么先训练谁呢?生成器学生:负责产出内容判别器老师:负责评判分数先训练判别器。1、样本直接输入到判别器之中。2、只有判别器具有一定的判断能力后,生成器的训练才有意义。DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第14页9.2生成式对抗网络基本理论使用步骤建立模型生成器和判别器网络训练过程损失函数参数学习DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第15页9.2生成式对抗网络基本理论常用:交叉熵损失函数判别器目标函数:对于真实样本,其标签值为1,那么其单个样本损失函数就是同理可得生成器输出样本的总体损失函数,判别器的目标函数定义如下其中,D(x)表示判别器输出的真实图像的概率分布,D(G(z))表示判别器输出的生成器生成图像的概率分布。
真实样本的总体损失函数是
DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第16页9.2生成式对抗网络基本理论模型总目标函数对于判别器,我们尽可能地希望其分类正确,但是对于生成器而言,我们又希望D(G(z))越接近1越好,所以GAN网络的目标函数如下所示
DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第17页9.2生成式对抗网络基本理论使用步骤GAN的主要分支-CGANCGAN--条件生成对抗网络,为了防止训练崩塌将前置条件加入输入数据。DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第18页9.2生成式对抗网络基本理论使用步骤DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第19页9.2生成式对抗网络基本理论使用步骤GAN的主要分支-DCGANDCGAN--深度卷积生成对抗网络,提出了能稳定训练的网络结构,更易于工程实现。DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第20页9.2生成式对抗网络基本理论使用步骤GAN的主要分支-CGANCGAN--条件生成对抗网络,为了防止训练崩塌将前置条件加入输入数据。DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第21页9.2生成式对抗网络基本理论使用步骤DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第22页9.4实践项目9.1生成式对抗网络概述9.3生成对抗网络应用9.2生成式对抗网络基本理论目录ContentDeepLearningAndAutonomousDriving深度学习与自动驾驶应用第23页9.3生成对抗网络应用GAN的应用
图像和视觉领域语音和语言领域其他领域作为一个具有“无限”生成能力的模型,GAN的直接应用就是建模,生成与真实数据分布一致的数据样本,GAN可以用于解决标注数据不足时的学习问题。其可以应用于:DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第24页9.3生成对抗网络应用图像和视觉领域GAN能够生成与真实数据分布一致的图像。一个典型应用是利用GAN来将一个低清模糊图像变换为具有丰富细节的高清图像。用VGG网络作为判别器,用参数化的残差网络表示生成器,实验结果如图所示,可以看到GAN生成了细节丰富的图像。DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第25页9.3生成对抗网络应用语音和语言领域用GAN来表征对话之间的隐式关联性,从而生成对话文本。用CNN作为判别器,判别器基于拟合LSTM的输出,用矩匹配来解决优化问题;在训练时,和传统更新多次判别器参数再更新一次生成器不同,需要多次更新生成器再更新CNN判别器。SeqGAN基于策略梯度来训练生成器。用GAN基于文本描述来生成图像,文本编码被作为生成器的条件输入,同时为了利用文本编码信息,也将其作为判别器特定层的额外信息输入来改进判别器,判别是否满足文本描述的准确率。DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第26页9.3生成对抗网络应用其他领域除了将GAN应用于图像和视觉、语音和语言等领域,GAN还可以与强化学习、模仿学习等相合。有人提出用MalGAN帮助检测恶意代码,用GAN生成具有对抗性的病毒代码样本,实验结果表明基于GAN的方法可以比传统基于黑盒检测模型的方法性能更好。也有人提出了一个扩展GAN的生成器,用判别器来正则化生成器而不是用一个损失函数,用国际象棋实验示例证明了所提方法的有效性。DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第27页9.3生成对抗网络应用GAN的优点和意义GAN对于生成式模型的发展具有重要的意义。GAN作为一种生成式方法,有效解决了可建立自然性解释的数据的生成难题。GAN的训练过程创新性地将两个神经网络的对抗作为训练准则并且可以使用反向传播进行训练,大大改善了生成式模型的训练难度和训练效率。GAN在生成样本的实践中,生成的样本易于人类理解。GAN除了对生成式模型的贡献,对于半监督学习也有启发。DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第28页9.3生成对抗网络应用GAN的缺陷GAN虽然解决了生成式模型的一些问题,并且对其他方法的发展具有一定的启发意义,但是GAN并不完美,它在解决已有问题的同时也引入了一些新的问题。GAN优化过程存在不稳定性,很容易陷入到一个鞍点或局部极值点上,即“崩溃模式现象”。GAN作为以神经网络为基础的生成式模型,存在神经网络类模型的一般性缺陷,即可解释性差。GAN模型需要提高延展性,尤其在处理大规模数据的时候。DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第29页9.3生成对抗网络应用GAN的发展前景GAN的研究进展表明它具有广阔的发展前景,未来研究方向可以是:如何彻底解决崩溃模式并继续优化训练过程。关于GAN收敛性和均衡点存在性的理论推断。如何将GAN与特征学习、模仿学习、强化学习等技术更好地融合,开发新的人工智能应用或者促进这些方法的发展。DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第30页9.3生成对抗网络应用GAN的应用
图像和视觉领域语音和语言领域其他领域作为一个具有“无限”生成能力的模型,GAN的直接应用就是建模,生成与真实数据分布一致的数据样本,GAN可以用于解决标注数据不足时的学习问题。其可以应用于:DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第31页9.4实践项目9.1生成式对抗网络概述9.3生成对抗网络应用9.2生成式对抗网络基本理论目录ContentThanks!DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第32页第九章生成对抗网络谢谢!本章总结与答疑强化学习理论及自动驾驶应用实践第十章DeepLearningAndAutonomousDriving深度学习与自动驾驶应用DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第34页10.4策略梯度强化学习方法10.1强化学习概述10.3表格型强化学习方法10.2强化学习基础理论10.5实践项目目录ContentDeepLearningAndAutonomousDriving深度学习与自动驾驶应用第35页10.1强化学习概述机器学习回顾无监督学习监督学习机器学习分类回归……聚类……DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第36页10.1强化学习概述机器学习与其他机器学习的关系DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第37页10.1强化学习概述机器学习系统两部分三要素环境智能体状态/观测值动作奖励DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第38页10.1强化学习概述MountainCar环境:整个游戏智能体:小车动作:向左施力、向右施力、不施力奖励信号:是否到达右侧山峰旗帜处状态:小车的位置MountainCar两部分三要素环境智能体状态/观测值动作奖励DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第39页10.1强化学习概述强化学习目标智能体唯一目标:最大化长期总收益策略价值函数价值函数环境建模(可选)DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第40页10.1强化学习概述监督学习玩MountainCar神经网络各方向施力的概率反向传播在MountainCar中,无法定义正确动作的标签。即使定义了标签,数据之间的序贯性也使得模型难以训练DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第41页10.1强化学习概述强化学习玩MountainCar右施力右施力右施力不施力右施力不施力左施力左施力胜利右施力左施力左施力不施力右施力失败左施力左施力不施力右施力右施力右施力失败右施力右施力左施力右施力左施力不施力右施力胜利可能的序列:让智能体尝试游玩,对状态、动作进行采样,游戏结束后对每个动作进行奖惩DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第42页10.1强化学习概述强化学习面临的问题右施力右施力右施力不施力右施力不施力左施力左施力胜利右施力左施力左施力不施力右施力失败左施力左施力不施力右施力右施力右施力失败右施力右施力左施力右施力左施力不施力右施力胜利可能的序列:1.输入的数据间具有强烈的序贯性2.训练过程中存在奖励延迟现象DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第43页10.1强化学习概述强化学习学习方式探索与利用旧饭店吃好吃的探索新饭店优秀的探店博主应用层DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第44页10.1强化学习概述按环境模型分类环境建模(可选)基于模型无模型1.动态规划2.…1.Q-learning2.DQN3.…DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第45页10.1强化学习概述按学习目标分类对智能体的训练可以分为基于价值和基于策略策略价值函数价值函数DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第46页10.1强化学习概述按学习目标分类确定性策略随机性策略DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第47页10.1强化学习概述强化学习分类强化学习有模型无模型基于价值基于策略动态规划……Q-learning……策略梯度……DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第48页10.2强化学习基础理论马尔可夫过程(MP)马尔科夫性质:一个随机过程在给定现在状态和所有过去状态的情况下,其未来状态的条件概率分布仅依赖于当前状态马尔科夫过程:一个满足马尔科夫性质的随机过程。其未来的转移和过去是独立的DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第49页10.2强化学习基础理论机器人回收问题回收机器人状态高电平低电平动作搜索等待充电DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第50页10.2强化学习基础理论马尔可夫决策过程(MDP)
p=1r=0a=充电高低a=搜索p=1-βr=-3p=βr=1a=等待p=1r=-1a=搜索p=αr=1p=1-αr=1a=等待p=1r=-1sas’P(s’|s,a)R(s,a,s’)高搜索高α1高搜索低1-α1低搜索高1-β-3低搜索低β1高等待高1-1高等待低0-1低等待高0-1低等待低1-1低充电高10低充电低00状态转移过程折扣累计回报
DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第51页10.2强化学习基础理论值函数状态值函数动作值函数s0(r1,s1)(r3,s3)s0(r2,s2)(r4,s4)
DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第52页10.2强化学习基础理论有模型方法α与β均为已知参数,问题的全局信息已知。智能体无需与环境进行互动。此时问题为一动态规划问题,可以很方便求解。通过策略迭代方法或值迭代方法求解状态值函数V,从而获得最优解。有模型强化学习策略评估策略改善动态规划DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第53页10.2强化学习基础理论动态规划障碍物R:-1终点R:1/people/karpathy/reinforcejs/gridworld_dp.htmlDeepLearningAndAutonomousDriving深度学习与自动驾驶应用第54页10.2强化学习基础理论动态规划策略评估策略更新DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第55页10.2强化学习基础理论动态规划策略评估策略更新DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第56页10.2强化学习基础理论动态规划算法收敛优点缺点1.难以处理连续动作与连续状态问题2.需要环境模型完全已知,这在实践中几乎无法做到1.在数学上可以精确表达与分析2.处理小规模问题时,表现稳定且收敛速度较快DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第57页10.3表格型强化学习方法无模型方法p=1r=0a=充电高低a=搜索p=1-βr=-3p=βr=1a=等待p=1r=-1a=搜索p=αr=1p=1-αr=1a=等待p=1r=-1α与β均为未知参数,这时需要智能体与环境进行交互,从而选择合适的策略使得奖励最大化无模型强化学习
DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第58页10.3表格型强化学习方法表格型思想搜索等待充电高000低000Q表格状态值函数动作值函数DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第59页10.3表格型强化学习方法蒙特卡洛思想
累计折扣收益累计折扣收益期望近似状态值函数蒙特卡洛方法难以应用于无终止的问题,但其思想可以与其他方法结合DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第60页10.3表格型强化学习方法时序差分(TD)蒙特卡洛方法
时序差分法TD(0)
DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第61页10.3表格型强化学习方法基于时序差分法的Sarsa算法时序差分法TD(0)
Sarsa算法
TDtargetSarsa算法需要用到s,a,r,s’,a’五个参数,故名SarsaTDerrorDeepLearningAndAutonomousDriving深度学习与自动驾驶应用第62页10.3表格型强化学习方法基于时序差分法的Q-learningQ-learningSarsa算法
异策略off-policy相较于Sarsa,Q-learing更具有试探性
同策略on-policyDeepLearningAndAutonomousDriving深度学习与自动驾驶应用第63页10.3表格型强化学习方法寻路问题
DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第64页10.3表格型强化学习方法寻路问题
【解】可将该网格游戏看成是一个马尔科夫决策过程,其中状态空间包括当前位置、陷阱位置、目标位置以及空位置,并将两个陷阱位置设为同一个状态,决策空间包括上下左右四个动作,分别用0,1,2,3表示,如下图所示。
DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第65页10.3表格型强化学习方法寻路问题(Sarsa)
第1次迭代:设置初始位置的状态动作值函数取值均为0,如下表所示:
DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第66页10.3表格型强化学习方法寻路问题(Sarsa)
DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第67页10.3表格型强化学习方法寻路问题(Sarsa)
DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第68页10.3表格型强化学习方法寻路问题(Sarsa)
DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第69页10.3表格型强化学习方法寻路问题算法结果DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第70页10.3表格型强化学习方法值函数近似替代方法表格型Q函数线性Q函数非线性Q函数深度学习Q函数简单复杂
TDerror损失函数最小化Sarsa算法
DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第71页10.3表格型强化学习方法DQN目标函数经验回放机制网络设计
预测网络目标网络
DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第72页10.3表格型强化学习方法DQNQ表格神经网络DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第73页10.3表格型强化学习方法DQNDeepLearningAndAutonomousDriving深度学习与自动驾驶应用第74页10.3表格型强化学习方法DDQN通过Q-eval选取最大Q值对应动作根据动作计算Q-target目标函数:Q-eval–Q-target
DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第75页10.3表格型强化学习方法DDQNDeepLearningAndAutonomousDriving深度学习与自动驾驶应用第76页10.3表格型强化学习方法DRQNReplayMemory经验池存储内存有限LSTM记忆DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第77页10.3策略梯度强化学习方法基于策略的强化学习方法Q-learning
由价值函数产生策略基于策略
价值不同采取动作概率不同DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第78页10.3策略梯度强化学习方法随机性策略与确定性策略随机性策略确定性策略输出动作概率分布输出确定动作DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第79页10.3策略梯度强化学习方法随机性策略方法梯度下降法蒙特卡洛思想目标函数
评价函数策略梯度定理
评价函数动作值函数
DeepLearningAndAutonomousDriving深度学习与自动驾驶应用第80页10.3策略梯度强化学习方法Actor-Critic蒙特卡洛梯度下降法蒙特卡洛方法带来较大的噪声和误差,无法相对准确地描述动作值函数
演员评论家算法
ActorCriticDeepLearningAndAutonomousDriving深度学习与自动驾驶
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 物流仓库经理年度述职报告
- 智慧教室装修方案
- 从业人员安全生产教育培训
- 孕期糖尿病饮食和护理
- 老年人糖尿病病人的护理
- 龋齿病的发展过程图解
- 2.3.1物质的量的单位-摩尔 课件高一上学期化学人教版(2019)必修第一册
- 吉林省2024七年级数学上册第1章有理数1.10有理数的除法课件新版华东师大版
- 吉林省2024七年级数学上册第1章有理数全章整合与提升课件新版华东师大版
- 花手帕说课稿
- 贸易居间费合同范本
- 五年级上册道德与法治第7课《中华民族一家亲》第2课时说课稿
- 部编版道德与法治七年级上册每课教学反思
- 人教新课标四年级上册数学《06用“五入”法求商》说课稿
- 人教版二年级数学上册第六单元《表内乘法(二)》说课稿(含14课时)
- CJT 482-2015 城市轨道交通桥梁球型钢支座
- 我国不锈钢管行业现状分析
- 2024年关于印发全国社会心理服务体系建设试点5篇
- 维修水池合同协议书
- 2024年中级经济师考试题库含答案(完整版)
- 高效餐饮服务承诺
评论
0/150
提交评论