第10章-强化学习

上传人：y*** IP属地：湖南上传时间：2023-06-02 格式：PPT 页数：89 大小：1.51MB 积分：20 举报 版权申诉

已阅读5页，还剩84页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

章2021/5/91强化学习史忠植内容提要引言强化学习模型动态规划蒙特卡罗方法时序差分学习Q学习强化学习中的函数估计应用2021/5/92强化学习史忠植引言

人类通常从与外界环境的交互中学习。所谓强化（reinforcement）学习是指从环境状态到行为映射的学习，以使系统行为从环境中获得的累积奖励值最大。在强化学习中，我们设计算法来把外界环境转化为最大化奖励量的方式的动作。我们并没有直接告诉主体要做什么或者要采取哪个动作,而是主体通过看哪个动作得到了最多的奖励来自己发现。主体的动作的影响不只是立即得到的奖励，而且还影响接下来的动作和最终的奖励。试错搜索(trial-and-errorsearch)和延期强化(delayedreinforcement)这两个特性是强化学习中两个最重要的特性。

2021/5/93强化学习史忠植引言

强化学习技术是从控制理论、统计学、心理学等相关学科发展而来，最早可以追溯到巴甫洛夫的条件反射实验。

但直到上世纪八十年代末、九十年代初强化学习技术才在人工智能、机器学习和自动控制等领域中得到广泛研究和应用，并被认为是设计智能系统的核心技术之一。特别是随着强化学习的数学基础研究取得突破性进展后，对强化学习的研究和应用日益开展起来，成为目前机器学习领域的研究热点之一。2021/5/94强化学习史忠植引言强化思想最先来源于心理学的研究。1911年Thorndike提出了效果律（LawofEffect）：一定情景下让动物感到舒服的行为，就会与此情景增强联系（强化），当此情景再现时，动物的这种行为也更易再现；相反，让动物感觉不舒服的行为，会减弱与情景的联系，此情景再现时，此行为将很难再现。换个说法，哪种行为会“记住”，会与刺激建立联系，取决于行为产生的效果。动物的试错学习,包含两个含义：选择（selectional）和联系（associative），对应计算上的搜索和记忆。所以，1954年，Minsky在他的博士论文中实现了计算上的试错学习。同年，Farley和Clark也在计算上对它进行了研究。强化学习一词最早出现于科技文献是1961年Minsky的论文“StepsTowardArtificialIntelligence”，此后开始广泛使用。1969年，Minsky因在人工智能方面的贡献而获得计算机图灵奖。2021/5/95强化学习史忠植引言1953到1957年，Bellman提出了求解最优控制问题的一个有效方法：动态规划（dynamicprogramming）Bellman于1957年还提出了最优控制问题的随机离散版本，就是著名的马尔可夫决策过程（MDP,Markovdecisionprocesse），1960年Howard提出马尔可夫决策过程的策略迭代方法，这些都成为现代强化学习的理论基础。1972年，Klopf把试错学习和时序差分结合在一起。1978年开始，Sutton、Barto、Moore，包括Klopf等对这两者结合开始进行深入研究。1989年Watkins提出了Q-学习[Watkins1989]，也把强化学习的三条主线扭在了一起。1992年，Tesauro用强化学习成功了应用到西洋双陆棋（backgammon）中，称为TD-Gammon。2021/5/96强化学习史忠植内容提要引言强化学习模型动态规划蒙特卡罗方法时序差分学习Q学习强化学习中的函数估计应用2021/5/97强化学习史忠植主体强化学习模型i:inputr:rewards:statea:action状态sisi+1ri+1奖励ri环境动作

aia0a1a2s0s1s2s32021/5/98强化学习史忠植描述一个环境（问题）Accessiblevs.inaccessibleDeterministicvs.non-deterministicEpisodicvs.non-episodicStaticvs.dynamicDiscretevs.continuousThemostcomplexgeneralclassofenvironmentsareinaccessible,non-deterministic,non-episodic,dynamic,andcontinuous.2021/5/99强化学习史忠植强化学习问题Agent-environmentinteractionStates,Actions,RewardsTodefineafiniteMDPstateandactionsets:SandAone-step“dynamics”definedbytransitionprobabilities(MarkovProperty):rewardprobabilities:EnvironmentactionstaterewardRLAgent2021/5/910强化学习史忠植与监督学习对比ReinforcementLearning–Learnfrominteractionlearnfromitsownexperience,andtheobjectiveistogetasmuchrewardaspossible.Thelearnerisnottoldwhichactionstotake,butinsteadmustdiscoverwhichactionsyieldthemostrewardbytryingthem.RLSystemInputsOutputs(“actions”)TrainingInfo=evaluations(“rewards”/“penalties”)SupervisedLearning–Learnfromexamplesprovidedbyaknowledgableexternalsupervisor.2021/5/911强化学习史忠植强化学习要素Policy:stochasticruleforselectingactionsReturn/Reward:thefunctionoffuturerewardsagenttriestomaximizeValue:whatisgoodbecauseitpredictsrewardModel:whatfollowswhatPolicyRewardValueModelofenvironmentIsunknownIsmygoalIsIcangetIsmymethod2021/5/912强化学习史忠植在策略Π下的Bellman公式Thebasicidea:So:

Or,withouttheexpectationoperator:isthediscountrate2021/5/913强化学习史忠植Bellman最优策略公式其中：V*：状态值映射S：环境状态R：奖励函数P：状态转移概率函数：折扣因子2021/5/914强化学习史忠植马尔可夫决策过程

MARKOVDECISIONPROCESS

由四元组<S，A，R，P>定义。

环境状态集S

系统行为集合A

奖励函数R：S×A→ℛ

状态转移函数P：S×A→PD（S）

记R（s，a，s′）为系统在状态s采用a动作使环境状态转移到s′获得的瞬时奖励值；记P（s，a，s′）为系统在状态s采用a动作使环境状态转移到s′的概率。2021/5/915强化学习史忠植马尔可夫决策过程

MARKOVDECISIONPROCESS马尔可夫决策过程的本质是：当前状态向下一状态转移的概率和奖励值只取决于当前状态和选择的动作，而与历史状态和历史动作无关。因此在已知状态转移概率函数P和奖励函数R的环境模型知识下，可以采用动态规划技术求解最优策略。而强化学习着重研究在P函数和R函数未知的情况下，系统如何学习最优行为策略。2021/5/916强化学习史忠植MARKOVDECISIONPROCESSCharacteristicsofMDP:asetofstates:Sasetofactions:Aarewardfunction:R:SxARAstatetransitionfunction:T:SxA∏(S)

T(s,a,s’):probabilityoftransitionfromstos’usingactiona2021/5/917强化学习史忠植马尔可夫决策过程

MARKOVDECISIONPROCESS2021/5/918强化学习史忠植MDPEXAMPLE:TransitionfunctionStatesandrewardsBellman

Equation:(Greedypolicyselection)2021/5/919强化学习史忠植MDPGraphicalRepresentationβ,α:T(s,action,s’)SimilaritytoHiddenMarkovModels(HMMs)2021/5/920强化学习史忠植ReinforcementLearning

…DeterministictransitionsStochastictransitionsistheprobabilitytoreachingstatejwhentakingactionainstateistart3211234+1-1Asimpleenvironmentthatpresentstheagentwithasequentialdecisionproblem:Movecost=0.04(Temporal)creditassignmentproblemsparsereinforcementproblemOfflinealg:actionsequencesdeterminedexanteOnlinealg:actionsequencesisconditionalonobservationsalongtheway;Importantinstochasticenvironment(e.g.jetflying)2021/5/921强化学习史忠植ReinforcementLearning

…M=0.8indirectionyouwanttogo0.2inperpendicular0.1left0.1rightPolicy:mappingfromstatestoactions3211234+1-10.7053211234+1-1

0.8120.762

0.868

0.912

0.660

0.655

0.611

0.388Anoptimalpolicyforthestochasticenvironment:utilitiesofstates:EnvironmentObservable(accessible):perceptidentifiesthestatePartiallyobservableMarkovproperty:Transitionprobabilitiesdependonstateonly,notonthepathtothestate.Markovdecisionproblem(MDP).PartiallyobservableMDP(POMDP):perceptsdoesnothaveenoughinfotoidentifytransitionprobabilities.2021/5/922强化学习史忠植动态规划DynamicProgramming动态规划(dynamicprogramming)的方法通过从后继状态回溯到前驱状态来计算赋值函数。动态规划的方法基于下一个状态分布的模型来接连的更新状态。强化学习的动态规划的方法是基于这样一个事实：对任何策略π和任何状态s，有(10.9)式迭代的一致的等式成立π(a｜s)是给定在随机策略π下状态s时动作a的概率。π(s→s'｜a)是在动作a下状态s转到状态s'的概率。这就是对Vπ的Bellman(1957)等式。2021/5/923强化学习史忠植动态规划

DynamicProgramming-ProblemAdiscrete-timedynamicsystemStates{1,…,n}+terminationstate0ControlU(i)TransitionProbabilitypij(u)AccumulativecoststructurePolicies2021/5/924强化学习史忠植FiniteHorizonProblemInfiniteHorizonProblemValueIteration动态规划

DynamicProgramming–IterativeSolution

2021/5/925强化学习史忠植动态规划中的策略迭代/值迭代policyevaluationpolicyimprovement“greedification”PolicyIterationValueIteration2021/5/926强化学习史忠植动态规划方法TTTTTTTTTTTTT2021/5/927强化学习史忠植自适应动态规划(ADP)Idea:usetheconstraints(statetransitionprobabilities)betweenstatestospeedlearning.Solve

=valuedetermination.Nomaximizationoveractionsbecauseagentispassiveunlikeinvalueiteration.usingDPLargestatespacee.g.Backgammon:1050equationsin1050variables2021/5/928强化学习史忠植ValueIterationAlgorithmANALTERNATIVEITERATION:(Singh,1993)(Importantformodelfreelearning)StopIterationwhenV(s)differslessthanє.Policydifferenceratio=<2єγ/(1-γ)

(Williams&Baird1993b)2021/5/929强化学习史忠植PolicyIterationAlgorithm

Policiesconvergefasterthanvalues.Whyfasterconvergence?

2021/5/930强化学习史忠植动态规划DynamicProgramming典型的动态规划模型作用有限，很多问题很难给出环境的完整模型。仿真机器人足球就是这样的问题，可以采用实时动态规划方法解决这个问题。在实时动态规划中不需要事先给出环境模型，而是在真实的环境中不断测试，得到环境模型。可以采用反传神经网络实现对状态泛化，网络的输入单元是环境的状态s,

网络的输出是对该状态的评价V(s)。2021/5/931强化学习史忠植没有模型的方法

ModelFreeMethodsModelsoftheenvironment:T:SxA∏(S)

andR:SxARDoweknowthem?Dowehavetoknowthem?MonteCarloMethodsAdaptiveHeuristicCriticQLearning2021/5/932强化学习史忠植蒙特卡罗方法

MonteCarloMethods

蒙特卡罗方法不需要一个完整的模型。而是它们对状态的整个轨道进行抽样，基于抽样点的最终结果来更新赋值函数。蒙特卡罗方法不需要经验，即从与环境联机的或者模拟的交互中抽样状态、动作和奖励的序列。联机的经验是令人感兴趣的，因为它不需要环境的先验知识，却仍然可以是最优的。从模拟的经验中学习功能也很强大。它需要一个模型，但它可以是生成的而不是分析的，即一个模型可以生成轨道却不能计算明确的概率。于是，它不需要产生在动态规划中要求的所有可能转变的完整的概率分布。2021/5/933强化学习史忠植MonteCarlo方法TTTTTTTTTTTTTTTTTTTT2021/5/934强化学习史忠植蒙特卡罗方法

MonteCarloMethods

Idea:HoldstatisticsaboutrewardsforeachstateTaketheaverageThisistheV(s)BasedonlyonexperienceAssumesepisodictasks(Experienceisdividedintoepisodesandallepisodeswillterminateregardlessoftheactionsselected.)Incrementalinepisode-by-episodesensenotstep-by-stepsense.2021/5/935强化学习史忠植MonteCarlo策略评价Goal:learnVp(s)

underPandRareunknowninadvanceGiven:

somenumberofepisodesunderpwhichcontainsIdea:AveragereturnsobservedaftervisitstosEvery-VisitMC:averagereturnsforeverytimesisvisitedinanepisodeFirst-visitMC:averagereturnsonlyforfirsttimesisvisitedinanepisodeBothconvergeasymptotically123452021/5/936强化学习史忠植Problem:Unvisited<s,a>pairs(problemofmaintainingexploration)Forevery<s,a>makesurethat:P(<s,a>selectedasastartstateandaction)>0(Assumptionofexploringstarts)蒙特卡罗方法

2021/5/937强化学习史忠植蒙特卡罗控制HowtoselectPolicies:(Similartopolicyevaluation)

MCpolicyiteration:PolicyevaluationusingMCmethodsfollowedbypolicyimprovement

Policyimprovementstep:greedifywithrespecttovalue(oraction-value)function2021/5/938强化学习史忠植时序差分学习

Temporal-Difference时序差分学习中没有环境模型，根据经验学习。每步进行迭代，不需要等任务完成。预测模型的控制算法，根据历史信息判断将来的输入和输出，强调模型的函数而非模型的结构。时序差分方法和蒙特卡罗方法类似，仍然采样一次学习循环中获得的瞬时奖惩反馈，但同时类似与动态规划方法采用自举方法估计状态的值函数。然后通过多次迭代学习，去逼近真实的状态值函数。2021/5/939强化学习史忠植时序差分学习

TDTTTTTTTTTTTTTTTTTTTT2021/5/940强化学习史忠植时序差分学习

Temporal-Differencetarget:theactualreturnaftertimettarget:anestimateofthereturn2021/5/941强化学习史忠植时序差分学习

(TD)Idea:DoADPbackupsonapermovebasis,notforthewholestatespace.Theorem:AveragevalueofU(i)convergestothecorrectvalue.Theorem:Ifisappropriatelydecreasedasafunctionoftimesastateisvisited(=[N[i]]),thenU(i)itselfconvergestothecorrectvalue2021/5/942强化学习史忠植TD(l)–AForwardViewTD(l)isamethodforaveragingalln-stepbackupsweightbyln-1(timesincevisitation)l-return:

Backupusingl-return:2021/5/943强化学习史忠植时序差分学习算法

TD()

Idea:updatefromthewholeepoch,notjustonstatetransition.Specialcases: =1:Least-mean-square(LMS),MontCarlo =0:TDIntermediatechoiceof(between0and1)isbest.Interplaywith…2021/5/944强化学习史忠植时序差分学习算法

TD()

算法10.1TD(0)学习算法InitializeV(s)arbitrarily,πtothepolicytobeevaluatedRepeat(foreachepisode)InitializesRepeat(foreachstepofepisode)ChooseafromsusingpolicyπderivedfromV(e.g.,ε-greedy)Takeactiona,observerr,s′

Untilsisterminal2021/5/945强化学习史忠植时序差分学习算法2021/5/946强化学习史忠植时序差分学习算法收敛性TD()Theorem:Convergesw.p.1undercertainboundariesconditions.Decreasei(t)s.t.Inpractice,oftenafixedisusedforalliandt.2021/5/947强化学习史忠植时序差分学习

TD2021/5/948强化学习史忠植Q-learningWatkins,1989在Q学习中，回溯从动作结点开始，最大化下一个状态的所有可能动作和它们的奖励。在完全递归定义的Q学习中，回溯树的底部结点一个从根结点开始的动作和它们的后继动作的奖励的序列可以到达的所有终端结点。联机的Q学习，从可能的动作向前扩展，不需要建立一个完全的世界模型。Q学习还可以脱机执行。我们可以看到，Q学习是一种时序差分的方法。2021/5/949强化学习史忠植Q-learning在Q学习中，Q是状态-动作对到学习到的值的一个函数。对所有的状态和动作：Q:(statexaction)→value对Q学习中的一步：(10.15)其中c和γ都≤1，rt+1是状态st+1的奖励。

2021/5/950强化学习史忠植Q-LearningEstimatetheQ-functionusingsomeapproximator(forexample,linearregressionorneuralnetworksordecisiontreesetc.).DerivetheestimatedpolicyasanargumentofthemaximumoftheestimatedQ-function.Allowdifferentparametervectorsatdifferenttimepoints.Letusillustratethealgorithmwithlinearregressionastheapproximator,andofcourse,squarederrorastheappropriatelossfunction.2021/5/951强化学习史忠植Q-learningQ(a,i)Directapproach(ADP)wouldrequirelearningamodel.Q-learningdoesnot:Dothisupdateaftereachstatetransition:2021/5/952强化学习史忠植ExplorationTradeoffbetweenexploitation(control)andexploration(identification)Extremes:greedyvs.randomacting (n-armedbanditmodels)Q-learningconvergestooptimalQ-valuesif*Everystateisvisitedinfinitelyoften(duetoexploration),*Theactionselectionbecomesgreedyastimeapproachesinfinity,and*Thelearningrateaisdecreasedfastenoughbutnottoofast (aswediscussedinTDlearning)2021/5/953强化学习史忠植CommonexplorationmethodsInvalueiterationinanADPagent:OptimisticestimateofutilityU+(i)Є-greedymethodNongreedyactionsGreedyactionBoltzmannexplorationExplorationfuncR+ifn<Nuo.w.2021/5/954强化学习史忠植Q-LearningAlgorithmQ学习算法InitializeQ(s,a)arbitrarilyRepeat(foreachepisode)InitializesRepeat(foreachstepofepisode)ChooseafromsusingpolicyderivedfromQ(e.g.,ε-greedy)Takeactiona,observerr,s′

Untilsisterminal2021/5/955强化学习史忠植Q-LearningAlgorithmSetForTheestimatedpolicysatisfies2021/5/956强化学习史忠植Whatistheintuition?BellmanequationgivesIfandthetrainingsetwereinfinite,thenQ-learningminimizeswhichisequivalenttominimizing2021/5/957强化学习史忠植A-Learning

Murphy,2003andRobins,2004EstimatetheA-function(advantages)usingsomeapproximator,asinQ-learning.DerivetheestimatedpolicyasanargumentofthemaximumoftheestimatedA-function.Allowdifferentparametervectorsatdifferenttimepoints.Letusillustratethealgorithmwithlinearregressionastheapproximator,andofcourse,squarederrorastheappropriatelossfunction.2021/5/958强化学习史忠植A-LearningAlgorithm

(InefficientVersion)ForTheestimatedpolicysatisfies2021/5/959强化学习史忠植DifferencesbetweenQandA-learningQ-learningAttimetwemodelthemaineffectsofthehistory,(St,,At-1)andtheactionAtandtheirinteractionOurYt-1isaffectedbyhowwemodeledthemaineffectofthehistoryintimet,(St,,At-1)

A-learningAttimetweonlymodeltheeffectsofAtanditsinteractionwith(St,,At-1)OurYt-1doesnotdependonamodelofthemaineffectofthehistoryintimet,(St,,At-1)

2021/5/960强化学习史忠植Q-LearningVs.A-LearningRelativemeritsanddemeritsarenotcompletelyknowntillnow.Q-learninghaslowvariancebuthighbias.A-learninghashighvariancebutlowbias.ComparisonofQ-learningwithA-learninginvolvesabias-variancetrade-off.2021/5/961强化学习史忠植POMDP部分感知马氏决策过程

Ratherthanobservingthestateweobservesomefunctionofthestate.Ob–Observablefunction arandomvariableforeachstates.Problem:differentstatesmaylooksimilarTheoptimalstrategymightneedtoconsiderthehistory.2021/5/962强化学习史忠植FrameworkofPOMDP

POMDP由六元组<S,A,R,P,Ω,О>定义。其中<S,A,P,R>定义了环境潜在的马尔可夫决策模型上，Ω是观察的集合，即系统可以感知的世界状态集合，观察函数О：S×A→PD（Ω）。系统在采取动作a转移到状态s′时，观察函数О确定其在可能观察上的概率分布。记为О（s′,a,o）。[1]

Ω可以是S的子集，也可以与S无关2021/5/963强化学习史忠植POMDPsWhatifstateinformation(fromsensors)isnoisy?Mostlythecase!MDPtechniquesaresuboptimal!Twohallsarenotthesame.2021/5/964强化学习史忠植POMDPs–ASolutionStrategySE:BeliefStateEstimator(CanbebasedonHMM)П:MDPTechniques2021/5/965强化学习史忠植POMDP_信度状态方法Idea:Givenahistoryofactionsandobservablevalue,wecomputeaposteriordistributionforthestatewearein(beliefstate)Thebelief-stateMDPStates:distributionoverS(statesofthePOMDP)Actions:asinPOMDPTransition:theposteriordistribution(giventheobservation)OpenProblem:Howtodealwiththecontinuousdistribution?2021/5/966强化学习史忠植TheLearningProcessofBeliefMDP2021/5/967强化学习史忠植MajorMethodstoSolvePOMDP

算法名称基本思想学习值函数Memorylesspolicies直接采用标准的强化学习算法Simplememorybasedapproaches使用k个历史观察表示当前状态UDM(UtileDistinctionMemory)分解状态，构建有限状态机模型NSM(NearestSequenceMemory)存储状态历史，进行距离度量USM(UtileSuffixMemory)综合UDM和NSM两种方法Recurrent-Q使用循环神经网络进行状态预测策略搜索Evolutionaryalgorithms使用遗传算法直接进行策略搜索Gradientascentmethod使用梯度下降（上升）法搜索2021/5/968强化学习史忠植强化学习中的函数估计RLFASubsetofstatesValueestimateastargetsV(s)GeneralizationofthevaluefunctiontotheentirestatespaceistheTDoperator.isthefunctionapproximationoperator.2021/5/969强化学习史忠植并行两个迭代过程值函数迭代过程值函数逼近过程HowtoconstructtheMfunction?Usingstatecluster,interpolation,decisiontreeorneuralnetwork?2021/5/970强化学习史忠植FunctionApproximator:

V(s)=f(s,w)Update:Gradient-descentSarsa:

ww+

a[rt+1+gQ(st+1,at+1)-Q(st,at)]wf(st,at,w)weightvectorStandardgradienttargetvalueestimatedvalueOpenProblem:Howtodesignthenon-linerFAsystemwhichcanconvergewiththeincrementalinstances?并行两个迭代过程2021/5/971强化学习史忠植Semi-MDPDiscretetimeHomogeneousdiscountContinuoustimeDiscreteeventsInterval-dependentdiscountDiscretetimeDiscreteeventsInterval-dependentdiscountAdiscrete-timeSMDPoverlaidonanMDPCanbeanalyzedateitherlevel.OneapproachtoTemporalHierarchicalRL2021/5/972强化学习史忠植Theequations2021/5/973强化学习史忠植Multi-agentMDPDistributedRLMarkovGameBestResponseEnvironmentactionstaterewardRLAgentRLAgent2021/5/974强化学习史忠植三种观点问题空间主要方法算法准则合作多agent强化学习分布、同构、合作环境交换状态提高学习收敛速度交换经验交换策略交换建议基于平衡解多agent强化学习同构或异构、合作或竞争环境极小极大-Q理性和收敛性NASH-QCE-QWoLF最佳响应多agent强化学习异构、竞争环境PHC收敛性和不遗憾性IGAGIGAGIGA-WoLF2021/5/975强化学习史忠植马尔可夫对策在n个agent的系统中，定义离散的状态集S（即对策集合G），agent动作集Ai的集合A,联合奖赏函数Ri：S×A1×…×An→ℛ和状态转移函数P：S×A1×…×An→PD（S）。

2021/5/976强化学习史忠植基于平衡解方法的强化学习OpenProblem:Nashequilibriumorotherequilibriumisenough?TheoptimalpolicyinsinglegameisNashequilibrium.2021/5/977强化学习史忠植ApplicationsofRLChecker’s[Samuel59]TD-Gammon[Tesauro92]World’sbestdownpeakelevatordispatcher[Critesatal~95]Inventorymanagement[Bertsekasetal~95]10-15%betterthanindustrystandardDynamicchannelassignment[Singh&Bertsekas,Nie&Haykin~95]OutperformsbestheuristicsintheliteratureCart-pole[Michie&Chambers68-]withbang-bangcontrolRoboticmanipulation[Grupenetal.93-]PathplanningRobotdocking[Lin93]ParkingFootball[Stone98]TetrisMultiagentRL[Tan93,Sandholm&Crites95,Sen94-,Carmel&Markovitch95-,lotsofworksince]Combinatorialoptimization:maintenance&repairControlofreasoning[Zhang&DietterichIJCAI-95]2021/5/978强化学习史忠植仿真机器人足球应用Q学习算法进行仿真机器人足球2对1训练，训练的目的是试图使主体学习获得到一种战略上的意识，能够在进攻中进行配合

2021/5/979强化学习史忠植仿真机器人足球前锋A控球，并且在可射门的区域内，但是A已经没有射门角度了；队友B也处于射门区域，并且B具有良好的射门角度。A传球给B，射门由B来完成，那么这次进攻配合就会很成功

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第10章-强化学习

文档简介

温馨提示

最新文档

评论

第10章-强化学习

文档简介

温馨提示

最新文档

评论

相关文档