人工智能与人机博弈

上传人：1*** IP属地：广东上传时间：2023-04-20 格式：PPT 页数：49 大小：8.40MB 积分：15 举报 版权申诉

已阅读5页，还剩44页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

人工智能与人机博弈现在是1页\一共有49页\编辑于星期四自动化技术发展趋势自动化技术自动化技术是一门涉及学科较多、应用广泛的综合性系统工程，其对象为大规模、复杂的工程和非工程系统广义内涵包括三方面的含义：代替人体力劳动的机器人；代替或辅助人脑力劳动的程序；对人机进行协调、管理、控制和优化的智能系统研究内容包括自动控制和信息处理两方面，应用包括过程自动化、机械制造自动化、管理自动化和家庭自动化等不断提高传统行业的技术水平和市场竞争力，并与光电子、计算机、信息技术等融合和创新，不断创造和形成新的经济增长点和管理战略哲理现在是2页\一共有49页\编辑于星期四智能科学发展趋势智能科学智能属于哲学问题，智能科学研究智能的本质和实现技术,是由脑科学、认知科学、人工智能等综合形成的交叉学科脑科学从分子水平、神经回路、行为实验研究自然智能机理，目的在于阐明人类大脑的结构与功能，以及人类行为与心理活动的物质基础认知科学是研究人类感知、学习、记忆、思维、意识等人脑心智活动过程的科学，是心理学、信息学、神经科学和自然哲学的交叉人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学现在是3页\一共有49页\编辑于星期四自动化技术智能科学人工智能技术在科学发展过程中，在那些已经建立起来的学科之间，还存在着一些被人忽视的无人区，正是从这些领域里可能得到最大的收获。——诺伯特·维纳《控制论》，1948现在是4页\一共有49页\编辑于星期四人工智能技术的挑战人-信息人-机器人-环境科技进步改变着我们的生活，但却使人们在信息、机器高度密集的环境中，变得更为被动和无奈。信息越来越多，甚至成为垃圾，对信息的有效组织和挖掘极度匮乏，人与信息的共生环境尚未建立。简单的体力劳动已可以被机器所替代，但脑力劳动，特别是智力尚未完全转移和扩展到机器上。需要更好地尊重、理解并满足人的各种需要，以人为本，促进人与物理时空环境的和谐发展。现在是5页\一共有49页\编辑于星期四人工智能技术发展的特征人工智能由人类设计，为人类服务，本质为计算，基础为数据。必须体现服务人类的特点，而不应该伤害人类，特别是不应该有目的性地做出伤害人类的行为。以人为本现在是6页\一共有49页\编辑于星期四人工智能技术发展的特征环境增强人工智能能感知环境，能产生反应，能与人交互，能与人互补。能够帮助人类做人类不擅长、不喜欢但机器能够完成的工作，而人类则适合于去做更需要创造性、洞察力、想象力的工作。现在是7页\一共有49页\编辑于星期四人工智能技术发展的特征学习适应人工智能有适应特性，有学习能力，有演化迭代，有连接扩展。人工智能可以应对不断变化的现实环境，从而使人工智能系统在各行各业产生丰富的应用。。现在是8页\一共有49页\编辑于星期四人机博弈棋类游戏是人类智慧的结晶，自古以来就有着广泛的爱好者群体，也产生了一代又一代的偶像级棋王。选择棋类游戏作为人工智能研究的对象，不仅是因为棋类游戏规则清晰，胜负判断一目了然，而且也更容易在爱好者群体中产生共鸣，因此人工智能研究者前赴后继投身到对不同棋类游戏的挑战中。互动环节：人机小挑战现在是9页\一共有49页\编辑于星期四机器学习之父

机器博弈的水平实际上代表了当时计算机体系架构与计算机科学的最高水平。早在1962年，就职于IBM的阿瑟•萨缪尔就在内存仅为32k的IBM7090晶体管计算机上开发出了西洋跳棋（Checkers）AI程序，并击败了当时全美最强的西洋棋选手之一的罗伯特•尼雷，引起了轰动。值得一提的是，萨缪尔所研制的下棋程序是世界上第一个有自主学习功能的游戏程序，因此他也被后人称之为“机器学习之父”。阿瑟•萨缪尔现在是10页\一共有49页\编辑于星期四里程碑事件1997年IBM公司“更深的蓝”（DeeperBlue）战胜世界国际象棋棋王卡斯帕罗夫，这是基于知识规则引擎和强大计算机硬件的人工智能系统的胜利2011年IBM公司的问答机器人“沃森”在美国智力问答竞赛节目中大胜人类冠军，这是基于自然语言理解和知识图谱的人工智能系统的胜利2016年谷歌公司AlphaGo战胜了围棋世界冠军李世石，2017年初AlphaGo升级版Master横扫全球60位顶尖高手，这是基于蒙特卡洛树搜索和深度学习的人工智能系统的胜利真正引起中国人广泛关注的机器博弈史上三个里程碑事件是：现在是11页\一共有49页\编辑于星期四PART1国际象棋机器学习人机对抗历史深蓝成功秘诀现在是12页\一共有49页\编辑于星期四国际象棋国际象棋起源于亚洲，后由阿拉伯人传入欧洲，成为国际通行棋种，也是一项受到广泛喜爱的智力竞技运动，据称全世界有多达三亿的国际象棋爱好者，甚至在1924年曾一度被列为奥林匹克运动会正式比赛项目。国际象棋棋盘由横纵各8格、颜色一深一浅交错排列的64个小方格组成，棋子共32个，分为黑白两方，每方各16个。和8×8的西洋跳棋Checkers相比，国际象棋的状态复杂度（指从初始局面出发，产生的所有合法局面的总和）从1021上升到1046，博弈树复杂度（指从初始局面开始，其最小搜索树的所有叶子节点的总和）也从1031上升到10123。现在是13页\一共有49页\编辑于星期四19581973198319871988198919911993人机对抗历史从1958年开始，人工智能研究者对国际象棋的挑战持续了半个多世纪：1958年名为“思考”

IBM704成为第一台能同人下国际象棋的计算机，处理速度每秒200步；1973年B.Slate和Atkin开发了国际象棋软件“CHESS4.0”，成为未来国际象棋AI程序基础；1983年，KenThompson开发了国际象棋硬件“BELLE”，达到大师水平；1987年，美国卡内基梅隆大学设计的国际象棋计算机程序“深思”（DeepThought）以每秒钟75万步的处理速度露面，其水平相当于拥有2450国际等级分的棋手；1988年，“深思”击败丹麦特级大师拉尔森；1989年，“深思”已经有6台信息处理器，每秒处理速度达到200万步，但还是在与世界棋王卡斯帕罗夫的人机大战中以0比2败北；1991年，由CHESSBASE公司研制的国际象棋计算机程序“弗里茨”（Fretz）问世；1993年，“深思”二代击败了丹麦国家队，并在与前女子世界冠军小波尔加的对抗中获胜。现在是14页\一共有49页\编辑于星期四深蓝一战卡斯帕罗夫

1995年，IBM公司设计了全球第一台采用并行化系统、以RS/6000SP为基础、集成了总计256块处理器以及480颗专门为国际象棋对弈设计的VLSI加速芯片的国际象棋计算机“深蓝”，重达1270公斤。

1996年2月10日至17日，为了纪念首台通用计算机ENIAC诞生50周年，“深蓝”在美国费城向国际象棋世界冠军、世界排名第一的加里•卡斯帕罗夫发起了挑战。

在6局的人机对弈比赛中，“深蓝”并未占到什么便宜，棋王卡斯帕罗夫以4比2的总比分轻松获胜，但“深蓝”赢得了六场比赛中的一场胜利，这也是计算机第一次在与顶级选手的对弈中取得胜局。现在是15页\一共有49页\编辑于星期四“深蓝”升级改造

第一次对决落败之后，IBM对“深蓝”计算机进行了升级，97型深蓝取名“更深的蓝”（DeeperBlue）。团队还丰富了象棋加速芯片中的象棋知识，使它能够识别不同的棋局，并从众多可能性中找出最佳行棋方案。“更深的蓝”每秒可检索1亿到2亿个棋局，系统能够搜寻和估算出当前局面往后的12步行棋方案，最多可达20步，而人类棋手的极限是10步。即使按照一盘棋平均走80步，每步棋可能的落子位置为35个计算，其状态复杂度和博弈树复杂度也远非超级计算机所能穷举，为了在合理的时间内完成走棋任务，必须要进行剪枝搜索。

运算能力“更深的蓝”（DeeperBlue）运算速度为每秒2亿步棋，计算能力为每秒113.8亿次浮点运算，是1996年版本的2倍，其运算能力在当时的全球超级计算机中也能排在第259位。剪枝搜索象棋知识现在是16页\一共有49页\编辑于星期四“更深的蓝”出师告捷

1997年5月，IBM公司再次邀请加里•卡斯帕罗夫到美国纽约曼哈顿进行第二次人机大战，同样是6盘棋制比赛。

在前5局里，卡斯帕罗夫为了避免在计算力方面用人脑与“更深的蓝”进行直接较量，他采取了独特的行棋策略来对付“更深的蓝”，但是这个奇招并没有取得明显的效果，“更深的蓝”总是能够凭借准确无误的局面判断和精确的计算给出最强的应手。

最终前五局双方2.5对2.5打平，尤其是第三、第四、第五局连续三场和局，卡斯帕罗夫的助手看见他坐在房间的角落里，双手捂面，仿佛已经失去了斗志。在最后一局中，卡斯帕罗夫失去耐心，回到了“正常”的下法，在第七回合就犯了一个不可挽回的低级错误，局势急转直下，最终在第六盘决胜局中仅仅走了19步就向“更深的蓝”俯首称臣。

最终卡斯帕罗夫1胜2负3平，以2.5比3.5的总比分输给“更深的蓝”。“更深的蓝”赢得了这场备受世人瞩目的人机大战，也标志着国际象棋近2000年的发展历史走向了新时代。现在是17页\一共有49页\编辑于星期四人机博弈胜负已明“深蓝”并不是终结，卡斯帕罗夫也没有服气。1999年，“弗里茨”升级为“更弗里茨”（DeepFritz），并在2001年击败了卡斯帕罗夫。

当今国际象棋男子等级分排名最高的选手是出生于1990年的挪威特级大师卡尔森（MagnusCarlsen），他的等级分是2863分，而至少有10款开源国际象棋引擎等级分达到了3000分以上。

人与机器的国际象棋之争已胜负分明，国际象棋领域的人机博弈也画上了句号，取而代之的是2010年开始举办的机机博弈——国际象棋引擎竞赛TCEC（ThoresenChessEngineCompetition）。现在是18页\一共有49页\编辑于星期四加速芯片：“深蓝”的成功秘诀“深蓝”计算机在硬件上将通用计算机处理器与象棋加速芯片相结合，采用混合决策的方法，即在通用处理器上执行运算分解任务，交给象棋加速芯片并行处理复杂的棋步自动推理，然后将推理得到的可能行棋方案结果返回通用处理器，最后由通用处理器决策出最终的行棋方案。

97型深蓝与1996年相比，运算速度差不多提高了两倍，象棋加速芯片的升级功不可没。升级后的象棋加速芯片能够从棋局中抽取更多的特征，并在有限的时间内计算出当前盘面往后12步甚至20步的行棋方案，从而让“深蓝”更准确地评估盘面整体局势。现在是19页\一共有49页\编辑于星期四知识规则引擎：“深蓝”的成功秘诀“深蓝”在软件设计上采用了超大规模知识库结合优化搜索的方法。一方面，“深蓝”存储了国际象棋100多年来70万份国际特级大师的棋谱，利用知识库在开局和残局阶段节省处理时间并得出更合理的行棋方案。

另一方面，“深蓝”采用Alpha-Beta剪枝搜索算法和基于规则的方法对棋局进行评价，通过缩小搜索空间的上界和下界提高搜索效率，同时根据棋子的重要程度、棋子的位置、棋子对的关系等特征对棋局进行更有效的评价。剪枝搜索算法示意图现在是20页\一共有49页\编辑于星期四PART2智力问答Watson自然语言处理知识图谱自主学习现在是21页\一共有49页\编辑于星期四Watson认知计算系统平台问世在“深蓝”之后，IBM公司又选择了一个新的领域挑战人类极限——DeepQA，不仅仅把DeepQA项目看成一个问答游戏系统，而且将其称之为认知计算系统平台。认知计算被定义为一种全新的计算模式，它包含数据分析、自然语言处理和机器学习领域的大量技术创新，能够帮助人类从大量非结构化数据中找出有用的答案。IBM公司对其寄予厚望，并用公司创始人Thomas•J•Watson的名字将这个平台命名为Watson。如果说“深蓝”只是在做非常大规模的计算，是人类数学能力的体现，那么Watson就是将机器学习、大规模并行计算、语义处理等领域整合在一个体系架构下来理解人类自然语言的尝试。现在是22页\一共有49页\编辑于星期四Watson问答系统能力解析理解（Understanding）与用户进行交互，根据用户问题通过自然语言理解技术分析包括结构化数据和图文、音视频、图像等非结构化所有类型的数据，最终实现用户提出问题的有效应答。推理（Reasoning）通过假设生成，透过数据揭示洞察、模式和关系，将散落在各处的知识片段连接起来进行推理、分析、对比、归纳、总结和论证，从而获取深入的理解和决策的证据。学习（Learning）通过以证据为基础的学习能力，从大数据中快速提取关键信息，像人类一样学习和记忆这些知识，并可以通过专家训练，在不断与人的交互中通过经验学习来获取反馈，优化模型。

交互（interacting）通过精细的个性化分析能力，获得用户的语义、情绪等信息，进一步利用文本分析与心理语言学模型对海量数据进行深入分析，掌握用户个性特质，构建全方位用户画像，实现更加自然的互动交流。现在是23页\一共有49页\编辑于星期四Watson研发团队全面备战IBM公司调动其全球研发团队参与到DeepQA项目中，这些团队分工极为细致，让它的各个团队都发挥出最大的效率，目标就是在2011年的综艺节目《危险边缘》（QuizShowJeopardy!）中一鸣惊人。

问答搜索：以色列海法团队负责深度开放域问答系统工程的搜索；

词语连接：日本东京团队负责在问答中将词意和词语连接；

数据支持：中国北京和上海团队则负责以不同的资源给Watson提供数据支持

算法研究：此外还有专门研究算法的团队和研究博弈下注策略的团队等。团队分工算法研究数据支持词语连接问答搜索

Watson包括90台IBM小型机服务器、360个Power750系列处理器以及IBM研发的DeepQA系统。Power750系列处理器是当时RISC（精简指令集计算机）架构中最强的处理器，可以支持Watson在不超过3秒钟的时间内得出可靠答案。

现在是24页\一共有49页\编辑于星期四1.摄像头拍照，OCR识别文字，得到文字文本。2.提取专有名词基本信息，为其打上分类标签。7.语音合成引擎将答案文本转换成语音并播放出来，完成回答。3.提取文字结构信息，减少冗余搜索。4.

逐级分解每个问题，直到获得所有子问题的答案。5.在自身知识图谱中搜索并汇集特定实体的属性信息，实现实体属性完整勾画。6.运用算法评估可能答案，可信度最高且超过51%，执行器按下信号灯。文字识别实体抽取关系抽取问题分析答案生成判断决策回答问题Watson的工作过程现在是25页\一共有49页\编辑于星期四Watson挑战成功最终比分成绩为Watson:$77147，Jennings:$24000，Rutter:$21600，比赛尘埃落定，人类已经和Watson相距太远。

2011年2月14日-16日，做好一切准备的Watson开始了与人类的对决。Watson在第一轮中就奠定了领先地位，但在比赛中出现了几个糟糕的回答。

比如一个美国城市类的问题，Watson的答案为多伦多。这道题的回答让人大跌眼镜，主要原因是Watson没有为答案设置边缘条件。

另一道回答奥利奥饼干是什么时候被推出的时候，几秒前人类选手Jennings回答相同问题时刚被告知“20年”错了，Watson还是继续回答“1920年”。这是因为研究团队为了简化Watson的编程，让它对其他玩家的回答“装聋作哑”，结果吃了大亏。

现在是26页\一共有49页\编辑于星期四Watson进入商业化运营阶段如今，Watson已经被运用到超过35个国家的17个产业领域，超过7.7万名开发者参与到WatsonDeveloperCloud平台来实施他们的商业梦想，WatsonAPI的月调用量也已高达13亿次，并仍在增长。借着这次Watson人机大战的风头，2012年IBM公司的小型机占据了全球将近2/3的市场份额，Watson也于2013年开始进入商业化运营，陆续推出的相关产品：Watson相关产品Watson发现顾问（WatsonDiscoveryAdvisor）Watson参与顾问（WatsonEngagementAdvisor）Watson分析（WatsonAnalytics）Watson探索（WatsonExplorer）Watson知识工作室（WatsonKnowledgeStudio）Watson肿瘤治疗（WatsonforOncology）Watson临床试验匹配（WatsonforClinicalTrialMatching）现在是27页\一共有49页\编辑于星期四Watson成功秘诀：自然语言处理

“Jeopardy!”这类问答类节目，对于人类而言规则很简单，但是对于Watson则意味着众多挑战。

它不仅要理解主持人提问的自然语言，还需要分析这些语言是否包含讽刺、双关、修饰等，以正确判断题目的意思，并评估各种答案的可能性，给出最后的选择。

自然语言处理研究实现人与计算机之间用自然语言进行有效通信的各种理论和方法，是计算机科学与人工智能研究中的重要方向之一。

现在是28页\一共有49页\编辑于星期四自然语言处理技术广泛应用

Watson的成功得益于自然语言处理技术多年的积累，同样也带动了这个领域进入了一个更加快速的发展阶段：

2011年10月苹果公司在发布新品时集成Siri智能语音助手，把聊天问答系统带入了成熟商业化阶段；2013年谷歌公司开源Word2Vec引爆深度学习这个新的热点，机器翻译、文档摘要、关系抽取等任务不断取得重要进展，从此人工智能走向第三次高潮。苹果Siri智能语音助手谷歌公司开源Word2Vec现在是29页\一共有49页\编辑于星期四Watson成功秘诀：知识图谱

知识图谱本质上是一种基于图的数据结构，由节点（Point）和边（Edge）组成。在知识图谱中，每个节点表示现实世界中存在的“实体”，每条边为实体与实体之间的“关系”。可以说，知识图谱就是把异构信息连接在一起而得到的一个关系网络，提供了从“关系”的角度去分析问题的能力。

2012年谷歌公司推出知识图谱搜索服务，国内互联网公司百度和搜狗也分别推出“知心”和“知立方”来改进其搜索质量。在搜索引擎中引入知识图谱大幅的地提升和优化了搜索体验。谷歌改进知识图谱添加比较及过滤等新功能现在是30页\一共有49页\编辑于星期四知识图谱的广泛应用知识图谱也被广泛应用于聊天机器人和问答系统中，用于辅助深度理解人类的语言和支持推理，并提升人机问答的用户体验。

此外，在金融、农业、电商、医疗健康、环境保护等垂直领域，知识图谱同样得到了广泛的应用。知识图谱问答系统金融农业电商医疗健康环保现在是31页\一共有49页\编辑于星期四PART3围棋AlphaGo机器学习蒙特卡洛树搜索深度学习现在是32页\一共有49页\编辑于星期四

围棋复杂度增加8*8格国际象棋的状态复杂度为1046，博弈树复杂度为10123。

19*19格的围棋，其状态复杂度已上升到10172，博弈树复杂度则达到惊人的10360，因此也被视为人类在棋类人机对抗中最后的堡垒。国际象棋围棋现在是33页\一共有49页\编辑于星期四人机对抗的尝试与探索

在很长一段时间里，静态方法成了主流研究方向，中山大学化学系教授陈志行开发的围棋博弈程序“手谈”和开源软件GNUGO在2003年以前能够在9*9围棋中达到人类5-7级水平。

2006年S.Gelly等人提出的UCT算法（UpperConfidenceBoundApplytoTree，上限置信区间算法），该算法在蒙特卡洛树搜索中使用UCB公式解决了探索和利用的平衡，并采用随机模拟对围棋局面进行评价。该程序的胜率竟然比先前最先进的蒙特卡罗扩展算法高出了几乎一倍，但它也仅能在9路围棋中偶尔战胜人类职业棋手，在19路围棋中还远远不能与人类抗衡。静态方法UCT算法陈志行手谈现在是34页\一共有49页\编辑于星期四AlphaGo横空出世这是围棋历史上一次史无前例的突破，人工智能程序能在不让子的情况下，第一次在完整的围棋竞技中击败专业选手。AlphaGo大战樊麾2016年D.Silver等人在世界顶级科学杂志《Nature》发表文章，称被谷歌公司收购的DeepMind团队开发出AlphaGo在没有任何让子情况下，以5:0完胜欧洲围棋冠军、职业二段选手樊麾。现在是35页\一共有49页\编辑于星期四AlphaGo系统简介监督、强化学习该系统通过对16万局人类高手棋谱中的3000万手盘面进行监督学习和强化学习；策略、价值网络使用策略网络和估值网络实现落子决策和局势评估；蒙特卡洛算法通过与蒙特卡洛树搜索算法结合，极大地改善了搜索决策的质量；

异步分布并行算法提出异步分布式并行算法，使其可运行于CPU/GPU集群上。系统现在是36页\一共有49页\编辑于星期四AlphaGo所向披靡

2016年3月AlphaGo与李世石进行围棋人机大战，以4比1的总比分获胜；

2016年末2017年初，它以Master为帐号与中日韩数十位围棋高手快棋对决，连续60局全胜。

2017年5月在中国乌镇围棋峰会上，它与柯洁对战，以3比0的总比分获胜。围棋界公认AlphaGo的棋力已经超过人类职业围棋顶尖水平，其最新版本自我估分在4500分左右，实力水平大约在13段左右，人类选手中已然无敌。AlphaGo大战李世石Master大战聂卫平AlphaGo大战柯洁现在是37页\一共有49页\编辑于星期四AlphaGo新技能AlphaGo通过学习大量棋谱，以及更大规模的自我对弈完成学习，这种深度学习的能力使得它能不断学习进化。AlphaGo发现了人类没有的围棋着法，初步展示了机器发现“新事物”的创造性。这意味着它的增强学习算法可以从大数据中发现新的规律和知识，为人类扩展自己的知识体系开辟了新的认知通道。AlphaGo展现了曾被认为是人类独有、计算机难以做到的“棋感直觉”这些技术使得人工智能程序初步具备了既可以考虑局部得失，又可以考虑全局态势的能力，从而具备了一种全局性“直觉”能力。深度学习发现新着法棋感知觉新技能现在是38页\一共有49页\编辑于星期四

AlphaGoZero青出于蓝

学习策略整合策略、价值网络舍弃快速走子网络引入残差结构2.舍弃快速走子网络，不再进行随机模拟，而是完全使用神经网络得到的结果替换随机模拟，从而在提升学习速率的同时，增强神经网络估值的准确性。1.AlphaGoZero将策略网络和价值网络整合在一起，使用纯粹的深度强化学习方法进行端到端的自我对弈学习，神经网络的权值完全从随机初始化开始，使用强化学习进行自我博弈和提升。3.AlphaGoZero神经网络中还引入了残差结构，可使用更深的神经网络进行特征表征提取，从而能在更加复杂的棋盘局面中进行学习。现在是39页\一共有49页\编辑于星期四

AlphaGoZero青出于蓝

AlphaGo最高需要1920块CPU和280块GPU训练，AlphaGoLee用了176块GPU和48块TPU，而AlphaGoZero仅仅使用了单机4块TPU便完成了训练任务。硬件结构

AlphaGoZero仅用3天的时间便达到了AlphaGoLee的水平，21天后达到AlphaGoMaster的水平。AlphaGoZero成功证明了在没有人类指导和经验的前提下，深度强化学习方法在围棋领域里仍然能够出色的完成指定的任务，甚至于比有人类经验知识指导时，完成的更加出色。现在是40页\一共有49页\编辑于星期四

AlphaGo成功秘诀：蒙特卡洛树搜索在机器博弈中，每步行棋方案的运算时间、堆栈空间都是有限的，只能给出局部最优解，因此2006年提出的蒙特卡洛树搜索就成为随机搜索算法的首选。应用意义它结合了随机模拟的一般性和树搜索的准确性，近年来在围棋等完全信息博弈、多人博弈及随机类博弈难题上取得了成功应用。理论上，蒙特卡洛树搜索可被用在以{状态，行动}定义并用模拟预测输出结果的任何领域。

它结合了广度优先搜索和深度优先搜索，会较好地集中到“更值得搜索的变化”（虽然不一定准确），同时可以给出一个同样不怎么准确的全局评估结果，最后随着搜索树的自动生长，可以保证在足够大的运算能力和足够长的时间后收敛到完美解。现在是41页\一共有49页\编辑于星期四AlphaGo成功秘诀：强化学习目标：从一个已经标记的训练集中进行学习。机器学习有监督学习SupervisedLearning无监督学习UnsupervisedLearning强化学习ReinforcementLearning目标：从一堆未标记样本中发现隐藏的结构。目标：在当前行动和未来状态中获得最大回报。在边获得样例边学习的过程中，不断迭代“在当前模型的情况下，如何选择下一步的行动才对完善当前的模型最有利”的过程直到模型收敛。现在是42页\一共有49页\编辑于星期四强化学习的广泛应用阿里巴巴公司在双11推荐场景中，使用了深度强化学习与自适应在线学习建立决策引擎，对海量用户行为以及百亿级商品特征进行实时分析，提高人和商品的配对效率，将手机用户点击率提升了10-20%。无人驾驶广告投放强化学习在机器博弈以外还有很多应用，例如无人驾驶和广告投放等。

现

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

人工智能与人机博弈

文档简介

温馨提示

最新文档

评论

人工智能与人机博弈

文档简介

温馨提示

最新文档

评论

相关文档