人工智能介绍PPT_第1页
人工智能介绍PPT_第2页
人工智能介绍PPT_第3页
人工智能介绍PPT_第4页
人工智能介绍PPT_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

人工智能技术介绍PPT人工智能技术概述第一节深度学习与国际象棋第二节智能问答第三节深度学习与智能围棋第四节更多人机交互大战第三节目录content人工智能技术概述第一节自动化技术发展趋势自动化技术自动化技术是一门涉及学科较多、应用广泛的综合性系统工程,其对象为大规模、复杂的工程和非工程系统广义内涵包括三方面的含义:代替人体力劳动的机器人;代替或辅助人脑力劳动的程序;对人机进行协调、管理、控制和优化的智能系统研究内容包括自动控制和信息处理两方面,应用包括过程自动化、机械制造自动化、管理自动化和家庭自动化等不断提高传统行业的技术水平和市场竞争力,并与光电子、计算机、信息技术等融合和创新,不断创造和形成新的经济增长点和管理战略哲理智能科学发展趋势智能科学智能属于哲学问题,智能科学研究智能的本质和实现技术,是由脑科学、认知科学、人工智能等综合形成的交叉学科脑科学从分子水平、神经回路、行为实验研究自然智能机理,目的在于阐明人类大脑的结构与功能,以及人类行为与心理活动的物质基础认知科学是研究人类感知、学习、记忆、思维、意识等人脑心智活动过程的科学,是心理学、信息学、神经科学和自然哲学的交叉人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学自动化技术智能科学人工智能技术在科学发展过程中,在那些已经建立起来的学科之间,还存在着一些被人忽视的无人区,正是从这些领域里可能得到最大的收获。——诺伯特·维纳《控制论》,1948人工智能技术的挑战人-信息人-机器人-环境科技进步改变着我们的生活,但却使人们在信息、机器高度密集的环境中,变得更为被动和无奈。信息越来越多,甚至成为垃圾,对信息的有效组织和挖掘极度匮乏,人与信息的共生环境尚未建立。简单的体力劳动已可以被机器所替代,但脑力劳动,特别是智力尚未完全转移和扩展到机器上。需要更好地尊重、理解并满足人的各种需要,以人为本,促进人与物理时空环境的和谐发展。人工智能技术发展的特征人工智能由人类设计,为人类服务,本质为计算,基础为数据。必须体现服务人类的特点,而不应该伤害人类,特别是不应该有目的性地做出伤害人类的行为。以人为本人工智能技术发展的特征环境增强人工智能能感知环境,能产生反应,能与人交互,能与人互补。能够帮助人类做人类不擅长、不喜欢但机器能够完成的工作,而人类则适合于去做更需要创造性、洞察力、想象力的工作。人工智能技术发展的特征学习适应人工智能有适应特性,有学习能力,有演化迭代,有连接扩展。人工智能可以应对不断变化的现实环境,从而使人工智能系统在各行各业产生丰富的应用。。人机博弈棋类游戏是人类智慧的结晶,自古以来就有着广泛的爱好者群体,也产生了一代又一代的偶像级棋王。选择棋类游戏作为人工智能研究的对象,不仅是因为棋类游戏规则清晰,胜负判断一目了然,而且也更容易在爱好者群体中产生共鸣,因此人工智能研究者前赴后继投身到对不同棋类游戏的挑战中。互动环节:人机小挑战机器学习之父

机器博弈的水平实际上代表了当时计算机体系架构与计算机科学的最高水平。早在1962年,就职于IBM的阿瑟•萨缪尔就在内存仅为32k的IBM7090晶体管计算机上开发出了西洋跳棋(Checkers)AI程序,并击败了当时全美最强的西洋棋选手之一的罗伯特•尼雷,引起了轰动。值得一提的是,萨缪尔所研制的下棋程序是世界上第一个有自主学习功能的游戏程序,因此他也被后人称之为“机器学习之父”。阿瑟•萨缪尔里程碑事件1997年IBM公司“更深的蓝”(DeeperBlue)战胜世界国际象棋棋王卡斯帕罗夫,这是基于知识规则引擎和强大计算机硬件的人工智能系统的胜利2011年IBM公司的问答机器人“沃森”在美国智力问答竞赛节目中大胜人类冠军,这是基于自然语言理解和知识图谱的人工智能系统的胜利2016年谷歌公司AlphaGo战胜了围棋世界冠军李世石,2017年初AlphaGo升级版Master横扫全球60位顶尖高手,这是基于蒙特卡洛树搜索和深度学习的人工智能系统的胜利真正引起中国人广泛关注的机器博弈史上三个里程碑事件是:PART2深度学习与国际象棋机器学习人机对抗历史深蓝成功秘诀国际象棋国际象棋起源于亚洲,后由阿拉伯人传入欧洲,成为国际通行棋种,也是一项受到广泛喜爱的智力竞技运动,据称全世界有多达三亿的国际象棋爱好者,甚至在1924年曾一度被列为奥林匹克运动会正式比赛项目。国际象棋棋盘由横纵各8格、颜色一深一浅交错排列的64个小方格组成,棋子共32个,分为黑白两方,每方各16个。和8×8的西洋跳棋Checkers相比,国际象棋的状态复杂度(指从初始局面出发,产生的所有合法局面的总和)从1021上升到1046,博弈树复杂度(指从初始局面开始,其最小搜索树的所有叶子节点的总和)也从1031上升到10123。19581973198319871988198919911993人机对抗历史从1958年开始,人工智能研究者对国际象棋的挑战持续了半个多世纪:1958年名为“思考”

IBM704成为第一台能同人下国际象棋的计算机,处理速度每秒200步;1973年B.Slate和Atkin开发了国际象棋软件“CHESS4.0”,成为未来国际象棋AI程序基础;1983年,KenThompson开发了国际象棋硬件“BELLE”,达到大师水平;1987年,美国卡内基梅隆大学设计的国际象棋计算机程序“深思”(DeepThought)以每秒钟75万步的处理速度露面,其水平相当于拥有2450国际等级分的棋手;1988年,“深思”击败丹麦特级大师拉尔森;1989年,“深思”已经有6台信息处理器,每秒处理速度达到200万步,但还是在与世界棋王卡斯帕罗夫的人机大战中以0比2败北;1991年,由CHESSBASE公司研制的国际象棋计算机程序“弗里茨”(Fretz)问世;1993年,“深思”二代击败了丹麦国家队,并在与前女子世界冠军小波尔加的对抗中获胜。深蓝一战卡斯帕罗夫

1995年,IBM公司设计了全球第一台采用并行化系统、以RS/6000SP为基础、集成了总计256块处理器以及480颗专门为国际象棋对弈设计的VLSI加速芯片的国际象棋计算机“深蓝”,重达1270公斤。

1996年2月10日至17日,为了纪念首台通用计算机ENIAC诞生50周年,“深蓝”在美国费城向国际象棋世界冠军、世界排名第一的加里•卡斯帕罗夫发起了挑战。

在6局的人机对弈比赛中,“深蓝”并未占到什么便宜,棋王卡斯帕罗夫以4比2的总比分轻松获胜,但“深蓝”赢得了六场比赛中的一场胜利,这也是计算机第一次在与顶级选手的对弈中取得胜局。“深蓝”升级改造

第一次对决落败之后,IBM对“深蓝”计算机进行了升级,97型深蓝取名“更深的蓝”(DeeperBlue)。团队还丰富了象棋加速芯片中的象棋知识,使它能够识别不同的棋局,并从众多可能性中找出最佳行棋方案。“更深的蓝”每秒可检索1亿到2亿个棋局,系统能够搜寻和估算出当前局面往后的12步行棋方案,最多可达20步,而人类棋手的极限是10步。即使按照一盘棋平均走80步,每步棋可能的落子位置为35个计算,其状态复杂度和博弈树复杂度也远非超级计算机所能穷举,为了在合理的时间内完成走棋任务,必须要进行剪枝搜索。

运算能力“更深的蓝”(DeeperBlue)运算速度为每秒2亿步棋,计算能力为每秒113.8亿次浮点运算,是1996年版本的2倍,其运算能力在当时的全球超级计算机中也能排在第259位。剪枝搜索象棋知识“更深的蓝”出师告捷

1997年5月,IBM公司再次邀请加里•卡斯帕罗夫到美国纽约曼哈顿进行第二次人机大战,同样是6盘棋制比赛。

在前5局里,卡斯帕罗夫为了避免在计算力方面用人脑与“更深的蓝”进行直接较量,他采取了独特的行棋策略来对付“更深的蓝”,但是这个奇招并没有取得明显的效果,“更深的蓝”总是能够凭借准确无误的局面判断和精确的计算给出最强的应手。

最终前五局双方2.5对2.5打平,尤其是第三、第四、第五局连续三场和局,卡斯帕罗夫的助手看见他坐在房间的角落里,双手捂面,仿佛已经失去了斗志。在最后一局中,卡斯帕罗夫失去耐心,回到了“正常”的下法,在第七回合就犯了一个不可挽回的低级错误,局势急转直下,最终在第六盘决胜局中仅仅走了19步就向“更深的蓝”俯首称臣。

最终卡斯帕罗夫1胜2负3平,以2.5比3.5的总比分输给“更深的蓝”。“更深的蓝”赢得了这场备受世人瞩目的人机大战,也标志着国际象棋近2000年的发展历史走向了新时代。人机博弈胜负已明“深蓝”并不是终结,卡斯帕罗夫也没有服气。1999年,“弗里茨”升级为“更弗里茨”(DeepFritz),并在2001年击败了卡斯帕罗夫。

当今国际象棋男子等级分排名最高的选手是出生于1990年的挪威特级大师卡尔森(MagnusCarlsen),他的等级分是2863分,而至少有10款开源国际象棋引擎等级分达到了3000分以上。

人与机器的国际象棋之争已胜负分明,国际象棋领域的人机博弈也画上了句号,取而代之的是2010年开始举办的机机博弈——国际象棋引擎竞赛TCEC(ThoresenChessEngineCompetition)。加速芯片:“深蓝”的成功秘诀“深蓝”计算机在硬件上将通用计算机处理器与象棋加速芯片相结合,采用混合决策的方法,即在通用处理器上执行运算分解任务,交给象棋加速芯片并行处理复杂的棋步自动推理,然后将推理得到的可能行棋方案结果返回通用处理器,最后由通用处理器决策出最终的行棋方案。

97型深蓝与1996年相比,运算速度差不多提高了两倍,象棋加速芯片的升级功不可没。升级后的象棋加速芯片能够从棋局中抽取更多的特征,并在有限的时间内计算出当前盘面往后12步甚至20步的行棋方案,从而让“深蓝”更准确地评估盘面整体局势。知识规则引擎:“深蓝”的成功秘诀“深蓝”在软件设计上采用了超大规模知识库结合优化搜索的方法。一方面,“深蓝”存储了国际象棋100多年来70万份国际特级大师的棋谱,利用知识库在开局和残局阶段节省处理时间并得出更合理的行棋方案。

另一方面,“深蓝”采用Alpha-Beta剪枝搜索算法和基于规则的方法对棋局进行评价,通过缩小搜索空间的上界和下界提高搜索效率,同时根据棋子的重要程度、棋子的位置、棋子对的关系等特征对棋局进行更有效的评价。剪枝搜索算法示意图PART3智力问答Watson自然语言处理知识图谱自主学习Watson认知计算系统平台问世在“深蓝”之后,IBM公司又选择了一个新的领域挑战人类极限——DeepQA,不仅仅把DeepQA项目看成一个问答游戏系统,而且将其称之为认知计算系统平台。认知计算被定义为一种全新的计算模式,它包含数据分析、自然语言处理和机器学习领域的大量技术创新,能够帮助人类从大量非结构化数据中找出有用的答案。IBM公司对其寄予厚望,并用公司创始人Thomas•J•Watson的名字将这个平台命名为Watson。如果说“深蓝”只是在做非常大规模的计算,是人类数学能力的体现,那么Watson就是将机器学习、大规模并行计算、语义处理等领域整合在一个体系架构下来理解人类自然语言的尝试。Watson问答系统能力解析理解(Understanding)与用户进行交互,根据用户问题通过自然语言理解技术分析包括结构化数据和图文、音视频、图像等非结构化所有类型的数据,最终实现用户提出问题的有效应答。推理(Reasoning)通过假设生成,透过数据揭示洞察、模式和关系,将散落在各处的知识片段连接起来进行推理、分析、对比、归纳、总结和论证,从而获取深入的理解和决策的证据。学习(Learning)通过以证据为基础的学习能力,从大数据中快速提取关键信息,像人类一样学习和记忆这些知识,并可以通过专家训练,在不断与人的交互中通过经验学习来获取反馈,优化模型。

交互(interacting)通过精细的个性化分析能力,获得用户的语义、情绪等信息,进一步利用文本分析与心理语言学模型对海量数据进行深入分析,掌握用户个性特质,构建全方位用户画像,实现更加自然的互动交流。Watson研发团队全面备战IBM公司调动其全球研发团队参与到DeepQA项目中,这些团队分工极为细致,让它的各个团队都发挥出最大的效率,目标就是在2011年的综艺节目《危险边缘》(QuizShowJeopardy!)中一鸣惊人。

问答搜索:以色列海法团队负责深度开放域问答系统工程的搜索;

词语连接:日本东京团队负责在问答中将词意和词语连接;

数据支持:中国北京和上海团队则负责以不同的资源给Watson提供数据支持

算法研究:此外还有专门研究算法的团队和研究博弈下注策略的团队等。团队分工算法研究数据支持词语连接问答搜索

Watson包括90台IBM小型机服务器、360个Power750系列处理器以及IBM研发的DeepQA系统。Power750系列处理器是当时RISC(精简指令集计算机)架构中最强的处理器,可以支持Watson在不超过3秒钟的时间内得出可靠答案。

1.摄像头拍照,OCR识别文字,得到文字文本。2.提取专有名词基本信息,为其打上分类标签。7.语音合成引擎将答案文本转换成语音并播放出来,完成回答。3.提取文字结构信息,减少冗余搜索。4.

逐级分解每个问题,直到获得所有子问题的答案。5.在自身知识图谱中搜索并汇集特定实体的属性信息,实现实体属性完整勾画。6.运用算法评估可能答案,可信度最高且超过51%,执行器按下信号灯。文字识别实体抽取关系抽取问题分析答案生成判断决策回答问题Watson的工作过程Watson挑战成功最终比分成绩为Watson:$77147,Jennings:$24000,Rutter:$21600,比赛尘埃落定,人类已经和Watson相距太远。

2011年2月14日-16日,做好一切准备的Watson开始了与人类的对决。Watson在第一轮中就奠定了领先地位,但在比赛中出现了几个糟糕的回答。

比如一个美国城市类的问题,Watson的答案为多伦多。这道题的回答让人大跌眼镜,主要原因是Watson没有为答案设置边缘条件。

另一道回答奥利奥饼干是什么时候被推出的时候,几秒前人类选手Jennings回答相同问题时刚被告知“20年”错了,Watson还是继续回答“1920年”。这是因为研究团队为了简化Watson的编程,让它对其他玩家的回答“装聋作哑”,结果吃了大亏。

Watson进入商业化运营阶段如今,Watson已经被运用到超过35个国家的17个产业领域,超过7.7万名开发者参与到WatsonDeveloperCloud平台来实施他们的商业梦想,WatsonAPI的月调用量也已高达13亿次,并仍在增长。借着这次Watson人机大战的风头,2012年IBM公司的小型机占据了全球将近2/3的市场份额,Watson也于2013年开始进入商业化运营,陆续推出的相关产品:Watson相关产品Watson发现顾问(WatsonDiscoveryAdvisor)Watson参与顾问(WatsonEngagementAdvisor)Watson分析(WatsonAnalytics)Watson探索(WatsonExplorer)Watson知识工作室(WatsonKnowledgeStudio)Watson肿瘤治疗(WatsonforOncology)Watson临床试验匹配(WatsonforClinicalTrialMatching)Watson成功秘诀:自然语言处理“Jeopardy!”这类问答类节目,对于人类而言规则很简单,但是对于Watson则意味着众多挑战。

它不仅要理解主持人提问的自然语言,还需要分析这些语言是否包含讽刺、双关、修饰等,以正确判断题目的意思,并评估各种答案的可能性,给出最后的选择。

自然语言处理研究实现人与计算机之间用自然语言进行有效通信的各种理论和方法,是计算机科学与人工智能研究中的重要方向之一。

自然语言处理技术广泛应用

Watson的成功得益于自然语言处理技术多年的积累,同样也带动了这个领域进入了一个更加快速的发展阶段:2011年10月苹果公司在发布新品时集成Siri智能语音助手,把聊天问答系统带入了成熟商业化阶段;2013年谷歌公司开源Word2Vec引爆深度学习这个新的热点,机器翻译、文档摘要、关系抽取等任务不断取得重要进展,从此人工智能走向第三次高潮。苹果Siri智能语音助手谷歌公司开源Word2VecWatson成功秘诀:知识图谱

知识图谱本质上是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱中,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。可以说,知识图谱就是把异构信息连接在一起而得到的一个关系网络,提供了从“关系”的角度去分析问题的能力。

2012年谷歌公司推出知识图谱搜索服务,国内互联网公司百度和搜狗也分别推出“知心”和“知立方”来改进其搜索质量。在搜索引擎中引入知识图谱大幅的地提升和优化了搜索体验。谷歌改进知识图谱添加比较及过滤等新功能知识图谱的广泛应用知识图谱也被广泛应用于聊天机器人和问答系统中,用于辅助深度理解人类的语言和支持推理,并提升人机问答的用户体验。

此外,在金融、农业、电商、医疗健康、环境保护等垂直领域,知识图谱同样得到了广泛的应用。知识图谱问答系统金融农业电商医疗健康环保PART4围棋AlphaGo机器学习蒙特卡洛树搜索深度学习

围棋复杂度增加8*8格国际象棋的状态复杂度为1046,博弈树复杂度为10123。19*19格的围棋,其状态复杂度已上升到10172,博弈树复杂度则达到惊人的10360,因此也被视为人类在棋类人机对抗中最后的堡垒。国际象棋围棋人机对抗的尝试与探索

在很长一段时间里,静态方法成了主流研究方向,中山大学化学系教授陈志行开发的围棋博弈程序“手谈”和开源软件GNUGO在2003年以前能够在9*9围棋中达到人类5-7级水平。

2006年S.Gelly等人提出的UCT算法(UpperConfidenceBoundApplytoTree,上限置信区间算法),该算法在蒙特卡洛树搜索中使用UCB公式解决了探索和利用的平衡,并采用随机模拟对围棋局面进行评价。该程序的胜率竟然比先前最先进的蒙特卡罗扩展算法高出了几乎一倍,但它也仅能在9路围棋中偶尔战胜人类职业棋手,在19路围棋中还远远不能与人类抗衡。静态方法UCT算法陈志行手谈AlphaGo横空出世这是围棋历史上一次史无前例的突破,人工智能程序能在不让子的情况下,第一次在完整的围棋竞技中击败专业选手。AlphaGo大战樊麾2016年D.Silver等人在世界顶级科学杂志《Nature》发表文章,称被谷歌公司收购的DeepMind团队开发出AlphaGo在没有任何让子情况下,以5:0完胜欧洲围棋冠军、职业二段选手樊麾。AlphaGo系统简介监督、强化学习该系统通过对16万局人类高手棋谱中的3000万手盘面进行监督学习和强化学习;策略、价值网络使用策略网络和估值网络实现落子决策和局势评估;蒙特卡洛算法通过与蒙特卡洛树搜索算法结合,极大地改善了搜索决策的质量;

异步分布并行算法提出异步分布式并行算法,使其可运行于CPU/GPU集群上。系统AlphaGo所向披靡

2016年3月AlphaGo与李世石进行围棋人机大战,以4比1的总比分获胜;

2016年末2017年初,它以Master为帐号与中日韩数十位围棋高手快棋对决,连续60局全胜。

2017年5月在中国乌镇围棋峰会上,它与柯洁对战,以3比0的总比分获胜。围棋界公认AlphaGo的棋力已经超过人类职业围棋顶尖水平,其最新版本自我估分在4500分左右,实力水平大约在13段左右,人类选手中已然无敌。AlphaGo大战李世石Master大战聂卫平AlphaGo大战柯洁AlphaGo新技能AlphaGo通过学习大量棋谱,以及更大规模的自我对弈完成学习,这种深度学习的能力使得它能不断学习进化。AlphaGo发现了人类没有的围棋着法,初步展示了机器发现“新事物”的创造性。这意味着它的增强学习算法可以从大数据中发现新的规律和知识,为人类扩展自己的知识体系开辟了新的认知通道。AlphaGo展现了曾被认为是人类独有、计算机难以做到的“棋感直觉”这些技术使得人工智能程序初步具备了既可以考虑局部得失,又可以考虑全局态势的能力,从而具备了一种全局性“直觉”能力。深度学习发现新着法棋感知觉新技能AlphaGoZero青出于蓝

学习策略整合策略、价值网络舍弃快速走子网络引入残差结构2.舍弃快速走子网络,不再进行随机模拟,而是完全使用神经网络得到的结果替换随机模拟,从而在提升学习速率的同时,增强神经网络估值的准确性。1.AlphaGoZero将策略网络和价值网络整合在一起,使用纯粹的深度强化学习方法进行端到端的自我对弈学习,神经网络的权值完全从随机初始化开始,使用强化学习进行自我博弈和提升。3.AlphaGoZero神经网络中还引入了残差结构,可使用更深的神经网络进行特征表征提取,从而能在更加复杂的棋盘局面中进行学习。AlphaGoZero青出于蓝

AlphaGo最高需要1920块CPU和280块GPU训练,AlphaGoLee用了176块GPU和48块TPU,而AlphaGoZero仅仅使用了单机4块TPU便完成了训练任务。硬件结构

AlphaGoZero仅用3天的时间便达到了AlphaGoLee的水平,21天后达到AlphaGoMaster的水平。AlphaGoZero成功证明了在没有人类指导和经验的前提下,深度强化学习方法在围棋领域里仍然能够出色的完成指定的任务,甚至于比有人类经验知识指导时,完成的更加出色。AlphaGo成功秘诀:蒙特卡洛树搜索在机器博弈中,每步行棋方案的运算时间、堆栈空间都是有限的,只能给出局部最优解,因此2006年提出的蒙特卡洛树搜索就成为随机搜索算法的首选。应用意义它结合了随机模拟的一般性和树搜索的准确性,近年来在围棋等完全信息博弈、多人博弈及随机类博弈难题上取得了成功应用。理论上,蒙特卡洛树搜索可被用在以{状态,行动}定义并用模拟预测输出结果的任何领域。

它结合了广度优先搜索和深度优先搜索,会较好地集中到“更值得搜索的变化”(虽然不一定准确),同时可以给出一个同样不怎么准确的全局评估结果,最后随着搜索树的自动生长,可以保证在足够大的运算能力和足够长的时间后收敛到完美解。AlphaGo成功秘诀:强化学习目标:从一个已经标记的训练集中进行学习。机器学习有监督学习SupervisedLearning无监督学习UnsupervisedLearning强化学习ReinforcementLearning目标:从一堆未标记样本中发现隐藏的结构。目标:在当前行动和未来状态中获得最大回报。在边获得样例边学习的过程中,不断迭代“在当前模型的情况下,如何选择下一步的行动才对完善当前的模型最有利”的过程直到模型收敛。强化学习的广泛应用阿里巴巴公司在双11推荐场景中,使用了深度强化学习与自适应在线学习建立决策引擎,对海量用户行为以及百亿级商品特征进行实时分析,提高人和商品的配对效率,将手机用户点击率提升了10-20%。无人驾驶广告投放强化学习在机器博弈以外还有很多应用,例如无人驾驶和广告投放等。

01人机大战:深度学习算法的标志性成果最复杂(注:状态复杂度与博弈复杂度)的智力游戏:看似简单,实为复杂,具有10的170次方状态复杂空间涉及逻辑推理,形象思维,优化选择等多种人类智能(注:国际象棋只有逻辑推理,没有形象思维)02接近人类公认是人工智能领域长期以来的重大挑战03标志性国际学术界曾经普遍认为解决围棋问题需要15-20年时间04挑战为什么做围棋AI?创新性投入力度业内龙头

目前技术优势:起步早,算法新,技术强,资源雄厚最近一年专注于强化学习研究

拟于近期公布新论文和数据,并从此退出围棋AI领域GoogleDeepmind简介传统围棋AI算法—MCTS(蒙特卡洛树搜索)双人一人一步双方信息完备(棋类—完全信息,牌类—不完全信息)零和动态博弈问题计算机下棋棋类要素的数字化——恰当的数据结构棋盘、棋子、棋规(着法规则,胜负规则)用着法推演局面——博弈树展开从有利局面选择当前着法——博弈搜索局面评估——指标定义与综合展开深度为4的博弈树本方本方本方对方对方Ply1Ply3Ply4Ply2Ply0根节点为当前局面叶节点为展开终点双方轮流出手偶数层为本方奇数层为对方围棋落子蒙特卡洛数学模型及评估围棋对弈过程可以看做一个马尔科夫过程:五元组:{T,S,A(i),P(·|i,a),r(i,a)}T:决策时刻S:状态空间,S={i}A(i):可行动集合(可落子点)P(·|i,a):状态i下选择行动a的概率r(i,a):状态i下选择行动a后课获得的收益从当前局面的所有可落子点中随机(或者给胜率高的点分配更多的计算力)选择一个点落子重复以上过程直到胜负可判断为止经多次模拟后(计算越多越精确),选择胜率最大的点落子传统围棋AI算法—数学模型MCTS(蒙特卡洛树搜索)基本思想与特点:-将可能出现的状态转移过程用状态树表示-从初始状态开始重复抽样,逐步扩展树中的节点-某个状态再次被访问时,可以利用已有的结果,提高了效率-在抽样过程中可以随时得到行为的评价选择-从根节点出发自上而下地选择一个落子点扩展-向选定的点添加一个或多个子节点模拟-对扩展出的节点用蒙特卡洛方法进行模拟回溯-根据模拟结果依次向上更新祖先节点估计值13个卷积层,每层192个卷积核,每个卷积核3*3,参数个数800万+GPU3ms/步预测准确率57%PolicyNetwork(策略网络)在每个分支节点直接判断形势与Rollout随机模拟相结合,互为补充ValueNetwork(价值网络)给胜率高的点分配更多的计算力任意时间算法,计算越多越精确1、选取2、展开3、评估4、倒传MCTS(蒙特卡洛树搜索)通过随机模拟走子胜率来判定形势速度很快(1ms/盘)随机性与合理性的平衡Rollout(随机模拟走子)AlphaGo的实现原理控制宽度(250)控制深度(150)基本算法快速模拟围棋是完全信息博弈,从理论上来说可以通过暴力搜索所有可能的对弈过程来确定最优的走法PolicyNetwork策略网络:落子棋感深度神经网络的有监督学习,目标是获得在围棋盘面下的落子棋感学习职业棋手和业余高段棋手的棋谱(数十万份棋谱,上亿数量级的落子方式)把当前局面作为输入,预测下一步的走棋。它的预测不只给出最强的一手,而是对棋盘上所有可能的下一着给一个分数用PolicyNetwork作为第一感,将计算力分配到最有希望的选点分枝数从上百个减少到几个优先计算PolicyNetwork分数高的点,计算力充沛时,适当分配到其他分值较低的点PolicyNetwork—输入特征3×224248×552128×272192×132192×132128×1322048204820482048192×32192×32128×3248×523×112192×32192×32192×132192×132128×132128×27248×5248×552128×321000局部感知域权重共享特征训练卷积层+池化层模型结构13个卷积层,每层192个3*3卷积核数百万个参数训练数据KGS6d以上对局,17万,职业对局8万。训练数据量5000万+训练时间几十天运算速度GPU,3ms预测准确率57%左右互博,自我进化Agent通过和环境s的交互,选择下一步的动作a,这个动作会影响环境s,给Agent一个reward,Agent然后继续和环境交互。根据游戏结果迭代更新转移概率和评估函数神经网络结构与策略网络相同训练方法:自我对局目标:校正价值导向将策略网络权值作为初始值,自我对弈更新权值,从而提升棋力Pros:棋艺更高(win80%ofthegameswithSLpolicynetwork)Cons:走法集中,不适应MCTS多搜索范围的需求强化学习(RL)Fast-Rollout快速走子Rollout(随机模拟走子)通过随机模拟走子胜率来判定形势速度快随机性,合理性的平衡原因:1.策略网络的运行速度较慢(3ms)

快速走子在2us2.用来评估盘面。在同等时间下,模拟走子速度快乃至使用随机走子,虽然单次估值精度低,但可以多模拟几次算平均值,效果未必不好。提升棋力结构:局部特征匹配+线性回归特征:围棋专业知识ValueNetwork:胜负棋感深度神经网络的增强型学习(DeepMind独创)通过自我博弈,学习不同盘面下的胜负情况(三千万盘自我对局)获取在围棋盘面的胜负棋感(注:对每一个落子点给一个当时的快速的胜负感(估算),这个胜负估算并不是根据分析计算出来的,而是直觉)(通过AlphaGo几千万盘的训练学习得来的)形势判断:-1:白棋必胜<0:白棋优势0:双方均势>0:黑棋优势1:黑棋必胜ValueNetwork模型模型结构13个卷积层,每层192个卷积核,每个卷积核3*3数百万个参数训练数据PolicyNetwork自我对弈棋谱。3000万+特定盘面+胜负结果训练时间几十天运算速度GPU,3ms方法:在每个分支节点,使用ValueNetwork直接判断形势与Rollout随机模拟相结合,互为补充效果:职业水平,AlphaGoMCTS在对局中实时搜索Step1:基于策略网络落子,可能性大的落子拓展节点Step2:对未来走势进行评估,同时使用估值网络和快速走子,综合两者预测未来走法Step3:评估结果作为下一步走法的Q值。重新模拟。Step4:结合下一步走法的Q值和策略网络进行再一次模拟。如果出现同样走法,Q值起平均。新分数=调整后的初始分+0.5*通过模拟(策略网络+快速走棋)得到的赢棋概率+0.5*估值网络的局面评估分Step5:反复循环直到n次,或者timeout,选择被选择次数最多的走法作为下一步Put-TogetherAlphaGoZero第3天,下了490万局棋,打败老大老三战绩老三学棋过程刚开始,随机下子热衷于吃子,完全不顾死活发现了如果先占住棋盘的边和角,后面占便宜学会了如何「打劫」、「征子」懂得看「棋形」第21天,败了老二第40天,完整走过了一个人类棋手学棋的全过程棋盘/黑子/白子棋子被围起来就死规则棋士柯洁10月19日02:22一个纯净、纯粹自我学习的AlphaGo是最强的...对于AlphaGo的自我进步来讲...人类太多余了老大AlphaGoLee,2016年3月4:1打败韩国棋手李世石老二AlphaGoMaster,2017年5月3:0打败中国棋手柯洁老三AlphaGoZero,2017年10月宣布自学围棋40天,打败所有人AlphaGoZero解析人类经验由于样本空间大小的限制,往往都收敛于局部最优而不自知(或无法发现),阿法元不再被人类认知所局限,而能够发现新知识,发展新策略区别1:特征提取层采用40个残差模块,每个模块包含2个卷积层。运用残差模块提升了网络深度,更深的网络能更有效地直接从棋盘上提取特征区别2:同时训练走子策略(policy)网络和胜率值(value)网络启示深度学习训练过程需要消耗大量人类标注样本,而这对于小样本应用领域(比如医疗图像处理)是不可能办到的。所以减少样本和人类标注的方法非常重要开局和收官和专业棋手的下法并无区别,但是中盘难于理解;机器经验与人类经验有很大差别,我们又该如何去选择和利用呢?智能围棋与蒙特卡洛树搜索没有棋感直觉不行,完全依赖棋感直觉也不行直觉需要通过严格的数学模型和计算方法,对棋感直觉进行验证AlphaGo使用蒙特卡洛树搜索,对落子棋感和胜负感进行计算验证。蒙特卡洛树搜索:搜索验证基于数学期望的胜负评估模型(胜率)基于蒙特卡洛模拟进行胜负结果采样(模拟采样比直觉更可靠)根据模拟采样结果验证盘面胜负的数学期望可靠程度与采样规模相关(采样越大,离真理会更近些)蒙特卡洛模拟采样:胜负棋感验证智能围棋与神经网络谷歌的AlphaGo是深度学习算法的标志性成果;深度卷积神经网络(DeepConvolutionalNeuralNetwork,DCNN),是近年发展起来,并引起

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论