阿尔法元-每一次它都变得更聪明_第1页
阿尔法元-每一次它都变得更聪明_第2页
阿尔法元-每一次它都变得更聪明_第3页
阿尔法元-每一次它都变得更聪明_第4页
阿尔法元-每一次它都变得更聪明_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

-精选财经经济类资料- -最新财经经济资料-感谢阅读- 1 阿尔法元: 每一次它都变得更聪明 阿尔法元通过与自身对弈实现了 自身能力的提升,每一次它都变得更聪 明,每一次棋局也更有挑战性 中国论文网 /2/view-13005264.htm 在金庸的小说射雕英雄传里, 周伯通“左手画圆,右手画方” ,左手攻 击右手,右手及时反搏,自娱自乐,终 无敌于天下。这个桥段着实留在一代人 的记忆中。 现实世界中,亦有这么一个“幼 童”,他没见过一个棋谱,也没有得到 一个人指点,从零开始,自娱自乐,自 己参悟,用了仅仅 40 天,便称霸围棋 武林。 这个“ 幼童” ,叫阿尔法元 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 2 (AlphaGo Zero) ,就是今年 5 月在乌镇 围棋峰会上打败了人类第一高手柯洁的 阿尔法狗强化版 AlphaGo Master 的同门 “师弟”。不过,这个遍读人类几乎所有 棋谱、以 30 打败人类第一高手的师 兄,在“师弟 ”阿尔法元从零自学第 21 天后,便被其击败。 10 月 19 日,一手创造了 AlphaGo 神话的谷歌 DeepMind 团队在 Nature 杂志上发表重磅论文 Mastering the game of Go without human knowledge,介绍了团队最新研究成 果阿尔法元的出世,引起业内轰动。 虽师出同门,但是师兄弟的看家本领却 有本质的差别。 “过去所有版本的 AlphaGo 都从 利用人类数据进行培训开始,它们被告 知人类高手在这个地方怎么下,在另一 个地方又怎么下。 ” DeepMind 阿尔法狗 项目负责人 David Silver 博士在一段采 访中介绍, “而阿尔法元不使用任何人类 数据,完全是自我学习,从自我对弈中 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 3 实践。 ” David Silver 博士介绍,在他们 所设计的算法中,阿尔法元的对手,或 者叫陪练,总是被调成与其水平一致。 “所以它是从最基础的水平起步,从零 开始,从随机招式开始,但在学习过程 中的每一步,它的对手都会正好被校准 为匹配器当前水平,一开始,这些对手 都非常弱,但是之后渐渐变得越来越强 大。 ” 这种学习方式正是当今人工智能 最热门的研究领域之一强化学习 (Reinforcement learning) 。 昆山杜克大学和美国杜克大学电 子与计算机工程学教授李昕博士介绍, DeepMind 团队此次所利用的一种新的 强化学习方式,是从一个对围棋没有任 何知识的神经网络开始,然后与一种强 大的搜索算法相结合, ”简单地解释就是, 它开始不知道该怎么做,就去尝试,尝 试之后,看到了结果,若是正面结果, 就知道做对了,反之,就知道做错了, -精选财经经济类资料- -最新财经经济资料-感谢阅读- 4 这就是它自我学习的方法。 ” 这一过程中,阿尔法元成为自己 的“老师”,神经网络不断被调整更新, 以评估预测下一个落子位置以及输赢, 更新后的神经网络又与搜索算法重新组 合,进而创建一个新的、更强大的版本, 然而再次重复这个过程,系统性能经过 每一次迭代得到提高,使得神经网络预 测越来越准确,阿尔法元也越来越强大。 其中值得一提的是,以前版本的 阿尔法狗通常使用预测下一步的“策略 网络(policy network) ”和评估棋局输赢 的“价值网络 ”(value network)两个神 经网络。而更为强大的阿尔法元只使用 了一个神经网络,也就是两个网络的整 合版本。 从这个意义上而言, “AlphaGo Zero”g 成“阿尔法元”,而不是字面上 的“阿尔法零 ”, “内涵更加丰富,代表了 人类认知的起点神经元。 ”李昕教授 说。 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 5 上述研究更新了人们对于机器学 习的认知。 “人们一般认为,机器学习就 是关于大数据和海量计算,但是通过阿 尔法元,我们发现,其实算法比所谓计 算或数据可用性更重要。 ”David Silver 博 士说。 李昕教授长期专注于制造业大数 据研究,他认为,这个研究最有意义的 一点在于,证明了人工智能在某些领域, 也许可以摆脱对人类经验和辅助的依赖。 “人工智能的一大难点就是,需要大量 人力对数据样本进行标注,而阿尔法元 则证明,人工智能可以通过 无监督数 据(unsupervised data) ,也就是人类 未标注的数据,来解决问题。 ” 有人畅想,类似的深度强化学习 算法,或许能更容易地被广泛应用到其 他人类缺乏了解或是缺乏大量标注数据 的领域。不过,究竟有多大实际意义, 能应用到哪些现实领域,李昕教授表示 “还前途未卜 ”, “下围棋本身是一个比较 局限的应用,人类觉得下围棋很复杂, -精选财经经济类资料- -最新财经经济资料-感谢阅读- 6 但是对于机器来说并不难。而且,下围 棋只是一种娱乐方式,不算作人们在生 活中遇到的实际问题。 ” 那么,谷歌的 AI 为什么会选择 围棋? 据报道,历史上,电脑最早掌握 的第一款经典游戏是井字游戏,这是 1952 年一位博士在读生的研究项目;随 后是 1994 年电脑程序 Chinook 成功挑 战西洋跳棋游戏;3 年后,IBM 深蓝超 级计算机在国际象棋比赛中战胜世界冠 军加里卡斯帕罗夫。 除了棋盘游戏外,IBM 的 Watson 系统在 2011 年成功挑战老牌智 力竞赛节目 Jeopardy 游戏一战成名; 2014 年,Google 自己编写的算法,学 会了仅需输入初始像素信息就能玩几十 种 Atari 游戏。 但有一项游戏仍然是人类代表着 顶尖水平,那就是围棋。谷歌 DeepMind 创始人兼 CEO Demis Hassabis 博士曾在 2016 年 AlphaGo 对 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 7 阵李世石时就做过说明,有着 3000 多 年历史的围棋是人类有史以来发明出来 的最复杂的游戏,对于人工智能来说, 这是一次最尖端的大挑战,需要直觉和 计算,要想熟练玩围棋需要将模式识别 和运筹帷幄结合。 “围棋的搜索空间是漫无边际 的比围棋棋盘要大 1 个古戈尔(数 量级单位,10 的 100 次方,甚至比宇宙 中的原子数量还要多) 。 ”因此,传统的 人工智能方法也就是“ 为所有可能的步 数建立搜索树” ,在围棋游戏中几乎无 法实现。 而打败了人类的 AlphaGo 系统的 关键则是,将围棋巨大无比的搜索空间 压缩到可控的范围之内。David Silver 博士此前曾介绍,策略网络的作用是预 测下一步,并用来将搜索范围缩小至最 有可能的那些步骤。另一个神经网络 “价值网络”(valuenetwork )则是用来 减少搜索树的深度,每走一步估算一次 游戏的赢家,而不是搜索所有结束棋局 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 8 的途径。 李昕教授对阿尔法元带来的突破 表示欣喜,但同时他也提到, “阿尔法元 证明的只是在下围棋这个游戏中,无监 督学习(unsupervised learning)比有监 督学习(supervised learning) 更优 , 但并未证明这就是最优方法,也许两者 结合的 semi-supervised learning,也就是 在不同时间和阶段,结合有监督或无监 督学习各自的优点,可以得到更优的结 果。 ” 李昕教授说,人工智能的技术还 远没有达到人们所想象的程度, “比如, 互联网登录时用的 reCAPTCHA 验证码 (图像或者文字) ,就无法通过机器学 习算法自动识别” ,他说,在某些方面, 机器人确实比人做得更好,但目前并不 能完全替换人。 “只有当科研证明,一项 人工智能技术能够解决一些实际问题和 人工痛点时,才真正算作是一个重大突 破。 ” 昆山杜克大学常务副校长、中美 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 9 科技政策和关系专家丹尼斯西蒙 (Denis Simon)博士在接受采访时表示, 阿尔法元在围棋领域的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论