2017MIT人工智能5大趋势预测_第1页
2017MIT人工智能5大趋势预测_第2页
2017MIT人工智能5大趋势预测_第3页
2017MIT人工智能5大趋势预测_第4页
2017MIT人工智能5大趋势预测_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

请务必阅读正文之后的信息披露和免责申明请务必阅读正文之后的信息披露和免责申明1海外行业报告|行业专题研究2017MIT人工智能5大趋势预测寒梅傲香春寒料峭,人工智能立夏将至春寒料峭还是春暖花开?人工智能立夏将至,看好语音识别和无人驾驶站在2017年春晓、美帝上任之际,是春寒料峭,还是春暖花开?科技是否达到了瓶颈?TMT板块又将何去何从?一系列的问题都让投资者裹足不前。我们认为TMT板块是美股的中流砥柱,也是唯一一个没有周期的板块。过去20年,像微软、惠普、IBM、甲骨文、思科等大型科技企业,透过不断的自我突破和重塑,在长江后浪推前浪的市场里得以留下来。最近10年,我们有谷歌、亚马逊、FB等公司,以独特的出。而未来10年,现在的独角兽也将雄霸天下。我们认为科技的创新才是不断推动公司业绩的引擎。我们继续看好基本面良好、技术含量高的TMT企业,如谷歌、亚马逊、英伟达、AMD和Mobileye等。证券研究报告2017年01月25日马赫人工智能立夏将至,渐渐渗透到我们生活上的各种细节。在金融、医疗、广告、安防、教育、能源等方面具有颠覆性的潜力。我们看好语音识别在生活上跟互联网生态圈的无缝衔接。而自动驾驶对于交通运输和汽车制造业的革新,更具有无法估量的经济价值。2017年人工智能5大趋势预测:强化学习蓄势待发,过度炒作揠苗助长MITTechnologyReview最近发布了2017年人工智能的五大趋势预测,包括了两种介乎监督学习和无监督学习的算法:1、正向强化学习(Positivereinforcement)和2、对抗性神经网络(Duelingneuralnetworks)。AlphaGo可说是深度强化学习技术的一个里程碑。强化学习的灵感则来自于动物学习,而计算机可通过试错法(trialanderror)来学会某些特定行为所导致的正面或负面结果,从而解决问题。生成式对抗神经网络(GAN)是由两个神经网络组成:一个网络从训练数据中学习后生成新数据,另一个网络则试图区分真实和虚假数据。这可以为计算机提供一种从未标记数据中学习的有效方法。我们认为GAN很有可能会在无监督学习还没能普及之前让计算机变得更加智能的关键所在。第三个趋势是语言学习。我们认为语音识别和语音接口,在技术和应用场景方面已经算是AI里面较为成熟的,像谷歌Home、亚马逊Echo、苹果Siri等系统。计算机通过语言与我们交流和互动,理解语言的上下文含义,将使AI系统获得全方位的实用性提升,这也是AI步入夏天的第一步。第四个趋势带我们回到国内。2017年将可能是中国开始成为人工智能主要参与者的一年。我们看到BAT在AI的布局,加上国内投资者对于AI创业公司的投资热情高涨。政府方面也在积极推动政策扶持,预计在2018年前投资约150亿美元。但我们也发现关于AI的夸张报道铺天盖地,而AI的炒作也达到了令业界人士不安的程度。我们认为这样对AI可能会造成揠苗助长的负面效果,继而导致创业公司因估值过高而步向失败及遇到投资枯竭的情况。第五个趋势就是,面对炒作我们应该深呼吸一口,冷静的看待AI行业的下一步发展。AI终极目标为模仿大脑操作,但三大难题仍需解决人工智能的最终目标是模仿人类大脑的思考和操作。现在较成熟的监督学习却不是走这个模式,而无监督学习才是人类大脑最自然的学习方式。我们认为在过去的5-10年,人工智能得以商业化和普及,主要鉴于:1)硬使用让多维计算能力提升。机器学习目前仍存在三大难题:1、需要依靠大量数据去学习;2、局限学习领域;3、数据表达方式的优化。2017年会是AI最好的时代,还是最坏的时代?不经一番寒彻骨,焉得梅花扑鼻香。风险提示:计算机能力达到瓶颈、应用场景不合适、市场过分炒作等。请务必阅读正文之后的信息披露和免责申明请务必阅读正文之后的信息披露和免责申明2海外行业报告|行业专题研究1.AI驱动,立夏将至 4 52.1.趋势一:正向强化学习(Positivereinforcement) 52.1.1.AlphaGo:真正的围棋大师Master 52.1.2.游戏中的人机互动 7.DeepMind之DeepQ-Network(DQN) 7 82.1.3.更瘦、更绿的云计算数据中心 9 9 11 112.3.2.腾讯、阿里纷纷赶上 12 132.4.1.GoogleHome:与亚马逊Echo的正面交锋 132.4.2.谷歌的Allo智能回复 162.4.3.神经机器翻译系统 18 202.6.全球AI标的一览 21图1:全球AI标的公司一览 4图1:国内AI标的公司一览 5图3:AlphaGo的神经网络 6图4:AlphaGo系统原理图解 6图5:DeepMind打造的3D训练虚拟世界 7图6:Minecraft训练界面 7图7:DQN中卷积神经网络从游戏图形输入到动作控制的示意图 7图8:DeepMind开发的3D迷宫游戏Labyrinth界面 8图9:Universe游戏环境范例 9图10:Universe环境下的GTA5自动驾驶测 9图11:数据中心PUE的机器学习测试结果 9图12:深度学习的三类学习模式 10图13:生成式对抗网络(GAN)的原理示意 10图14:DeepSpeech与苹果Dictati音识别错误率比较 11图15:DeepSpeech2用于英文和中文的深度RNN结构 11图16:百度展示人脸识别错误率已经降到2.3% 11图17:百度深度学习研究员主攻方向 11请务必阅读正文之后的信息披露和免责申明请务必阅读正文之后的信息披露和免责申明3海外行业报告|行业专题研究图18:百度的AR技术交互模式展示 12图19:神经网络在人脸识别上超过人眼 12图20:蚂蚁金服漆远介绍金融领域AI元素 13图21:蚂蚁金服漆远介绍金融领域AI应用 13图22:GoogleHome在大会里的展示 14图23:GoogleHome有7种颜色底座可供选择 14图24:GoogleHome产品宣传图 14图25:GoogleHome将和亚马逊Echo一争高下 14图26:GoogleHome2个麦克风设计 15图27:Echo的7个麦克风矩阵:远程语音识别 15图28:GoogleHome多房间支持 15图29:亚马逊Echo及无线遥控器 15图30:Siri、Allo中的谷歌助理、百度度秘提问测试对比 16图31:神经网络将问句三个单词生成3个口令 17图32:谷歌语音识别神经网络的输出示意图 17图33:神经网络将问句三个单词生成3个口令 18图34:谷歌语音识别神经网络的输出示意图 18图35:谷歌翻译、有道翻译、百度翻译实例对比 18图36:谷歌神经机器翻译系统(GNMT)翻译机制 19图37:满分6分记,人类翻译、谷歌神经翻译与PBMT的得分对比 19图38:全球AI标的 21 21图40:国内AI标的 22 23请务必阅读正文之后的信息披露和免责申明请务必阅读正文之后的信息披露和免责申明4海外行业报告|行业专题研究2016年5月18日,谷歌CEO皮查伊(Sunda会上,曾表示当时正是人工智能的春天。他希望谷歌能够依靠在机器学习和自然语言理解方面积累超过10年的技术,将AI渗透到现有的产品中,打造完善而全面的智能生态圈,提升服务质量,让人类能借助人工智能来实践更多,化不可能为可能。2017年1月10日,李飞飞,斯坦福大学计算机系终身教授,全球人工智能领域最具影响力的科学家之一,正式上任谷歌云的人工智能和机器学习的首席科学家,开启一段为期大约两年的“学术假”(sabbatical)。她也认为人工智能已经到了可以真正走进工业、产业界,为人类服务的阶段。从普世的角度来看,她希望人工智能可以应用在健康、医疗、教育、能源之中;从商业的角度,她表示在医疗健康、金融、零售、娱乐、AR、VR、无人驾驶等方面,人工智能的应用大趋势已不可阻挡。而来到2017年春晓之时,我们看到,这场移动互联网之后最大的科技革命,正在汹涌澎湃地向我们扑来。在金融、医疗、安防、教育、能源、机器人等领域,以及互联网产业升级、传统行业流程的自动化及商业智能等方面,人工智能都具有千亿美元以上的市场潜力。我们看好语音识别在生活上跟互联网生态圈的无缝衔接。而自动驾驶对于交通运输和汽车制造业的颠覆,更具有无法估量的经济价值。人工智能驱动的生活,我们可能正站在立夏将至的时点。MITTechnologyReview(麻省理工学院科技评论)是一本由麻省理工学院出版的科技杂志,首发于1899年,至今已有116年的悠久历史。最近,杂志发布了2017年人工智能的五大趋势预测:1、正向强化学习(Positivereinforcementlearning);2、对抗性神经网络(Duelingneuralnetworks);3、中国的人工智能热潮(China'sAIboom);4、语言学习(Languagelear5、反对人工智能过度炒作(Backlashtothehype)。我们将结合这五大趋势,探索2017年人工智能的发展路径和方向。资料来源:至2017年1月20日,彭博,天风证券研究所整理请务必阅读正文之后的信息披露和免责申明请务必阅读正文之后的信息披露和免责申明5海外行业报告|行业专题研究资料来源:至2017年1月20日,彭博,天风证券研究所整理AlphaGo与李世石的世纪大战,是人工智能领域,尤其是深度强化学习技术的一个里程碑。人工智能的终极目标是模仿人类大脑的思考操作,而强化学习的灵感则来自于动物的学习方式。动物能够学会某些特定行为所导致的正面或负面结果(apositiveornegativeoutcome)。按照这种方法,计算机可以通过试错法(trialanderror)来解决迷宫问题,并将正向结果,即“走出迷宫”,与导致这一结果的行为相关联。这使得计算机可以不通过具体指示或范例(explicitexamples)去学习。其实强化学习理论已经存在了数十年,但通过与大型深度神经网络的结合,让我们真正获得了解决复杂问题(如下围棋)所需的能力。通过不懈的训练与测试,以及对以前比赛的分析,AlphaGo能够为自己找出了如何以职业棋手下棋的道路。2.1.1.AlphaGo:真正的围棋大师Master半月之前,网名为Master的神秘棋手在弈城网上与多位中日韩顶尖职业棋手对弈,对局采之父DemisHassabis发文证实了Mas实这一消息。DeepMind是谷歌旗下的子公司之一,2016年3月因AlphaGo与李世石的“世纪之战”一夜成名,如今又再次凭借Master声名鹊起。请务必阅读正文之后的信息披露和免责申明请务必阅读正文之后的信息披露和免责申明6海外行业报告|行业专题研究资料来源:Nature,天风证券研究所我们在《谷歌人工智能深度解剖》报告中详细介绍过AlphaGo的程序原理。简单来说,AlphaGo的算法基于两个不同的部分:蒙特卡洛树搜索和指导树搜索的卷积神经网络。与以前的蒙特卡洛程序不同,AlphaGo使用了深度神经网络来指导它的树搜索。卷积神经网络分为“策略网络”(这个网络又分为“监督学习”和“强化学习”两种模式)和“价值网络”。这两个神经网络以当前围棋盘面为初始值,以图片的形式输入系统中。这里面的“策略网络”用来预测下一步落子并缩小搜索范围至最有可能获胜的落子选择。“价值网络”则用来减少搜索树的深度——对每一步棋局模拟预测至结束来判断是否获胜。与此前的蒙特卡洛模拟程序不同的是,AlphaGo使用了深度神经网络来指导搜索。在每一次模拟棋局中,策略网络提供落子选择,而价值网络则实时判断当前局势,综合后选择最有可能获胜的落子。下图是我们经过仔细研究DeepMind团队在学术杂志《自然》上发表的论文原文,精心制作的AlphaGo系统原理图解。资料来源:参考ACM数据挖掘中国分会研究资料,天风证券研究所整理请务必阅读正文之后的信息披露和免责申明请务必阅读正文之后的信息披露和免责申明72.1.2.游戏中的人机互动可以预期的是,强化学习将能够在现实世界情景中得到更多的实用证明。过去一年中我们看到一些模拟环境(simulatedenvironments)的推出,包括DeepMind的DQN、OpenAI的Universe以及著名的沙盒游戏《Minecraft》。这个游戏在2014年被微软收购,目前微软剑桥研究院的研究人员正通过这款游戏进行游戏内人与AI的互动协作研究。研究人员开发了一个Malmo项目,通过这个平台使用人工智能控制Minecraft游戏里面的角色完成任务。这个项目被视为有效的强化学习训练平台。通过特定的任务奖励,人工智能能够完成研究人员布置的游戏任务,例如控制角色从一个布满障碍物的房间的一头走到另一头。同时,人工控制的角色还会在旁边提供建议,进行人与AI协作的测试。资料来源:DeepMind,天风证券研究所资料来源:微软,天风证券研究所.DeepMind之DeepQ-Network(DQN)DeepMind在2015年2月于《自然》上发表了一篇《人类控制水平的深度强化学习》的论文,描述了其开发的深度神经网络DeepQ-Network(DQN)将深度神经网络(DeepNeuralNetworks)与强化学习(ReinforcementLearning)相结合的深度强化学习系统(DeepReinforcementLearningSystem)。Q-Network是脱离模型(model-free)的强化学习方法,常被用来对有限马尔科夫决策过程(Markovdecisionprocess)进行最优动作选择决策。谷歌设计的这个神经网络能够完成雅达利(Atari)游戏机2600上一共49个游戏,从滚屏射击游戏RiverRaid,拳击游戏Boxing到3D赛车游戏Enduro等。令他们惊喜的是,DQN在所有游戏过程都可以使用同一套神经网络模型和参数设置,研究人员仅仅向神经网络提供了屏幕像素、具体游戏动作以及游戏分数,不包含任何关于游戏规则的先验知识。游戏结果显示,DQN在一共49个游戏中的43个都战胜了以往任何一个机器学习系统,并且在超过半数的游戏中,达到了职业玩家水平75%的分数水平。在个别游戏中,DQN甚至展现了强大的游戏策略并拿到了游戏设定的最高分数。资料来源:Nature,天风证券研究所请务必阅读正文之后的信息披露和免责申明请务必阅读正文之后的信息披露和免责申明8海外行业报告|行业专题研究虽然Atari游戏为深度学习系统提供了多样性,但它们都还是二维动画层面的游戏。DeepMind最近开始把研究重心放在3D游戏中并开发了一套3D迷宫游戏Labyrinth进行深度学习系统的训练。与之前类似,智能系统只获得了在视场(field-of-view)中观察到的即时像素输入,需要找到迷宫地图的正确宝藏路径。资料来源:DeepMind官网,天风证券研究所DQN作为第一个深度学习系统,通过进行端到端训练完成一系列有难度的任务。这样的技术能够有效运用到谷歌的产品服务中,我们可以想象一下,以后用户可以直接发出指令要求谷歌为他制定一个欧洲背包旅行计划。从Atari到Labyrinth,从连续控制到移动操作到围棋博弈,DeepMind的深度强化学习智能系统在许多领域都表现出优异的成绩。人工智能的一大难题就是局限于在特定的板块和领域里学习。DeepMind这个板块和领域中性的学习算法能够帮助不同的研究团队处理大规模的复杂数据,在气候环境、物理、医药和基因学研究领域推动新的发现,甚至能够反过来辅助科学家更好的了解人类大脑的学习机制。人工智能非牟利组织OpenAI去年推出了Universe。这是一个用于训练解决通用问题的AI基础架构,能在几乎所有的游戏、网站和其他应用中衡量和训练AI通用智能水平的开源平台。这是继去年12月OpenAI发布可以用来开发强化学习算法的开发工具Gym之后,向通用型人工智能进一步扩展的新动作。OpneAIUniverse的目标是开发一个单一的AI智能体,使其能够灵活运用过去在Universe中的经验,快速在陌生和困难的环境中学习并获得技能,这也是通往通用型人工智能的重要一步。目前,Universe包括了大约2600种Atari游戏,1用户只需购买正版游戏,即可使用Universe中的人工智能在游戏中的3D环境中纵横驰骋。在Universe的新测试环境中,人工智能获取视频信息的帧数被限制在了8fps,环境信息和视角管理齐备。此次开源GTA5让普林斯顿大学开发的自动驾驶模拟测试平台DeepDrive在GTA世界中进行测试变得更加简便易行。请务必阅读正文之后的信息披露和免责申明请务必阅读正文之后的信息披露和免责申明9海外行业报告|行业专题研究资料来源:OpenAI,天风证券研究所资料来源:GitHub,天风证券研究所2.1.3.更瘦、更绿的云计算数据中心在2017年,我们预计看到强化学习更多的出现在自动驾驶系统和工业机器人控制等方面。谷歌一直在致力于更瘦、更绿的云计算数据平台。早在2014年,谷歌通过安装智能温度和照明控制以及采用先进的冷却技术而非机械冷却器,最小化能量损失,使其数据中心的耗电量比全球数据中心平均水平的低50%。而且对比自己的数据中心,谷歌现在的数据处理性能是5年前的3.5倍,但能耗却没有提高。如今,坐拥DeepMind的谷歌在很大程度上又走在世界前沿。DeepMind将强化学习神经网络技术应用到云计算数据中心的能源控制方面,通过获取数据中心内的传感器收集的大量历史数据(如温度、功率、泵速、设定点等首先在未来平均PUE(PowerUsageEffectiveness,电力使用效率)值上训练神经网络系统。PUE是总建筑能源使用量与IT能源使用量的比率,是衡量数据中心能源效率的标准指标,而每一部仪器可以受到几十个变量的影响。通过不断的模拟调整模型与参数,使其接近最准确预测的配置,提高设施的实际性能。团队训练两个额外的深层神经网络集合,以预测未来一小时内数据中心的温度和压力,模拟来自PUE模型的推荐行为。通过18个月的模型研发与测试,DeepMind联合谷歌云的研发团队成功为数据中心节省了的可能应用于提高发电转换效率、减少半导体生产的能量和用水量,或帮助提高生产设施的产量。机器学习为数据中心节省能源,减少了更多的碳排放。资料来源:DeepMind,天风证券研究所整理DeepMind和谷歌云计算团队计划将这项成果开源出来,造福全世界的数据中心、工厂和大型建筑等,打造一个更绿色的世界。去年12月在巴塞罗举办的权威性人工智能学术大会NeuralInformationProcessingSystems(NIPS)上,一种新型机器学习工具名叫“生成式对抗网络”(generativeadversarialnetworks,GAN)成为讨论焦点。请务必阅读正文之后的信息披露和免责申明请务必阅读正文之后的信息披露和免责申明海外行业报告|行业专题研究生成式对抗网络(GAN)由OpenAI的科学家IanGoodfellow发明,是由两个神经网络组成的系统:一个网络从训练集合中学习后生成新数据,另一个网络试图区分真实和虚假数据。将这两个网络融合可以协作产生非常逼真的合成数据。该方法可用于生成视频游戏的场景,清晰被像素化的视频画面,或生成更有时尚感的计算机设计。YoshuaBengio,世界最著名的机器学习专家之一,也是IanGoodfellow在蒙特利尔大学修读PhD时的博士生导师,在NIPS大会上表示:这种方法特别令人兴奋,因为它为计算机提供了一种从未标记数据中学习的有效方法。我们以前提到过,机器学习目前存在的三大难题之一,就是需要依靠大量数据与样本去训练和学习,端到端的有监督学习让人工智能还处于没有办法突破数据和算力瓶颈。简单介绍深度学习的三种学习模式:1、用有标注的大数据来做深度监督学习,2、用无标注的(更)大数据来做非监督学习,第三部分就是以奖励反馈为本的深度增强学习。资料来源:人工智能大会PPT,天风证券研究所资料来源:NIPS,天风证券研究所1、深度监督学习包括了输入输出匹配的大数据训练,然后进行端到端的反向传播。在深度学习之前的很多模型,模型深度“浅”,“端到端”的特点并不是特别明显,很大一部分深度学习的进展,就是专注于把深层优化问题解决。例如使用深度监督学习的语音识别应用,就是输入端(声音)到输出端(文本)的大数据配对训练。2、深度增强学习则是在监督学习的基础上,解决监督学习局限性。目前基于大数据的人工智能的应用局限之一在于依赖于深度监督学习,就是说要在有输入输出匹配的大训练数据之后才能使用端到端的反向传播(backpropagation),不但成本很高,而且系统很不灵活,很难快速适应新环境。如果需要解决复杂的逻辑推理问题,基于大数据和深度学习的人工智能系统往往给不出理想的答案。这种依赖于深度监督学习的系统还缺乏常识和直觉。增强学习适用于控制和决策任何有阶段性的过程,比如下棋和聊天机器人,大型状态空间以前对增强学习是个大难题,但现在引入深度学习之后问题就基本解决了,于是增强学习和深度学习相结合的模式就是现在的深度增强学习。3、无监督深度学习:这是未来人工智能的新兴领域,主要解决在没有标注(label)的情况下系统如何完成学习训练,以及在无监督条件下完成之前有监督学习中的反向传播(Backpropagation)以及系统优化。生成式对抗网络(GAN)框架的优势在于,能训练任何一种生成器网络,见上图。基本上,用强化学习来训练带有离散输出(discreteoutputs)的生成器网络是非常困难。我们认为GAN很可能在无监督学习(unsupervisedlearning)还没能普及之前让计算机变得更加智能的关键所在。请务必阅读正文之后的信息披露和免责申明请务必阅读正文之后的信息披露和免责申明2017年可能是中国开始成为人工智能领域的主要参与者的一年。现今的中国科技企业不在止步于模仿西方科技,而是将人工智能和机器学习确定为下一个重点创新领域。我们可以明显感觉到,国内投资者对于人工智能的创业公司的投资热情正在明显上涨。政府方面也在积极推动政策扶持,预计在2018年前投资约150亿美元,无不展示了推动人工智能蓬勃发展的美好愿景。百度所建立的硅谷人工智能实验室已经有一段时间了,在一些领域已有所建树,如语音识别和自然语言处理,以及广告优化等领域。百度在AI的战略布局方面,目前包括三大实验室:硅谷人工智能实验室、深度学习实验室和大数据实验室,主要研究领域为图像识别、语音识别、自然语言处理、机器人和大数据。2016年9月,百度发布了百度大脑,包括了PaddlePaddle深度学习平台(算法模型)、AI超级计算机(底层技术)以及大数据三大核资料来源:百度USA,天风证券研究所资料来源:百度人工智能实验室,天风证券研究所2015年11月,百度硅谷实验室在吴恩达教授(ProfessorAndrewNg)指导下研发出了新一代深度语音识别系统DeepSpeech2。系统同样使用联结主义时间分类技术(Connectionist输入音频的字符序列可以被直接预测。百度研究人员表示,在噪音环境中(比如汽车内和人群之中)DeepSpeech2的表现更为突出。在噪音环境下,测试显示百度DeepSpeech系统的出错率要比谷歌的API、Facebook的Wit.AI、微软的BingSpeech以及苹果的Dictation要低约1资料来源:人工智能大会现场,天风证券研究所拍摄资料来源:人工智能大会现场,天风证券研究所拍摄请务必阅读正文之后的信息披露和免责申明请务必阅读正文之后的信息披露和免责申明海外行业报告|行业专题研究目前在人工智能领域,超过一半的技术类企业投资是在计算机视觉方面。百度的深度学习研究院目前主攻方向基本以图像识别为核心,包括:图像识别基本技术、细粒度图像识别(fine-grainedimagerecognition)、视频分析、AR技术和医学图像分析等。资料来源:人工智能大会现场,天风证券研究所拍摄资料来源:人工智能大会现场,天风证券研究所拍摄在图像识别基本技术中,据百度深度学习研究院院长林元庆介绍,百度的光学字符识别(OCR)技术已经排到世界前列,手机端身份证识别准确率达到99%以上。在细粒度图像识别中,林元庆表示百度去年9月上线糯米应用的新功能,系统在机器学习了用户拍摄的菜品图片后,可以识别出是哪家餐馆的具体哪道菜品,并推荐用户附件5公里内最佳的餐厅。视频分析方面,百度希望将技术运用到无人驾驶的图像识别领域,目前主攻的方向是视频分割以及3D重建;而在AR方面,林元庆展示了目前百度达到的通过向视频拍摄画面叠加动画效果的成果。林元庆总结道,目前是AI的黄金时期,机器的深度学习需要建立在庞大的有效数据训练上。我们以前提到过,机器学习目前存在的三大难题之一,就是需要人工选择数据表达方式和学习算法以达到最优化学习。林元庆称,接下来的1-3年是很多人工智能技术的关键阶段,如果没有跟上发展,及时开发技术,获得数据积累,就会错过人工智能的最佳发展期。2.3.2.腾讯、阿里纷纷赶上国内的另外两个科技巨头,腾讯和阿里,现在也纷纷赶上。战略部署上,2016年4月,腾讯成立了AI实验室,提出了基于业务整合的四个研究领域:计算机视觉(ComputerVision)、语音识别(SpeechRecognition)、自然语言处理(NLP)和机器学习(MachineLearning)以及四个研究方向:内容AI、社交AI、游戏AI以及工具类AI。数据推出了与香港科技大学以及北京大学联合研发的第三代高性能计算平台Angel。人工智能云服务方面,2016年12月26日,腾讯云宣布向全球企业正式提供7项AI云服务,包括人脸检测、五官定位、人脸比对与验证无人车方面,腾讯注资的滴滴出行于2016年4月将原先成立的机器学习研究院更名为滴滴研究院,对大数据研究与机器学习的结合进行探索,搭建滴滴交通大脑。如今滴滴的机器学习已经在出行目的地预测、路径规划、拼车最优匹配、订单分配、估价、运力调度、评分系统等方面进行应用。另外,随着滴滴收购优步中国、智能交通云平台的开发、以及Di-Tech算法大赛的举办,更加快了滴滴未来开发无人驾驶共享汽车的脚步。阿里方面,则充分借助电商平台的优势,2015年7月发布了人工智能购物助理虚拟机器人“阿里小蜜”;在金融领域方面,通过机器学习,蚂蚁微贷和花呗的虚假交易率降低了10倍。支付宝的证件审核系统开发的OCR系统,使证件校核时间从1天缩小到1秒,同时提升了30%的通过率。蚂蚁金服将人工智能技术运用于蚂蚁微贷、保险、征信、风险控制、客户服务等多个领域。请务必阅读正文之后的信息披露和免责申明请务必阅读正文之后的信息披露和免责申明蚂蚁金服副总裁兼首席数据科学家漆远在去年8月的CCAI2016中国人工智能大会上介绍了人工智能驱动的金融生活应用场景。他表示蚂蚁金服的定位就是以信用为基础,人工智能驱动的公司,体现在信用、推荐、风控、搜索、智能助理、营销等方面的应用。以智能客服为例,2015年“双11”期间,蚂蚁金服95%的远程客户服务已经由大数据智能机器资料来源:人工智能大会现场,天风证券研究所拍摄资料来源:人工智能大会现场,天风证券研究所拍摄他十分看好人工智能在金融领域的应用,最关键的因素就是金融生活不论是交易、资产配置、信用等,本质都是数字数据的体现,所以这方面深度学习能够发挥作用。另一点是金融行业的规模足够巨大,能有效推动人工智能的应用和发展。如果问AI研究人员,下一个重大目标是什么,他们很可能会回答:语言。因为有赖于语音和图像识别等领域的技术进步,可以帮助计算机更有效地分析和生成语言。这是人工智能的一个长期目标,计算机通过语言与我们交流和互动的前景是令人向往的。更好的理解语言的上下文含义,将使AI系统获得全方位的实用性提升。AlphaGo在与李世石的世纪大战的第二盘底37步,机器选择了一个不同寻常的落子点。AlphaGo背后的DeepMind表示,他们当时能看到的也只有AlphaGo的实时胜率预判,一头雾水的他们在花了几天时间仔细分析系统后才明白AlphaGo当时这一不同寻常的选择的含义。因此,让人工智能了解人类的语言,并且对自己的决策行为作出说明,将能反过来给予科学家更多的灵感。DeepMind正在考虑将AlphaGo的决策系统开源出来,找到可商业化项目,包括智能助理的改良以及当作医疗诊断的工具。而如果这个系统能够使用人类的语言,就能向医护人员解释他们作出的决策的依据,这在医疗诊断过程中显得更为重要。但鉴于语言的复杂性,微妙性以及多语种歧义性,我们所面临的挑战仍然是艰巨的。毕竟,用户和智能手机之间进行深入和有意义的对话,在短时间内仍不可行。但我们认为语音识别和语音接口,在技术和应用场景方面已经算是较为成熟的。而一些令人印象深刻的进步正在进行,比如说谷歌助理和亚马逊Alexa等。2017年我们可以期待看到在这一领域更进一步的发展。2.4.1.GoogleHome:与亚马逊Echo的正面交锋在为智能手机、平板、智能手表配备谷歌助理之后,谷歌下一步思考的问题就是如何将人工智能进一步带入用户的生活里,完善智能生态圈。谷歌推出内置了谷歌助理的无线音箱GoogleHome,并打造为谷歌智能生活的新入口。谷歌和亚马逊等推出智能音箱的目的并不是为了卖硬件,而是透过这个相对廉价的音箱来吸引用户进入他们的整个智能生态圈。经过5月I/O大会的介绍,谷歌在10月4日的硬件发布会上正式推出了这款售价129美元的人工智能音箱。GoogleHome由谷歌旗下设计电视棒Chromecast的团队主导开发,而不是由一直被当做谷歌智能家居部门的Nest所带来。在展示的视频中,我们看到Google请务必阅读正文之后的信息披露和免责申明请务必阅读正文之后的信息披露和免责申明海外行业报告|行业专题研究Home就像一个随时待命的具象化的虚拟助理,能够调用谷歌搜索以及其他应用程序,用户通过语音指令,控制它执行播放音乐、关闭房间照明、回答知识性问题、查询交通状况、更改预约等任务。谷歌强调GoogleHome可以与用户像和人交谈一样双向对话,无论实时交通还是天文地理,交互的方式都更为友好与亲近,让人觉得家里多了一个真实的助理。GoogleHome这款谷歌最新的智能生活入口设备,承载着谷歌在物联网和智能家居领域的新希望。它也被认为将成为智能家居市场上,亚马逊广受欢迎的智能音箱Echo的直接对手,两者主打的语音控制、人工智能助理以及将各类用户常用的第三方生活场景应用接入的功能都图22:GoogleHome在大会里的展示资料来源谷歌2016I/O大会现场照片,天风证券研究所资料来源谷歌10月4日发布会现场照片,天风证券研究所在外观和语音接收上,亚马逊Echo是一个黑色的柱状音箱,同时配有一个内置麦克风的无线遥控器。虽然Echo的所有指令都可以通过语音控制,并且为了能够最大化的接收到语音,Echo配备了七个麦克风接收器。这由七个麦克风组成的矩阵使用音波聚束技术进行远场声音探测,同时配合增强的噪音消除技术,使得Echo即使在播放音乐时也能听清用户的提问指令。当用户所在位置的语音指令不能被Echo接收到时,无线遥控器就显得非常便利。GoogleHome使用了更圆润而精致的线条设计,外国媒体形容为花瓶型的机身,顶部斜面为一个可触控的表面,隐藏着四种颜色的LED灯;音箱底部的扬声器格栅使用磁铁吸附,用户选择不同颜色和材质以搭配家居风格。此外GoogleHome内置了一枚3英寸的扬声器,基本上声音足够填满整个房间,并且使用了定制的AC电源取代USB电源,保证电量的稳定。资料来源:谷歌2016I/O大会现场照片,天风证券研究所资料来源:Wired,Engadget等,天风证券研究所最关键的区别在于麦克风的数量与阵列,GoogleHome只使用了2个麦克风的结构,而Echo为7个。原理上麦克风越多,越能收集到来自不同方位的远场声音,并从环境噪音中识别出用户指令,例如Echo的远程声音识别。而谷歌表示他们通过云端机器学习算法(例如自然语意处理)对2个麦克风进行了调试,能达到7麦克风相同的效果。请务必阅读正文之后的信息披露和免责申明请务必阅读正文之后的信息披露和免责申明海外行业报告|行业专题研究谷歌在GoogleHome背面设置了“关闭麦克风”的按钮,可以用来暂停或播放音乐,同时加入了手指在按钮上旋转来控制音量的操作。顶部白色的LED灯显示当前的音量级别,当有用户语音指令处理时,4色的LED灯就会亮起。此外根据外媒测评,同一间屋子里的几个不同的GoogleHome可以同时响应用户语音指令,例如同时播放歌曲,这是谷歌从一开始就设计的多房间支持(Multi-roomcapability)。资料来源:Wired,Engadget等,天风证券研究所资料来源:谷歌10月4日发布会现场照片,天风证券研究所资料来源:Wired,Engadget等,天风证券研究所资料来源:Wired,Engadget等,天风证券研究所在功能上,很显然两家公司都在建立自己的智能生态圈。亚马逊Echo最精明的地方就是可以出现在第三方设备和服务中,除了可以在亚马逊平台上购物和播放Prime音乐外,还可以让用户选择Pandora、Spotify等娱乐,购买达美乐披萨外卖、获得Yelp点评的功能和Uber打车服务等。在智能家居应用上,亚马逊选择与三星、飞利浦、Belkin、Ecobee等合作,将他们的智能家居设备整合到Echo的控制系统中。Echo最重要的一点就是作为Prime电商服务的语音入口,在Echo上用户可以要求Alexa重新下单已经购买过的商品,或者为用户推荐亚马逊的各类商品,唯一的限制就是该商品必须是Prime类别下的,意味着这件商品由亚马逊管理配送并在2天内能送达。电商是亚马逊的根基,Echo的网购功能吸引了更多的用户在亚马逊上购物及参与成为Prime会员。在亚马逊上的花费多7%。这也给了亚马逊更多的用户消费数据,从而提高消费者体验。GoogleHome目前暂不支持软件内支付,也意味着目前无法通过Home进行网购消费。事实上,由于谷歌在用户消费数据上无法与亚马逊相比,所以他们选择了更为熟悉的领域,即用户日常生活行为习惯数据,这些数据来源于用户每日的日程安排、地图搜索、邮件收发等行为。谷歌遍布全世界的网络服务内容能够带来更多的可选性。谷歌在去年1月推出了一款名为广播等音乐服务,让用户可以将手机中的音乐推送到Home中播放出来。同时配合谷歌自请务必阅读正文之后的信息披露和免责申明请务必阅读正文之后的信息披露和免责申明海外行业报告|行业专题研究此外,由于Home是由Chromecast团队主导开发,因此与Chromecast的协作必不可少。用户可以指挥Home搜索播放YouTube、Netflix上的视频,并通过安装了Chromecast的电视屏幕自动播放出来,可以说,Chromecast与电视屏幕成了GoogleHome的一个可视化的界面。谷歌在智能家居上最大的资本就是拥有智能家居市场最受关注的品牌Nest。谷歌表示,Nest旗下的包括智能学习恒温器、烟雾探测器以及智能监控摄像头,都将成为第一批整合进Home智能家居系统平台的器件。谷歌目前的合作伙伴包括飞利浦Hue、IFTTT、三星旗下的SmartThings平台等,它们希望与广大开发者合作,在年内指导更多的第三方厂商将智能家居设备和应用整合到谷歌助理中。但是,布局先人一步的亚马逊很可能依靠Echo的明星效应和Alexa的开源布局抢滩智能家居市场。根据市场调研机构CIRP的统计,自2014年底Echo推出以来,亚马逊在两年内卖出了约510万台Echo,且在2016年的前九个月大约卖出200万台。随着EchoDot和EchoTap的推出,这两个比传统Echo更小更便宜版本在过去六个月贡献了至少33%的销售额。资料来源:Engadget、天风证券研究所资料来源:CNET、天风证券研究所2.4.2.谷歌的Allo智能回复谷歌的智能回复已经应用到邮件服务Gmail/Inbox中。而在最新的聊天软件Allo中,应用程序也能通过对用户的对话记录来生成智能回复选项,而且它为了更优化地理解用户的对话语义,它会学习用户的个人说话方式,因此每个人的智能回复都是“私人定制”的。资料来源:各语音助理软件,天风证券研究所整理这次Allo团队从一年多前开始进行针对聊天软件智能回复技术的研发。第一个问题就是聊请务必阅读正文之后的信息披露和免责申明请务必阅读正文之后的信息披露和免责申明天软件对智能回复选项的生成有非常严格的延迟限制,如果不能及时生成回复选项,用户就会失去使用的耐心。Allo团队使用了一个类似“编码-解码”两步模型的方法,首先使用一个递归神经网络将对话语句一个词一个词进行编码生成对应口令(token)。然后口令进入长短期记忆神经网络(Long-shorttermmemory,LSTM)生成一个连续向量,这个连续向量会进一步通过softmax模型生成一个离散语义结构(discretizedsemanticclass)。如下图所示,当提问句为“Whereareyou?”时,神经网络会将问句三个单词生成3个口令,然后进行下一步处理。每一个离散语义结构都包含了一组可以用来回复的可选择单词组。Allo团队下一步就是使用第二个递归神经网络来从可选择单词组中挑出最合适的回复。这个递归神经网络也是让离散语义结构进入长短期记忆神经网络(LSTM)中,不过这次的LSTM会生成完整的回复消息,生成方法也是一次一个口令,然后解码成为自然语义单词。如下图所示,经过第二个递归神经网络中的长短期记忆神经网络(LSTM)处理,系统生成了对刚才“Whereareyou?”提问的回答:“I’matwork”。资料来源:谷歌研究所官方博客,天风证券研究所资料来源:谷歌研究所官方博客,天风证券研究所Allo团队提到,长短期记忆神经网络(LSTM)生成的每一个离散语义结构都包含了大量可选择单词组,为了提高选择效率,他们使用了定向搜索(beamsearch)技术。这项技术是用来对搜索域中最优解进行向下拓展的启发式搜索算法。Allo团队在处理大数据时候遇到的第一个问题就是模型第一部分中的递归神经网络需要0.5秒的时间给出反应,为了减少延迟,团队将模型部分中的softmax算法改成了分层式softmax算法,对可选择单词组的遍历从单词列表遍历改为了单词树遍历,成功将延迟控制在200毫秒以下。Allo团队解决的另一个问题是,模型生成的自动回复选项有时候会过长而不能适应手机屏幕,或者过短造成可用性不强。因此团队将定向搜索算法的倾向调整为去搜索使用效率更高的单词组路径,同时更好的适应屏幕长度的回复选项。“私人定制”Allo的智能回复会随着用户的使用时间增加而更加反映用户的说话习惯。例如当用户在回答“Howareyou?”时习惯使用“Fine”而不是“I'mgood”,Allo会把这些习惯添加到神经网络中,把“说话风格”作为神经网络的一个参数项来进行回复推荐。如上图所示,Allo团队把这部分调整项称为“用户嵌入”(userembedding),这部分功能可以作为神经网络训练的一部分,而且他们使用了L-BFGS(Limited-memoryBroyden-Fletcher-Goldfarb-Shanno或在受限内存时的拟牛顿算法)来迅速生成海量“用户嵌入”数据。请务必阅读正文之后的信息披露和免责申明请务必阅读正文之后的信息披露和免责申明海外行业报告|行业专题研究资料来源:谷歌研究所官方博客,天风证券研究所资料来源:谷歌研究所官方博客,天风证券研究所不只是英语Allo的智能回复不只对英语有效,而是对所有语言都能使用。开发团队使用基于图表关联(graph-based)的机器学习技术进行多语言之间的相互关联,并且连接了谷歌机器翻译团队的模型来进行单词翻译。在这种图表关联技术中,团队使用的是半监督学习(Semi-supervisedLearning)技术来进行语义理解。半监督学习(Semi-supervisedLearning)技术是监督式学习(SupervisedLearning)与非监督学习(UnsupervisedLearning)相结合的一种学习方法。它主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。2.4.3.神经机器翻译系统谷歌最近在机器翻译技术领域取得突破进展。谷歌发布的这个名为谷歌神经机器翻译(GoogleNeuralMachineTranslationsystem,GNMT)的系统,实现了机器翻译技术迄今为止的最大进步。谷歌在10年前发布了谷歌翻译,背后的核心算法是基于短语的机器翻译技术器翻译中,来直接学习输入端(一种语言的一个句子)到输出端(另一种语言的同一句子)的映射,这种PBMT主要是将句子中的词和短语拆分进行独立翻译,很容易出现罕见词不识别以及上下文意不通的情况。资料来源:各翻译软件,天风证券研究所整理而谷歌此次使用的神经机器翻译系统(NMT),则将整个句子视作翻译的基本输入单元。NMT相对于PBMT的优势在于能够减少工程设计。随着NMT的不断改进,研究人员又加入了外部对准模型(ExternalAlignmentModel)来标记罕见词。不过GoogleBrain的成员表示,GNMT中没有使用外部对准模型的帮助,整个模型就是直接的端到端训练。上图是谷歌翻译、有道翻译以及百度翻译分别对“小偷偷偷偷东西”的英文翻译。可以看到,谷歌翻译请务必阅读正文之后的信息披露和免责申明请务必阅读正文之后的信息披露和免责申明海外行业报告|行业专题研究完整的翻译了句子内容,而有道翻译与百度翻译分别根据各自的翻译规则省略了中文句子的部分内容,可以看出均是基于短语的机器翻译技术的思路。谷歌神经机器翻译系统由8个编码器和8个解码器的深度长短期记忆神经网络LSTM组成,并使用了注意链接(attentionconnections)和残差连接(residualconnections)来连接编码器与解码器。系统将输入的汉语句子的词编码成一个向量列表,其中每个向量都表征了到目前为止所有被读取到的词的含义(即编码器读取完整句子后,解码器就开始工作,一次生成英语句子的一个词(即解码器)。为了在每一步都生成翻译正确的词,解码器重点“注意”了与生成英语词最相关的编码的汉语向量的权重分布。资料来源:谷歌研究所官方博客,天风证券研究所1.注意连接机制将解码器的底层连接到了编码器的顶层,提升了并行性并降低训练时间;2.为了增加最终翻译速度,谷歌在推理运算时使用低精度算法;3.在处理罕见词时,谷歌将词组分为由常见词组成的子词单元(sub-wordunits)的有限集合,同时作为输入和输出内容。这个方法能够有效平衡“字符(character)”限定模型(delimitedmodels)的灵活性与“词(word)”限定模型的有效性,自然地处理罕见词翻译,进而提升整理翻译质量。资料来源:谷歌研究所官方博客,天风证券研究所请务必阅读正文之后的信息披露和免责申明请务必阅读正文之后的信息披露和免责申明海外行业报告|行业专题研究这次的系统开发由GoogleBrain和谷歌翻译团队共同完成,使用了谷歌的开源机器学习平台TensorFlow以及张量处理单元TPU,保证了系统的计算能力以及严格的延迟要求。新系统在多个主要语言的翻译中将翻译误差降低了55%-85%以上,在英语到西班牙语的翻译中,以满分6分计算,新系统的平均得分为5.43分,与人类翻译的5.55分相差无几。谷歌同时宣布已将该技术应用到汉语-英语语言的翻译中,目前谷歌翻译的汉英翻译已经在使用这套系统完成所有的翻译请求,大约是每天1800万条。谷歌希望在未来几个月内,继续将GNMT扩展到更多的语言翻译上。不过GoogleBrain的成员同时表示,在任何情况下机器翻译替换人类翻译还是有一定难度。现在的机器翻译都是基于已经出现过的语言现象,而人类语言是在不断进步、不断出现新生词汇。不过机器翻译在结构化比较高

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论