




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
人工智能技术基础人工智能简介第一章
人工智能这个名词对于大多数人来说并不陌生。在很多影视作品,文学作品中都出现了这个概念。自从计算机面世以来,人们一直在思考如何让计算机变得更加智能。而在这个过程中,人工智能的概念被提出。那么,到底什么才是人工智能呢,人工智能是怎样发展的,人工智能又可以做些什么呢?
本章主要介绍人工智能的历史与未来可能的发展以及人工智能的方法与应用,有助于人工智能理论知识的学习。1人工智能简介目录Contents1.1人工智能的定义及发展历史人工智能方法人工智能的应用人工智能的未来本章小结1.21.31.41.51.掌握人工智能的定义,了解人工智能的发展历史;2.学习人工智能技术所包含的方法、应用领域和未来发展;3.对人工智能技术有一个全面的了解。学习目标1人工智能简介01人工智能的定义及发展历史1.1人工智能的定义及发展历史
人工智能(ArtificialIntelligence,AI)是研究用计算机对人类的智能进行模拟和扩展的一门新的技术科学。其目的是让计算机能以与人类相似的智能,对数据信息进行处理与加工。学者人工智能定义JohnMcCarthy(约翰·麦卡锡)1956年达特茅斯会议上提出:人工智能就是让机器的行为看起来就像是人所表现出的智能行为一样。Nelson(纳尔逊)教授人工智能是关于知识的学科――怎样表示知识以及怎样获得知识并使用知识的科学。美国麻省理工学院的Winston(温斯顿)教授人工智能就是研究如何使计算机去做过去只有人才能做的智能工作。不同的定义反映了同一个问题:人工智能所要做的是研究人类思考规律,构造具有和人类拥有相似思考方式的人工系统。1.1.1人工智能的定义1.1人工智能的定义及发展历史
人工智能这个概念是英国数学家图灵在1950年提出的,这一年他发表了一篇划时代的论文——《计算机器与智能》(COMPUTINGMACHINERYANDINTELLIGENCE)。
在这篇论文中,他首次提出了人工智能的概念,当时他给这个概念起的名字叫做“会思考的机器”(ThinkingMachine)。1.1.1人工智能的定义1.1人工智能的定义及发展历史GeoHinton(多伦多大学,BP,DBN),YoshuaBengio(蒙特利尔大学,GAN)和YannLeCun(Facebook人工智能部门主管,CNN)2019年3月27日共同被美国计算机学会(ACM)授予2018年图灵奖。以表彰他们提出的概念和工作使得深度学习神经网络有了重大突破。
谈及颁奖缘由,ACM总裁CherriM.Pancake说到:“人工智能现在是所有科学领域发展最快的领域之一,也是社会上最受关注的话题之一。人工智能的进步和兴盛在很大程度上归功于Bengio、Hinton和LeCun为深度学习最新进展奠定的基础。这些技术被数十亿人使用,任何一个拥有智能手机的人都能切实体验到自然语言处理和计算机视觉方面的进步。除了我们每天使用的产品之外,深度学习的新进展还在医学、天文学、材料科学等领域为科学家提供了强大的新工具。”JürgenSchmidhuber1997年提出了LSTM2018年图灵奖1.1.1人工智能的定义诞生1943年MP神经元模型,1949年Hebb规则的提出,1950年MarvinMinsky和DunnEdmund一起建造世界上第一个人工神经网络模拟器Snare。1950年AlanTuring提出了图灵测试,预言了人工智能的可行性。第一次高峰1956年的达特茅斯会议是人工智能发展的第一次高峰的起点。在这次会议后计算机科学被广泛的应用到很多领域,也让很多研究学者看到了人工智能发展的美好未来。1958年Rosenblat提出的感知机。第一次低谷1970年代,人工智能进入艰难发展时期。由于当时计算机性能的严重不足,问题的复杂度增加以及数据量的不足使机器很难的智能化,使人工智能进入到第一次低谷。人工智能的崛起1980年,卡内基梅隆大学设计的名为XCON的专家系统,采用了人工智能程序,利用人类专家的知识与解决问题的方法来处理对应领域的问题。这种模式催生出了Symbolics和Aion等硬软件公司,也直接造就了人工智能的崛起。1982年的Hopfield网络;1986年的BP算法,解决了多层感知机的训练难题。11983年Button提出自适应评判控制。1991年Brokers的机器动物。第二次低谷1987年,苹果和IBM公司生产的台式机的性能超过LispMachines等厂商生产的通用计算机。在这之后,专家系统的优势丧失,人工智能的发展进入第二次低估。1990年之后浅层神经网络没有展示人们期望的能力。人工智能的再次崛起2006年,Hinton提出深度学习神经网络,成为人工智能再次转折点。2012年在ImageNet大赛中取得了重大突破,被广泛认为是深度学习革命的开始。2012年googele公司提出的知识图谱,近几年在网络搜索引擎、知识问答、产品推介上取得了巨大成功。2016-2017,AlphaGo战胜李世石,人工智能的热度达到空前的高度。2018年深度学习之父获得了图灵奖。2016年以来,人工智能从学术界走向产业界,已成为科技革命的先锋。2022年11月30日ChatGPT的出现已初显人工智能的“奇点”时刻的来临。(“奇点”,2014年美国未来学家库斯韦尔预测2047年是人工智能的奇点。)1.1.2人工智能的发展历史1.1人工智能的定义及发展历史02人工智能方法1.2人工智能方法
人工智能诞生以来,出现了许多人工智能方法,如基于逻辑思维的传统AI和基于模拟人脑形象思维的ANN。2006年,人工智能再次崛起以来,人工神经网络已成为人工智能的核心技术。目前,人工智能技术主要包括人工神经网络、知识图谱、图神经网络、生成式模型和机器学习方法。1Texthere图神经网络生成式人工智能机器学习人工神经网络图神经网络将图模型与神经网络技术相结合形成的图神经网络,2018年以来,成为人工智能的研究热点,已提出了图卷积神经网络、图循环神经网络、图注意力网络和时空图神经网络等图神经网络技术。生成式模型生成式人工智能模型包括变分自编码器,生成对抗网络(GAN),流模型和扩散模型。以Transformer中的编码器、译码器或Transformer整体为基础的大模型在文字生成文字方面已经取得了超越普通人的成绩,以生成对抗网络和扩散模型为基础的文字生成图像、图像生成图像和视频方面的成果也已达到以假乱真,甚至超越人类艺术家的水平。人工神经网络人工神经网络是通过模拟人的大脑神经元组成神经网络,进而产生具有类似人的智能的人工智能技术。人工神经网络从最初的神经元和以神经元为基础组成单层神经网络(感知机),发展出了含有隐层的仅有前向连接的多层神经网络、含有反向连接的循环神经网络、包含注意力机制的深层神经网络和循环神经网络以及有自注意力机制和前向神经网络组成的Transformer变形金刚。机器学习方法机器学习方法是人工智能的核心技术之一,主要用于确定各种人工智能模型的参数。机器学习方法包括监督学习、无监督学习、半监督学习、迁移学习、持续学习和强化学习等方法。知识图谱知识图谱是2012年谷歌公司在传统的知识工程技术上提出的用图模型表示知识、实现知识推理的技术。知识图谱技术给出一种全新的信息检索模式,为解决信息检索问题提供了新的思路。本质上,知识图谱是一种揭示实体(事物)之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化描述。1.2人工智能方法知识图谱人工智能方法人工神经网络
1943年提出了M-P模型,1958年提出的单层感知机是在M-P神经元上发展得来,只能解决简单线性问题而不能解决异或问题,而堆叠的多层感知机(多层神经网络)可以,所谓深度学习,狭义的说就是很多层的神经网络,尤其涉及语音、图像等复杂对象的应用中,深度学习取得了优越的性能,当前引起广泛关注的,被称为改变世界的大语言模型LLM也是以人工神经网络基础模型构成的。1.2人工智能方法1.人工神经网络及其发展
知识图谱(KnowledgeGraph)(2012年5月17日由Google正式提出)知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,一般用三元组表示知识图谱亦可被看作是一张巨大的图,节点表示实体或概念,边则由属性或关系构成中国国家美国日本英国北京9,634,057平方公里13.5404亿2069.3万北纬38°56'东经116°20'3.1525亿华盛顿9,629,091平方公里北纬38°53′西经77°02'178平方公里16410平方公里1.26亿377835平方公里东京2188平方公里东经140°50'北纬35°44'……面积人口首都纬度经度面积人口1.2人工智能方法2.知识图谱通用知识谱图神经网络
早在1997年就已有人用递归神经网络开始研究图模型的识别,2009年FrancoScarselli等人提出了图神经网络的概念,2018年后DeepMind发表了论文《Relationalinductivebiases,deeplearning,andgraphnetworks.》,并开源了相关的算法包GraphNet,使图神经网络引起了研究人员的广泛关注。
本质上说,世界上所有的数据都是拓扑结构,也就是网络结构,如果能够把这些网络数据真正的收集、融合起来,如何利用神经网络技术处理这些复杂的拓扑数据,如何开创新的处理图数据以及知识图谱的智能算法是AI的一个重要方向。1.2人工智能方法3.图神经网络通用知识图谱
生成式人工智能(AIGC),全称ArtificialIntelligenceGeneratedContent,是一种人工智能技术,用于自动生成内容,该内容在很大程度上类似于通过训练数据学到的内容分布。与传统的人工智能主要关注数据模式的识别和预测不同,AIGC专注于创造新的、富有创意的数据。其核心原理在于通过学习和理解数据分布,进而生成具有相似特征的新数据。AIGC的应用领域广泛,包括图像、文本、音频、视频等多个领域。目前,AIGC中最引人注目的应用之一是ChatGPT,这是基于OpenAI公司的大型语言模型GPT-3.5训练、调试和优化的聊天机器人应用。ChatGPT可以处理各种不同类型的文本和推理任务,它在发布仅两个月内就获得了10亿月活跃用户,超越了历史上所有互联网消费者应用软件的用户增长速度。1.2人工智能方法4.生成式人工智能技术AIGC的迅速发展得益于三个关键领域的人工智能技术,即生成算法、预训练模型和多模态技术。通用知识图谱
机器学习方法是研究如何使机器具有学习能力的理论方法。目前深度学习(神经网络)的训练(学习)是基于最简单的梯度下降技术的有教师(监督)、无教师(监督,自编码器采用的训练方法)的训练方法,必须有大量样本作为支撑,因此目前取得很好应用成果的基本都是掌握大量数据资源的大公司。现实中许多问题(研究对象),难以获取大量样本,即使能够获得大量样本,但对其标注工作量巨大难以完成。为此,近些年来,尤其是这几年如何解决小样本问题已成为机器学习的热点问题。
近年来广受关注的小样本学习方法有:增强学习、对抗学习、迁移学习、元学习、零(少量)样本学习、终身(持续)学习、弱监督学习、自监督学习等.1.2人工智能方法5.机器学习03人工智能的应用人工智能应用场景无人驾驶智慧物流智慧安防智慧医疗智慧环保智慧旅游智慧农业智能制造智慧交通智慧金融智慧教育智慧家居智慧零售智能客服1.3人工智能的应用中国制造2025:工厂里面每一个系统、每个设备、每个材料都能相互沟通,按照不同的需求自动处理订单,实行智慧生产。智能制造工业革命1.0蒸汽机时代蒸汽动力取代人力机械化生产1760S工业革命2.0电气化时代电力驱动取代蒸汽动力发动机、汽车大规模流水线生产1850S工业革命3.0自动化时代电子计算机、信息技术原子能、空间技术自动化生产1970S工业革命4.0智能化时代AI+ICT人机协同决策智能制造2010S1.3人工智能的应用智能制造/landing/vision/pr_3d_robot_vision.jsp?aw=gabaidukcvisials200630067人眼检测效率很大程度上取决于检验员的能力、经验、专心程度,容易导致遗漏、分类错误等问题。智能分拣系统实现了零件的自动检测与分拣。通过三维视觉成像及检测分析技术自动识别零件是否合格,不受工件位置或朝向的影响。机械臂控制端计算出适合的运动路径,实现零件的稳定抓取与分拣。1.3人工智能的应用智能制造系统一般架构智能制造设计采购管理服务生产系统感知智能决策精准控制工作模型制造数据机器学习缩短产品周期降低综合成本提高生产效率提升用户体验需求构建智能模型实施重塑生产方式物联网AI基于贯穿5G通信深度感知大数据云计算1.3人工智能的应用智慧农业实时动态地监测作物形态变化,研究外界环境对作物生长状况产生的影响和作物生长机制具有重要意义。基于深度学习的植物生长模型库,实时采集、分析、诊断,建立植物生长模型,应用深度神经网络算法,实现植物生长状态判断与预测。1.3人工智能的应用智慧安防在园区安防中的应用在刑侦办案中的应用借助人工智能在视频内容特征提取和内容理解方面的天然优势。利用人工智能强大的计算能力和智能分析能力实时分析视频内容。检测运动对象,识别人和物的属性信息。可移动巡检机器人可以代替安保人员进行定期巡逻,读取仪表数值,发现潜在的风险。园区人员、车辆出入门禁管理,实现人车物实施跟踪定位。可疑人员的运行轨迹、逗留时间、违规访问。1.3人工智能的应用智慧安防运用行为分析技术对实时视频进行智能分析,支持穿越警戒面、进入/离开区域、区域入侵、非法停车、物品遗留、物品丢失、人员徘徊、快速移动、人员聚集等多种事件的分析检测。支持行为排查、人员排查和车辆排查功能,快速定位目标视频片段,提高视频查看效率。支持自动报警,提高监控的效率,实现智能化监控防范。1.3人工智能的应用智慧医疗1.3人工智能的应用智能家居一般包括:
智能中控智能音箱
智能照明
智能入口
智能安防
智能家电控制
智能暖通系统
智能环境
智能窗帘
智能背景音乐智能家居华为智能家居tvc广告-广告:家电视频-新片场()1.3人工智能的应用智慧商务智能商务主要包括辅助智能交易、智能化拓展业务和企业商务智能化。智能商务代替人做决策行动,商品服务选择、交易自动完成、互动自动实现、业务挖掘。用户:提升消费体验,语音服务、图像服务、新闻推荐、产品推荐和广告过滤等智能服务。商家:提升经营效率,需求分析、用户画像、精准营销、智能客服、动态定价。智能客服商品推荐广告过滤市场分析精准营销动态定价VR购物客户群定位1.3人工智能的应用智慧文娱AI+文娱AI+音乐AI+影视AI+创作AI+综艺AI+虚拟偶像AI+游戏1.3人工智能的应用04人工智能的未来政策法规人工智能作为全球各国发展数字化的重要技术手段,已经由早期的“野蛮生长”迈入“规范构建”的阶段。当前各国通过政策手段对技术边界做出的规范,其重要性与从战略层面对产业进行的推动并驾齐驱。截至2020年年底,全球共有32个国家和地区发布了人工智能国家级战略文件,另有22个国家和地区正在制订相关文件。1.4人工智能的未来国家/地区主要特点政策法规大事记中国以人为本,政府优先,起步虽晚,但是国家战略领先全球2017年,“人工智能”首次写入政府工作报告,同年发布《新一代人工智能发展规划》,提出三步走的战略规划,人工智能上升为国家战略2020年,“十四五”规划中提到“强化国家战略科技力量,瞄准人工智能、量子信息、集成电路等重大科技项目”2021年,作为“十四五”规划的开局之年,人工智能有望继续得到大力发展美国以科技行业为主导,持续加大投入,旨在维持美国优先地位2016年,发布《为人工智能的未来做准备》和《国家人工智能研究与发展战略计划》两份重要报告,人工智能上升为国家战2019年,发布一项题为“加速美国在人工智能领域的领导地位”的行政命令,美国监管机构开始接触人工能2020年,发布一份关于联邦机构对人工智能监管方法的备忘录,同年发布《人工智能倡议首年年度报告》,回顾在人工智能方面取得的进展,为未来的AI计划提出长期愿景欧盟以隐私和监管为驱动,高度关注数据保护和AI伦理,监管政策最为严格2018年,发布《人工智能协调计划》,要求欧盟成员以及挪威、瑞士等欧洲国家互相合作协调,推进人工智建设2020年,欧盟委员会发布关于人工智能监管框架的步提案2021年,推动人工智能立法,对人工智能使用领域做出明确框定和限制,使人工智能在“可被信任”的前提下造福社会亚太积极推进人工智能国家战略2017年,日本首次推出人工智能战略文件,并于2019年进一步通过《AI战略2019》文件以期解决日本所面临AI问题2019年,韩国、新加坡等国相继将人工智能上升为国家战略政策法规1.4人工智能的未来11.4人工智能的未来2022年,生成式人工智能取得的突破性成果,使人工智能在文本语言理解、绘画和图像生成方面初步展现出超越普通人类智能的能力,有人认为通用人工智能的实现已经出现曙光。
如何使利用使人工智能技术所产生的结果可信、可靠已经成为人工智能发展迫切需要解决的问题,可信人工智能的研究迫在眉睫,也是人工智能近期、甚至是长期的发展目标。
可信人工智能1.4.1近期发展的目标11.4人工智能的未来可信人工智能全景框架1.4.1近期发展的目标11.4人工智能的未来2016年10月,Google发布了一批悦人的实验室结果,虚拟训练的机械手臂学会了捡起多种物体,包括胶带分配器、玩具和梳子。
自动驾驶汽车企业也纷纷在模拟街道上部署虚拟汽车,从而减少在实地交通和道路环境中测试所需的时间和资金。2.虚拟环境下训练人工智能1.4.1近期发展的目标2022年以来将大型语言模型与机器人相结合在虚拟环境中进行训练已成发展趋势,通过语言模型指挥虚拟机器人在虚拟环境中进行寻览,完成各种任务。1.4人工智能的未来1.4.2人工智能的未来
弱人工智能是擅长于单个方面的人工智能,也就是我们现在人工智能发展所处在的阶段。例如战胜象棋世界冠军的人工智能AlphaGo只会下棋,不会识字,能够识别人脸的人工智能也不会知道你在想什么。
强人工智能则是人类级别的人工智能,在各方面都能和人类比肩甚至超越人的人工智能,人类能做的一切脑力活动它都可以做。它不会再有局限性,它将拥有宽泛的心理能力,能够进行思考、计划、解决问题、抽象思维、理解复杂理念、快速学习或是从经验中学习等操作。但是创造强人工智能会比弱人工智能要难得多,近年来大模型的发展和生成式人工智能的进步,已为强人工智能的实现带来了曙光。05本章小结1.5本章小结
本章从人工智能的定义和发展历史出发,对人工智能技术所包含的方法、应用领域和未来进行了简单系统的介绍,使本书的读者能够对人工智能技术有一个全面型了解,为后续章节开始的人工智能技术的具体内容方法的介绍奠定基础。感谢您的观看!人工智能技术基础神经网络基础第二章
人的大脑中有近860亿个神经元,每个神经元都与其它103~105个神经元相连,组成巨大的复杂的神经网络系统,支配人的行为和思想活动。受到大脑神经系统的启发,人工智能的研究人员通过建立神经网络的数学模型来近似模拟大脑的神经系统,这类数学模型称为人工神经网络。
含有多隐层的深度神经网络已成为当今人工智能的核心技术。在许多任务中,例如听觉、视觉和自然语言理解上,该网络已取得重大突破,达到甚至超越普通人的水平,解决了人工智能应用中的很多疑难问题。
本章从生物神经网络出发,介绍人工神经网络的基本结构和训练神经网络的核心算法-误差反向传播算法以及训练神经网络的数据处理和常用技巧。2神经网络基础简介学习目标2神经网络基础1.了解生物神经元与生物神经网络;2.掌握人工神经元模型,以及以人工神经元模型为基础的人工神经网络的类型;3.学习前向神经网络的基本结构;4.学习训练神经网络的误差反向传播算法;5.了解神经网络的训练方面处理数据和训练模型的技巧。目录Contents2.12.22.32.42.5人工神经元与人工神经网络
生物神经元与生物神经网络前向神经网络2.6反向传播算法处理数据和训练模型的技巧本章小结 01生物神经元与生物神经网络2.1生物神经元与生物神经网络2.1.1生物神经元图2-1生物神经元
图2-2突触结构2.1生物神经元与生物神经网络2.1.2生物神经网络
生物神经网络(BiologicalNeuralNetwork)是由许多生物神经元互相连接,以拓扑结构形成的网络结构。在生物神经网络中,大脑的记忆主要源自于无数神经元之间的突触联系。这些突触联系大部分是由生物出生后受到的外界刺激而生长起来的。外界刺激会不断地激活神经元,导致各个神经元之间的连接强度发生相应变化。正因为如此,大脑才有学习和存储信息的能力。
这种生物学上的奇妙设计也启发了人工智能研究者,人工神经网络就是对生物神经网络结构的一种抽象、简化和模拟。02人工神经元与人工神经网络2.2人工神经元与人工神经网络2.2.1人工神经元
人工神经元(ArtificialNeuron)是组成人工神经网络的基本单元。1943年,McCulloch和Pitts根据生物神经元的基本特性,提出了M-P模型,是当前人工神经网络中人工神经元模型。图2-3人工神经元2.2人工神经元与人工神经网络2.2.1人工神经元2.2人工神经元与人工神经网络2.2.2激活函数
最初引入激活函数(ActivationFunction)的目的是反映生物神经元的抑制和兴奋两种状态,随着神经网络技术的进步,激活函数不再仅采用阶跃函数,而是发展出了Sigmoid函数和ReLU函数等多种形式,从而提高了人工神经网络的可训练性和非线性表示能力,使得人工神经网络在解决特征提取、分类和预测等诸多实际问题上取得非常好的效果。常用的激活函数有以下几种:常见的激活函数Sigmoid函数
Tanh函数
ReLU函数
LeakyReLU函数
Maxout单元
激活函数
Sigmoid函数Tanh激活函数是Sigmoid函数的变形
图2-4Sigmoid和Tanh激活函数激活函数ReLU激活函数
LeakyReLU激活函数图2-5ReLU函数和Leaky
ReLU函数激活函数GeLU函数是某些函数(比如双曲正切函数
tanh)与近似数值的组合。图2-6GeLU函数曲线2.2人工神经元与人工神经网络2.2.3人工神经网络
人工神经网络是由大量人工神经元按一定规则连接构建成的网络结构,是一种模仿生物神经网络行为特征具有分布式并行信息处理能力的数学模型。
人工神经网络主要分为以下3种类型:(a)前馈型网络
(b)反馈型网络
(c)自组织神经网络图2-7三种神经网络结构03前向神经网络2.3前向神经网络
前向神经网络(FeedforwardNeuralNetwork,FNN)是最早提出的人工神经网络结构,是最常见和常用的前馈型网络,具有很强的拟合能力,常见的连续非线性函数都可以用前向神经网络来逼近。
多层前向神经网络又称多层感知机(Multi-LayerPerceptron,MLP),是由输入层、输出层和多个隐层组成。图2-8多层前向神经网络2.3前向神经网络
多层前向网络可以看作输入到输出的映射函数:
。评判一个模型的好坏,应判断这个模型是否与真实数据保持一致。04反向传播算法2.4反向传播算法反向传播(BP)算法,即误差反向传播(ErrorBack-Propagation),是用于训练人工神经网络的常见方法。最早由ArthurE.Bryson等人在1969年提出。1974年Werbos在哈佛大学的博士论文中也研究了误差反向传播。Parker在1985年发表的技术报告也论述了误差反向传播算法。1986年Rumelhart等发表了误差反向传播算法,有力的推动了人工神经网络的发展和应用。2.4反向传播算法2.4.1链式法则2.4反向传播算法2.4.1链式法则2.4反向传播算法2.4.1链式法则2.4反向传播算法2.4.2梯度下降法2.4反向传播算法2.4.3反向传播算法第n次迭代,第k个神经元的期望输出图2-8误差反向传播示意图2.4反向传播算法
传统的误差反向传播有两种实现方式:
第一种方法称为单样本修正法,即针对每一个送入网络的训练样本,通过网络前向传播计算得到网络输出与期望输出的误差来更新权重;第一种方法,针对每个样本都更新参数,计算量大,稳定性差。
第二种方法称为批量梯度下降法,即每一次迭代时使用所有样本进行梯度的更新。第二种方法每次更新参数时都需要遍历训练集中的所有样本,计算量比第一种方法小,稳定性更好。2.4.4反向传播算法2.4反向传播算法2.4.4反向传播算法的改进算法1.动量法(Momentum)2.4反向传播算法2.4.4反向传播算法的改进算法2.自适应学习率法在BP算法中,学习率
的作用在于控制权重更新的幅度非常重要。学习率
越大则网络收敛的越快。但学习率也并非越大越好,因为学习率取值过大有可能造成网络无法收敛。学习率
过小,虽然可以有效避免网络振荡或发散,会导致训练网络时的收敛速度变慢1)Adagrad算法2.4反向传播算法2.4.4反向传播算法的改进算法2.自适应学习率法2)RMSprop算法2.4反向传播算法2.4.4反向传播算法的改进算法2.自适应学习率法3)Adam算法Adam算法是一种综合型的学习方法,可以看成是RMSprop和动量法结合的学习方法,可以达到比RMSprop更好的效果。在实际训练中,一般将Adam作为默认算法。2.4反向传播算法2.4.4反向传播算法的改进算法3.随机梯度下降法(SGD)
随机梯度下降法是梯度下降法的一个变形,是针对目前大数据量情况下有效训练神经网络的一种BP算法的优化方法。与常规的梯度下降法不同的是,要累积一个批次(Batchsize)的数据后再计算梯度,进行参数更新。采用随机梯度下降法可以降低运算时间,且在极大程度上避免了计算时容易陷入局部极值的问题。05处理数据和训练模型的技巧2.5处理数据和训练模型的技巧2.5.1数据预处理-数据标准化(1)Z-Score标准化2.5处理数据和训练模型的技巧2.5.1数据预处理-数据标准化1.Z-Score标准化(a)
(b)
(c)图2-9Z-Score标准化2.5处理数据和训练模型的技巧2.5.2数据预处理-数据标准化最小最大标准化2.5处理数据和训练模型的技巧2.5.2权重初始化1.随机数初始化随机数权重初始化的实现方法是生成符合标准正态分布的随机数,并适当缩小(乘以一个小于1的数)。公式如下所示。其中
为生成的符合标准正态分布的权重向量。随机数权重初始可以保证每个人工神经元的权重向量都被初始化为一个服从高斯分布的随机向量。2.5处理数据和训练模型的技巧2.5.2权重初始化2.校准方差2.5处理数据和训练模型的技巧2.5.2权重初始化2.5处理数据和训练模型的技巧2.5.2权重初始化2)Xavier初始化2.5处理数据和训练模型的技巧2.5.2权重初始化3)He初始化2.5处理数据和训练模型的技巧2.5.2权重初始化数据增强解决过拟合最有效的方法就是尽可能的扩充数据集,但大幅度的增加数据是比较困难的。因此可以通过一定规则扩充数据,例如采用平移、翻转、缩放、切割等手段成倍扩充数据库。网络结构
过拟合主要是由于数据太少以及模型太复杂两个原因造成的,可以通过调整网络结构,减少网络层数、神经元的个数来限制网络的拟合能力。训练时间
在初始化网络时,一般都是初始为较小的权值。训练时间越长,部分网络权值可能越大。如果在合适的时间停止训练,就可以将网络的能力限制在一定范围内。
2.5处理数据和训练模型的技巧2.5.3防止过拟合的常用方法正则化Dropout
Dropout方法由Hinton等人提出,该方法在单个训练批次中将一半左右的隐层节点值设为0,使得网络中的每个节点在每次训练时都与不同的节点相连,削弱人工神经元之间的依赖关系,从而达到防止过拟合的效果。2.5处理数据和训练模型的技巧2.5.3防止过拟合的常用方法06本章小结2.6本章小结
本章从生物神经元与生物神经网络出发,介绍了人工神经元模型和以其为基础的人工神经网络的类型,并详细介绍了前向神经网络的基本结构,以及训练神经网络的误差反向传播算法的具体细节。在神经网络的训练方面,本章还介绍了处理数据和训练模型的技巧,帮助模型训练达到事半功倍的效果。感谢您的观看!人工智能技术基础卷积神经网络第三章
卷积神经网络(ConvolutionalNeuralNetworks,CNN)是一类包含卷积计算且具有深层结构的前馈神经网络。卷积神经网络的研究始于20世纪80~90年代,LeNet-5是最早出现的卷积神经网络;2012年,AlexKrizhevsky等凭借AlexNet得了当年的视觉图像挑战赛,震惊世界。自此之后,各类采用卷积神经网络的算法纷纷成为大规模视觉识别竞赛的优胜算法。如今,卷积神经网络已经成为计算机视觉领域最具有影响力的技术手段。
3卷积神经网络简介1.了解图像基本特点,并掌握卷积神经网络的基本特性;2.掌握卷积神经网络的基本组成,卷积层、池化层和全连接层的特性;3.学习常用的几种卷积操作、池化操作以及全连接层的卷积操作,掌握卷积层步长的选择和padding的选择会实现图像语义分割中常用的反卷积和空洞卷积;4.了解几种经典的卷积神经网络模型LeNet5、AlexNet、VGG、GoogleNet、ResNet、DenseNet和SE-Net。学习目标3卷积神经网络目录Contents3.1卷积神经网络的特性卷积神经网络结构与训练卷积神经网络经典模型介绍本章小结3.23.33.401卷积神经网络特性3.1卷积神经网络特性
卷积神经网络具有的局部连接、权值共享和不变性与图像的局部性、相同性和不变性相一致,特别适合处理与图像相关的任务,因此在计算机视觉领域发挥了重要作用。特征定义局部性当需要从一张图片中获取某一特征时,该特征通常不是由整张图片决定的,而是仅由图片中的一些局部区域来决定。相同性对于不同的图片,如果它们具有相同特征,即使这些特征位于不同的位置,但是检测所做的操作是一样的。不变性对于一张图片在进行下采样后,图片的性质基本上是保持不变的,改变的仅仅是图片的尺寸。3.1卷积神经网络特性
全连接神经网络中的每个神经元都与它前一层中的所有神经元相连,如果将图像的每一个像素看作一个神经元,使用全连接网络完成与图像相关的任务,无疑对计算机的存储和运算速度有着很高的要求,而且图像越大,要求越高。并且对于图像来说,每个像素和其周围像素的联系是相对比较紧密的,而和离得很远的像素的联系可能就比较小了。如果一个神经元和上一层所有的神经元相连,那么就相当于对于一个像素来说,把图像的所有像素都同等看待了,缺少了位置信息。而卷积神经网络采用局部连接的方法,每个神经元不再和上一层的所有神经元相连,而只和一小部分神经元相连,这样就减少了很多的参数,加快了学习速度。3.1.1局部连接局部连接全连接3.1卷积神经网络特性
一般神经网络层与层之间的连接是,每个神经元与上一层的全部神经元相连,这些连接权重独立于其他的神经元,所以假设上一层是m个神经元,当前层是n个神经元,那么共有m×n个连接,也就有m×n个权重。权重矩阵就是m×n形状。而在卷积神经网络中,给一张输入图片,通常的做法是用一个卷积核(类似于图像处理中的滤波器,实质为针对一个小区域的一组连接权重)去扫描这张图,卷积核里面的数实质就是神经网络中不同层神经元之间的连接权。权值共享意味着每一个卷积核在遍历整个图像的时候,卷积核的参数(连接权值)是固定不变的,比如有3个卷积核,每个卷积核都会扫描整个图像,在扫描的过程中,卷积核的参数值是固定不变的,即整个图像的所有元素都“共享”了相同的权值。3.1.2权值共享3.1卷积神经网络特性
卷积神经网络中有一种重要的操作:池化操作(通常采用取最大值操作),它将前一层的一个小区域中所有像素值变成了下一层中的一个像素值。这就意味着即使图像经历了一个小的平移或旋转之后,依然会产生相同的特征,这使卷积神经网络对微小的平移和旋转具有不变性。在很多任务中,例如物体检测、语音识别等,我们都更希望得到具有平移和旋转不变性的特征,希望即使图像经过了平移和旋转,图像的标记仍然保持不变。3.1.3不变性02卷积神经网络结构与训练3.2卷积神经网络结构与训练
卷积神经网络由卷积层、池化层和全连接层组成,其训练采用误差反向传播(BP)算法。3.2卷积神经网络结构与训练
3.2.1卷积层图像的像素矩阵1Texthere卷积核填充
在卷积操作过程中,如果不对要进行卷积的图像(隐层的图像称特征图)预先作填充处理,卷积后的图像会变小,卷积层越多,卷积后的特征图会越小。而且输入特征图四个角的边缘像素只被计算一次,而中间像素则被卷积计算多次,意味着丢失图像角落信息。此外,实际应用中有时希望输入和输出在空间上尺寸是一致的。因此,为了解决上述问题,就对输入特征图进行边界填充,即填充像素。常用的边界填充方法包括:零填充、边界复制、镜像、块复制,常用的是零填充。卷积核
在进行图像处理时,给定输入图像,输出图像中的每一个像素就是输入图像中一个小区域中像素的加权平均,其中权值由一个函数定义,这个函数即为卷积核。在卷积神经网络里,通常称之为滤波器。
主要特点:1.卷积核只关注局部特征,局部的程度取决于卷积核的大小;2.卷积核的深度要和输入图片的通道数相同;3.一个卷积核在与输入图片的不同区域做卷积时,它的参数是固定不变的;4.在一个卷积层中,通常会有一整个集合的卷积核组(也称滤波器组),每个卷积核组对应检测一种特征。步长
步长即卷积核在原始图片上做卷积时每次滑动的像素点,步长不同,所得到的输出结果也是不同的。如不加以说明,默认步长为1。3.2卷积神经网络结构与训练步长卷积层填充3.2卷积神经网络结构与训练几种在图像上的卷积过程:单通道卷积多通道卷积3D卷积分组卷积混洗分组卷积3.2.1卷积层多通道+多卷积3D卷积分组卷积混洗分组卷积3.2卷积神经网络结构与训练
在卷积神经网络中,通常会在卷积层之间周期性的插入一个池化层(Pooling),也称下采样层(Downsampling),它的作用有三个:池化层具有特征不变性池化能够对特征进行降维加入池化层能在一定程度上防止过拟合,更方便优化。3.2.2池化层池化过程3.2卷积神经网络结构与训练常用的池化操作有最大池化(Max-pooling)、平均池化(Mean-pooling)。研究人员还提出了针对整个特征图进行的池化操作称为全局池化,也分为全局最大值池化(GMP)和全局平均池化(GAP)。将GMP和GAP的结果并接后用于通道注意力和空间注意力中,提高CNN的性能已成为常用手段。3.2.2池化层3.2卷积神经网络结构与训练卷积层提取的是输入图片的局部特征,全连接层则是把提取到的局部特征重新排列为一维向量。全连接层将局部特征中的每一个点与输出向量中的每一个点都互相连接起来,并且让每个连接都具有独立的权值,所以称为全连接。在卷积神经网络中,全连接层充当着网络的分类器。全连接层可以整合卷积层或者池化层中具有类别区分性的局部信息。3.2.3全连接层卷积层——全连接层3.2卷积神经网络结构与训练卷积神经网络的训练直接采用第2章介绍的误差反向传播(BP)算法,只需注意各层神经元的连接关系和共享特性。批正则化(BN)针对卷积网络的每个神经元,使数据在进入激活函数之前,沿着通道计算每个批次(Batch)的均值、方差,‘强迫’数据保持均值为0,方差为1的正态分布,避免发生梯度消失。3.2.4卷积神经网络的训练批正则化(BN)过程3.2卷积神经网络结构与训练BatchNormalization的优势与局限:优势极大提升了训练速度,收敛过程大大加快;还能增加分类效果,一种解释是这是类似于Dropout的一种防止过拟合的正则化表达方式,所以不用Dropout也能达到相当的效果;另外调参过程也简单多了,对于初始化要求没那么高,而且可以使用大的学习率等。3.2.4卷积神经网络的训练3.2卷积神经网络结构与训练BatchNormalization的优势与局限:2.局限每次是在一个Batch上计算均值、方差,如果Batchsize太小,则计算的均值、方差不足以代表整个数据分布;Batchsize太大:会超过内存容量;需要跑更多的Epoch,导致总训练时间变长;会直接固定梯度下降的方向,导致很难更新;不适用于动态网络结构,例如,RNN。3.2.4卷积神经网络的训练03卷积神经网络经典模型介绍卷积神经网络经典模型LeNetAlexNetVGGGoogleNetResNetDenseNetSE-Net3.3卷积神经网络经典模型介绍LeNet-5模型是YannLeCun教授于1998年在论文《Gradient-basedlearningappliedtodocumentrecognition》中提出的,它是第一个成功应用于手写数字识别问题的卷积神经网络。LeNet的最大贡献是:它定义了CNN的基本结构,可称为CNN的鼻祖。自那时起,CNN最基本的架构就定下来了:卷积层、池化层、全连接层。LeNet-5模型一共有7层,主要有2个卷积层、2个下采样层(池化层)、3个全连接层。3.3卷积神经网络经典模型介绍LeNet-5网络结构3.3.1LeNet网络AlexNet是由2012年图像识别大赛冠军获得者辛顿和他的学生亚历克斯·克里热夫斯基(AlexKrizhevsky)设计的,AlexNet的出现也使得CNN成为了图像分类的核心算法模型。其官方提供的数据模型,准确率Top-1达到57.1%,Top-5达到80.2%。这相对于传统的机器学习分类算法而言,已经相当出色。因为是采用两台GPU服务器,所以会看到两路网络。AlexNet模型共有八层,其中包括5个卷积层和3个全连接层,每一个卷积层中都包含了ReLU激活函数和局部相应归一化(LocalResponseNormalization,LRN)处理。3.3卷积神经网络经典模型介绍AlexNet网络结构3.3.2AlexNet网络VGGNet是VisualGeometryGroup的缩写,是由牛津大学计算机视觉组合和谷歌DeepMind公司研究员一起研发的深度卷积神经网络。VGGNet和GoogleNet同在2014年参赛,图像分类任务中GoogLeNet第一,VGG第二,它们都是十分有意义的网络结构。VGGNet的提出,证明了用尺寸很小的卷积(3×3)来增加网络深度能够有效提升模型的效果,且此网络对其他数据集有较好的泛化能力,同时证明了增加网络的深度能够在一定程度上提升网络最终的性能。VGGNet有两种结构,分别是VGG16和VGG19,两者除了网络深度不一样,其本质并没有什么区别。其中VGG16是最常用的。3.3卷积神经网络经典模型介绍VGGNet网络结构3.3.3VGGNet网络LeNet-5、AlexNet、VGGNet属于早期的网络结构。它们都是通过加深网络、修改卷积核大小等手段来提升性能。虽然这三个网络模型的性能有所提高,但是网络的结构仍然是卷积-池化串联的方式。通过增加网络层数的方式虽然在一定程度上能够增强模型的性能,但是当网络的层数已经很多时,继续增加网络层数,并不能提高模型性能。因此Inception-block、ResNet-block、DenseNet-block、SE-block等模块的提出在一定程度上避免了这种问题,通过模块与模块的不断堆叠组成了Inception、ResNet、DenseNet等经典网络。本节主要介绍Inception-block、ResNet-block、DenseNet-block、SE-block等模块的基本结构。3.3卷积神经网络经典模型介绍3.3.4其它经典网络的基本结构1.Inception-blockInception网络在ILSVRC14中达到了当时最好的分类和检测性能。这个架构的主要特点是能够更好地利用网络内部的计算资源。3.3卷积神经网络经典模型介绍3.3.4其它经典网络的基本结构Inception原始模块1.Inception-blockInception网络在ILSVRC14中达到了当时最好的分类和检测性能。这个架构的主要特点是能够更好地利用网络内部的计算资源。3.3卷积神经网络经典模型介绍3.3.4其它经典网络的基本结构Inception原始模块实现降维Inception模块1.Inception-blockInceptionv2和Inceptionv3来自同一篇论文《RethinkingtheInceptionArchitectureforComputerVision》,作者提出了一系列能够增加准确度和减少计算复杂度的修正方法。3.3卷积神经网络经典模型介绍3.3.4其它经典网络的基本结构InceptionV2模块扩展后的模型1.Inception-blockInceptionv4在2015年被提出,大部分沿用了之前v1、v2的结构,主要是为分片训练考虑。2015年Tensorflow还没有出现,在分片训练时需要考虑各个机器上计算量的平衡来缩短总的训练时间,因此在设计结构时会受到限制。2016年,Tensorflow开始被广泛使用,其在内存的占用上做了优化,所以便不需要采取分片训练,在这一基础上,Inception网络做了优化,于是就有了Iceptionv4。3.3卷积神经网络经典模型介绍3.3.4其它经典网络的基本结构InceptionV4模块2.ResNet-blockResNet引入了残差网络结构(ResidualNetwork),通过这种残差网络结构,可以在加深网络层数的同时得到非常不错的分类效果。残差网络借鉴了高速网络(HighwayNetwork)的跨层连接思想,并在此基础上进行改善,残差项原本是带权值的,但是ResNet用恒等映射作为替代。3.3卷积神经网络经典模型介绍3.3.4其它经典网络的基本结构残差网络基本结构3.DenseNet-blockDenseNet-block的基本思路与ResNet-block一致,但是它建立的是前面所有层与后面层的密集连接(DenseConnection),它的名称也是由此而来。DenseNet的另一大特色是通过特征在通道上的连接来实现特征重用(FeatureReuse)。这些特点让DenseNet在参数和计算成本更少的情形下实现比ResNet更优的性能,DenseNet也因此斩获CVPR2017的最佳论文奖。3.3卷积神经网络经典模型介绍3.3.4其它经典网络的基本结构DenseNet-block的基本结构4.SE-blockSE-Net与ResNext-154相结合以极高的准确率获得了最后一届ImageNet2017竞赛图片分类任务的冠军,有兴趣的读者可以阅读论文《Squeeze-and-ExcitationNetworks》。SE-Net的核心是挤压(Squeeze)和激励(Excitation)两个操作。3.3卷积神经网络经典模型介绍3.3.4其它经典网络的基本结构SE-Net基本结构4.SE-blockSE-Net本质是对每个通道的特征图加权,因此人们也把其称作通道注意力,将其加入某种卷积神经网络结构中使用。3.3卷积神经网络经典模型介绍3.3.4其它经典网络的基本结构SE-Net应用04小结3.4本章总结
本章在介绍图像基本特点的基础上,引出了卷积神经网络的基本特性,进而给出了卷积神经网络的基本组成,分别讨论了卷积层、池化层和全连接层的特性,给出了常用的几种卷积操作、池化操作以及全连接层的卷积操作,强调了在卷积层步长的选择和padding的选择会实现图像语义分割中常用的反卷积和空洞卷积。最后介绍了几种经典的卷积神经网络模型LeNet5、AlexNet、VGG、GoogleNet、ResNet、DenseNet和SE-Net。感谢您的观看!人工智能技术基础循环神经网络第四章
循环神经网络(RecurrentNeuralNetwork,RNN)是一类处理序列数据的人工神经网络。相较于卷积神经网络关注的是数据中的局部特征,循环神经网络关注的是序列数据中按照序列顺序的前后依赖关系。它将先前数据的计算结果与之后的数据一同计算产生新的结果,如此循环往复。正是因为循环网络对于不同时间步的数据不是同时计算的,因而可以处理可变长度的序列数据,大大扩大了应用范围。4循环神经网络简介1.了解RNN的基本知识和形式化的数学模型表示;2.掌握循环神经网络的训练方法;3.掌握标准RNN的前向计算和时间反向传播计算过程;4.掌握几种流行的RNN变体结构;5.了解RNN的应用结构。学习目标4循环神经网络目录Contents4.1循环神经网络的基本结构循环神经网络的训练方法循环神经网络拓展模型循环神经网络的应用结构小结4.24.34.44.501循环神经网络的基本结构4.1循环神经网络的基本结构1990年,JeffreyElman将多层前向神经网络隐层的输出引回到输入层作为联系单元与原输入层单元并列与隐层神经元相连接,构成描述动态系统状态的神经网络模型,当时被称为Elman网,也被称为循环神经网络(RNN),主要用于动态系统建模解决复杂系统预测预报问题。1997年JürgenSchmidhuber将RNN中的简单常规神经元替换成具有更多连接权值的复杂记忆单元,提出了长短期记忆(LongShort-TermMemory,LSTM)模型,使RNN的能力大为提高。2003年YoshuaBengio把RNN用于解决传统语言处理模型的“维度诅咒(CurseofDimensionality)”问题,使其在自然语言处理中开始应用。2012年卷积神经网络在物体分类识别上的成功,使RNN返回研究人员的视野,已在机器翻译、语音识别和个性化推荐等众多领域效果显著,成为解决与时序相关联问题的主要深度神经网络模型。4.1循环神经网络的基本结构RNN物理结构图RNN按时序展开结构图4.1循环神经网络的基本结构从RNN按时序展开的结构可以看到,RNN在每一时刻都有外部输入,反馈形成的环(回)路展开后,上一时刻隐层的输出与本时刻的外部输入同时送入本时刻的隐层,展开的网络深度与输入的时序数据的长度一致,数据越长,网络越深,因此RNN本质上也是深度前向神经网络。RNN按时序展开结构不同于常规前向神经网络,其各隐层的神经元数量是相同的,且网络各层中的输入到隐层的连接权、隐层到隐层的反馈连接权和隐层到输出层的连接权是全网络共享不变的。需要注意的是RNN没有强制要求输入序列与输出序列的长度必须相等。RNN的数学模型如下:4.1循环神经网络的基本结构RNN中隐层神经元激活函数通常采用tanh函数,输出神经元的激活函数则依据所解决的问题确定,如果是二分类问题则使用Sigmoid函数,如果是多分类问题则使用Softmax函数。RNN计算单元02循环神经网络的训练方法4.2循环神经网络的训练方法
RNN可以使用误差反向传播算法的思想进行训练。训练RNN的算法为通过时间反向传播BPTT(BackPropagationThroughTime,BPTT)算法,它和传统的反向传播算法BP有类似之处,它们的核心任务都是利用反向传播调整参数,从而使得损失函数最小化。通过时间反向传播算法,也包含前向计算和反向计算两个步骤。4.2循环神经网络的训练方法标准结构RNN的前向传播过程,如下图所示,为了有效区分不同类型的连接权,分别用U、W、V代表输入权、反馈权和输出权。图中各个符号的含义:x是输入,h是隐层节点,o为输出,L为损失函数,y为训练集的标签。这些元素右上角带的t代表t时刻的状态,其中需要注意的是,因为单元h在t时刻的表现不仅由此刻的输入决定,还受t时刻之前时刻的影响。U、W、V是权值,同一类型的连接权值相同。4.2.1循环神经网络的前向输出流程RNN的前向输出流程4.2循环神经网络的训练方法BPTT算法是常用的训练RNN的方法,其实本质还是BP算法,只不过RNN处理的是时间序列数据,所以要基于时间反向传播,故叫随时间反向传播。BPTT的中心思想和BP算法相同,沿着需要优化参数的负梯度方向不断寻找更优的点直至收敛。因此,BPTT算法还是BP算法,本质上还是梯度下降,那么求各个参数的梯度便成了此算法的核心。需要寻优的参数有三个,分别是U、W、V。与BP算法不同的是,三个参数的寻优过程需要追溯之前的历史数据。4.2.2循环神经网络的训练方法——随时间反向传播4.2循环神经网络的训练方法在梯度累乘过程中,如果取Sigmoid函数作为激活函数的话,那么必然是一堆小数在做乘法,结果就是越乘越小。随着时间序列的不断深入,小数的累乘就会导致梯度越来越小直到接近于0,这就是“梯度消失”现象。梯度消失就意味消失那一层的参数再也不更新,那么那一层隐层就变成了单纯的映射层,毫无意义了,所以在深层神经网络中,有时候多增加层的神经元数量可能会比多加层数即深度更好。RNN的特点就是能“追根溯源”利用历史数据,历史数据越长“梯度消失”越严重,因此解决“梯度消失”越是非常必要的。ReLU函数可以解决循环神经网络中的梯度消失问题。4.2.3循环神经网络中梯度消失和爆炸问题及解决方法1.梯度消失的原因与解决办法4.2循环神经网络的训练方法4.2.3循环神经网络中梯度消失和爆炸问题及解决方法1.梯度消失的原因与解决办法Sigmoid函数及其导数图tanh函数及其导数图ReLU函数及其导数图4.2循环神经网络的训练方法使用ReLU解决了RNN的“梯度消失”问题,但也带来了另一个问题—“梯度爆炸”问题。一旦激活函数的导数恒为1,由于网络权W的取值无约束,连乘很容易使损失函数对连接权的偏导数越来越大(时序越长,RNN展开结构的隐层越多,乘积越大),导致“梯度爆炸”现象的发生。深度前向神经网络的激活函数采用ReLU同样存在“梯度爆炸”问题。“梯度爆炸”问题的解决比较简单,只需要给损失函数对三组连接权的梯度的绝对值设定合适的阈值,限制其最大值就可以解决这个问题。对于“梯度消失”和“梯度爆炸”,通过采取将网络初始权值设为接近0的非常小的数值,对网络的输入值做正则化或归一化处理和对网络隐层输出做逐层正则化(LN)处理等措施,也可在网络训练过程中有效减少这两种现象的发生,提高网络的训练效率。4.2.3循环神经网络中梯度消失和爆炸问题及解决方法2.梯度爆炸的原因与解决办法03循环神经网络拓展模型4.3循环神经网络拓展模型简单循环网络是RNN的一种特殊情况,如图所示,SRNN是一个三层网络,与传统RNN网络结构相比,SRNN只是隐层神经元自身有自反馈,这个反馈并不连接到其它隐层神经元,相当于只在隐层增加了上下文信息。SRNN在20世纪90年代被称为对角回归神经网络。图中I1-In为网络的输入,Y1-Yn为网络的隐层,M1-Mn为上下文单元。从图中可以看出Y1-Yn与M1-Mn为一一对应关系,即上下文单元节点与隐层中节点的连接是固定的,而且相应的权值也是固定的。4.3.1简单循环网络SRNN基本结构4.3循环神经网络拓展模型在循环神经网络的输入和输出目标之间添加与输入时序长度相同的暂存单元,存储所有隐层的输出信息,并增加一个具有反馈连接的隐层,该隐层按输入时序相反的方向顺序接收信息,即首先接受时序输入的最后一个信息,再接受倒数第二个信息,最后接受第一个信息,进而将两个信息流动方向相反的隐层输出同时送入网络的输出层神经元中。按上述思想构造的循环神经网络被称为双向循环神经网络(Bi-directionalRecurrentNeuralNetwork,BRNN)。4.3.2双向循环网络BRNN双向网络基本结构4.3循环神经网络拓展模型1997年JürgenSchmidhuber提出的长短期记忆(LongShort-TermMemory,LSTM)模型,将RNN中的简单MP神经元替换成具有更多连接权值的复杂记忆单元,使其记忆能力和处理复杂系统问题的能力大大提高。LSTM是RNN的一种变体,它通过精妙的门控制将RNN中隐层的状态信息(可以看做长期记忆)和当前时刻的输入信息(可以看作短期记忆)结合起来,有效地提高了RNN解决复杂问题的能力。4.3.3长短期记忆网络长短期记忆网络基本结构4.3循环神经网络拓展模型LSTM的关键就是细胞状态,水平线在图上方贯穿运行。细胞状态类似于传送带,直接在整个链上运行,只有一些少量的线性交互,信息在上面流传保持不变会很容易。LSTM拥有三个门,来保护和控制细胞状态,分别为遗忘门、输入门、输出门。4.3.3长短期记忆网络遗忘门输入门输出门4.3循环神经网络拓展模型门控循环单元(GatedRecurrentUnit,GRU)网络是这些LSTM变体中影响最大的变体。它只有两个门,分别为更新门和重置门,它将遗忘门和输入门合成了一个单一的更新门。更新门用于控制前一时刻的状态信息被带入到当前状态中的程度,更新门的值越大说明前一时刻的状态信息带入越多。重置门用于控制忽略前一时刻的状态信息的程度,重置门的值越小说明忽略得越多。4.3.4门控循环单元网络GRU网络基本结构04循环神经网络的应用结构循环神经网络本身的特性使其特别适合处理时序数据,根据实际应用场景的需要,RNN有四种常用的按时序展开结构:同步的序列到序列结构、序列分类结构、向量到序列结构、异步的序列到序列的模式。它们是针对不同类型的输入输出分别设计的。4.4循环神经网络的应用结构N到N结构又称为变换器(Transducer),最经典的RNN结构要求输入序列和输出序列的长度相同。如图所示,损失函数L为每一时刻隐层节点的输出o(t-l)与相应时刻的期望输出y(t)序列的差异;当前时刻t的隐层节点h(t)输入为上一时刻的隐层h(t-l)输出和当前时刻的序列输入x(t),W为连接权重。虽然这种结构要求输入输出序列长度相同,但是输入和输出序列的长度是可变的,这也正是RNN在处理序列数据时相对于CNN的优势。4.4循环神经网络的应用结构4.4.1同步的序列到序列结构(N到N)N到N的结构N到N结构的典型应用如:计算视频中每一帧的分类标签、词性标注、训练语言模型使用之前的词预测下一个词等。N到1结构又称为接受器(Acceptor),输入x是一个时间序列,输出o是一个单独的值而不是时间序列,最后一个时间步的隐层节点输出用于表示整个输入序列x的特征,也可以用最后全部时间步的隐层节点输出的某个函数值fo来表示序列x的特征。N到1结构通常用来处理序列分类问题,如一段语音、一段文字的类别,句子的情感分析,视频序列的类别判断等。4.4循环神经网络的应用结构4.4.2序列分类结构(N到1)N到1的结构1到N结构的网络输入为固定长度的向量,而非上文中的按照时间展开的向量序列。常用的1到N结构中,有一种结构只在序列开始进行输入,而每一个时间步都有输出。另一种为在隐层的每一个时间步都将x作为输入。图中当前时间步的期望输出也作为下一时间步的隐层节点输入,是该结构的另一种变体。1到N结构常用于图像理解。4.4循环神经网络的应用结构4.4.3向量到序列结构(1到N)1到N结构首步输入1到N结构每步输入N到M的结构又叫编码-译码(Encoder-Decoder)模型,也可称之为Seq2Seq模型。N到N结构的RNN要求输入和输出序列长度相同,编码-译码模型则不受此约束限制。用一个编码网络将输入的序列编码为一个上下文向量c。然后,用一个译码网络对c进行译码,将其变成输出序列。N到M结构实质上使用了2个RNN,编码器是一个N到1展开结构的RNN,译码器是一个1到M的展开结构RNN。N到M结构常用于语言翻译。4.4循环神经网络的应用结构4.4.4异步的序列到序列的模式(N到M)N到M的编码器-译码器结构05总结4.5本章总结
本章介绍了RNN的基本知识和形式化的数学模型表示,给出了标准RNN的前向计算和时间反向传播计算过程。针对RNN在实际问题中遇到的问题和困难,介绍了几种流行的RNN变体结构构成的解决方案。最后给出了针对不同应用环境中对于输入输出形式的不同要求而设计的N到N、N到1、1到N、N到M几种主要应用结构。感谢您的观看!人工智能技术基础注意力机制第五章
注意力机制(AttentionMechanism)是人类特有的大脑信号处理机制。例如,人类视觉通过快速扫描全局图像获得需要重点关注的目标区域,也就是一般所说的注意力焦点,而后对这一区域投入更多注意力资源,获取更多需要关注目标的细节信息,抑制其他无用信息,人类的听觉也具有同样的功能。5注意力机制简介5注意力机制简介
注意力机制是利用有限的注意力资源从大量信息中快速筛选出高价值信息的手段,所以说注意力机制中最跟本的问题,其实就是“选择”。
在深度神经网络学习中,一般而言模型的参数越多则模型的表达能力越强,模型所存储的信息量也越大,但这会带来信息过载的问题。那么通过引入注意力机制,在众多的输入信息中聚焦于对当前任务更为关键的信息,降低对其他信息的关注度,甚至过滤掉无关信息,就可以解决信息过载问题,并提高任务处理的效率和准确性。下图为计算机视觉中的注意力机制:红色表示需要重点关注的部分,蓝色表示可以酌情忽略的部分。1.
了解注意力机制的定义和分类;2.掌握软注意力机制原理及计算过程;3.掌握卷积网络中常用的通道注意力和空间注意力的特性和应用,以及常见的方案和改进措施;4.了解自注意力机制的输入方式及特性,了解自注意力机制在视觉领域的应用;5.了解互注意力机制的特性。5注意力机制学习目标目录Contents5.1软注意力机制的原理及计算过程通道注意力和空间注意力自注意力机制互注意力机制本章小结5.25.35.45.501软注意力机制的原理及计算过程5.1软注意力机制的原理及计算过程软注意力机制的计算过程包括3个步骤:5.1软
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 某大型房地产公司合同
- 小麦秸秆购销合同
- 酒店管理与经营合作协议
- 建筑工地承包食堂的合同
- 重庆市居间合同
- 人教版五年级下册求最大公因数练习100题及答案
- Unit 5 Launching your career Apply for a summer job教学设计-2024-2025学年高中英语人教版(2019)选择性必修第四册
- 2025年云安全服务项目建议书
- 24《司马光》教学设计-2024-2025学年语文三年级上册统编版
- 油罐区智能防雷接地设计方案
- 人因工程学第1章人因工程学概述
- 热烈欢迎领导莅临指导工作动态PPT模板
- 生产管理的目标QCDSM
- 战地卫生与救护教案培训讲学
- 2022版《义务教育数学课程标准》测试题
- 全面介绍现货中远期交易
- 公安系防暴安全03安检
- 四年级下册音乐课件第一课时-感知音乐中的旋律三
- 部编版六年级道德与法治下册《学会反思》教案
- 部编版四年级下册语文教案(完整)
- T∕CIS 71001-2021 化工安全仪表系统安全要求规格书编制导则
评论
0/150
提交评论