《深度学习：基于PyTorch 》课件第6、7章：经典CNN模型介绍、序列模型

上传人：h*** IP属地：山东上传时间：2024-02-21 格式：PPTX 页数：114 大小：14.67MB 积分：25 举报 版权申诉

《深度学习：基于PyTorch 》课件第6、7章：经典CNN模型介绍、序列模型_第2页

《深度学习：基于PyTorch 》课件第6、7章：经典CNN模型介绍、序列模型_第3页

《深度学习：基于PyTorch 》课件第6、7章：经典CNN模型介绍、序列模型_第4页

《深度学习：基于PyTorch 》课件第6、7章：经典CNN模型介绍、序列模型_第5页

已阅读5页，还剩109页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第六章：经典CNN模型介绍1.

AlexNet模型原理与实现2.VGG模型原理与实现3.InceptionV1模型原理与实现4.ResNet模型原理与实现5.批量归一化（BN）原理与实现6.数据增强（DA）原理与实现7.迁移学习原理与实现学习目标AlexNetAlexNet介绍：ImageNet竞赛冠军获得者Hinton和他的学生KrizhevskyAlex于2012年设计。ImageNet竞赛中第一个使用卷积神经网络的参赛者。AlexNet网络结构：8层卷积层池化层卷积层池化层卷积层卷积层卷积层池化层输出层：三个全连接层AlexNet网络结构AlexNet网络结构AlexNet创新点：成功使用ReLU作为CNN的激活函数；使用Dropout随机忽略一部分神经元，避免模型过拟合；在CNN中使用重叠的最大值池化(步长小于卷积核)；提出局部响应归一化层（LocalResponseNormalization，LRN），后逐渐被BN（BatchNormalization）代替；使用CUDA加速神经网络的训练，利用了GPU强大的计算能力；采用了数据增强（DataAugmentation）技术，达到增加样本量的目的。AlexNet创新点局部响应归一化是对同层神经元、邻近特征映射进行局部归一化应用在激活函数之后归一化（Normalization）方法泛指把数据特征转换为相同尺度的方法，比如把数据特征映射到[0,1]或[−1,1]区间内，或者映射为服从均值为0、方差为1的标准正态分布．案例：CIFAR10数据集介绍

Cifar10数据的获取AlexNet用于Cifar10的Pytorch代码VGGVGG（VisualGeometryGroup,DepartmentofEngineeringScience,UniversityofOxford）牛津大学计算机视觉组和DeepMind公司共同研发的一种深度卷积神经网络VGG网络结构：6种从左到右深度越来越深加粗体表示新增的层所有网络结构都包含5组卷积操作，每组卷积包含一定数量的卷积层——可以看作一个五阶段的卷积特征提取。获得2014年ILSVRC分类项目第2名VGG网络结构输入层：224×224×3的彩色图像。第1组卷积层（2次卷积）：Conv2D(3×3，64),Stride(1),same,ReLU,Output:224×224×64。第1个池化层：MaxPooling2D(2×2),Stride(2),Output:112×112×64。第2组卷积层（2次卷积）：Conv2D(3×3，128),Stride(1),same,ReLU,Output:112×112×128。第2个池化层：MaxPooling2D(2×2),Stride(2),Output:。第3组卷积层（3次卷积）：Conv2D(3×3，256),Stride(1),same,ReLU,Output:56×56×256。第3个池化层：MaxPooling2D(2×2),Stride(2),Output:。第4组卷积层（3次卷积）：Conv2D(3×3，512),Stride(1),same,ReLU,Output:28×28×512。第4个池化层：MaxPooling2D(2×2),Stride(2),Output:。第5组卷积层（3次卷积）：Conv2D(3×3，512),Stride(1),same,ReLU,Output:。第5个池化层：MaxPooling2D(),Stride(2),Output:。输出层：Flatten，Dense(4096)，Dense（4096），Dense（1000）。VGG网络结构VGG16网络结构：5组卷积组和3个全连接层VGG网络结构VGG模型的Pytorch实现VGG模型的Pytorch实现BatchNormalization技巧批量归一化（BatchNormalization,

BN）方法是一种有效的逐层归一化方法，可以对神经网络中任意的中间层进行归一化操作（Ioffeetal.,2015）.为了提高优化效率，就要使得净输入𝒛(𝑙)的分布一致，比如都归一化到标准正态分布一般使用标准化将净输入𝒛(𝑙)的每一维都归一到标准正态分布𝒛(𝑙)的期望和方差通常用当前小批量样本集的均值和方差近似估计给定一个包含𝐾个样本的小批量样本集合，第𝑙层神经元的净输入𝒛(1,𝑙)⋯,𝒛(𝐾,𝑙)的均值和方差为BatchNormalization的核心思想对净输入𝒛(𝑙)的标准归一化会使得其取值集中到0附近，如果使用Sigmoid型激活函数时，这个取值区间刚好是接近线性变换的区间，减弱了神经网络的非线性性质．因此，为了使得归一化不对网络的表示能力造成负面影响，可以通过一个附加的缩放和平移变换改变取值区间BatchNormalization的核心思想：BatchNormalization:AcceleratingDeepNetworkTrainingbyReducingInternalCovariateShiftBatchNormalization的核心思想

BatchNormalization的核心思想案例：猫狗数据集训练核心任务：对猫和狗进行分类其中训练集和验证集进行了规范化的格式存储样本量：15000张训练，10000张验证，猫狗各50%读入猫狗数据

带有BN的宽模型这个模型中，卷积核的个数减少，但是模型的层数增加。每一层使用20个卷积核，进行一个长度为7的循环，每一步要重复一个卷积和池化的基本操作，其中卷积层进行规格大小为2×2的same卷积，池化层进行规格大小为2×2的最大值池化。BN总结：BatchNormalization在很多情况下确实是帮助巨大的，但并不是对所有情况都有帮助。在什么情况下BatchNormalization能够让结果变好，在什么情况下没有帮助是不清楚的，是值得我们思考和研究的。带有BN的深度模型DataAugmentation技巧DataAugmentation被翻译成“数据增强”，或者“数据增广”。它通过对数据施加各种变换来达到增加样本量的目的。数据增强是深度学习中除了BatchNormalization外另一个非常常用的技巧。DataAugmentation技巧人和计算机处理图像不同。原来的图像被拉伸、变换或旋转，对计算机而言都是一个全新的矩阵。计算机对图像数据用矩阵形式表达不充分。把一张图像变成矩阵的过程中，是有信息损失的，而这些损失的信息很宝贵，有可能帮助我们把模型做得更好。DataAugmentation核心思想（1）RandomHorizontalFlip：允许水平方向的翻转。（2）RandomCrop：随机裁剪，参数size代表剪切后的图片尺寸，参数padding代表裁剪前首先在图片外补0。（3）RandomAffine：对坐标进行仿射变换，由五种基本变换构成，分别为旋转、平移、缩放、错切和翻转。Degrees：最大旋转角度；Translate：最大平移区间，如(a,b)，a代表宽，b代表高；Scale：缩放比例区间，如(a,b)，则图片在a,b间缩放；Shear：最大错切角度，分为水平错切和垂直错切；若shear=a，则仅在x轴错切，若shear=(a,b)，则a设置x轴角度，b设置y轴角度。Pytorch实现数据增强数据增强究竟增加了多少样本？（1）每一条规则前都带有Random，说明这种变换是随机的（2）同一张图片，在第1个Epoch和第2个Epoch经过数据变换后的输出是有区别的第1个epoch第2个epochInceptionInception介绍：由Google团队提出，因此也被称为GoogleNet；该模型一共有4个版本，从V1到V4；通过增加网络的宽度（通道数）来提升训练效果。InceptionV1网络结构InceptionV1模块由多个Inception基础模块串联而成。获得了ILSVRC2014挑战赛分类项目的冠军InceptionV1基础模块Inception网络结构InceptionV1模块创新点：1.InceptionV1使用多个不同尺寸的卷积核（直观理解：叠加不同尺寸的卷积核，可以从细节上提取更丰富的特征）。Inception网络结构

Inception网络结构举例说明：1*1的卷积核是如何起到减少参数的作用的？Inception网络结构InceptionV1完整的网络结构输入层卷积层卷积层Inception3a层Inception3b层……Inception网络结构Pytorch构建Inception基础模块Pytorch构建Inception模型ResNet

ResNet网络结构残差学习模块的优势：简化学习难度——传统的卷积神经网络或者全连接网络，在信息传递时，或多或少会存在信息丢失、损耗等问题，同时还会导致梯度消失或梯度爆炸，使得很深的网络无法训练。ResNet中常用的残差学习模块：常见的ResNet有50层、101层和152层。常见ResNet学习模块ResNet网络结构34层ResNet网络结构：conv1层conv2_x层conv3_x层conv4_x层conv5_x层全连接层ResNet网络结构FullyconnectedvsGlobalAveragePooling迁移学习深度学习的现实困难：经典的网络模型太多计算太昂贵，这里既包括硬件，也包括数据集深度学习的现实困难迁移学习（TransferLearning）是指将某个领域或任务上学习到的知识或模式应用到不同，但相关的领域或问题中。需要注意：输入与输出站在前人的肩膀上，用别人的模型、参数。分为预训练迁移和固定值迁移。预训练迁移：迁移过来的权重视为初始权重，训练过程中会被梯度下降算法更改固定值迁移：迁移过来的权重保持固定值不变，训练过程仅针对后面的全连接网络迁移学习原理迁移学习实施流程多层CNN多层CNN多层CNN普通图像卫星遥感图像卫星遥感图像预训练迁移固定值迁移物体分类夜光亮度贫困程度迁移学习用于猫狗数据分析第七章：序列模型1．Word2Vec的原理与应用RNN与LSTM模型的工作原理如何训练一个RNN模型用于机器作诗如何训练一个LSTM模型用于乐曲生成编码-解码模型的原理如何训练一个端到端的机器翻译模型学习目标词嵌入词嵌入（WordEmbedding）词嵌入（WordEmbedding）是深度学习中一种流行的用于表示文本数据的方法，即将文本转换为数值的表示形式，一种常见的方式是转换为one-hot形式0123456789010000000001010000000020010000000…8000000001090000000001对0-9数字重新编码词汇表征与语义相似性预测括号中的内容Iwantabottleoforange（）可能的方法步骤：把每个单词进行one-hot编码会形成一个超大的稀疏矩阵学习输入到输出的映射关系缺点：会产生维数灾难不能很好的获取词语与词语之间的相似性

对词语相似性的两种理解两个词经常在一起出现，例如：周末加班语义相关性——把这两个词的位置互换，相应的句子仍然是自然语言词语相似性本章更多关注的是语义相关性语义相关性的几何理解首先，把一个个抽象的词或句子映射到一个欧式空间中，因为欧式空间有距离的概念。需要建立一个映射关系，将词或者短句，映射到带有距离的高维欧式空间中。这样的目标称为词嵌入（WordEmbedding），即把一个个word（词），embed（嵌入）高维的欧氏空间中。词嵌入（WordEmbedding）举例：词嵌入的数学表达词嵌入就是要通过大量的文本数据学习，找到每一个词汇与高维空间的映射关系，表示该词汇在抽象空间中的位置，即它的坐标。三个词：酒店，宾馆，旅店所有的相对距离是保持不变的。这说明抽象空间中词汇的位置不可识别。词嵌入的理论原理词嵌入经典文献由托马斯·米克罗夫（TomasMikolov）等人在2013年ICLR大会上的一篇论文中提出根据上下文来预测中间词的连续词袋（continuousbag-of-words,CBOW）模型根据中间词来预测上下文的跳字（skip-gram）模型词嵌入的理论原理

词嵌入的理论原理

案例数据来源：IMDB影评数据集，收集了25000条IMDB网站上的英文影评文本及评论的情感正负向标签数据读入与展示词嵌入的程序实现分词及结果展示词嵌入的程序实现词嵌入函数——Word2Vec函数size：虚拟空间维度min_count：词频小于min_count的词不被考虑维度越低，参数越少，越灵活维度越高，参数越高，需要的样本量越大，计算时间越多词嵌入的程序实现词语相似性结果演示——model.wv.similarity函数词嵌入的程序实现绘制星空图进行可视化：bad、director、zombie词嵌入的程序实现RNN模型与机器自动作诗诗，是一种艺术作诗讲究“前言搭后语”机器作诗与回归分析机器作诗其实就是一个回归分析的概率问题。通过学习现有诗歌的搭配规律，机器也能作诗！机器作诗原理

机器作诗原理

RNN前期知识一个更为合理的建模方式对序列数据中的信息充分提取，将历史信息传递下来RNN前期知识

RNN前期知识

循环神经网络（RecurrentNeuralNetwork，RNN）是状态空间模型在文本序列数据上的一种具体的实现方法。它的核心思想是不断保留与传递历史信息，而保留和传递的载体就是状态。状态能够沉淀非常丰富的历史信息，有助于整个序列合理精确地向前演进。早期的相关RNN的文献RNN模型

RNN模型

更为一般的RNN模型展示

数据读入与展示读入与展示数据读入数据创建字符编码字典读入数据对诗歌进行编码，从原始数据到矩阵数据处理：从原始数据到矩阵数据处理：处理长短不一并对其X和Y这里需要注意的是数据，以“春眠不觉晓”这句诗为例，输入是“春眠不觉”，预测的目标是“眠不觉晓”:输入“春”的时候，网络预测的下一个字的目标是“眠”。输入“眠”的时候，网络预测的下一个字的目标是“不”。输入“不”的时候，网络预测的下一个字的目标是“觉”。输入“觉”的时候，网络预测的下一个字的目标是“晓”。……保证X和Y是这种“错位”的关系数据处理：补0、对齐X和Y构建RNN模型参数个数计算RNN写藏头诗poem_incomplete=‘深****度****学****习****‘…原理实现：RNN作诗LSTM模型与自动作曲RNN无法实现长期记忆性。skyFrench短句子长句子LSTM前期知识思考：如何实现长期记忆性？LSTM前期知识

LSTM前期知识长短期记忆模型（LongShortTermMemory，LSTM）——既兼顾长期记忆性（longtermdependency），又兼顾短期记忆性（shorttermdependency）LSTM是RNN的一个优秀的变种模型，能很好的处理“长距离依赖”问题。LSTM模型LSTM模型LSTM的非线性变换遗忘门——长期状态变量继承的更新输入门——长期状态变量吸收的更新输出门——长期状态变量的输出更新LSTM模型的三个门LSTM的非线性变换遗忘门——长期状态变量继承的更新：数据需要“过滤”一部分信息LSTM模型：遗忘门LSTM的非线性变换输入门——长期状态变量吸收的更新：下一时刻的状态需要加入多少“新信息”LSTM模型：输入门LSTM的非线性变换输出门——长期状态变量的输出更新LSTM模型：输出门MIDI乐曲文件格式介绍midi格式音乐的特征是其主要存储了音乐所使用的乐器以及具体的音乐序列(或者说音轨)及序列中每个时间点的音符信息。具体而言，每首音乐往往由多个音乐序列（或者说音轨）组成，即midi文件中的parts,（各个part在播放时是一起并行播放的）每个part又由许多elements组成，可以理解为就是按时间顺序排列的音符（包括和弦）序列，主要以数字和字母组合的音高符号来记录。利用LSTM自动作曲提供的文件Musicians：音乐家列表Seqs：乐曲序列Namelist：每首乐曲对应的音乐家例子：对音符进行编码利用LSTM自动作曲数据预处理统一维度，对于不足维度的进行补0处理（例如本例中设置为1000）与作诗类似，每次预测下一个音符，输入的是前一个音符教材中采取的是只把最后一个音符作为Y，其他前面所有的作为X（需要改进）利用LSTM自动作曲共有614首曲子，最大维度为1000，“掐头去尾”工作模型构建思路考虑到不同音乐家的乐曲风格存在差异，这里尝试用乐曲所属音乐家的序号（one-hot向量化）经可训练的dense层变换后的特征向量对不同音乐家乐曲的LSTM隐藏变量进行不同的初始化，以试图帮助模型适应不同音乐家在乐曲风格上可能存在的差异。利用LSTM自动作曲生成指定音乐家的音乐根据已有的部分乐谱，生成一首新的乐曲，并且考虑音乐家的要素。预测过程如下：首先，指定音乐家的风格，将其作为模型的一部分输入来进行隐藏状态的条件初始化其次，从所指定的音乐家乐曲中随机挑选一首作为提供部分乐谱的依据最后，与作诗模型预测类似的预测过程（只不过输入部分增加了我们所指定的音乐家向量）利用LSTM自动作曲编码-解码框架：机器翻译文本序列分析一个最广泛的应用就是机器翻译机器翻译原理机器翻译貌似很简单然而，现实是……回归分析视角模型挑战：长度不确定的时间序

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《深度学习：基于PyTorch 》 课件 第6、7章：经典CNN模型介绍、序列模型

文档简介

温馨提示

最新文档

评论

相关文档

《深度学习：基于PyTorch 》课件第6、7章：经典CNN模型介绍、序列模型