版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三章:前馈神经网络学习目标前馈神经网络的基本结构常见激活函数及其优缺点常见损失函数的设置梯度下降算法及其扩展反向传播算法原理过拟合及其常用处理方法前馈神经网络的基本结构M-P神经元模型M-P神经元模型:首个模拟生物神经元的结构和工作原理构造出来的一个抽象和简化了的数学模型。它由心理学家沃伦·麦卡洛克(WarrenMcCulloch)和数理逻辑学家沃尔特·皮兹(WalterPitts)在1943年提出并以二人的名字命名。该模型旨在模拟从多输入到单输出的信息处理单元。M-P模型的工作步骤:神经元接受n个输入信号。将输入与权值参数进行加权求和并经过阶跃函数激活。将激活结果作为结果输出。人为设定参数值神经元
激活函数激活函数就是指非线性变换。对线性组合的结果施加一个非线性变换,就为神经网络各层之间的连接方式提供了一种非线性的变换方式,而非线性变换打破了“线性组合的线性组合”这样一种循环,多层神经网络相比于单层网络有了更丰富的函数形式。 常用的激活函数:Sigmoid激活函数Tanh激活函数ReLu激活函数其他激活函数:leakyReLU、elu、cReLU、selu、ReLU6、softplus、softsign……Sigmoid激活函数值域有界,神经元的输出不会爆炸输出非负,可以直接看做概率分布。连续可导,梯度可以显式计算原函数导数无法实现神经元的激活值为负有可能会发生梯度退化或消失对于复杂网络求解梯度十分复杂Tanh激活函数继承了Sigmoid函数一系列优缺点区别在于Tanh函数更适合让神经元产生与输入符号一致的非概率输出原函数导数ReLU激活函数原函数导数导数简单,计算和优化将更高效不是两端饱和函数,缓解梯度消失问题舍弃神经元负信号,使神经网络具有稀疏的特点神经元的输入与输出之间存在均值偏移有可能导致神经元“死亡”的现象LeakyReLU缓解神经元“死亡”现象四种激活函数示意图前馈神经网络的构成前馈神经网络具有很强的拟合能力,用具有有限多的隐藏层神经元可以逼近任意的有限区间内的曲线这被称之为通用逼近定理UniversalApproximationTheorem
损失函数与梯度下降算法损失函数
梯度下降算法
小批量梯度下降算法
ImageNet14,197,122
images小批量梯度下降算法
小批量梯度下降算法
梯度下降算法的改进梯度估计修正在MGD算法中,如果批量数比较小,损失会呈现震荡的方式下降,说明每次迭代的梯度估计和整个训练集上的最优梯度不一致,具有一定的随机性,此时可以进行梯度估计修正改进算法:动量梯度下降、梯度加速法学习率调整学习率的设置也很重要,过大可能不会收敛,过小可能收敛太慢自适应学习率调整算法:AdaGrad、AdaDelta、RMSprop综合法Adam:动量法+RMSprop法的结合动量梯度下降算法
Nesterov梯度加速算法
AdaGrad算法
AdaGrad算法(续)优点:可以进行学习率的自适应调整缺点:分母是所有历史信息的求和,因此会随着迭代变得越来越大,从而使得学习率衰减过快AdaDelta算法更新公式:解决AdaGrad中历史梯度累积平方和单调递增的问题AdaDelta不再使用全部历史信息,而是使用某个固定窗宽内的历史梯度信息计算累计平方和。计算固定窗宽内的梯度累积平方和需要存储多个历史梯度平方的信息,AdaDelta转而使用指数加权的方式累积历史信息AdaDelta作者指出此前梯度类算法参数的单位没有保持一致,因此又更新了第二阶段的AdaDelta算法,详见教材公式
均方根加速(RMSprop)更新公式:与AdaDelta算法思路十分相似,同年提出(但未发表),与第一阶段AdaDelta公式一致。
Adam算法更新公式:将动量法与RMSprop结合起来考虑的算法
各种算法的收敛过程推荐阅读材料:/dl2017/html/lesson2-week2.html反向传播算法:单个神经元
反向传播算法:单个神经元反向传播算法:单个神经元
反向传播算法:两层神经网络
反向传播算法:两层神经网络
反向传播算法:两层神经网络
反向传播算法:两层神经网络
神经网络的训练流程初始化参数。常用的初始化方法有常数初始化、正态分布类初始化、均匀分布类初始化等。切分batch数据。神经网络每一轮训练不是用全部数据,而是选取一定量的数据样本作为输入,这部分数据样本称为一个batch。前向传播建立损失函数反向传播是否达到迭代次数,如果达到,则结束本轮训练,如果未达到,则继续重复前面的步骤进行新一轮迭代。神经网络的过拟合及处理方法过拟合
期望损失的极小值
过拟合欠拟合过拟合适度拟合过拟合(Overfitting)是指在模型训练过程中,模型对训练数据学习过度,将数据中包含的噪声和误差也学习了,使得模型在训练集上表现很好,而在测试集上表现很差的现象。偏差-方差分解
无法通过模型改变的理论下界
偏差-方差分解
偏差方差偏差:一个模型在不同训练集上的平均性能与最优模型的差异,衡量模型的拟合能力。方差:一个模型在不同训练集上的差异,衡量一个模型是否容易过拟合。偏差-方差分解左上角:最理想的情况左下角:泛化能力很好,但拟合能力不足右上角:拟合能力很好,但泛化能力较差右下角:最差的情况训练误差V.S.测试误差判断是否存在高偏差或高方差的关键:训练误差V.S.测试误差训练误差5%20%20%1%测试误差20%5%30%2%高方差高偏差高偏差&高方差低偏差&低方差高偏差:换一个更复杂的网络或更先进的算法、增加数据特征等高方差:降低模型复杂度、增加更多的数据集、集成模型等正则化方法
正则化方法权重衰减
Dropout方法Dropout方法由辛顿(Hinton)教授团队提出,它是指在神经网络训练的过程中,将某一层的单元(不包括输出层的单元)数据随机丢弃一部分。目的:简化神经网络结构,防止神经网络过拟合原理:对每一层的神经元,设定一个失活(Drop)概率带dropout的神经网络带dropout的神经网络模型的分类效果推荐学习资料:/dl2017/html/lesson2-week1.html第四章:神经网络的Pytorch实现1.利用神经网络进行回归任务的设计思路2.利用神经网络进行分类任务的设计思路3.线性回归案例:颜值打分模型4.二分类案例:性别预测模型5.多分类案例:Fashion-MNIST数据集分类学习目标线性回归案例:颜值打分
线性回归模型数据介绍:图像来源:本案例使用的数据来自华南理工大学在2018年发布的SCUT-FBP5500-Database数据集及相关论文,该数据集包含共5500张彩色正面人脸图片,其中2000张亚洲男性,2000张亚洲女性,750张高加索男性,750张高加索女性。因变量:研究组招募了60名志愿者给随机展示的人脸照片进行1-5打分(得分越高代表越好看)。为了演示本案例的颜值打分模型,我们将每张照片的得分取平均值作为该张照片的最终颜值得分。案例:颜值打分
案例:颜值打分定义Dataset类可以定义自己的数据类用于原始数据的读取和预处理也可以继承pytorch中的Dataset类提供一种方式去获取数据及其对应的真实Label
案例:颜值打分模板:一般在类中首先需要写的是__init__方法,此方法用于对象实例化,提供类中需要使用的变量,其中self可以当做类中的全局变量idx是index的简称,就是一个编号,用于对我们初始化中得到的文件名列表进行索引访问统计数据集中的数据数量
案例:颜值打分构建dataset类用于读取:图片数据:X颜值打分:Y
案例:颜值打分对图片数据进行必要的预处理,并划分训练集和验证集
案例:颜值打分尽管Dataset类可以通过迭代的方式读取每一个数据,但是很难实现多线程读取(即读取batch数据)迭代次数(iteration)=样本总数(epoch)/批尺寸(batchszie)DataLoader的使用用来处理模型输入数据的一个工具类。组合了数据集(dataset)+采样器(sampler),并在数据集上提供单线程或多线程(num_workers)的可迭代对象。
案例:颜值打分在进行后续建模前,首先要展示下读取的数据是否正确,一般进行可视化展示
案例:颜值打分构建线性回归模型Pytorch里编写神经网络模型的组件:nn.Module模板如下:所有模型的构建从nn.Module继承建立一个计算图,结构可以复用多次案例:颜值打分输出层形状该层参数量案例:颜值打分开始模型训练首先定义验证集的损失和评估指标案例:颜值打分定义主函数:模型训练案例:颜值打分模型训练过程展示案例:颜值打分模型预测:给定一张照片,给出预测的颜值得分作业:美食评分模型作业:美食评分模型数据介绍:图像来源:Flickr上收集用户上传的经人工筛选后的196张食物图像因变量:由5人小组对每张美食图像进行1~5评分,最后取平均分作为每张图像的最终得分(其中1分代表图像非常不吸引人,5分代表图像非常吸引人)逻辑回归模型的Pytorch实现
逻辑回归模型
案例:性别识别自定义Dataset类此时的Y是二分类
案例:性别识别构建逻辑回归模型也可以采取Sigmoid函数案例:性别识别分类模型的评估指标:Accuracy案例:性别识别模型预测
Softmax回归模型数据集介绍:Fashion-MNIST数据集包含了10个类别的图像,分别是:t-shirt(T恤),trou
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年外研衔接版八年级历史上册月考试卷含答案
- 2025年广西经济职业学院高职单招高职单招英语2016-2024历年频考点试题含答案解析
- 2025年教师招聘之幼儿教师招聘考试题库(含答案能力提升)
- 2025年安徽交通职业技术学院高职单招职业技能测试近5年常考版参考题库含答案解析
- 2025年宁德职业技术学院高职单招职业适应性测试近5年常考版参考题库含答案解析
- 2025年大理农林职业技术学院高职单招语文2018-2024历年参考题库频考点含答案解析
- 2025年哈尔滨科学技术职业学院高职单招语文2018-2024历年参考题库频考点含答案解析
- 2025年高考语文全国甲卷复习:类文本阅读 模拟试题汇编(含答案解析)
- 2025至2031年中国长袖汗布T恤衫行业投资前景及策略咨询研究报告
- 2025至2031年中国熨斗芯行业投资前景及策略咨询研究报告
- (新版)工业机器人系统操作员(三级)职业鉴定理论考试题库(含答案)
- 教育环境分析报告
- 人力资源服务公司章程
- (正式版)CB∕T 4552-2024 船舶行业企业安全生产文件编制和管理规定
- 病案管理质量控制指标检查要点
- 2024年西藏中考物理模拟试题及参考答案
- 九型人格与领导力讲义
- 人教版五年级上册数学脱式计算练习200题及答案
- 卵巢黄体囊肿破裂教学查房
- 医院定岗定编
- 2023年大学物理化学实验报告化学电池温度系数的测定
评论
0/150
提交评论