前馈神经网络_第1页
前馈神经网络_第2页
前馈神经网络_第3页
前馈神经网络_第4页
前馈神经网络_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

人工神经网络及其应用 第三讲前馈网络主讲人 方涛 第三讲前馈网络 主讲内容 3 1BP网络模型及原理 3 2前馈网络的隐含层设计 3 3初始连接权的设置及影响 3 4Questions 3 5Homework 3 1BP网络模型及原理 3 1 1神经网络信息处理的数学过程3 1 2BP网络算法概述3 1 3BP网络算法的原理3 1 4BP网络算法中常用的激励函数3 1 5BP网络算法的若干改进 3 1 1神经网络信息处理的数学过程3 1 1 1执行过程 阶段 神经网络对输入信息进行处理 并产生对应的输出 在这个阶段网络的连接结构和权系数已不再变化 3 1 1 2学习过程 阶段 实际上是神经网络的自我完善阶段 即网络按照一定的学习规则修正连接权 使得给定的测度函数E 最小方差等 达到最小 测度函数学习训练公式的一般形式 3 1BP网络模型及原理 比如剃度学习算法神经网络对信息处理过程一般都要经过执行阶段和学习阶段的反复迭代过程 学习过程是为了取得对信息的适应特性 执行过程是对信息的检索或者分类 这是神经网络中两个不可分割的阶段 通过学习阶段 将神经网络训练成对某类信息模式特别敏感 或者具有某种特征的动力学系统 通过执行阶段 使得网络能够识别有关的信息模式或者特征 3 1BP网络模型及原理 3 1 2BP网络算法概述3 1 2 1BP算法概述最初由Werbos开发的反向传播训练算法 是一种迭代梯度算法 用于求解前馈网络的实际输出与期望输出间的最小均方差值 BP网是一种反向传递并能修正误差的多层映射网络 当参数适当时 此网络能够收敛到较小的均方差 BP网的短处是训练时间较长 且易陷于局部极小 3 1 2 2BP神经网络的几个基本概念 学习速率参数 振荡 3 1BP网络模型及原理 3 1 3BP网络算法的原理BP网络算法是为解决多层前馈网络连接权优化才提出的 是一种无反馈的多层前馈网络 以Rumelhart和McClelland为首的并行分布处理 PDP 的研究小组1986年提出 BP算法是应用最广泛的学习算法之一 感知器的学习算法是一种单层网络的学习算法 不能用于多层网络的学习算法 BP算法解决了多层网络的学习问题 并不象Minsky等人预料的那样弱的学习能力 相反它可以完成许多学习任务 解决许多实际问题 也因此推动了前馈式神经网络的研究 BP算法目前已成为迄今为止应用最普遍的神经网络学习算法 3 1BP网络模型及原理 3 1 3 1BP算法原理对隐含层虽然与I O层外界单元不发生直接联系 但隐含层连接权的修正可以改变整个多层网络的性能 3 1BP网络模型及原理 对第k 1层 第i个神经元I O的关系 实线 工作信号 是输入信号逐层向前传送产生输出 虚线 误差信号 是网络实际输出与期望输出之差 并由输出端逐层向后传播 BP反向传播算法分为正向传播与反向传播 3 1BP网络模型及原理 正向传播与工作信号输入样本从输入层经过隐含单元一层层进行处理 传向输出层 这种逐层处理的过程 每层神经元的状态只对下一层神经元的状态产生影响 在输出层将当前的输出与期望的输出进行比较 如果当前的输出不等于期望输出 则进行反向传播 反向传播与误差信号将误差信号按正向传播的通路反向传回 对隐含层的各个神经元的连接权进行修正 以使误差信号最小 3 1BP网络模型及原理 3 1 3 2BP算法的数学表达常用激励函数Sigmoid型函数BP算法采用非线性规划中的最速下降方法 按照误差函数的负剃度方向修正连接权 BP算法的实质就是使误差最小化的求解问题 平方型误差函数 表示第j个神经元第k次迭代 3 1BP网络模型及原理 l 1 层和l层的I O以及连接权对应的误差函数 设注意 l 1 层第j个神经元的输出即为l层神经元的输入 k为迭代次数 3 1BP网络模型及原理 当节点j为输出单元时 当节点j不为输出单元 隐含单元 时 3 1BP网络模型及原理 总结 可以按照从 l 1 层 或者输出层 一步步往回推求 有 3 1BP网络模型及原理 3 1 3 3BP算法的执行步骤对连接权进行递归计算 每层有n个神经元 即i 1 2 n j 1 2 n 对第 层的第 个神经元 则有 个连接权 输入样本 并设共有 层 以 型函数为例 有步骤 对权系数置初始值 输入样本 以及期望输出 计算各层的输出 正向过程计算 对第 层第 个神经元的输出 3 1BP网络模型及原理 求各层的学习误差 反向过程 误差函数的求取是从输出层开始到输入层反向传播的 这种误差的递归求法 使误差逐渐减小 以修正连接权 连接权修正 求出各层的各个连接权后 如满足要求 则结束迭代 否则 返回 继续 如果网络层数较多 计算量大 收敛速度很慢 3 1BP网络模型及原理 3 1 4BP网络计算中常用的激励函数 型及双曲正切函数 周期性函数比 型函数收敛速度快 非线性误差函数 组合激励函数 3 1BP网络模型及原理 神经细胞激励状态的数学模型 3 1 5BP算法的若干改进3 1 5 BP算法存在的几个问题 已学习的网络是否具有预测能力 即对未经学习的输入的样本能否正确处理 学习训练收敛速度漫 网络隐含节点个数确定 对初始值选择可能会出现局部最小 权值调节路径常常呈现锯齿型 初始值比较敏感 3 1BP网络模型及原理 3 1 5 提高学习训练速度方法 全局学习速率的自适应 对恒定的学习速率参数修正 对每个连接权采用同样的学习速率来调整 加入动量项连接权与其误差的导数成正比 学习速率增大可加快收敛速度 但又不要引起震荡 因此在当前的连接权的调整中加入上次连接权的修正量 即等效地改变了原来恒定的学习速率 可以加快收敛速度 但是确定比较麻烦 3 1BP网络模型及原理 学习速率渐小法学习速率在迭代开始时大 有利于加快学习训练速度 但是到了极值点时 减少学习速率可有利于收敛 学习速率的经验公式 渐进自适应学习速率采用进化策略来调节学习速率 3 1BP网络模型及原理 局部学习速率的自适应实质为 对每个连接权采用不同的学习速率进行局部自适应调整 比如 基于符号变换的学习速率自适应对每个连接权选其初始值 修正学习速率连接权更新 3 1BP网络模型及原理 3 前馈网络 BP 的隐含层设计 3 1I O层设计3 2隐含层的设计3 3几个重要的前馈网络定理 3 1I O层设计3 对输入层 对输入的数据进行预处理确定输入数据源 编码 ANN只能处理数值型输入 剔除无效的 不可靠的数据 确定输入节点数目和输入节点表示方法输入层数据可以是二进制输入 也可以是任意实数输入 3 前馈网络 BP 的隐含层设计 3 对输出层根据网络处理的功能和处理的规模来确定输出节点数目 比如 用作分类器的网络 要进行 类别分类 则要求 m个输出节点 每个类别有足够的训练样本 当输入样本为第 类时 其输出应为注意 输入 输出层节点数目设计不宜过多 否则整个系统训练和处理复杂 3 前馈网络 BP 的隐含层设计 3 隐含层的设计隐含层的规模是利用前馈网络解决实际问题时最重要的问题之一 隐含层的设计都是依据网络的用途来决定的 但并不是唯一的 目前主要还是以经验来确定 3 隐含层数的选择 从多层前馈网络的I O关系来看 这实际上是一种高度非线性的映射关系 也就是 任何连续函数都是可以用带有隐含层的网络来逼近 对于线性可区分的映射 不需要隐含层 简单感知器 增加隐含层 可增加网络的处理能力 但会使网络的训练变得复杂 网络性能不一定为最优 比如 两个隐含层的网络可解决任意判决边界的分类问题 但是并不一定比单一隐含层更优越 3 前馈网络 BP 的隐含层设计 3 隐含层内节点数目的确定 隐含层节点的功能可以提取输入的特征 也可完成某些特殊的功能 隐含层节点数目多少的确定过少 会产生过多的局部极小 即容错性差 过多 学习训练时间太长 也不一定为最佳 确定隐含层节点数目的几种经验方法 对于具有 个输入节点的单一隐含层BP网络 隐含层的节点数目可达到2m 1 对于多层隐含层来讲 设计变得复杂的多 3 前馈网络 BP 的隐含层设计 以二层隐含层为例 比如 第一隐含层的节点确定一个判决面 将 维输入分为两部分 第二隐含层的节点又将前一层形成的多个判决面组合成为凸域空间或者判决域 输出节点又将多个凸域组合成为任意形状的判决空间或判决边界 复杂的非线性映射关系 对二隐含层的BP网络 其中第二层隐含节点数为输出节点的 倍 对第一隐含层节点是第二隐含层节点数目的 倍 隐含节点数目决定了多层前馈网络的可区分性能力 非线性可区分性 计算的复杂性也由隐含节点数决定 3 前馈网络 BP 的隐含层设计 隐含节点数目可变两种方式 其一 学习训练时 使隐含节点数目足够多 学习训练后 删除不起作用的隐含节点 其二 学习训练时 用很少隐含节点 边学习边增加新的隐含节点 隐含层内节点数目确定小结 当有较多隐含节点时 出现局部极小就少 当有较少隐含节点时 出现局部极小就多 增加隐含节点 可提高网络的匹配精度 但是网络学习训练复杂 因此 对于特定应用 要综合考虑 3 前馈网络 BP 的隐含层设计 3 几个重要的前馈网络定理定理 当输入模式线性可分时 利用误差对连接权修正过程一定在有限次数内收敛 由此得到的各连接权而形成的超平面能对有线性输入模式进行正确分类 定理 假定 网络中隐含单元可以根据需要自由设定 那么利用一个三层网络 即可以实现以任意精度逼近任何连续函数 由于隐含层单元的非线性性存在 往往存在多个局部极小点 3 前馈网络 BP 的隐含层设计 3 3 1初始连接权影响过早饱和3 3 2利用Delta规则预先训练初始连接权 3 3初始连接权的设置及其影响 3 3 1初始连接权影响过早饱和 有慢学习速度 过早饱和 在学习训练的某些迭代周期内 误差几乎保持不变 之后 误差又继续下降 局部极小隐含层节点数目偏少 或初始连接权设置不恰当将引起局部极小 BP算法学习训练中可能出现有慢学习速度和收敛到局部极小两个缺点 在代价函数中存在多个局部极小点是由于BP网络中存在非线性隐含单元 利用剃度下降算法不能保证求出全局最小 在BP算法连接权调整值中 包括网络实际输出与期望输出的误差 激励函数的斜率 或导数 通过对初始连接权选择设定一个小区域可避免出现过早饱和现象 即初始连接权位于范围内独立的随机变量 从隐含节点输出的分布着手 研究出现过早饱和的概率 3 3初始连接权的设置及其影响 3 3 2利用Delta规则预先训练初始连接权 DPT 如何通过设置初始连接权 尽可能使得BP网络接近或收敛于全局最小 DPT方法实际上是使初始连接权设置的最优化方法 其基本思想 将BP网络分解为若干单一感知器 对每个单一感知器从零连接权开始 利用Delta学习规则开始训练 过程是从输入层 隐含层 输出层 3 3初始

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论