第2章 前向多层人工神经网络课件_第1页
第2章 前向多层人工神经网络课件_第2页
第2章 前向多层人工神经网络课件_第3页
第2章 前向多层人工神经网络课件_第4页
第2章 前向多层人工神经网络课件_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章前向多层人工神经网络§2.1概述

ANN的主要功能之一——模式识别

(PatternRecognition)

模式识别是人类的一项基本智能行为,在日常生活中,我们几乎时刻在进行着“模式识别”。模式:

广义地说,存在于时间和空间中可观察的事物,如果可以区别它们是否相同或相似,都可以称之为模式;

狭义地说,模式是通过对具体的个别事物进行观测所得到的具有时间和空间分布的信息;

模式类:把模式所属的类别或同一类中模式的总体称为模式类(或简称为类);

模式识别:在一定量度或观测基础上把待识模式划分到各自的模式类中去的过程叫作模式识别;

模式识别——

对表征事物或现象的各种形式的(数值的,文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组成部分。

买西瓜:西瓜可分为生、熟两类,此时,研究的范畴是“西瓜”,在此范畴上定义了两类模式:熟瓜和生瓜;种西瓜:西瓜分早熟品种、晚熟品种两类,即定义了两类模式:早熟和晚熟;河北省早熟品种分类:河北省常见品种有“新红宝”、“蜜梅”、“京欣”、“冀早2号”…等;此时,研究范畴是“河北常见早熟西瓜品种”,在此范畴上定义了多类模式:新红宝、蜜梅、京欣、冀早2号等等买西瓜:两类模式分类问题,通过声音的频率x1和声音持续时间长度x2来判断瓜的生熟。对编号为

i的瓜进行敲击测试,得到矢量元素Xi=(x1i,x2i)T

,对N个有生有熟的瓜进行实验可以得到N个数据:X={X1,X2,X3,…,XN}

,根据瓜的生熟可以将X中的元素划分为两类,一类对应于生瓜一类对应于熟瓜。于是,模式其实就是具有特定性质的矢量/数据。用C1代表生瓜类,C2代表熟瓜类,则X中的任意一个元素Xn必然满足:Xn属于C1或者Xn属于C2。2024/11/111第2章前向多层人工神经网络模式识别,举例:水果分级系统。水果品质参数:重量、大小、比重、果形、颜色等特征矢量:X

=[x1,x2,x3,x4,x5]T特征空间:用参数张成。模式:每个苹果为一个模式,其特征矢量为特征空间中的一个点;模式类:一个级别为一个类,一类模式分布在特征空间的某个特定区域;模式识别:找出各类之间的分界面。2024/11/112第2章前向多层人工神经网络ANN的主要功能之二——联想

(AssociativeMemory)联想的心理学定义:当一个事物的表象被激活时,也就是说该表象所包含的若干属性单元同时有效时,我们的注意力焦点就集中在这个表象上,如果对该表象的处理使的表象被否决时,也就是说由于一些属性单元的失效(或被抑制,或处于高阻),导致该表象无法成立的时候,剩余的属性单元或许可以构成另一种事物的表象,或许还需要结合那些被激活了的新的属性(或是由外界事物具有的新的属性所激活,或是因降低了对一些属性的抑制所导致的激活)。

例如:看到柠檬,感觉到嘴里口水增多。因为,由柠檬联想到了酸味。

字符识别:2024/11/113第2章前向多层人工神经网络再论模式识别:对表征事物或现象的各种形式的(数值的、文字的或逻辑的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程称为“模式识别”,是信息科学和人工智能的重要组成部分。

人在分辨不同类别的事物时,抽取了同类事物之间的相同点以及不同类事物之间的不同点;字符识别:例如汉字“中”可以有各种写法,但都属于同一类别。更为重要的是,即使对于某个“中”的具体写法从未见过,也能把它分到“中”这一类别。识别目标:人们走向一个目的地的时候,总是在不断的观察周围的景物,判断所选择的路线是否正确。实际上,是对眼睛看到的图象做“正确”和“不正确”的分类判断。人脑的这种思维能力就构成了“模式”的概念和“模式识别”的过程。

模式是和类别(集合)的概念分不开的,只要认识这个集合的有限数量的事物或现象,就可以识别这个集合中的任意多的事物或现象。为了强调能从具体的事物或现象中推断出总体,我们就把个别的事物或现象称作“模式”,而把总体称作类别或范畴。特征矢量:最简单的情况是用一组称为“特征参数”的数值信息表示一个客观对象。例如,水果品质分类中用到的大小、重量、比重、果型、颜色,其取值均为数值。表示成特征矢量形式:Xi=[xi1,xi2,xi3,xi4,xi5];样本:对一个具体对象进行观测得到的一个特征矢量称为一个“样本”,Xi称为第i个样本,或者第i个样本的特征矢量。特征空间:即特征矢量张成的空间,每个样本对应于特征空间上的一点。针对一个具体的模式识别问题,选定特征参数非常重要,关乎模式识别的成败。著名国际大师傅京孙教授曾说过模式识别问题的关键是特征提取。特征参数应能区分所定义的模式,同时有没有过多的重复,即:完备而不冗余。选定特征参数的过程称“为特征提取”。特征提取没有统一的方法,事实上,特征提取是一个不同专业领域范畴内的问题。正因为如此,模式识别应用问题往往是跨专业领域的工程。傅京孙(1930—1985)丽水县城人。1954年毕业于台湾大学电机系获学士学位,后留学加拿大多伦多大学获应用科学硕士学位,1956年转入美国伊利诺斯大学,获博士学位。1961年起任美国普渡大学电机工程系助教、副教授、教授,加州大学柏克莱分校及斯坦福大学访问教授。1971年起当选为美国电机工程学会荣誉会员。同年得顾根汉基金研究奖助金。1975年起任普渡大学高斯工程讲座教授。以后开设概率论,创立图形识别科学,影像处理及其在遥测、医学方面的应用,曾任第一届国际图形识别会议主席。1976年当选为美国国家工程学院院士,获得麦考艾科学贡献奖。1977年获得美国计算机学会杰出论文奖。1978年任台湾“中央研究院”院士。2024/11/114第2章前向多层人工神经网络模式类:特征参数选择合理时,不同类的模式,在特征空间中占据不同的分布区域;模式识别所要做的事情,包含两个方面:在不同类别样本点集之间,寻找合理的分界面,或称作“判别函数(DecisionFunction)”——因为判别函数来自于实际观测数据,因此称此阶段为“学习”或“训练”;给定未知模式,判断该样本所属类别,称为“工作”或“应用”。

特征选择的好坏是模式识别成败的关键,但如何选择“特征”,即,选择什么物理量作为特征,是具体专业“领域”的问题,需要运用“领域”的专业知识来解决。例如,语音识别,如何从自然语音中提取“特征”,是语音识别的专业问题;图象识别,如何从CCD图象获取适当的特征,是图象处理领域的问题,即使在图象处理领域,不同应用目的所取的特征也不同。模式识别的全过程,应该包括特征提取阶段。但是,我们这里将要讲到的有关智能方法,都只涉及到特征提取之后的工作。以上所说的“学习”或“训练”,是根据若干已知样本在空间找到合适的分类面。对于一个样本Xi,用yi表示它所属的类别,例如,它属于第k类。样本已知,意思是{Xi

yi}已知。这种“学习”又称为“有监督”学习,即,通过对已知样本{Xi

,yi}的学习找到合理的判别函数。所谓“工作”,指的是给定类别未知的样本Xi

,求yi的值。Xi是对某个客观对象观测的结果,其取值无法事先限定。但类别yi的取值是离散的、有限的,是事先主观规定的。2024/11/115第2章前向多层人工神经网络神经元模型

神经元的输入:

所完成的运算为:式中:称为神经元的“权值矢量”;称为神经元的“功能函数”;称为神经元的“净输入”;称为神经元的“输出”;称为神经元的“阈值”;2024/11/116第2章前向多层人工神经网络常用的神经元功能函数类型

线性函数又称为“恒同函数”

硬限幅函数

S函数(Sigmoid)fs

取值于[0,1]之间。2024/11/117第2章前向多层人工神经网络前项人工神经网络的拓扑结构

前层的输出作为后层的输入;

各层的神经元个数可以不同;

层数两层以上,目前大多为3层;

输入矢量X代表从客观对象观测得到的特征;输出层包含一个或多个神经元,用于表达更为复杂的运算结果;

同层神经元不能连接,后层不能向前层反向连接;

连接强度(即,权值大小)可以为0,强度为0实际上就是没有连接;2024/11/118第2章前向多层人工神经网络§2.2采用硬限幅函数时单个神经元的分类功能

线性可分性(LinearSeparable

)设有C0和C1两类模式R0:C0类模式的样本集;R1:C1类模式的样本集;分类的第一步:在两类样本分布区域之间寻找一个分类函数(分类线、面)使得两类样本各处在一边;

实现这一目标的过程,称为“学习”或“训练”,所用到的计算策略称为“学习算法”;样本集合R0和R1称为学习样本集合。分类的第二步:当获得了分类函数l以后,就可以进入工作阶段了。任给未知模式X,若它位于R0一侧,则判定其为C0类;若它位于R1一侧,则判定其为C1类;若它落在分类线l

上,则不可识别。

给定两类C0和C1的学习样本集合R0和R1,若存在线性分类函数(直线、平面、超平面)l,将两类学习样本无误差地分开,则称该分类问题为“线性可分问题”。2024/11/119第2章前向多层人工神经网络假设,二维分类问题的分类函数为l:任给样本X=[x1,x2],l应该满足:令:则模式识别问题可以表达成:把看作权值,看作阈值,用一个神经元来表示以上二维分类问题,则:任意输入一个模式X,若X属于C0则y=1;若X属于C1则y=0;其中:X=

[x1,x2]是任意样本,W=[w0,w1]是权值矢量。

WT.X–q=w0.x0+w1.x1–q=0

是直线的矢量方程,若W为单位矢量,即:w02+w12

=1则q的意义如图所示。2024/11/1110第2章前向多层人工神经网络学习算法

将输入矢量X

和权矢量W

作如下扩张:

神经元模型成为:(2-7)

学习的目的,就是要找到权矢量W。对于前面的例子,就是寻找能够无误差分开两类样本的直线参数[w0,w1,q]。

学习是针对给定的学习样本集合进行的,不同的样本集合可以得到不同的学习结果。对于两类可分问题,能够无误差地分开学习样本的结果都是正确的。2024/11/1111第2章前向多层人工神经网络设二维分类问题,有学习样本:其中

训练样本k;训练样本的值;起初,我们随意指定一个权矢量:这相当于在特征空间上随意画了一条线。向神经元输入一个样本X(k),用y(k)表示得到的输出,显然y(k)不一定等于X(k)的实际类别值d(k),令:若fh为硬限幅函数,则必有:(2-29)2024/11/1112第2章前向多层人工神经网络学习算法:为了找到正确的W,依次向神经元输入学习样本X(k),k=0,1,2,…,并且依照误差e

(k)的正负来修正W

:式中a

称为“步幅”,用来控制每次调整的步长。如此不断重复,W(k)随着迭代次数k的增加,逐渐趋于正确答案。(2-7)

若输出y(k)与样本类别值d(k)相同,即,则:W(k+1)=W(k),不调整W。

若输出y(k)与样本类别值d(k)不同,即,则:W根据e

(k)的正负被调整;2024/11/1113第2章前向多层人工神经网络算法的几何原理:为直观起见,设:理想分类线过原点,即:,阈值q为0。训练样本:权值矢量:由直线方程可知,W(k)是直线l

的法线,即:

若,X恰好位于l上,则:

若,Xa位于l

上方,则:

若,Xb位于l下方,则:2024/11/1114第2章前向多层人工神经网络假设已经输入了k个样本,运行到了第

k

步,当前的权值W(k)。假设输入X(k)

得到y(k)=1,但给定的X(k)属于C1类,即,d(k)=0,则:于是,有:可见,分类线

l得到了合理的调整。再假设,接下来输入的X(k+1)属于

C0类,即d(k)=1,被错分为C1类,即,由X(k+1)和W(k+1)计算得到y(k+1)=0

:于是,有:错把C1

当C0;2024/11/1115第2章前向多层人工神经网络§2.3线性函数神经元的最小二乘分类算法

线性不可分

在误差最小的前提下,寻找分类函数,给定样本集:其中

2024/11/1116第2章前向多层人工神经网络采用线性函数的神经元,即:输入样本矢量:权值矢量:神经元完成的运算为:判别规则:注意到,理想值为:

对于权矢量W的某个具体取值,其误差定义为:学习的目的是,针对所有学习样本,寻找x最小的W取值,它即为误差最小的分类函数。(2-10)2024/11/1117第2章前向多层人工神经网络设学习样本集{(X0,d0),(X1,d1),…,(XK-1,dK-1),则x

的估计为:以

x

最小为目标的优化过程,统称为“最小二乘法(LeastMeanSquare)”。显然,样本的分布给定后x

是权矢量W的函数,即:x=x(W);

首先需要证明,存在W*使得x

min=x(W*)

成立。由于是线性函数,所以,神经元的输出可以写成:(2-11)代入(2-10)得到:(2-12)2024/11/1118第2章前向多层人工神经网络用下列符号代表式中一些参量:

为了简化,我们考虑二维并且阈值q=0的情况,有:(2-13)(2-14)显然,R是随机矢量X的相关矩阵,它是一个对称矩阵,且正定。将以上符号代入(2-12),得到:(2-15)2024/11/1119第2章前向多层人工神经网络

显然,若存W*在

使得x

min=x(W*)

成立。并且,在W*点上x关于W的所有元素w0,w1,…(二维情况下只有w0和w1)的偏导数都为0,或者,说x关于矢量W的梯度在W*点为零矢量。即,对(2-15)求梯度得到:(2-16)或用多元函数微分求梯度,重写误差公式:2024/11/1120第2章前向多层人工神经网络令:注意到,R是正定的,它的逆存在,于是,得到:(2-17)代回(2.15)式可以得到最小误差平方和:

(2-18)命题得证,并且找到了最佳的W:解(2-17)式即可得到W*。但这还不是我们想要的学习算法,为了实现自适应学习,必须找到求解W*的迭代算法。2024/11/1121第2章前向多层人工神经网络LMS学习问题的最陡梯度算法

k表示迭代学习过程的序号;p=0,1,2,……表示样本序号,Xp(k)表示当前一轮迭代时的第p个输入的学习样本,即,第k步的第p个样本。

定义误差平方和为:(2-38)当两类样本的分布不变时(统计意义上),J(k)是W的函数。LMS学习的最陡梯度法就是以J(k)为目标函数,寻找使得J(k)最小的权值矢量W。

W(k)表示迭代学习第k步时的权值矢量,dp(k)和yp(k)分别为输入学习样本Xp(k)

的实际类别值(dp取+1或–1)和当前神经元的输出(-1<

yp<1)。

Xp(k)

的误差为:ep(k)=

dp(k)-yp(k)2024/11/1122第2章前向多层人工神经网络

函数J(W)的图象称为“误差响应面”。

寻优的策略:从某个随意选定的起始点W(0)开始,沿着梯度最大的反方向,一步一步前行,走到梯度为0的点的时候,得到的W就是W*;用表示第k步时的梯度,学习算法为:2024/11/1123第2章前向多层人工神经网络梯度算法的正确性:(2-39)(2-40)为了逐步走向W的最小点,选择其增量为:,即:或者:(2-41)当很小时,误差平方和的增量可以用其全微分来近似:2024/11/1124第2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论