前向多层人工神经网络课件_第1页
前向多层人工神经网络课件_第2页
前向多层人工神经网络课件_第3页
前向多层人工神经网络课件_第4页
前向多层人工神经网络课件_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2021-7-17 前向多层人工神经网络前向多层人工神经网络 第第 1 页页 第二章第二章 前向多层人工神经网络前向多层人工神经网络 2.1 概概 述述 ANN的主要功能之一的主要功能之一 模式识别模式识别 ( Pattern Recognition ) 模式识别是人类的一项基本智能行为,在日常生活中,我们几乎模式识别是人类的一项基本智能行为,在日常生活中,我们几乎 时刻在进行着时刻在进行着“模式识别模式识别”。 模式:模式: 广义地说,存在于时间和空间中可观察的事物,如果可以区别它们是广义地说,存在于时间和空间中可观察的事物,如果可以区别它们是 否相同或相似,都可以称之为模式;否相同或相似,

2、都可以称之为模式; 狭义地说,模式是通过对具体的个别事物进行观测所得到的具有时间和狭义地说,模式是通过对具体的个别事物进行观测所得到的具有时间和 空间分布的信息;空间分布的信息; 模式类:模式类:把模式所属的类别或同一类中模式的总体称为模式类把模式所属的类别或同一类中模式的总体称为模式类( (或简称为类或简称为类);); 模式识别:模式识别:在一定量度或观测基础上把待识模式划分到各自的模式类中去在一定量度或观测基础上把待识模式划分到各自的模式类中去 的过程叫作模式识别;的过程叫作模式识别; 模式识别模式识别 对表征事物或现象的各种形式的(数值的,文字的和逻对表征事物或现象的各种形式的(数值的,

3、文字的和逻 辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类 和解释的过程,是信息科学和人工智能的重要组成部分。和解释的过程,是信息科学和人工智能的重要组成部分。 买西瓜:西瓜可分为买西瓜:西瓜可分为生生、熟熟两类,此时,研究的范畴是两类,此时,研究的范畴是“西瓜西瓜”,在此范畴,在此范畴 上定义了上定义了两类两类模式:模式:熟瓜和生瓜熟瓜和生瓜; 种西瓜:西瓜分种西瓜:西瓜分早熟品种、晚熟品种早熟品种、晚熟品种两类,即定义了两类,即定义了两类两类模式:模式:早熟和晚熟早熟和晚熟; 河北省早熟品种分类:河北省常见品

4、种有河北省早熟品种分类:河北省常见品种有“新红宝新红宝”、“蜜梅蜜梅”、“京欣京欣”、 “冀早冀早2号号”等;此时,研究范畴是等;此时,研究范畴是“河北常见早熟西瓜品种河北常见早熟西瓜品种”,在此范畴,在此范畴 上定义了多类模式:上定义了多类模式:新红宝、蜜梅、京欣、冀早新红宝、蜜梅、京欣、冀早2号号等等等等 买西瓜:买西瓜:两类模式分类问题,通过两类模式分类问题,通过声音声音的的频率频率x1和声音持续时间和声音持续时间长度长度x2来判来判 断瓜的生熟。对编号为断瓜的生熟。对编号为 i 的瓜进行敲击测试,得到矢量元素的瓜进行敲击测试,得到矢量元素 Xi=(x1i,x2i) T , 对对N个有生

5、有熟的瓜进行实验可以得到个有生有熟的瓜进行实验可以得到N个数据:个数据:X=X1,X2,X3,XN ,根,根 据瓜的生熟可以将据瓜的生熟可以将X中的元素划分为两类,一类对应于中的元素划分为两类,一类对应于生瓜生瓜一类对应于一类对应于熟瓜熟瓜。 于是,于是,模式模式其实就是具有其实就是具有特定性质的矢量特定性质的矢量/数据数据。用。用C1代表生瓜类,代表生瓜类,C2代表代表 熟瓜类,则熟瓜类,则X中的任意一个元素中的任意一个元素Xn必然满足必然满足: Xn属于属于C1或者或者Xn属于属于C2。 2021-7-17 前向多层人工神经网络前向多层人工神经网络 第第 2 页页 模式识别,举例:水果分级

6、系统。模式识别,举例:水果分级系统。 水果品质参数:重量、大小、比重、果形、颜色等水果品质参数:重量、大小、比重、果形、颜色等 特征矢量特征矢量:X = x1, x2, x3, x4, x5T 特征空间特征空间:用参数张成。用参数张成。 模式模式:每个苹果为一个模式,其特征矢量每个苹果为一个模式,其特征矢量 为特征空间中的一个点;为特征空间中的一个点; 模式类模式类:一个级别为一个类,一类模式分一个级别为一个类,一类模式分 布在特征空间的某个特定区域;布在特征空间的某个特定区域; 模式识别模式识别:找出各类之间的分界面。找出各类之间的分界面。 2021-7-17 前向多层人工神经网络前向多层人

7、工神经网络 第第 3 页页 ANN的主要功能之二的主要功能之二 联想联想 ( Associative Memory ) 联想的心理学定义:联想的心理学定义: 当一个事物的表象被激活时,也就是说该表象所包含的若干属性单元同当一个事物的表象被激活时,也就是说该表象所包含的若干属性单元同 时有效时,我们的注意力焦点就集中在这个表象上,如果对该表象的处理使时有效时,我们的注意力焦点就集中在这个表象上,如果对该表象的处理使 的表象被否决时,也就是说由于一些属性单元的失效(或被抑制,或处于高的表象被否决时,也就是说由于一些属性单元的失效(或被抑制,或处于高 阻),导致该表象无法成立的时候,剩余的属性单元或

8、许可以构成另一种事阻),导致该表象无法成立的时候,剩余的属性单元或许可以构成另一种事 物的表象,或许还需要结合那些被激活了的新的属性(或是由外界事物具有物的表象,或许还需要结合那些被激活了的新的属性(或是由外界事物具有 的新的属性所激活,或是因降低了对一些属性的抑制所导致的激活)。的新的属性所激活,或是因降低了对一些属性的抑制所导致的激活)。 例如:看到柠檬,感觉到嘴里口水增多。因为,由柠檬联想到了酸味。例如:看到柠檬,感觉到嘴里口水增多。因为,由柠檬联想到了酸味。 字符识别:字符识别: 2021-7-17 前向多层人工神经网络前向多层人工神经网络 第第 4 页页 再论模式识别:再论模式识别:

9、对表征事物或现象的各种形式的(数值的、文字的或逻对表征事物或现象的各种形式的(数值的、文字的或逻 辑的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和辑的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和 解释的过程称为解释的过程称为“模式识别模式识别”,是信息科学和人工智能的重要组成部分。,是信息科学和人工智能的重要组成部分。 v 人在分辨不同类别的事物时,抽取了人在分辨不同类别的事物时,抽取了同类事物之间的相同点同类事物之间的相同点以及以及不不 同类事物之间的不同点同类事物之间的不同点; 字符识别字符识别:例如汉字例如汉字“中中”可以有各种写法,但都属于同一类别。可以有各

10、种写法,但都属于同一类别。 更为重要的是,即使对于某个更为重要的是,即使对于某个“中中”的具体写法从未见过,也能把的具体写法从未见过,也能把 它分到它分到“中中”这一类别。这一类别。 识别目标识别目标:人们走向一个目的地的时候,总是在不断的观察周围的人们走向一个目的地的时候,总是在不断的观察周围的 景物,判断所选择的路线是否正确。实际上,是对眼睛看到的图象景物,判断所选择的路线是否正确。实际上,是对眼睛看到的图象 做做 “正确正确”和和“不正确不正确”的分类判断。的分类判断。 人脑的这种思维能力就构成了人脑的这种思维能力就构成了“模式模式”的概念和的概念和“模式识别模式识别”的过的过 程。程。

11、 模式是和类别(集合)的概念分不开的,只要认识这个集合的有限数量的事模式是和类别(集合)的概念分不开的,只要认识这个集合的有限数量的事 物或现象,就可以识别这个集合中的任意多的事物或现象。为了强调能从具物或现象,就可以识别这个集合中的任意多的事物或现象。为了强调能从具 体的事物或现象中推断出总体,我们就把个别的事物或现象称作体的事物或现象中推断出总体,我们就把个别的事物或现象称作“模式模式”, 而把总体称作类别或范畴。而把总体称作类别或范畴。 特征矢量特征矢量:最简单的情况是用一组称为最简单的情况是用一组称为“特征参数特征参数”的数值信息表示一个客观的数值信息表示一个客观 对象。例如,水果品质

12、分类中用到的大小、重量、比重、果型、颜色,其取值对象。例如,水果品质分类中用到的大小、重量、比重、果型、颜色,其取值 均为数值。表示成均为数值。表示成特征矢量特征矢量形式:形式:Xi = xi1, xi2, xi3, xi4, xi5 ; 样本样本:对一个具体对象进行观测得到的一个对一个具体对象进行观测得到的一个特征矢量特征矢量称为一个称为一个“样本样本”, Xi 称称 为第为第i个样本,或者第个样本,或者第i个样本的特征矢量。个样本的特征矢量。 特征空间特征空间:即特征矢量张成的空间,每个样本对应于特征空间上的一点。即特征矢量张成的空间,每个样本对应于特征空间上的一点。 针对一个具体的模式识

13、别问题,选定特征参数非针对一个具体的模式识别问题,选定特征参数非 常重要,关乎模式识别的成败。著名国际大师常重要,关乎模式识别的成败。著名国际大师傅傅 京孙京孙教授曾说过模式识别问题的关键是特征提取。教授曾说过模式识别问题的关键是特征提取。 特征参数应能区分所定义的模式,同时有没有过特征参数应能区分所定义的模式,同时有没有过 多的重复,即:完备而不冗余。选定特征参数的多的重复,即:完备而不冗余。选定特征参数的 过程称过程称“为特征提取为特征提取”。特征提取没有统一的方。特征提取没有统一的方 法,事实上,特征提取是一个不同专业领域范畴法,事实上,特征提取是一个不同专业领域范畴 内的问题。正因为如

14、此,模式识别应用问题往往内的问题。正因为如此,模式识别应用问题往往 是跨专业领域的工程。是跨专业领域的工程。 傅京孙傅京孙(19301985)丽水县城人。丽水县城人。1954年毕业于台湾年毕业于台湾 大学大学电机系电机系获学士学位,后留学加拿大多伦多大学获学士学位,后留学加拿大多伦多大学 获获应用科学应用科学硕士学位,硕士学位,1956年转入美国伊利诺斯大年转入美国伊利诺斯大 学,获博士学位。学,获博士学位。1961年起任美国普渡大学年起任美国普渡大学电机工电机工 程程系助教、副教授、教授,加州大学柏克莱分校及系助教、副教授、教授,加州大学柏克莱分校及 斯坦福大学访问教授。斯坦福大学访问教授。

15、1971年起当选为美国年起当选为美国电机工电机工 程学会程学会荣誉会员。同年得顾根汉基金研究奖助金。荣誉会员。同年得顾根汉基金研究奖助金。 1975年起任普渡大学高斯工程讲座教授。以后开设年起任普渡大学高斯工程讲座教授。以后开设 概率论概率论,创立,创立图形识别科学图形识别科学,影像处理影像处理及其在及其在遥测、遥测、 医学方面的应用医学方面的应用,曾任第一届国际,曾任第一届国际图形识别会议主图形识别会议主 席席。1976年当选为美国国家工程学院院士,获得麦年当选为美国国家工程学院院士,获得麦 考艾科学贡献奖。考艾科学贡献奖。1977年获得美国年获得美国计算机学会计算机学会杰出杰出 论文奖。论

16、文奖。1978年任台湾年任台湾“中央研究院中央研究院”院士。院士。 2021-7-17 前向多层人工神经网络前向多层人工神经网络 第第 5 页页 模式类:模式类:特征参数选择合理时,不同类的模式,在特征空间中占据不特征参数选择合理时,不同类的模式,在特征空间中占据不 同的分布区域;同的分布区域; 模式识别所要做的事情,包含两个方面:模式识别所要做的事情,包含两个方面: 在不同类别样本点集之间,寻找合理的分界面,或称作在不同类别样本点集之间,寻找合理的分界面,或称作“判别函数判别函数 (Decision Function)” 因为判别函数来自于实际观测数据,因为判别函数来自于实际观测数据, 因此

17、称此阶段为因此称此阶段为 “学习学习” 或或 “训练训练” ; 给定未知模式,判断该样本所属类别,称为给定未知模式,判断该样本所属类别,称为“工作工作”或或“应用应用”。 特征选择的好坏是模式识别成败的关键,但如何选择特征选择的好坏是模式识别成败的关键,但如何选择“特征特征”,即,即, 选择什么物理量作为特征,是具体专业选择什么物理量作为特征,是具体专业“领域领域”的问题,需要运用的问题,需要运用“领领 域域”的专业知识来解决。的专业知识来解决。 例如,语音识别,如何从自然语音中提取例如,语音识别,如何从自然语音中提取“特征特征”,是语音识别的,是语音识别的 专业问题;图象识别,如何从专业问题

18、;图象识别,如何从CCD图象获取适当的特征,是图象处理图象获取适当的特征,是图象处理 领域的问题,即使在图象处理领域,不同应用目的所取的特征也不同。领域的问题,即使在图象处理领域,不同应用目的所取的特征也不同。 模式识别的全过程,应该包括特征提取阶段。但是,我们这里将要模式识别的全过程,应该包括特征提取阶段。但是,我们这里将要 讲到的有关智能方法,都只涉及到特征提取之后的工作。讲到的有关智能方法,都只涉及到特征提取之后的工作。 以上所说的以上所说的 “学习学习” 或或 “训练训练”,是根据若干已知样本在空间找到合,是根据若干已知样本在空间找到合 适的分类面。对于一个样本适的分类面。对于一个样本

19、Xi,用用yi表示它所属的类别,例如,它属于表示它所属的类别,例如,它属于 第第k类。样本已知,意思是类。样本已知,意思是 Xi , yi 已知。这种已知。这种“学习学习”又称为又称为“有监有监 督督”学习,即,通过对已知样本学习,即,通过对已知样本 Xi ,yi 的学习找到合理的判别函数。的学习找到合理的判别函数。 所谓所谓“工作工作”,指的是给定类别未知的样本,指的是给定类别未知的样本Xi ,求,求yi 的值。的值。Xi是对某个是对某个 客观对象观测的结果,其取值无法事先限定。但类别客观对象观测的结果,其取值无法事先限定。但类别yi的取值是离散的、的取值是离散的、 有限的,是事先主观规定的

20、。有限的,是事先主观规定的。 2021-7-17 前向多层人工神经网络前向多层人工神经网络 第第 6 页页 神经元模型神经元模型 神经元的输入:神经元的输入: 110 N xxxX 所完成的运算为:所完成的运算为: Netfy xwNet i ii 1 -N 0 T XW 式中:式中: 110 N wwwW称为神经元的称为神经元的“权值矢量权值矢量”; f称为神经元的称为神经元的“功能函数功能函数”;Net称为神经元的称为神经元的“净输入净输入”; y 称为神经元的称为神经元的“输出输出”;称为神经元的称为神经元的“阈值阈值”; 2021-7-17 前向多层人工神经网络前向多层人工神经网络 第

21、第 7 页页 常用的神经元功能函数类型常用的神经元功能函数类型 线性函数线性函数 uuf 又称为又称为“恒同函数恒同函数” 硬限幅函数硬限幅函数 0, 0 0, 1 h u u uf a u e uf 1 1 s S S函数函数(Sigmoid) fs 取值于取值于0,1之间。之间。 a u e uf 1 1 s 2021-7-17 前向多层人工神经网络前向多层人工神经网络 第第 8 页页 前项人工神经网络的拓扑结构前项人工神经网络的拓扑结构 前层的输出作为后层的输入;前层的输出作为后层的输入; 各层的神经元个数可以不同;各层的神经元个数可以不同; 层数两层以上,目前大多为层数两层以上,目前大

22、多为3层;层; 输入矢量输入矢量X代表从客观对象观测代表从客观对象观测 得到的特征;输出层包含一个或多得到的特征;输出层包含一个或多 个神经元,用于表达更为复杂的运个神经元,用于表达更为复杂的运 算结果;算结果; 同层神经元不能连接,后层不同层神经元不能连接,后层不 能向前层反向连接;能向前层反向连接; 连接强度(即,权值大小)可连接强度(即,权值大小)可 以为以为0,强度为,强度为0实际上就是没有实际上就是没有 连接;连接; 2021-7-17 前向多层人工神经网络前向多层人工神经网络 第第 9 页页 2.2 采用硬限幅函数时单个神经元的分类功能采用硬限幅函数时单个神经元的分类功能 线性可分

23、性线性可分性( Linear Separable ) 设有设有C0和和C1两类模式两类模式 R0:C0类模式的样本集;类模式的样本集; R1:C1类模式的样本集;类模式的样本集; 分类的第一步分类的第一步:在两类样本分布区域在两类样本分布区域 之间寻找一个分类函数(分类线、面)之间寻找一个分类函数(分类线、面) 使得两类样本各处在一边;使得两类样本各处在一边; 实现这一目标的过程,称为实现这一目标的过程,称为“学习学习”或或“训练训练”,所用到的计算策所用到的计算策 略称为略称为“学习算法学习算法”;样本集合样本集合R R0 0和和R R1 1称为称为学习样本学习样本集合。集合。 分类的第二步

24、分类的第二步:当获得了分类函数当获得了分类函数 l 以后,就可以进入工作阶段了。任给以后,就可以进入工作阶段了。任给 未知模式未知模式X,若它位于,若它位于R0一侧,则判定其为一侧,则判定其为C0类;若它位于类;若它位于R1一侧,则一侧,则 判定其为判定其为C1类;若它落在分类线类;若它落在分类线l 上,则不可识别。上,则不可识别。 给定两类给定两类C0和和C1的学习样本集合的学习样本集合 R0和和R1,若存在线性分类函数(直线、,若存在线性分类函数(直线、 平面、超平面)平面、超平面)l,将两类学习样本无,将两类学习样本无 误差地分开,则称该分类问题为误差地分开,则称该分类问题为“线线 性可

25、分问题性可分问题”。 2021-7-17 前向多层人工神经网络前向多层人工神经网络 第第 10 页页 假设,二维分类问题的分类函数为假设,二维分类问题的分类函数为 l: 0 1100 xwxwXW T 任给样本任给样本 X = x1, x2 ,l 应该满足:应该满足: 11100 01100 0 0 CXxwxw CXxwxw 令:令: 1100 xwxwNet 则模式识别则模式识别 问题可以表达成:问题可以表达成: 1 0 0 0 CXNet CXNet 把把 看作权值,看作权值, 看作阈值,用看作阈值,用 一个神经元来表示以上二维分类问题,则:一个神经元来表示以上二维分类问题,则: 10

26、, ww Netfy xwxwNet h 1100 任意输入一个模式任意输入一个模式 X, 若若X属于属于C0则则 y = 1; 若若X属于属于C1则则 y = 0; 0 1 1 1 0 h 0 1 0 h RX RX i ii i ii xwfy xwfy 其中:其中:X = x1, x2是任意样本,是任意样本,W=w0, w1是权值矢量。是权值矢量。 WT.X = w0.x0 + w1.x1 =0 是直线的矢量方程,是直线的矢量方程, 若若W为单位矢量,即:为单位矢量,即: w02 + w12 = 1 则则 的意义如图所示。的意义如图所示。 2021-7-17 前向多层人工神经网络前向多层

27、人工神经网络 第第 11 页页 学习算法学习算法 将输入矢量将输入矢量 X X 和权矢量和权矢量 WW 作如下扩张:作如下扩张: , 1, 1N10 1N10 www xxx W X 神经元模型成为:神经元模型成为: Netfy xwNet N n nn h 1 0 XW (2-7) 学习的目的,就是要找到权矢量学习的目的,就是要找到权矢量W。对于前面的例子,就是寻找能够无。对于前面的例子,就是寻找能够无 误差分开两类样本的直线参数误差分开两类样本的直线参数 w0, w1, 。 学习是针对给定的学习样本集合进行的,不同的样本集合可以得到不同学习是针对给定的学习样本集合进行的,不同的样本集合可以

28、得到不同 的学习结果。对于两类可分问题,能够无误差地分开学习样本的结果都的学习结果。对于两类可分问题,能够无误差地分开学习样本的结果都 是正确的。是正确的。 2021-7-17 前向多层人工神经网络前向多层人工神经网络 第第 12 页页 设二维分类问题,有学习样本:设二维分类问题,有学习样本: kdd k 0 0XX 其中其中 1 0 10 0 1 1 Ck Ck kd kxkxk X X X 训练样本训练样本 k ; 训练样本的值;训练样本的值; 起初,我们随意指定一个权矢量:起初,我们随意指定一个权矢量: 0000 10 wwW 这相当于在特征空间上随意画了一条线。向神经元这相当于在特征空

29、间上随意画了一条线。向神经元 输入一个样本输入一个样本X(k),用,用y(k)表示得到的输出,显然表示得到的输出,显然 y(k)不一定等于不一定等于X(k)的实际类别值的实际类别值d(k),令:,令: kykd 若若 fh 为硬限幅函数,为硬限幅函数, 则必有:则必有: 01 10 1 1 0 CC CC 判为错将 判为错将 输出正确 (2-29) 2021-7-17 前向多层人工神经网络前向多层人工神经网络 第第 13 页页 学习算法学习算法:为了找到正确的为了找到正确的W,依次向神经元输入学习样本,依次向神经元输入学习样本 X(k),k = 0, 1, 2, ,并且依照误差,并且依照误差

30、(k)的正负来修正的正负来修正W : 式中式中a a 称为称为“步幅步幅”,用来控制每次调整的步长。如此不断重,用来控制每次调整的步长。如此不断重 复,复,W(k)随着迭代次数随着迭代次数k的增加,逐渐趋于正确答案。的增加,逐渐趋于正确答案。 任意设置)0(W ( 2-7 ) 若输出若输出y (k)与样本类别值与样本类别值d (k)相同,即,相同,即, 则则: W(k+1)=W(k),不调整不调整W。 0k 0k 若输出若输出y(k)与样本类别值与样本类别值d (k)不同,即,不同,即, 则则: W 根据根据 (k)的正负被调整;的正负被调整; kkkWkWX)(1a kkykdkkXWWa1

31、 kkXWa,210k 2021-7-17 前向多层人工神经网络前向多层人工神经网络 第第 14 页页 算法的几何原理:算法的几何原理: 为直观起见,设:理想分类线过原点,即:为直观起见,设:理想分类线过原点,即: ,阈值,阈值 为为0。0 1100 xwxw 训练样本:训练样本: 1 0 10 0 1 Ck Ck kd kxkxk X X X 权值矢量:权值矢量: kwkwk 10 W 由直线方程可知,由直线方程可知,W(k)是直线是直线 l 的法线的法线 ,即,即: 0 : 1100 T xwxwlXW 若,若,X恰好位于恰好位于 l 上,则:上,则: 0 1100 T xwxwXW 若,

32、若,Xa位于位于 l 上方,则:上方,则: ; 0 1100 T aaa xwxwXW 1ky 若,若,Xb位于位于 l 下方,则:下方,则: ; 0 1100 T bbb xwxwXW 0ky 2021-7-17 前向多层人工神经网络前向多层人工神经网络 第第 15 页页 假设已经输入了假设已经输入了k个样本,运行到了第个样本,运行到了第 k 步,当前的权值步,当前的权值W(k)。假设。假设 输入输入 X(k) 得到得到y(k)=1,但给定的,但给定的 X(k)属于属于C1类,即,类,即,d(k) = 0 ,则:则: 1kykd 于是,有:于是,有: kkkkkXWXWWaa1 可见,分类线

33、可见,分类线 l 得到了合理的调整。得到了合理的调整。 再假设,接下来输入的再假设,接下来输入的X(k+1) 属于属于 C0类,即类,即d(k) = 1,被错分,被错分 为为C1类,即,类,即, 由由X(k+1) 和和 W(k+1)计算得到计算得到 y(k+1)=0 : 1kykd 于是,有:于是,有: 11 112 kk kkk XW XWW a a 错把错把 C1 当当 C0 ; 2021-7-17 前向多层人工神经网络前向多层人工神经网络 第第 16 页页2.3 线性函数神经元的最小二乘分类算法线性函数神经元的最小二乘分类算法 线性不可分线性不可分 在误差最小的前提下,寻找分类函数,给定

34、样本集:在误差最小的前提下,寻找分类函数,给定样本集: kdd k 0 0XX 其中其中 1 0 110 1 1 1 Ck Ck kd kxkxkxk N X X X 2021-7-17 前向多层人工神经网络前向多层人工神经网络 第第 17 页页 采用线性函数的神经元,即:采用线性函数的神经元,即: 输入样本矢量:输入样本矢量: 1 10 N xxX 10 N wwW 权值矢量:权值矢量: 神经元完成的运算为:神经元完成的运算为: T N n nnx wyXW 1 0 判别规则:判别规则: 1 0 RX RX 0 0 y 注意到,理想值为:注意到,理想值为: 1 0 RX RX 1 1 d 对

35、于权矢量对于权矢量W的某个具体取值,其误差定义为:的某个具体取值,其误差定义为: 2 2 ydEE 学习的目的是,针对所有学习样本,寻找学习的目的是,针对所有学习样本,寻找 最小的最小的W取值,它即为误差最小取值,它即为误差最小 的分类函数。的分类函数。 (2-10) 2021-7-17 前向多层人工神经网络前向多层人工神经网络 第第 18 页页 设学习样本集设学习样本集X0,d0),(X1,d1), (XK-1,dK-1), 则则 的估计为:的估计为: 1 0 21 K k k T k d K XW 以以 最小为目标的优化过程,统称为最小为目标的优化过程,统称为“最小二乘法最小二乘法( Le

36、ast Mean Square )”。 显然,样本的分布给定后显然,样本的分布给定后 是权矢量是权矢量W的函数,即:的函数,即: = (W); 首先需要证明,存在首先需要证明,存在W*使得使得 min= (W*) 成立。由于是线性函数,所成立。由于是线性函数,所 以,神经元的输出可以写成:以,神经元的输出可以写成: 1 0 T N n nn xwNetyWX (2-11) 代入代入(2-10)得到:得到: TTT2 TTT2 TTT2 2 2 2 2 2 WXWXXW XWWXXW XWXWXW WX dEEdE ddE ddE dEydE T (2-12) 2021-7-17 前向多层人工神

37、经网络前向多层人工神经网络 第第 19 页页 用下列符号代表式中一些参量:用下列符号代表式中一些参量: 2 dEXXR T EXPdE 为了简化,我们考虑二维并且阈值为了简化,我们考虑二维并且阈值 = 0 的情况,有:的情况,有: 1110 0100 2 101 10 2 0 2 101 10 2 0 10 1 0 rr rr xExxE xxExE xxx xxx Exx x x ER (2-13) 1010 PPxdExdEP(2-14) 显然,显然,R是随机矢量是随机矢量X的相关矩阵,它是一个的相关矩阵,它是一个对称矩阵对称矩阵,且,且正定正定。 将以上符号代入将以上符号代入(2-12)

38、,得到:,得到: TT 2WPWRW (2-15) 110011 2 1011000 2 0 222PwPwrwrwwrw 2021-7-17 前向多层人工神经网络前向多层人工神经网络 第第 20 页页 显然,显然,若存若存W*在在 使得使得 min= (W*) 成立。并且,在成立。并且,在W*点上点上 关于关于W的的 所有元素所有元素w0, w1, ( (二维情况下只有二维情况下只有w 0和和w 1) )的偏导数都为的偏导数都为0,或者,说,或者,说 关于矢量关于矢量W的梯度在的梯度在W*点为零矢量。即,对点为零矢量。即,对(2-15)求梯度得到:求梯度得到: PWRWPWRW W W W

39、222 10 TT d d d d ww (2-16) 或用多元函数微分求梯度,重写误差公式:或用多元函数微分求梯度,重写误差公式: 0011000 110011 2 1011000 2 0 00 222 222 Prwrw PwPwrwrwwrw ww 110011 2 1011000 2 0 222PwPwrwrwwrw 1111010 110011 2 1011000 2 0 11 222 222 Prwrw PwPwrwrwwrw ww 2021-7-17 前向多层人工神经网络前向多层人工神经网络 第第 21 页页 令:令: 022 * * PRW WW W 注意到,注意到,R是正定的

40、,它的逆存在,于是,得到:是正定的,它的逆存在,于是,得到: 1* RPW(2-17) 代回代回(2.15)式可以得到最小误差平方和:式可以得到最小误差平方和: T*T* T*T* 2 * min PWPW PWRWW WW (2-18) 命题得证,并且找到了最佳的命题得证,并且找到了最佳的W:解解(2-17)式即可得到式即可得到W*。但这还不是我们。但这还不是我们 想要的学习算法,为了实现自适应学习,必须找到求解想要的学习算法,为了实现自适应学习,必须找到求解W*的迭代算法。的迭代算法。 PRW2222 222222 10 1110 0100 10 1110100011000 10 PP r

41、r rr ww PrwrwPrwrw ww 2021-7-17 前向多层人工神经网络前向多层人工神经网络 第第 22 页页 LMS学习问题的最陡梯度算法学习问题的最陡梯度算法 k表示迭代学习过程的序号;表示迭代学习过程的序号; p = 0, 1, 2, 表示样本序号,表示样本序号,Xp(k)表示表示 当前一轮迭代时的第当前一轮迭代时的第p个输入的学习样本,即,第个输入的学习样本,即,第k步的第步的第p个样本。个样本。 定义误差平方和为:定义误差平方和为: p pp p pp p p kkkdkykd kk 22 2 )()( XW J (2-38) 当两类样本的分布不变时(统计意义上),当两类

42、样本的分布不变时(统计意义上),J(k)是是W的函数。的函数。LMS学习的最学习的最 陡梯度法就是以陡梯度法就是以J(k)为目标函数,寻找使得为目标函数,寻找使得J(k)最小的权值矢量最小的权值矢量W。 W(k)表示迭代学习第表示迭代学习第k步时的权值矢量,步时的权值矢量,dp(k)和和yp(k)分别为输入学习样分别为输入学习样 本本Xp(k) 的实际类别值的实际类别值(dp取取 +1或或 1 )和当前神经元的输出和当前神经元的输出(-1 yp 0,将此结果代入到,将此结果代入到(2-40),得到:,得到: 0 )( )( 1 0 2 i i w k k J Ja 此结果说明,按照学习算法:此结果说明,按照学习算法: 迭迭 代求最佳的代求最佳的W,每一步都在向着,每一步都在向着J(k)减小的方向前行,而减小的方向前行,而J(k)是有界的,是有界的, 因此,必然可以达到最

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论