第6讲神经网络_第1页
第6讲神经网络_第2页
第6讲神经网络_第3页
第6讲神经网络_第4页
第6讲神经网络_第5页
已阅读5页,还剩85页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

以冯·诺依曼型计算机为中心的信息处理技术的高速发展,使得计算机在当今的信息化社会中起着十分重要的作用。但是,当用它来解决某些人工智能问题时确遇到了很大的困难。大脑是由生物神经元构成的巨型网络,它在本质上不同于计算机,是一种大规模的并行处理系统,它具有学习、联想记忆、综合等能力,并有巧妙的信息处理方法。人工神经网络(简称神经网络)也是由大量的、功能比较简单的形式神经元互相连接而构成的复杂网络系统,用它可以模拟大脑的许多基本功能和简单的思维方式。小结神经网络的研究发展史第一次神经网络研究高潮对大脑神经元的研究表明,当其处于兴奋状态时,输出侧的轴突就会发出脉冲信号,每个神经元的树状突起与来自其它神经元轴突的互相结合部(此结合部称为Synapse,即突触)接收由轴突传来的信号。如果—神经元所接收到的信号的总和超过了它本身的“阈值”,则该神经元就会处于兴奋状态,并向它后续连接的神经元发出脉冲信号。1943年,W.S.McCulloch和W.Pitts根据上述研究发表了他们的神经元模型,通常称为MP模型。1949年,D.O.Hebb提出了神经元的学习法则,即Hebb法则。50年代末,F. Rosenblatt基于上述原理提出了一种模式识别机,即感知机(Perceptron)模型。感知机是现代神经计算的出发点。Block于1962年用解析法证明了感知机的学习收敛定理。正是由于这一定理的存在,才使得感知机的理论具有实际的意义,并引发了60年代以感知机为代表的第一次神经网络研究发展的高潮。M.Minsky和S.Papert进一步发展了感知机的理论,他们把感知机定义为一种逻辑函数的学习机。B.Widraw在稍后于感知机提出了Adine分类学习机。它在结构上与感知机相似,但在学习法则上采用了最小二乘平均误差法。1961年,E.R.Caianiello提出了能实现记忆和识别的神经网络模型,它由学习方程式和记忆方程式两部分组成。遗憾的是感知机只能对线性可分离的模式进行正确的分类。当输入模式是线性不可分离时,则无论怎样调节突触的结合强度和阈值的大小也不可能对输入进行正确的分类。第二次神经网络研究高潮1982年,美国物理学家Hopfield对神经网络的动态特性进行了研究,提出了所谓Hopfield神经网络模型。以Rumelhart为首的PDP(ParallelDistributedProcessing)并行分布处理研究集团对联结机制(connections)进行了研究。T.J.Sejnowski等人还研究了神经网络语音信息处理装置。这些成功的研究对第二次神经网络研究高潮的形成起了决定性的作用。Hopfield模型的动作原理只要由神经元兴奋的算法和神经元之间的结合强度所决定的神经网络的状态在适当给定的兴奋模式下尚未达到稳定,那么该状态就会一直变化下去,直到预先定义的一个必定减小的能量函数达到极小值时,状态才达到稳定而不再变化。1985年,Hopfield和D.W.Tank用上述模型求解了古典的旅行推销商问题(TravelingSalesmanProblem),简称TSP问题(已知n个城市之间的相互距离,现有一推销员必须遍访n个城市,并且每个城市只能访问一次,最后又必须返回出发城市。如何安排访问次序,才可以使其旅行路线的总长度最短,这是一个典型的组合优化问题,并且是一个NP非确定性难题)。1983年,S.E.Farmann和Hiton提出了波尔兹曼机BM(BoltzmannMachine),该神经网络模型中使用了概率动作的神经元,把神经元的输出函数与统计力学中的波尔兹曼分布联系起来。1985年,W.O.Hillis发表了称为联结机(connection)的超级并行计算机。他把65536个1bit的微处理机排列成立方体的互连形式,每个微处理机还带有4bit的存储器。误差反向传播神经网络BP(ErrorBackPropagationNeuralNetwork)是1986年由Rumelhart和Hinton提出的,存在的问题神经网络识别机的原型是感知机,而BP只是学习方法改进了的感知机,所以把它当作识别机械时,可能存在着中间层神经元的个数会很庞大、学习时间太长、结合系统的范围太宽等严重缺点。当把Hopfield神经网络模型和波尔兹曼机用作最优解的求解机时,还需要弄清楚该模型对具体的对象是否适用。当神经网络用于运动控制装置时,另一个重要的问题时如何获得自组织的运动模式。综上所述,神经网络的研究虽然时有起伏,出现了研究的高潮与低潮,但总的方向无疑还是正确的。神经网络分类器缺点长时间训练需要大量的参数,这些通常主要靠经验确定,如网络拓扑或结构解释性差:人们很难解释蕴涵在学习权之中的符号含义优点对噪音数据的高承受能力对未经训练的数据的分类能力可以对各种各样的真实数据进行分析有训练过的神经网络提取规则算法目录10.1神经网络及几何意义10.2感知机10.3反向传播模型附1:神经网络专家系统附2:神经网络的容错性

10.1神经网络及几何意义

10.1.1神经网络原理

人工神经网络(ANN)是模拟人脑神经元活动的过程,其中包括对信息的加工、处理、存储、搜索等过程。

ANN不能对人脑进行逼真描述,但它是人脑的某种抽象、简化和模拟。人脑神经元的形状为:神经元组成;树突:神经纤维较短,是接收信息的。细胞体:对接收到的信息进行处理。轴突:较长的神经纤维,是发出信息的。突触:一个神经元的轴突末端与另一个神经元的树突之间密切接触。神经元具有如下性质:(1)多输入单输出;(2)突触具有加权的效果;(3)信息进行传递;(4)信息加工是非线性。神经元的数学模型图:

其中:V1、V2、…Vn为输入;Ui为该神经元的输出;Tij为外面神经元与该神经元连接强度(即权),为阈值,f(X)为该神经元的作用函数。每个神经元的状态Si(i=1,2,…n)只取0或1,分别代表抑制与兴奋。每个神经元的状态,由M-P方程决定: 其中:Wij是神经元之间的连接强度,Wij(i≠j)是可调实数,由学习过程来调整。i是阈值,f(x)是阶梯函数。

MP(MccullochPitts)模型[0,1]阶梯函数

(0,1)S型函数:神经网络的学习,主要是指通过一定的学习算法或规则实现对突触结合强度(权值)的调整。ANN学习规则主要有四种,即联想式学习、误差传播学习、概率式学习和竞争式学习。

(1)联想学习:联想学习是模拟人脑的联想功能,典型联想学习规则是由心理学家Hebb于1949年提出的学习行为的突触联系,称为Hebb学习规则。

神经网络的学习Hebb规则若i与j两种神经元之间同时处于兴奋状态,则它们间的连接应加强,即:△Wij=SiSj(>0) 这一规则与“条件反射”学说一致,并得到神经细胞学说的证实。设α=1,当Si=Sj=1时,△Wij=1,在Si,Sj中有一个为0时,△Wij=0。

(2)误差传播学习:以1986年Rumelhart等人提出的δ规则(BP算法)为典型

δ规则中,误差由输出层逐层反向传至输入层,由误差修改网络权值,直至得到网络权值适应学习样本。(3)概率式学习:典型代表是基于模拟退火的统计优化方法的BOLTZMANN机学习规则,又称为模拟退火算法。(4)竞争学习:利用不同层间的神经元发生兴奋性联结,距离较远的神经元之间产生抑制性联结。

Grossberg等将竞争学习机制引入其建立的自适应共振网络模型(ART)

Kohonen提出的自组织特征映射网络(SOM)等采用的是竞争学习机制10.1.2神经网络的几何意义1.神经元与超平面由n个神经元(j=1,2,…,n)对连接于神经元i的信息总输入Ii为:

其中Wij为神经元j到神经元i的连接权值,i为神经元的阈值。神经元xj(j=1,2,…,n)相当于n维空间(x1,x2,…,xn)中一个结点的n维坐标(为了便于讨论,省略i下标记)。令:

它代表了n维空间中,以坐标xj为变量的一个超平面。其中wj为坐标的系数,为常数项。当n=2时,“超平面”为平面(x1,x2)上的一条直线:当n=3时,“超平面”为空间(x1,x2,x3)上的一个平面:从几何角度看,一个神经元代表一个超平面。2.超平面的作用n维空间(x1,x2,…,xn)上的超平面I=0,将空间划分为三部分。(1)平面本身超平面上的任意结点满足于超平面方程,即:

(2)超平面上部P超平面上部P的任意结点满足于不等式,即

(3)超平面下部Q超平面下部Q的任意结点满足于不等式,即

3.作用函数的几何意义神经网络中使用的阶梯型作用函数f(x)把n维空间中超平面的作用和神经网络作用函数结合起来,即

它的含义为:超平面上部P的任意结点经过作用函数后转换成数值1。超平面上任意结点和超平面下部Q上的任意结点经过作用函数后转换成数值0。4.神经元的几何意义通过以上分析可知,一个神经元将其它神经元对它的信息总输入I,作用以后(通过作用函数)的输出,相当于:该神经元所代表的超平面将n维空间(n个输入神经元构成的空间)中超平面上部结点P转换成1类,超平面及其下部结点转换成0类。结论:神经元起了一个分类作用。5.线性样本与非线性样本定义:对空间中的一组两类样本,当能找出一个超平面将两者分开,称该样本是线性样本。若不能找到一个超平面将两者分开,则称该样本是非线性样本。6.非线性样本变换成线性样本利用超平面分割空间原理,对一个非线性样本它是不能用一个超平面分割开。用多个超平面分割空间成若干区,使每个区中只含同类样本的结点。这种分割完成了一种变换,使原非线性样本变换成二进制值下的新线性样本。10.2感知机模型(Perceptron)

神经元i的输入为

Ii=∑WijSj

Sj为j神经元的输出,Wij为神经元j到神经元i的连接权重。神经元i的输出为:Oi=f(Ii)

其中f(x)为神经元作用函数。(一般采用[0,1]阶梯函数)

设i神经元的期望输出为Di,它与计算输出Oi之差为:

δi=Di-Oi

通过样本学习,应该让权重Wij使δi尽可能小。利用著名的德尔塔规则(deltarule)计算:

△Wij=αδi

Sj

(α为常数)δ规则:

Wij(t+1)=Wij(t)+△Wij

更新权重Wij。实例─两值逻辑加法(或)输入X1

X2

输出d(期望)000011101111

该例子的感知机计算公式:

┌W1┐(k+1)┌W1┐(k)┌x1┐

│=││+c(d-y)││└W2┘└W2┘└x2┘

初值:┌W1┐┌0┐c=1

└W2┘

└0┘其中d为期望输出,y为计算输出。定义:对空间中的一组两类样本,当能找出一个超平面将两者分开,称该样本是线性可分样本。

yx1x2w1w2(0,1)(1,1)(1,0)(0,0)计算过程:K=1:y=f(0+0)=0

┌W1┐(1)┌W1┐(0)

┌0┐

┌0┐

┌0┐┌0┐

││=││+(0-0)││=││+│

│=││

└W2┘└W2┘

└0┘

└0┘└0┘

└0┘K=2,y=f(0+0)=0

┌W1┐(2)┌W1┐(1)

┌0┐

┌0┐

┌0┐┌0┐

││=││+(1-0)││=││+│

│=││

└W2┘└W2┘

└1┘

└0┘└1┘

└1┘K=3,y=f(0+0)=0

┌W1┐(3)┌W1┐(2)

┌1┐

┌0┐

┌1┐┌1┐

││=││+(1-0)││=││+│

│=││

└W2┘└W2┘

└0┘

└1┘└0┘

└1┘

K=4,y=f(1+1)=f(2)=1

┌W1┐(4)┌W1┐(3)

┌1┐

┌1┐

┌0┐┌1┐

││=││+(1-1)││=││+│

│=││

└W2┘└W2┘

└1┘

└1┘└0┘

└1┘再循环一次,将会得到所有例子的(d-y)值均为零,即权值(W1=1,W2=1)满足所有实例要求。对XOR异或问题:输入x1x2输出y000011101110

样本是非线性样本,即找不到一个超平面,将两类样本分开。感知机对XOR问题的计算:同二值逻辑样本计算,K=1,2,3的计算相同,K=4时有:

y=f(1+1)=f(2)=1

┌W11┐(4)┌W11┐(3)

┌1┐

┌1┐

┌-1┐

┌0┐

││=││+(0-1)││=││+│

│=││

└W21┘└W21┘

└1┘

└1┘└-1┘

└0┘修改后的权值,又回到了初始状态,如果继续计算,将出现无限循环,永远不会收敛。该例充分说明感知机对非线性样本无效。(0,1)(1,1)(1,0)(0,0)神经网络BP模型原理:

BP算法的学习过程,由正向传播和反向传播组成。在正向传播过程中,输入信息从输入层经过隐层,再传向输出层,每一层的神经元的状态值只影响下一层神经元的状态值;如果在输出层不能得到期望的输出值,则转入反向传播,将误差信号沿逆向通路返回,通过修正各层神经元的权值,使得网络的总误差值收敛到极小。信息的正向传播,误差的反向传播。10.3反向传播模型(BackPropagationBP模型)网络开始训练时选用较小的随机给定权值与内部阈值(θ),通过反复利用训练样本调整权值,直到误差函数下降到可以接受的允许值(如0.05)。

BP神经网络对非线性数据分类是十分有效的。BP模型是1985年由Rumelhart等人提出的。1.多层感知机结构神经网络不仅有输入节点、输出节点,而且有一层或多层隐节点,如图:2.作用函数为(0,1)S型函数

3.误差函数

BP算法是最小均方差算法(LMS)的一般化,用梯度搜索技术,使均方差函数最小。根据最小二乘法原理,对第p个样本误差计算公式可定义为:对于整个网络系统的总均方误差为:E=1/p∑Ep,其中p为训练样本总数。网络训练的目的是找到一组权值,使E极小化。LMS算法用梯度下降法,即权重的增量正比于误差的负导数:用误差去修正输出层和隐节点的权值,误差反向传播。误差反向传播示意图BP算法计算公式:

1.隐结点的输出:2.输出结点计算输出:其中:其中:3.输出结点的误差公式:其中:令:对输出节点:对隐节点:令:其中:1.对输出结点: 2.权值修正:

3.对隐结点: 4.权值修正: 其中,隐结点误差的含义:表示输出层结点l的误差通过权值向隐结点I反向传播(误差乘权值再累加)成为隐结点的误差。阈值的修正

阈值也是一个变化值,在修正权值的同时也修正它,原理同权值的修正。对输出结点:对隐结点:对算法公式的进一步推导和简化:作用函数存在关系对输出结点:

对隐结点:

BP模型计算公式汇总1.输出结点输出Ol计算公式(1)输入结点的输入xj(2)隐结点的输出:其中:Wij连接权值,结点阈值。

(3)输出结点输出:其中:Tij连接权值,结点阈值。输出层(隐结点到输出结点间)的修正公式输出结点的期望输出:tl误差控制:所有样本误差:其中一个样本误差:其中,p为样本数,n为输出结点数。(3)误差公式: (4)权值修正:其中k为迭代次数。(5)阈值修正: 3、隐结点层(输入结点到隐结点间)的修正公式(1)误差公式:(2)权值修正:(3)阈值修正:··

l(2)

i(1)Ol=f(

-l

)yi=f(-i

)l(k+1)=l(k)+l(2)

修正(Tli,l

),(Wij,i)修正权

l(2)=Ol(1-Ol)(dl-Ol)Til(k+1)=Til(k)+l(2)yi

i(1)=

yi(1-yi)Wij(k+1)=Wij(k)+i(1)xj输出节点lTli

隐节点

i修正权Wij输入节点xji(k+1)=i(k)+i(1)BP网络的学习过程⑴样本的正向传播过程(由输入计算到输出)⑵误差的逆向传播过程(由误差修改权值)⑶记忆训练过程:⑴、⑵的交替过程(反复修改权值)⑷学习的收敛过程:Emin实例分析1.异或问题的BP神经网络按问题要求,设置输入结点为两个(x1,x2),输出结点为1个(z),隐结点定为2个(y1,y2)。各结点阈值和网络权值见图说明。2.计算机运行结果迭代次数:16745次;总误差:0.05隐层网络权值和阈值:

w11=5.24,w12=5.23,w21=6.68,w22=6.64 1=8.01 2=2.98输出层网络权值和阈值:

T1=-10,T2=10,=4.793.用计算结果分析神经网络的几何意义隐结点代表的直线方程

y1:5.24x1+5.23x2-8.01=0

即x1+0.998x2-1.529=0 y2:6.68x1+6.64x2-2.98=0即 x1+0.994x2-0.446=0 图、隐结点代表的直线方程直线y1和y2将平面(x1,x2)分为三区:y1线上方区,x1+x2-1.53>0,x1+x2-0.45>0y1,y2线之间区,x1+x2-1.53<0,x1+x2-0.45>0y2线的下方区,x1+x2-1.53<0,x1+x2-0.45<0对样本点:点(0,0)落入y2的下方区,经过隐结点作用函数f(x)(暂取它为阶梯函数),得到输出y1=0,y2=0。点(1,0)和点(0,1)落入y1,y2线之间区,经过隐结点作用函数f(x),得到输出均为y1=0,y2=1。点(1,1)落入y1线上方区,经过隐结点作用函数f(x),得到输出为y1=1,y2=1。结论:隐结点将x1,x2平面上四个样本点

(0,0),(0,1),(1,0),(1,1)变换成三个样本点

(0,0),(0,1),(1,1)它已是线性样本。输出结点代表的直线方程Z:-10y1+10y2-4.79=0,即 -y1+y2-0.479=0 直线Z将平面(y1,y2)分为两区Z线上方区-y1+y2-0.479>0Z线下方区-y1+y2-0.479<0对样本点:点(0,1)(即y1=0,y2=1)落入Z线上方区,经过输出结点作用函数f(x)(暂取它为阶梯函数)得到输出为:Z=1点(0,0)(即y1=0,y2=0),点(1,1)(即y1=1,y2=1)落入Z线下方区,经过输出结点作用函数f(x)得到输出为:Z=0结论:输出结点将y1,y2平面上三个样本(0,0),(0,1),(1,1)变换成两类样本Z=1和Z=0。4.神经网络结点的作用隐结点作用是将原非线性样本(四个)变换成线性样本(三个)。输出结点作用是将线性样本(三个)变换成两类(1类或0类)。对于作用函数f(x)取为S型函数,最后变换成两类为“接近1类”和“接近0类”。

附1:神经网络专家系统一、神经网络专家系统特点1.神经元网络知识库体现在神经元之间的连接强度(权值)上。它是分布式存贮的,适合于并行处理。2.推理机是基于神经元的信息处理过程。它是以M-P模型为基础的,采用数值计算方法。3.神经元网络有成熟的学习算法。感知机采用delta规则。反向传播模型采用误差沿梯度方向下降以及隐节点的误差由输出结点误差反向传播的思想进行的。4.容错性好。由于信息是分布式存贮,在个别单元上即使出错或丢失,所有单元的总体计算结果,可能并不改变。二、神经元网络专家系统结构用户知识工程师

学习样本

确定系统框架

神经元学习

形成学习样本

知识库(分布式)实际问题参数输入模式转换

推理机制输出模式转换实际问题结果(一)确定系统框架

1.完成对神经元网络的拓朴结构设计:(1)神经元个数(2)神经元网络层次(3)网络单元的连接

2.确定神经元的作用函数和阈值作用函数用得较多的有两种:(1)阶梯函数(2)S型函数阈值的选取可为定值如i=0或i=0.5,或者进行迭代计算。(二)学习样本学习样本是实际问题中已有结果的实例、公认的原理,规则或事实。(三)学习算法对不同的网络模型采用不同的学习算法,但都以Hebb规则为基础。

1.Perceptron(感知机)模型:采用delta规则。2.Back-propagation(反向传播)模型:采用误差反向传播方法。(四)推理机推理机是基于神经元的信息处理过程。

1.神经元j的输入:

其中,Wjk为神经元j和下层神经元k之间的连接权值。Ok为k神经元的输出。

2.神经元j的输出

Oj=f(Ij-j)

j为阈值,f为神经元作用函数。(五)知识库知识库主要是存放各个神经元之间连接权值。由于上下两层间各神经元都有关系,用数组表示为:

(Wij)i行对应上层结点,j列对应下层结点。(六)输入模式转换实际问题的输入,一般是以一种概念形式表示,而神经元的输入,要求以(-∞,∞)间的数值形式表示。这需要将物理概念转换成数值。

建立两个向量集:(1)实际输入概念集:各输入节点的具体物理意义,一般采用表的形式。(2)神经元输入数值集:各输入节点的数值。(七)输出模式转换实际问题的输出,一般也是以一种概念形式表示。而神经元的输出,一般是在[0,1]间的数值形式,这需要将数值向物理概念的转换。城市医疗服务能力评价系统输入包括五个方面:(1)病床数,(2)医生数,(3)医务人员数,(4)门诊数,(5)死亡率。输出模式包括四个级别:(1)非常好(v);(2)好(g);(3)可接受(a);(4)差(b),建立一个三层的神经元网络。输出数据用四个节点分别

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论