AI第5章-计算智能详解课件_第1页
AI第5章-计算智能详解课件_第2页
AI第5章-计算智能详解课件_第3页
AI第5章-计算智能详解课件_第4页
AI第5章-计算智能详解课件_第5页
已阅读5页,还剩77页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Artificial Intelligence (AI)人工智能第5章 计算智能Computational Intelligence (CI)内 容第5章 计算智能1、概述2、神经网络3、模糊计算4、遗传算法 现代科技发展的一个显著特点就是学科间的交叉、渗透和促进。(如生物信息学) 计算智能是另一个有说服力的示例。 计算智能涉及神经计算、模糊计算、进化计算、粒群计算、蚁群计算、自然计算、免疫计算和人工生命等领域。 反映了多学科交叉与集成的发展趋势。5.1 概述 通过人工方法模仿人类智能已有很长历史(如仿生学的众多成果),都是人类人工模仿智能的典型例证,而现代人工智能领域则力图抓住智能的本质。

2、人工神经网络(ANN)主要是通过Hopfield网络的促进和反向传播(BP)网络训练多层感知器来推广的,将神经网络(NN)归类于人工智能可能不太合适,而归类于计算智能(CI)应更能说明问题实质。 进化计算、人工生命和模糊逻辑系统的某些课题,也都归类于计算智能。 第一个对计算智能的定义由贝兹德克(Bezdek)于1992年提出。他认为,从严格意义上讲,计算智能取决于制造者提供的数据数值,而不依赖于知识;另一方面,人工智能则应用知识。 他认为,人工神经网络应当称为计算神经网络。 尽管计算智能与人工智能的界限并不十分明显,但讨论它们的区别和联系是有必要的。 贝兹德克对相关术语给予一定的符号和简要说明

3、或定义。他给出有趣的ABC:AArtificial,表示人工的(非生物的),即人造的。BBiological,表示物理的化学的(?)生物的。CComputational,表示数学计算机。ABC与神经网络(NN)、模式识别(PR)和智能(I)之间的关系:可看出:计算智能是一种智力方式的低层认知,它与人工智能的区别只 是认知层次从中层下降至低层而已,中层系统含有知识),而 低层系统则没有。 当一个系统只涉及数值(低层)数据,含有模式识别部分,不使用人工智能意义上的知识,且具有计算适应性、计算容错性、接近人的速度、 近似于人的误差率这4个特性,则该系统就是计算智能系统。 一个计算智能系统以非数值方式

4、加上知识值,即成为人工智能系统。从学科范畴看: 计算智能是在神经网络(NN)、进化计算(EC)及模糊系统(FS)这三个领域发展相对成熟的基础上,形成的一个统一的学科概念。1、什么是计算智能Computational IntelligenceDarwin PrincipleCollective Behavior of Society Neural NetworkEvolutionaryComputationFuzzySystemOthersGenetic AlgorithmEvolutionary StrategyEvolutionary programmingGenetic Programmi

5、ngParticle SwarmAntArtificial System神经网络 对人类智能的结构模拟方法。通过对大量人工神经元的广泛并行互联,构造人工神经网络系统以模拟生物神经系统的智能机理。进化计算 对人类智能的演化模拟方法。通过对生物遗传和演化过程的认识,用进化算法模拟人类智能的进化规律。模糊计算 对人类智能的逻辑模拟方法,通过对人类处理模糊现象认知能力的认识,用模糊逻辑模拟人类的智能行为。 计算智能不仅涉及神经网络、模糊系统和进化计算三个主要分支,还包括:粒子群算法蚁群算法人工免疫系统人工生命模拟退火算法粗集理论与粒度计算支持向量机量子计算DNA计算智能agent生物智能 (Biolo

6、gical Intelligence,BI) 由脑的物理化学过程反映出来的, 脑智能的基础。人工智能 (Artificial Intelligence,AI) 非生物的,人造的,常用符号表示,来源于人类知识的精华。计算智能 (Computational Intelligence,CI) 由数学方法和计算机实现的,来源于数值计算的传感器。ABC: Artificial Biological Computational2、关系另一种观点:计算智能和人工智能是不同的范畴。 虽然人工智能与计算智能之间有重合,但计算 智能是一个全新的学科领域,无论是生物智能 还是机器智能,计算智能都是其最核心的部分,

7、而人工智能则是外层。 实践证明,只有将AI和CI很好地结合起来,才能更好地模拟人类智能,才是智能科学发展的正确方向。内容提要第5章 计算智能1、概述2、神经计算3、模糊计算4、遗传算法5.2 神经计算 以神经网络为基础的计算。 广义上,神经网络可泛指生物神经网络,也可指人工神经网络。 人工神经网络(Artificial Neural Network)是指模拟人脑神经系统的结构和功能,运用大量的处理部件,由人工方式建立起来的网络系统。 人脑是ANN的原型,ANN是对人脑神经系统的模拟。人工智能领域中,在不引起混淆的情况下,神经网络一般都指的都是ANN。 现代计算机虽有很强的计算和信息处理能力,但

8、解决像模式识别、感知、评判和决策等复杂问题的能力却远远不及人。特别是其只能按人预先编好的程序机械地执行,缺乏向环境学习、适应环境的能力。 人脑是由大量的基本单元(神经元)经过复杂的互连而构成的一种高度复杂、非线性、并行处理的信息处理系统,单个神经元的反应速度在毫秒级,比起计算机的基本单元-逻辑门(反应时间在10-9s量级)慢56个数量级。但由于人脑的神经元数量巨大(约为1010个),每个神经元可与几千个其他神经元连接(总连接数约为61013),因而对有些问题的处理速度反而比计算机要快得多,且能耗要低得多。由此可见,人脑的性能要比现代计算机高得多。 所谓人工神经网络,是模仿人脑工作方式而设计的一

9、种机器,可用电子或光电元件实现,也可用软件在常规计算机上仿真。 或者说是一种具有大量连接的并行分布处理器,具有通过学习获取知识并解决问题的能力,且知识是分布存储在连接权(对应于生物神经元的突触)中,而不是像常规计算机那样按地址存储在特定的存储单元中。符号(功能)主义:符号逻辑推理联结(结构)主义:人工神经网络行为主义:智能行为模拟, “模式-动作”联结主义的观点:智能的寓所在大脑皮层,是由大量非线 性神经元互联而成并行处理的神经网络。人工智能的各种学派: 总体而言,人工神经网络(ANN)是反映人脑结构及功能的一种抽象数学模型,是由大量神经元节点互连而成的复杂网络,用以模拟人类进行知识的表示与存

10、储以及利用知识进行推理的行为。 简单地讲,ANN是一个数学模型,可用电子电路实现,也可用计算机程序来模拟,是人工智能研究的一种方法。 人工神经网络力求从四个方面模拟人脑的智能行为:物理结构,计算模拟,存储与操作,训练。5.2.1 人工神经网络研究的进展 1、萌芽期(20世纪40年代) 1890年,美国生物学家W. James首次阐明了有关人脑结构及其功能,以及相关学习、联想、记忆的基本规律。 1943年,心理学家McCulloch和数学家Pitts建立起了著名的阈值加权和模型,简称为M-P模型。 1949年,心理学家D.O.Hebb提出,神经元之间突触联系是可变的假说-Hebb学习律。2、第一

11、高潮期(1950-1968) 以Minsky,Rosenblatt,Widrow等为代表人物。 1957年Rosenblatt定义了一个神经网络结构,称为感知器。将神经网络研究从纯理论的探讨推向工程实现,在IBM计算机上进行了模拟,并可用电子线路模拟。3、反思期(1969-1982) 1969年Minsky和Papert在感知机一书中指出感知机的缺陷(异或运算不可表示),使得神经网络的研究从兴起期进入了停滞期。 芬兰学者Kohonen提出了自组织映射理论(SOM),美国学者Grossberg提出了自适应谐振理论(ART),这些研究成果对神经网络以后的发展产生了重要影响。4、第二高潮期(1983

12、-1990) 1982年,Hopfield提出Hopfield模型。1984年,Hopfield设计研制了Hopfield网的电路。较好地解决了著名的TSP问题,引起了较大轰动。 1985年,Hinton、Sejnowsky、Rumelhart等人在Hopfield网络中引入随机机制,提出Boltzmann机。 1986年, Rumelhart, Hinton提出多层感知机与反向传播(BP) 学习算法,该方法克服了感知器非线性不可分类问题,给神经网络研究带来了新的希望。 1990年12月中国首届神经网络大会在北京举行。5、成熟期(1991- ) 平稳发展,应用广泛,与其他领域的结合:与进化计算

13、结合、与模糊逻辑结合、 。 实际应用:计算机视觉、自然语言理解、优化计算、智能控制等。 并行分布处理:并行结构,耐故障。(实时、动态)非线性映射:任意非线性映射能力。(非线性问题)通过训练进行学习:通过数据记录进行训练,能处理由数学 模型或描述规则难以处理的问题。适应与集成:自适应和信息融合能力。(复杂、大规模、多变量)硬件实现:快速和大规模处理能力。(并行处理)人工神经网络的特性:神经网络的生物学机理。、神经元结构包括四个部分 胞体:神经细胞的本体,维持细胞生存功能 树突:接收来自其他神经元的信号(输入) 轴突:输出信号 突触:与另一个神经元相联系的特殊部位5.2.2 人工神经网络的结构 一

14、个神经元有两种状态:兴奋、抑制。 平时处于抑制状态的神经元,其树突和胞体接收其它神经元由突触 传来的兴奋电位,多个输入在神经元中以代数和的方式叠加。 如果输入的兴奋电位总量超过某个阈值,神经元会被激发进入兴奋 状态,发出输出脉冲,并由突触传递给其他神经元。 神经元被触发后进入不应期,在不应期内不能被触发,然后阈值逐 渐下降,恢复抑制状态。、神经元的基本工作机制(简化) 神经元及其连接。 神经元之间的连接强度决定信号传递的强弱。 神经元之间的连接强度可以随训练改变。 信号可以起刺激作用,也可以起抑制作用。 一个神经元接受信号的累积效果决定该神经元的状态。 每个神经元有一个“阈值”。、生物神经网络

15、的六个基本特征MP模型: 一种人工神经元的数学模型,是最早的神经元模型之一。 是大多数神经网络模型的基础。 MP模型示意图:1、神经元及其特性输入输出中间状态人工神经元是仿照生物神经元提出的,神经元可以有N个输入:每个输入端与神经元之间有一定的连接权值:神经元总的输入为对每个输入的加权求和,同时减去阈值。u代表神经元的活跃值,即神经元状态:神经元的输出y是对u的映射:二值函数f 称为输出函数(激励函数,激活函数),有几种形式:S型函数双曲正切函数输出函数“f”的作用: 控制输入对输出的激活作用。 对输入、输出进行函数转换。 将可能无限域的输入变换成有限范围内的输出。2、人工神经网络的基本特性和

16、结构 结构由基本处理单元及其互连方法决定。 人工神经网络由神经元模型构成。 这种由许多神经元组成的信息处理网络具有并行分布结构,每个神经元具有单一输出,并且能够与其它神经元连接。 存在许多(多重)输出连接方法,每种连接方法对应一个连接权系数。严格地说,人工神经网络是一种具有下列特性的有向图:(1) 对于每个节点i存在一个状态变量xi ;(2) 从节点i至节点j,存在一个连接权系数wij ;(3) 对于每个节点i,存在一个阈值i;(4) 对于每个节点i,定义一个变换函数 fi( xi ,wij,i); 对于最一般的情况,此函数的形式为: 神经元模型确定之后,一个神经网络的特性及能力即主要取决于网

17、络的拓扑结构及学习方法。 人工神经网络(ANN)可以看成是以人工神经元为节点,用有向加权弧连接起来的有向图。 人工神经元就是对生物神经元的模拟。 有向弧则是轴突突触树突对的模拟。 有向弧的权值表示相互连接的两个人工神经元之间相互作用的强弱。 人工神经网络的结构基本上分为两类:递归(反馈)网络、和前馈网络。、递归网络在递归网络中,多个神经元互连以组织成一个互连神经网络,如图所示。 有些神经元的输出被反馈至同层或前层神经元。因此,信号能够从正向和反向流通。(Hopfield网络) 递归网络又叫做反馈网络。Vi :表示节点的状态xi :节点的输入(初始)值xi :收敛后的输出值 (i=1,2,n)、

18、前馈网络 前馈网络具有递阶分层结构,由一些同层神经元间不存在互连的层级组成。从输入层至输出层的信号通过单向连接流通;(感知器) 神经元从一层连接至下一层,不存在同层神经元间的连接。实线-指明实际信号流通,虚线-表示反向传播。 (连接权值)3、人工神经网络的主要学习方法 人工神经网络最具有吸引力的特点是它的学习能力。 1962年,Rosenblatt给出了人工神经网络著名的学习定理:人工神经网络可以学会它能表达的任何东西。 神经网络的适应性是通过学习实现的,学习是神经网络研究的一个重要内容,人工神经网络的学习过程表现为对连接权值的训练。 人工神经网络的学习方法,涉及到学习方式和学习规则的确定,不

19、同的学习方法其学习方式和学习规则是不同的。、学习方式 通过向环境学习,获取知识并改进自身性能,是NN的一个重要特点。一般情况下,性能的改善是按某种预定的度量,通过调节自身参数(权值)随时间逐步达到的。 按环境提供信息量的多少,学习方式有3种:监督学习(有师学习)、非监督学习(无师学习)、再励学习(强化学习)。 监督学习(有师学习) 此学习方式需要外界存在一个教师,可对给定的一组输入提供应有的输出结果(正确答案已知的输出)。 输出数据称为训练样本集,学习系统(ANN)可根据已知输出与实际输出之间的差值(误差信号)来调节系统参数。 非监督学习(无师学习) 不存在外部教师,学习系统完全按照环境提供数

20、据的某些规律来调节自身参数或结构(是一种自组织过程),以表示出外部输入的某种固有特性(如聚类或某种统计上的分布特征)。 再励学习(强化学习) 介于有师与无师两种情况之间。外部环境对系统输出结果只给出评价信息(奖或惩),而不是给出正确答案,学习系统通过强化那些受奖的动作来改善自身的性能。 误差纠正学习 令yk(n)为输入xk(n)时,神经元k在n时刻的实际输出,dk(n)表示应有的输出,则误差信号可写为:误差纠正学习的最终目的:使某一基于ek(n)的目标函数达到最小,以使网络中每一输出单元的实际输出,在某种意义上逼近应有的输出。、学习规则 一旦选定了目标函数形式,误差纠正学习就变成了一个典型的“

21、最优化”问题。最常用的目标函数是“均方误差判据”,定义为误差平方和的均值。 其中,E为求期望算子。 上式的前提是被学习的过程是宽平稳的,具体方法可用“最优梯度下降法”。直接用J作为目标函数时,需要知道整个学习过程的统计特性,为解决这一问题,通常用J在时刻n的瞬时值(n)代替J,即:各数据偏离平均数的距离的平均数。(标准差)表示实验误差大小的偏差平方和。属“等精度测量”,即在相同条件下,各次测量值Xi对测定平均值X的偏差平方和后再求和。(Xi-X)2概率意义下的“加权平均”。根据大数定理,有n次结果的平均值将趋向数学期望值。问题变为:求(n)对权值w的极小值,根据梯度下降法可得: 这就是通常所说

22、的误差纠正学习规则(或称delta学习规则)。在自适应滤波理论中,对这种学习的收敛性有较深入的分析。其中,为学习步长。 Hebb学习 由神经心理学家Hebb提出的学习规则可归纳为:“当某一突触(连接)两端的神经元同步激活(同为激活同为抑制)时,该连接的强度应为增强,反之减弱”。 式中,yk(n),xj(n)分别为wkj两端神经元的状态,其中最常用的一种情况是:因wkj与yk(n),xj(n)的相关成正比,也称为“相关学习规则”。 用数学方式可描述为: 竞争学习 网络各输出单元互相竞争,最后只有一个最强者激活。最常见的一种情况是输出神经元之间有“侧向抑制性连接”。 即原输出单元中如有某一单元较强

23、,则它将获胜并抑制其他单元,最后只有此强者处于激活状态。最常用的竞争学习规则可写为: 当学习系统(神经网络)所处环境平稳时(统计特性不随时间变化),理论上通过监督学习可学到环境的统计特性,这些统计特性可被学习系统作为经验记住。但若环境是非平稳的(统计特性随时间变化),通常的监督学习没有能力跟踪这种变化。 为解决此问题,需要网络有一定的自适应能力,此时对每一个不同输入都作为一个新的例子来对待。、学习与自适应 此时模型(即ANN)被当做一个预测器,基于前一个时刻输入x(n-1)和模型在n-1时刻的参数,它估计n时刻的输出x(n),x(n)与实际值x(n)(应有的正确答案)比较,其差值称为“信息”。

24、 若信息e(n)=0,则不修正模型参数,否则修正模型参数,以便跟踪环境的变化。4、基于神经网络的知识表示 这里,知识并不像在产生式系统中那样独立地表示为每一条规则,而是将某一问题的若干知识在同一网络中表示。 例如,在有些神经网络系统中,知识是用神经网络所对应的有向权图的邻接矩阵及阈值向量表示的。5、基于神经网络的推理 通过网络计算实现。 把用户提供的初始证据用作网络的输入,通过网络计算最终得到输出结果。 一般来说,正向网络推理的步骤: 将已知数据,输入网络输入层的各个节点; 利用特性函数,分别计算网络中各层的输出; 用阈值函数,对输出层的输出进行判定,从而得到输出结果。5.2.3 人工神经网络

25、的典型模型及其算法 人工神经网络相关算法,已在智能处理系统中广泛应用。迄今为止,已经开发和应用了30多种人工神经网络模型。 在此,我们仅对典型网络模型及其算法作简要介绍。 1、反向传播(BP)模型 2、Hopfield网络 3、自适应共振理论(ART)模型1、反向传播(BP)模型神经元的网络输入:net i = x1w1i+x2w2i+x nwni 输入向量、输出向量的维数、网络隐藏层的层数和各个隐藏层神经元的个数的决定了网络拓扑。 增加隐藏层的层数和隐藏层神经元个数不一定总能提高网络精度和表达能力。 BP网一般都选用二级(3层)网络。因为可以证明如果BP网络中隐层单元可以根据需要自由设定,那

26、么一个三层网络可以实现以任意精度近似任意连续函数。 将待识别模式的输入矢量输入至输入层,并传至后面的隐含层,最后通过连接权输出到输出层。网络中每个神经元通过求输入权值和非线性激励函数传递结果来工作。其数学描述为:式中,outi -所考虑层中第i个神经元的输出。 outj -前一层中第j个神经元的输出。 ( ) -激励函数。 neti -网络中第i个神经元。 对非线性激励函数的使用有几种常用形式,其中经常采用的是前面介绍过的Sigmoid函数:BP算法基本思想: 样本集:S=(X1,Y1),(X2,Y2),(Xs,Ys) 逐一根据样本集中的样本(Xk,Yk)计算出实际输出Ok及其误差E1,然后对

27、各层神经元的权值W(1),W(2),W(L)各做一次调整,重复这个循环,直到Ep(所有样本的误差之和)。 用输出层的误差调整输出层“权矩阵”,并用此误差估计输出层的直接前导层的误差;再用输出层前导层误差估计更前一层的误差(逐层前推),如此获得所有其它各层的误差估计;并用这些估计实现对权矩阵的修改。 形成将输出端表现出的误差沿着与输入信号相反的方向逐级向输入端传递的过程。BP算法训练过程概述前提-样本(训练)集(输入值,理想(期望)输出值)1、首先定义网络误差 对于BP反向传播训练算法,通常使用的网络误差是熟知的“均方差”。但事实上并不是必须使用均方差,可使用任何连续可微误差函数,不过选择其他误

28、差函数会增加额外的复杂性。 须注意,不论选用哪种函数作为误差函数,必须在网络输出期望值与实际值之间提供一个有意义的度量-距离。假设这样的训练集合存在,即可讨论怎样利用它来训练一个网络。 均方差定义:式中,Ep是第p个样本(xp ,tp)的误差; tpj是第j个神经元输出的期望值(即训练集合); opj是第j个神经元输出的实际值。 上式中,每一项都反映单个输出神经元对整个误差的影响,取绝对误差(期望值和实际值之差)的平方。 可以看出:远离期望值的那些输出对总误差影响最大,增加“幂指数”,影响则更明显。BP反向传播算法是“梯度下降训练算法”中比较简单的一种。核心思想:调整权值使网络总误差最小。梯度

29、下降法也称为“最速下降法”。基本思想: 从当前点出发,取函数在该点处下降最快的方向,作为搜索方向。 任一点的负梯度方向,是函数值在该点下降最快的方向。 将n维问题,转换为一系列沿负梯度方向,用一维搜索方法寻优问题。 网络中的每个权值都是N维误差空间中的一个元素,在误差空间中权值作为独立的变量,且相应误差表面(曲线)的形状由训练集合和误差函数共同决定。 权值的误差函数负梯度指向误差函数减小最快的方向。如果在权值空间沿这个矢量移动,最终将达到极小值(该点梯度为零)。 但该点可能是局部极小点,如下图给出误差空间中梯度与Ep之间的关系,形象地指出了误差函数达到局部最小值的情形。其中: pWji表示连接

30、L-1层的源神经元i和L层的目的神经元j权值的变化。 权值的这个变化,导致了权值空间中梯度沿降低误差方向变化。 (正比关系变化)上述结果的数学描述:权值误差函数负梯度关系式:因此,首先必须计算偏微分- / 应用公式: 目标:确定如何调整每个权值,使网络收敛。任务:将上式转换成适合于计算机实现的微分方程。上式说明:每个权值Wji将沿着局部误差表面最速下降的负梯度方向变化 一步的关系式。Opl是对L-1层的所有神经元输出求和得到,因此可计算第二项偏微分: 展开: netpj由下式给出: 得: 定义误差信号pj: 两式合并,得:前述权值误差函数负梯度关系式: 式中,常数是学习速率,它控制在权值空间中

31、,对应每步沿负梯度方向变化的大小。乘上一个比例常数,重写得:为了得到可用的微分方程,暂不考虑pj的变化,运用微分公式:已知,输出Opj是netpj的函数,表示为:激励函数为计算,必须分别考虑下面两种情况: 目的神经元j是一输出神经元。 目的神经元j是一隐含层神经元。、输出层中的目的神经元 对于输出层中的目的神经元,直接得到以Opj为自变量的误差函数Ep,可得出:可将pj(输出层的目的神经元)写成: 、隐含层中的目的神经元对于隐含层中的目的神经元,不能直接对误差函数微分。利用微分公式: 对L+1层中的所有神经元求和。根据netpk的定义,可计算式中第二个因子:得:由定义可以得到:得到:将前述两式与上式合并:隐含层误差信号pj可表示为: 小结:概括上述结果,公式 给出了关于pj的微分方程,它对隐含层和输出层权值都有效。 公式对应输出层和隐含层权值pj的表达式。和修正上述公式。分别是公式给出的是对应于均方差公式的解。因此,若使用其他误差函数,则必须要 为得到适于计算机的微分方程,现仅

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论