模式识别第六章_第1页
模式识别第六章_第2页
模式识别第六章_第3页
模式识别第六章_第4页
模式识别第六章_第5页
已阅读5页,还剩162页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

模式识别第六章第1页,课件共167页,创作于2023年2月9.1人工神经网络概述

人工智能通过对人类智力活动奥秘的探索与记忆思维机理的研究,来开发人类智力活动的潜能、探讨用各种机器模拟人类智能的途径,使人类的智能得以物化与延伸,产生了一门学科,即所谓的人工智能。人工智能(ArtificialIntelligence,AI)

在20世纪90年代,人工智能的符号主义、连接主义和行为主义三种方法并存。连接主义:人工神经网络第2页,课件共167页,创作于2023年2月计算智能近年来,借鉴仿生学思想,基于生物体系的生物进化、细胞免疫、神经细胞网络等某些机制,用数学语言抽象描述的计算方法,来模仿生物体系和人类的智能机制,产生了所谓的计算智能计算智能(ComputationalIntelligence,CI)软计算(SoftComputing,SC)

人工神经网络、模糊集理论(FuzzySet,FS)、进化计算(EvolutionaryComputation,EC)第3页,课件共167页,创作于2023年2月智能信息处理人类在不断地进步,社会在不断地发展,这一方面受人的好奇心驱动,人具有探索自然规律、了解未知世界、探索自身奥妙的内动力;另一方面人具有生存和提高生活质量的需求。受这两方面原动力的驱动,人类不断地研究新的方法和技术,不断地研制各种工具、仪器和机器,来延伸、拓展和增强自身的各种能力。第4页,课件共167页,创作于2023年2月人类所处的客观环境、所面对的客观世界是变化的、发展的,是浩瀚无垠的;人类的知识虽然在不断丰富、不断更新,但是相对客观环境、客观世界,始终是不完全的、不可靠的、不精确的、不一致的和不确定的;人类正是用这不精确的、不完美的知识,不断地、逐步地了解了客观世界,提高了生活质量。人工智能、人工神经网络、进化计算、模糊系统理论等等都是人类在对客观世界、人类自身现有认识的基础上所产生的新的方法和理论,是人类进一步探索自然规律、了解未知世界、探索自身奥妙,提高生活质量的各种工具。第5页,课件共167页,创作于2023年2月智能信息处理就是将不完全的、不可靠的、不精确的、不一致的和不确定的知识和信息逐步、逐步变得完全、可靠、精确、一致和确定的过程和方法,就是利用对不精确性、不确定性的容忍来达到问题的可处理性和鲁棒性。智能信息处理的对象及方法均具有多样性、复杂性和综合性的特点。智能信息处理涉及到信息科学的多个领域,是现代信号处理、人工神经网络、模糊系统理论、进化计算,包括人工智能等等理论和方法的综合应用。第6页,课件共167页,创作于2023年2月从深层意义上看,模式识别与人工智能所研究的是如何用计算机实现人脑的一些功能。一方面,从要实现的功能出发,我们可以将功能分解成子功能,直至设计出算法来实现这些子功能。这是自顶向下的分析方法。另一方面,人脑无论多么复杂,都可以看作是由大量神经元组成的巨大的神经网络。从神经元的基本功能出发,逐步从简单到复杂组成各种神经网络,研究它所能实现的功能,是自底向上的综合方法。这两种方法各有优缺点,适用于不同的问题。第7页,课件共167页,创作于2023年2月亦称为神经网络(NeuralNetworks,NN),是由大量处理单元(神经元Neurons)广泛互连而成的网络,是对人脑的抽象、简化和模拟,反映人脑的基本特性。人工神经网络的研究是从人脑的生理结构出发来研究人的智能行为,模拟人脑信息处理的功能。它是根植于神经科学、数学、统计学、物理学、计算机科学及工程等学科的一种技术。人工神经网络第8页,课件共167页,创作于2023年2月是由简单的处理单元所组成的大量并行分布的处理机,这种处理机具有存储和应用经验知识的自然特性,它与人脑的相似之处概括为两个方面:一是通过学习过程利用神经网络从外部环境中获取知识;二是内部神经元(突触权值)用来存储获取的知识信息。人工神经网络第9页,课件共167页,创作于2023年2月神经网络与电子计算机图灵:英国数学家。1912年6月23日出生于伦敦Westminster区,1931年进入剑桥大学King’sCollege攻读数学,毕业学位考试第一,获Wrangler荣誉称号。学位论文“TheCentralLimitTheoremofProbability”获“SmithPrize”。毕业后到美国普林斯顿大学攻读博士学位,1936年发表了著名论文“OnComputableNumberswithanApplicationtotheEntscheidungsProblem”,该文回答了“计算机”到底是怎样的,如何进行计算和工作,提出了计算模型“图灵机”(TuringMachine)。AlanMathisonTuring(1912~1954)第10页,课件共167页,创作于2023年2月1938年获博士学位,博士论文“SystemsofLogicBasedonOrdinals”。1939年在英国外交部科研机构工作,二战期间用继电器做成“Bombe”,协助军方破解德国的著名密码系统Enigma,战后被受勋(OfficerOrderoftheBritishEmpire)。战后到英国国家物理实验室(NationalPhysicalLab.,NPL),设计和建造电子计算机(AutomaticComputingEngine,ACE)。1948年离开NPL,到曼彻斯特大学新成立的RoyalSocietyComputingLab.1948年6月开发出被称为世界上第一台存储程序式计算机MarkI。第11页,课件共167页,创作于2023年2月1950年10月发表论文“ComputingMachineryandIntelligence”认为计算机可以具有智能,并提出了一种用于判定机器是否具有智能的试验方法,即图灵试验(TuringTest)。1951年当选英国皇家学会院士。1952年图灵被法院指控行为“极端不当”。1954年6月7日,图灵服食浸过氰化物溶液的苹果“自杀”。享年42岁。Thinkingiscomputing第12页,课件共167页,创作于2023年2月1966年美国计算机协会设立计算机界的第一奖项“图灵奖”被称为“计算机界的诺贝尔奖”ACM:AssociationforComputingMachineryIEEEComputerSociety第13页,课件共167页,创作于2023年2月JohnvonNeumann(1903-1957)20世纪最杰出的数学家之一,于1945年提出了“程序内存式”计算机的设计思想。这一卓越的思想为电子计算机的逻辑结构设计奠定了基础,已成为计算机设计的基本原则。由于他在计算机逻辑结构设计上的伟大贡献,他被誉为“计算机之父”。诺伊曼于1903年出生于匈牙利的布达佩斯。他是一个数字神童,11岁时已显示出数学天赋。12岁的诺伊曼就对集合论,泛函分析等深奥的数学领域了如指掌。第14页,课件共167页,创作于2023年2月青年时期,诺伊曼师从于著名数学家希尔伯特。在获得数学博士之后,不满30岁成为美国普林斯顿大学的第一批终身教授。诺伊曼不仅是个数学天才,在其他领域也大有建树。他精通七种语言,在化学方面也有相当的造诣,更为难得的是,他并不仅仅局限于纯数学上的研究,而是把数学应用到其他学科中去。对经典力学、量子力学和流体力学的数学基础进行过深入的研究,并获得重大成果,诺伊曼具备了坚实的数理基础,和广博的知识,为他后来从事计算机逻辑设计提供了坚强的后盾。第15页,课件共167页,创作于2023年2月1944年诺伊曼参加原子弹的研制工作,该工作涉及到极为困难的计算。他所在的洛·斯阿拉莫斯实验室为此聘用了一百多名女计算员,利用台式计算机从早到晚计算,还是远远不能满足需要。无穷无尽的数字和逻辑指令如同沙漠一样把人的智慧和精力吸尽。被计算机所困扰的诺伊曼在一次极为偶然的机会中知道了ENIAC计算机的研制计划,从此他投身到计算机研制这一宏伟的事业中,建立了一生中最大的丰功伟绩。

第16页,课件共167页,创作于2023年2月1944年夏的一天,正在火车站候车的诺伊曼巧遇戈尔斯坦,并同他进行了短暂的交谈。戈尔斯坦是美国弹道实验室的军方负责人,他正参与ENIAC计算机的研制工作。在交谈在,戈尔斯坦告诉了诺伊曼有关ENIAC的研制情况。具有远见卓识的诺伊曼为这一研制计划所吸引,他意识到了这项工作的深远意义。几天之后,诺伊曼专程来到莫尔学院,参观了尚未竣工的这台庞大的机器,并以其敏锐的眼光,一下子抓住了计算机的灵魂--逻辑结构问题,令ENIAC的研制们敬佩不已。第17页,课件共167页,创作于2023年2月因实际工作中对计算的需要以及把数学应用到其他科学问题的强烈愿望,使诺伊曼迅速决定投身到计算机研制者的行列。对业已功成名就的诺伊曼来说,这样做需要极大的勇气,因为这是一个成败未卜的新征途,一旦失败,会影响他已取得的名誉和地位。诺伊曼却以对新事物前途的洞察力,毅然决然地向此征途迈出了第一步,于1944年8月加入莫尔计算机研制小组,为计算机研制翻开了辉煌的一页。

第18页,课件共167页,创作于2023年2月诺伊曼以其非凡的分析、综合能力及雄厚的数理基础,集众人之长,提出了一系列优秀的设计思想,在他和莫尔小组其他成员的共同努力下,只经历了短短的十个月,人类在数千年中积累起来的科学技术文明,终于结出了最激动人心的智慧之花-一个全新的存储程序通用电子计算机方案(EDVAC方案)诞生了。

第19页,课件共167页,创作于2023年2月诺伊曼以“关于EDVAC的报告草案”为题,起草了长达101页的总结报告。报告广泛而具体地介绍了制造电子计算机和程序设计的新思想。报告明确规定,EDVAC计算机由计算器、逻辑控制装置、存储器、输入和输出五大部分组成,并阐述了这五大部分的职能和相互关系。这份报告是计算机发展史上一个划时代的文献,它向世界宣告:电子计算机的时代开始了。第20页,课件共167页,创作于2023年2月1954年6月,诺伊曼到美国普林斯顿高级研究所工作,出任IAS计算机研制小组的主任职位。在那时,他提出了更加完善的设计报告“电子计算装置逻辑结构初探”。报告中,诺伊曼对EDVAC中的两大设计思想作了进一步的论证,为计算机的设计树立了一座里程碑。设计思想之一是二进制,他根据电子元件双稳工作的特点,建议在电子计算机中采用二进制。报告提到了二进制的优点,并预言,二进制的采用将大简化机器的逻辑线路。实践证明了诺伊曼预言的正确性。第21页,课件共167页,创作于2023年2月程序内存是诺伊曼的另一杰作。通过对ENIAC的考察,诺伊曼敏锐地抓住了它的最大弱点--没有真正的存储器。ENIAC只在20个暂存器,它的程序是外插型的,指令存储在计算机的其它电路中。计算的高速与程序的手工存在着很大的矛盾。针对这个问题,诺伊曼提出了程序内存的思想:把运算程序存在机器的存储器中,这样,就不必每个问题都重新编程,从而大大加快了运算进程。这一思想标志着自动运算的实现,标志着电子计算机的成熟,已成为电子计算机设计的基本原则。第22页,课件共167页,创作于2023年2月vonNeumann与神经网络1949年,VonNeumann在Illinois大学四次讲座的第二次讲座中,阐述了McCulloch-Pitts正式的神经网络理论特点。1955年,他应邀去Yale大学进行Silliman讲座,直至1956年(他死于1957年)。他未完成的Silliman讲座的手稿于1958年作为一本书被出版,书名为《TheComputerandtheBrain》,此书由于涉及了VonNeumann生前所做的工作和他注意到的人脑与计算机的巨大差异。此外,1956年VonNeumann用约简的思想解决了一个在神经网络中特别令人关注的问题,这就是如何用认为是不可靠的神经元来设计一个可靠的网络问题。

第23页,课件共167页,创作于2023年2月神经网络也经常被称为神经计算机,但它与现代数字计算机迥然不同。神经网络的信息存储与处理(计算)是合二为一的,即信息的存储体现在神经元互连的分布上;传统的计算机存储与计算是独立的,因而在存储与计算之间存在着瓶颈;神经网络以大规模模拟计算为主;数字计算机是以串行离散符号处理为主;神经网络具有很强的鲁棒性和容错性,善于联想、概括、类比和推广,任何局部的损伤不会影响整体结果;第24页,课件共167页,创作于2023年2月不同之处主要表现为(续):神经网络具有很强的自学习能力,能为新的输入产生合理的输出,可在学习过程之中不断完善自己,具有创新特点;神经网络是一大规模自适应非线性动力系统,具有集体运算的能力。这与本质上是线性系统的现代数字计算机迥然不同。第25页,课件共167页,创作于2023年2月人工神经网络是近年来的热点研究领域,涉及到电子科学与技术、信息与通信工程、计算机科学与技术、电气工程、控制科学与技术等诸多学科,其应用领域包括:建模、时间序列分析、模式识别和控制等,并在不断的拓展。第26页,课件共167页,创作于2023年2月人工神经网络(ANN)的研究与计算机的研究几乎是同步发展。早在1943年,心理学家W.McCulloch和数学家W.Pitts合作,从数理逻辑的角度,提出了神经元和神经网络最早的数学模型(MP模型),标志着神经网络研究的开始。1949年,D.O.Hebb从心理学角度提出了至今仍对神经网络理论有着重要影响的Hebb学习法则。1958年,F.Rosenblatt首次引入了模拟人脑感知和学习能力的感知器(perceptron)概念。1960年,B.Widrow和M.Hoff提出了主要用于自适应系统的自适应线性元件(Adaptivelinearneuron)网络。1969年美国麻省理工学院著名的人工智能专家M.Minsky和S.Papert出版了颇有影响的perceptron一书,指出其局限性。9.1.1人工神经网络的发展史第27页,课件共167页,创作于2023年2月1976年S.Grossberg与J.A.Carpenter提出了自适应共振理论(adaptiveresonancetherory,ART),并在以后的若干年发展了ART1、ART2和ART3网络模型。1982年美国加州工学院的物理学家J.Hoppfield提出了HNN模型,并首次引入了网络能量函数概念。1986年,D.Rumelhart和J.McCelland等学者提出了多层感知器的反向传播算法,克服了当初阻碍感知器模型继续发展的重要障碍,使BP网络成为目前应用最广的网络。1987年,电气和电子工程师学会IEEE在圣地亚哥召开了盛大规模的神经网络国际学术会议。1988年,学会的正式杂志NeuralNetworks

创刊。第28页,课件共167页,创作于2023年2月9.1.2生物神经元人脑神经系统的基本单元是神经元细胞,人脑神经系统约由1011个神经元构成,每个神经元与约104个其他神经元相连接。神经细胞与人体中其他细胞的关键区别在于,神经细胞具有产生、处理和传递信号的能力。神经元是基本的信息处理单元。生物神经元主要由胞体、树突、轴突和突触组成。生物神经元基本结构第29页,课件共167页,创作于2023年2月轴突树突胞体突触典型的神经元(即神经细胞)结构,如下图所示。1)胞体。它是神经细胞的本体,内有细胞核和细胞质,完成普通细胞的生存功能。2)树突是由细胞体向外伸出的,有不规则的表面和许多较短的分支。分支多达103数量级,长度较短,通常不超过1mm。树突相当于信号的输入端,用于接受神经冲动。3)轴突由细胞体向外伸出的最长的一条分支,即神经纤维,有些较长可达1m以上。轴突远端也有分枝,可与多个神经元连接。相当于信号的输出电缆,其端部的许多神经末梢为信号输出端子,用于传出神经冲动。神经信号的传导机制不是靠电信号,而是一个电化学过程,所以传导速度比电信号慢得多。第30页,课件共167页,创作于2023年2月4)神经元之间通过轴突(输出)和树突(输入)相互联结,其接口称为突触。它是一个神经元与另一个神经元相联系的特殊部位,每个细胞约有103~104个突触。

通常是一个神经元轴突的端部靠化学接触或电接触将信号(兴奋)传递给下一个神经元的树突或胞体;对树突的突触多为兴奋性的,使下一个神经元兴奋,而对胞体的突触多为抑制性,其作用是阻止下一个神经元兴奋。细胞膜内外有电位差,约为20~100mv,称为膜电位。膜外为正,膜内为负。第31页,课件共167页,创作于2023年2月神经元的基本工作机制:一个神经元有两种状态——兴奋和抑制。平时处于抑制状态的神经元,其树突和胞体接收其他神经元经由突触传来的兴奋电位,多个输入在神经元中以代数和的方式叠加;如果输入兴奋总量超过某个阈值,神经元就会被激发进入兴奋状态,发出输出脉冲,并由轴突的突触传递给其他神经元。神经元被触发之后有一个不应期,在此期间内不能被触发,然后阈值逐渐下降,恢复兴奋性。神经元是按照“全或无”的原则工作的,只有兴奋和抑制两种状态,但也不能认为神经元只能表达或传递二值逻辑信号。因为神经元兴奋时往往不是只发出一个脉冲,而是发出一串脉冲,如果把这一串脉冲看成是一个调频信号,脉冲的密度是可以表达连续量的。第32页,课件共167页,创作于2023年2月神经元具有的重要功能可塑性:可塑性反映在新突触的产生和现有神经突触的调整上,可塑性使神经网络能够适应周围的环境。时空整合功能:时间整合功能表现在不同时间、同一突触上;空间整合功能表现在同一时间、不同突触上。兴奋与抑制状态:当传入冲动的时空整合结果,使细胞膜电位升高,超过被称为动作电位的阈值(约为40mv),细胞进入兴奋状态,产生神经冲动,由轴突输出;同样,当膜电位低于阈值时,无神经冲动输出,细胞进入抑制状态。第33页,课件共167页,创作于2023年2月脉冲与电位转换:沿神经纤维传递的电脉冲为等幅、恒宽、编码(60~100mv)的离散脉冲信号,而细胞电位变化为连续信号。在突触接口处进行“数/模”转换。神经元中的轴突非常长和窄,具有电阻高、电压大的特性,因此轴突可以建模成阻容传播电路。突触的延时和不应期:在相邻的二次冲动之间需要一个时间间隔。在此期间对激励不响应。不能传递神经冲动。学习、遗忘和疲劳:突触的传递作用有学习、遗忘和疲劳过程。第34页,课件共167页,创作于2023年2月

人工神经网络是由大量处理单元广泛互连而成的网络,是人脑的抽象、简化、模拟,反映人脑的基本特性。一般来说,作为神经元模型应具备三个要素:(1)具有一组突触或联接,常用wij表示神经元i和神经元j之间的联接强度,或称之为权值。与人脑神经元不同,人工神经元权值的取值可在负值与正值之间。(2)具有反映生物神经元时空整合功能的输入信号累加.(3)具有一个激励函数用于限制神经元输出。激励函数将输出信号压缩(限制)在一个允许范围内,使其成为有限值。9.1.3人工神经元模型第35页,课件共167页,创作于2023年2月图9-1单个人工神经元模型单个的神经元模型如图9-1所示。第36页,课件共167页,创作于2023年2月人工神经元是一个多输入、单输出的非线性元件,其输入输出关系可表示为(9-1)其中:x1,x2,…,xn是从外部环境或其他神经元传来的输入信号;w1,w2,…,wn是对应于输入的连接权值;θ是一个阈值;函数g:R→R为传递函数,也称为激活函数,表示神经元的输出。常用的三种基本激活函数如下:第37页,课件共167页,创作于2023年2月(1)阈值型函数。常用的阈值型函数有阶跃函数和符号函数。阶跃函数的表达式为(9-2)符号函数的表达式为(9-3)10)(xgx1-10xg(x)第38页,课件共167页,创作于2023年2月(2)分段线性函数。函数表达式为(9-4)(3)Sigmoid函数。如图9-2所示,函数表达式为(9-5)或(9-6)第39页,课件共167页,创作于2023年2月图9-2Sigmoid函数示意图(a)取值在(0,1)内;(b)取值在(-1,1)内第40页,课件共167页,创作于2023年2月9.1.4神经网络的结构

神经网络是由大量的人工神经元广泛互连而成的网络。(1)从网络性能角度可分为:连续型与离散型网络、确定性与随机性网络;(2)从网络结构角度可分为前向网络与反馈网络;(3)从学习方式角度可分为有教师学习网络和无教师学习网络;(4)按连接突触性质可分为一阶线性关联网络和高阶非线性关联网络。第41页,课件共167页,创作于2023年2月

1.前馈网络

前馈网络中神经元分层排列,网络由输入层、中间层(也称隐含层)、输出层组成,每一层的各神经元只能接受前一层神经元的输出,作为自身的输入信号。根据是否有中间层,前馈网络分为单层前馈网络和多层前馈网络。常用的前馈网络有感知器、BP网络、RBF网络等。第42页,课件共167页,创作于2023年2月单层前馈网络没有中间层。图9-3给出了输入、输出均为四节点的单层前馈网络。由于输入层只接受外界输入,无任何计算功能,因此输入层不纳入层数的计算中。“单层”是指具有计算节点的输出层。第43页,课件共167页,创作于2023年2月图9-3单层前馈神经网络第44页,课件共167页,创作于2023年2月多层前馈网络有一个或多个隐含层。隐含层节点的输入和输出都是对网络内部的,隐含层节点具有计算功能,所以隐含层纳入层数的计算中。多层前馈神经网络的结构如图9-4所示。第45页,课件共167页,创作于2023年2月图9-4多层前馈神经网络第46页,课件共167页,创作于2023年2月

2.反馈网络

反馈网络和前馈网络的不同在于,反馈网络的输出层接有反馈环路,将网络的输出信号回馈到输入层。一个无隐含层的反馈网络如图9-5所示,网络由单层神经元构成,每个神经元都将其输出反馈到其他所有神经元的输入。图9-5中所描述的结构不存在自反馈环路,即没有输出神经元将输出反馈到其本身输入的情况。单层反馈网络有多种,其中最典型的是Hopfield网络。第47页,课件共167页,创作于2023年2月图9-5单层反馈神经网络无自反馈和隐含层的反馈网络

第48页,课件共167页,创作于2023年2月含有隐含层的反馈网络

第49页,课件共167页,创作于2023年2月3.随机神经网络随机神经网络是对神经网络引入随机机制,认为神经元是按照概率的原理进行工作的,这就是说,每个神经元的兴奋或抑制具有随机性,其概率取决于神经元的输入。Boltzmann机就是典型的随机神经网络。4.竞争神经网络最简单的竞争神经网络:Hamming网络第50页,课件共167页,创作于2023年2月9.1.5神经网络的学习方法

神经网络的学习也称为训练,指的是通过神经网络所在环境的刺激作用调整神经网络的自由参数,使神经网络以一种新的方式对外部环境作出反应的一个过程。能够从环境中学习和在学习中提高自身性能是神经网络的最有意义的性质。神经网络经过反复学习对其环境更为了解。

第51页,课件共167页,创作于2023年2月学习算法是指针对学习问题的明确规则集合。学习类型是由参数变化发生的形式决定的,不同的学习算法对神经元的突触权值调整的表达式有所不同。没有一种独特的学习算法用于设计所有的神经网络。选择或设计学习算法时还需要考虑神经网络的结构及神经网络与外界环境相连的形式。第52页,课件共167页,创作于2023年2月学习方式可分为:有导师学习(Learningwithateacher)和无导师学习(Learningwithoutateacher)。有导师学习又称为有监督学习(SupervisedLearning),在学习时需要给出导师信号或称为期望输出(响应)。对每一个输入训练样本,都有一个期望得到的输出值(也称教师信号),将它和实际输出值进行比较,根据两者之间的差值不断调整网络的连接权值,直到差值减小到预定的要求。第53页,课件共167页,创作于2023年2月无导师学习包括强化学习(ReinforcementLearning)与无监督学习(UnsupervisedLearning)或称为自组织学习(Self-OrganizedLearning)。

网络的学习完全是一种自我调整的过程,不存在教师信号。输入模式进入网络后,网络按照预先设定的某种规则反复地自动调整网络结构和连接权值,使网络最终具有模式分类等功能。第54页,课件共167页,创作于2023年2月假设yj为神经元j的输出,xi为神经元i对神经元j的输入,wij是神经元i与神经元j之间的连接权值,Δwij为连接权值wij的修正值,即wij(n+1)=wij(n)+Δwij。下面介绍9种常用的学习规则。第55页,课件共167页,创作于2023年2月1.Hebb学习规则Hebb学习规则是假定两个神经元同时兴奋时,它们之间的连接强度应该加强。连接权值的学习规则按下式计算:(9-7)其中,η为学习速率参数。第56页,课件共167页,创作于2023年2月2.感知器的学习规则感知器的学习规则属于有教师训练,连接权值的学习规则按下式计算:(9-8)其中:dj为神经元j的期望响应;dj-yj为误差信号,一般用rj表示,也称为学习信号。第57页,课件共167页,创作于2023年2月

3.δ学习规则

δ学习规则是由输出值和期望值之间的最小均方误差推导出来的。均方误差定义为(9-9)从而(9-10)第58页,课件共167页,创作于2023年2月要使期望误差最小,要求在负梯度方向上改变,所以取(9-11)其中,η为学习速率参数。一般地,学习速率参数η选得很小。

4.Widrow-Hoff学习规则

Widrow-Hoff学习规则也是使期望输出值和实际输出值之间平方误差最小。连接权值的学习规则按下式计算:第59页,课件共167页,创作于2023年2月(9-12)(9-13)该规则可以看做δ规则的特殊情况。

5.相关学习规则相关学习规则为(9-14)第60页,课件共167页,创作于2023年2月这是Hebb规则的特殊情况,但相关规则是有教师的,要求权初始化wij=0。6.Winner-Take-All(胜者为王)学习规则第m层中有一个神经元有最大响应,这个神经元被宣布为获胜者,则(9-15)其中,α是小的学习常数。第61页,课件共167页,创作于2023年2月7.内星和外星学习规则内星和外星学习规则按下式计算:(内星训练法)(9-16)(外星训练法)(9-17)第62页,课件共167页,创作于2023年2月8.梯度下降算法梯度下降算法的学习规则按下式计算:(9-18)其中,E为误差函数。9.随机学习算法随机学习算法也称为Boltzmann学习规则,是为了纪念LudwigBoltzmann而命名的。Boltzmann学习规则是由统计力学思想而来的,在Boltzmann学习规则基础上设计出的神经网络称为Boltzmann机,其学习算法实质上就是著名的模拟退火(SimulatedAnnealing,SA)算法。第63页,课件共167页,创作于2023年2月9.1.6神经网络的特点非线性(Nonlinearity)一个人工神经元可以是线性或非线性的。利用神经网络的非线性,可解决许多非线性问题。若输入信号所隐含的物理机制是非线性的,则人工神经网络非线性的重要性会更加突出。分布式存储信息。其信息的存储分布在不同的位置,神经网络是用大量神经元之间的连接及对各连接权值的分布来表示特定的信息。并行协同处理信息。神经网络中的每个神经元都可根据接收到的信息进行独立的运算和处理,并输出结果,同一层的各个神经元的输出结果可被同时计算出来,然后传输下一层做进一步处理,这体现了神经网络并行运算的特点。第64页,课件共167页,创作于2023年2月4.信息处理与存储合二为一。神经网络的每个神经元都兼有信息处理和存储功能,神经元之间连接强度的变化,既反映了对信息的记忆,同时又与神经元对激励的响应一起反映了信息的处理。5.对信息的处理具有自组织、自学习的特点,便于联想、综合和推广。神经网络的神经元之间的连接强度用权值大小来表示,这种权值可以通过对训练样本的学习而不断变换,而且随着训练样本量的增加和反复学习,这些神经元之间的连接强度会不断增加,从而提高神经元对这些样本特征的反映灵敏度。第65页,课件共167页,创作于2023年2月9.2前馈神经网络

9.2.1感知器

1.单层感知器网络

由美国学者Rosenblatt在1957年首次提出学习算法是Rosenblatt在1958年提出的包含一个突触权值可调的神经元属于前向神经网络类型只能区分线性可分的模式IEEE设立以其名字命名的奖项第66页,课件共167页,创作于2023年2月单层感知器一层为输入层,另一层是具有计算单元的输出层,可以通过监督学习建立模式判别的能力,如图9-6所示。

图9-6单层感知器网络结构图第67页,课件共167页,创作于2023年2月学习的目标是通过改变权值使神经网络由给定的输入得到给定的输出。作为分类器,可以用已知类别的模式向量或特征向量作为训练集,当输入为属于第j类的特征向量X时,应使对应于该类的输出yj=1,而其他神经元的输出则为0(或-1)。第68页,课件共167页,创作于2023年2月设理想的输出为实际的输出为了使实际的输出逼近理想输出,可以反复依次输入训练集中的向量X,并计算出实际的输出,对权值w作如下的修改:其中感知器的学习过程与求取线性判别函数的过程是等价的。感知器的特性:1)单层感知器只能用于解决线性可分问题;2)学习过程收敛很快,且与初始值无关。第69页,课件共167页,创作于2023年2月单层感知器工作原理

单层感知器可将外部输入分为两类和。当感知器的输出为+1时,输入属于l1类,当感知器的输出为-1时,输入属于l2类,从而实现两类目标的识别。在多维空间,单层感知器进行模式识别的判决超平面由下式决定:

第70页,课件共167页,创作于2023年2月对于只有两个输入的判别,边界是直线(如下式所示),选择合适的学习算法可训练出满意的和,当它用于两类模式的分类时,相当于在高维样本空间中,用一个超平面将两类样本分开。判决边界类l1类l2第71页,课件共167页,创作于2023年2月基于迭代的思想,通常是采用误差校正学习规则的学习算法。可以将偏差作为神经元突触权值向量的第一个分量加到权值向量中输入向量和权值向量可分别写成如下的形式:令上式等于零,可得到在一维空间的单层感知器的判别超平面。

单层感知器学习算法思想第72页,课件共167页,创作于2023年2月具体算法:第一步,设置变量和参量。

g(x)为激活函数,y(n)为网络实际输出,d(n)为期望输出,η为学习速率,n为迭代次数,e为实际输出与期望输出的误差。第二步,初始化给权值向量W(0)的各个分量赋一个较小的随机非零值,置n=0。第三步,输入一组样本并给出它的期望输出d(n)。第73页,课件共167页,创作于2023年2月第四步,计算实际输出:第五步,求出期望输出和实际输出求出误差根据误差判断目前输出是否满足条件,一般为对所有样本误差为零或者均小于预设的值,则算法结束,否则将n值增加1,并用下式调整权值:然后转到第三步,进入下一轮计算过程

第74页,课件共167页,创作于2023年2月使用MATLAB实现神经网络的步骤如下:第一步根据应用创建一个神经网络;第二步设定神经网络的训练参数,利用给定样本对创建的神经网络进行训练;第三步输入测试数据,测试训练好的神经网络的性能。第75页,课件共167页,创作于2023年2月例题:用单层感知器解决一个简单的分类问题。设计一个感知器,将二维的三组输入矢量分成两类。已知输入矢量为:P=[-0.4-0.50.6;0.900.1]目标矢量为:T=[110];现将输入矢量为Q=[0.60.9-0.1;-0.1-0.50.5]的样本进行分类。第76页,课件共167页,创作于2023年2月训练误差曲线第77页,课件共167页,创作于2023年2月训练后的分类线第78页,课件共167页,创作于2023年2月

2.多层感知器网络

单层感知器网络只能解决线性可分问题。在单层感知器网络的输入层和输出层之间加入一层或多层感知器单元作为隐含层,就构成了多层感知器网络。多层感知器网络可以解决线性不可分的输入向量的分类问题。

第79页,课件共167页,创作于2023年2月由输入层、隐含层(可以是一层或者多层)和输出层构成的神经网络称为多层前向神经网络。多层感知器的拓扑结构··················输入层神经元的个数为输入信号的维数,隐含层个数以及隐节点的个数视具体情况而定,输出层神经元的个数为输出信号的维数。第80页,课件共167页,创作于2023年2月多层感知器的特点含有一层或多层隐单元,从输入模式中获得了更多有用的信息,使网络可以完成更复杂的任务。每个神经元的激活函数采用可微的函数sigmoid函数多个突触使得网络更具连通性具有独特的学习算法

BP算法第81页,课件共167页,创作于2023年2月9.2.2BP网络(BackPropagation)

三层前馈网络的适用范围大大超过二层前馈网络,但学习算法较为复杂,主要困难是中间的隐层不直接与外界连接,无法直接计算其误差。为解决这一问题,Rumelhart,McClelland于1985年提出了BP网络的误差反向传播算法。J.McClelland

DavidRumelhart第82页,课件共167页,创作于2023年2月BP网络是采用误差反向传播(BackPropagation,BP)算法的多层前馈网络,其中,神经元的传递函数为S型函数,网络的输入和输出是一种非线性映射关系。其主要思想是:

利用输出后的误差来估计输出层的直接前导层的误差,再用这个误差估计更前一层的误差,如此一层一层的反传下去,就获得了所有其他各层的误差估计。即:是从后向前(反向)逐层传播输出层的误差,以间接算出隐层误差。第83页,课件共167页,创作于2023年2月BP学习过程:(1)工作信号正向传播:输入信号从输入层经隐单元,传向输出层,在输出端产生输出信号,这是工作信号的正向传播。在信号的向前传递过程中网络的权值是固定不变的,每一层神经元的状态只影响下一层神经元的状态。如果在输出层不能得到期望的输出,则转入误差信号反向传播。(2)误差信号反向传播:网络的实际输出与期望输出之间差值即为误差信号,误差信号由输出端开始逐层向后传播,这是误差信号的反向传播。在误差信号反向传播的过程中,网络的权值由误差反馈进行调节。通过权值的不断修正使网络的实际输出更接近期望输出。第84页,课件共167页,创作于2023年2月激活函数必须处处可导一般都使用S型函数使用S型激活函数时BP网络输入与输出关系输入输出第85页,课件共167页,创作于2023年2月输出的导数根据S型激活函数的图形可知,对神经网络进行训练,应该将net的值尽量控制在收敛比较快的范围内。第86页,课件共167页,创作于2023年2月学习的过程:神经网络在外界输入样本的刺激下不断改变网络的连接权值,以使网络的输出不断地接近期望的输出。学习的本质:对各连接权值的动态调整学习规则:权值调整规则,即在学习过程中网络中各神经元的连接权变化所依据的一定的调整规则。第87页,课件共167页,创作于2023年2月学习的类型:有导师学习核心思想:将输出误差以某种形式通过隐层向输入层逐层反传学习的过程:信号的正向传播误差的反向传播将误差分摊给各层的所有单元---各层单元的误差信号修正各单元权值第88页,课件共167页,创作于2023年2月正向传播:输入样本---输入层---各隐层---输出层判断是否转入反向传播阶段:若输出层的实际输出与期望的输出(教师信号)不符误差反传误差以某种形式在各层表示----修正各层单元的权值网络输出的误差减少到可接受的程度进行到预先设定的学习次数为止第89页,课件共167页,创作于2023年2月BP网络的学习规则采用梯度下降算法。在网络学习过程中,把输出层节点的期望输出(目标输出)与实际输出(计算输出)的均方误差,逐层向输入层反向传播,分配给各连接节点,并计算出各连接节点的参考误差,在此基础上调整各连接权值,使得网络的期望输出与实际输出的均方误差达到最小。第90页,课件共167页,创作于2023年2月网络结构输入层有n个神经元,隐含层有p个神经元,输出层有q个神经元变量定义输入向量;隐含层输入向量;隐含层输出向量;输出层输入向量;输出层输出向量;期望输出向量;BP网络的标准学习算法第91页,课件共167页,创作于2023年2月输入层与中间层的连接权值:隐含层与输出层的连接权值:隐含层各神经元的阈值:输出层各神经元的阈值:样本数据个数:激活函数:误差函数:第92页,课件共167页,创作于2023年2月第一步,网络初始化给各连接权值分别赋一个区间(-1,1)内的随机数,设定误差函数e,给定计算精度值和最大学习次数M。第二步,随机选取第个输入样本及对应期望输出第93页,课件共167页,创作于2023年2月第三步,计算隐含层各神经元的输入和输出第94页,课件共167页,创作于2023年2月第四步,利用网络期望输出和实际输出,计算误差函数对输出层的各神经元的偏导数。第95页,课件共167页,创作于2023年2月第五步,利用隐含层到输出层的连接权值、输出层的和隐含层的输出计算误差函数对隐含层各神经元的偏导数。第96页,课件共167页,创作于2023年2月第97页,课件共167页,创作于2023年2月第六步,利用输出层各神经元的和隐含层各神经元的输出来修正连接权值。第98页,课件共167页,创作于2023年2月第七步,利用隐含层各神经元的和输入层各神经元的输入修正连接权。第99页,课件共167页,创作于2023年2月第八步,计算全局误差第九步,判断网络误差是否满足要求。当误差达到预设精度或学习次数大于设定的最大次数,则结束算法。否则,选取下一个学习样本及对应的期望输出,返回到第三步,进入下一轮学习。第100页,课件共167页,创作于2023年2月BP算法直观解释情况一直观表达当误差对权值的偏导数大于零时,权值调整量为负,实际输出大于期望输出,权值向减少方向调整,使得实际输出与期望输出的差减少。whoe>0,此时Δwho<0第101页,课件共167页,创作于2023年2月BP算法直解释情况二直观表达当误差对权值的偏导数小于零时,权值调整量为正,实际输出少于期望输出,权值向增大方向调整,使得实际输出与期望输出的差减少。e<0,此时Δwho>0who第102页,课件共167页,创作于2023年2月BP神经网络的特点非线性映射能力能学习和存贮大量输入-输出模式映射关系,而无需事先了解描述这种映射关系的数学方程。只要能提供足够多的样本模式对供网络进行学习训练,它便能完成由n维输入空间到m维输出空间的非线性映射。泛化能力当向网络输入训练时未曾见过的非样本数据时,网络也能完成由输入空间向输出空间的正确映射。这种能力称为泛化能力。容错能力输入样本中带有较大的误差甚至个别错误对网络的输入输出规律影响很小。第103页,课件共167页,创作于2023年2月BP学习算法是神经网络学习中最常用的学习方法之一,BP网络被广泛应用于模式识别、函数逼近、数据压缩等多个方面。但是,BP算法存在一些不足,例如,隐含层数和隐含层神经元数目通常是通过实验确定的,缺乏理论依据;有可能收敛到一个局部极小点,得到局部最优解;学习算法的收敛速度较慢。第104页,课件共167页,创作于2023年2月9.2.3径向基函数网络

一、概述1985年,Powell提出了多变量插值的径向基函数(RadicalBasisFunction,RBF)方法。1988年,Moody和Darken首先将RBF应用于神经网络设计,构成了径向基函数神经网络。结构:RBF网络是一种三层前向网络输入层由信号源节点组成;第二层为隐含层,隐单元的个数由所描述的问题而定,隐单元的变换函数是中心点径向对称且衰减的非负非线性函数;第三层为输出层,它对输入模式的作用做出响应。第105页,课件共167页,创作于2023年2月RBF网络的基本思想:用径向基函数(RBF)作为隐单元的“基”,构成隐含层空间,隐含层对输入矢量进行变换,将低维的模式输入数据变换到高维空间内,通过对隐单元输出的加权求和得到输出。当RBF的中心点确定后,映射关系也就确定。隐含层空间到输出空间的映射是线性的。径向基函数(RadialBasisFunction,RBF)网络的结构与BP网络类似,它是一个三层前馈网络,包含1个输入层、1个隐含层和1个输出层,其结构如图9-8所示。第106页,课件共167页,创作于2023年2月图9-8RBF网络结构第107页,课件共167页,创作于2023年2月在RBF神经网络中,隐含层单元提供了一系列“函数”,这些函数就称作为径向基函数,它是关于中心点对称的非线性函数。当输入模式(向量)传输到隐含层时,这些径向基函数构成了输入模式的一个“基”。当RBF的中心点确定后,映射关系就确定了,将输入向量直接映射到隐含层空间,其中不需要连接权。第108页,课件共167页,创作于2023年2月这种网络的特点是:只有一个隐层,隐层单元采用径向基函数作为其输出特性,输入层到隐层之间的权值均固定为1;输出节点为线性求和单元,隐层到输出节点之间的权值可调,因此输出为隐层的加权求和。所谓径向基函数就是某种沿径向对称的标量函数。通常定义为空间中任一点x到某一中心ui之间欧氏距离的单调函数,可记作其作用往往是局部的,即当x远离ui时函数取值很小。最常用的径向基函数是(1)高斯核函数,形式为(i=1,2,…,L)(9-34)第109页,课件共167页,创作于2023年2月

(2)三角核,其函数表达式为(i=1,2,…,L)(9-35)(3)双指数核,其函数表达式为(i=1,2,…,L)(9-36)第110页,课件共167页,创作于2023年2月最常用的RBF函数形式是高斯核函数。网络学习时,RBF函数的中心矢量ui和形状参数αi也参与学习修正。中心矢量修正的方法主要有自组织特征映射方法和K均值聚类方法。RBF函数的形状参数αi应根据样本的特性自适应地选择。若αi取得较大,则隐含层中节点i能感受较大范围内的模式,容错性好,但局部性差;若αi取得较小,则容错性差,但局部性好。第111页,课件共167页,创作于2023年2月学习算法需要求解的参数径向基函数的中心方差隐含层到输出层的权值学习方法分类(按RBF中心选取方法的不同分)随机选取中心法自组织选取中心法有监督选取中心法正交最小二乘法等二、RBF网络的学习算法第112页,课件共167页,创作于2023年2月自组织选取中心学习方法

第一步,自组织学习阶段无导师学习过程,求解隐含层基函数的中心与方差;

第二步,有导师学习阶段求解隐含层到输出层之间的权值。高斯函数作为径向基函数第113页,课件共167页,创作于2023年2月第114页,课件共167页,创作于2023年2月例:建立一个径向基神经网络,对非线性函数y=sqrt(x)进行逼近,并作出网络的逼近误差曲线。第115页,课件共167页,创作于2023年2月第116页,课件共167页,创作于2023年2月理论上而言,RBF网络和BP网络一样可近似任何的连续非线性函数,二者的主要差别在于各使用不同的传递函数。BP网络中隐含层单元的传递函数一般为非线性函数,RBF网络隐含层单元的传递函数是关于中心对称的径向基函数。BP网络各层单元间通过权连接,RBF网络输入层和隐含层间为直接连接,隐含层到输出层通过权连接。第117页,课件共167页,创作于2023年2月RBF网络与BP网络比较:RBF网络的输出是隐单元输出的线性加权和,学习速度加快;BP网络使用sigmoid()函数作为激活函数,这样使得神经元有很大的输入可见区域;径向基神经网络使用径向基函数(一般使用高斯函数)作为激活函数,神经元输入空间区域很小,因此需要更多的径向基神经元。第118页,课件共167页,创作于2023年2月RBF网络与多层感知器比较:都是非线性多层前向网络,它们都是通用逼近器。对于任一个多层感知器,总存在一个RBF网络可以代替它,反之亦然。RBF网络只有一个隐层,而多层感知器的隐层可以是一层也可以是多层的;多层感知器的隐层和输出层其神经元模型是一样的。而RBF网络的隐层神经元和输出层神经元不仅模型不同,而且在网络中起到的作用也不一样。第119页,课件共167页,创作于2023年2月RBF网络的隐层是非线性的,输出层是线性的。多层感知器解决模式分类问题时,它的隐层和输出层通常选为非线性的。当用多层感知器解决非线性回归问题时,通常选择线性输出层。RBF网络的基函数计算的是输入向量和中心的欧氏距离,而多层感知器隐单元的激励函数计算的是输入单元和连接权值间的内积。多层感知器是对非线性映射的全局逼近,而RBF网络使用局部指数衰减的非线性函数(如高斯函数)对非线性输入输出映射进行局部逼近。这也意味着,逼近非线性输入输出映射,要达到相同的精度,RBF网络所需要的参数要比多层感知器少得多。第120页,课件共167页,创作于2023年2月9.3自组织特征映射神经网络

自组织神经网络,又称为自组织竞争神经网络,特别适合于解决模式分类和识别方面的应用问题。自组织神经网络属于前向神经网络类型,采用无导师学习算法;自组织特征映射神经网络不仅能够像自组织竞争神经网络一样学习输入的分布情况,而且可以学习神经网络的拓扑结构。第121页,课件共167页,创作于2023年2月由芬兰学者TeuvoKohonen于1981年提出。基本上为输入层和映射层的双层结构,映射层的神经元互相连接,每个输出神经元连接至所有输入神经元。第122页,课件共167页,创作于2023年2月神经元之间的信息交互方式有很多种,然而邻近神经元之间的局部交互有一个共同的方式,就是侧向交互:最相近的“邻元”(约小于0.5mm)互相兴奋,较远的邻元(1mm~2mm)互相抑制,更远的又是弱兴奋,这种局部交互形式可以形象地比喻为“墨西哥草帽”(如下图所示)。

邻近神经元之间的局部交互作用示意第123页,课件共167页,创作于2023年2月T.Kohonen认为:神经网络中邻近的各个神经元通过侧向交互作用彼此相互竞争,自适应地发展成检测不同信号的特殊检测器,这就是自组织特征映射的含义。人工自组织映射与大脑映射有许多共同特征,通常又称作自组织映射神经网络或简称SOM网络。第124页,课件共167页,创作于2023年2月9.3.1网络结构

自组织特征映射神经网络由输入层和输出层组成,输出层也称为竞争层。其网络结构如图9-9所示。输入层为输入模式的一维阵列,其节点数为输入模式的维数。输入层和输出层神经元间为全互连方式,即所有输入层节点到所有输出层节点都有权值连接。输出层神经元按二维阵列形式排列,且相互间也可能存在局部连接,每个神经元代表一种输入样本。第125页,课件共167页,创作于2023年2月图9-9自组织特征映射网络结构图第126页,课件共167页,创作于2023年2月对于给定的输入模式,网络在学习过程中不断调整连接权值,形成兴奋中心神经元(获胜神经元)j*。在神经元j*的邻域NEj*内的神经元都在不同程度上得到兴奋,而在NEj*以外的神经元都被抑制。这个邻域NEj*可以是任意形状,如正方形、六边形。区域NEj*的大小是时间t的函数,用NEj*(t)表示。随着时间t的增大,NEj*(t)的面积逐渐减小,最后只剩下一组神经元或一个神经元,反映了某一类输入模式的特性。采用正方形的邻域形状图如图9-10所示。第127页,课件共167页,创作于2023年2月图9-10不同时刻特征映射的拓扑邻域(t0<t1<t2)第128页,课件共167页,创作于2023年2月9.3.2自组织特征映射算法设自组织特征映射网络的输入模式x=(x1,x2,…,xn)T,输出层每个节点(神经元)对应一个权向量Wj=(w1j,w2j,…,wnj)T,wij是输入节点i到输出节点j的连接权值。输入一个模式x时,将其和输出层每个节点的权向量都进行比较,然后对距离最近的节点及其邻域中的节点的权向量进行修正。第129页,课件共167页,创作于2023年2月Kohonen给出了自组织特征映射算法,具体过程如下:(1)初始化权值。初始化从n个输入节点到m个输出节点的权值,取值为小的随机数,设定邻域的半径的初始值。(2)提交t时刻的输入模式:x(t)=(x1(t),x2(t),…,xn(t))T。(3)计算输入模式到所有输出节点的距离:(9-37)第130页,课件共167页,创作于2023年2月其中:xi(t)是t时刻输入节点i的输入;wij(t)是t时刻输入节点i到输出节点j的连接权值;dj为输入模式到输出节点j的距离。(4)选择具有最小距离的输出节点j*:

(9-38)(5)更新节点j*及其邻域NEj*(t)中的节点的权值:(1≤i≤n,j∈NEj*(t))(9-39)第131页,课件共167页,创作于2023年2月其中:η(t)为增益项,0<η(t)<1,η(t)是时间t的递减函数;NEj*(t)为节点j*的邻域。(6)若还有输入样本数据,令t=t+1,则返回到步骤(2)。在学习过程中,邻域在初始时可选大些,然后逐步收缩;学习系数η(t)在初始时可取接近于1.0的常数,然后逐渐变小。第132页,课件共167页,创作于2023年2月SOM网络中,输出层各神经元的连接权向量的空间分布能够准确反映输入模式空间的概率分布,这就是SOM网络的自组织能力。因此,可以利用SOM网络对未知概率分布模式进行学习,由网络的连接权向量的空间分布获得输入模式的概率分布。第133页,课件共167页,创作于2023年2月自组织特征映射算法属于非监督学习,SOM网络也可用于有监督的学习。当已知类别的学习模式x输入网络时,仍按式(9-38)选择获胜神经元j*。如果获胜神经元是输入模式的正确类别,则将获胜神经元的连接权向量向x靠拢的方向调整,否则向反方向调整。调整方程为(j*是正确类别)(j*不是正确类别)第134页,课件共167页,创作于2023年2月9.4支持向量机

一、历史背景传统统计学是一种渐进理论,研究的是样本数目趋于无穷大时的极限特性。现有的学习方法多基于传统统计学理论,但在实际应用中,样本往往是有限的,因此一些理论上很优秀的学习方法在实际中的表现却不尽人意,存在着一些难以克服的问题,比如说如何确定网络结构的问题、过学习问题、局部极小值问题等,从本质上来说就是因为理论上需要无穷样本而实际中样本数目有限造成的矛盾。第135页,课件共167页,创作于2023年2月与传统统计学的方向不同,Vapnik等人提出了一个较完善的基于有限样本的理论体系--统计学习理论。统计学习理论(SLT)是一种专门研究小样本情况下机器学习规律的理论,它从更本质上研究机器学习问题,为解决有限样本学习问题提供了一个统一的框架。支持向量机方法是在统计学习理论基础上发展起来的通用学习方法,它具有全局优化、适应性强、理论完备、泛化性能好等优点。第136页,课件共167页,创作于2023年2月1992年-1995年,在统计学习理论的基础上发展出了一种新的模式识别方法----支持向量机(SupportVectorMachine,SVM),建立在统计学习理论的结构风险最小化原则之上,用来实现统计理论思想的方法。SVM在解决小样本、非线性及高维模式识别问题中表现出许多优势,并能推广应用到函数拟合等其他机器学习问题中。第137页,课件共167页,创作于2023年2月模式识别方法中VC维的直观定义是:对于一个指标函数集,如果存在n个样本能够被函数集中的函数按所有可能的2h

种形式分开,则称函数集能够把n个样本打散;函数集的VC维就是它能打散的最大样本数目h。有界实函数的VC维可以通过用一定的阈值将其转化为指示函数来定义。

VC维反映了函数集的学习能力,VC维越大则学习机器越复杂(学习能力越强)。二、函数集的VC维

(VapnikChervonenkisDimension

)第138页,课件共167页,创作于2023年2月三、推广性的界统计学习理论系统地研究了各种类型函数集的经验风险(即训练误差)和实际风险(即期望风险)之间的关系,即推广性的界。关于两类分类问题有如下结论:对指示函数集中的所有函数,经验风险和实际风险之间至少以概率满足如下关系:置信范围其中h是函数集的VC维,l是样本数。第139页,课件共167页,创作于2023年2月支持向量机的理论最初来自于对数据分类问题的处理。对于线性可分数据的二值分类,如果采用多层前向网络来实现,其机理可以简单描述为:系统随机的产生一个超平面并移动它,直到训练集合中属于不同类别的点正好位于该超平面的不同侧面,就完成了对网络的设计要求。但是这种机理决定了不能保证最终所获得的分割平面位于两个类别的中心,这对于分类问题的容错性是不利的。第140页,课件共167页,创作于2023年2月保证最终所获得的分割平面位于两个类别的中心对于分类问题的实际应用是很重要的。支持向量机方法很巧妙地解决了这一问题。该方法的机理可以简单描述为:寻找一个满足分类要求的最优分类超平面,使得该超平面在保证分类精度的同时,能够使超平面两侧的空白区域最大化;从理论上来说,支持向量机能够实现对线性可分数据的最优分类。为了进一步解决非线性问题,Vapnik等人通过引入核映射方法转化为高维空间的线性可分问题来解决。第141页,课件共167页,创作于2023年2月针对两类分类问题,SVM在高维空间中寻找一个超平面作为两类的分割,以保证最小的分类错误率。少数与超平面最接近的那些训练样本称为支持向量,它们决定了推广性能。SVM有三个关键的概念:分类间隔(margin)、对偶(duality)以及核。第142页,课件共167页,创作于2023年2月9.4.1线性可分情况SVM从线性可分情况下的最优分类发展而来,如图9-11所示。方点和圆点各代表一类样本,H为分类线,H1和H2分别为过两类中距离分类线最近的样本且平行于分类线的直线,它们之间的距离称为分类间隔。最优分类线就是要求分类线不但能将两类样本正确分开,而且使分类间隔最大。第143页,课件共167页,创作于2023年2月图9-11线性可分情况下的最优分类第144页,课件共167页,创作于2023年2月假设存在训练样本(xi,yi),i=1,2,…,N,xi∈Rn,yi∈{-1,+1}在线性可分情况下会有一个超平面使得这两类样本完全分开。n维空间中线性判别函数的一般形式为f(x)=〈w,x〉+b,则超平面描述为(9-40)其中,〈w,x〉是n维向量空间中的两个向量的内积,w是超平面的法向量。判别函数满足以下条件:第145页,课件共167页,创作于2023年2月(yi=+1)(yi=-1)将判别函数进行归一化,使两类所有样本都满足|f(x)|≥1,则判别函数变为(9-41)此时样本点到超平面的最小距离为,分类间隔等于使最大等价于使‖w‖2最小。满足式(9-41)并且第146页,课件共167页,创作于2023年2月使‖w‖2最小的分界面称为最优分界面,H1和H2上的训练样本点称为支持向量。统计学习理论指出:在n维空间中,设样本分布在一个半径为R的超球形范围内,则满足条件‖w‖≤A的正则超平面构成的指示函数集f(x,w,b)=sgn{〈w,x〉+b}(sgn()为符号函数)的VC维(VapnikChervonenkisDimension)h满足下式表明的界:第147页,课件共167页,创作于2023年2月(9-42)因此,使‖w‖2最小就变成了求下面的函数解:最小化:(9-43)使满足:(9-44)第148页,课件共167页,创作于2023年2月利用Lagrange优化方法可以把上面问题转化为其对偶问题:(9-45)使满足:(9-46)其中,ai为每个样本对应的Lagrange乘子。这是一个在等式约束和不等式约束下的凸二次优化问题,存在唯一解,且解中只有一部分ai不为零,对应的样本就是支持向量。第149页,课件共167页,创作于2023年2月此时最优分类函数为(9-47)上式求和计算取ai中不为零的值,b可以利用任一支持向量满足式(9-41)中的等号求得。第150页,课件共167页,创作于2023年2月9.4.2线性不可分情况

对于线性不可分情况,可以在条件中增加松弛项ξi≥0,约束条件为yi(〈w,xi〉+b)≥1-ξi,其中ξi≥0,i=1,2,…,N,此时目标函数变为(9-48)其中,C为可调参数,表示对错误的惩罚程度,C越大惩罚越重。上述问题可描述为第151页,课件共167页,创作于2023年2月最大化:(9-49)使满足:(9-50)第152页,课件共167页,创作于2023年2月非线性SVM问题的基本思想是:通过非线性变换将非线性问题转换为某个高维空间中的线性问题,在变换空间求最优分类面。一般地,新空间维数要高于原空间维数。这种映射可表示为:将x作变换Φ:Rn→H(H为某个高维特征空间)(9-51)其中,Φi(x)是实函数。则可以建立在新空间中的优化超平面:(9-52)第153页,课件共167页,创作于2023年2月注意到,对偶问题中

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论