版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2024/2/26模式识别导论
2024/2/26第一章概论
§1-1模式识别的基本概念一.模式识别的基本定义
模式(pattern)------存在于时间,空间中可观察
的事物,具有时间或空间分布的信息。
模式识别(PatternRecognition)------用计算机实现人对各种事物或现象的分析,描述,判断,识别。模式识别与图象识别,图象处理的关系
模式识别是模拟人的某些功能
模拟人的视觉:计算机+光学系统模拟人的听觉:计算机+声音传感器模拟人的嗅觉和触觉:计算机+传感器2024/2/26二.模式识别的发展史1929年G.Tauschek发明阅读机,能够阅读0-9的数字。30年代Fisher提出统计分类理论,奠定了统计模式识别的基础。因此,在60~70年代,统计模式识别发展很快,但由于被识别的模式愈来愈复杂,特征也愈多,就出现“维数灾难”。但由于计算机运算速度的迅猛发展,这个问题得到一定克服。统计模式识别仍是模式识别的主要理论。2024/2/2650年代NoamChemsky提出形式语言理论美籍华人付京荪提出句法结构模式识别。60年代L.A.Zadeh提出了模糊集理论,模糊模式识别理论得到了较广泛的应用。80年代Hopfield提出神经元网络模型理论。近些年人工神经元网络在模式识别和人工智能上得到较广泛的应用。90年代小样本学习理论,支持向量机也受到了很大的重视。2024/2/26三.关于模式识别的国内、国际学术组织1973年IEEE发起了第一次关于模式识别的国际会议“ICPR”,成立了国际模式识别协会---“IAPR”,每2年召开一次国际学术会议。1977年IEEE的计算机学会成立了模式分析与机器智能(PAMI)委员会,每2年召开一次模式识别与图象处理学术会议。国内的组织有电子学会,通信学会,自动化协会,中文信息学会….。2024/2/26§1-2模式识别系统信息的获取:是通过传感器,将光或声音等信息转化为电信息。信息可以是二维的图象如文字,图象等;可以是一维的波形如声波,心电图,脑电图;也可以是物理量与逻辑值。预处理:包括A\D,二值化,图象的平滑,变换,增强,恢复,滤波等,主要指图象处理。2024/2/26特征抽取和选择:在模式识别中,需要进行特征的抽取和选择,例如,一幅64x64的图象可以得到4096个数据,这种在测量空间的原始数据通过变换获得在特征空间最能反映分类本质的特征。这就是特征提取和选择的过程。分类器设计:分类器设计的主要功能是通过训练确定判决规则,使按此类判决规则分类时,错误率最低。把这些判决规则建成标准库。分类决策:在特征空间中对被识别对象进行分类。2024/2/26§1-3模式识别的应用1.字符识别:包括印刷体字符的识别;手写体字符的识别(脱机),各种OCR设备例如信函分拣、文件处理、卡片输入、支票查对、自动排板、期刊阅读、稿件输入;在线手写字符的识别(联机),各种书写输入板。2.医疗诊断:心电图,脑电图,染色体,癌细胞识别,疾病诊断,例如关幼波肝炎专家系统。3.遥感:资源卫星照片,气象卫星照片处理,数字化地球,图象分辨率可以达到1米。2024/2/264.指纹识别脸形识别5.检测污染分析,大气,水源,环境监测。6.自动检测:产品质量自动检测7.语声识别,机器翻译,电话号码自动查询,侦听,机器故障判断。8.军事应用2024/2/26§1-4模式识别的基本问题一.模式(样本)表示方法向量表示:假设一个样本有n个变量(特征)Ⅹ=(X1,X2,…,Xn)T2.矩阵表示:N个样本,n个变量(特征)2024/2/263.几何表示一维表示
X1=1.5X2=3
二维表示
X1=(x1,x2)T=(1,2)T
X2=(x1,x2)T=(2,1)T
三维表示
X1=(x1,x2,x3)T=(1,1,0)T
X2=(x1,x2,x3)T=(1,0,1)T2024/2/264.基元(链码)表示:在右侧的图中八个基元分别表示0,1,2,3,4,5,6,7,八个方向和基元线段长度。则右侧样本可以表示为
X1=006666这种方法将在句法模式识别中用到。2024/2/26二.模式类的紧致性1.紧致集:同一类模式类样本的分布比较集中,没有或临界样本很少,这样的模式类称紧致集。2024/2/262.临界点(样本):在多类样本中,某些样本的值有微小变化时就变成另一类样本称为临界样本(点)。3.紧致集的性质
①要求临界点很少
②集合内的任意两点的连线,在线上的点属于同一集合
③集合内的每一个点都有足够大的邻域,在邻域内只包含同一集合的点4.模式识别的要求:满足紧致集,才能很好的分类;如果不满足紧致集,就要采取变换的方法,满足紧致集.2024/2/26三.相似与分类
1.两个样本xi,xj之间的相似度量满足以下要求:
①应为非负值
②样本本身相似性度量应最大
③度量应满足对称性
④在满足紧致性的条件下,相似性应该是点间距离的单调函数
2.用各种距离表示相似性:
①绝对值距离已知两个样本
xi=(xi1,xi2,xi3,…,xin)Txj=(xj1,xj2,xj3,…,xjn)T
2024/2/26②欧几里德距离③明考夫斯基距离
其中当q=1时为绝对值距离,当q=2时为欧氏距离2024/2/26④切比雪夫距离
q趋向无穷大时明氏距离的极限情况⑤马哈拉诺比斯距离
其中xi,xj为特征向量,为协方差。使用的条件是样本符合正态分布2024/2/26⑥夹角余弦为xixj的均值即样本间夹角小的为一类,具有相似性例:x1,x2,x3的夹角如图:因为x1,x2的夹角小,所以x1,x2最相似。x1x2x1x2x32024/2/26⑦相关系数为xixj的均值注意:在求相关系数之前,要将数据标准化3.分类的主观性和客观性①分类带有主观性:目的不同,分类不同。例如:鲸鱼,牛,马从生物学的角度来讲都属于哺乳类,但是从产业角度来讲鲸鱼属于水产业,牛和马属于畜牧业。
②分类的客观性:科学性判断分类必须有客观标准,因此分类是追求客观性的,但主观性也很难避免,这就是分类的复杂性。2024/2/26四.特征的生成
1.低层特征:
①无序尺度:有明确的数量和数值。
②有序尺度:有先后、好坏的次序关系,如酒分为上,中,下三个等级。
③名义尺度:无数量、无次序关系,如有红,黄两种颜色
2.中层特征:经过计算,变换得到的特征
3.高层特征:在中层特征的基础上有目的的经过运算形成例如:椅子的重量=体积*比重体积与长,宽,高有关;比重与材料,纹理,颜色有关。这里低、中、高三层特征都有了。假设对一模式X已抽取n个特征,表示为:模式识别问题就是根据模式X的n个特征来判别模式属于ω1,ω2,
…,
ωm类中的那一类。§2-1判别函数
例如下图:三类的分类问题,它们的边界线就是一个判别函数§2.1判别函数(续)判别函数包含两类:一类是线性判别函数:线性判别函数广义线性判别函数(所谓广义线性判别函数就是把非线性判别函数映射到另外一个空间变成线性判别函数)分段线性判别函数另一类是非线性判别函数§2.1判别函数(续)§2-2线性判别函数我们现在对两类问题和多类问题分别进行讨论。(一)两类问题即:
1.二维情况:取两个特征向量这种情况下判别函数:在两类别情况,判别函数g
(x)
具有以下性质:这是二维情况下判别由判别边界分类.情况如图:1.二维情况2.n维情况现抽取n个特征为:判别函数:
另外一种表示方法:模式分类:当g1(x)=WTX=0为判别边界。当n=2时,二维情况的判别边界为一直线。当n=3时,判别边界为一平面,n>3时,则判别边界为一超平面。2.n维情况(二)
多类问题对于多类问题,模式有ω1,ω2,
…,
ωm个类别。可分三种情况:1。第一种情况:每一模式类与其它模式类间可用单个判别平面把一个类分开。这种情况,M类可有M个判别函数,且具有以下性质:右图所示,每一类别可用单个判别边界与其它类别相分开。如果一模式X属于ω1,则由图可清楚看出:这时g1(x)>0而g2(x)<0,g3(x)<0。ω1类与其它类之间的边界由g1(x)=0确定.1。第一种情况例:已知三类ω1,ω2,ω3的判别函数分别为:因此三个判别边界为:1。第一种情况(续)作图如下:1。第一种情况(续)对于任一模式X如果它的g1(x)>0,g2(x)<0,g3(x)<0则该模式属于ω1类。相应ω1类的区域由直线-x2+1=0
的正边、直线-x1+x2-5=0和直线-x1+x2=0的负边来确定。1。第一种情况(续)必须指出,如果某个X使二个以上的判别函数gi(x)>0。则此模式X就无法作出确切的判决。如图中
IR1,IR3,IR4区域。另一种情况是IR2区域,判别函数都为负值。IR1,IR2,IR3,IR4。都为不确定区域。1。第一种情况(续)问当x=(x1,x2)T=(6,5)T时属于那一类结论:g1(x)<0,g2(x)>0,g3(x)<0所以它属于ω2类1。第一种情况(续)这样有M(M_1)/2个判别平面。对于两类问题,M=2,则有一个判别平面。同理,三类问题则有三个判别平面。
判别函数:判别边界:判别条件:2。第二种情况:每个模式类和其它模式类间可分别用判别平面分开。判别函数性质:假设判别函数为:判别边界为:2。第二种情况(续)用方程式作图:问:未知模式X=(x1,x2)T=(4,3)T属于那一类代入判别函数可得:把下标对换可得:因为结论:所以X属于ω3类结论:判别区间增大,不确定区间减小,比第一种情况小的多.2。第二种情况(续)3。第三种情况判别函数:
判别规则:判别边界:gi(x)=gj(x)
或gi(x)-gj(x)=0就是说,要判别模式X属于那一类,先把X代入M个判别函数中,判别函数最大的那个类别就是X所属类别。类与类之间的边界可由gi(x)=gj(x)
或gi(x)-gj(x)=0来确定。每类都有一个判别函数,存在M个判别函数右图所示是M=3的例子。对于ω1类模式,必然满足g1(x)>g2(x)
和g1(x)>g3(x)
。假设判别函数为:则判别边界为:3。第三种情况(续)结论:不确定区间没有了,所以这种是最好情况。用上列方程组作图如下:3。第三种情况(续)问假设未知模式x=(x1,x2)T=(1,1)T
,则x属于那一类。把它代入判别函数:得判别函数为:因为所以模式x=(1,1)T属于类。3。第三种情况(续)§2-3、线性判别函数的性质1、模式空间与加权空间模式空间:由构成的n维欧氏空间。W是此空间的加权向量,它决定模式的分界面H,W与H正交。加权空间:以为变量构成的欧氏空间模式空间与加权空间的几何表示如下图:模式空间1、模式空间与加权空间(续)该式表示一个通过加权空间原点的平面,此平面就是加权空间图中的平面①,同样令g
(x2)=g
(x3)=g
(x4)=0,分别作出通过加权空间原点的平面②③④图中用阴影表示的部分是各平面的正侧。加权空间的构造:设是加权空间分界面上的一点,代入上式得:1、模式空间与加权空间这是一个不等式方程组,它的解处于由ω1类所有模式决定的平面的正边和由ω2类所有模式决定的平面的负边,它的解区即为凸多面锥。如图所示:(b)为加权空间,(c)为正规化后的加权空间。由上可以得到结论:加权空间的所有分界面都通过坐标原点。这是加权空间的性质。为了更清楚,下面用二维权空间来表示解向量和解区。1、模式空间与加权空间(续)在三维空间里,令w3
=0
则为二维权空间。如图:给定一个模式X,就决定一条直线:即分界面H,W与H正交,W称为解向量。解向量的变动范围称为解区。因x1,x2∈ω1,x3,x4∈ω2由图可见x1,x3离的最近,所以分界面H可以是x1,x3之间的任一直线,由垂直于这些直线的W就构成解区,解区为一扇形平面,即阴影区域。如右图:2、解向量和解区把不等式方程正规化:正规化:2、解向量的解区(续)g(x)=WTX=0决定一个决策界面,当g(x)为线性时,这个决策界面便是一个超平面H,并有以下性质:性质①:W与H正交(如图所示)假设x1,x2是H上的两个向量所以W
与(x1-x2)
垂直,即W与H正交。一般说,超平面H把特征空间分成两个半空间。即Ω1,Ω2空间,当x在Ω1空间时g(x)>0,W指向Ω1,为H的正侧,反之为H的负侧.3、超平面的几何性质Ω1Ω2g(x)>0g(x)<03、超平面的几何性质矢量到H的正交投影与值成正比其中:x
p:x在H
的投影向量,r是x
到H
的垂直距离。是W方向的单位向量。3、超平面的几何性质(续)性质②:另一方面:3、超平面的几何性质(续)这是超平面的第二个性质,矢量x到超平面的正交投影正比与g(x)的函数值。性质③:3、超平面的几何性质(续)性质④:3、超平面的几何性质(续)一组模式样本不一定是线性可分的,所以需要研究线性分类能力的方法,对任何容量为N的样本集,线性可分的概率多大呢?(如下图(a),线性不可分)例:4个样本有几种分法。图(b)①直线把x1分开,每条直线可把4个样本分成ω1
ω2类,4个样本分成二类的总的可能的分法为24=16类,其中有二种是不能用线性分类实现的线性可分的是14。即概率为14/16。4。二分法能力(a)x1x2x3x4⑥
③
②
④
⑤
⑦
(b)结论:N个样品线性可分数目(条件:样本分布良好):4。二分法能力(续)对N和n各种组合的D(N,n)值,表示在下表中,从表中可看出,当N,n缓慢增加时D(N,n)却增加很快。12345612222222444444368888848141616161651022303232324。二分法能力(续)线性可分概率:把上式用曲线表示成下图:图中横坐标用λ=N/n+1表示。由图讨论:4。二分法能力(续)结论:在实际工作中,分类的训练非常重要,由已知样本来训练。因为已知样本有限,而未知样本无限。选择已知类别的训练样本数方法如下:4。二分法能力(续)①:如果训练样本N<N0,设计分类器的分类能力太差,因为训练样本太少。②:如果训练样本N太多时,则样本太多,运算量、存储量太大。③:因此实际工作中应该取:②4。二分法能力(续)§2-4、广义线性判别函数这样一个非线性判别函数通过映射,变换成线性判别函数。判别函数的一般形式:§2-4、广义线性判别函数(续)例:如右图。§2-4、广义线性判别函数(续)要用二次判别函数才可把二类分开:ω2ω1ω2§2-4、广义线性判别函数(续)从图可以看出:在阴影上面是ω1类,在阴影下面是ω2类,结论:在X空间的非线性判别函数通过变换到Y空间成为线性的,但X变为高维空间ω2ω1ω21.分段线性判别函数(用线性无法分开,可用分段线性判别函数)
①、基于距离的分段线性判别函数。(用均值代表一类,通过均值连线中点的垂直线分开)把ωi类可以分成li个子类:∴分成l个子类。现在定义子类判别函数:在同类的子类中找最近的均值。判别规则:这是在M类中找最近均值。则把x归于ωj类完成分类。§2-5、非线性判别函数Ⅱ
Ⅲ
§2-5、非线性判别函数(续)例:未知x,如图:先与ω1类各子类的均值比较,即,找一个最近的与ω2各子类均值比较取最近的因g2(x)<g1(x),所以x∈ω2类。设ω=ω1,ω2,……ωm而每一类又可以分为子类。对每个子类定义一个线性判别函数为:则定义ωi类的线性判别函数为:②、基于函数的分段线性判别函数利用均值代表一类有时有局限性,如图所示。若用线性判别函数代表一类,就会克服上述情况。1、分段线性判别函数在各子类中找最大的判别函数作为此类的代表,则对于M类,可定义M个判别函数gi(x),i=1,2,…..M,因此,决策规则:对未知模式x,把x先代入每类的各子类的判别函数中,找出一个最大的子类判别函数,M类有M个最大子类判别函数,在M个子类最大判别函数中,再找一个最大的,则x就属于最大的子类判别函数所属的那一类。1、分段线性判别函数(续)③、基于凹函数的并分段线性判别函数(针对多峰情况)设li子类判别函数,i=1,2,…..r则分段线性判别函数有如下特性:1、分段线性判别函数(续)(a):l1,l2,……lr都是分段线性判别函数(b):若A,B都是分段线性判别函数,则:A∧B,A∨B也是分段线性判别函数。A∧B取最小,A∨B取最大。(c):对任何分段线性函数都可以表示成如下二种形式:1)、析取范式(这是经常采用的形式)P=(L11∧L12∧…∧L1m)∨…∨(Lq1∧Lq2∧…∧Lqm)2)、合取范式Q=(L11∨L12∨…∨L1m)∧…∧(Lq1∨Lq2∨…∨Lqm)每个(L11∨L12∨…∨L1m)都称为凹函数。1、分段线性判别函数(续)对于多峰二类问题:设第一类有q个峰,则有q个凹函数。即P=P1∨P2∨……∨Pq每个凹函数Pi由m个线性判别函数来构成。∴Pi=Li1∧Li2∧…∧Lim假设对于每个子类线性判别函数Lij都设计成:例、设如图1、分段线性判别函数(续)∴P=(L11∧L12∧L13∧L14∧L15)∨(L21∧L22∧L23∧L24)∨(L31∧L32∧L33∧L34)2、二次判别函数二次判别函数一般可表示成:2、二次判别函数(续)
§3-1线性分类器的设计
上一章我们讨论了线性判别函数形式为:g(x)=WTX
其中
X=(X1,X2…Xn)n维特征向量
W=(W1,W2…
Wn,Wn+1)n维权向量
通常通过特征抽取可以获得n维特征向量,因此n维权向量是要求解的。求解权向量的过程就是分类器的训练过程,使用已知类别的有限的学习样本来获得分类器的权向量被称为有监督的分类。利用已知类别学习样本来获得权向量的训练过程如下已知x1∈ω1,通过检测调整权向量,最终使x1∈ω1已知x2∈ω2,通过检测调整权向量,最终使x2∈ω2这样就可以通过有限的样本去决定权向量x1x2…….xn1w1w2wnwn+1∑
>0x∈ω1
检测(已知类别)
W1X1
W2X2
WnXn
Wn+1<0x∈ω2
g(x)=wTx
利用方程组来求解权向量对二类判别函数g(x)=W1X1+W2X2+W3已知训练集:Xa,Xb,Xc,Xd且当(Xa,Xb)∈W1时
g(x)>0
当(Xc,Xd)∈W2时
g(x)<0设Xa=(X1a,X2a)TXb=(X1b,X2b)TXc=(X1c,X2c)TXd=(X1d,X2d)T判别函数可联立成:
X1aW1+X2aW2+W3>0①
X1bW1+X2bW2+W3>0②
X1cW1+X2cW2+W3<0③
X1dW1+X2dW2+W3<0④
求出W1,W2,W3
将③④式正规化,得
-X1cW1-X2cW2-W3>0-X1dW1-X2dW2-W3>0所以g(x)=WTX>0
其中W=(W1,W2,W3)T
为各模式增1矩阵
为N*(n+1)矩阵N为样本数,n为特征数训练过程就是对已知类别的样本集求解权向量w,这是一个线性联立不等式方程组求解的过程。求解时:①
只有对线性可分的问题,g(x)=WTX才有解②
联立方程的解是非单值,在不同条件下,有不同的解,所以就产生了求最优解的问题③求解W的过程就是训练的过程。训练方法的共同点是,先给出准则函数,再寻找使准则函数趋于极值的优化算法,不同的算法有不同的准则函数。算法可以分为迭代法和非迭代法。一梯度下降法—迭代法欲对不等式方程组WTX>0求解,首先定义准则函数(目标函数)J(W),再求J(W)的极值使W优化。因此求解权向量的问题就转化为对一标量函数求极值的问题。解决此类问题的方法是梯度下降法。方法就是从起始值W1开始,算出W1处目标函数的梯度矢量▽J(W1),则下一步的w值为:W2=W1-ρ1▽J(W1)W1为起始权向量ρ1为迭代步长J(W1)为目标函数▽J(W1)为W1处的目标函数的梯度矢量在第K步的时候Wk+1=Wk-ρk▽J(Wk)ρk为正比例因子这就是梯度下降法的迭代公式。这样一步步迭代就可以收敛于解矢量,ρk取值很重要
ρk太大,迭代太快,引起振荡,甚至发散。
ρk太小,迭代太慢。应该选最佳ρk。选最佳ρk
目标函数J(W)二阶台劳级数展开式为
J(W)≈J(Wk)+▽JT(W-Wk)+(W-Wk)TD(W-Wk)T/2①
其中D为当W=Wk时J(W)的二阶偏导数矩阵
将W=Wk+1=Wk-ρk▽J(Wk)代入①式得:
J(Wk+1)≈J(Wk)-ρk||▽J||2+ρk2▽JTD▽J
其中▽J=▽J(Wk)
对ρk求导数,并令导数为零有最佳步长为ρk=||▽J||2/▽JTD▽J这就是最佳ρk的计算公式,但因二阶偏导数矩阵D的计算量太大,因此此公式很少用。
若令W=Wk+1上式为J(Wk+1)=J(Wk)+▽JT(Wk+1-Wk)+(Wk+1-Wk)TD(Wk+1-Wk)T/2
对Wk+1求导,并令导数为零可得:最佳迭代公式:Wk+1=Wk-D-1▽J—牛顿法的迭代公式
D-1是D的逆阵讨论:牛顿法比梯度法收敛的更快,但是D的计算量大并且要计算D-1。当D为奇异时,无法用牛顿法。二感知器法感知器的原理结构为:通过对W的调整,可实现判别函数g(x)=WTX>RT
其中RT为响应阈值定义感知准则函数:只考虑错分样本定义:其中x0为错分样本当分类发生错误时就有WTX<0,或-WTX>0,所以J(W)总是正值,错误分类愈少,J(W)就愈小。理想情况为即求最小值的问题。求最小值对W求梯度代入迭代公式中Wk+1=Wk-ρk▽J
由J(W)经第K+1次迭代的时候,J(W)趋于0,收敛于所求的W值W的训练过程:例如:x1,x2,x3∈ω1作
x1,x3的垂直线可得解区(如图)
假设起始权向量w1=0ρk=11.x1,x2,x3三个矢量相加得矢量2,垂直于矢量2的超平面H将x3错分.2.x3与矢量2相加得矢量3,垂直于矢量3的超平面H1,将x1错分.3.依上法得矢量4,垂直于矢量4做超平面,H2将x3错分
4.x3与矢量4相加得矢量5,矢量5在解区内,垂直于矢量5的超平面可以把
x1,x2,x3分成一类。x1x2x32H3H14H25W区间+感知器算法:
1.错误分类修正wk
如wkTx≤0并且x∈ω1wk+1=wk-ρkx
如wkTx≥0并且x∈ω2
wk+1=wk-ρkx2.正确分类,wk不修正如wkTx>0并且x∈ω1
如wkTx<0并且x∈ω2wk+1=wk
+-Hwk+1ρkxwk权值修正过程ρk选择准则
①
固定增量原则
ρk固定非负数
②
绝对修正规则
ρk>
③
部分修正规则
ρk=λ0<λ≤2例题:有两类样本
ω1=(x1,x2)={(1,0,1),(0,1,1)}ω2=(x3,x4)={(1,1,0),(0,1,0)}解:先求四个样本的增值模式
x1=(1,0,1,1)x2=(0,1,1,1)x3=(1,1,0,1)x4=(0,1,0,1)假设初始权向量w1=(1,1,1,1)ρk=1第一次迭代:
w1Tx1=(1,1,1,1)(1,0,1,1)T=3>0所以不修正
w1Tx2=(1,1,1,1)(0,1,1,1)T=3>0所以不修正
w1Tx3=(1,1,1,1)(1,1,0,1)T=3>0所以修正w1w2=w1-x3=(0,0,1,0)w2Tx4=(0,0,1,0)T(0,1,0,1)=0所以修正w2w3=w2-x4=(0,-1,1,-1)第一次迭代后,权向量w3=(0,-1,1,-1),再进行第2,3,…次迭代如下表
直到在一个迭代过程中权向量相同,训练结束。w6=w=(0,1,3,0)判别函数g(x)=-x2+3x3感知器算法只对线性可分样本有收敛的解,对非线性可分样本集会造成训练过程的振荡,这是它的缺点.
训练样本wkTx修正式修正后的权值wk+1迭代次数x11011x20111x31101x40101+++0w1w1w1-x3w2-x41111111100100–11-1
1x11011x20111x31101x401010+0-w3+x1w4w4-x3w51–1201–1200–22–10–22-1
2x11011x20111x31101x40101+---w5w5+x2w6w60–22–10–1300–1300–130
3x11011x20111x31101x40101++--w6w6w6w60–1300–1300–1300–130
4线性不可分样本集的分类解(取近似解)
对于线性可分的样本集,可以用上述方法解到正确分类的权向量。当样本集线性不可分时,用上述方法求权值时算法不收敛。如果我们把循环的权向量取平均值作为待求的权向量,或就取其中之一为权向量,一般可以解到较满意的近似结果。例:在样本ω1:
X1=(0,2)X3=(2,0)
X5=(-1,-1)ω2:
X2=(1,1)X4=(0,-2)
X6=(-2,0)求权向量的近似解x2x1x6x1x3-2x5-2x4x211H解:此为线性不可分问题,利用感知器法求权向量权向量产生循环(-1,2,0),(0,2,2),(-1,1,1),(-1,1,1)(-1,1,1),(0,0,0),(-1,2,0)因此算法不收敛,我们可以取循环中任一权值,例如取W=(0,2,2)T则判别函数为:g(x)=2x1+2x2判别面方程为:g(x)=2x1+2x2=0所以x1+x2=0由图看出判别面H把二类分开,但其中x2错分到ω1类,而x1错分到ω2类,但大部分分类还是正确的。作业:已知四个训练样本
w1={(0,0),(0,1)}w2={(1,0),(1,1)}
使用感知器固定增量法求判别函数设w1=(1,1,1,1)ρk=1
要求编写程序上机运行,写出判别函数,并打出图表。三最小平方误差准则(MSE法)---非迭代法
前面我们研究了线性不等式方程组g(x)=WTX>0的解法。它们共同点是企图找一个权向量W,使错分样本最小。现在我们把不等式组变成如下形式:WTXi=bi>0
则有联立方程XW=b这是矛盾方程组,方程数大于未知数,所以没有精确解的存在。每个样本有n个特征定义误差向量:e=XW-b≠0把平方误差作为目标函数
W的优化就是使J(W)最小。求J(W)的梯度并为0。解上方程得XTXW=XTb这样把求解XW=b的问题,转化为对XTXW=XTb求解,这一有名的方程最大好处是因XTX是方阵且通常是非奇异的,所以可以得到W的唯一解。
MSE准则函数只要计算出X+就可以得到W取:
最小平方误差法同Fisher法是一致的。(MSE解)其中N/N1有N1个,N/N2有N2个
四韦—霍氏法(LMS法)迭代法上节得到MSE法的W解为:W=X+b在计算X+时,
1.
要求XTX矩阵为非奇异
2.
由于计算量太大而引入比较大误差所以要用迭代法来求求J(W)的梯度▽J(W)=2XT(XW-b)代入迭代公式W1任意设定
Wk+1=Wk-ρkXT(XWk-b)
此法可收敛于W值。W满足:XT(XW-b)=0计算量很大因此下降算法不论XTX是否奇异,总能产生一个解。若训练样本无限的重复出现,则简化为
W1任意
Wk+1=Wk+ρk(bk-WkTXk)Xk
ρk随迭代次数k而减少,以保证算法收敛于满意的W值五何—卡氏法
(判断迭代过程中是否线性可分)
若训练样本线性可分时,感知器法可求出界面,但对不可分问题不收敛只能取平均。最小平方误差法不论样本是否线性可分都能给出一加权矢量,但不能保证此矢量就是分界矢量,下面介绍一种方法可以检测迭代过程中是否线性可分。因最小平方误差法的J(W)的解为因为XW=bb应为正值c为矫正系数当(XWk-bk)≤0时
当(XWk-bk)>
0时引入误差矢量ekek=XWk-bk判断是否线性可分所以J(W)的解为初始条件
W1=X+b1并且b1>0迭代时检测如果ek≥0时,XW
>b,系统线性可分,迭代收敛如果ek<0时,XW
<b,系统线性不可分,迭代不收敛我们用下面的例子来说明ek的作用因此上式可以写成例题:
ω1={(0,0)T,(0,1)T}ω2={(1,0)T,(1,1)T}解:正规化对ω2取负,有
X的规范矩阵为x2x1x1x2x3x4取b1=(1,1,1,1)Tc=1W1=X+b1=(-2,0,1)T
所以W1为所求解e1=XW1-b1=0系统线性可分因为
若四个样本变成:ω1={(0,0)T,(1,1)T}ω2={(0,1)T,(1,0)T}解:
取b1=(1,1,1,1)Tc=1W1=X+b1=(0,0,0)Te1=XW1-b1=(-1,-1,-1,-1)T<0
系统线性不可分
C为校正系数,取0<C≤1在算法进行过程中,应在每一次迭代时,检测ek的值。只要出现ek<0,迭代就应立即停止。
x2x1
1
1六Fisher分类准则
现在讨论通过映射投影来降低维数的方法。
X空间
X=-WTX-W0>0X∈ω1
X=-WTX-W0<0X∈ω2
映射Y空间
Y=WTX-W0>0X∈ω1
Y=WTX-W0<0X∈ω2把X空间各点投影到Y空间得一直线上,维数由2维降为一维。若适当选择W的方向,可以使二类分开。下面我们从数学上寻找最好的投影方向,即寻找最好的变换向量W的问题。w(y)wy1y2x2x1ω1ω2
投影样本之间的分离性用投影样本之差表示
投影样本类内离散度:
i=1,2i=1,2
类间散布矩阵上式就是n维x空间向一维y空间的最好投影方向,它实际是多维空间向一维空间的一种映射。其中Sw为类内散布矩阵,Sb为类间散布矩阵现在我们已把一个n维的问题转化为一维的问题。现在一维空间设计Fisher分类器:W0的选择
Yki表示第i类中第k个样本的投影值
N1为ω1样本数
N2为ω2样本数
当W0选定后,对任一样本X,只要判断Y=WTX>0则X∈ω1;Y=WTX<0则X∈ω2。分类问题就解决了
§3-2分段线形分类器的设计先求子类的权向量Wil,再求总的权向量Wi
1.
已知子类划分时的设计方法把每一个子类作为独立类,利用每个子类的训练样本,求每个子类的线性判别函数,总的判别函数就可获得。
子类的划分可用以下方法:
①
用先验知识直接划分
②
用聚类分析,聚成多个子类
2.
已知子类的数目的设计方法①
设各个子类的初始权向量:Wi1,Wi2…Wili
i=1,2,…MWi中有Li个子类②
若第K步迭代时ωj
类样本Xj同ωj类某个子类的权向量Wj
n(k)的内积值最大,即Wj
n(k)lxj=
max{Wj
n(k)lxj}n=1,2,…lj
并且满足条件Wjn(k)xj>Win(k)lxji=1,2,…M类
j=1,2,…li子类i≠j
则权向量Wi1(k),Wi2(k),…,Wili
(k)不影响分类,
所以权向量不需要修正。若有某个或某几个子类不满足条件即:存在Win(k)使Wjn(k)xj
≤Win(k)lxji≠j所以xj错分类,要修改权向量。
设Win(k)lxj=
max{Win(k)lxj}n=1,2,…lii≠j则修改权向量Wjn(k+1)=Wjn(k)±ρkxj③
重复以上迭代,直到收敛,此法类似于固定增量法.3.未知子类数目时的设计方法当每类应分成的子类数也不知时,这是最一般情况,方法很多,举例如下。树状分段线性分类器:
设两类情况ω1,ω2。如图所示
①
先用两类线性判别函数求出W1,超平面H1分成两个区间,每个区间包含两类。
②再利用二类分类求出W2(H2),W3(H3)。
③
如果每个部分仍包含两类,
继续上面的过程。关键是初始权向量W1的选择:一般先选两类中距离最近的两个子类的均值连线做垂直线作为H1(w1)初始值再求最优解。w1Tx>0w4Tx≥0w3Tx≥0w2Tx≥0YNYYNNω1
ω1
ω2ω2
NYω1
树状决策框图§3-3非线性分类器的设计电位函数分类器,用非线性判别函数区分线性不可分的类别电位函数分类器:每个特征作为一个点电荷,把特征空间作为能量场.电位分布函数有下面三种形式。
α为系数xk为某一特定点上图是这些函数在一维时的图形,第三条是振荡曲线,只有第一周期才是可用范围。xK(x)x321电位函数算法的训练过程是在逐个样本输入时,逐渐积累电位的过程,对于二类问题,经过若干循环后,如积累电位方程的运算结果能以正、负来区分二类样本,则训练就可结束。算法:
设初始电位为K0(x)=01.输入样本x1计算积累电位K1(x)
若x∈ω1K1(x)=K0(x)+K(xx1)
若x∈ω2K1(x)=K0(x)-K(xx1)
设ω1为正电荷,ω2为负电荷在K0(x)=0时
若x1∈ω1K1(x)=K(xx1)
若x1∈ω2K1(x)=-K(xx1)
2.输入样本x2计算积累电荷有以下几种情况
a.若x2∈ω1并且K1(x2)>0
若x2∈ω2并且K1(x2)<0K1(x)=K2(x)不修正
b.若x2∈ω1并且K1(x2)≤0
若x2∈ω2并且K1(x2)≥0K2(x)=K1(x)±K(xx2)=±K1(xx1)±K(xx2)修正直到第k+1步,已输入x1,x2,….xk个样本
积累电荷Kk+1(x)有三种情况:1.若xk+1∈ω1并且Kk(xk+1)>0或xk+1∈ω2并且Kk(xk+1)<0
则Kk+1(x)=Kk(x)不修正2.若xk+1∈ω1并且Kk(xk+1)≤0
则Kk+1(x)=Kk(x)+K(xxk)3.若xk+1∈ω2并且Kk(xk+1)≥0
则Kk+1(x)=Kk(x)-K(xxk)综合式:Kk+1(x)=Kk(x)+rk+1K(x,xk)
其中:xk+1∈ω1并且Kk(xk+1)>0时rk+1=0xk+1∈ω1并且Kk(xk+1)≤0时rk+1=1xk+1∈ω2并且Kk(xk+1)<0时rk+1=0xk+1∈ω2并且Kk(xk+1)≥0时rk+1=-1例题.设有两类样本ω1={(0,0)T,(2,0)T}ω2={(1,1)T,(1,-1)
T}如下图线性不可分特征为二维的,所以电位函数为:K(xx2)=exp{-[(x1-xk1)2+(x2-xk2)2]}①输入x1=(xk1,xk2)T=(0,0)Tx1∈ω1K1(x)=K1(xx1)=exp{-(x12+x22)}②输入x2=(2,0)Tx2∈ω1代入
K1(x2)=exp{-(02+22)}>0不修正
K2(x)=K1(x)=exp{-(x12+x22)}③输入x3=(1,1)Tx3∈ω2代入
K2(x3)=exp{-(12+12)}>0所以需要修正
K3(x)=K2(x)-K(xx3)=exp{-(x12+x22)}-exp{-[(x1-1)2+(x2-1)2]}④输入x4=(1,-1)Tx3∈ω2代入K3(x4)=e-2-e-4>0所以需要修正K4(x)=K3(x)-K(xx4)=exp{-(x12+x22)}-exp{-[(x1-1)2+(x2-1)2]}-exp{-[(x1-1)2+(x2+1)2]}
第二次迭代
⑤输入x5=x1=(0,-0)Tx5∈ω1代入K4(x5)=1-e-2-e-4>0K5(x)=K4(x)⑥输入x6=x2=(2,0)Tx6∈ω1代入
K5(x6)=e-4-e-2-e-2=0所以需要修正
K6(x)=K5(x)+K(xx6)=exp{-(x12+x22)}-exp{-[(x1-1)2+(x2-1)2]}-exp{-[(x1-1)2+(x2+1)2]}+-exp{-[(x1-2)2+x22]}
⑦输入x7=x3=(1,1)Tx7∈ω2代入
K6(x7)=e-2-e0
-e-4+e-2<0所以不需要修正
K7(x)=K6(x)⑧输入x8=x4=(1,-1)Tx8∈ω2代入
K7(x8)=e-2-e-2-e0
+e-2<0所以不需要修正
K8(x)=K7(x)⑨输入x9=x1=(0,0)Tx9∈ω1代入
K8(x9)=1-e-2-e-2+e-4>0所以不需要修正
K9(x)=K8(x)
g(x)<0g(x)<0g(x)>0g(x)>0对x再观察:有细胞光密度特征,有类条件概率密度:P(x/ωί)ί=1,2,…。如图所示利用贝叶斯公式:通过对细胞的再观察,就可以把先验概率转化为后验概率,利用后验概率可对未知细胞x进行识别。§4-1Bayes分类器—最优分类器、最佳分类器一、两类问题例如:细胞识别问题ω1正常细胞,ω2异常细胞某地区,经大量统计获先验概率P(ω1),P(ω2)。若取该地区某人细胞x属何种细胞,只能由先验概率决定。设N个样本分为两类ω1,ω2。每个样本抽出n个特征,
x=(x1,x2,x3,…,xn)T通过对细胞的再观察,就可以把先验概率转化为后验概率,利用后验概率可对未知细胞x进行识别。1、判别函数:若已知先验概率P(ω1),P(ω2),类条件概率密度P(x/ω1),
P(x/ω2)。则可得贝叶斯判别函数四种形式:2、决策规则:3、决策面方程:
x为一维时,决策面为一点,x为二维时决策面为曲线,x为三维时,决策面为曲面,x大于三维时决策面为超曲面。例:某地区细胞识别;P(ω1)=0.9,P(ω2)=0.1未知细胞x,先从类条件概率密度分布曲线上查到:解:该细胞属于正常细胞还是异常细胞,先计算后验概率:P(x/ω1)=0.2,
P(x/ω2)=0.4g(x)阈值单元4、分类器设计:二、多类情况:ωί=(ω1,ω2,…,ωm),x=(x1,x2,…,xn)
1.判别函数:M类有M个判别函数g1(x),g2(x),…,gm(x).每个判别函数有上面的四种形式。
2.决策规则:另一种形式:3、决策面方程:4、分类器设计:g1(x)Maxg(x)g2(x)gn(x)§4-2正态分布决策理论
一、正态分布判别函数
1、为什么采用正态分布:
a、正态分布在物理上是合理的、广泛的。
b、正态分布数学上简单,N(μ,σ²)只有均值和方差两个参数。
2、单变量正态分布:3、(多变量)多维正态分布(1)函数形式:(2)、性质:
①、μ与∑对分布起决定作用P(χ)=N(μ,∑),μ由n个分量组成,∑由n(n+1)/2元素组成。∴多维正态分布由n+n(n+1)/2个参数组成。
②、等密度点的轨迹是一个超椭球面。区域中心由μ决定,区域形状由∑决定。
③、不相关性等价于独立性。若xi与xj互不相关,则xi与xj一定独立。
④、线性变换的正态性Y=AX,A为线性变换矩阵。若X为正态分布,则Y也是正态分布。
⑤、线性组合的正态性。判别函数:类条件概率密度用正态来表示:二、最小错误率(Bayes)分类器:从最小错误率这个角度来分析Bayes分类器
1.第一种情况:各个特征统计独立,且同方差情况。(最简单情况)决策面方程:
判别函数:最小距离分类器:未知x与μi相减,找最近的μi把x归类如果M类先验概率相等:讨论:未知x,把x与各类均值相减,把x归于最近一类。最小距离分类器。2、第二种情况:Σi=Σ相等,即各类协方差相等。讨论:针对ω1,ω2二类情况,如图:3、第三种情况(一般情况):Σί为任意,各类协方差矩阵不等,二次项xT
Σίx与i有关。所以判别函数为二次型函数。§4-3关于分类器的错误率分析
1、一般错误率分析:2、正态分布最小错误率(在正态分布情况下求最小错误率)§4-4最小风险Bayes分类器假定要判断某人是正常(ω1)还是肺病患者(ω2),于是在判断中可能出现以下情况:第一类,判对(正常→正常)λ11
;第二类,判错(正常→肺病)λ21
;第三类,判对(肺病→肺病)λ22;第四类,判错(肺病→正常)λ12
。在判断时,除了能做出“是”ωi类或“不是”ωi类的动作以外,还可以做出“拒识”的动作。为了更好地研究最小风险分类器,我们先说明几个概念:在整个特征空间中定义期望风险,期望风险:行动αi:表示把模式x判决为ωi类的一次动作。损耗函数λii=λ(αi/ωi)表示模式X本来属于ωi类而错判为ωi所受损失。因为这是正确判决,故损失最小。损耗函数λij=λ(αi/ωj)表示模式X本来属于ωj类错判为ωi所受损失。因为这是错误判决,故损失最大。风险R(期望损失):对未知x采取一个判决行动α(x)所付出的代价(损耗)条件风险(也叫条件期望损失):条件风险只反映对某x取值的决策行动αi所带来的风险。期望风险则反映在整个特征空间不同的x取值的决策行动所带来的平均风险。最小风险Bayes决策规则:二类问题:把x归于ω1时风险:把x归于ω2时风险:§4-5Bayes分类的算法(假定各类样本服从正态分布)1.输入类数M;特征数n,待分样本数m.2.输入训练样本数N和训练集资料矩阵X(N×n)。并计算有关参数。3.计算矩阵y中各类的后验概率。4.若按最小错误率原则分类,则可根据3的结果判定y中各类样本的类别。5.若按最小风险原则分类,则输入各值,并计算y中各样本属于各类时的风险并判定各样本类别。例1、有训练集资料矩阵如下表所示,现已知,N=9、N1=5、N2=4、n=2、M=2,试问,X=(0,0)T应属于哪一类?解1、假定二类协方差矩阵不等(∑1≠∑2)则均值:训练样本号k123451234特征x1特征x2110-1-1
010-1
01110-1-2-2-2类别ω1
ω
2解2、假定两类协方差矩阵相等∑=∑1+∑2训练样本号k123123123特征x1012-2-1-201-1特征x210-110-1-1-2-2类别ω1ω2ω3解1、假定三类协方差不等;例2:有训练集资料矩阵如下表所示,现已知,N=9、N1=N2=3、n=2、M=3,试问,未知样本X=(0,0)T应属于哪一类?可得三类分界线如图所示:解2、设三类协方差矩阵相等可得三类分界线如图所示:作业:①在下列条件下,求待定样本x=(2,0)T的类别,画出分界线,编程上机。1、二类协方差相等,2、二类协方差不等。训练样本号k123123特征x1112-1-1-2特征x210-110-1类别ω1ω2作业:②有训练集资料矩阵如下表所示,现已知,N=9、N1=N2=N3=3、n=2、M=3,试问,X=(-2,2)T应属于哪一类?要求:用两种解法a、三类协方差不等;b、三类协方差相等。编程上机,画出三类的分界线。训练样本号k1231
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度网络安全监控服务合同3篇
- 基于2024年度市场调研的装修设计合同2篇
- 代理销售合同(2024版)6篇
- 2024年度服装厂加工承揽合同
- 2024年度体育场馆设施采购与施工合同3篇
- 私有化投资合同三篇
- 2024年批量一次性口罩供应协议6篇
- 2024年度金融科技服务分成协议合同3篇
- 2024年建筑工程简易施工协议模板指南版B版
- 2024年度荔枝园艺用品采购合同3篇
- 《人力资源管理》全套教学课件
- 民用无人机操控员执照(CAAC)考试复习重点题库500题(含答案)
- 中国法律史-第一次平时作业-国开-参考资料
- 平安三率知识宣传
- 德育课程体系简图
- 供应商年度审核计划及现场审核表
- (完整word版)铣槽12专用夹具资料
- 个人书面检查三篇
- 一年级数学上学期培优辅差记录表
- 标准化养羊场建设方案(附图纸)
- 全国社保行政区域划分代码
评论
0/150
提交评论