模式识别线性判别函数与分类器设计_第1页
模式识别线性判别函数与分类器设计_第2页
模式识别线性判别函数与分类器设计_第3页
模式识别线性判别函数与分类器设计_第4页
模式识别线性判别函数与分类器设计_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章线性判别函数与线性分类器设计判别函数

线性判别函数线性判别函数的性质线性分类器设计梯度下降法—迭代法感知器法最小平方误差准则(MSE法)---非迭代法Fisher分类准则假设对一模式X已抽取n个特征,表示为:模式识别问题就是根据模式X的n个特征来判别模式属于ω1,ω2,

…,

ωm类中的那一类。§2.1判别函数

例如右上图:三类的分类问题,它们的边界线就是一个判别函数用判别函数进行模式分类,取决两个因素:判别函数的几何性质:线性与非线性判别函数的参数确定:判别函数形式+参数判别函数包含两类一类是线性判别函数线性判别函数:线性判别函数是统计模式识别的基本方法之一,简单且容易实现广义线性判别函数所谓广义线性判别函数就是把非线性判别函数映射到另外一个空间(高维)变成线性判别函数分段线性判别函数另一类是非线性判别函数§2.2

线性判别函数现在对两类问题和多类问题分别进行讨论:一、两类问题:即:

1.二维情况:取两个特征向量这种情况下判别函数:在两类别情况,判别函数g

(x)

具有以下性质:这是二维情况下判别由判别边界分类。情况如图:2.n维情况:现抽取n个特征为:判别函数:

另外一种表示方法:模式分类:当g1(x)=WTX=0为判别边界。当n=2时,二维情况的判别边界为一直线。当n=3时,判别边界为一平面。当n>3时,则判别边界为一超平面。1.第一种情况:每一模式类与其它模式类间可用单个判别平面把一个类分开。这种情况,M类可有M个判别函数,且具有以下性质:二、对于多类问题模式有ω1,ω2,…,ωm

个类别,可分三种情况:此情况可理解为两分法。

下图所示,每一类别可用单个判别边界与其它类别相分开。如果一模式X属于ω1,则由图可清楚看出:这时g1(x)>0而g2(x)<0

,g3(x)<0

。ω1

类与其它类之间的边界由g1(x)=0确定。例:已知三类ω1,ω2,ω3的判别函数分别为:因此,三个判别边界为:作图如下:

对于任一模式X如果它的g1(x)>0,g2(x)<0,g3(x)<0,则该模式属于ω1类。相应ω1类的区域由直线-x2+1=0

的正边、直线-x1+x2-5=0

和直线-x1+x2=0的负边来确定。必须指出,如果某个X使二个以上的判别函数gi(x)>0。则此模式X就无法作出确切的判决。如图中IR1,IR3,IR4区域。另一种情况是IR2区域,判别函数都为负值。IR1,IR2,IR3,IR4。都为不确定区域。问当x=(x1,x2)T=(6,5)T时属于那一类结论:

g1(x)<0,g2(x)>0,g3(x)<0所以它属于ω2类这样有M(M_1)/2个判别平面。对于两类问题,M=2,则有一个判别平面。同理,三类问题则有三个判别平面。判别函数:判别边界:判别条件:第二种情况:每个模式类和其它模式类间可分别用判别平面分开,一个判别界面只能分开两个类别,不一定能把其余所有的类别分开;这种情况可理解为二分法。判别函数性质:假设判别函数为:判别边界为:用方程式作图:问:未知模式X=(x1,x2)T=(4,3)T属于那一类?代入判别函数可得:把下标对换可得:因为结论:所以X属于ω3类结论:判别区间增大,不确定区间减小,比第一种情况小的多。第三种情况:判别函数:

判别规则:判别边界:gi(x)=gj(x)或gi(x)-gj(x)=0说明:就是说,要判别模式X属于那一类,先把X代入M个判别函数中,判别函数最大的那个类别就是X所属类别。类与类之间的边界可由gi(x)=gj(x)或gi(x)-gj(x)=0来确定。每类都有一个判别函数,存在M个判别函数,这种情况可理解为无不确定区的二分法。右图所示是M=3的例子。对于ω1类模式,必然满足g1(x)>g2(x)

和g1(x)>g3(x)

。假设判别函数为:则判别边界为:结论:不确定区间没有了,所以这种是最好情况。用上列方程组作图如下:问假设未知模式x=(x1,x2)T=(1,1)T

,则x属于那一类。把它代入判别函数:得判别函数为:因为所以模式x=(1,1)T属于类。关于线性判别函数的结论:模式类别若可用任一线性判别函数来划分,这些模式就称为线性可分;一旦线性判别函数的参数确定,这些函数即可作为模式分类的基础。对于M(M≥2)类模式分类,第一、三种情况需要M个判别函数,第二种情况需要M(M-1)/2个判别函数。对于第一种情况,每个判别函数都要把一种类别(比如i类)的模式与其余M-1种类别的模式划分开,而不是仅将一类与另一类划分开。实际上,一个类的模式分布要比M-1类模式分布更聚集,因此后两种情况实现模式线性可分的可能性要更大一些。§2.3广义线性判别函数研究动机线性判别函数简单,容易实现;非线性判别函数复杂,不容易实现;若能将非线性判别函数转换为线性判别函数,则有利于模式分类的实现。基本思想设一模式集{x},在模式空间x中线性不可分,但在模式空间x*中线性可分,其中x*的各个分量是x的单值实函数,x*的维数k高于x的维数n,即

x*=(f1(x),f2(x),….,fk(x)),k>n

则分类界面在x*空间是线性的,在x空间是非线性的,此时只要将模式x进行非线性变换,使之变换后得到维数更高的模式x*,就可用线性判别函数进行分类。广义线性判别函数若将非线性判别函数表示为:式中是模式x的单值函数,若定义成广义形式:其中,,且于是,有由此可知,非线性判别函数已变换成线性,称为广义线性判别函数。广义线性判别函数的意义线性的判别函数:若fi(x)=ax+b是一次函数,这相当于把x空间进行了尺度放缩和平移。fi(x)选用二次多项式函数:对于二维情况:模式空间为,原判别函数为:可线性化为:其中对于n维情况,则有式中各项的组成包括x各个分量的二次项、一次项和wn+1项,其总项数为显然,x*的维数比x高,w分量的数目亦与x*的维数相同。x*的各分量的一般式为fi(x)为r次多项式函数,x是n维的情况,则于是,判别函数g(x)可按如下递推:讨论:(1)g(x)的总项数为:

显然,Nw随r和n的增加会迅速增大,即使原来模式x的维数不高,若采用次数r较高的多项式来变换,也会使变换后的模式x*的维数很高,给分类带来很大困难(称为维数灾难)。实际上,一般r只取2。(2)采用二次多项式函数fi(x)的判别函数也可用矩阵形式表示:式中,A为实对称矩阵。判别界面的几何形状由矩阵A决定:若A=I,则判别函数为超球面;若A为正定,则判别函数为超椭球面,轴方向为A的本征向量方向;A为半正定,判别函数为超椭圆柱面;A为不定,判别函数为超双曲面体。§2.3线性判别函数的性质一、模式空间与加权空间:模式空间:由构成的n维欧氏空间,增广形式为。W是此空间的加权向量,它决定模式的分界面H,W与H正交。加权空间:以为变量构成的欧氏空间模式空间与加权空间的几何表示如下图:加权空间构造为:设是加权空间分界面上的一点,代入上式得:对于一两类问题:对于样本x1、x2、x3、x4,可知g(x1)=g

(x2)=g

(x3)=g

(x4)=0,可分别作出通过加权空间原点的其他平面。这是一个不等式方程组,它的解处于由ω1类所有模式决定的平面的正边和由ω2类所有模式决定的平面的负边,它的解区即为凸多面锥。加权空间的性质:加权空间的所有分界面都通过坐标原点。在三维空间里,令w3=0,则为二维权空间。如图:给定一个模式X,就决定一条直线:即分界面H,W与H正交,W称为解向量。解向量的变动范围称为解区。因x1,x2∈ω1,x3,x4∈ω2由图可见x1,x3离的最近,所以分界面H可以是x1,x3之间的任一直线,由垂直于这些直线的W就构成解区,解区为一扇形平面,即阴影区域。如右图:二、解向量和解区分界面H把不等式方程正规化:正规化:H分界面样本的正规化,令:由此可见,可以不管样本原来的类别标识,只要找到一个对全部样本都满足的权向量即可,叫做正规化增广样本向量。g(x)=WTX=0决定一个决策界面,当g(x)为线性时,该决策界面是一超平面H,有以下性质:性质①:W与H正交(如图所示)假设x1,x2是H上的两个向量所以W与(x1-x2)

垂直,即W与H正交。

三、超平面的几何性质Ω1Ω2g(x)>0g(x)<0说明:一般说,超平面H把特征空间分成两个半空间。即Ω1,Ω2空间,当x在Ω1空间时g(x)>0,W指向Ω1,为H的正侧,反之为H的负侧。

矢量到H的正交投影与值成正比其中:xp是x在H

的投影向量,r是x

到H

的垂直向量。是W方向的单位向量。性质②:另一方面:这是超平面的第二个性质:矢量x到超平面的正交投影正比与g(x)的函数值。性质③:性质④:

§2.4线性分类器的设计

上面我们讨论的线性判别函数形式为:g(x)=WTX

其中:X=(X1,X2…Xn)n维特征向量

W=(W1,W2…

Wn,Wn+1)n维权向量

通常通过特征抽取可以获得n维特征向量,而n维权向量是要按某种准则(准则函数)求解的。求解权向量的过程就是分类器的训练过程,使用已知类别的有限学习样本来获得分类器的权向量被称为有监督的分类。设计线性分类器的主要步骤:(1)收集一组具有类别标识的样本。若把每个样本看成确定的观测值,则这组样本称为确定性样本集;若把每个样本看成随机变量,则这组样本称为随机样本集。(2)根据实际情况确定一个准则函数J。J必须满足:a)J是样本集X和、的函数;b)J的值反映分类器的性能,其极值解对应于“最好”的决策。(3)用最优化技术求出准则函数的极值解,。权向量的训练过程:利用已知类别学习样本来获得权向量的训练过程如下:已知x1∈ω1,通过检测调整权向量,最终使x1∈ω1已知x2∈ω2,通过检测调整权向量,最终使x2∈ω2这样就可以通过有限的样本去决定权向量。>0x∈ω1

<0x∈ω2

x1x2…….xn1

w1

w2

wn

wn+1∑

测试统计与训练准则

W1X1

W2X2

WnXn

Wn+1g(x)=wTx

已知类别利用方程组来求解权向量对二类判别函数g(x)=w1x1+w2x2+w3已知训练集:Xa,Xb,Xc,Xd且当(Xa,Xb)∈W1时

g(x)>0

当(Xc,Xd)∈W2时

g(x)<0设Xa=(X1a,X2a)TXb=(X1b,X2b)TXc=(X1c,X2c)TXd=(X1d,X2d)T判别函数可联立成:

x1aw1+x2aw2+w3>0①

x1bw1+x2bw2+w3>0②

x1cw1+x2cw2+w3<0③

x1dw1+x2dw2+w3<0④

求出w1,w2,w3

将③④式正规化,得

-X1cW1-X2cW2-W3>0-X1dW1-X2dW2-W3>0所以g(x)=WTX>0

其中W=(W1,W2,W3)T

为各模式增1矩阵

为N*(n+1)矩阵N为样本数,n为特征数启迪:认知小样本和高维特征空间的矛盾

由此可见:训练过程就是对已知类别的样本集求解权向量W,这是一个线性联立不等式方程组求解的过程。求解时:①只有对线性可分的问题,g(x)=WTX才有解②联立方程的解是非单值,在不同条件下,有不同的解,所以就产生了求最优解的问题③求解W的过程就是训练的过程。训练方法的共同点是:先给出准则函数,再寻找使准则函数趋于极值的优化算法。不同的算法有不同的准则函数。同时,算法可以分为迭代法和非迭代法。

一、梯度下降法—迭代法基本思路:欲对不等式方程组WTX>0求解,首先定义准则函数(目标函数)J(W),再求J(W)的极值使W优化。因此,求解权向量的问题就转化为对一标量函数求极值的问题。解决此类问题的方法是梯度下降法。基本方法:就是从起始值W1开始,算出W1处目标函数的梯度矢量▽J(W1),则下一步的W2值为:

W2=W1-ρ1▽J(W1)W1为起始权向量,ρ1为迭代步长J(W)为目标函数▽J(W1)为W1处的目标函数的梯度矢量在第K步的时候:

Wk+1=Wk-ρk▽J(Wk)这就是梯度下降法的迭代公式。这样一步步迭代就可以收敛于解矢量,步长ρk取值很重要。关于步长ρk讨论:(1)ρk太大,迭代太快,引起振荡,甚至发散;(2)ρk太小,迭代太慢。结论:应该选最佳ρk。选最佳ρk:目标函数J(W)二阶Taylor级数展开式为J(W)≈J(Wk)+▽JT(W-Wk)+(W-Wk)TD(W-Wk)T/2①其中D为当W=Wk时J(W)的二阶偏导数矩阵

将W=Wk+1=Wk-ρk▽J(Wk)代入①式得:

J(Wk+1)≈J(Wk)-ρk||▽J||2+ρk2▽JTD▽J

其中▽J=▽J(Wk)

对ρk求导数,并令导数为零,则最佳步长为

ρk=||▽J||2/▽JTD▽J称为Hessian矩阵若令W=Wk+1上式为J(Wk+1)=J(Wk)+▽JT(Wk+1-Wk)+(Wk+1-Wk)TD(Wk+1-Wk)T/2对Wk+1求导,并令导数为零可得:最佳迭代公式:Wk+1=Wk-D-1▽J—牛顿法的迭代公式

D-1是D的逆阵讨论:牛顿法比梯度法收敛的更快,但是D的计算量大并且要计算D-1。当D为奇异时,无法用牛顿法。二、感知器法感知器的原理结构为:“感知器”是借于上世纪五六十年代人们对一种分类学习机模型的称呼,源于对生物智能的仿生学领域。基本思路:通过对W的调整,可实现判别函数:

g(x)=WTX>RT其中RT为响应阈值定义感知准则函数准则:只考虑错分样本定义:,其中X0为错分样本当分类发生错误时就有WTX<0,或-WTX>0,所以J(W)总是正值,错误分类愈少,J(W)就愈小。理想情况为,即求最小值的问题。求最小值,对W求梯度代入迭代公式中Wk+1=Wk-ρk▽J

由J(W)经第K+1次迭代时,J(W)趋于0,收敛于所求的W值。W的训练过程:例如:x1,x2,x3∈ω1作

x1,x3的垂直线可得解区(如图)

。假设起始权向量w1=0,步长ρk=1:1.x1,x2,x3三个矢量相加得矢量2,垂直于矢量2的超平面H将x3错分;2.x3与矢量2相加得矢量3,垂直于矢量3的超平面H1,将x1错分;3.依上法得矢量4,垂直于矢量4做超平面,H2将x3错分;4.x3与矢量4相加得矢量5,矢量5在解区内,垂直于矢量5的超平面可以把x1,x2,x3分成一类。x1x2x32H3H14H25W区间如果样本进行正则化处理,情况为何?感知器算法:

1.错误分类修正wk

如wkTx≤0并且x∈ω1wk+1=wk+ρkx

如wkTx≥0并且x∈ω2

wk+1=wk-ρkx2.正确分类

,wk不修正如wkTx>0并且x∈ω1

如wkTx<0并且x∈ω2

wk+1=wk

+-Hwk+1ρkxwk权值修正过程赏罚概念:感知器算法显然是一种赏罚过程。对正确分类的模式则“赏”(此处用“不罚”,即权向量W不变);对错误分类的模式则“罚”,使W加上一个正比于错误模式样本X的分量。ρk选择准则:①

固定增量原则ρk固定非负数

绝对修正规则ρk>

③部分修正规则ρk=λ0<λ≤2例题:有两类样本:ω1=(x1,x2)={(1,0,1),(0,1,1)},ω2=(x3,x4)={(1,1,0),(0,1,0)}

解:先求四个样本的增值模式

x1=(1,0,1,1)x2=(0,1,1,1)x3=(1,1,0,1)x4=(0,1,0,1)

假设初始权向量w1=(1,1,1,1)ρk=1

第一次迭代:

w1Tx1=(1,1,1,1)(1,0,1,1)T=3>0所以不修正

w1Tx2=(1,1,1,1)(0,1,1,1)T=3>0所以不修正

w1Tx3=(1,1,1,1)(1,1,0,1)T=3>0所以修正w1w2=w1-x3=(0,0,1,0)w2Tx4=(0,0,1,0)T(0,1,0,1)=0所以修正w2w3=w2-x4=(0,-1,1,-1)

第一次迭代后,权向量w3=(0,-1,1,-1),再进行第2,3,…次迭代,如下表:

直到在一个迭代过程中权向量相同,训练结束。

w6=w=(0,1,3,0),判别函数g(x)=-x2+3x3感知器算法只对线性可分样本有收敛的解,对非线性可分样本集会造成训练过程的振荡,这是它的缺点。

训练样本wkTx修正式修正后的权值wk+1迭代次数x11011x20111x31101x40101+++0w1w1w1-x3w2-x41111111100100–11-1

1x11011x20111x31101x401010+0-w3+x1w4w4-x3w51–1201–1200–22–10–22-1

2x11011x20111x31101x40101+---w5w5+x2w6w60–22–10–1300–1300–130

3x11011x20111x31101x40101++--w6w6w6w60–1300–1300–1300–130

4三、最小平方误差准则-非迭代法

前面我们讨论的线性分类器训练方法,其共同点是企图找一个权向量W,使错分样本最小。现在我们把不等式组变成如下形式:WTXi=bi>0

则有联立方程XW=b这是矛盾方程组,方程数大于未知数,所以没有精确解的存在。每个样本有n个特征定义误差向量:e=XW-b≠0把平方误差作为目标函数

W的优化就是使J(W)最小。于是,求J(W)的梯度并令其为0,即解上方程得XTXW=XTb这样把求解XW=b的问题,转化为对XTXW=XTb求解,这样最大好处是:因XTX是方阵且通常是非奇异的,所以可以得到W的唯一解。

MSE准则函数

选取合适的b,只要计算出X+就可以得到W。若取b:

此时,最小平方误差法同Fisher法是一致(见边肇祺书102页)。(MSE解)其中N/N1有N1个,N/N2有N2个四、Fisher分类准则

现在讨论通过映射投影来降低维数的方法。

X空间

映射Y空间:把X空间各点投影到Y空间的一直线上,维数由2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论