《模式识别导论》课件第2章_第1页
《模式识别导论》课件第2章_第2页
《模式识别导论》课件第2章_第3页
《模式识别导论》课件第2章_第4页
《模式识别导论》课件第2章_第5页
已阅读5页,还剩78页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第2章线性判别函数法2.1判别函数的基本概念2.2线性判别函数2.3感知器学习算法2.4最小均方误差算法2.5Fisher线性判别法2.6线性二分能力在模式识别与分类中,可以根据训练样本集提供的信息,直接进行分类器的设计。我们面临的最简单的是两类样本的分类问题,这时人们自然会想到能否在特征空间(决策域)中做一条直线(平面或超平面)将两类样本分开,需要解决的问题是这条直线(平面或超平面)如何去做,这就是基本的线性判别问题。至于更深一步的理论研究,例如,当样本集扩充后该分类判决是否还有效(也就是泛化性能)?分类界面是否还会是直线(平面或超平面)?样本的分布与统计特征的关系如何?等等,也是要探讨的问题。由于特征空间(决策域)的分界面是由数学表达式来描述的,如线性函数或各种非线性函数等,所以分界面方程的确定主要包括函数类型的选择以及参数的确定。其中函数类型是由设计者选择的,而参数的确定则是依据一定的准则函数并通过学习过程来实现的。线性分类器的优点是简单,在计算机上容易实现,因此在模式识别中被广泛使用。

本章主要讨论判别函数法和线性判别函数的基本概念,线性分类器的设计。

2.1判别函数的基本概念

模式识别系统的主要作用是判别各个模式的类别属性。例如,一个两类问题就是将模式x划分为ω1和ω2两类。对于一个二维的两类问题,模式样本可表示为x=(x1,x2)T,其中x1、x2为坐标变量(即模式的特征值)。所有的样本分布在一个二维平面上,如图2.1所示。如果在两类之间能找到一条分界线将分属于ω1和ω2的样本分开,这样就可以知道每个样本的类别。设分界线的方程为

(2-1)

这里w1、w2、w0是方程的参数或权值。图2.1两类二维样本的分布示意图可以假设属于ω1类的模式位于g(x)>0的一侧,属于ω2类的模式位于g(x)<0的一侧。反之,如果将一个未知类别的模式x带入g(x),则应该有下面的结果:若g(x)>0,则x属于ω1类;若g(x)<0,则x属于ω2类;若g(x)=0,则x落在分界线上,此时不能判定x的类别。因此,g(x)可以用来判断某一未知模式所属的类别,鉴于此我们称g(x)为判别函数。

判别函数是直接用来对模式样本进行分类的准则函数,也称为判决函数或决策函数。寻找类别之间分界线的方法称为判别函数法,判别函数法的结果提供了一个确定的分界线方程,这个分界线方程就是判别函数。因此,判别函数描述了各类之间的分界线的具体形式。判别函数可以是线性函数,也可以是非线性函数,这取决于模式类在空间中的分布情况,以及我们对分布的先验信息的了解程度。由于线性分类器涉及到的数学方法比较简单,在计算机上容易实现,因此得到广泛的应用。但是在模式识别的许多具体问题中,线性分类器固有的局限性使得它并不能提供理想的识别效果,必须求助于非线性分类器。这里需要强调指出的是,有些简单的非线性分类器对模式识别问题的解决显得既简单效果又好。

2.2线性判别函数

线性判别函数是一种最简单的判别函数,它是由所有特征向量的

线性组合构成的。

2.2.1线性判别函数的一般形式

在一般的d维特征空间中,线性判别函数的表达式为

g(x)=wTx+w0

(2-2)

式中:x是d维特征向量,又称为样本向量;w0是常数且非零,也称为阈值权;w是d维加权向量。x和w分别表示为

x=(x1,x2,…,xd)T,w=(w1,w2,…,wd)T

在二维欧氏空间中,由线性判别函数所确定的判别边界为一条直线;在三维空间中,为一个平面;当维数超过三时,判别边界称为超平面。通常由线性判别函数确定的判别界面通称为超平面。

在式(2-2)表示的一般的线性判别函数中,由于w0非零,决策超平面不通过空间原点,因此可以使用广义线性函数的扩维方法实现齐次化问题。式(2-2)也可以写成增广向量的形式:(2-3)式中:y=(x1,x2,…,xd,1)T称为增广样本向量,a=(w1,w2,…,wd,w0)T称为增广权向量。g[(x)]=aTy称为广义线性判别函数。在这个新的特征空间中,决策超平面通过原点,且特征空间的维数由d维扩张为d+1维。2.2.2线性判别函数的基本性质

下面在模式类线性可分的情况下,讨论线性判别函数的性质。

1.两类情况

已知两个模式类ω1、ω2,待识别样本x,则线性判别函数具有如下性质;(2-4)此时g(x)=0为d维空间的一个分类超平面。

2.多类情况

对于m个线性可分的模式类ω1,ω2,…,ωm,有以下三种划分方式。

1)ωi

/两分法

ωi

/两分法的基本原理是将每一个模式类用一个单独的判别界面与其他模式类分开。ωi类的判别函数gi(x)可以将属于ωi类的样本与不属于ωi类的样本分开。决策准则为,i=1,…,m(2-5)若仅存在gk(x)>0,k∈{1,2,…,m},而其余gj(x)<0(j≠k,j∈{1,2,…,m}),则判定x∈ωk类。

图2.2是一个二维三类问题的ωi/两分法分类示意图。图2.2ωi/两分法示意图

图2.2中每一类都可用一个简单的直线判别界面将该类与其他类分开。例如样本x∈ω1,从图中的几何表示可知,需同时满足下面三个条件:g1(x)>0,g2(x)<0,g3(x)<0。这时不能只用g1(x)>0这一个条件判定x所属的类别,因为在模式空间中还存在不确定的区域,它们不属于三类中的任何一类,如图中g1(x)<0,g2(x)<0,g3(x)<0所确定的区域。因此对m类问题,需要同时有m个判别函数。例2.1对于一个三类问题,假定三个判别函数分别为

g1(x)=-x1+x2-1,g2(x)=x1+x2-9,g3(x)=-x2+1

请画出各类判别区域,并判断x=(7,5)T属于哪一类。

解将x=(7,5)T代入三个判别函数中,有

g1(x)=-7+5-1=-3<0

g2(x)=7+5-9=3>0

g3(x)=-5+1=-4<0

因为g1(x)<0,g2(x)>0,g3(x)<0,所以x∈ω2。各类的判别区域如图2.3所示,其中ω1的判别区域位于g1(x)>0,g2(x)<0,g3(x)<0的区域;ω2的判别区域位于g1(x)<0,g2(x)>0,g3(x)<0的区域;ω3的判别区域位于g1(x)<0,g2(x)<0,g3(x)>0的区域。图中的IR1、IR2、IR3区域是两个判别函数大于0的区域,IR4区域是三个判别函数都小于0的区域,这些不确定区域的样本是无法分类的。图2.3各类判别区域示意图

2)ωi/ωj两分法

我们可将任意的两个类别用一个判别界面分开。对于m类中的任意两类:由ωi、ωj(i≠j)可以确定一个超平面gij(x)=来把ωi、ωj两类分开,且gij(x)=-gji(x)。决策准则为

识别ωi类时,只有下标以i开头的m-1个判别函数全为正值时,才能判定x∈ωi。若其中有一个为负值,则为不确定区域(IR区)。i,j∈{1,2,…,m},i≠j

(2-6)

ωi/ωj两分法每分离出一类模式,需要m-1个判别函数,要分离出所有的m类模式,共需要个判别函数。

图2.4是一个二维三类问题的ωi/ωj两分法分类示意图。图中有三个判别界面g12(x)=0,g13(x)=0,g23(x)=0,三个模式类ω1,ω2,ω3,每个判别界面都可以将两个模式类分开,但穿过了其他模式类。以ω1类为例,只有下标以1开

头的所有判别函数值都大于零,即g12(x)>0,g13(x)>0时,才能判定x∈ω1类,而g23(x)在识别ω1类模式时不起作用。图2.4ωi/ωj两分法分类示意图例2.2对于一个三类问题,假定三个判别函数为

g12(x)=-x1-x2+6,g13(x)=-x1+4,g23(x)=-x1+x2

请画出各类判别区域,并判断x=(5,3)T属于哪一类。

解将x=(5,3)T代入三个判别函数中,有g12(x)=-5-3+6=-2,g13(x)=-5+4=-1,g23(x)=-5+3=-2。也可写成g21(x)=2,g31(x)=1,g32(x)=2。因为g31(x)>0,g32(x)>0

,所以x∈ω3。

各类的判别区域如图2.4所示,其中ω1的判别区域位于g12(x)>0,g13(x)>0的区域;ω2的判别区域位于g21(x)>0,g23(x)>0的区域;ω3的判别区域位于g31(x)>0,g32(x)>0的区域。在三条分界线相交组成的三角形区域内的样本无法判断所属类别,该区域为不确定区域IR。

3)ωi/ωj两分法特例

有时为了处理方便,可将ωi/ωj两分法的约束条件放宽。对于m类的判别问题,当确定了m个超平面时,采用下列决策准则:

则x∈ωi。

根据决策准则式(2-7),任一个模式x总能划分到m类中的某一个模式类中去,因此作为ωi/ωj两分法的特例,除边界之外不存在不确定区域。图2.5是m=3时的判别区域划分示意图。(2-7)图2.5ωi/ωj两分法(特例)分类示意图例2.3对于一个三类问题,假定三个判别函数为

g1(x)=-x1+x2,g2(x)=x1+x2-1,g3(x)=-x2

试用ωi/ωj两分法特例方法判断x=(-0.5,1)T属于哪一类,并分别给出三类的判别界面。

解分别计算得g1(x)=1.5,g2(x)=-0.5,g3(x)=-1,因为g1(x)>g2(x),g1(x)>g3(x),所以x∈ω1。

ω1类的判别界面为

g1(x)-g2(x)=-2x1+1=0,g1(x)-g3(x)=-x1+2x2=0

ω2类的判别界面为

g2(x)-g1(x)=2x1-1=0,g2(x)-g3(x)=x1+2x2-1=0

ω3类的判别界面为

g3(x)-g1(x)=x1-2x2=0,g3(x)-g2(x)=-x1-2x2+1=0

三类判别界面如图2.5所示。2.2.3线性判别函数的几何性质

对于两类问题,设线性判别函数为g(x)=wTx+w0,其中w=(w1,w2,…,wd)T,x=(x1,x2,…,xd)T,则由g(x)确定的d维欧几里德空间中的超平面为g(x)=wTx+w0=0。设超平面为H,则对H上的任意两点x1,x2有

g(x1)=wTx1+w0=wTx2+w0=g(x2)

(2-8)

wT(x1-x2)=0

(2-9)式(2-9)表明向量w和x1-x2正交,由x1,x2的任意性可知,w垂直于超平面H上的任意向量x1-x2,也就是说w垂直于超平面H,即w是超平面H的法向量。根据决策准则式(2-7),当g1(x)>g2(x)时,判定x∈ω1;否则,x∈ω2。从而得出法向量w的方向由超平面的负侧指向正侧。设超平面的单位法向量为u,即

其中||w||为向量w的模值,||w||2=wTw。二维情况时的超平面示意图如图2.6所示。(2-10)图2.6超平面示意图当x不在超平面H上时,设xp为x在H上的投影向量,则x可表示为

其中r为x到超平面H的距离。这时

因为xp在超平面H上,故有g(xp)=wTxp+w0=0,于是g(x)=r||w||。因此,x到超平面H的距离为(2-11)(2-12)(2-13)如图2.7所示,这是一种代数距离(带有正负号)。当x在超平面正侧时,g(x)>0;反之,g(x)<0。

特别的,当x在原点时,g(x)=w0,即原点到超平面

H的距离为

若w0>0,则原点在超平面H的正侧;若w0<0,则原点在超平面H的负侧;若w0=0,则超平面H穿过原点。(2-14)图2.7点到超平面的距离综上所述,对于两类问题,线性判别函数的几何意义在于利用一个超平面实现对d维特征空间Rd的划分,超平面方

向由法向量w确定,它的位置由阈值w0确定。判别函数正比于x点到超平面的代数距离。2.2.4设计线性分类器的主要步骤

分类器的设计是利用训练样本集建立线性判别函数,找到表达式中最好的加权系数向量w和w0(或增广权向量α),最好的结果恰好出现在准则函数的极值点上。这样,线性分类器的设计工作就转化为寻找准则函数的极值点w*和w*0(或a*)的最优化问题。设计线性分类器的主要步骤如下:

(1)选取一组有类别标志的样本集合R={x1,x2,…,xn}。

(2)确定准则函数J,要求满足以下两个条件:①J应为样本集R、w和w0(或a)的函数;②J的值反映分类性能,它的极值对应于“最好”的决策。

(3)用最优化技术求出准则函数的极值解w*和w*0(或a*)。

2.3感知器学习算法

感知器准则函数的基本思想是寻找一个权向量,使得规范化增广样本向量集的错分样本数最少。下面先介绍几个相关的概念。

2.3.1几个基本概念

1.线性可分的定义

设由n个样本构成的样本集合Y={y1,y2,…,yn},其中yi为d维的来自于ω1和ω2类的增广样本向量。如果存在权向量a使得对于任意的y∈ω1有aTy>0,则称样本集Y是线性可分的,否则称为线性不可分的。反过来,如果样本集合Y是线性可分的,则一定存在权向量a将样本集合Y正确分为两类。

2.样本规范化

对于任意一个样本yi,如果满足aTyi>0,则属于ω1类;如果满足aTyi<0,则属于ω2类。对样本进行规范化处理,即对ω2类的全部样本都乘以-1,有

则对全部样本yn′∈ω1∪ω2,需寻找满足aTyn′>0的权向量。(2-15)

3.解向量和解区

对于规范化增广样本向量而言,满足aTyi>0

(i=1,2,…,n)的权向量称为解向量,记为a*。权向量a可看成权空间中的一点,对于任一yi,要求aTyi>0。方程aTyi=0在权向量空间确定了一个超平面Hi,这个超平面的法向量为a,超平面正侧的向量满足aTyi>0。n个样本将确定n个超平面,每个超平面把权空间分为两个半空间。所以,满足aTyi>0(i=1,2,…,n)的权向量必在这n个超平面正侧的交叠区内,这个区域就是a的解区,解区中的任意向量都是解向量a*,如图2.8所示。为了使解向量a*更加可靠,需要对解区加以限制。一

般来讲,解向量越靠近解区中间,越能对新的样本进行正确分类。因此引入余量b>0,使解向量满足aTyi>b(i=1,2,

…,n)。显然,由此确定的正半空间的交叠区(新解区)位于原解区中,而且它的边界离原来解区边界的距离为b/||yi||,如图2.9所示。

以上关于两类问题的解区和解向量的概念也可以推广到线性可分的多类问题中。图2.8权向量的解区和解向量图2.9解区和解向量示意图2.3.2感知器算法

对于线性可分的两类问题ω1,ω2,设规范化增广样本集合Y={y1,y2,…,yn},n为样本容量,寻找解向量a使其满足

aTyi>0,i=1,2,…,n

(2-16)

为此构造感知器准则函数

其中yk为错分样本集合,当y∈yk时,有

-aTy≥0

(2-18)(2-17)显然Jp(a)≥0。当且仅当全部样本分类正确且没有错分样本时才会有Jp(a*)=minJp(a)=0,此时a*就是要寻找的最优解向量。下面给出几个求解a*的算法。

1)梯度下降算法

在数学分析中,函数J(a)的梯度方向J(ak)是这样一个方向:在点wk处,它指向J(a)增加最快的方向,而J(a)的负梯度方向-J(ak)则指向J(a)下降最快的方向。设准则函数为Jp(a),使得Jp(a)达到最小时的最优解向量为a*。下面我们采用感知器的梯度下降算法求解最优解a*。

感知器准则函数的梯度函数为(2-19)梯度下降法的迭代公式为

其中yk是被权向量a(k)错分的样本集,ρk为第k次迭代时的步长因子。ρk的取值大小是有理论依据的,为了简化分析取步长因子ρk=1,得迭代式为

可以证明,对于线性可分的样本集,经过有限次修正,一定可以找到一个解向量a*,使得算法在有限次迭代后收敛。收敛速度取决于初始值a(0)与系数ρk。

(2-20)(2-21)式(2-21)在迭代时,每次计算需要用到所有的错分样本。既然从原理上已经确定了错分样本对于迭代解的修正方向,为了减少计算量,每次迭代只由一个错分样本完成,表示为a(k+1)=a(k)+yk

(2-22)

式中yk为第k次迭代使用的单个错分样本。式(2-22)称为单错分样本迭代式。感知收敛定理如果样本集合是线性可分的,那么由式(2-22)所得到的序列必定终止于某个解向量。

证明设为目标解向量,如果样本集合线性可分,则有Tyi>0。设比例因子α>0,由式(2-22)得到

(2-23)

其平方范数为

由于yk为错分样本,有a(k)Tyk≤0,因此

(2-24)

设样本向量最大长度

(2-25)和解向量与样本向量的最小内积

(2-26)

不等式可化为

(2-27)

选择比例因子

(2-28)得到

(2-29)每次校正,从a(k+1)到的平方距离则减少τ2,经过k次校正后有

(2-30)

由于平方距离非负,因而经过不超过

次校正迭代终止。(2-31)

2)奖惩算法

将感知器梯度下降算法进一步具体化就是“奖惩”算法;当分类器发生分类错误时,通过修正权向量对分类器进行“惩罚”,使其向正确的方向转换;当分类正确时,保持权向量不变对其进行“奖励”,表现为不罚。以两类分类情况为例,算法具体步骤为:

(1)设规范化增广样本集合Y={y1,y2,…,yn},初始化权向量,置k=0。

(2)输入n个训练样本,计算判别函数g(yk)=a(k)Tyk,其中a(k)为第k次迭代的权向量。

(3)按照如下公式修正权向量:

其中c为正的校正增量。如果a(k)Tyi>0,则表明分类器对样本yi的分类正确,权向量保持不变。如果a(k)Tyi≤0,则表明分类器对样本yi的分类发生了错误,需要修正权向量。

(4)令k=k+1,返回(2),直到权向量a对所有的训练样本

均稳定不变,此时所有的训练样本被正确分类。(2-32)例2.4已知两类训练样本;

ω1:x1=(0,0)T,x2=(0,1)T

ω2:x3=(1,0)T,x4=(1,-1)T

用感知器奖惩算法求解判别函数,并绘出判别界面。

解将训练样本写成增广向量的形式,并进行规范化处理,将ω2类的样本乘以-1,得

x1=(0,0,1)T,x2=(0,1,1)T,x3=(-1,0,-1)T,x4=(-1,1,-1)T取初始权向量w(1)=[0,0,0]T,取校正增量c=1,则迭代过程如下;

第一次迭代:,故权向量修改为w(2)=w(1)+x1=(0,0,0)T+(0,0,1)T=(0,0,1)T,故权向量修改为

w(3)=w(2)=(0,0,1)T

,故权向量修改为w(4)=w(3)+x3=(0,0,1)T+(-1,0,-1)T=(-1,0,0)T

,故权向量修改为

w(5)=w(4)=(-1,0,0)T

在第一次迭代中有两次w(k)Txi≤0,说明发生了两次错判,进行第二次迭代。第二次迭代:

w(5)Tx1=0≤0,故w(6)=w(5)+x1=(-1,0,0)T+(0,0,1)T=(-1,0,1)T;

w(6)Tx2=1>0,故w(7)=w(6)=(-1,0,1)T;

w(7)Tx3=0≤0,故w(8)=w(7)+x+=(-2,0,0)T;

w(8)Tx4=2>0,故w(9)=w(8)=(-2,0,0)T。

第三次迭代:

w(9)Tx1=0≤0,故w(10)=w(9)+x1=(-2,0,0)T+(0,0,1)T=(-2,0,1)T;

w(10)Tx2=1>0,故w(11)=w(10);

w(11)Tx3=1>0,故w(12)=w(11);

w(12)Tx4=1>0,故w(13)=w(12)。第四次迭代:

w(13)Tx1=1>0,故w(14)=w(13);

w(14)Tx2=1>0,故w(15)=w(14);

w(15)Tx3=1>0,故w(16)=w(15);

w(16)Tx4=1>0,故w(17)=w(16)。

由于第四次迭代的分类结果全部正确,因此解向量为w=(-2,0,1)T,相应的判别函数为g(x)=-2x+1,判别界面为g(x)=0。

这里需要指出的是,当初始值w(1)和c取其他值时,结果可能不一样。因此,感知器奖惩算法的解不是单值的。

2.4最小均方误差算法

感知器算法是针对线性可分的情形设计的。对于线性不可分的情况,它具有不收敛的缺点。最小均方误差(LeastMeanSquareError,LMSE)算法是对准则函数引进最小均方误差这一条件而建立起来的,算法的主要特点是在训练过程中判定训练集是否线性可分,从而对结果的收敛性做出判断。

针对两类问题,设规范化增广样本集合Y={y1,y2,…,yN},寻找权向量a满足

aTyi>0,i=1,2,…,N

(2-33)任意给定一个N维向量b=(b1,b2,…,bN)T,其中bi为小的正数且满足

aTyi=bi,i=1,2,…,N

(2-34)

于是可以得到一个超定方程组

Ya=b

(2-35)

其中Y为训练样本的增广矩阵,即,通常情况下N>d,一般为列满秩矩阵。方程个数多于未知数

的个数,一般为矛盾方程组,通常不存在精确解。定义误差向量为

e=Ya-b

(2-36)定义均方误差准则函数为

使Js(a)最小的解a*称为最小二乘解,又称为伪逆解或MSE解。由式(2-37)定义的准则函数也称为MSE准则函数。

(2-37)为了求解,首先计算Js(a)的梯度并令其为零

YTYa*=YTb

(2-39)

由于矩阵YTY是d×d维的方阵,而且一般是非奇异的,两边左乘(YTY)-1,得到

a*=(YTY)-1YTb

(2-40)

令,则。其中称为Y的伪逆,a*为伪逆解。

(2-38)按照式(2-40)求解a*时,需要计算矩阵YTY及其逆矩阵(YTY)-1,计算量大,通常可以使用梯度下降法以迭代的方式求解。由最小均方误差准则的梯度公式使用梯度下降法作迭代式

ak+1=ak-ρkYT(Ya-b)

(2-41)

其中a0为任意的迭代初始值,经过有限次迭代可得到最优解。为了进一步减少计算量和存储空间,可以使用单个样本修正算法,则迭代式(2-41)可修改为

ak+1=ak+ρk(bk-aTkyk)yk

(2-42)其中迭代初始向量a0为任意向量,单个样本yk为满足

aTkyk≠bk

(2-43)

的样本。

由于bk是任意给定的正常数,因此,理想的逼近条件aTkyk=bk几乎是永远不可能满足的,修正过程永远都不可能结束。为了保证算法的收敛性,选取

使得步长因子ρk随着迭代步数的增加而逐渐减小,保证算法收敛于满意的解a*。(2-44)

2.5Fisher线性判别法

2.5.1类内离散度矩阵和类间离散度矩阵

Fisher准则是由R.A.Fisher在1936年首次提出的。对于d维空间中的样本,投影到某一条直线上,样本极有可能混在一起无法识别,如果能够找到一个投影方向,使得样本集合在该投影方向上最易区分,这就是Fisher准则的基本原理。如图2.10所示,在原空间中不易区分的两类样本,如果选择投影方向w1,则两类样本混杂在一起无法区分;如果选择投影方向w2,则两类样本极易区分。图2.10Fisher投影原理已知两类问题的n个d维样本x1,x2,…,xn,其中类别为ωi(i=1,2)且样本容量为ni,其子集为X1、X2。对xi(i=1,2,…,n)做如下变换可实现d维空间到一维空间的映射:yi=wTxi,i=1,2,…,n

(2-45)

则由X1、X2可以得到两个相应的集合Y1、Y2。由于我们特别关注的是w的方向,因此可以令||w||=1,则yi就是xi在w方向上的投影。Fisher准则的目的就是寻找最好的投影方向,使得w为最好的投影向量w*。

在定义Fisher准则函数之前,首先定义几个必要的基本参数。

1.在d维空间中

(1)各类样本的均值向量mi;

(2)样本类内离散度矩阵Si和总类内离散度矩阵Sw;

Sw=S1+S2(2-48)

(3)样本类间离散度矩阵Sb;

Sb=(m1-m2)(m1-m2)T(2-49)

其中Sw是对称半正定矩阵,且当n>d时通常是非奇异的。Sb也是对称半正定矩阵,在两类条件下,它的秩最大等于1。

(2-46)(2-47)

2.在一维空间中

(1)各类样本的均值;

(2)类内离散度和总类内离散度;(2-50)(2-51)(2-52)2.5.2Fisher线性判别法

下面定义Fisher准则函数。希望投影后,在一维空间中各类样本分得越开越好,即希望均值之差越大越好;同时希望各类样本内部密集,即类内离散度

越小越好。根据上述两条规则,构造Fisher准则函数如下;

使JF(w)达到最大值的w即为最佳投影方向w*。

为了求出JF(w)的极大值点,需要将JF(w)转化为w的显式函数,即(2-53)(2-56)(2-54)则(2-55)再由类内离散度得到

故Fisher准则函数关于的显式为

下面求使JF(w)取最大值时的w*。上式中的JF(w)是著名的广义瑞利(Rayleigh)商,可以用Lagrange乘子法求解。令分母等于非零常数,即

wTSww=C≠0

(2-59)

构造Lagrange函数

L(w,λ)=wTSbw-λ(wTSww-C)

(2-60)(2-57)(2-58)其中λ为Lagrange乘子,对上式求关于w的偏导,并令其为零,即

Sbw*-λSww*=0

(2-62)

由于Sw是非奇异的,两边左乘S-1w,得到

S-1wSbw*=λw*

(2-63)

其中λ为矩阵S-1wSb的特征值,w*为对应特征值λ的特征向量,即最佳投影的坐标向量。(2-61)另外,我们还可以不通过求特征值,直接给出最优解w*的求解方法。由

Sb=[(m1-m2)][(m1-m2)]T

得到

Sbw*=[(m1-m2)][(m1-m2)]Tw*

=[(m1-m2)][(m1-m2)]Tw*]

=R[(m1-m2)]

(2-64)

其中

R=[(m1-m2)]Tw*

(2-65)为一标量,所以Sbw*总在[(m1-m2)]方向上。由(2-63)式知

λw*=S-1wSbw*=S-1w(m1-m2)R

(2-66)

于是

忽略比例因子得最优解为

w=为使得Fisher准则函数取极大值时的解,即d维空间的样本在一维空间中的最佳投影方向。利用w*,将样本xi往该方向上投影,可得(2-67)(2-68)

yi=(w*)Txi

(2-69)

利用Fisher准则函数获得最佳一维投影后,需要确定一个阈值点y0。根据决策规则;若y>y0,则x∈ω1,否则x∈ω2。

阈值y0的确定可以采用以下几种方法来实现;(2-70)(2-71)(2-72

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论