统计分类器及学习_第1页
统计分类器及学习_第2页
统计分类器及学习_第3页
统计分类器及学习_第4页
统计分类器及学习_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章统计分类器及学习在距离分类器和判别函数分类器中,我们都是把模式看作是N维欧氏空间中的一个点,而且统一类别的模式在空间中聚集在一定的区域,不同模式的区域在空间中具有一定的分离性。在本章所讨论的统计分类器中,我们仍然认为模式是欧氏空间中的一个点,但是每一类模式不是分布在空间中的一个确定区域,而是可能分布在整个空间,只不过空间中每一点属于某一类的概率不同,属于这一类的可能性大一些,属于另一类的可能性小一些。我们可以利用这样的性质来建立统计分类器。4.1概率论基本知识本章中我们使用的主要数学工具是概率论,因此先来复习一些概率论的知识。一、 事件自然界的事件可以分为确定性事件和不确定性事件,确定性和不确定性主要体现在事件的概念和发生上。概念是确定的,发生也是确定的,这是确定事件,例如在标准大气压下,水加热到100度就会开;概念是确定的,发生是不确定的,称为随机事件,例如掷骰子事件;还有一些事件的概念本身就不确定,这类事件称为模糊事件,例如年青人的概念是不确定的,遇到的人是年青人的事件就是模糊事件。对模糊事件的处理,在模式识别中也占有重要的地位,本章中我们只讨论随机事件。二、 随机变量随机事件的数量表示称为随机变量。取值为离散的称为离散随机变量,例如掷硬币,只可能出现正、反两面,分别用0和1表示;取值为连续的称为连续随机变量,例如测量物体的长度。三、 频率和概率设A为联系于某个试验的随机事件,试验在相同的条件下重复N次,其中M次A事件发生,则A发生的频率为MjN,计为:fN(A)=MN。由于A事件的随机性,A的频率也是一个随机变量。但是当N很大时,频率会趋向一个稳定值,称为A的概率,即P(A)=limf(A)。N*N四、 联合概率和条件概率联合概率:设A,B是两个随机事件,A和B同时发生的概率称为联合概率,记为:P(A,B);条件概率:在B事件发生的条件下,A事件发生的概率称为条件概率,记为:P(A|B);乘法定理:条件概率与联合概率之间存在如下关系:P(A|B)=P(A,BI;P(B);

五、概率密度函数概率分布函数:设X为连续型随机变量,定义分布函数F(x)=P(X<x);概率密度函数:如果存在一个非负函数p(x)使得F(x)=』xp(t)dt成立,则称p(x)为X—S的概率密度函数。同时有:Ff(x)=p(x),P(X=x)=p(x)dx。六、全概公式和贝叶斯公式互不相容事件:如果试验时,若干个随机事件中任何两个事件都不可能同时发生,则称它们是互不相容的。全概公式:若事件B只能与两两不相容的事件%气,,An之一同时发生,则有:p(b)=芸p(a)pG|a)i=1pG|a)p(a)贝叶斯公式:p(^|B)=—p(B)一当B为连续随机变量,A为离散随机变量时:pm)=睥4.2最小错误率准则贝叶斯分类器在下面的讨论中,我们都假设X为类别未知样本,用N维特征矢量来表示,现有M个类别q「Q2,,Qm,先验概率p(Q,和类条件概率p(x|%)已知。我们要根据先验概率和条件概率将.X分类到某一类中去。0.40.350.30.250.20.150.10.05°0 2 4 6 8 10 12 14 16 18 20

一、最小错误率准则进行分类就必须要有一个分类准则。由于每一个类别都是分布在整个空间中,因此X有可能是任何一个类别,现在我们把它判别为某一类,必然要带来错误,一般来情况下我们希望这种错误的概率越小越好。将X分类为Qz.类所产生的误判概率为:jj=1 j=1j杉P(e)=£p(q.|X)=»P(Q\X)-P(Q|Xjj=1 j=1j杉要使得判别的错误率最小,也就是寻找一个类别Z,使得p(e),这就等价于后验概率z然而后验概率P然而后验概率P(Q\X)我们并不知道,但是可以利用贝叶斯公式转换为先验概率和类z条件概率:P(QX)=P⑶P(XF)由于P(X)每一类都相同,对比较大小没有影响,因此可以取判别函数:d(X)=P&|Q)P(Q)判别规则为:若i=argmaxd(X),则XeQ0 1<i<M1 i0这就是贝叶斯分类器的判别准则。

下面来看一下M=2的情况,判别准则可以写成:\d(X)>d(X),XgQM(x)<4(x),xgq2进一步可以写成:Pq)p(q)>Pq)p(q),XgQ[P(X|Q])p(Q])<P(X|Q2)P(q2),XgQ2令:l(X)=P户Q1),9=毕W,则有:12 P(X|Q2) 21P(a;)5\l(X)>9,XgQi广(x)<921,XgQ112 21 2其中:l12称为似然比,921称为似然比的阈值。例4.1二、贝叶斯分类器的错误率估计以一维特征和两类别情况为例来进行说明。错误率P二、贝叶斯分类器的错误率估计以一维特征和两类别情况为例来进行说明。错误率P(e)是有两部分产生的,一部分是X实际应该属于Q1而将X误判为Q2类(对应于右面部分),一部分X实际应该属于Q2类而被误判为。类(对应左面部分)。因此有:122P(e)=j'p侦Q)P(Q)dx+J"p(x|Q)p(Q)dx22-s

4.3最小平均风险准则贝叶斯分类器前面我们以最小错误率为准则建立的贝叶斯分类器,然而对某些问题来说这样的准则并不适合。这是因为每次误判所带来的后果并不一样,有一些类别被误判的后果非常严重,而另一些类别被误判的后果却并不严重,例如对于癌症诊断问题,如果一个癌症患者被误判为正常,那么后果非常严重,有可能耽误治疗;而一个正常人被误诊为患有癌症,后果并不很严重,随着进一步的诊断,可以改变这种误判。下面我们就来介绍一种依据最小平均风险准则的贝叶斯分类器。设由M个类别,Q1,Q2,,Qm。首先我们需要根据实际问题定义一组数据匕,表示将Q,类的样本误判为。j类的代价,这应该是一个MxM的矩阵。然后我们可以用下面的公式计算将未知模式X判别为。类的平均风险:jy(X)=1LlPG|X)J i=1其中LP(Q』X)为用匕加权的后验概率。因为当我们将X分类为巳时,它有可能是M类的任何一类,因此总的平均风险就是对加权后的后验概率求和。我们的判决准则应该是选择一个平均风险最小的类别作为输出的决策类别。因此可以构造判别函数:*(X)=—yj(X)。现在的问题同最小错误率准则一样,我们并不知道后验概率pG」x),而是已知先验概率P(Q,)和条件概率P(X|Q,),因此我们还需要使用贝叶斯公式将后验概率转换为先验概率:y卜"点丈LijP⑶q)p3)i=1因为P因为P(X)是公共项,对比较大小没有影响,因此可以舍去:y(X)=YlP(X|Q.)P(Q.)i=1现在还是看一下两类问题的情况:将X判别为。类的平均风险为:1y(X)=LP(X|Q)P(Q)+LP(X|Q)P(Q)1 11 1 1 21 1 2 2将X判别为。类的平均风险为:2邛(X)=LP(X|Q)P(Q)+LP(XIQ)P(Q)TOC\o"1-5"\h\z2 12 1 1 22 2 2当Y1(X)<Y2(X)时,判别X为Q1类;当y1(X)>y2(X)时,判别X为Q2类。以第一种情况进行推导:LP(X|Q)P(Q)+LP(XIQ)P(Q)<LP(X|Q)P(Q)+LP(X|Q)P(Q)11 1 1 21 2 2 12 1 1 22 2 2即:(L21_L22)P(X|Q2)P(Q2)<(L12-L11)P(X|Q1)P(Q])P(X|Q)P(Q)(L—L)pQ)'p(Q2)*(广-L)2 1 12 11/、 P(XQ) P(Q)(L-L)定义似然比:〈2(X)=P^,定义阈值:621=P(Q)'XlF。定义似然比:2 1 12 11这样就可以得到最小平均风险准则下的贝叶斯判决条件:若l]2(X)2621,则XeQ1;若1技(X)<621,则XeQ2。例4.24.4贝叶斯分类器的学习贝叶斯分类器的工作原理非常简单,完全是根据待识模式X对各个类别的后验概率p(Q|X)来分类的,判别为后验概率最大的类别。后验概率可以根据贝叶斯公式转化为先i验概率P(Q)和类条件概率P(X|Q)。下面我们来研究贝叶斯分类器的学习问题,也就是i i说如何通过训练样本集来得到P(Q)和P&|Q「的问题。对于一个具体问题来说,P(Q「和P(XQ)我们并不知道,而是已知各个类别的训练样本集合:X(i)=^(i),X?,,X"},i=1,2,,M。X(;)表示第i个类别的第j个训练样本,第i类共有N个训练样本。 …i一般来说P(Q)比较容易得到,因为类别数是有限的,可以通过统计多个样本得到各i个类别出现的几率,用它来近似概率,比如可以根据大量病例统计出在普通人中癌症的患病率,也可以根据先验知识来确定,比如掷两枚样币同时出现正面的概率。然而类条件概率p&|Q「的获得却往往是一个比较困难的事情。如果X是离散型的时候,问题相对来说还比较简单一些,如果样本量足够多的话,可以分别统计出各个类别中出

现某个特征矢量的几率。然而当X为一个连续型的特征是矢量时,问题就会非常复杂。因为这种情况下我们要找到的是条件概率密度函数p(X|Q,,而概率密度函数可以是任意形式,而我们的训练样本的数量毕竟是有限的,因此不可能很好的拟合出概率密度函数。因此我们往往采用一些简化的办法。这些简化办法中最重要的一点就是要对所求的概率密度函数的形式作出一定的限制,假设概率密度函数符合某种概率模型,而概率模型是可以用一组参数来描述的,这样我们就可以使用数理统计的方法,利用训练样本来估计这组参数,有了模型参数,就可以得到概率密度数。下面介绍几种常用的概率模型及其估计方法。一、高斯模型(GaussianModel)高斯模型也称为正态分布模型,是一种最常见的概率模型,自然界中很多物理现象都符合正态分布假设,比如说我们对一个物理量的测量。N维的正态分布函数可以表示为:P⑶。>{2^77exp「2(X-m."「(X-m,)Ii正态分布函数完全可以有两个参数来描述:(XXt)一mmTi ii均值矢量:m=EEx(XXt)一mmTi ii协方差矩阵:C=E^(X-m.)(X-m,正态分布的参数的估计方法非常简单,根据数理统计的理论,虽然均值和协方差都需要求一个数学期望,也就是当数量N趋近于无穷大时求平均,但是当样本量足够大时可以用有限样本的算术平均来近似,即:m.-1&,)ij=l-12「(-12「(X(i)-mXx(,)-m)]=-12X(i)Gi)Ci'NLjijiij=1Njjij=1-mmr

ii例4.3二、混合高斯模型(MixedGaussianModel,GMM)正态分布模型的训练和使用非常简单,然而对于一个实际问题来说,特征的分布函数并不一定满足正态分布,其分布形式可能非常复杂,并且往往呈现一种多峰情况,如下图所示。这时再用高斯模型来描述它的概率密度函数就会产生很大的误差。为了描述这些复杂的分布函数,我们可以采用简单函数的线性组合来逼近复杂函数。GMM模型就是用多个高斯函数的线性组合来描述复杂的分布函数。我们可以用N(m,C)来表示一个高斯分布函数,m为均值矢量,C为协方差矩阵。那么一个GMM概率密度函数可以表示为:p(XI。)=2次i)N(m(i),C(i)),其中2a(i)=1i jjj jj=1 j=1上述GMM模型是由K各高斯模型线性组合而成,匕•为组合系数。例如下图就是由两个高斯函数组合而成:p(x)=0.7N(-10,2)+0.3N(5,3)GMM分布函数的训练要比单个高斯模型复杂得多,这里需要训练的参数有%,mj和C「而K值是要预先确定的。GMM的训练一般采用EM迭代算法(ExpectationMaximizationAlgorithm),称为期望最大化算法。三、隐含Markov模型(HiddenMarkovModel,HMM)在实际问题中,有时我们遇到的识别对象是连续信号,例如语音信号。下图分别显示了三个元音的一段采样信号,’a’,‘o’,‘e’。这样的连续信号,如果还是用特征矢量来描述,无法反映出信号之间的时间相关性,往往需要用一个随机过程来描述。对于连续信号,一般是采用分段来处理的,例如以512点为一段,称为一帧信号。在每一帧信号中抽取出特征,构成特征矢量,例如语音信号中可以抽取Fourier变换系数,信号通过零点的次数等等作为这一帧的特征。这样一段信号就可以用一个特征矢量的序列来表示,一般称为观察序列:O=O,O,,O其中的O称为观察值,是一个特征矢量。i如果我们要对这样的模式构造贝叶斯分类器,也要知道每个类别的条件概率P(。|Q,),然而对于这样的观察序列,显然无法用高斯模型或高斯混合模型来描述,需要有一个新的模型一隐含Markov模型来描述。对每一个类别建立一个HMM,有这样一个HMM可以计算出观察序列O在每个类别的条件概率p(。|Q.),再结合类的先验概率p(q),就可以构造出一个贝叶斯分类器。下面简单介绍一下HMM的基本知识,在随机过程中,每一时刻的取值只与之前的过程有关,而与之后的过程无关,这样的过程称为Markov过程,只与前一时刻的值有关,则称

为一阶Markov过程。HMM的模型结构可以多种多样,下面先以语音识别中常用“左-右”模型为例介绍一下。每一个HMM都是由若干个隐状态构成的,隐状态之间可以进行转移,所以HMM是一个状态转移模型。这里表示的三个隐状态的HMM,每一个状态在下一时刻可以转移到下一个状态,也可以转移到自身状态。隐状态是不可见的,我们所能够看见的是观察序列,每一个隐状态可以输出任何观察值,只不过输出每个观察值得概率不同。例如在时刻,,模型处于第i个状态,这时第i个状态输出O,的概率可以表示为:«(O「。同时第i个状态在t+1时刻有可能转移到多个状态,转移到每个状态的概率不同,例如由第i个状态转移到第j个状态的概率为匕。同时HMM开始的第一个状态也是不确定的,有可能开始于任何状态,开始于第,个状态的概率可以表示为:丸i。这样一个HMM就可以用一个三元组表示:人=(A,B,n)其中A="〃}为一个MxM的方阵,称为状态转移矩阵, M为模型的状态数。B=H.(O)}为由一组M个概率密度函数构成的矢量,n={.J为M维矢量,称为初始概率分布。明显应该有:丈丸i=1,f!a=1,jb(O)dO=1i=1 j=1 O现在我们关心的是两个问题:识别问题和训练问题。识别问题识别问题可表述为如果我们已知一个HMM模型X=(A,B,n),如何计算该模型输出待识模式观察序列O的概率:P(O|人)。因为HMM是一个状态转移模型,每一个时刻处于一个状态,每个状态可以输出任何的观察值,因此每一种可能的状态转移过程都可能输出这个观察序列。现在我们假设观察序列

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论