模式识别郝旷荣Chap2(MSSB-HKR)_第1页
模式识别郝旷荣Chap2(MSSB-HKR)_第2页
模式识别郝旷荣Chap2(MSSB-HKR)_第3页
模式识别郝旷荣Chap2(MSSB-HKR)_第4页
模式识别郝旷荣Chap2(MSSB-HKR)_第5页
已阅读5页,还剩92页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 2.1 引 言2.2 几种常用的决策规则2.3 正态分布时的统计决策本章小节本章习题第二章 贝叶斯决策理论与 统计判别方法1本章要点1. 机器自动识别出现错分类的条件,错分类的可能性如何计算,如何实现使错分类出现可能性最小基于最小错误率的Bayes决策理论2. 如何减小危害大的错分类情况基于最小错误风险的Bayes决策理论3. 模式识别的基本计算框架制定准则函数,实现准则函数极值化的分类器设计方法第二章 贝叶斯决策理论与 统计判别方法2本章要点4. 正态分布条件下的分类器设计5. 判别函数、决策面、决策方程等术语的概念6. Bayes决策理论的理论意义与在实践中所遇到的困难第二章 贝叶斯决策

2、理论与 统计判别方法3本章难点:1. 三种概率:先验概率、类概率密度函数、后验概率的定义2. 三种概率之间的关系Bayes公式3. 描述随机变量分布的一些定义,如期望值、方差、尤其是协方差、协方差矩阵,其定义、计算方法及内在含义,透彻掌握其含义才会做到灵活运用。第二章 贝叶斯决策理论与 统计判别方法42.1 引 言模式识别是一种分类问题:根据识别对象所呈现的观察值,将其分到某个类别中去。统计决策理论是处理模式分类问题的基本理论之一,对模式分析和分类器的设计起指导作用。贝叶斯决策理论是统计模式识别中的一个基本方法,我们先讨论这一决策理论,然后讨论涉及统计判别方法的一些基本问题。52.1 引 言待

3、识别的物理对象的描述问题 特征:假设一个待识别的物理对象用其d个属性观察值描述,称之为d个特征; 特征空间:这组成一个d维的特征向量,而这d维待征所有可能的取值范围则组成了一个d维的特征空间。62.1 引 言贝叶斯决策理论方法所讨论的问题:对c类不同的物理对象,以及各类在这d维特征空间的统计分布,i=1,2,c的先验概率P(i)及类条件概率密度函数p(x|i)已知的条件下,如何对某一样本按其特征向量分类的问题。所观察到的某一样本的特征向量为X,在c类中又有不止一类可能呈现X值,这种可能性可用P(i|X)表示。接着要分析正态分布时统计决策的问题以及错误概率等问题。由于这种决策理论以已知概率分布为

4、前提,因此在本章还要讨论概念密度函数的估计问题。72.1 引 言机器实现自动分类有两大类方法:一种是模板匹配方法,而另一种就是对特征空间划分为子空间(每类的势力范围)的方法。本章是针对第二种方法的。核心问题是:样本为特征向量X时,它属于哪一类可能性有多大,如能确定属于各个类别的百分比(概率)分类决策就有了依据。例如某个样本的特征向量为X,X属于第一类样本的可能性为60,而第二类的可能性为40。在没有任何样本信息的情况下,则应将样本决策为第一类以使错分类可能性小(40) 。82.2 几种常用的决策规则本节将讨论几种常用的决策规则。不同的决策规则反映了分类器设计者的不同考虑,对决策结果有不同的影响

5、。最有代表性的是基于最小错误率的贝叶斯决策与基于最小风险的贝叶斯决策,下面分别加以讨论。92.2.1 基于最小错误率的贝叶斯决策 一般说来,c类不同的物体应该具有各不相同的属性,在d维特征空间,各自有不同的分布。当某一特征向量值X只为某一类物体所特有,问题在于出现模棱两可的情况。此时,任何决策都存在判错的可能性。这一节讨论的是使错误率为最小的决策方法,称为基于最小错误率的贝叶斯决策理论102.2.1 基于最小错误率的贝叶斯决策 最小错误率是在统计意义上的含义。条件概率概念。P(*|#)是条件概率的通用符号,在“|”后边出现的#为条件,之前的*为某个事件,即在某条件#下出现某个事件*的概率。P(

6、K|X)指在X出现条件下,样本为K类的概率。一个事物在某条件下出现的概率P(*|#)与该事件在不带任何条件下出现的概率(写成P(*)是不相同的。例如全世界人口有60亿。因此你见到一个人在不带任何条件下,有20%的可能性是中国人P(*)=0.2,但是当有条件时(地理条件),这个值会改变。112.2.1 基于最小错误率的贝叶斯决策 例癌细胞的识别 假设每个要识别的细胞已作过预处理,并抽取出了d个特征描述量,用一个d维的特征向量X表示,识别的目的是要依据该X向量将细胞划分为正常细胞1 或者异常细胞2 。类别的状态是一个随机变量。概率的估计包含两层含义,一是由统计资料表明,正常细胞与异常细胞在统计意义

7、上的比例,这称为先验概率P(1)及P(2),另一种则分别表示所检查细胞呈现出不同属性的概率密度函数P(x|1)和P(x|2)。122.2.1 基于最小错误率的贝叶斯决策 例癌细胞的识别 显然在一般情况下正常细胞占比例大,即P(1)P(2),因此如果我们不对具体的细胞化验值作仔细观察,我们作出该细胞是正常细胞的判决,在统计的意义上来说,也就是平均意义上说,错判可能性比判为异常细胞时小。但是仅按先验概率来决策,就会把所有细胞都划归为正常细胞,并没有达到将正常细胞与异常细胞区分开的目的。这表明由先验概率所提供的信息太少。132.2.1 基于最小错误率的贝叶斯决策 例癌细胞的识别 还必须利用所抽取到的

8、d维观测向量。为简单起见,假定d=1,并已知这两类的类条件概率密度函数分布已知,如图2.1所示,其中P(x|1)是正常细胞的属性分布,P(x|2)是异常细胞的属性分布。那末,当观测向量为X值时,它属于各类的概率又是多少呢?为此我们可以利用贝叶斯公式, 来计算这种条件概率,称之为状态的后验概率P(i|X)。1415Bayes(贝叶斯)公式联合概率:同时出现两个事件X及i的概率为P(x,i)。它是某个条件出现的概率(如P(i),以及在此条件下某事件出现概率(P(x|i)的乘积,在此写为:P(x,i)=P(x|i)P(i)=P(i|x)P(x) 。先验概率是针对i,I1,2,c,这c个事件出现的可能

9、性而言的,不考虑其它任何条件。类条件概率密度函数P(x|i):是指i条件下在一个连续的函数空间出现X的概率密度,在我们这里指第i类样本他的属性X是如何分布的。2.2.1 基于最小错误率的贝叶斯决策 16在得到一个待识别量的观测状态X后,可以通过先验概率P(i)及类别条件概率密度函数P(x|i),得到呈现状态X时该样本分属各类别的概率,这个概率值可作为识别对象判属的依据。表示的类条件概率可用式(2-1)换算成如图2.2所示的后验概率分布。可以看出,在X值小时,细胞被判为正常是比较合理的,判断错误的可能性小。基于最小错误概率的贝叶斯决策理论又可以写成如下几种等价形式: (1) 如果 ,则 (2-2

10、)2.2.1 基于最小错误率的贝叶斯决策 17(2) 如用先验概率及类条件概率密度函数表示,则有:如果 , 则 (2-3)2.2.1 基于最小错误率的贝叶斯决策 18(3) 以比值的方式表示(似然比), 如果 ,则 , 否则 (2-4)(4) (2-4)式还可改写成为对数形式,若则 ,否则 (2-5)2.2.1 基于最小错误率的贝叶斯决策 19例2.1假设在某地区切片细胞中正常(1)和异常()两类的先验概率分别为P(1)=0.9,P(2)=0.1。现有一待识别细胞呈现出状态x,由其类条件概率密度分布曲线查得p(x|1)=0.2,p(x|)=0.4,试对细胞x进行分类。解:利用贝叶斯公式,分别计

11、算出状态为x时1与的后验概率2.2.1 基于最小错误率的贝叶斯决策 20尽管类别呈现出状态x的条件概率要高于1类呈现此状态的概率,但是考虑到P(1)远大于P(),因此状态x属于类别1的可能性远比属于类别的可能性大。将该细胞判为正常在统计的意义上讲出错率要小得多。两对概率,一对是P(1|x)和P(|x),另一对是P(x|1)和P(x|2)。前一对是在同一条件x下,比较1与2出现的概率,如果我们只考虑两类1和2,则有P(1|x)+P(2|x)=1。而对两者进行数值上的比较,如P(1|x) P(2|x)则可以下结论,在x条件下,事件1出现的可能性大。2.2.1 基于最小错误率的贝叶斯决策 21对P(

12、x|1)和P(x|2)来说,与第一对完全不同,因为它们是在不同条件下讨论的问题因此比较两者没有意义,而且即使只有两类1与2,P(x|1)+P(x|1)1。这里要特别强调一点是P(x|1)与P(x|2)两者没有联系,都是指各自条件下出现x的可能性,不能仅因为前者比后者大,就认为x是第一类事物的可能性较大,只有考虑先验概率这一因素,才能决定x条件下,1类还是2类的可能性比较大。2.2.1 基于最小错误率的贝叶斯决策 22为什么后验概率要利用Bayes公式从先验概率和类条件概率密度函数计算获得。在估计先验概率与类条件概率密度函数时都可搜集到大量样本,而对某一特定事件(如x)要搜集大量样本是不太容易的

13、。因此只能借助Bayes公式来计算得到。对基于最小错误率的贝叶斯决策来说,以后验概率值的大小作判据是最基本的方法,而其它形式的作用都基本相同,但使用时更方便些。2.2.1 基于最小错误率的贝叶斯决策 23在两类别问题中,按(2-2)式给出的决策规则,当P(2|x)p(1|x)时决策为2。显然这个决策意味着,对观测值x有P(1|x)概率的错误率。例如在上例中所作的w1决策,实际上包含有P(2|x)=0.182的错误概率。在两类别的情况下,可以将p(e|x)表示成当如果我们把作出1决策的所有观测值区域称为R1,则在R1区内的每个x值,条件错误概率为p(2|x)。另一个区R2中的x,条件错误概率为p

14、(1|x)。2.2.1 基于最小错误率的贝叶斯决策 24因此平均错误率P(e)可表示成 (2-8)由于在R1区内任一个x值都有P(2|x)P(1|x),同样在R2区内任一个x值都有P(1|x)P(2|x)错误率在每个x值处都取小者,因而平均错误率P(e)也必然达到最小,这就证明了按(2-2)式作出的决策,其平均错误率为最小。2.2.1 基于最小错误率的贝叶斯决策 252.2.1 基于最小错误率的贝叶斯决策 26为了形象地说明以上证明,图2.3表示了在某种概率分布下R1与R2区的分布情况,该图分别画出p(x1)P(1)及p(x2)P(2)的分布情况,由于P(e)也可以(2-8)式写成 (2-9)

15、因此错误率为图中两个划线部分之和,显而易见只有这种划分才能使对应的错误率区域面积为最小。2.2.1 基于最小错误率的贝叶斯决策 272.2.1 基于最小错误率的贝叶斯决策 在C类别情况下,很容易写成相应的最小错误率贝叶斯决策规则:如果 , (2-10)也可将其写成用先验概率与类条件概率密度相联系的形式,得:(2-11)282.2.1 基于最小错误率的贝叶斯决策 至于计算多类别决策过程中的错误率,需把特征空间分割成R1,R2,Rc个区域,在每个区域Ri统计将所有其它类错误划为该区域对应的i类的概率,则每个区域共有c-1项错误率,总共有c(c-1)计算项,计算是很繁琐的。为此,可以改成计算平均正确

16、分类概率P(c)即由于上式中只有c项,计算要简单得多。然后通过式子P(e)=1-P(c),就可计算出平均错误率。292.2.1 基于最小错误率的贝叶斯决策 例 应用贝叶斯决策的肤色提取302.2.1 基于最小错误率的贝叶斯决策 例利用贝叶斯原理,可以建立简单的肤色模型,并用来从图像中提取手部、脸部肤色,进而得到人的身体姿势。使用的方法是:1先在一副训练图象中手工描绘出肤色区域,2然后统计每种颜色点在肤色区域中出现的次数和在区域外出现的次数的比值,作为这种颜色是肤色的概率312.2.1 基于最小错误率的贝叶斯决策 3这样就得到了一张查找表,表中的每个元素是这个点是肤色的概率。我们就得到了一个点是

17、不是肤色的概率分布。4再加上域值限制之后,认为只有概率大于一定域值的才是肤色。这样,对图中任意一点,查找表中对应的概率,就可以很快的知道它是不是肤色了。322.2.2 基于最小风险的贝叶斯决策基于最小错误概率的决策方法的改进 从式(2-10)可以看出,在分类时所作的判决(称之为决策)单纯取决于观测值X对各类(也称自然状态)的后验概率中之最大值,因而也就无法估计作出错误决策所带来的损失。 332.2.2 基于最小风险的贝叶斯决策基于最小错误概率的决策方法的改进为此不妨将作出判决的依据从单纯考虑后验概率最大值,改为对该观测值X条件下各状态后验概率求加权和的方式,表示成 (2-13) 其中 表示观测

18、样本X实属类别j,而被判为状态i时所造成的损失,Ri则表示了观测值X被判为i类时损失的均值。342.2.2 基于最小风险的贝叶斯决策基于最小错误概率的决策方法的改进如果我们希望尽可能避免将某状态j,错判为状态i,则可将相应的 权值选择得大些,以表明损失的严重性。加权和Ri用来衡量观测样本X被判为状态i所需承担的风险。而究竟将X判为何类则应依据所有Ri, (i=1,c)中的最小值,即最小风险来定。 352.2.2 基于最小风险的贝叶斯决策我们见到一个病理切片X,如果X确实是癌细胞(2),但被判作正常(1),则会有损失,这种损失用 表示,X确实是正常(1),却被判定为异常(2),则损失表示成 ,另

19、外为了使式子写的更方便,我们也可以定义 与 ,是指正确判断也可有损失。那么把X判作1引进的损失应该与 以及 都有关,哪一个占主要成分,则取决于P(1|X)与P(2|X)。因此变成了一个加权和362.2.2 基于最小风险的贝叶斯决策同样将X判为2的风险就成为此时作出哪一种决策就要看是R1(X)小还是R2(X)小了,这就是基于最小风险的贝叶斯决策的基本出发点。有关该例的数值例子在例2.2。372.2.2 基于最小风险的贝叶斯决策(1)自然状态与状态空间。其中自然状态是指待识别对象的类别,而状态空间则是由所有自然状态所组成的空间,=1,2,c(2)决策与决策空间。 在决策论中,对分类问题所作的判决,

20、称之为决策,由所有决策组成的空间称为决策空间。 决策不仅包括根据观测值将样本划归哪一类别(状态),还可包括其它决策,如“拒绝”等,因此决策空间内决策总数a可以不等于类别数c,表示成382.2.2 基于最小风险的贝叶斯决策(3)损失函数(i|j)(或写成(i,j)。这就是前面我们引用过的 。它明确表示对自然状态j,作出决策i时所造成的损失。(4)观测值X条件下的期望损失R(i|X), ,i=1,2,a(2-14) 这就是前面引用的符号Ri,也称为条件风险。最小风险贝叶斯决策规则可写成: 则 =k (2-15)392.2.2 基于最小风险的贝叶斯决策与基于最小错误概率的决策方法中所引用的平均错误率

21、P(e)相类似,在这里引入一个期望风险R, (2-16)它表示对所有X取值所作的决策(X)所带来的平均风险。与上一节证明基于最小错误概率的贝叶斯决策方法相类似,当所采取的每一个决策都使其条件风险最小,则对所有的X所作的决策,其期望风险也必然最小。402.2.2 基于最小风险的贝叶斯决策最小风险贝叶斯决策可按下列步骤进行:(1)在已知P(i),P(X|i),i=1,,c及给出待识别的X的情况下,根据贝叶斯公式计算出后验概率: j=1,,x (2)利用计算出的后验概率及决策表,按式(2-14)计算出采取i,i=1,,a的条件风险 (3)对(2)中得到的a个条件风险值R(i|X),i=1,,a进行比

22、较,找出使条件风险最小的决策k,则k就是最小风险贝叶斯决策。412.2.2 基于最小风险的贝叶斯决策 例2.2 在例2.1条件的基础上,并且已知11=0,(11表示(1|1)的简写),12=6,21=1,22=0,按最小风险贝叶斯决策进行分类。解:已知条件为P(1)0.9, P(2)0.1p(X|1)0.2, p(X|2)0.4110, 126, 211, 220根据2.1的计算结果可知后验概率为P(1|X)0.818, P(2|X)0.182再按式(2-14)计算出条件风险 422.2.2 基于最小风险的贝叶斯决策 再按式(2-14)计算出条件风险由于R(1|X)R(2|X)即决策为2的条件

23、风险小于决策为1的条件风险,因此应采取决策行动2,即判待识别的细胞X为2类异常细胞。 432.2.2 基于最小风险的贝叶斯决策 将本例与例2.1相对比,其分类结果正好相反,这是因为影响决策结果的因素又多了一个“损失”。由于两类错误决策所造成的损失相差很悬殊,因此“损失”在这里起了主导作用。从以上讨论可以看出,正确制订损失函数值,是基于最小风险的贝叶斯决策方法在实际中使用的一个关键问题。而实际中列出合适的决策表并不是一件容易的事,需根据所研究的具体问题,分析错误决策造成损失的严重程度,与有关专家共同商讨来确定 442.2.2 基于最小风险的贝叶斯决策 上面两种决策方法之间的关系 设损失函数为,

24、(2-17) 式中假定对C类只有C个决策,不考虑“拒绝”等其它情况,(2-17)表明,当作出正确决策(即i=j)时没有损失,而对于任何错误决策,其损失均为1。这样定义的损失函数称为01损失函数。452.2.2 基于最小风险的贝叶斯决策 根据(2-14)式条件风险为 (2-18) 而 也恰恰是将X判为i时的错误概率。因此基于最小风险的贝叶斯决策结果,在01损失函数情况下,也就是基于最小错误概率的贝叶斯决策结果。最小错误率贝叶斯决策就是在01损失函数条件下的最小风险贝叶斯决策。换句话说,前者是后者的特例。实际上 ,因此,当 最大时 最小。与基于最小错误率的贝叶斯决策的判据一样。462.2.2 基于

25、最小风险的贝叶斯决策 如果我们只考虑两类别问题,并只有一维特征向量的情况,我们可以画出一张与图2.4类似的图,用来表示最小风险贝叶斯决策方法的分类结果。与图2.3不同的是,R1与R2两个区域的分界线不再是t,而是向左移了一段距离,这是由于损失函数12比21大所造成(可以假设11220),在发生位移这一区域内,尽管P(x|1)P(1)P(x|2)P(2),但是为了减少将2错判为1所带来的严重损失,在P(x|2)P(2)尚不很小的情况下,使将2类样本错判为1的可能性减小,以减小决策所承担的风险。当然平均错误率则明显增大了。472.2.2 基于最小风险的贝叶斯决策 图中紫线为分类线,左边被识别为第1

26、类,右边为第2类,两条曲线为概率分布曲线,紫线左侧红线以下表示把第二类错分为第一类的可能性,另一块灰色区域含义类似。整个灰色区域加权后可以表示风险。482.2.2 基于最小风险的贝叶斯决策 (2-13)式定义了样本为X作出i决策时的期望风险一种是由于样本存在分属各类的可能性,而对实属一类却决策成i类会造成程度不同的损失,因而期望损失应是风险系数 与 相乘之总和。另一种看法可以将损失看成是对后验概率的重要性作加权, 是对 的加权系数。因此只要 稍大一点,就会使风险明显增大。公式(2-17)与(2-18)说明了基于最小错误率与基于最小风险两种Bayes决策的关系,结论是基于最小错误率的决策是基于最

27、小风险决策的一个特例。492.2.3在限定一类错误率条件下使另一类错误率为 最小的两类别决策先验概率未知或先验概率发生变化的情况在这种情况下,如果仍按某一组先验概率值P(i)作决策,则很可能使实际的决策效果有较大的错误率或较大风险。那末能否找到一种合适的分类器设计,使其最大可能的风险为最小。换句话说,如果先验概率值在较大范围内变化,就可能产生的最大风险而言是最小的。而这一节讲的是哪一种办法,即不考虑先验概率,而只要求限定某一种错误率条件下,使另一类错误率最小502.2.3在限定一类错误率条件下使另一类错误率为 最小的两类别决策在前面的讨论中,曾提到在两类别问题中,可能会出现两种错误分类的情况。

28、利用(2-9)式,平均错误率P(e)可按下式计算 如令 则上式又可写成 (2-19) 512.2.3在限定一类错误率条件下使另一类错误率为 最小的两类别决策由于先验概率P(1)与P(2)在具体问题中往往是确定的,因此一般称P1(e),P2(e)为两类错误率。实际中,有时要求将其中某一类错误率限制在某个常数之下而使另一类错误率尽可能小。例如在癌细胞识别中,希望将异常细胞错判的概率P2(e)限制在很小的值,如P2(e)=0为一个很小的常数,同时又使P1(e)尽可能小。这种决策要求可看成是在P2(e)=0条件下,求P1(e)极小值的条件极值问题,因此可以用求条件极值的拉格朗日乘子法解决。 522.2

29、.3在限定一类错误率条件下使另一类错误率 为最小的两类别决策为此我们写出如下算式 (2-20)其中为拉格朗日乘子,目的是求的极小值。按定义 (2-21) (2-22) 其中R1与R2分别是1与2的决策域,而R1与R2组成整个特征空间R,且彼此互不交迭。因此如果被识别样本X落入R1中,就被判定为1,反之属2。 2-22)532.2.3在限定一类错误率条件下使另一类错误率 为最小的两类别决策由于R1与R2不相交并组成整个特征空间,应有 (2-23) 将式(2-21),(2-22)代入(2-20),并考虑到(2-23)可得) (2-24) 将(2-24)式分别对X和求导,并令 及 , 可得 (2-2

30、5)、(2-26) 2-22)542.2.3在限定一类错误率条件下使另一类错误率为 最小的两类别决策(2-25)与(2-26)的方程式就决定了这样一个分界面,它使P2(e)=0,同时又在该条件下使P1(e)尽可能小。该分界面上X值具有这样一个特点,即它们的两类条件密度函数之比是一个常数,该比值就是拉格朗日乘子。这种决策规则可写成:如果 则 (227) 或如果 ,则 (228) ( 552.2.3在限定一类错误率条件下使另一类错误率为 最小的两类别决策这种在限定某一类错误为常数而使另一类错误率最小的决策也称Neyman-Pearson决策规则。如果将(2-28)与最小错误率决策规则(2-24)相

31、对比,可以看出该决策规则也是以似然比为基础的,但两者所使用的阈值不同。最小错误率决策使用 为阈值,而N-P决策则使用由(2-25)与(2-26)方程的解获得的一个常数。在高维时,直接求解不易。一般可利用P2(e)与值之间存在的单调函数关系,采用选择一些值的试探法,最终找到一合适的值,既能使P2(e)=0条件满足,又能使P1(e)尽可能小。 ( 562.2.4 判别函数、决策面与分类器设计 在分类器设计中使用的一些概念,这就是决策面与判别函数。在前面讨论中曾提到,分类决策实质上是在描述待识别对象的d维特征所组成的特征空间内,将其划分为c个决策域,待识别的特征向量落在哪个决策域,该样本就被判为哪一

32、类。因此决策域的边界面就是决策面,在数学上用解析形式表示成决策面方程。用于表达决策规则的某些函数则称为判别函数。显然判别函数与决策面方程是密切相关的,并且都是由相应决策规则所确定的。 ( 572.2.4 判别函数、决策面与分类器设计 例如在两类别问题中,按最小错误率作决策时,决策规则的一种形式是 否则 则相应的判别函数就是gi(X)P(i|X), i=1,2而决策面方程则可写成g1(X)g2(X)此时决策规则也可以写成用判别函数表示的形式如果gi(X)gj(X) i,j=1,2 且 ij则Xi,否则 582.2.4 判别函数、决策面与分类器设计 至于多类别情况,则对应于一种决策规则要定义一组判

33、别函数gi(X), i=1,2,,c而决策规则可表示成如果 ,则将X归于i类;多类别情况下的决策面方程比两类问题复杂,并且只有在特征空间中具有相邻关系的决策域的边界面才是有意义的决策面。当i的决策域与j的决策域相邻时,以下关系决定了相应的决策面gi(X)gj(X)592.2.4 判别函数、决策面与分类器设计 在讨论了判别函数等概念后,设计分类器的任务就清楚了。多类别情况下的决策面方程比两类问题复杂,并且只有在特征空间分类器可以用软件或硬件实现。图2.6表示了两类别问题分类器的框图,而图2.7则表示了多类别分类器的结构框图。两者主要的不同在于多类别情况需有一个求最大值的环节,在图2.7中用MAX

34、表示,而两类情况则可简化为正负号判别器(阈值单元)。602.2.4 判别函数、决策面与分类器设计 612.2.4 判别函数、决策面与分类器设计 622.2.4 判别函数、决策面与分类器设计 分类器设计问题主要集中在判别函数的选择,使用最小风险决策时合理的损失函数的确定。此外贝叶斯决策理论都是基于统计分布确定的情况下的计算,而统计参数的确定恰恰是最困难的问题。Bayes决策理论其实很简单,对特征空间任一点X只要能确定落在该点的样本X属于哪一种类的可能性大,就将这点划分到这类的决策域。问题是后验概率P(i|X)要通过先验概率和类概率密度函数计算。显然具体的决策域划分与样本的概率分布有关。结合正态分

35、布概率密度函数进行讨论,在讨论结束时我们会发现从中可以得到不少启示。63小结 分类器设计两种最基本的原则是关键。错分率最小即完全以减少分类错误为原则和基于最小风险的贝叶斯决策的原理。弄清后验概率等几个概念,为什么用后验概率大小来判断就能实现错误率最小?“风险”与“损失”的概念也很重要,通过它们把错分类造成的影响考虑进来了。a.风险系数 是怎么定义的?b.为什么对某个样本作第i个决策的风险要按(2-13)或(2-14)等式计算?c.如果 比 大得多,那么分类器设计希望避免哪一类错分类? 大则表示这种错误造成的损失大,希望这一类错误尽可能减少。64小结 判别函数:分类所用的计算式的特点,是比较所计

36、算数值大小。这种函数就称为判别函数,函数的自变量是样本X,故一般表示成gi(X),如果 则称特征空间的这一点X是第i类的决策域。由gi(X)占主导地位的区域称为第i类的决策域,我们将它表示成Ri,决策面方程:如果第i类决策域Ri与第j类决策域相邻,则它们之间有边界。在边界上有gi(X)=gj(X),该式是一个方程式,称为决策面方程。652.3 正态分布时的 统计决策 662.3.1正态分布概率密度函数的定义与性质一、单变量正态分布 单变量正态分布概率密度函数定义为 (2-29) 式中表示随机变量x的数学期望,2为其方差,而则称为标准差。 (2-30) (2-31) 67首先正态分布是指一个随机

37、实数度量值在整个实数域上的分布规律。因此它属于概率密度函数类,不是我们所讨论的先验概率P(i),也不是后验概率P(i|X),而是p(x|i)。式(2-29)用p(x)表示,是因为通用公式,如具体到我们的情况,可将(2-29)具体化,则 其中i, i分别是对(2-29)中及的具体化。2.3.1正态分布概率密度函数的定义与性质68多元正态分布1.概率密度函数多元是指样本以多个变量来描述,或具有多个属性,在此一般用d维特征向量表示,Xx1,xdT。d维特征向量的正态分布用下式表示 (2-32) 其中是X的均值向量,也是d维,EX1,2,dT (2-33)是dd维协方差矩阵,而1是的逆矩阵,|是的行列

38、式E(X)(X)T (2-34)是非负矩阵,在此我们只考虑正定阵,即|0。2.3.1正态分布概率密度函数的定义与性质69二元正态分布:我们着重讨论二维向量,是一个随机向量,其中每一个分量都是随机变量,服从正态分布。但是一个二维随机向量不仅要求考虑每个分量单独的分布,还要考虑两个随机变量之间的关系。下图的例子中的两个二元正态分布的各个分量是相同的,即它们的期望(1和2)方差( 1和2 )都相同,但这两个特征向量在空间的分布却不相同。从下图:2.3.1正态分布概率密度函数的定义与性质70二元正态分布: 协方差 :衡量x1 和x2 之间的相关性 协方差越大,说明两个变量的相关度越高。 协方差矩阵 那

39、么以下是上两图特征向量分布的协方差矩阵:2.3.1正态分布概率密度函数的定义与性质712.性质:(1)参数与对分布具有决定性。这一点与单变量时是相似的,记作p(X)N(,)。 (2)等密度点分布在超椭球面上。由于(2-32)是指数函数,因此等密度点对应:(x)(x)常数 (2-35)在二维情况下,(2-35)的解是一个椭圆轨迹,其长短轴方向由的特征向量决定,各轴的长度与相应的特征值成正比。 在数理统计中把(x-)(x-)称为向量x到向量的Mahalanobis距离的平方,即r2(x)(x) (2-36)按此定义多元正态分布等密度点X的轨迹是到的Mahalanolbis距离为常数的超椭球面。2.

40、3.1正态分布概率密度函数的定义与性质722.性质:(3)多元正态分布的离散程度由参数|决定,这与单变量时由标准差决定是对应一致的。(4)正态分布中不相关性等价于独立性。在数理统计中一般情况下,两个随机变量xi与xj之间不相关,并不意味着它们之间一定独立。然而对多元正态分布的任意两个分量xi与xj而言,如果xi与xj不相关,则它们之间也一定是独立的,也就是说正态分布中不相关性等价于独立性。2.3.1正态分布概率密度函数的定义与性质735)边缘分布和条件分布的正态性。每个分量单独的分布也是正态分布。另,对某个分量或若干个分量保持常数的条件下样本的分布也仍然是正态的。(6)线性变换的正态性。经线性

41、变换后,原正态分布的样本可变为另一参数不同的正态分布样本。同时由于协方差矩阵是对称矩阵,因此总可以找到某个线性变换A,使变换后的协方差矩阵AA成为对角矩阵,这就意味着在某一个新的坐标系统中,可以做到使各分量之间是相互独立的。这一性质对解决某些模式识别问题有重要意义。(7)线性组合的正态性。这是指多元正态分布的随机向量,在经过线性组合后得到的一维随机变量也是正态分布的。2.3.1正态分布概率密度函数的定义与性质74在正态分布条件下最小错误率贝叶斯分类器有些特殊的性质,可使判别函数及决策面方程计算得到不同程度的简化。下面我们从最简单的情况开始讨论,然后逐渐涉及较一般的情况。 一、最小距离分类器情况

42、 二、线性分类器 三、各类协方差矩阵不相等的情况 2.3.2正态分布概率模型下的最小错误率 贝叶斯决策 75采用(2-3)式表示的决策规则,即如果 则Xi 因此判别函数为 ,其中 是多元正态分布,可表示成 。考虑到正态分布函数是指数函数形式,判别函数采用对数形式则更为方便,因此判别函数可写成: (2-37)2.3.2正态分布概率模型下的最小错误率 贝叶斯决策 76相应的决策面方程为 即 (2-38)2.3.2正态分布概率模型下的最小错误率 贝叶斯决策 77一、最小距离分类器情况在正态分布的某一种特殊情况下,最小错误率贝叶斯分类器可演化成最小距离分类器。最小距离分类器的定义是,每个样本以它到每类

43、样本均值的欧氏距离的最小值确定其分类,即如果 则Xi (2-39)样本分布满足以下正态分布条件时,最小错误分类器与(2-39)表示的决策规则相当;2.3.2正态分布概率模型下的最小错误率 贝叶斯决策 78以上条件表明,c类样本都以半径相等的超球面形状分布在特征空间内,且具有相等的先验概率。图(a)表示一个在二维特征空间中满足上述条件的两类别问题示意图,图中两类分布为两个相同的同心园,图中1与2为其圆心。 2.3.2正态分布概率模型下的最小错误率 贝叶斯决策 79在这种条件下,由于|2d及i-1=2I,代入(2-37)得 (2-40) 由于决策是根据各判别函数之间的大小,因而在(2-38)中一些

44、与类别无关的项可以忽略,再加上先验概率相等这个条件,判别函数可简化成2.3.2正态分布概率模型下的最小错误率 贝叶斯决策 80二、线性分类器决策面为超平面的分类器称为线性分类器。有不止一种正态分布概率模型,可使最小错误率贝叶斯决策的决策面具有超平面形式。这里我们讨论两种情况。(1)i=2 I , i=1,,c这种情况与上一种情况不同之处在于并不要求各类的先验概率相等这个条件。在这种情况下,判别函数可从(2-38)简化为 (2-42)2.3.2正态分布概率模型下的最小错误率 贝叶斯决策 81二、线性分类器(2-42)是X的二次函数,但是由于二项XTX与类别号i无关,因此判别函数可进一步简化成 (2-43)其中 (2-44) (2-45)可见判别函数为一线性函数。根据决策面方程gi(X)gi(X)0可有 (2-46)2.3.2正态分布概率模型下的最小错误率 贝叶斯决策 82利用 及 代入(2-46)并整理,可得WT(XX0)0 (2-47)其中Wi-j (2-48) 由(2-47)与(2-48)式可以看出,决策面为一超平面,其法线方向为(ij),当P(i)P(j)时该超平面过(i+j)/2点,在二维情况下,就是过i与j

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论