模式识别第三StatisticDiscriminant_第1页
模式识别第三StatisticDiscriminant_第2页
模式识别第三StatisticDiscriminant_第3页
模式识别第三StatisticDiscriminant_第4页
模式识别第三StatisticDiscriminant_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、3.1.贝叶斯判别原则3.2.Bayes最小风险判别准则3.3.聂曼皮尔逊判别准则3.4.正态分布模式的贝叶斯分类器3.5.贝叶斯分类器的错误概率l随机特征向量的概念 模式识别的目的就是要确定某一个给定的模式样本属于哪一类。可以通过对被识别对象的多次观察和测量,构成特征向量,并将其作为某一个判决规则的输入,按此规则来对样本进行分类。l随机特征向量的概念 在获取模式的观测值时,有些事物具有确定的因果关系,即在一定的条件下,它必然会发生或必然不发生。例如识别一块模板是不是直角三角形,只要凭“三条直线边闭合连线和一个直角”这个特征,测量它是否有三条直线边的闭合连线并有一个直角,就完全可以确定它是不是

2、直角三角形。这种现象是确定性的现象,前一章的模式判别就是基于这种现象进行的。l随机特征向量的概念 但在现实世界中,由许多客观现象的发生,就每一次观察和测量来说,即使在基本条件保持不变的情况下也具有不确定性。 只有在大量重复的观察下,其结果才能呈现出某种规律性,即对它们观察到的特征具有统计特性。 特征值不再是一个确定的向量,而是一个随机向量。 此时,只能利用模式集的统计特性来分类,以使分类器发生错误的概率最小。l两类模式集的分类目的: 要确定x(随机特征向量)是属于1类还是2类,要看x是来自于1类的概率大还是来自2类的概率大。剖析: x是来自于1类的概率大 把x划分到1类,正确的可能性大,错误的

3、可能性小。l基本概念 (1)样本概率P(x) 模式空间的样本x是通过多次观察得到的,样本点的出现具有随机性,那么也就有重复性。P(x)表示样本X=x出现的概率。也就是在全体样本中出现的概率 l基本概念 (2) 先验概率、条件概率、后验概率221121)|()|()|()|(xxPxPxxPxP则,如果则,如果(3.1-1) 其中后验概率 21)()|()()|()()()|()|(iiiiiiiiPxpPxpxpPxpxP我们通常称为似然函数,它可以通过已知的样本来求得。带入3.1-1式子,则有 2221112211)()|()()|()()|()()|(xPxpPxpxPxpPxp则,如果则

4、,如果21221121122112)()()|()|()()()()|()|()(xPPxpxpxlxPPxpxpxl则,则, 该式称为贝叶斯判别。关于这个判别表达式的直观意义解释是:总是划分到它出现概率最多的某个类中,从而使分类错误概率最小。整理前述公式有:ijjixxPxP,则如果)|(max)|() 1 (2, 1ijjjiixPxpPxp,则如果)()|(max)()|()2(2, 121122112)()()|()|()()3(xPPxpxpxl,则如果2121211212)()(ln)|(ln)|(ln)(ln)()4(xPPxpxpxlxh,则如果例子对一大批人进行某种疾病普查,

5、患癌者以1类代表,正常人以2类代表。设被试验的人中患有某种疾病的概率为0.005,即P(1)=0.005,则P(2)=1-0.005=0.995现任意抽取一人,要判断他是否患有某种疾病。显然,因为P(2) P(1),只能说是正常的可能性大。如要进行判断,只能通过某一种化验来实现。l例子设有一种诊断某种疾病的试验,其结果为“阳性”和“阴性”两种反应。若用这种试验来对一个病人进行诊断,提供的化验结果以模式x代表,这里x为一维特征,且只有x=“阳”和x=“阴”两种结果。l假设根据临床记录,发现这种方法有以下统计结果l患有该疾病的人试验反应为阳性的概率=0.95,即p(x=阳| 1)=0.95l患有该

6、疾病的人试验反应为阴性的概率=0.05,即p(x=阴| 1)=0.05l正常人试验反应为阳性的概率=0.01,即p(x=阳| 2)=0.01l正常人试验反应为阴性的概率=0.99,即p(x=阴| 2)=0.99l问题若被化验的人具有阳性反应,他患该疾病的概率为多少,即求P(1 | x=阳)=?这里P(1) 是根据以往的统计资料得到的,为患某种疾病的先验概率。现在经过化验,要求出P(1 | x=阳),即经过化验后为阳性反应的人中患某种疾病的概率,称为后验概率。l计算 v 例例:疾病细胞识别; 正常P(1)=0.9, 异常P(2)=0.1, 对某个未知细胞特征值x,先从类条件概率密度分布曲线上查到

7、:v 解解:该细胞属于正常细胞还是异常细胞,先计算后验概率:.),()(),()(,182. 0)(1)(818. 01 . 04 . 09 . 02 . 09 . 02 . 0)()()()()(211211221111用所以先验概率起很大作因为属正常细胞。因为PPxxPxPxPxPPxpPxpxPjjjp(x/ 1)=0.2, p(x/ 2)=0.4dxxpPdxxpPePxpPxpPdxxpPdxxpPePPePPePdxxpRxPePdxxpRxPePdxxpxePdxxePePxxPxxPxePxPxxPxPTTYYRRRR)()()()()()()()()()()()()()()(

8、)()()()()()()()()()()(),()(),(),()().(,),()(1122min22112211221122121121211221211212(证明略)使错误率最小条件:总错误率:第二类判错:第一类判错:平均错误率:这时错误率最小。当当这时错误率为则二类问题:若)()(11Pxp)()(22PxpTY1R2R1Y当考虑到对于某一类的错误判决要比对另一类的判决更为关键时,就需要把最小错误概率的贝叶斯判别做一些修正假定要判断某人是正常(1)还是肺病患者(2),于是在判断中可能出现以下情况:第一类,判对(正常正常) 11 ;第二类,判错(正常肺病) 21 ; 第三类,判对(肺

9、病肺病) 22;第四类,判错(肺病正常) 12 。在判断时,除了能做出“是” i类或“不是” i类的动作以外,还可以做出“拒识”的动作。为了更好地研究最小风险分类器,我们先说明几个概念: 在整个特征空间中定义期望风险, 期望风险:风险R(期望损失):对未知x采取一个决策为(x)所付出的代价(损耗) ).(,.,2 , 1,1MaaixPExRjMjjijii可能不等于 )( , 平均风险dxxpxxRR决策i:表示把模式x判决为 i的一次动作。 损耗函数ii=(i,i)表示模式X本来属于i类而错判为 i所受损失。因为这是正确判决,故损失最小。 损耗函数ij=(i,j)表示模式X本来属于j类错判

10、为 i所受损失。因为这是错误判决,故损失大。 条件风险(也叫条件期望损失):条件风险只反映对某x取值的决策行动i所带来的风险。期望风险则反映在整个特征空间不同的x取值的决策行动所带来的平均风险。 最小风险Bayes决策规则:kiMikxxRxR则若,min,.,2 , 1二类问题:把x归于1时风险: 把x归于2时风险:作用。较大,决策损失起决定因类风险大。因决策异常细胞因为条件风险:概率:由上例中计算出的后验,曲线上查的从类条件概率密度分布异常为概率为例:已知正常细胞先验6,)()(818. 0)()(092. 1)()()(182. 0)(,818. 0)(0, 1, 6, 04 . 0)(

11、, 2 . 0)(, 1 . 0)(, 9 . 0)(121211212212121121222112112121xxRxRxPxRxPxPxRxPxPxPxPPPjjj)()()()()()(22212122121111xPxPxRxPxPxRl通常取)()()()()|()|(112122121221PPxpxpiiij若则x划分到1阈值)()()()()(112122121221PPx)|()|()(2112xpxpxl似然比l两类的贝叶斯判决条件: 211221122112)()()(xlxlxl(I)当(ii)当(iii)当1x,则,则,则2x1x1x或者当满足如下条件时,最小风险代

12、价的贝叶斯判决方法就是最小错误概率判决方法:0, 111221221)()()()()|()|(112122121221PPxpxp)()()|()|(1221PPxpxp一般多类(M类)的情况)()|()(1jMjjijiPxpxr如果ijixijMjxrxr则且, 2, 1),()(特别的 (习惯称为0-1代价) 则jijiij当当1, 0)()|()()()|()()|()(1jjjjiMiijPxpxpPxpPxpxr)()|()()|()()(jjiijiPxpPxpxrxr此时有2221112211)()|()()|()()|()()|(xPxpPxpxPxpPxp则,如果则,如果

13、 直接使用上述贝叶斯分类器需要知道先验概率,如果先验概率不知道,而知道条件概率,此时,可以使用聂曼皮尔逊判决方法。同样力求错误分类的概率最小。l以一维为例分析11为 类被错划分成 类的错误概率222为 类被错划分成 类的错误概率1dxxpePdxxpePaa)|()()|()(122221111)|()|(1211aadxxpdxxp1)|()|(1222aadxxpdxxp实际中经常用到:在限制某一类的错误一定的条件下,使另一类的错误最小的决策问题。)|()|()|(0012021xpxpdxxpa得:,令:x法:最小,用的情况下使假设在令larange1102)()(ePePdxxpxpd

14、xxpdxxpdxxpdxxpaaaaa11112)|()|(1)|()|(1)|()|()(120021021021l从 因在a1范围内,故 同理有 综合上面两个式子 因此)|()|(12xpxp121)|()|(xxpxp221)|()|(xxpxp2121)|()|(xxpxp)()|()|(21xxpxp)(221)|()(xdxxpl聂曼皮尔逊判别准则最终就是寻找阈值T,该值可以用作为划分a1和a2的边界,也是最为判别分类的准则。其中 在确定了在确定了2 2的值后,就可以求出的值后,就可以求出T T的值。的值。从而找到判决阈值从而找到判决阈值)(221)|()(xTdxxpl例 两个

15、二维正态分布 求聂曼皮尔逊判别阈值。 解:04. 0,)0 , 1 (,)0 , 1(22121Immttln21)()2exp()|()|(111121xxxxpxp11ln( )ln( ) 12222121111( )expexp2222xudxdu查标准正态分布表:210.046,1.693,0.693,4ux 得前边的讨论都是假定先验概率不变,现在讨论在P(i)变化时如何使最大可能风险最小,先验概率P(1)与风险R间的变化关系如下: .)(,11)(12122212111212211122212221121222211212212111121122122121的线性函数就是被确定,风险

16、一旦,对二类情况有:关系:与风险PRdxxpdxxpPdxxpRdxxpdxxpPPdxxpPxpPdxxpPxpPdxxpxxRdxxpxxRdxxPxxRRPRi 1222221211121221122212221dxxPdxxPbdxxPabPaR其中:)(1xp)(2xp12X1X12这样,就得出最小风险与先验概率的关系曲线,如图所示:讨论: 。使最大风险为不变,变化,则平行,与横坐标这时直线如图所示,这时候最大风险为最小即无关与使如果选择关系为一条曲线与选择不同时,当关系为直线关系与区间固定时,当a:0., 0,3;,2;,111222122222212111212211121121

17、1121212RPPRdxxPaRdxxPdxxPPRbPRRPPR1PR固定21,*RA选择不同21,)(1*P1PR*RB)(1*P不变变化RP1 .,0. 0,2121211222112112两类错误概率相等若选取损失为满足应该使边界所以在最大最小判别中ePePdxxPdxxPb上式证明,所选的判别边界,使两类的概率相等: ePeP21这时可使最大可能的风险为最小,这时先验概率变化,其最大风险不变迄今为止所讨论的分类问题,关于待分类样本的所有信息都是一次性提供的。但是,在许多实际问题中,观察实际上是序贯的。随着时间的推移可以得到越来越多的信息。一种方法是计算停止损失和计算继续损失,在两者

18、的临界点上得到分类决策。这种方法需要知道先验概率、决策损失以及观测每个新特征需要的代价。后来开发了一系列基于这种方法的快速算法。v假设对样品进行第 i 次观察获取一序列特征为:X=(x1,x2, xi )T 则对于1,2两类问题,v若X 1,则判决完毕v若X 2 ,则判决完毕v若X不属1也不属2 ,则不能判决,进行第i+1次观察,得X=(x1,x2,xi,x i+1)T ,再重复上面的判决,直到所有的样品分类完毕为止。v这样做的好处是使那些在二类边界附近的样本不会因某种偶然的微小变化而误判,当然这是以多次观察为代价的。另外一种是基于错误概率的序贯处理。:),.,()()()()()(12121

19、1221时可计算其似然比当测得第一个特征参数其中,特征矢量xxxxXXPPXpXpxlTNi)()()()()(2111211111xpxpxpxpxlv由最小错误概率的Bayes 判决,对于两类问题,似然比为)()()(,)(,)(,)(22112121221121111111xxpxxpxxlxAxlBxXBxlxXAxl,并计算似然比则测量下一个特征参数如果则如果则如果v现在来确定A、B的值。v因为是上下门限),(其中止样品的类别全部确定为所有,为重复以上过程直到,再测第三个特征参数,若,则,若,则,若BAxAxxlBxxXBxxlxxXAxxlTT.)()(,)()(,)(321222

20、1212121212类的概率。判决为类而属于,左边的积分代表模式得:的特征空间内取积分可对上式两边对应于次测量表示第11211212111)()()()(,)()()(dXXpAdXXpXApXpNNAXpXpxlNNNNNNN22112121212111212121122221111)(1)()()(1)(1)(),(1 ()()()()()(,)()()()()(1)()(1)()()()(1)(2211XePePBXePePAePePBePBePdXXpBdXXpXBpXpBXpXpxlePePAeAPePePdXXpePePdXXpNNNNNNNNN用错误概率表示为即所以同理,因为或类

21、的分类误差概率类而错判为为本来属于而积分类的分类误差概率类而错判为表示本来属于即:)()(121ePePA)(1)(21ePePB继续观察区区判决1X区判决2Xv序贯分类决策规则:l上下门限A、B是由设计给定的错误概率P1(e), P2(e)来确定的,Wald 已证明,观察次数不会很大,它收敛的很快。时,继续观察时时AXpXpBXePePBXpXpXePePAXpXpiiiiii)()()(1)()()()()(1)()(212212112121)|()() 1xPxgii)()|()()2iiiPxpxg)(ln)|(ln)()3iiiPxpxgcixgi,.,2 , 1),( 为任一单调增

22、函数fxhxpfxgii,)|()()4)()(jxgxgi(1)判别函数:(2)决策面方程:(3)分类器设计:(类似线性分类器多类第三种情况)v一、正态分布判别函数 1、为什么采用正态分布: a、正态分布在物理上是合理的、广泛的。 b、正态分布数学上简单,N(, ) 只有均值和方差两个参数。 2、单变量正态分布: )()()(,)()(:),(21exp21)(22222方差,均值或数学期望其中dxxpxxEdxxxpxENxxp1)()( , 0)(dxxpxxp列关系:概率密度函数应满足下)(xpX2295.013、(多变量)多维正态分布 (1)函数形式:的行列式为的逆阵,为维协方差矩阵

23、,为维均值向量,维特征向量其中121211212),.,(,.,:21exp21)(pnnnnxxxxxxxTnTnTniiiiidxxpxxE)()(nnnnnnnnnnnnTxxxxxxxxExxxxExxE.,.,.111111111111是协方差,非对角线是方差对角线jijixxExxExxExxEijijnnnnnnnnnnnnn22222212121221111111111,.(2)、性质:、与对分布起决定作用P(X)=N(, ), 由n个分量组成,由n(n+1)/2元素组成。多维正态分布由n+n(n+1)/2个参数组成。 、等密度点的轨迹是一个超椭球面。区域中心由决定,区域形状由

24、决定。 、不相关性等价于独立性。若xi与xj互不相关,则xi与xj一定独立。 、边缘分布和条件分布也是正态的。 、线性变换的正态性Y=AX,A为线性变换矩阵。若X为正态分布,则Y也是正态分布。 、线性组合的正态性。211X2X 判别函数:类条件概率密度用正态来表示:112211221()ln()()11lnexp()2211lnexpln()2211ln 2lnln()222iiTiiiniiTiiiniiTiiiiigxp xPxxPxxPnxxP 二、最小错误率(Bayes)分类器:从最小错误率这个角度来分析Bayes 分类器 1.第一种情况:第一种情况:各个特征统计独立,且同方差情况。(

25、最简单情况) 决策面方程:0)()(xgxgji0)()(lnln2121)()(11jijijjjiiijiPPxxxxxgxg iTiiiiiiiTiiiiiiiiiTiixxxPxPxxxginIIIPnxxxg222121221),(ln2)(ln21)(2ln2,1,)(lnln212ln221)(其中对分类无影响。无关。都与因为)(,2)()(.)()(2221欧氏距离imxxgPPP零。,只有方差,协方差为即22112.0.0.:nniI判别函数: 最小距离分类器:未知x,找最近的i把x归类v如果M类先验概率相等: ijTjMwiTiiiiTiiiiiTiiTiTiiTiTixw

26、xwwxwxgPwwwxwxgixxxxxxx0102020max)()(ln21,1)( ,)(,2判别规则:其中:线性判别函数简化可得:无关与因为二次项)()(ln)(210)(0)()(2200jijijijijitjiPPxWxxWxgxg其中决策面方程:21212211212212)()(ln)(21)(1)()()(xPPxxgxgxgTTT对于二类情况讨论:的联线。垂直于决策面同方向同相与,所以又因为垂直与,因此分界面点积为与因率面是一个圆形。协方差为零。所以等概因为HWWWHxxWbIajii)(0)(: )(,: )(21210221i二类情况下线的垂直线为界面。同时可用各类

27、的均值联多类情况,先验概率相。离开先验概率大的一类否则就是联线的中点。通过如果先验概率相等: )(),()(),()(: )(2121dHPPHPPc12WH时决策面)()(21PP124334H23H14H12H1121x2xHW20 x)21()()(21)()(.)()()()(ln)()(21)(.21321121马氏距离平方的,若先验概率相等无关与因为rxxxgPPPPPxxxgiiTiiiiiTiiM 未知x,把x与各类均值相减,把x归于最近一类。最小距离分类器。)(ln21,)()()(101011iiTiiiiiTiiTiTiPwWwxWxgixxxx其中(线性函数)无关。与展

28、开;把 2、第二种情况:、第二种情况:即各类协方差相等。iI )()()()(ln)()(21)(, 0)(1010jiTjijijijijiTPPxWxxW。其中0)()()()(ln)(21)()()()(max)(212121211111212010 xgxgxPPxxgxgxgxwxWwxWxgjijiTTijTjMjiTii相邻与决策界面:若对于二类情况决策规则: 讨论:针对1,2二类情况,如图:。离开先验概率大的一类否则通过均值联线中点则则若各类先验概率相等,值联线。不垂直于不同相与所以因为点。通过正交,与所以点积为与因为本征值决定长轴由所以等概率面是椭圆,因为HHxdHWWcxH

29、xxWxxWbIajijijiii;),(21: )(;)();(: )()(, 0)(: )(,: )(010001121x2xHW20 x 3、第三种情况、第三种情况(一般情况):为任意,各类协方差矩阵不等,二次项xT x与i有关。所以判别函数为二次型函数。ijTjjTMjiTiiTixwxWxWxwxWxWxxg010max)(决策规则:2121212122111121)()(lnln21)()(21)()(21)()()(xPPxxxxxgxgxgTT对于二类情况)(lnln2121)()( ,21,)(:10110iiiiTiiiiiiiiTiiTiPwnWnnWwxWxWxxg,维

30、列向量矩阵其中判别函数圆)(a1x2x12双曲线)(d122椭圆)(b21抛物线)(c1212先验概率相等。为条件独立;二类情况对于二类问题,条件:各种图形:下面看一下决策界面的决策面方程::0)()(2121cxxbaxgxgji直线)(e2211dxxpPdxxpPePxpPxpPdxxpPdxxpPePPePPePdxxpRxPePdxxpRxPePTTYYRRRR)()()()()()()()()()()()()()()()()()()()()()()()(1122min221122112211221211211212(证明略)使错误率最小条件:总错误率:第二类判错:第一类判错:l3.

31、4.1 错误概率的概念 以两类问题为例, 错误分类的概率为 )()(11Pxp)()(22PxpTY1R2R1Y计算量很大)总错误率对于多类问题:)()()()(.)()(.)()(.)()()()(.)()()(11121222321111312iMiMjjjMMMMMMMPRxPPRxPRxPRxPPRxPRxPRxPPRxPRxPRxPePijMiiRiMiiiidxPxpPRxPMPi11)()()()()(用平均正确分类概率:,计算相对简单。错误率:)(1)(MPeP2、正态分布最小错误率、正态分布最小错误率(在正态分布情况下求最小错误率)21)()(21PP设:(B)x21exp21)xp(A)x21exp21)xp(222211可计算出最小错误率。若已知错误率最

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论