第3章 统计决策方法_第1页
第3章 统计决策方法_第2页
第3章 统计决策方法_第3页
第3章 统计决策方法_第4页
第3章 统计决策方法_第5页
已阅读5页,还剩119页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、3.1 研究对象及相关概率研究对象及相关概率3.2 贝叶斯决策贝叶斯决策3.3 贝叶斯分类器的错误率贝叶斯分类器的错误率3.4 聂曼聂曼-皮尔逊决策皮尔逊决策3.5 概率密度函数的参数估计概率密度函数的参数估计3.6 概率密度函数的非参数估计概率密度函数的非参数估计3.7 后验概率密度分类的势函数方法后验概率密度分类的势函数方法第第3章章 基于统计决策的概率分类法基于统计决策的概率分类法* 确定性事件:事物间有确定的因果关系。一个模式要么属于这一类,要么属于另一类。用适当的规则或方法以尽可能小的分类错误对模式进行分类。* 随机事件:事物间没有确定的因果关系,观察到的特征具有统计特性,是一个随机

2、向量。每一次的观测结果没有重复性。不能说一个模式之不能属于某一类,只能说它属于某一类的可能性有多大。我们只能利用模式集的统计特性行分类,使分类器发生分类错误的概率最小。1. 两类研究对象两类研究对象2. 相关概率相关概率1)概率的定义 设是随机试验的基本空间(所有可能的实验结果或基本事件的全体构成的集合,也称样本空间),A为随机事件,P(A)为定义在所有随机事件组成的集合上的实函数,若P(A)满足:3.1 研究对象及相关概率研究对象及相关概率(3)对于两两互斥的事件A1,A2,有2121APAPAAP(1)对任一事件A有:0P(A)1。 (2)P()=1, 事件的全体则称函数P(A)为事件A的

3、概率。设A、B是两个随机事件,且P(B)0,则称为事件B发生的条件下事件A发生的条件概率。3)条件概率定义 BPABPBAP| APAP12)( ABPBPAPBAP)(3(1)不可能事件V的概率为零,即P(V)=0。2)概率的性质联合概率P(AB):A,B同时发生的概率 (2-1)(1)概率乘法公式:如果P(B)0,则联合概率 P(AB)= P(B) P(A|B) = P(A) P(B|A) =P(BA)(3)贝叶斯公式:在全概率公式的条件下,若P(B)0,则将 (2-2),(2-3)式代入(2-1)式中,有: niiiiiiABPAPABPAPBAP1|(2-4)4)条件概率的三个重要公式

4、:niAPAinii,1,2,0,1则对任一事件B有: iniiABPAPBP|1(2)全概率公式:设事件A1 , A2 , ,An,两两互斥,且(2-2)(2-3) 今后的分类中常用到类概率密度p(X |i) :i类的条件概率密度函数,通常也称为i的似然函数。 设随机样本向量X ,相关的三个概率:(2)后验概率P(i|X) :相对于先验概率而言。指收到数据X(一批样本)后,根据这批样本提供的信息统计出的i类出现的概率。表示X 属于i类的概率。5)模式识别中的三个概率(1)先验概率P(i ) :事先根据大量的统计资料得到的事件发生的概率,与现在无关。简称为i 的概率。(3)条件概率P(X |i

5、) :已知属于i类的样本X发生某种事件的概率。例对一批得病患者进行一项化验,结果为阳性的概率为95%,1代表得病人群, 则X化验为阳性的事件可表示为95. 0| 1阳XPP(2| X) 表示试验呈阳性的人中,实际没有病的 人的概率。 若用某种方法检测是否患有某病,假设 X 表示“试验反应呈阳性”。则:例如:一个2类问题,1诊断为患有某病,2诊断为无病,P(2)表示该地区人无此病的概率。则: P(1)表示某地区的人患有此病的概率,P(X |2) 表示无病的人群做该试验时反应呈阳性 (显示有病)的概率。值低 / 高值低 / 高P(X |1) 表示患病人群做该试验时反应呈阳性的 概率。P(1| X)

6、 表示试验呈阳性的人中,实际确实有病的 人的概率。?通过统计资料得到(4)三者关系:根据(4-4)贝叶斯公式有 MiiiiiiiiPpPppPpP1|XXXXX (2-5) niiiiiiABPAPABPAPBAP1|M:类别数3.2 贝叶斯决策贝叶斯决策l 贝叶斯决策方法是统计模式识别中的一个基本方法,用该方法进行分类是要求: (1) 各类别总体的概率分布是已知的。 (2) 要决策分类的类别数是一定的。2. 决策规则决策规则(|)max(|) ,1,2ijiPPj若则类XXX3.2.1 最小错误率贝叶斯决策最小错误率贝叶斯决策 讨论模式集的分类,目的是确定X属于哪一类,所以要看X来自哪类的概

7、率大。在下列三种概率中: 先验概率P(i) ,其和为1 类(条件)概率密度函数 p(X |i) 后验概率P(i| X) 采用哪种概率进行分类最合理? 1. 问题分析问题分析后验概率P(i| X)3.2 贝叶斯决策贝叶斯决策设有M类模式, (2-6) 最小错误率贝叶斯决策规则 XXXpPpPiii| 虽然后验概率P(i| X)可以提供有效的分类信息,但先验概率P(i)和类概率密度函数p(X |i)从统计资料中容易获得,故用Bayes公式,将后验概率转化为类概率密度函数和先验概率的表示。由:可知,分母与i无关,即与分类无关,故分类规则又可表示为:(|)max(|) ()1,2,iijjipPpPj

8、若则类XXX (2-7)(|)max(|) ,1,2ijiPPj若则类XXX几种等价形式:最小误判概率贝叶斯准则对两类问题,(2-7)式相当于)()|()|(2211PpPpXX1X若,则)()|()|(2211PpPpXX2X若,则可改写为:统计学中称l12(X)为似然比, 为似然比阈值。)()(12PP对(2-9)式取自然对数,有:21X(2-7),(2-8),(2-9)都是最小错误率贝叶斯决策规则的等价形式。 21X)|()|()(2112XXXppl12)(PP若,则 (2-8))|(ln)|(ln21XXpp)(ln)(12XXlh若)()(ln12PP,则(2-9)2111)(|)

9、()|()|(iiiPpPpPXXX0.5 0.050.1160.05 0.50.95 0.220.20.95(|)0.8840.050.50.950.2PX)|()|(12XXPP2X例例2.1 假定在细胞识别中,病变细胞的先验概率和正常细胞的先验概率分别为 。现有一待识别细胞,其观察值为X,从类条件概率密度分布曲线上查得: 95. 0)(,05. 0)(21PP5 . 0)|(1Xp2 . 0)|(2Xp试对细胞X进行分类。解:方法1 通过后验概率计算。 方法2:利用先验概率和类概率密度计算。025. 005. 05 . 0)|(11Pp X19. 095. 02 . 0)|(22Pp X

10、)()|()|(1122PpPpXX2X,是正常细胞。多类情况的最小错误率贝叶斯准则多类情况的最小错误率贝叶斯准则(|)m ax(|) ,1, 2,ijiPPjcL若则类XXX(|)max(|) ()1,2,iijjipPpPjcL若则类XXX或者(c类分类问题) 证明证明:贝叶斯分类器在最小化分类错误率上是最优的。 (证明以两类为例)最小错误率的证明l以一维情况为例证明贝叶斯决策确实对应最小错误率l统计意义上的错误率,即平均错误率,用P(e)表示最小错误率的证明错误率图示l 以t为界确实使错误率最小,因为P(e/x)始终取最小l 这个图在哪见过?l 与图像分割中最优阈值对应的错误分割结果类似

11、,最优阈值同样是基于最小错误概率l 图像分割蕴含了与模式识别类似的思想,即判定给定像素属于目标还是背景多类问题的贝叶斯决策3.2.2 基于最小风险的贝叶斯决策基于最小风险的贝叶斯决策l问题的提出:风险的概念风险与损失紧密相连,如病情诊断、商品销售等问题日常生活中的风险选择,所谓是否去冒险l最小风险贝叶斯决策考虑各种错误造成损失不同而提出的一种决策规则l“宁可错杀一千,也不放走一个”以决策论的观点l决策空间:所有可能决策组成的集合l每个决策都将带来一定的损失,可表示为决策和自然状态的函数一般决策表相关的数学表示i条件期望损失l 引入损失的概念,制定决策不能仅考虑最小错误率,而是要考虑采取的决策相

12、应的损失是否最小l 损失的数学表示,跟决策相关条件期望损失,条件风险对于特定的X采取决策i 的期望损失1()(,) (|)ciijjjRPX X期望风险i 对所有的X采取决策 所造成的期望损失之和1() ()() ()iciiRRR X p X dXR X p X dX也称为平均风险。 对某个样本集而言解释Ri 对c类问题,如果观察样本X被判定属于i类,则条件平均风险Ri(X)指将X判为属于i类时造成的平均损失。1()() (|)ciijjjRPXXX2. 决策规则决策规则0ijijij或负值时正值时X式中,i 分类判决后指定的判决号;j 样本实际属于的类别号; 将真实属性是j类的样本决策为i

13、类时的是非代价, 即损失函数。自然属性为j类的样本,被划分到i类中,在i类中产生一错误分类,风险增加。对P作加权平均ijijmin,1,kiRicL若RXXkX则 每个X 都按条件平均风险最小决策,则总的条件平均风险也最小。总的条件平均风险称为平均风险。条件平均风险与平均风险的区别平均风险:对模式总体而言。条件平均风险:对某个样本而言。1)多类情况设有c类,对于任一X 对应 c个条件平均风险: 对每个X有c种可能的类别划分,X被判决为每一类的条件平均风险分别为R1(X),R2(X) , ,Rc(X) 。决策规则:1()() (|)ciijjjRPXXX, i=1,2, ,c l 由已知,先验概

14、率和类条件概率l 根据损失函数 ,计算条件风险1( |) ()(|)( |) ()iiiMjjjp xPPXp xP(,)ij 1()(|) ()ciijjjjRpPXX个条件风险中,最小的条件风险为, a()min(), 1,kiRRia LXXkX则计算步骤计算步骤95.0)(,05.0)(21PP2 . 0)|(, 5 . 0)|(21XXpp例例4.2 在细胞识别中,病变细胞和正常细胞的先验概率 分别为现有一待识别细胞,观察值为X, 从类概率密度分布曲线上查得损失函数分别为 , , , 。按最小风险贝叶斯决策分类。由于R1(X) R2(X),所以X为病变细胞。 计算后验概率12()0.

15、116,(|)0.884PP| XX计算条件平均损失函数2111221()(|)(|)0.884jjjRXPXPX2222111()(|)(|)1.16jjjRXPXPX11021102201210ii1,ijij损失函数为特殊情况:3. (0-1)损失最小风险贝叶斯决策损失最小风险贝叶斯决策1) 多类情况11,()(|)(|)cciijjjjiijRPXPXX(0-1)情况下, 可改写成:iRX , i=1,2,c ()(),kiRRikXXkX,则若1()(|)ciijjjRPXX一般形式:是指对于正确判决即i=j, 没有损失,而对于任何错误判断,其损失均为11,2,1,2,1,1,2,1

16、,2,min()min(|) min (1(|) = max(|)cijicicjj iiiciicRPXPXPXLLLLX最小风险贝叶斯决策要求选择一个策略使得条件风险最小,即要求使得(|)iRX最小,即要求使得后验概率极大。(|)(|)ijiPXPXjiX对成立,则可见在0-1损失条件的情况下,最小风险贝叶斯决策和最小错误率贝叶斯决策的结果是一致的。3.2.3 正态分布模式的贝叶斯决策正态分布模式的贝叶斯决策 许多实际的数据集:均值附近分布较多的样本;距均值点越远,样本分布越少。此时正态分布(高斯分布)是一种合理的近似。 正态分布概率模型的优点: * 物理上的合理性。 * 数学上的简单性。

17、 图中为某大学男大学生的身高数据,红线是拟合的密度曲线。可见,其身高应服从正态分布。1. 相关知识概述相关知识概述1)二次型)二次型T1,nxx Xnnnnaaaa1111A设一向量,矩阵AXXT则称为二次型。二次型中的矩阵A是一个对称矩阵,即 。jiijaanjijiijxxa1,TAXX含义:是一个二次齐次多项式,2)正定二次型)正定二次型 对于 (即X分量不全为零),总有 ,则称此二次型是正定的,而其对应的矩阵称为正定矩阵。0X0TAXX3)单变量(一维)的正态分布)单变量(一维)的正态分布密度函数定义为:xexxpx,21)(21exp21)(2222曲线如图示:= -1,=0.5 ;

18、 = 0,=1 ; = 1,=2 .一维正态曲线的性质:(2)曲线关于直线 x =对称。(3)当 x =时,曲线位于最高点。(4)当x时,曲线上升;当x时,曲线下降.并且当曲线向左、右两边无限延伸时,以x轴为渐近线,向它无限靠近。(1)曲线在 x 轴的上方,与x轴不相交。(5)一定时,曲线的形状由确定。越大,曲线越“矮胖”,表示总体的分布越分散;越小。曲线越“瘦高”。表示总体的分布越集中。 时当时当时当3,997. 02,954. 01,683. 0kkkkxkP4)3规则规则即:绝大部分样本都落在了均值附近3的范围内,因此正态密度曲线完全可由均值和方差来确定,常简记为:2,Np(x)2222

19、21)(21exp21)(xexxp5)多变量()多变量(n维)正态随机向量维)正态随机向量密度函数定义为:式中: ; ;T1,nxx XT1,nmm M|C|:协方差矩阵C的行列式。 多维正态密度函数完全由它的均值向量 M 和协方差矩阵C所确定,简记为:p(X)N( M , C )22121211nnnnCMXCMXCX1T21221exp21)(np为协方差矩阵,是对称正定矩阵,独立元素有 个;2) 1( nn以二维正态密度函数为例: 等高线(等密度线)投影到x1ox2面上为椭圆,从原点O到点M 的向量为均值M。 椭圆的位置:由均值向量M决定; 椭圆的形状:由协方差矩阵C决定。协方差矩阵C

20、i:反映样本分布区域的形状;均值向量Mi:表明了区域中心的位置。2. 正态分布的最小错误率贝叶斯决策规则正态分布的最小错误率贝叶斯决策规则1)多类情况)多类情况具有M 种模式类别的多变量正态密度函数为: 前面介绍的Bayes方法事先必须求出p(X|i) , P(i) 。而当 p(X|i)呈正态分布时,只需要知道 M 和 C 即可。iiiinipMXCMXCX1T21221exp21)|(Mi, 2 , 1 每一类模式的分布密度都完全被其均值向量Mi和协方差矩阵Ci所规定,其定义为:XMiiE)(TiiiiEMXMXC相关知识复习l期望l方差l协方差矩阵l实际计算中的计算公式判别函数与决策面l

21、分类器的设计实际上就是在描述待识别对象的d维特征所组成的特征空间内将其划分为C个决策域。决策域的边界称为决策面决策面,在数学上用解析形式表示为决策面方程决策面方程。l 用于表达决策规则的某种函数称为判别函数判别函数。l 对于两类问题 (1)贝叶斯规则 (2)判别函数 (3)决策面(方策面方程)对正态密度函数,为了方便计算,取对数:对数是单调递增函数,取对数后仍有相对应的分类性能。)(ln)|(ln)()|(lniiiiPpPpXX)()(21ln212ln2)(ln1TiiiiinPMXCMXCiiiinipMXCMXCX1T21221exp21)|(最小错误率Bayes决策中,i类的判别函数

22、为 ,)()|(iiPpX去掉与i无关的项,得判别函数: 正态分布的最小错误率Bayes决策的判别函数。)()(21ln21)(ln)(1TiiiiiiPdMXCMXCX(2-25)Mi, 2 , 1 di(X)为超二次曲面。可见对正态分布模式的Bayes分类器,两类模式之间用一个二次判别界面分开,就可以达到最优的分类效果。)()(21ln21)(ln)(1TiiiiiiPdMXCMXCXjiMiddij, 2 , 1),()(XX若jX则判决规则同前:2)两类问题)两类问题(1) 当C1C2时:1|Xp11,CMN2|Xp22,CMN )()(21ln21)(ln)(111T1111MXCM

23、XCXPd)()(21ln21)(ln)(212T2222MXCMXCXPd对应判别函数判别界面 是X的二次型方程决定的超曲面。二维判别界面如图2.3所示。 0)()(21XXdd221, 0, 0)()(XXXX则则dd若 决策规则: 图2.3 C1C2时iiiiPdMCXCMXCX11TT)(21ln21)(ln)(iiiiiPMCMXCMMCXXCXC1T1T1T1T(21ln21)(ln2 , 12121ln21)(ln1T1T1TiPiiiiMCMXCMXCXC02121)(ln)(ln)()(21T211T11T212121MCMMCMXCMMXXPPdd(2) 当C1=C2=C时

24、:由式(2-25) 有由此导出判别界面为:为X的线性函数,是一超平面。当为二维时,判别界面为一直线,如图2.4所示。 (2-28)两类相同,抵消展开相同,合并T111()ln()ln()()(225)22iiiiiidPXCXMCXM2T21T1T212121)()(MMMMXMMXXdd21)()(2121PP且ICC(3) 当时:判别界面如图2.5所示。图2.4 C1=C2=C,)()(21PP图2.5 C1=C2=I且先验概率相等 02121)(ln)(ln21T211T11T2121MCMMCMXCMMPP)()(21XXdd常用例例2.3 设在三维特征空间里,有两类正态分布模式,每类

25、各有4 个样本,分别为:1T1 , 0 , 1T0 , 0 , 1T0 , 0 , 0T0 , 1 , 1:2T1 , 0 , 0T1 , 1 , 0T1 , 1 , 1T0 , 1 , 0iNjijiiN11XM其均值向量和协方差矩阵可用下式估计: (2-30)TT11iiijiNjijiiNMMXXC (2-31)式中, Ni为类别i中模式的数目,Xij代表在第i类中的第j个模式。两类的先验概率 。试确定两类之间的判别界面。21)()(21PPT1113411134101100000110141MT233141M解:31113111316121CC8444844481C经计算有21T211

26、T11T21212121)()(MCMMCMXCMMXXdd21)()(21PP因协方差矩阵相等因协方差矩阵相等,故(2-28)为其判别式。由于12123()()8884ddxxxXXT321,xxxX将代入:21T211T11T2121212121)(ln)(ln)()(MCMMCMXCMMXXPPdd(2-28) 111211112212113213114214121221122222123223124224()()40()()120()()40()()40()()40()()120()()40()()40d xdxd xdxd xdxd xdxd xdxd xdxd xdxd xdx 计

27、算结果:图中画出判别平面的一部分。12322210 xxx 111(0,0, ), (0,0), (,0,1), 222111(,1,0), (1,1),(1,1,)222描点:2.3 贝叶斯分类器的错误率贝叶斯分类器的错误率2.3.1 错误率的概念错误率的概念错误率:将应属于某一类的模式错分到其他类中的概率。 是衡量分类器性能优劣的重要参数。 定义为 XXXdpePeP)()|()( Xd表示n重积分,即整个n维模式空间上的积分。式中: ; 是X的条件错误概率;T1,nxx X)|(XeP平均错误率平均错误率错误率的计算或估计方法: 按理论公式计算;计算错误率上界;实验估计。 设R1为1类的

28、判决区, R2为2类的判决区,分类中可能会发生两种错误: 将来自1类的模式错分到R2中去。 将来自2类的模式错分到R1中去。错误率为两种错误之和:4.3.2 错误率分析错误率分析1两类问题的错误率两类问题的错误率),(),()(2112RPRPePXX1221)()|()()|(RRdpePdpePXXXXXX一维情况图示: (4-33)1221)()|()()|()(RRdpePdpePePXXXXXX(4-33)221121),|()|(),|()|(XXXXXX则若则若PPPP)|()|(21XXPP2221112211),(|)(|),(|)(|XXXXXX则若则若PpPpPpPp两类

29、问题的最小错误率贝叶斯决策规则 :用后验概率密度表示为 用先验概率和类概率密度函数表示为)(|)(|2211PpPpXX或判别界面为:两类问题最小错误率贝叶斯决策中错误率P(e|X)为:1221)()|()()|()(RRdpePdpePePXXXXXX(2-33)|()|(),|()|()|()|(),|()|()|(21221211XXXXXXXXXPPPePPPPePeP若若1221)()|()()|()(RRdpPdpPePXXXXXX样本被划入第2类122211)()|()()|()(RRdPpdPpePXXXX122211)|()()|()(RRdpPdpPXXXX)()()()(

30、)(2211ePPePPeP211)|()(RdpePXX122)|()(RdpePXX令 , ,则 XXXpPpPiii|)()()()()(2211ePPePPeP122211)()|()()|()(RRdPpdPpePXXXX 在最小错误率最小错误率贝叶斯决策中,判别界面位于两曲线的交点处,即:)(|)(|2211PpPpXX 可以看出这个错误率是所有错误率错误率中最小的最小的(图中三角形的面积减小到0),但总错误概率不可能为零。 通常需要考虑总错误概率,仅使一类样本的错误概率最小是没有意义的,因为这时另一类的错误概率可能很大。其他情况下的错误率: XXdPpePjMiMijjiRj11

31、|设共有M类,当判决 时:iX当 X 判为任何一类时,都存在这样一个可能的错误,故2. 多类情况错误率多类情况错误率XXdPpcPiMiiRi)()|()(1 cPeP 1总错误率为正确分类概率 则:MijjiRMijjiRjjjdPpdpP11)()|()()|(XXXXX错误率= 简化计算,假定 。4.3.3 正态分布贝叶斯决策的错误率计算正态分布贝叶斯决策的错误率计算1正态分布的对数似然比正态分布的对数似然比1|Xp11,CMN2|Xp22,CMNCCC21设 对数似然比决策规则: )|(ln)|(ln)(ln)(2112XXXXpplh12)(lnPP若21X则令 ,有 12)(lnP

32、Pt )(Xh21X若t,则iiiinipMXCMXCX1T21221exp21)|(2 , 1i由正态分布概率密度函数)|(ln)|(ln)(21XXXpph)()(21)()(2121T211T1MXCMXMXCMX)()(21)(211T21211TMMCMMMMCX 有 h(X)是X的线性函数,故h(X)是正态分布的一维随机变量。 计算错误率较为方便。 2对数似然比的概率分布对数似然比的概率分布均值:方差:)(1XhE)()(21)(211T21211T1MMCMMMMCM)()(21211T21MMCMM212121r)()(211T21212MMCMMr令,有 212211T212

33、121)()()(rhEMMCMMX1和2间的马氏距离平方 212221)(rhEX2122222)(rhEX)|(1hp),21(212212rrN)|(2hp),21(212212rrN 图2.9 对数似然比h (X)的概率分布3正态分布最小错误率贝叶斯决策的错误率正态分布最小错误率贝叶斯决策的错误率两类问题最小错误率贝叶斯决策的错误率: )()()()()(2211ePPePPeP其中, ,tdhhpeP)|()(11tdhhpeP)|()(22ttdhhpPdhhpPeP)|()()|()()(2211tdhrrhrP2122212121221exp21)(tdhrrhrP212221

34、2122221exp21)( dyy2exp21)(2令122122122121211)(21)()(rrtPrrtPeP若 ,则21)()(21PP0t1212211212121)(rreP22122exp21rdyy计算结果通过查标准正态分布表求得。 图2.10 错误率与马氏距离的关系 P(e)随着 的增大而单调递减,只要两类模式的马氏距离足够大,错误率就可以减到足够小。 212r2.3.4 错误率的估计错误率的估计1已设计好分类器时错误率的估计已设计好分类器时错误率的估计1)先验概率未知随机抽样Nk N:随机抽取的样本数;k:错分样本数。2)先验概率已知选择性抽样分别从1类和2类中抽取出

35、N1和N2个样本, NPN)(11NPN)(22用N1+N2 = N个样本对设计好的分类器作分类检验。 设1类被错分的个数为k1,2类错分的个数为k2。k1、k2统计独立,联合概率为 )()(),(2121kPkPkkP21)1 (ikNikikNiiiiiC式中,i是i类的真实错误率。iiiiNkP21)(总错误率的最大似然估计为2未设计好分类器时错误率的估计未设计好分类器时错误率的估计要求:用收集到的有限的N个样本设计分类器并估计其性能。 错误率的函数形式:(1, 2)。1:用于设计分类器的样本的分布参数;2:用于检验分类器性能的样本的分布参数。设是全部训练样本分布的真实参数集;为全部样本

36、中N个样本分布的参数估计量。N),(),(NNE),(),(NE有将有限样本划分为设计样本集和检验样本集的两种基本方法: 1)样本划分法 将样本分成两组,其中一组用来设计分类器,另一组用来检验分类器,求其错误率。取不同划分方法的平均值作为错误率的估计。 缺点:需要的样本数N很大。 2)留一法 将N个样本每次留下其中的一个,用其余的(N-1)个设计分类器,用留下的那个样本进行检验,检验完后重新放回样本集。 重复进行N次。注意,每次留下的一个样本应当是不同的样本。 适用于样本数较小的情况。缺点:计算量大。2.4 聂曼聂曼-皮尔逊皮尔逊(Neyman-Person)决策决策适用于P(i)或P(i)和

37、Lij(X)难以确定时。基本思想:限制一个错误概率,追求另一个最小(二类问题)。在两类问题贝叶斯决策的错误率公式中: 1 基本思想基本思想)()()()()(2211ePPePPeP211)|()(RdpePXX122)|()(RdpePXX式中, 先验概率通常为常数,故一般也称P1(e)和P2(e)为两类错误率:P1(e):1类模式被误判为2类的错误率;P2(e):2类模式被误判为1类的错误率。 聂曼-皮尔逊决策出发点:在P2(e)等于常数的条件下,使P1(e)为最小,以此确定阈值t。一维情况聂曼-皮尔逊决策示意 例:在“信号检测”中,P2(e)代表虚警概率;P1(e)代表漏报概率=1-PD

38、(检测概率) 此时聂曼-皮尔逊决策含义:在虚警概率P2(e)是一个可以承受的常数值的条件下,使漏报概率为最小。求解问题: 在P2(e)等于常数的条件下,求P1(e)极小值的条件极值问题。P2(e)的值一般很小。 2. 判别式推导判别式推导式中:待定常数; P2(e)常数。1211)|()|(1RRdpdpXXXX112)|()|(1RdppXXX求P1(e)最小,即是求Q最小。 ePePQ21构造辅助函数)|()|(12XXpp要使Q最小,积分项至少应为负值,即在R1区域内,至少应保证1221)|()|(RRdpdpQXXXX(2-57)211)|()(RdpePXX122)|()(RdpeP

39、XX)|()|(12XXpp2221)|(1)|(RRdpdpQXXXX221)|()|(RdppXXX同理由式(2-57) 有:在R2区域内至少应保证)|()|(21XXpp121)|()|(XXXpp即 (2-58)221)|()|(XXXpp即 (2-59)得决策规则:)|()|(21XXpp21X若,则1221)|()|(RRdpdpQXXXX(4-57))|()|(21XXpp21X若,则)|()|(21XXpp当时, X为 的函数,可以求出 , tX即为两类模式的判别界面。 tX 由于 和 是已知的,所以聂曼-皮尔逊决策最终归结为寻找似然比阈值 。1|Xp2|Xp求解值从常数P2(

40、e) 入手,这时由 有 122)|(RdpePXX tdpePXX)|(22即 是P2(e)的函数,通过查标准正态分布表可以求得 的值。 表中末行系函数值: (30)(31)(39) 纵向值:的整数部分和小数点后第一位。 横向值:的小数点后第二位。 表中为 0时,()的值。1标准正态分布表标准正态分布表复习复习 dxx dxx2. 正态分布的概率计算正态分布的概率计算 左边阴影部分的面积表示为概率。即分布函数 在任一区间 内取值的概率:),(21 dxxP2121)()(12 当 时, ;0)(1)( 1dxx例 利用标准正态分布表,求标准正态分布在下面区间内取值 的概率。(1) (0.5,1

41、.5); (2) (1.96,1.96); (3) (3,3)5 . 0(1 )5 . 1 (6274. 06915. 01 9332. 09500. 019750. 021)3(2 9974. 019987. 02)5 .15 .0(xP)5 . 0()5 . 1 (解:(1)96.196.1(xP)96. 1 (1 )96. 1 (2)33(xP)3(1 )3(3)例2.4 一两类问题,模式分布为二维正态,其分布参数 协方差矩阵为C1=C2=I,设P2(e)=0.046,求聂曼-皮尔逊决策规则的似然比阈值和判别界面。T10 , 1MT20,1MiiiinipMXCMXCX1T21221ex

42、p21)|(i=1,2解:(1) 求类概率密度函数 正态分布的类概率密度函数为110012121iCIC1001100111 -i 2exp21)|(1T11MXMXXp21exp212221xx 2exp21)|(2T22MXMXXp21exp212221xx已知 , ,又计算得:T10 , 1MT20,1M(2) 求似然比 1121121212exp12211221exp)|()|(xxxxxppXX 2exp21)|(1T11MXMXXp21exp212221xx 2exp21)|(2T22MXMXXp21exp212221xx12expx21X若,则(3) 求判别式决策规则: 两边取自

43、然对数,有 12xln得判别式 1xln2121X 若,则(2-62) (4) 求似然比阈值由 与 的关系有 eP2 122)|(RdpePXX122221122) 1(exp21dxdxxxxx 分离积分,向正态分布表的标准形式 )0(2122dxex变换,有 2221ln212122exp2121exp21dxxdxxeP令 有:yx11dyyeP1ln21222exp21)(查正态分布数值表,要求P2(e)=0.046。 01ln21 在表上查 。 954. 0046. 01当 时, 。0)(1)(对应=?对应=1.69,即69. 169. 11ln21有98. 338. 1e计算得由(

44、2-62)式得判别界面:69. 0ln211x98. 338. 1e1xln2121X 若,则(2-62) 图2.12 聂曼-皮尔逊决策结果总结分析:研究算法的三种思路 使风险(错误引起的损失)最小: 最小平均风险Bayes决策 (0-1)损失最小风险Bayes决策 使总错误率最小:最小错误率Bayes决策 限制一个错误概率,追求另一个最小: Neyman-Person决策2.5 概率密度函数的参数估计概率密度函数的参数估计2.5.1 最大似然估计最大似然估计两类估计方法: 概率密度函数的形式未知,直接估计概率密度函数的方法。 已知概率密度函数的形式而函数的有关参数未知,通过估计参数来估计概率

45、密度函数的方法。* 参数估计法:* 非参数估计法:两种主要参数估计法:最大似然估计、贝叶斯估计。 设:i类的类概率密度函数具有某种确定的函数形式;是该函数的一个未知参数或参数集。最大似然估计把当作确定的未知量进行估计。 从i类中独立地抽取N个样本:,21NNXXXX1. 似然函数似然函数称这N个样本的联合概率密度函数 为相对于样本集X N 的的似然函数。 )|(NXpNkkNNppXp121)|()|,()|(XXXX在参数 下观测到的样本集X N 的概率(联合分布)密度2. 最大似然估计最大似然估计 根据已经抽取的N个样本估计这组样本“最可能”来自哪个密度函数。(“最似”哪个密度函数)也即:

46、要找到一个,它能使似然函数 极大化 。)|(NXp由 求得。0)|(dXdpN为一维时的最大似然估计示意图的最大似然估计量 就是使似然函数达到最大的估计量。为便于分析,定义似然函数的对数为 )|(ln)(NXpH的最大似然估计是下面微分方程的解:0)(ddH 设i类的概率密度函数有p个未知参数,记为p维向量 T21,pNkkNXpXpH1)|(ln)|(ln)(0)|(ln1NkkXp此时0)|(ln0)|(ln0)|(ln11211NkkpNkkNkkXpXpXp解以上微分方程即可得到的最大似然估计值。 3. 正态分布情况举例正态分布情况举例 2,|NpiX设i类:正态分布、一维模式、概率密

47、度函数为待估计参数为,2。(4-69)其中, , , 。T21,122若X N表示从i中独立抽取的N个样本,则的似然函数为NkkNpXp1)|()|(X2222)2ln(21)|(lnkkpXX222exp21)|(kkpXX其中,NkkNkkNkkNkkpp122212121211102)(21)|(ln0)|(lnXXXX得2,|NpXip|X可表示为。由以上方程组解得均值和方差的估计量为NkkN111XNkkN1222) (1X类似地,多维正态分布情况: NkkiN11XMNkikikiN1T)(1MXMXC均值向量的最大似然估计是样本的均值;最大似然估计结果: 协方差矩阵的最大似然估计

48、是N个矩阵的算术平均。2.5.2 贝叶斯估计与贝叶斯学习贝叶斯估计与贝叶斯学习贝叶斯估计和贝叶斯学习将未知参数看作随机参数进行考虑。 1贝叶斯估计和贝叶斯学习的概念贝叶斯估计和贝叶斯学习的概念1)贝叶斯估计步骤: 2)贝叶斯学习迭代计算式的推导: dpXppXpXpNNN)()|()()|()|((2-72) |)|(XXppi(2-71) 式中)|()|()|(1NNNXppXpX除样本XN以外其余样本的集合 dpXppXpXpNNN)()|()()|()|((2-72) (2-73) 将(2-73)式代入(2-72)式得 dpXpppXppXpNNNNN)()|()|()()|()|()|

49、(11XX类似地, dpXppXpXpNNN)()|()()|()|(111(2-74) (2-75) 将(2-75)式代入(2-74)式得dXppXppXpNNNNN)|()|()|()|()|(11XX(2-76) 参数估计的递推贝叶斯方法,迭代过程即是贝叶斯学习的过程迭代式的使用: dXppXppXpNNNNN)|()|()|()|()|(11XXdpppppXp)()|()()|()|()|(1111XXX* 给出X2,对用X1估计的结果进行修改。dXppXpppXp)|()|()|()|(),|()|(1212212XXXXdXppXppXpNNNNN)|()|()|()|()|(1

50、1XXdXppdXpXpNNN)|()|()|,(|XXX2正态分布密度函数的贝叶斯估计和贝叶斯学习正态分布密度函数的贝叶斯估计和贝叶斯学习1)贝叶斯估计 200,Np* 逐次给出X3,X4,XN,得到 dpxppxpxpNNN)()|()()|()|(式中, NkkNxpxp1)|()|()()|()|(1pxpxpNkkN(2-79) 有2,|Nxp 200,Np由于 有 )()|()|(1pxpxpNkkN202001222exp212exp21NkkxNkkx120202221exp 20012220212121expNkkxN221exp21)|(NNNNxp0220222020Nm

51、NNNN2202202NN式中,NkkNxNm11NNNNNddxp221exp21)|(0220222020NmNNNNkkNxNmNN1111 与最大似然估计形式类似221exp21)|(NNNNxp0220222020NmNNNN2202202NN式中,同前2)贝叶斯学习图2.14 均值的贝叶斯学习过程示意图dxpxpxxpNN)|()|(|dxNNN22222exp212exp21222222exp21NNNx可见:多维正态分布: ,C已知,M未知。CMX,|Npi00,CMMNp则利用贝叶斯估计得到的M的后验概率密度函数为NNNNpCMXM,|其中, 010100)1(1)1(MCCCMCCCMNNNN010)1(1CCCCCNNNkNkN11XM根据贝叶斯学习得到的类概率密度函数为MXMMXXXdpppNN)|()|(|2.6 概率密度函数的非参数估计概率密度函数的非参数估

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论