第2章 贝叶斯决策论 - 中山大学_第1页
第2章 贝叶斯决策论 - 中山大学_第2页
第2章 贝叶斯决策论 - 中山大学_第3页
第2章 贝叶斯决策论 - 中山大学_第4页
第2章 贝叶斯决策论 - 中山大学_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Bayesian Decision Theory2要点:要点: 引言引言 贝叶斯决策论贝叶斯决策论( (连续性特征连续性特征) ) 最小误差率分类最小误差率分类 分类器与判别函数分类器与判别函数 正态密度正态密度 正态分布的判别函数正态分布的判别函数 贝叶斯决策论贝叶斯决策论( (离散性特征离散性特征) ) 本章小结本章小结3n实例实例: :鲑鱼与鲈鱼鲑鱼与鲈鱼n状态变量及概率状态变量及概率n状态变量可被看作是随机变量状态变量可被看作是随机变量n抓到鲑鱼与鲈鱼的事件是随机抓到鲑鱼与鲈鱼的事件是随机的的 ( (均匀先验均匀先验) ) ( (封闭性封闭性) ) 2.1 引引 言言)()(21wPw

2、P1)()(21wPwP1)()(21wPwP4仅根据先验信息的判定准则仅根据先验信息的判定准则 若若 , ,则事件则事件w1w1成立成立; ; 反之反之, ,则则w2w2成立。成立。利用类条件概率密度利用类条件概率密度: : 及及 描述了两种鱼类外观上亮度的差异描述了两种鱼类外观上亮度的差异。 )()(21wPwP)|(1wxP)|(2wxP5 注注 : 假定的类条件概率密度函数图假定的类条件概率密度函数图,显示了模式处于类别显示了模式处于类别w1时观察某时观察某个特定特征值个特定特征值 x 的概率密度的概率密度.如果如果 x 代表了鱼的长度代表了鱼的长度,那么这两条曲线可那么这两条曲线可描

3、述两种鱼的长度区别描述两种鱼的长度区别.概率函数已归一化概率函数已归一化,因此每条曲线下的面积为因此每条曲线下的面积为16 后验后验, ,似然似然, ,证据因子及贝叶斯公式证据因子及贝叶斯公式 介绍一些基本概念介绍一些基本概念P(w1 后验后验 = = 似然似然 x x 先验先验 / / 证据因子证据因子)(/ )()|()|(xPwPwxPxwPjjj73/1)(, 3/2)(21wPwP在先验概率在先验概率 及图及图2-1给出的后验概率图给出的后验概率图.此情况下此情况下,假定一假定一个模式具有特征值个模式具有特征值 , 那么它属于那么它属于w2类的概率约为类的概率约为0.08,属于属于W

4、1的概率的概率约为约为0.92.在每个在每个x 处的后验概率之和为处的后验概率之和为1.014x8 基于后验概率的决策准则基于后验概率的决策准则 (x 表示观察值表示观察值) 若若 类别判定类别判定w1 若若 类别判定类别判定w2 决策后所导致的错误率决策后所导致的错误率 若判定若判定w2 若判定若判定w1)|()|(21xwPxwP)|()|(21xwPxwP)|()|(2xwPxerrorP)|()|(1xwPxerrorP9 最小错误率最小错误率 为为了追求最小的错误率,采取如下判定准则:了追求最小的错误率,采取如下判定准则: 若若 , ,则判定类别为则判定类别为w1;w1; 反之,判为

5、反之,判为w2w2。 可以证明可以证明, ,依从这样的准则可以获得最小错误率:依从这样的准则可以获得最小错误率: 我们称该准则为我们称该准则为“贝叶斯决策准则贝叶斯决策准则”。)|()|(21xwPxwP)|(),|(min)|(21xwPxwPxerrorP10 2.2 贝叶斯决策论贝叶斯决策论-连续性特连续性特征征1. 允许利用多于一个的特征允许利用多于一个的特征2. 允许多于两种类别状态的情形允许多于两种类别状态的情形3. 允许有其它行为而不仅是判定类别。允许有其它行为而不仅是判定类别。4. 引入损失函数,比错误率更具一般性。引入损失函数,比错误率更具一般性。 概概 述述11令令 1,

6、2, c表示一系列类别状态。表示一系列类别状态。令令 1, 2, a表示一系列可能采取的行动(或决策)。表示一系列可能采取的行动(或决策)。令令 ( i | j)表示当实际状态为表示当实际状态为 i 时时,采取采取 i 的行为会带来的风的行为会带来的风险。险。那么,与行动那么,与行动 i 相关联的损失相关联的损失R( i | x)=因此,总风险可表示为:对因此,总风险可表示为:对R ( i | x) .P (x)的求和。的求和。 考察损失函数对判定准则的影响考察损失函数对判定准则的影响)|()|(xPjjidxxpxxRR)()| )(12上述的贝叶斯决策规则:上述的贝叶斯决策规则:为了最小化

7、总风险,对所有为了最小化总风险,对所有 计算计算条件风险条件风险ai, 21)|()|()|(1xPxRjcjjii选择行为选择行为 i ,使得,使得R( i| x)最小化。最小化后的总最小化。最小化后的总风险值称为风险值称为贝叶斯风险贝叶斯风险,记为,记为 它是可获得的它是可获得的最优结果。最优结果。*R13 两类分类问题两类分类问题行为行为 1对应类别判决对应类别判决 1, 2则对应则对应 2 。为了简化符号,令。为了简化符号,令)|(,jiji那么可得两种行为的损失函数那么可得两种行为的损失函数)|()|()|()|()|()|(22, 211 , 2222, 111 , 11xPxPx

8、RxPxPxR14 决策决策 按照贝叶斯决策规则,为了使得条件风险最小按照贝叶斯决策规则,为了使得条件风险最小, 如果则判为如果则判为 相反,则判为相反,则判为)|()|(21xRxR12 结合贝叶斯公式,用先验概率与条件密度来表示结合贝叶斯公式,用先验概率与条件密度来表示 后验概率,等价规则为后验概率,等价规则为 如果如果 则判为则判为 否则,判决为否则,判决为)()|()()()|()(222, 22, 1111 , 11 , 2PxPPxP1215左图说明,如果左图说明,如果引入一个引入一个0-1损失损失或分类损失,那么或分类损失,那么判别边界将由阈值判别边界将由阈值 决定;而如果决定;

9、而如果损失函数对模式损失函数对模式 判判为为 的惩罚大于反的惩罚大于反过来情况,将得到过来情况,将得到较大的阈值较大的阈值 使得使得R1变小变小ba21b216 当损失函数简化到所谓的当损失函数简化到所谓的“对称损失对称损失”或或“0-1损失损失” 函数函数10)|(jijijicji, 2 , 1, 这个损失函数将这个损失函数将0损失赋给一个正确的判决,而将一损失赋给一个正确的判决,而将一 个单位损失赋给任何一种错误判决,因此所有误判都是个单位损失赋给任何一种错误判决,因此所有误判都是 等价的。与这个损失函数对应的风险就是等价的。与这个损失函数对应的风险就是平均误差概率平均误差概率。 2.3

10、 2.3 最小误差率分类最小误差率分类17 极小极大化准则(选讲)极小极大化准则(选讲) 有时我们需要设计在整个先验概率范围内都能很好操作的有时我们需要设计在整个先验概率范围内都能很好操作的 分类器。一种合理的设计方法就是分类器。一种合理的设计方法就是使先验概率取任何一种使先验概率取任何一种 值时所引起的总风险的最坏情况尽可能小,也就是说最小值时所引起的总风险的最坏情况尽可能小,也就是说最小 化最大可能的风险。化最大可能的风险。 我们以我们以R1表示分类器判为表示分类器判为 1时的特征空间的区域,同样的时的特征空间的区域,同样的 有有R2和和 2,总风险的形式可表示为总风险的形式可表示为 22

11、22, 2111 , 21222, 1111 , 1)|()()|()()|()()|()(RRdxxpPxpPdxxpPxpPR18结合公式结合公式 与与)(1)(12PPdxxpdxxpRR)|(1)|(1211122, 22, 1211 , 11 , 22, 21 , 11112, 21 , 12, 21)|()()|()()()()|()()(RRRdxxpdxxpPdxxpPR可以得到可以得到等式表明一旦判别边界确定后,总风险与等式表明一旦判别边界确定后,总风险与 成成线形关系。如果能找到一个边界使比例为线形关系。如果能找到一个边界使比例为0,那么风险,那么风险将与先验概率独立。这就

12、是将与先验概率独立。这就是极小极大化求解。极小极大化求解。)(1PdxxpRRmm)|()(122, 22, 12, 2风险风险19 2.4 分类器与判别函数分类器与判别函数 多类情况多类情况有许多方式来表述模式分类器,用的最多的是一种有许多方式来表述模式分类器,用的最多的是一种判别函数判别函数 若对于所有的若对于所有的 都有都有)(xgiij )()(xgxgji则分类器将这个特征向量则分类器将这个特征向量x判给判给i20上图为包含上图为包含d个输入个输入c个判别函数的系统。确定哪个判别函数值个判别函数的系统。确定哪个判别函数值最大,并相应地对输入作分类。最大,并相应地对输入作分类。21 不

13、同情况下的分类器的表示方式不同情况下的分类器的表示方式 一般风险的情况下为一般风险的情况下为)|()(xRxgii)|()(xPxgii 最小误差概率情况下最小误差概率情况下 其它一些较常见的形式其它一些较常见的形式jjjiiiiPxpPxpxPxg)()|()()|()|()()()|()(iiiPxpxg)(ln)|(ln)(iiiPxpxg22 尽管判别函数可写成各种不同的形式,但是判决规则是相同的。尽管判别函数可写成各种不同的形式,但是判决规则是相同的。 每种判决规则都是将特征空间划分每种判决规则都是将特征空间划分c个判决区域,个判决区域, 如果对于所有的如果对于所有的 有有 那么那么

14、x属于属于 要求我要求我 们将们将x分给分给 。此区域由判决边界来分割,其判决边界即判决。此区域由判决边界来分割,其判决边界即判决 空间中使判决函数值最大的曲面。如图空间中使判决函数值最大的曲面。如图cRR,1ij )()(xgxgjiiRi23在这个二维的两类问题的分类器中,概率密度为高斯分布。判别边界由两个在这个二维的两类问题的分类器中,概率密度为高斯分布。判别边界由两个双曲面构成,因此判决区域双曲面构成,因此判决区域R2并非是简单连通的。椭圆轮廓线标记出并非是简单连通的。椭圆轮廓线标记出1/e乘乘以概率密度的峰值。以概率密度的峰值。24 2.5 正态密度正态密度 单变量密度函数单变量密度

15、函数单变量正态分布单变量正态分布2)(2/1exp21)(xxpdxxxpxE)()(dxxpxxE)()()(222容易计算其期望值与方差容易计算其期望值与方差252|x单变量正态分布大约有单变量正态分布大约有95%的区域在的区域在 范围内,如图范围内,如图此分布的峰值为此分布的峰值为2/1)(p26 正态分布与熵之间的关系正态分布与熵之间的关系熵的定义熵的定义dxxpxpxpH)(ln)()(2log单位为奈特,若换为单位为奈特,若换为 ,单位为比特。熵是一个非负的量单位为比特。熵是一个非负的量用来描述一种分布中随机选取的样本点的不确定性。可以用来描述一种分布中随机选取的样本点的不确定性。

16、可以证明正态分布在所有具有给定均值和方差的分布中具有最大证明正态分布在所有具有给定均值和方差的分布中具有最大熵。并且,如中心极限定理所述,大量的小的,独立的随机熵。并且,如中心极限定理所述,大量的小的,独立的随机分布的总和等效为高斯分布。分布的总和等效为高斯分布。27 多元密度函数多元密度函数多元正态密度多元正态密度)()(2/1(exp)2(1)(12/12/xxxptd其中其中x是一个是一个d维列向量,维列向量, 是是d维均值向量,维均值向量, 是是 的协方差矩阵,的协方差矩阵, 和和 分别是其行列式的值和逆。分别是其行列式的值和逆。1dd 28 协方差矩阵协方差矩阵 通常是对称的且半正定

17、。我们将严格限定通常是对称的且半正定。我们将严格限定 是正定的。对角线元素是正定的。对角线元素 是相应的是相应的 方差且非对角线元素方差且非对角线元素 是是 和和 的协方差。如果的协方差。如果 和和 统计独立,则统计独立,则 。如果所有的非。如果所有的非对对 角线元素为角线元素为0,那么,那么p( x)变成了变成了x中各元素的单变量正态密度函数中各元素的单变量正态密度函数的的 内积。内积。ijiiix0iiixixjxjx 服从正态分布的随机变量的线形组合,不管这些随机变量是独立服从正态分布的随机变量的线形组合,不管这些随机变量是独立 还是非独立的,也是一个正态分布还是非独立的,也是一个正态分

18、布。(这是个非常有用的结论)这是个非常有用的结论)29 2.6 正态分布的判别函数正态分布的判别函数)(lnln212ln2)()(21)(1iiiitiiPdxxxg)(ln)|(ln)(iiiPxpxg最小误差概率分类可通过判别函数获得最小误差概率分类可通过判别函数获得如果已知如果已知),()|(iiiNxp那么那么30情况情况1:Ii22i这种情况发生在各特征统计独立,且每个特征具有相同的这种情况发生在各特征统计独立,且每个特征具有相同的 方差时。此时的协方差阵是对角阵,仅仅是方差时。此时的协方差阵是对角阵,仅仅是 与单位阵与单位阵I 的乘积。几何上它与样本落于相等大小的超球体聚类中的的

19、乘积。几何上它与样本落于相等大小的超球体聚类中的 情况相对应,第情况相对应,第i类的聚类以均值向量类的聚类以均值向量 为中心。为中心。 省略掉其它无关紧要的附加常量,可得到简单的判决函数省略掉其它无关紧要的附加常量,可得到简单的判决函数2)(ln2)(22iiiPxxg31展开后我们得到展开后我们得到省略附加常量,等价于线性判决函数省略附加常量,等价于线性判决函数其中其中且且称称 为第为第 i个方向的阈值或者偏置。个方向的阈值或者偏置。0)(itiiwxwxg)(ln22/1)(iitititiPxxxgiiiw21)(ln2120itiiPw0iw32 使用线性判别函数的分类器称为使用线性判

20、别函数的分类器称为“线性机器线性机器”。这类分类器有许多有。这类分类器有许多有趣的趣的 理论性质,其中一些将在第理论性质,其中一些将在第5章中详细讨论。此处只需注意到一个线章中详细讨论。此处只需注意到一个线性机器的判定面是一些超平面,它们是由两类问题中可获得最大后验概性机器的判定面是一些超平面,它们是由两类问题中可获得最大后验概率的率的 线性方程线性方程 来确定。来确定。 在以上的例子中,该方程可写为在以上的例子中,该方程可写为其中其中且且此方程定义了一个通过此方程定义了一个通过 x0 且与向量且与向量 w 正交的超平面。由于正交的超平面。由于 ,将将 Ri 与与 Rj 分开的超平面与两中心点

21、的连线垂直。若分开的超平面与两中心点的连线垂直。若 则上式则上式右边第二项为零,因此超平面垂直平分两中心点的连线。如图右边第二项为零,因此超平面垂直平分两中心点的连线。如图)()(xgxgji0)(0 xxwtjiw)()()(ln)(21220jijijijiPPx)()(jiPPjiw33如果两种分布的协方差矩阵相等且与单位阵成比例,那么它们呈如果两种分布的协方差矩阵相等且与单位阵成比例,那么它们呈d维球状分布,维球状分布,其判决边界是一个其判决边界是一个d-1维归一化超平面,垂直于两个中心的连线。在这些一维,维归一化超平面,垂直于两个中心的连线。在这些一维,二维及三维的例子中,是假设在二

22、维及三维的例子中,是假设在 的情况下来显示的情况下来显示 和判决和判决边界的。边界的。)()(jiPP)|(ixp34 如果所有如果所有c类的先验概率类的先验概率 相等,那么相等,那么 项就成了另一可省略项就成了另一可省略 的附加常量。此种情况下,最优判决规则可简单陈述如下:的附加常量。此种情况下,最优判决规则可简单陈述如下: 为将某特征向量为将某特征向量 x 归类,通过测量每一个归类,通过测量每一个 x 到到 c 个均值向量中的个均值向量中的 每一个欧氏距离,并将每一个欧氏距离,并将 x 归为离它最近的那一类中。这样一个分类归为离它最近的那一类中。这样一个分类 器被称为器被称为 “最小距离分

23、类器最小距离分类器”。如果每个均值向量被看成是其所属模。如果每个均值向量被看成是其所属模 式类的一个理想原型或模板,那么本质上是一个式类的一个理想原型或模板,那么本质上是一个模板匹配技术模板匹配技术。)(iP)(lniP35如图:随着先验概率的改变,判决边界也随之改变;对于差别较大的离如图:随着先验概率的改变,判决边界也随之改变;对于差别较大的离散先验概率而言,判决边界不会落于这些一维散先验概率而言,判决边界不会落于这些一维, 二维二维 及三维球状高斯及三维球状高斯分步的中心点之间。分步的中心点之间。36情况情况2 : 第二类简单的情况是所有类的协方差阵都相等,但各自的均值向量第二类简单的情况

24、是所有类的协方差阵都相等,但各自的均值向量 是任意的。几何上,这种情况对应于样本落在相同大小和相同形状是任意的。几何上,这种情况对应于样本落在相同大小和相同形状 的超椭球体聚类中,第的超椭球体聚类中,第 i类的聚类中心在向量类的聚类中心在向量 附近。此时的判决附近。此时的判决 函数可简化为函数可简化为)(ln)()(21)(1ijtiiPxxxgii 将二次型展开后,可再次得到线性判决函数将二次型展开后,可再次得到线性判决函数0)(itiiwxwxg其中其中iiw137由于判决函数是线性的,判决边界同样是超平面由于判决函数是线性的,判决边界同样是超平面0)(0 xxwt)(1jiw)()()(

25、)(/ )(ln)(2110jijitjijijiPPx其中其中且且如果先验概率相等,其判决面与均值连线相交于如果先验概率相等,其判决面与均值连线相交于x0点;若不点;若不等,最优边界超平面将远离可能性较大的均值。如图等,最优边界超平面将远离可能性较大的均值。如图38相等但非对称的高斯分相等但非对称的高斯分布概率密度(由二维平布概率密度(由二维平面和三维椭球面表示)面和三维椭球面表示)及判决区域。判决超平及判决区域。判决超平面未必和均值连线垂直面未必和均值连线垂直正交。正交。39情况情况3 :任意i0)(itiitiwxwxWxxg121iiWiiiw1在一般的多元正态分布的情况下,每一类的协方差是不同,其在一般的多元正态分布的情况下,每一类的协方差是不同,其判决函数显然也是二次型判决函数显然也是二次型其中其中在两类问题中,其对应的判决面是超二次曲面。在两类问题中,其对应的判决面是超二次曲面。40任意高斯分布导致一般超二次曲面的贝叶斯判决边界。反之,任意高斯分布导

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论