版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2010.3,第二章 贝叶斯决策理论,模 式 识 别,Pattern Recognition,第二章 贝叶斯决策理论,2.1 引言,1,2,3,2.2 基于最小错误率的Bayes决策,2.3 基于最小风险的Bayes决策,2.4 正态分布的最小错误率Bayes决策,2.5 Neuman-Pearson 决策,4,5,2.6 最小最大决策,6,数据获取,预处理,特征提取与选择,分类决策,分类器设计,2.1 引言,统计决策理论根据每一类总体的概率分布决定决策边界。 Bayes决策理论是统计决策理论的基本方法 每一类出现的先验概率 类条件概率密度,2.1 引言,例:医生要根据病人血液中白细胞的浓度来
2、判断病人 是否患血液病。(两类的识别问题。) 根据医学知识和以往的经验医生知道: 患病的人,白细胞的浓度服从均值2000,方差1000的正态分布;未患病的人,白细胞的浓度服从均值7000,方差3000的正态分布; 一般人群中,患病的人数比例为0.5%。 一个人的白细胞浓度是3100,医生应该做出怎样的判断?,2.1 引言,医生掌握的知识非常充分,他知道 类别的先验分布: 先验分布:没有获得观测数据(病人白细胞浓度)之前类别的分布。,2.1 引言,数学表示:用 表示“类别”这一随机变量, 表示患病, 表示不患病;X 表示“白细胞浓度”这个随机变量,x 表示浓度值。,医生掌握的知识非常充分,他知道
3、 观测数据白细胞浓度分别在两种情况下的类条件分布:,2.1 引言,类条件概率密度函数,评价决策有多种标准,对于同一个问题,采用不同的标准会得到不同意义下“最优”的决策。 Bayes 决策是所有识别方法的一个基准。 Bayes 决策常用的准则: 最小错误率; 最小风险; 在限定一类错误率条件下使另一类错误率为最小的准则(N-P准则); 最小最大决策准则。,2.1 引言,以两类分类问题为例:已知先验分布P(i)和观测值的类条件分布 p(x|i),i=1,2问题:对某个样本 x,x1 or x2?,以后验概率为判决函数: 决策规则:,2.2 Bayes最小错误率决策,若 P (1 / x) P (2
4、 / x) 则判 x 1,若 P (2 / x) P (1 / x) 则判 x 2,后验概率 P(i| x)的计算,Bayes公式:假设已知先验概率P(i)和观测值的类条件分布 p(x|i),i=1,2,两类细胞识别问题:正常(1)和异常(2) 根据已有知识和经验,两类的先验概率为: 正常(1): P(1)=0.9 异常(2): P(2)=0.1 对某一样本观察值x,通过计算或查表得到: p(x|1)=0.2, p(x|2)=0.4 如何对细胞x进行分类?,后验概率 P(i| x)的计算,利用贝叶斯公式计算两类的后验概率:,决策结果,后验概率 P(i| x)的计算,p(1|x),p(2|x),
5、类条件概率密度函数,后验概率,2.2 Bayes最小错误率决策,等价的判别规则, h(x) = - ln l ( x ) = -ln P (x/ 1) + ln P (x/ 2),最小错误率决策,2.2 Bayes最小错误率决策,决策域: 对于m类分类问题,按照判别规则可以把特征向量空间(或称模式空间)分成m个互不相交的区域Ri ,i=1,2,m 决策边界: 划分决策域的边界,在数学上用解析形式可以表示成决策边界方程。 判别函数: 用于表达决策规则的某些函数。判别函数与决策边界方程是密切相关的,而且它们都由相应的判别规则所确定。,若 k = argmax g i (x), i = 1,2,m
6、,则 x k,称g i (x) 为第 i 类的判别函数.,对每一类别, 定义一个函数g i(x) i = 1,2,m, 且满足,下述g i(x)均为最小错误率判别规则判别函数.,不同的判别方法有不同的判别函数。确定了判别函数,决策边界也就确定下来了,相邻的两个决策域在决策边界上其判别函数值是相等的。 如果决策域 R i与 Rj 是相邻的,则分割这两个决策域的决策边界方程应满足:,一般地说, 模式 x 为,二维时,决策边界为一曲线;,三维时,决策边界为一曲面;,d维(d3)时,决策边界为一超曲面。,一维时,决策边界为一分界点;,分类器设计,分类器是某种由硬件或软件组成的“机器”: 计算c个判别函
7、数gi(x) 最大值选择,判别函数,多类识别问题的Bayes最小错误率决策:gi(x) = P (i |x),决策的错误率,条件错误率:,最小错误率决策,(平均)错误率是条件错误率的数学期望,(平均)错误率:,决策的错误率,最小错误率决策,条件错误率P(e|x)的计算:以两类问题为例,当获得观测值x后,有两种决策可能:判定 x1 ,或者x2。 条件错误率为:,决策的错误率,设t为两类的分界面,则在特征向量x是一维时,t为x轴上的一点。两个决策区域:R1(-,t)和R2(t,+),最小错误率决策,决策的错误率,t,决策的错误率,Bayes最小错误率决策使得每个观测值下的条件错误率最小因而保证了(
8、平均)错误率最小。 Bayes决策是一致最优决策。,最小错误率决策,多类决策过程,决策规则,如果 ,则,错误率,特种空间分割成 个区域,平均错误率 由c(c-1)项组成。,多类决策过程,决策规则,如果 ,则,错误率,特种空间分割成 个区域,平均错误率 由c(c-1)项组成。,此时,可以计算平均正确分类概率 p(c), 则,p(e) =1- p(c),决策的风险: 做决策要考虑决策可能引起的损失。 以医生根据白细胞浓度判断一个人是否患血液病为例: 没病(1)被判为有病(2) ,还可以做进一步检查,损失不大; 有病(2)被判为无病(1) ,损失严重。,2.3 基于最小风险的Bayes决策,损失矩阵
9、,最小风险决策,损失的定义:(N类问题)做出决策 D(x) = ,但实际上 xj,受到的损失定义为:,决策规则:,2.3 基于最小风险的Bayes决策,风险R(期望损失):对x采取一个判决行动所付出的代价。 条件风险(也叫条件期望损失):,基于最小风险的Bayes决策:决策带来的损失的(平均)风险最小。 Bayes最小风险决策通过保证每个观测值下的条件风险最小,使得它的期望风险最小,是一致最优决策。,2.3 基于最小风险的Bayes决策,两类问题最小风险Bayes决策,决策规则为 若 R(1 | x) R(2 | x),则选择 1.,最小风险决策,等价形式为 若 (21-11) p(x| 1)
10、 p(1) (12- 22) p(x|2) p(2) , 则选择 1,Bayes最小风险决策例解,两类细胞识别问题:正常(1)和异常(2) 根据已有知识和经验,两类的先验概率为: 正常(1): P(1)=0.9 异常(2): P(2)=0.1 对某一样本观察值x,通过计算或查表得到: p(x|1)=0.2, p(x|2)=0.4 11=0, 12=6, 21=1, 22=0, 按最小风险决策如何对细胞x进行分类?,最小风险决策,Bayes最小风险决策例解(2),后验概率: P(1|x) =0.818, P(2|x) =0.182,决策结果,最小风险决策,两类判别法的联系,基于最小错误率的Bay
11、es决策可作为最小风险Bayes决策的一种特殊情形。 只需要定义损失为:,最小风险决策,决策正确时,损失为0决策错误时,损失为1,2.4 正态分布的最小错误率Bayes决策,Bayes决策中,类条件概率密度的选择要求: 模型合理性 计算可行性 常用概率密度模型:正态分布 观测值通常是很多种因素共同作用的结果,根据中心极限定理,服从正态分布。 计算、分析最为简单的模型。,一元正态分布,正态分布Bayes决策,一元正态分布及其两个重要参数: 均值(中心) 方差(分散度),多元正态分布,观测向量:实际应用中,可以同时观测多个值,用向量表示。多元正态分布:,正态分布Bayes决策,多元正态分布的性质,
12、参数和完全决定分布 不相关性等价于独立性 边缘分布和条件分布的正态性 线性变换的正态性:线性变换的正态性Y=AX,A为线性变换矩阵。若X为正态分布,则Y也是正态分布。 线性组合的正态性,正态分布Bayes决策,观测向量的类条件分布服从正态分布: 判别函数的计算:,判别函数中与类别i无关的项,对于类别的决策没有影响,可以忽略。,2.4 正态分布的最小错误率Bayes决策,2.5 正态分布的最小错误率Bayes决策,决策面,最小距离分类器与线性分类器,判别函数的简化计算:,正态分布Bayes决策,最小距离分类器,线性分类器,第一种特例:,协方差相等且具有相同的方差,最小距离分类器与线性分类器,正态
13、分布Bayes决策,第一种特例:,协方差相等且具有相同的方差,最小距离分类器与线性分类器,第一种特例:,正态分布Bayes决策,协方差相等且具有相同的方差,最小距离分类器与线性分类器,第二种特例:,正态分布Bayes决策,协方差阵相等,最小距离分类器与线性分类器,第二种特例:,判别函数的简化计算:,正态分布Bayes决策,Mahalanobis距离,线性分类器,协方差阵相等,正态模型的Bayes决策面,两类问题正态模型的决策面: 决策面方程:g1(x)=g2(x) 两类的协方差矩阵相等,决策面是超平面。 两类的协方差矩阵不等,决策面是超二次曲面。,正态分布Bayes决策,正态分布下的几种决策面
14、的形式,正态分布Bayes决策,正态分布的Bayes决策例解,两类的识别问题:医生要根据病人血液中白细胞的浓度来判断病人是否患血液病。 根据医学知识和以往的经验,医生知道: 患病的人,白细胞的浓度服从均值2000,方差1000的正态分布;未患病的人,白细胞的浓度服从均值7000,方差3000的正态分布; 一般人群中,患病的人数比例为0.5%。 一个人的白细胞浓度是3100,医生应该做出怎样的判断?,正态分布Bayes决策,数学表示:用表示“类别”这一随机变量,1表示患病, 2表示不患病;x表示“白细胞浓度”这个随机变量。 例子中,医生掌握的知识非常充分,他知道: 1) 类别的先验分布:P(1)
15、 = 0.5%P(2) = 99.5%先验分布:没有获得观测数据(病人白细胞浓度)之前类别的分布,正态分布Bayes决策,正态分布的Bayes决策例解,2) 观测数据白细胞浓度分别在两种情况下的类条件分布: P(x|1) N(2000,1000) P(x|2) N(7000,3000) P(3100|1) = 2.1785e-4 P(3100|2) = 5.7123e-5 P(1|3100)=1.9% P(2|3100)=98.1% 医生的判断:正常,正态分布Bayes决策,正态分布的Bayes决策例解,1.输入类数M;特征数n,待分样本数m. 2.输入训练样本数N和训练集资料矩阵X(Nn)。
16、并计算有关参数。 3.计算矩阵y中各类的后验概率。 4.若按最小错误率原则分类,则可根据 3 的结果判定y中各类样本的类别。 5.若按最小风险原则分类,则输入各值,并计算y中各样本属于各类时的风险并判定各样本类别。,Bayes分类的算法(假定各类样本服从正态分布),例1、有训练集资料矩阵如下表所示,现已知,N=9、N1=5、N2=4、n=2、M=2,试问,X=(0,0)T应属于哪一类?,解1、假定二类协方差矩阵不等(12) 则均值:,解2、假定两类协方差矩阵相等=1+2,采用最小错误率贝叶斯决策需要知道先验概率. P ( i ) ,但有时P (i ) 难以确定。采用最小风险贝叶斯决策需要确定恰
17、当的损失值,这也并非易事. 在两类问题决策中,有时要求 P2 ( e ) 不得大于某个常数,即取 P2 ( e ) , 是一个很小的常数,在这个条件下再要求 P1( e )尽可能小. 在这种情况下, 奈曼-皮尔逊决策为此提供了一种决策方案.,2.5 Neyman-Pearson 决策,2.5 Neyman-Pearson 决策,这种决策可看成是在 条件下,求 的条件极小值问题. 可采用拉格朗日乘数法求解.,F = P1 ( e ) +(P2 ( e ) -0 ),2.5 Neyman-Pearson 决策,这种决策可看成是在 条件下,求 的条件极小值问题. 可采用拉格朗日乘数法求解.,2.5
18、Neyman-Pearson 决策,这种决策可看成是在 条件下,求 的条件极小值问题. 可采用拉格朗日乘数法求解.,同理,由此得判别规则为,2.5 Neyman-Pearson 决策,这种决策可看成是在 条件下,求 的条件极小值问题. 可采用拉格朗日乘数法求解.,同理,的求法:,利用约束条件,例:两类的模式分布为二维正态 协方差矩阵为单位矩阵1=2=I,设20.09 求 N-P 准则 .,2.5 Neyman-Pearson 决策,解:,2.5 Neyman-Pearson 决策,2.5 Neyman-Pearson 决策,于是得与2的关系表如下:,由已知,可计算得在 2中 x 1 N( 1, 1 ), 进一步可得,2.5 Neyman-Pearson 决策,所以此时N-P分类器的分界线为:,2.6 最小最大决策,从最小错误率和最小风险的贝叶斯决策中可以看出,其决策都是与先验概率P(i)有关的,当先验概率已知时,按照贝叶斯决策规则,可以使错误率或风险最小,如果P(i)是可变的或事先对先验概率毫无所知,就无法用贝叶斯决策. 本节介绍一种最小化最大风险的决策方法,也就是在最差的条件下,争取最好的结果,我
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 04年O公司人工智能语音识别技术研发合同
- 《476例结肠癌临床病理特征及预后比较分析》
- 《融合通信系统中分布式存储引擎的设计与实现》
- 2024城市地铁建设设备采购及安装服务合同
- 2024年快递店业务外包合同
- 2024年度舞台设备安装合同
- 2024年银川客运车资格证考试题库及答案
- 2024年乌鲁木齐道路运输客货从业资格证考试题库
- 2024年绵阳客运从业资格证理论考试题
- 2024年克拉玛依客运上岗证模拟考试题答案
- 车间生产计划完成情况统计表
- 品管圈(QCC)降低ICU护士床头交接班缺陷率课件
- 《左道:中国宗教文化中的神与魔》读书笔记模板
- 2023年初级游泳救生员理论知识考试题库(浓缩400题)
- 施工现场临时用电安全技术规范
- 同仁堂药品目录
- 社会问题概论
- 高中语文-如何读懂古诗词教学设计学情分析教材分析课后反思
- 虚假诉讼刑事控告书(参考范文)
- 部编版道德与法治四年级上册第11课《变废为宝有妙招》优质课件
- 2018年考研英语一真题和答案完整版
评论
0/150
提交评论