版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、武汉大学国际软件学院武汉大学国际软件学院Email: 23信号空间特征空间4模式分类模式分类:根据识别对象的观测值确定其类别:根据识别对象的观测值确定其类别样本与样本空间表示:样本与样本空间表示:12,Tnnx xxRxx12,ic 5统计决策理论映射6评价决策有多种标准,对于同一个问题,采用不同的标准会评价决策有多种标准,对于同一个问题,采用不同的标准会得到不同意义下得到不同意义下“最优最优”的决策。的决策。Bayes决策常用的准则:决策常用的准则:最小错误率最小错误率准则准则最小风险最小风险准则准则在限定一类错误率条件下使另一类错误率为最小的准则在限定一类错误率条件下使另一类错误率为最小的
2、准则最小最大决策准则最小最大决策准则7判别函数判别函数 (discriminant function):相应于每一类定义一个函数,得到一组判别函数:相应于每一类定义一个函数,得到一组判别函数:gi(x), i = 1, 2, , cu决策区域与决策面9( )maxift )hen (jijiggxxxargmax( )iijgx10分类器是某种由硬件或软件组成的分类器是某种由硬件或软件组成的“机器机器”:计算计算c个判别函数个判别函数gi(x)最大值选择最大值选择.x1x2xna(x)11以两类分类问题为例:已知先验分布以两类分类问题为例:已知先验分布P(i)和观测值的类条和观测值的类条件分布
3、件分布p(x|i),i=1,2问题:对某个样本问题:对某个样本x,x 1? x 2?( )(| )iigPxxargmax(| )iijPx12BayesBayes公式公式: 假设已知先验概率假设已知先验概率P(i)和观测值的和观测值的类条件分布类条件分布p(x|i),i=1,2(, )(| )( )() ( |)() ( |)iiiijjjPPpPpPpxxxxx13比较大小不需要计算比较大小不需要计算p(x):argmax(| )( |) ()argmaax( )rgmax( |) ()iiiiiiiiPpPPppxxxx14ln ( | ) ( ) ln ( | ) ln ( )iiii
4、pPpPxx判别函数中与类别i无关的项,对于类别的决策没有影响,可以忽略15两类细胞识别问题:正常两类细胞识别问题:正常(1)和异常和异常(2)根据已有知识和经验,两类的先验概率为:根据已有知识和经验,两类的先验概率为:正常正常(1): P(1)=0.9异常异常(2): P(2)=0.1对某一样本观察值对某一样本观察值x,通过计算或查表得到:,通过计算或查表得到: p(x|1)=0.2, p(x|2)=0.4如何对细胞如何对细胞x进行分类?进行分类?16利用利用贝叶斯公式贝叶斯公式计算两类的计算两类的后验概率后验概率:11121() ( |)0.90.2(| )0.8180.90.20.1 0
5、.4() ( |)jjjPpPPpxxx22221() ( |)0.40.1(| )0.1820.20.90.40.1() ( |)jjjPpPPpxxxargmax(| )1iijPx1x17p(x|1)p(x|2)p(1|x)p(2|x)类条件概率密度函数后验概率18条件错误率条件错误率:( | )P e x( )( ( | )( | ) ( )P eE P eP epdxxxx(平均)错误率是条件错误率的数学期望u(平均)错误率19u条件错误率u条件错误率211122(| ) 1(| )( | )(| ) 1(| )1 max (| )iiPPP ePPP xxxxxxxx若决定若决定2
6、0uBayesBayes最小错误率决策最小错误率决策uBayes决策21设设t为两类的分界面,则在特征向量为两类的分界面,则在特征向量x是一维时,是一维时,t为为x轴上的一点。两个轴上的一点。两个决策决策区域区域:R1(-,t)和和R2(t,+)12122121212122112211( )(,)(,)() (|)() (|)()( |)()( |)()( )()( )RRP eP xRP xRPP xRPP xRPp xdxPp xdxPP ePP e23决策的决策的风险风险:做决策要考虑决策可能引起的做决策要考虑决策可能引起的损失损失。以医生根据白细胞浓度判断一个人是否患血液病以医生根据白
7、细胞浓度判断一个人是否患血液病为例:为例:n没病没病(1 1)被判为有病被判为有病(2 2) ,还可以做进一步检查,还可以做进一步检查,损失不大;损失不大;n有病有病(2 2)被判为无病被判为无病(1 1) ,损失严重。,损失严重。24损失的定义:损失的定义:(N类问题类问题)做出决策做出决策D (x)=i,但实际上,但实际上 x j,受到,受到的损失定义为:的损失定义为:损失矩阵或决策表:,()|) ,1, 2,i jijDijNx,*()i jNN25期望条件风险期望条件风险:获得观测值:获得观测值x后,决策后,决策D(x)造成的损失对造成的损失对x实际所属类别的各种可能的平均,称为条件风
8、险实际所属类别的各种可能的平均,称为条件风险R(D(x)|x)() |)(),)() |)(|)iiiiR DEPDDxxxxx( )( ) |)( ) |)( )R DE R DR Dpdxxxxxxxu期望风险26基于最小风险的基于最小风险的Bayes决策:决策带来的损失的(平均)风决策:决策带来的损失的(平均)风险最小险最小Bayes最小风险决策通过保证每个观测值下的条件风险最小,最小风险决策通过保证每个观测值下的条件风险最小,使得它的期望风险最小,是一致最优决策。使得它的期望风险最小,是一致最优决策。()a rgm in() |)a rgm in(),)(|)DiiDiDRDDPxxx
9、xx决策规则:27根据根据Bayes公式计算后验概率公式计算后验概率P(j|x)根据后验概率及给定的损失矩阵,算出每个决策根据后验概率及给定的损失矩阵,算出每个决策的条件风险的条件风险R(i|x)按最小的条件风险进行决策。按最小的条件风险进行决策。28用用Bayes公式展开,最小风险公式展开,最小风险Bayes决策决策得到:得到:11111222211222()|)(|)(|)()|)(|)(|)R DxxPxPxR DxxPxPx11222212211112(|)()()()f (|)()()()otherwisep xPD xip xPD x29两类细胞识别问题:正常两类细胞识别问题:正常
10、(1)和异常和异常(2)根据已有知识和经验,两类的先验概率为:根据已有知识和经验,两类的先验概率为:正常正常(1): P(1)=0.9异常异常(2): P(2)=0.1对某一样本观察值对某一样本观察值x,通过计算或查表得到:,通过计算或查表得到: p(x|1)=0.2, p(x|2)=0.41111=0, 1 12 2=6, 2 21 1=1, 2222=0按最小风险决策如何对细胞按最小风险决策如何对细胞x进行分类?进行分类?30后验概率:后验概率: P(1|x) =0.818, P(2|x) =0.18221112212222111(| )(| )(| )1.092(| )(| )(| )0
11、.818jjjjjjRPRPxxxxxxargmin(| )2iijRx2x31基于基于最小错误率最小错误率的的Bayes决策可作为决策可作为最小风险最小风险Bayes决策的一种特殊情形。决策的一种特殊情形。只需要定义损失为:只需要定义损失为:,1( ,) ,1, 2,1( ,) 0i jijijNijijij决策正确时,损失为0决策错误时,损失为132Bayes决策的三个前提:决策的三个前提:类别数确定类别数确定各类的先验概率各类的先验概率P(i)已知已知各类的条件概率密度函数各类的条件概率密度函数p(x|i)已知已知Bayes决策中,类条件概率密度的选择要求:决策中,类条件概率密度的选择要
12、求:模型合理性模型合理性计算可行性计算可行性最常用概率密度模型:正态分布最常用概率密度模型:正态分布观测值通常是很多种因素共同作用的结果,根据中心极限定理,它观测值通常是很多种因素共同作用的结果,根据中心极限定理,它们(近似)服从正态分布。们(近似)服从正态分布。计算、分析最为简单的模型。计算、分析最为简单的模型。33一元正态分布及其两个重要参数:一元正态分布及其两个重要参数:均值(中心)均值(中心)方差(分散度)方差(分散度)221()()exp()22xp x 222()()()()Exxp x dxExxp x dx34观测向量观测向量x:实际应用中,可以同时观测多个值,:实际应用中,可
13、以同时观测多个值,用向量表示。多元正态分布:用向量表示。多元正态分布:12122*21121/2/2(,.,)( )(,.,) ,()()()()()1( )()exp()()(2 )TnTniiTijn nijijjTinx xxEE xEExxp xxxxxx x35参数参数和和完全决定分布完全决定分布等概率密度轨迹为超椭球面等概率密度轨迹为超椭球面不相关性等价于独立性不相关性等价于独立性边缘分布和条件分布的正态性边缘分布和条件分布的正态性线性变换的正态性线性变换的正态性线性组合的正态性线性组合的正态性36协方差矩阵是对称矩阵协方差矩阵是对称矩阵多元正态分布由多元正态分布由n+n(n+1)
14、/2个参数所完全决定个参数所完全决定( )( ,)pNx 37等概率密度轨迹为等概率密度轨迹为超椭球面超椭球面Mahalanobis距离距离12( )()()Tpcxxx21( , )()()TMx xx38多元正态分布的任意两个分量互不相关,则它们多元正态分布的任意两个分量互不相关,则它们一定独立一定独立221211( )()000niiijnnpp x x20()()ijiijjExx不相关(,)() ()ijijp x xp x p x独立39多元正态随机向量多元正态随机向量x( )( ,)pNx ( )(,)TpNyAAAyAx40多元正态随机向量多元正态随机向量x( )( ,)pNx
15、 ( )(,)TTp yNa a aTy a x41观测向量的类条件分观测向量的类条件分布服从正态分布:布服从正态分布:( |)(,)1,2,.,iiipNicx11212( )ln( ( |) ()()()lnln ()ln22iiiTiiiiigpPnP xxxx判别函数中与类别i无关的项,对于类别的决策没有影响,可以忽略42第一种特例:第一种特例:2,()(),1,2,.,iijI PPi jc 22211( )() ()22Tiiiig xxxx020221( )(2)211,2TTTiiiiTiiiiiiigww w xx x w 43第二种特例:第二种特例:,()(),1,2,.,
16、iijPPi jc 12()()()(,Tiiiigm xxxx1100( )1,2iTTiiiiiiigww w xxw44两类问题正态模型的决策面:两类问题正态模型的决策面:决策面方程:决策面方程:g1(x)=g2(x)两类的协方差矩阵相等,决策面是超平面。两类的协方差矩阵相等,决策面是超平面。两类的协方差矩阵不等,决策面是超二次曲面。两类的协方差矩阵不等,决策面是超二次曲面。1122ln( ( |) ()ln( ( |) ()pPpPxx11111211221()()02TTxxx450()0Twxx1()ij w01()2ijx0( )TTiiiigWwxxxw x47两类的识别问题:
17、医生要根据病人血液中白细胞两类的识别问题:医生要根据病人血液中白细胞的浓度来判断病人是否患血液病。的浓度来判断病人是否患血液病。根据医学知识和以往的经验,医生知道:根据医学知识和以往的经验,医生知道:患病的人,白细胞的浓度服从均值患病的人,白细胞的浓度服从均值2000,标准差,标准差1000的正态分布;的正态分布;未患病的人,白细胞的浓度服从均值未患病的人,白细胞的浓度服从均值7000,标准差,标准差3000的正态分的正态分布;布;一般人群中,患病的人数比例为一般人群中,患病的人数比例为0.5%。一个人的白细胞浓度是一个人的白细胞浓度是3100,医生应该做出怎样的判断?,医生应该做出怎样的判断
18、?48数学表示:用数学表示:用表示表示“类别类别”这一随机变量,这一随机变量,1 1表示患病,表示患病, 2 2表示表示正常正常;x表示表示“白细胞浓度白细胞浓度”这个随机变量。这个随机变量。本本例医生掌握的知识非常充分,他知道:例医生掌握的知识非常充分,他知道:1) 类别的先验分布:类别的先验分布:P(1 1) = 0.5%P(2 2) = 99.5%先验分布:没有获得观测数据(病人白细胞浓度)之前类别的分布先验分布:没有获得观测数据(病人白细胞浓度)之前类别的分布492) 观测数据白细胞浓度分别在两种情况下的类条件分布:观测数据白细胞浓度分别在两种情况下的类条件分布: P(x|1) N(2000,10002) P(x|2) N(7000,30002)P(3100|1) = 2.1785e-004P(3100|2) = 5.7123e-005计算后验概率计算后验概率P(1|3100)=1.9%P(2|3100)=98.1%医生的判断:正常医生的判断:正常50基于基于Bayes决策的最优分类器决策的最
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 北师大版四年级上册数学第三单元 乘法 测试卷带下载答案
- 物业员工工作总结范文10篇
- 认真承诺我发誓
- 语文味激发学生学习兴趣的关键
- 语文学习心得与策略分享
- 货车司机聘用合同案例
- 购销合同书写规范及示例
- 购销合同范本格式写作规范
- 跟随大卫科波菲尔的英语脚步
- 运费结算合同协议编写指南
- 2024官方兽医考试更新题库及答案
- 蒋诗萌小品《谁杀死了周日》台词完整版
- 试论盗窃罪的秘密窃取
- 危重病人管理制度.ppt
- 网页新闻编译原则和技巧
- 江苏省高级人民法院有关农村土地承包纠纷案件纪要
- 重庆市高级人民法院关于当前民事审判若干法律问题的指导意见
- 试验室主要设备电压功率表
- 民族中学“百日消防安全攻坚战”实施方案
- 数字逻辑课程设计 ----数字记步器
- 化学工程专业毕业设计聚丁二烯生产设计
评论
0/150
提交评论