版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
课前思考机器自动识别分类,能不能避免错分类?怎样才能减少错误?不同错误造成的损失一样吗?先验概率,后验概率,概率密度函数?什么是贝叶斯公式?正态分布?期望值、方差?正态分布为什么是最重要的分布之一?学习指南
本章要说明分类识别中为什么会有错分类,在何种情况下会出现错分类?错分类的可能性会有多大?怎样才能使错分类最少?不同的错分类造成的危害是不同的,有的错分类种类造成的危害更大,因此控制这种错分类则是更重要的。为此引入了一种“风险”与“损失”概念,希望做到使风险最小。要着重理解“风险”与“损失”的概念,以及在引入“风险”概念后的处理方法。学习指南理解本章的关键要正确理解先验概率,类概率密度函数,后验概率这三种概率对这三种概率的定义,相互关系要搞得清清楚楚Bayes公式正是体现这三者关系的式子,要透彻掌握。2.1引言统计决策理论是模式分类问题的基本理论之一贝叶斯决策理论是统计决策理论中的一个基本方法物理对象的描述在特征空间中讨论分类问题假设一个待识别的物理对象用其d个属性观察值描述,称之为d个特征,记为x=[x1,x2,…,xd]T这组成一个d维的特征向量,而这d维待征所有可能的取值范围则组成了一个d维的特征空间。
贝叶斯决策理论方法讨论的问题讨论的问题总共有c类物体已知各类在这d维特征空间的统计分布,各类别ωi=1,2,…,c的先验概率P(ωi)类条件概率密度函数p(x|ωi)问题:如何对某一样本按其特征向量分类已知d维特征空间的统计分布,如何对某一样本分类最合理基于最小错误率的贝叶斯决策基于最小风险的贝叶斯决策在限定一类错误率条件下使另一类错误率为最小的两类别决策最小最大决策序贯分类方法§2.2几种常用的决策规则2.2.1基于最小错误率的贝叶斯决策分类识别中为什么会有错分类?当某一特征向量值X只为某一类物体所特有,即对其作出决策是容易的,也不会出什么差错问题在于出现模棱两可的情况任何决策都存在判错的可能性。基于最小错误率的贝叶斯决策
基本思想使错误率为最小的分类规则称之为基于最小错误率的贝叶斯决策条件概率
P(*|#)是条件概率的通用符号即在某条件#下出现某个事件*的概率P(ωK|X):X出现条件下,样本为ωK类的概率P(*|#)与P(*)不同例:*表示中国人,#表示在中国大陆的人则P(*|#)与P(*)不同含义不同几个重要要概念先验概率率P(ω1)及P(ω2)概率密度度函数P(x|ωi)后验概率率P(ωi|X)贝叶斯决决策理论论先验概率率,后验验概率,,概率密密度函数数假设总共共有c类类物体,,用ωi(i=1,2,…,c)标记记每个类类别,x=[x1,x2,…,xd]T,是d维维特征空空间上的的某一点点,则P(ωi)是先验概率率p(x|ωi)是ωi类发生时时的条件概率率密度函函数P(ωi|x)表示后验概率率基于最小小错误率率的贝叶叶斯决策策例:癌细胞胞的识别别假设每个个要识别别的细胞胞已作过过预处理理,并抽抽取出了了d个特特征描述述量,用用一个d维的特特征向量量X表示示,识别的目目的是要要依据该该X向量量将细胞胞划分为为正常细细胞或者者异常细细胞。这里我们们用ω11表示是是正常细细胞,而而ω2则则属于异异常细胞胞。基于最小小错误率率的贝叶叶斯决策策先验概率率P(ω1)和P(ω2)含义:每每种细细胞占全全部细胞胞的比例例P(ω1)+P(ω2)=1一般情况况下正常常细胞占占比例大大,即P(ω1)>P(ω2)基于最小小错误率率的贝叶叶斯决策策salmon””or“seabass”判判别中的的先验概率率P(ωsalmon)P(ωseabass)基于最小小错误率率的贝叶叶斯决策策先验概率率根据先验验概率决决定这种分类类决策没没有意义义表明由先先验概率率所提供供的信息息太少基于最小小错误率率的贝叶叶斯决策策概率密度度函数利用对细细胞作病病理分析析所观测测到的信信息,也也就是所所抽取到到的d维维观测向向量。为简单起起见,我我们假定定只用其其一个特特征进行行分类,,即d=1得到两类类的类条条件概率率密度函函数分布布P(x|ω1)是正常常细胞的的属性分分布P(x|ω2)是异常常细胞的的属性分分布基于最小小错误率率的贝叶叶斯决策策类条件概概率密度度函数概率密度度函数性性质基于最小小错误率率的贝叶叶斯决策策salmon””or“seabass”判判别中的的类条件概概率密度度函数基于最小小错误率率的贝叶叶斯决策策类条件概概率密度度函数直接用来来分类是是否合理理?具有一定定的合理理性不满足最最小错误误率要求求没有考虑虑先验概概率基于最小小错误率率的贝叶叶斯决策策后验概率率含义P(ω1|X)当观测向向量为X值时,该该细胞胞属于正正常细胞胞的概率率。P(ω2|X)当观测向量量为X值时,该该细胞属于于异常细胞胞的概率。。基于最小错错误率的贝贝叶斯决策策后验概率基于最小错错误率的贝贝叶斯决策策salmon”or“seabass””判别中的的后验概率基于最小错错误率的贝贝叶斯决策策类条件概率率和后验概概率区别后验概率:P(ωω1|x)和P(ωω2|x)同一条件x下,比较较ω1与ωω2出现的的概率两类ω1和和ω2,则则有P(ωω1|x)+P(ωω2|x)=1如P(ω1|x)>P(ωω2|x)则可以下下结论,在在x条件下下,事件ωω1出现的的可能性大大类条件概率率:P(x|ω1)和P(x|ω2)是在不同条条件下讨论论的问题即使只有两两类ω1与与ω2,P(x|ωω1)+P(x|ωω1)≠1P(x|ωω1)与P(x|ωω2)两者者没有联系系基于于最最小小错错误误率率的的贝贝叶叶斯斯决决策策贝叶叶斯斯公公式式先验验概概率率,,后后验验概概率率,,概概率率密密度度函函数数之之间间关关系系根据据先验验概概率率和概率密度函数数可以计算出后验概率基于最小错误误率的贝叶斯斯决策问题为什么先验概率和类条件概率密密度函数可以作为已知知?而后验概率需要通过计算算获得?基于最小错误误率的贝叶斯斯决策为什么后验概概率要利用Bayes公公式从先验概概率和类条件件概率密度函函数计算获得得?计算概率都要要拥有大量数数据估计先验概率与类条件概率密密度函数时都可搜集到到大量样本对某一特定事事件(如x)要搜集大量量样本是不太太容易只能借助Bayes公式式来计算得到到基于最小错误误率的贝叶斯斯决策问题根据最小错误误率,如何利利用先验概率、类条件概率密密度函数和后验概率进行分类?基于最小错误误率的贝叶斯斯决策贝叶斯决策理理论前提各类别总体的的概率分布是是已知的;要决策分类的的概率分布是是已知的。贝叶斯决策理理论方法所讨讨论的问题是是:已知:总共有有c类物体,,以及先验概概率P(ωi)及类条件概概率密度函数数p(x|ωωi)问题:如何何对某一样本本按其特征向向量分类的问问题。基于最小错误误率的贝叶斯斯决策基于最小错误误率的贝叶斯斯决策规则:如果P(ω1|X)>P(ω2|X),则X归为ω1类别如果P(ω1|X)≤P(ω2|X),则则X归为ωω2类别基于最最小错错误率率的贝贝叶斯斯决策策几种等等价形形式::后验概概率形形式:如果则x归为为ωi先验概概率及及类条条件概概率密密度函函数表表示::如果则x归为为ωi基于最最小错错误率率的贝贝叶斯斯决策策几种等等价形形式::比值的的方式式表示示,如果则x归归为ωω1,否则x归为为ω2基于最最小错错误率率的贝贝叶斯斯决策策几种等等价形形式::对数形形式若则x归归为ωω1,否则x归为为ω2基于最最小错错误率率的贝贝叶斯斯决策策例2.1假设设在在某某地地区区切切片片细细胞胞中中正正常常(ωω1)和和异异常常(ωω22)两两类类的的先先验验概概率率分分别别为为P(ωω1)=0.9,,P(ωω2)=0.1。。现有有一一待待识识别别细细胞胞呈呈现现出出状状态态x,,由由其其类类条条件件概概率率密密度度分分布布曲曲线线查查得得p(x|ωω1)=0.2,,p(x|ωω22)=0.4,,试对对细细胞胞x进进行行分分类类。。基于于最最小小错错误误率率的的贝贝叶叶斯斯决决策策例2.1解::利利用用贝贝叶叶斯斯公公式式,,分分别别计计算算出出状状态态为为x时时ωω1与与ωω22的的后后验验概概率率基于于最最小小错错误误率率的的贝贝叶叶斯斯决决策策例2.1根据据贝贝叶叶斯斯决决策策有有P(ωω1|x)==0.818>>P(ωω22|x)==0.182分析析:错错误误概概率率是是多多少少??判断断为为正正常常细细胞胞,,错错误误率率为为0.182判断为异异常细胞胞,错误误率为0.818因此判定定该细胞胞为正常常细胞比比较合理理。最小错误误率的证证明最小错误误率贝叶叶斯准则则使得错错误率最最小证明明:从平均的意义义上的错误率率在连续条件下下,平均错误误率,以P(e)表示,,应有:最小错误率的的证明最小错误率贝贝叶斯准则使使得错误率最最小证明:分析两类别问问题按贝叶斯决策策规则,当P(w2|x)>p(w1|x)时时决策为w2。显然这个决策策意味着,对对观测值x有有P(w1|x)概率的的错误率。上例中所作的的w1决策,,实际上包含含有P(w2|x)=0.182的的错误概率最小错误率的的证明最小错误率贝贝叶斯准则使使得错误率最最小证明:在两类别的情情况下,可以以将p(e|x)表示成成当基于最小错误误率的贝叶斯斯决策最小错误率贝贝叶斯准则使使得错误率最最小证明:如果我们把作作出w1决策策的所有观测测值区域称为为R1,则在在R1区内的的每个x值,,条件错误概概率为p(w2|x)。。另一个区R2中的x,条条件错误概率率为p(w1|x)。基于最小错误误率的贝叶斯斯决策最小错误率贝贝叶斯准则使使得错误率最最小证明:因此平均错误误率P(e)可表示成基于最小错误误率的贝叶斯斯决策最小错误率贝贝叶斯准则使使得错误率最最小证明:由于在R1区区内任一个x值都有P(w2|x)<P(w1|x),同样在R2区区内任一个x值都有P(w1|x)<P(w2|x)错误误率在每个x值处都取小小者,因而平均错误误率P(e)也必然达到到最小这就证明了平平均错误率为为最小基于最小错误误率的贝叶斯斯决策C类别情况下下最小错误率率
贝叶斯决决策在C类别情况况下最小错误误率贝叶斯决决策规则的后后验概率形式式:先验概率与类类条件概率密密度相联系的的形式C类别情况下下最小错误率率
贝叶斯决决策多类别决策过过程中的错误误率把特征空间分分割成R1,,R2,…,,Rc个区域域统计将所有其其它类错误划划为该区域对对应的i类的的概率计算是很繁琐琐计算平均正确确分类概率P(c)即基基于最小风险险的贝叶斯决决策基本思想使错误率最小小并不一定是是一个普遍适适用的最佳选选择。癌细胞分类两种错误:癌细胞→正常常细胞正常细胞→癌癌细胞两种错误的代代价(损失)不同基于最小风险险的贝叶斯决决策基本思想宁可扩大一些些总的错误率率,但也要使使总的损失减减少。引进一个与损损失有关联的的,更为广泛泛的概念———风险。在作出决策时时,要考虑所所承担的风险险。基于最小风风险的贝叶叶斯决策规规则正是为为了体现这这一点而产产生的。基于最小风风险的贝叶叶斯决策最小错误率率贝叶斯决决策规则::最小错误率率目标函数数:P(ωj|X)为了考虑不不同决策的的不同损失失,构造如如下目标函函数λ(i)j:表示样本本X实际属于j类,被判为为状态i所造成的损损失Rj(X):表示把把样本X判为状态i所造成的整整体损失基于最小风风险的贝叶叶斯决策两类情况:有没有癌癌细胞ω1表示正常,,ω2表示异常P(ω1|X)与P(ω2|X)分别别表示了两两种可能性性的大小X是癌细胞胞(ω2),但被判判作正常(ω1),则会有有损失,这这种损失表表示为:λ2(1)X确实是正正常(ω1),却被判判定为异常常(ω2),则损失失表示成:λ1(2)基于最小风风险的贝叶叶斯决策两类情况:有没有癌癌细胞另外为了使使式子写的的更方便,,我们也可可以定义λ1(1)和λ2(2)是指正确判判断也可有有损失基于最小风风险的贝叶叶斯决策两类类情情况况:有有没没有有癌癌细细胞胞X判作ωω1引进进的损失失应该为为将X判为为ω2的的风险就就成为作出哪一一种决策策就要看看是R1(X)小还是是R2(X)小小这就是基基于最小小风险的的贝叶斯斯决策的的基本出出发点基于最小小风险的的贝叶斯斯决策(1)自自然状态态与状态态空间自然状态态:识识别对象象的类别别状态空间间Ω:所所有自自然状态态所组成成的空间间Ω={ω1,ω2,…,ωωc}(2)决决策与决决策空间间决策:对对分类类问题所所作的判判决决策空间间:由由所有决决策组成成的空间间称为决策空间间内决策策总数a可以不不等于类类别数cA={α1,α2,…,,αn}基于最小小风险的的贝叶斯斯决策(3)损损失函数数λ(ααi|ωj)(或λλ(αi,ωj))这就是前前面我们们引用过过的λj(i)表示对自自然状态态ωj,作出决决策αj时所造成成的损失失(4)观观测值X条件下下的期望望损失R(αi|X)这就是前前面引用用的符号号Ri,也称为为条件风风险。基于最小小风险的的贝叶斯斯决策最小风险险贝叶斯斯决策规规则可写写成:引入一个个期望风风险R基于最最小风风险的的贝叶叶斯决决策最小风风险贝贝叶斯斯决策策步骤骤:(1)计算算出后后验概概率已知P(ωi)和P(X|ωi),i=1,…,,c,获得得观测到的的特征向量量X根据贝叶斯斯公式计算算j=1,……,x基于最小风风险的贝叶叶斯决策最小风险贝贝叶斯决策策步骤:(2)计算算条件风险险已知:后后验概率和和决策表计算出每个个决策的条条件风险(3)找找出使条件件风险最小小的决策αk则αk就是最小风风险贝叶斯斯决策。基于最小风风险的贝叶叶斯决策例2.2在在例2.1条件的的基础上已知λ11=0,(λλ11表示λ(αα1|ω1)的简写),λ12=6,λ21=1,λ22=0按最小风险险贝叶斯决决策进行分分类基于最小风风险的贝叶叶斯决策例2.2解:已知条条件为P(ωω1)=0.9,P(ω12)=0.1p(X|ω1)=0.2,p(X|ω12)=0.rλλ11=0,λλ12==6,λλ21=1,λ22=0根据2.1的计算结结果可知后后验概率为为
P(ω1|X)=0.818P(ω2|X)=0.182基于最小风风险的贝叶叶斯决策例2.2再计算出条条件风险基于最小风风险的贝叶叶斯决策例2.2作出决策由于R(αα1|X)>R(αα2|X)即决策为ωω2的条件件风险小于于决策为ωω1的条件件风险,因此应采取取决策行动动α2即判待识别别的细胞X为ω2类类——异常常细胞。两种决策方方法之间的的关系两种决策方方法之间的的关系设损失函数数为条件风险为为错误概率基于最小风风险的贝叶叶斯决策两种决策方方法之间的的关系两类情况的的形象表示示在限定一类类错误率条条件下使另另一类错误误率为最小小的两类别别决策聂曼-皮尔尔逊判决neyman-pearson基本思想想两种错误误一种的错错误概率率固定,,另一种种尽量小小最小最大大决策问题先验概率率未知基本思想想使得最大大可能的的风险做做小化最小最大大决策序贯分类类迄今为止止所讨论论的分类类问题,,关于待待分类样样本的所所有信息息都是一一次性提提供的。。但是,,在许多多实际问问题中,,观察实实际上是是序贯的的。随着着时间的的推移可可以得到到越来越越多的信信息。判别别函函数数、、决决策策面面与与分分类类器器设设计计决策策面面与与判判别别函函数数分类类决决策策实实质质上上是是在在描描述述待待识识别别对对象象的的d维维特特征征所所组组成成的的特特征征空空间间内内,,将将其其划划分分为为c个个决决策策域域,,待识识别别的的特特征征向向量量落落在在哪哪个个决决策策域域,,该该样样本本就就被被判判为为哪哪一一类类。。因此此决决策策域域的的边边界界面面就就是是决策策面面,在数数学学上上用用解解析析形形式式表表示示成成决策策面面方方程程。判别别函函数数、、决决策策面面与与分分类类器器设设计计决策策面面与与判判别别函函数数用于于表表达达决决策策规规则则的的某某些些函函数数则则称称为为判别别函函数数。显然然判判别别函函数数与与决决策策面面方方程程是是密密切切相相关关的的,,并并且且都都是是由由相相应应决决策策规规则则所所确确定定的的。。判别别函函数数、、决决策策面面与与分分类类器器设设计计多类类别别情情况况下下的的判判别别函函数数最小小错错误误率率作作决决策策时时决策策规规则则要要定定义义一一组组判判别别函函数数gi(X),,i=1,2,……,,c而决决策策规规则则可可表表示示成成如果果,,则将将X归于于ωi类;;判别别函函数数、、决决策策面面与与分分类类器器设设计计多类类别别情情况况下下的的决决策策面面方方程程gi(X)=gj(X)判别别函函数数、、决决策策面面与与分分类类器器设设计计多类类别别情情况况下下的的分分类类器器判别别函函数数、、决决策策面面与与分分类类器器设设计计两类类别别问问题题中中,,最最小
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年商业用地租赁权转授权合同
- 2024年学校服装供应合同
- 2024年度工程变更与居间服务合同
- 我们身体课件教学课件
- 2024北京市车指标租赁期间保险服务合同
- 2024年大型活动策划与执行服务合同
- 2024的保安服务委托合同范文
- 2024年度卫星通信服务与租赁合同
- 2024年建筑工程水电施工合同
- 2024年建筑工程施工总包合同精粹
- GB/T 42455.2-2024智慧城市建筑及居住区第2部分:智慧社区评价
- 2024年认证行业法律法规及认证基础知识
- YYT 0653-2017 血液分析仪行业标准
- 刑事受害人授权委托书范本
- 《文明上网健康成长》的主题班会
- 框架结构冬季施工方案
- 柴油购销合同
- MD380总体技术方案重点讲义
- 天车道轨施工方案
- 传染病转诊单
- 手术室各级护士岗位任职资格及职责
评论
0/150
提交评论