模式识别第二章_第1页
模式识别第二章_第2页
模式识别第二章_第3页
模式识别第二章_第4页
模式识别第二章_第5页
已阅读5页,还剩104页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

模式识别第二章第1页,共109页,2023年,2月20日,星期一贝叶斯决策理论统计模式识别的主要方法之一

随机模式分类方法的基础采用贝叶斯决策理论分类的前提:目标(事物)的观察值是随机的,服从一定的概率分布。即:模式不是一个确定向量,而是一个随机向量。

第2页,共109页,2023年,2月20日,星期一用贝叶斯决策理论分类的要求:各类别总体概率分布是已知的

P(wi)及p(x/wi)已知,或P(wi/x)已知决策分类的类别确定第3页,共109页,2023年,2月20日,星期一特征向量、特征空间:设某个样本(模式),可用d个特征量x1,x2,…,xd来刻化,即x=[x1,x2,…,xd]T——表示样本的特征向量特征空间:这些特征的取值范围构成的d维空间,

为特征空间。每一个样本可看作d维空间的向量或点特征向量:第4页,共109页,2023年,2月20日,星期一相关统计量:

P(wi)—类别wi出现的先验概率

p(x/wi)—类条件概率密度,即类别状态为wi类时,出现模式x的条件概率密度,也称似然函数。p(x)—全概率密度P(wi/x)—后验概率,即给定输入模式x时,该模式属于wi类的条件概率。P(wi,x)—联合概率第5页,共109页,2023年,2月20日,星期一相互关系:贝叶斯公式:第6页,共109页,2023年,2月20日,星期一需解决的问题:设:样本集X,有C类别,各类别状态为wi,i=1,…,C。已知P(wi)及p(x/wi)

要解决的问题是:

当观察样本x=[x1,x2,…,xd]T出现时,如何将x划归为某一类。第7页,共109页,2023年,2月20日,星期一方法:

已知类别的P(wi)及x的p(x/wi),利用贝叶斯公式,可得类别的后验概率P(wi/x)

再基于最小错误概率准则、最小风险准则等,就可统计判决分类。第8页,共109页,2023年,2月20日,星期一2.2几种常用的决策规则1.基于最小错误率的贝叶斯决策分类准则:错误率最小讨论两类问题的决策:w1,w2例如:癌细胞检查、产品质量等第9页,共109页,2023年,2月20日,星期一合理决策依据:根据后验概率决策

已知后验概率P(w1|x),P(w2|x),决策规则:当P(w1|x)>P(w2|x)xw1,当P(w1|x)<P(w2|x)xw2当对具体样本作观察后,判断出属于wi的可能性后,再决策才合理。第10页,共109页,2023年,2月20日,星期一P(wi|x)的计算问题:由贝叶斯公式得到,即:也称为似然函数第11页,共109页,2023年,2月20日,星期一决策规则的等价形式1.若

则:2.则即:则,否则为常数,由贝叶斯公式,有若第12页,共109页,2023年,2月20日,星期一3.若称为似然函数比称为阈值,也称为似然比则,否则其中:第13页,共109页,2023年,2月20日,星期一取对数形式:第14页,共109页,2023年,2月20日,星期一例:一大批人进行癌症普查w1病,w2正常P(w1)=0.005(P(w2)=0.955)设样本具有一维特征,即x=阳(或x=阴),根据临床记录统计第15页,共109页,2023年,2月20日,星期一

患癌试验反应为阳的概率为0.95,即:p(x=阳/w1)=0.95(p(x=阴/w1)=0.05)

正常人试验反应为阳的概率为0.01,即:p(x=阳/w2)=0.01(p(x=阴/w2)=0.99)问:若化验的人为阳,患癌的概率为多少?第16页,共109页,2023年,2月20日,星期一贝叶斯公式:

第17页,共109页,2023年,2月20日,星期一或:似然比形式判决阈值

只能作为普查筛选手段,要确诊,还需做其它化验,提供更多信息

第18页,共109页,2023年,2月20日,星期一问题:按这种办法决策,是否出现的错误概率最小?对p(x|wi)P(wi)的讨论。定义:平均错误率求条件错误概率:第19页,共109页,2023年,2月20日,星期一当观测到一个x值后,则x的条件错误概率:(决策为w2时)(决策为w1时)第20页,共109页,2023年,2月20日,星期一在一维特征空间里,t为x轴上一个点,分类器将特征空间划分成两个区域:R1,R2在区域R1中在区域R2中第21页,共109页,2023年,2月20日,星期一二是xw2,而判为w1,图中斜纹区域显然,分类错误包含两种情况:一是xw1,而判为w2,图中方格区域第22页,共109页,2023年,2月20日,星期一条件错误率p(e|x)是x函数,对于大量样本x,则总的错误概率是p(e|x)的数学期望。总错误率为:阴影面积第23页,共109页,2023年,2月20日,星期一t不同,阴影面积不同,P(e)也不同。按式2-2或2-3决策,即t选择在图2-3图示位置,使得对每个x,p(e|x)为最小,则p(e)也最小。该决策准则使平均错误率最小,称为最小错误率贝叶斯决策规则。(若改为t1,阴影面积增大)第24页,共109页,2023年,2月20日,星期一决策规则推广到多类决策则例2.1自看作业:2.42.6第25页,共109页,2023年,2月20日,星期一2.基于最小风险的贝叶斯决策考虑:风险代价例:两种错误判决正常癌细胞癌细胞正常(后果严重,即损失更严重)后者错判风险远大于前者必须考虑风险问题——决策使风险最小第26页,共109页,2023年,2月20日,星期一考虑各种错误造成的损失不同而提出的一种决策规则,称最小风险贝叶斯决策。定义损失函数:当真正的类别(状态)是wj而做出的决策却属于i时所带来的损失(风险),用(i,wi)表示。i表示可能作出的决策,i=1,2…,a决策数目与类别数目可能相等,即a=c,也可能不等,这时a=c+1,因做决策时,还可采取“拒绝”决策最小风险贝叶斯决策第27页,共109页,2023年,2月20日,星期一不同的决策(i)和不同的类别(wj)形成一个a×c维的风险矩阵,即决策表。表中:状态也称类别,决策也称判决,损失也称为风险。两类问题:用ij=(i,wj)表示真类别为wj,却判决为wi所招致的损失。表2.1第28页,共109页,2023年,2月20日,星期一说明几个概念(1)x=[x1,x2,…,xd]T—d维随机向量(特征向量)(2)=[w1,w2,…,wc]—由c个状态组成的状态空间(3)A=[1,2,…,a]—有a个可能的决策组成的决策空间(4)(i,wj)i=1,…,a,j=1,…,c—真状态wj,而采取决策i时带来的损失(风险),称损失函数第29页,共109页,2023年,2月20日,星期一

对于给定的x,若采取的决策平均风险为i,则有c个不同的(i,wj)(j=1,…,c)供选择,随意性大。定义(i,wj)的条件平均风险(i,wj)的条件平均风险:第30页,共109页,2023年,2月20日,星期一定义条件平均风险(损失的数学期望):上式表示:针对特定的x值,采取决策i时所带来的条件平均风险,i=1,2,…,a若只有两类,则有可比较两者的大小来决策第31页,共109页,2023年,2月20日,星期一

∵x是随机向量,对不同的x,采取决策i时,决策i随x的取值而定,是x的函数,记为(x),(x)是随机变量定义平均风险(总风险)

条件风险R(i|x)不能反映整个特征空间划分成某类型空间的总平均风险。定义平均风险,即总风险:反映对特征空间X上所有样本x的值采取决策(x)时,所带来的平均风险。第32页,共109页,2023年,2月20日,星期一最小风险决策:思路:针对每一个x,计算出全部类别的条件风险R(i|x)。采取决策时,使条件风险最小,那么对所有x作决策时,其平均风险也必然最小。决策规则为:若即样本x归属条件风险最小的那种决策。则所有决策条件风险两类:其等价形式(作业2.6)第33页,共109页,2023年,2月20日,星期一实施最小风险判决规则的步骤:(1)给定x,由贝叶斯公式算出P(wj|x)j=1,…,C(2)已知决策表,计算各种决策的R(i|x)i=1,2,…a(3)按2-17式比较各R(i|x),即则=k,将x归入决策为k的类别例2.2(自看)即:判为异常与例2.1相比,分类结果刚好相反第34页,共109页,2023年,2月20日,星期一两种决策规则的关系:定义0—1损失函数:最小错误率贝叶斯决策规则是最小风险贝叶斯的特例∴P(wi|x)最大化,对应R(i|x)最小化对x采取决策xwi时的条件错误率所有后验概率加起来的和为1,即最小化第35页,共109页,2023年,2月20日,星期一∴当规定正确决策损失为零,错误决策损失相等时,相当于选择最大后验概率类——最小错误率贝叶斯决策,也就是0—1损失函数条件下的最小风险贝叶斯决策。第36页,共109页,2023年,2月20日,星期一“基于最小错误率贝叶斯决策的苹果图像分割”

图像分割方法有两大类:基于轮廓的方法(边缘检测);基于区域的方法(依据某种相似性判决标准,考察像素间的相似程度,将像素划分到不同类)。实例第37页,共109页,2023年,2月20日,星期一基于最小错误率贝叶斯决策分割图像第38页,共109页,2023年,2月20日,星期一由于苹果表面色彩的不一致性,边缘检测法往往会把果面一些点也作为边缘点误检测出来。贝叶斯方法更适合检测苹果的大小、形状和表面缺陷边缘检测方法对图像中的噪声敏感最小错误率贝叶斯决策进行图像分割则可避免将目标和背景作为两类进行判别,得到较准确的图像分割结果,能明确其大小和位置,且对图像中果面噪声点有较好的抑制作用,无须滤波。第39页,共109页,2023年,2月20日,星期一3.聂曼—皮尔逊决策规则(Neyman—Pearson)

实际中存在以下几种情况:(1)P(wi)不知(2)ij损失函数不知(3)某一类错误较另一类错误更严重限定一类错误率条件下,使另一类错误率为最小的两类决策

问题第40页,共109页,2023年,2月20日,星期一针对(1),采用最小最大损失准则—基于最坏情况下,平均代价最小针对(2),采用最小错误率决策准则针对(3),采用N-P(聂曼—皮尔逊)决策准则。另外,(1)、(2)均不知,仅知道类概率密度时,可用N-P准则。第41页,共109页,2023年,2月20日,星期一N-P准则:讨论两类问题平均错误率:

但在多数模式识别系统中,p(wi),i都可预先规定,∴贝叶斯判据用得最广第42页,共109页,2023年,2月20日,星期一N—P基本思想:0是很小的常数

取p2(e)常数条件下,使p1(e)最小,由此确定判决阈值t,即:为使p1(e)最小,适当选择正数,使最小化拉格朗日乘子法:第43页,共109页,2023年,2月20日,星期一式中

xw1

而错判为w2的错误概率

xw2

而错判为w1的错误概率根据类条件概密性质(R=R1+R2,整个特征空间,R1与R2不相交)第44页,共109页,2023年,2月20日,星期一(是t的函数,即R1是变量)

要使最小,就是选择R1,R2的边界t,由此再选择最佳,使最小。第45页,共109页,2023年,2月20日,星期一上式可写为为使最小化,分别对t,求导,可得极值解。∴t是0的函数,0定后可找出t。由此确定边界面t,即确定R1、R2第46页,共109页,2023年,2月20日,星期一决策阈值N-P决策过程:第47页,共109页,2023年,2月20日,星期一1.已知0,由N-P决策过程:计算区域R1,即确定分界点t2.由t,计算出3.N—P判决规则为:∴只知道类条件概密时,可用N—P规则第48页,共109页,2023年,2月20日,星期一三种决策的联系(似然比的决策门限不同)最小错误率贝叶斯决策最小风险贝叶斯决策第49页,共109页,2023年,2月20日,星期一2.2.4最小最大决策

在P(wi)不知或变化时,如何使最大可能的总风险最小化,即最坏情况下争取尽可能减小。固定的阈值不可能给出最优结果,平均损失变大。实际中P(wi)变化,且变化范围较大,甚至不知。不能按最小风险贝叶斯决策应采用最小最大决策第50页,共109页,2023年,2月20日,星期一讨论两类问题:损失函数ij:当xwj时,决策为xwi的损失,i,j=1,2作出错误决策比作出正确决策所带来的损失更大∴21>11,12>22下面给出R与P(w)的函数关系:第51页,共109页,2023年,2月20日,星期一平均风险(即总风险、也称期望风险):根据R(i/x)定义及贝叶斯公式1的决策区域2的决策区域(将R表示成P(w)的函数)第52页,共109页,2023年,2月20日,星期一利用代入上式,整理得:其中:目的:需要分析平均风险R与P(w1)的关系用P(w1)表示平均风险R:第53页,共109页,2023年,2月20日,星期一可见:1)一旦决策区域R1,R2确定,即a,b为常数,平均风险R就是P(w1)的线性函数;即P(w1)变化时,R1,R2不作调整,则平均风险R与P(w1)呈线性关系。

2)P(w1)变化时,决策区域R1,R2划分也变化,即a,b变化,则平均风险R与P(w1)是非线性关系。

求R与P(w1)的关系曲线:即R=f[P(w1)]第54页,共109页,2023年,2月20日,星期一先取定P(w1)求RP(w1)曲线:按最小风险贝叶斯决策确定分类面,即确定决策区域R1,R2利用上式求相应的最小风险R*P(w1)从01取若干个值,重复上述过程,得到R*P(w1)关系曲线见图2.4第55页,共109页,2023年,2月20日,星期一∴R与P(w1)是非线性关系,且曲线上R值都对应每个P(w1)值的最小风险损失。图中R*是当P(w1)=P*

(w1)时的最小风险值。R=f[P(w1)]第56页,共109页,2023年,2月20日,星期一如果区域R1、R2确定(a,b为常数),意味判别门限固定。当P(w1)变化时,R与P(w1)为线性关系。显然,得不到最佳结果,因CD直线在曲线上方,且aRa+b这时R最大可能的风险值为:R=a+b(图中D点)不希望!见图中CD直线第57页,共109页,2023年,2月20日,星期一

取不同的固定门限,有不同直线,对应的R最大值不同。直线EF的最大值R=a+b

∵P(w1)是不知或变化的,∴考虑如何使最大可能风险为最小第58页,共109页,2023年,2月20日,星期一如果有某个P(w1),使最小风险决策得到的区域R1、R2能使b=0,则

这时R与P(w1)无关,即最大可能的风险达到最小值为a第59页,共109页,2023年,2月20日,星期一1)以总风险R对P(w1)求极值,即方法:2)找出极值点后,该点的切线就为水平线,这时总风险R与P(w1)无关;∴b=0,意味决策区域的划分使平均风险R达到曲线的极大值(最小风险的极大值)。由2-34求导,得令其为0,得极大值,第60页,共109页,2023年,2月20日,星期一见图2-4b,当P(w1)=P*M(w1)时,R=R*M为最大值。对应决策区域不变时,R与P(w1)的关系为一条平行线CD,即不管P(w1)如何变化,风险不再变化。∴使最大风险达到了最小化!第61页,共109页,2023年,2月20日,星期一总结:当P(w1)变化时,应选使风险R达最大值(b=0)时的P*(w1)来设计分类器。在这种分类决策区域,能保证不管P(w1)如何变化,最大风险为最小值a。∴最小最大决策任务就是寻找使R最大时的决策域R1,R2,即求b=0的决策域,由2-35求解。第62页,共109页,2023年,2月20日,星期一2.2.5序贯分类方法实际中,为得到x的d个观测值,要花费代价。考虑每个特征值提取所花的代价,最优分类结果不一定将d个特征值全部使用;另外,虽然特征数目增多,一般判决风险R(i/x)降低,但每个特征值贡献不同。

∴排队从大小,每投入一新特征,计算一次R,同时计算获取新特征应付出的代价与该特征对R的贡献之和,比较后决定是否加入新特征。---序贯分类方法第63页,共109页,2023年,2月20日,星期一2.2.6分类器设计c类分类决策问题:按决策规则把d维特征空间分为c个决策区域。决策面:划分决策域的边界面称为决策面。数学上用决策面方程表示。几个概念判别函数:表达决策规则的函数,称为判别函数。第64页,共109页,2023年,2月20日,星期一1)定义一组判别函数根据决策规则若,将x归于wi类即讨论具体的判别函数、决策面方程、分类器设计第65页,共109页,2023年,2月20日,星期一例:基于最小错误率贝叶斯判决规则,显然其可定义为:判别函数有多种形式第66页,共109页,2023年,2月20日,星期一例:基于最小风险贝叶斯判决规则,判别函数可定义为:显然,依据最大值判别法,且选择不是唯一若将都乘以相同的正常数或加相同的常量,不影响判决结果第67页,共109页,2023年,2月20日,星期一一般地是单调递增函数,则分类结果不变2)决策面方程(即判决边界)若类型wi与wj的区域相邻,它们之间的决策面方程为第68页,共109页,2023年,2月20日,星期一图2.5(a)为一维特征空间的三个决策区域(d=1),决策面为分界点;根据判决规则,建立分类器结构图2.5(b)为二维特征空间的两个决策区域(d=2),决策面为曲线;三维特征空间,分界处是曲面;d维特征空间,分界处是超曲面。第69页,共109页,2023年,2月20日,星期一3)分类器设计

(硬件+软件)功能:先确定选出判决第70页,共109页,2023年,2月20日,星期一g1(x)Maxg(x)g2(x)gn(x)例:图2-6分类器的组成d维空间第71页,共109页,2023年,2月20日,星期一再由结果的正负作决策,可简化设计。见图2-7两类:求最大值可转为将两个判别函数相减,即定义一个简单判别函数例2.3g(x)阈值单元第72页,共109页,2023年,2月20日,星期一2.3正态分布时的统计决策(研究贝叶斯分类方法在正态分布中的应用)很多时候,正态分布模型是一个合理假设。在特征空间中,某类样本较多分布在这类均值附近,远离均值的样本较少,一般用正态分布模型是合理的。a、正态分布在物理上是合理的、广泛的。b、正态分布数学上简单,N(μ,σ²)只有均值和方差两个参数研究的理由:第73页,共109页,2023年,2月20日,星期一1.一维正态分布,见式2-43(常见)第74页,共109页,2023年,2月20日,星期一2.多维(d维)随机向量x的正态分布由多元联合概率密度描述其中:d维特征向量d维均值向量且:协方差矩阵,对称且有个独立元素第75页,共109页,2023年,2月20日,星期一第76页,共109页,2023年,2月20日,星期一1)参数、对分布起决定性作用,即p(x)由、确定,记为N(,),个独立元素确定。2)等密度点轨迹为超椭球面,区域中心由μ决定,区域形状由∑决定。正态分布特点:称为超椭球面即等密度点满足当指数项为常数时,p(x)值不变第77页,共109页,2023年,2月20日,星期一在数理统计中被称为马氏距离的平方(Mahalanobis)∴等密度点轨迹是x到u的马氏距离r为常数的超椭球面,其大小是样本对均值向量的离散度度量。最小错误率贝叶斯决策规则变为:若如果x到期望向量ui的马氏距离最小,则xwi第78页,共109页,2023年,2月20日,星期一3)不相关性等价于独立性对于正态分布的随机向量x,若xi和xj之间不相关,则它们一定互相独立不相关:独立:推论:是对角阵,xii=1,…,d,互相独立第79页,共109页,2023年,2月20日,星期一5)线性变换的正态性Y=AX,A为线性变换矩阵。若X为正态分布,则Y也是正态分布。即则4)边缘分布和条件分布仍是正态分布例是正态分布,则是正态分布也是正态分布第80页,共109页,2023年,2月20日,星期一即:总可以找到一组坐标系,使变换到新坐标系的随机变量是独立的(重要!)因此,总可以找到一个线性变换矩阵A,使y的协方差阵AAT为对角尺寸,这时y的各分量之间独立。

6)线性组合的正态性第81页,共109页,2023年,2月20日,星期一2.3.2正态分布下的最小错误率贝叶斯判别函数和决策面

i=1,…,c其中1.判别函数最小错误率判别函数是:服从第82页,共109页,2023年,2月20日,星期一进行单调的对数变换,则判别函数为:决策面是超二次曲面,如:超平面,超球面,超椭球面马氏距离的度量值第83页,共109页,2023年,2月20日,星期一2.决策面方程即:第84页,共109页,2023年,2月20日,星期一3.特殊情况1)对所有类即:各类协方差阵相等,且都是对角矩阵。→对角线为2,非对角线为零∴不影响分类,可忽略判别函数为:第85页,共109页,2023年,2月20日,星期一则判别函数变为:欧几里得距离平方,即欧氏距离平方

得到欧氏距离的度量值,它是马氏距离度量的一个特例。即:等密度点是圆形第86页,共109页,2023年,2月20日,星期一欧氏距离则贝叶斯决策规则变为最小距离分类规则。最小距离分类法:服从正态分布,各类协方差矩阵且先验概率相等,则可执行最小距离分类法。其判别规则为:若,则第87页,共109页,2023年,2月20日,星期一即:计算样本x与μi的欧氏距离,找最近的μi把x归类例:设一维特征空间(d=1)的样本分布

u1=55.28,u2=79.74若则否则第88页,共109页,2023年,2月20日,星期一将展开得:则判别函数:

其中,与分类无关,忽略即:——是线性判别函数,称为线性分类器第89页,共109页,2023年,2月20日,星期一对于两类情况:第90页,共109页,2023年,2月20日,星期一决策面方程:其中推出:决策面是一个通过x0,且与向量w正交的超平面超平面方程分类平面的法向量第91页,共109页,2023年,2月20日,星期一讨论:(两类情况)第92页,共109页,2023年,2月20日,星期一第93页,共109页,2023年,2月20日,星期一2)Σ

=Σi

:仍是超平面,但不与垂直

求样本x与各类均值的马氏距离,把x归于最近一类——最小距离分类器。第94页,共109页,2023年,2月20日,星期一决策规则:将进一步简化第95页,共109页,2023年,2月20日,星期一对于两类情况:第96页,共109页,2023年,2月20日,星期一讨论:(针对ω1,ω2二类情况)第97页,共109页,2023年,2月20日,星期一3、第三种情况(一般情况):二次项xTΣίx与i有关。判别函数为二次型函数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论