贝叶斯决策理论课件_第1页
贝叶斯决策理论课件_第2页
贝叶斯决策理论课件_第3页
贝叶斯决策理论课件_第4页
贝叶斯决策理论课件_第5页
已阅读5页,还剩221页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第2章贝叶斯(Bayes)决策理论2.1引言(已知条件、欲求解的问题)2.2几种常用的决策规则2.3正态分布时的统计决策2.4离散情况的贝叶斯决策

2.5分类器的错误率问题第2章贝叶斯(Bayes)决策理论2.1引言(已知条件2.1引言模式识别的分类问题:根据待识别对象的特征观察值,将其分到某一个类别中2.1引言模式识别的分类问题:根据待识别对象的特征观察值Bayes决策理论的基本已知条件①已知决策分类的类别数为c,各类别的状态为:②已知各类别总体的概率分布(各个类别出现的先验概率和类条件概率密度函数)Bayes决策理论的基本已知条件①已知决策分类的类别数为c,Bayes决策理论欲解决的问题如果在特征空间中观察到某一个(随机)向量x=(x1,x2,…,xd)T那么,应该将x分到哪一个类才是最合理的?Bayes决策理论欲解决的问题如果在特征空间中观察到某一个(2.2几种常用的决策规则2.2.1基于最小错误率的Bayes决策2.2.2基于最小风险的Bayes决策2.2.3Neyman-Pearson决策2.2.4最小最大决策2.2.5序贯分类方法2.2几种常用的决策规则2.2.1基于最小错误率的Ba2.2.1基于最小错误率的Bayes决策利用概率论中的Bayes公式进行分类,可以得到错误率最小的分类规则2.2.1基于最小错误率的Bayes决策利用概率论中的B已知条件①类别状态的先验概率②类条件概率密度已知条件①类别状态的先验概率根据Bayes公式得到状态的后验概率基本决策规则ifthen将x归属后验概率最大的类别

后验=似然x先验/证据因子根据Bayes公式得到状态的后验概率基本决策规则ifthen两类情况下的Bayes决策规则及其变型①Bayes决策规则两类情况下的Bayes决策规则及其变型①Bayes决策规则②变型1(消去相同的分母)②变型1(消去相同的分母)③变型2④变型3(取似然比的自然对数的负值)似然比似然比阈值③变型2④变型3(取似然比的自然对数的负值)似然比似然比阈值两类的后验概率相等时,采取的策略:归属其中一类拒绝(设置一个拒绝类,供进一步分析)两类的后验概率相等时,采取的策略:例:某地区细胞识别中,正常和异常细胞的先验概率:

P(ω1)=0.9,P(ω2)=0.1有未知细胞x,对应的类条件概率密度:P(x|ω1)=0.2,

P(x|ω2)=0.4判别该细胞属于正常细胞还是异常细胞?解:先计算后验概率:属于正常细胞,注意:先验概率起主导作用如果先验概率相等,则属于异常细胞例:某地区细胞识别中,正常和异常细胞的先验概率:P(x|ω正确分类与错误分类正确分类:将样本归属到样本本身所属的类别错误分类:将样本归属到非样本本身所属的类别正确分类与错误分类正确分类:将样本归属到样本本身所属的类别以一维、两类情况为例,证明Bayes规则使分类错误率最小(平均)错误率定义为条件错误概率以一维、两类情况为例,证明Bayes规则使分类错误率最小(平Bayes决策规则:此时,x(ω2)的条件错误概率此时,x(ω1)的条件错误概率Bayes决策规则:此时,x(ω2)的条件错误概率此时,条件错误概率Bayes公式全概率公式平均错误率条件错误概率Bayes公式全概率公式平均错误率t

是两类的分界点,x轴分成两个区间只有当t取两类后验概率相等的点时,错误率才是最小的(黄颜色区域变成零)红+黄绿t是两类的分界点,x轴分成两个区间只有当t取两类后验概贝叶斯决策理论课件2.2.2基于最小风险的Bayes决策在医学诊断上,有误诊(无病说有病)、漏诊。在雷达防空中,有虚警、漏警(有飞机说成无飞机)。这些错误判断会造成不同的后果和损失。基于最小风险的Bayes决策是:在考虑各种错误可能造成不同的损失的情况下的Bayes决策规则2.2.2基于最小风险的Bayes决策在医学诊断上,有误基本概念决策(行动):所采取的决定决策(行动)空间:所有可能决策所构成的一个集合损失:每一个决策将付出的代价,通常为决策和自然状态(类)的函数基本概念决策(行动):所采取的决定状态决策…c个自然状态(类)a个决策损失一般决策表状态…c个自然状态(类)a个决策损失一般决策说明:状态空间由c个自然状态(c个类)组成:决策空间由a

个决策组成:a=c或者a=c+1

(拒绝类)说明:状态空间由c个自然状态(c个类)组成:决策空间由损失函数有a×c

个值:含义:当真实状态为ωj

而所采取的决策为

αi

时所造成的损失大小损失函数有a×c个值:含义:已知后验概率最小错误率Bayes决策取后验概率的最大者对于给定的模式向量x已知后验概率最小错误率Bayes决策取后验概率的最大者对于给在决策表中,每一个决策αi

对应存在

c个损失。对于x,定义在采取决策αi

时的条件期望损失(条件风险)为:在决策表中,每一个决策αi对应存在c个损失。对于x是随机向量的观察值,对于其不同观察值,采取不同的决策αi时,对应不同的条件风险。所以,不同的x,将会采用不同的决策决策可以看成随机向量x的函数,记为α(x)(随机变量),可以定义期望风险为注:积分在整个特征空间上进行x是随机向量的观察值,对于其不同观察值,采取不同的决策α差别:条件风险

R(αi|x)只反映出,对某一个x取值,采取决策行动αi所带来的风险期望风险

R

则反映,在整个特征空间中不同的x

取值,采取相应的决策α(x)所带来的平均风险差别:目标:所采取的一系列决策行动应该使期望风险达到最小手段:如果在采取每一个决策时,都使其条件风险最小,则对所有的x作决策时,其期望风险也必然达到最小决策:最小风险Bayes决策目标:所采取的一系列决策行动应该使期望风险达到最小最小风险Bayes决策规则:其中采取决策最小风险Bayes决策规则:其中采取决策最小风险Bayes决策的步骤①在已知类先验概率和类概率密度函数的情况下,计算待识x的后验概率(Bayes公式)最小风险Bayes决策的步骤①在已知类先验概率和类概率密度函②根据决策表,计算每一个决策的条件风险③找出条件风险最小值所对应的决策,对x采取该决策(归属到该类)②根据决策表,计算每一个决策的条件风险③找出条件风险最小值所例:区分正常与异常细胞正常细胞异常细胞后验概率例:区分正常与异常细胞正常细胞异常细胞后验概率条件风险决策:归属到异常细胞原因:损失起主导作用0610正常异常归正常归异常条件风险决策:归属到异常细胞0610正常异常归正常归异常两种决策规则之间的关系定义0-1损失函数意义:正确决策没有损失,错误决策损失都为1附件条件:c个类别对应c个决策(无拒绝类)两种决策规则之间的关系定义0-1损失函数意义:附件条件:c对x采取决策(归属)ωi时的条件错误概率结论:在0-1损失函数的条件下,使风险最小的Bayes决策等价于使错误率最小的Bayes决策,后者是前者的特例最小最小最大对x采取决策(归属)ωi时的条件错误概率结论:在0-2.2.3Neyman-Pearson(聂曼-皮尔逊)决策在限定一类错误率条件下,使另一类错误率为最小的两类别决策2.2.3Neyman-Pearson(聂曼-皮尔逊)决策2.2.4最小最大决策考虑先验概率变化的情况下,如何使最大可能的风险为最小,即在最差的条件下争取最好的结果2.2.4最小最大决策考虑先验概率变化的情况下,如何使最贝叶斯决策理论课件贝叶斯决策理论课件2.2.5序贯分类方法原因:获取特征需要付出一定的代价(成本),我们要衡量,增加特征所付出的代价,减少错误率所得到的好处2.2.5序贯分类方法原因:获取特征需要付出一定的代价(成序贯分类方法:先用一部分特征来分类,逐步加入特征以减少分类损失每步都要衡量加入新特征所花代价与所降低分类损失的大小,以便决定是否继续增加新特征序贯分类方法:2.2.6分类器设计要点:判别函数决策面(分类面)分类器设计2.2.6分类器设计要点:决策面(分类面)对于c

类分类问题,按照决策规则可以把d

维特征空间分成c个决策域,我们将划分决策域的边界面称为决策面(分类面)决策面(分类面)对于c类分类问题,按照决策规则可以把d判别函数用于表达决策规则的某些函数,则称为判别函数判别函数可以取为决策规则的单调增函数,最简单的形式就是决策规则本身判别函数用于表达决策规则的某些函数,则称为判别函数决策面与判别函数的关系判别函数决定决策面方程分两类和多类情况来讨论判别函数、决策面方程、分类器设计决策面与判别函数的关系判别函数决定决策面方程分两类和多类情况2.2.6.1多类情况设c类问题和d维模式(随机)向量为2.2.6.1多类情况设c类问题和d维模式(随机最小错误率Bayes决策规则:最小错误率Bayes决策规则:判别函数定义一组(c

个)判别函数gi(x),i=1,…,c来表示c

类决策规则,可以取判别函数定义一组(c个)判别函数决策规则如果使对all成立,则将x归于ωi

类决策规则如果使对all成立,则将x归于ωi类决策面方程各决策域被决策面所分割,决策面应该是特征空间中的超曲面。相邻的两个决策域在决策面上,其判别函数值是相等的决策面方程各决策域被决策面所分割,决策面应该是特征空间中的超如果Ri和Rj

是两个相邻的决策域,则它们之间的决策面方程:如果Ri和Rj是两个相邻的决策域,则它们之间的决贝叶斯决策理论课件分类器设计分类器:可看成是由硬件或软件组成的一个“机器”(程序)功能:先计算出c

个判别函数值,再从中选出对应于判别函数为最大值的类作为决策结果分类器设计分类器:可看成是由硬件或软件组成的一个“机器”(程贝叶斯决策理论课件2.2.6.2两类情况设两类问题和d维模式(随机)向量为2.2.6.2两类情况设两类问题和d维模式(随机)向最小错误率Bayes决策规则:最小错误率Bayes决策规则:判别函数只需定义一个判别函数:具体形式有:判别函数只需定义一个判别函数:具体形式有:决策规则ifthenthenif决策规则ifthenthenif决策面方程特征空间:一维,决策面:分界点二维曲线三维曲面高维超曲面决策面方程特征空间:一维,决策面:分界点分类器设计两类分类器的功能:计算判别函数,再根据计算结果的符号将x分类g(x)判别计算阈值单元决策分类器设计两类分类器的功能:计算判别函数,再根据计算结果的符2.3正态分布时的统计决策重点分析正态分布情况下统计决策的原因是:①正态分布在物理上是合理的、广泛的②正态分布数学表达上简捷,如一维情况下只有均值和方差两个参数,因而易于分析2.3正态分布时的统计决策重点分析正态分布情况下统计决策的2.3.1正态分布概率密度函数的定义与性质单变量正态分布多变量正态分布2.3.1正态分布概率密度函数的定义与性质单变量正态分布1单变量正态分布

连续型概率密度函数应满足条件1单变量正态分布连续型概率密度函数应满足条件单变量正态分布概率密度函数其中均值或数学期望方差单变量正态分布概率密度函数其中均值或数学期望方差2多元正态分布

(1)定义d维向量d

维均值向量d×d协方差矩阵逆矩阵行列式2多元正态分布(1)定义d维向量注:协方差矩阵是非负定的。一般情况情况下,我们假设是正定的,即|Σ|>0,即存在逆矩阵主对角线σij2为方差其他分量σij2(ij)为协方差对称矩阵注:协方差矩阵是非负定的。一般情况情况下,我们假设是正定的,①参数μ与Σ对分布的决定作用多元正态分布完全由均值向量μ与协方差矩阵Σ决定μ有d

个分量,Σ由有d(d+1)/2元素,多元正态分布总共有d+d(d+1)/2个参数常记为:p(x)=N(μ,Σ)

(2)性质①参数μ与Σ对分布的决定作用(2)性质②等密度点的轨迹是一个超椭球面从正态分布总体中抽取的样本大部分落在由μ和Σ所确定的一个区域中。区域的中心由均值向量μ决定,区域的大小由协方差矩阵Σ决定等密度点满足下列方程,其解是一个超椭球面constant②等密度点的轨迹是一个超椭球面constant贝叶斯决策理论课件x到μ的Mahalanobis距离的平方等密度点轨迹是:x到μ的Mahalanobis距离为常数的超椭球面x到μ的Mahalanobis距离的平方③不相关性等价于独立性如果xi与xj为两个随机变量(向量)独立:满足

p(xi,xj)=p(xi)p(xj)不相关:满足E{xixj}=E{xi}E{xj}

③不相关性等价于独立性相互独立不相关成立成立??多元正态分布的任意两个分量成立!相互独立不相关成立成立??多元正态分布的任意两个分量成立!说明:正态分布中不相关意味着协方差矩阵是对角矩阵并且有说明:正态分布中不相关意味着协方差矩阵是对角矩阵并且有④边缘分布(对变量进行积分)和条件分布(固定变量)的正态性⑤线性变换的正态性y=AxA为线性变换的非奇异矩阵。若x为正态分布,则y也是正态分布⑥线性组合的正态性④边缘分布(对变量进行积分)和条件分布(固定变量)的正态性正态分布与熵之间的关系熵的定义单位为奈特,若换为,单位为比特。熵是一个非负的量用来描述一种分布中随机选取的样本点的不确定性。可以证明正态分布在所有具有给定均值和方差的分布中具有最大熵。正态分布与熵之间的关系熵的定义单位为奈特,若换为2.3.2多元正态概率型下的最小错误率Bayes判别函数与决策面多类情况下的判别函数多元正态分布的类概率密度函数2.3.2多元正态概率型下的最小错误率Bayes判别函数与i

类与j

类的决策面方程判别函数常数i类与j类的决策面方程判别函数常数针对不同的协方差矩阵进行讨论针对不同的协方差矩阵进行讨论1第一种情况条件:每类的协方差矩阵都相等,类内各特征间相互独立,具有相等的方差分两种情形(1)各类的先验概率不等(2)各类的先验概率相等1第一种情况条件:每类的协方差矩阵都相等,类内各特征间相互判别函数当前的协方差矩阵为对于每一个判别函数都是相同的(1)先验概率不相等判别函数当前的协方差矩阵为对于每一个判别函数都是相同的(1)消去相同的部分,代入协方差矩阵,得其中向量x到类ωi

的均值向量μi

的欧氏距离的平方消去相同的部分,代入协方差矩阵,得其中向量x到类ωi(2)各类先验概率相等消去相同的部分,得判别函数Bayes决策规则:决策规则简化为(2)各类先验概率相等消去相同的部分,得判别函数Baye解释:对于观察向量x,只需要计算x到各类均值向量的欧氏距离的平方,再将x归于距离最小的类别中去,这样的分类器称之为最小距离分类器解释:对于观察向量x,只需要计算x到各类均值向量的欧氏(3)直观的几何解释判别函数展开后得对于每一个类都相同(3)直观的几何解释判别函数展开后得对于每一个类都相同消去相同部分,得令判别函数为:消去相同部分,得令判别函数为:判别函数是模式向量x的线性函数,这样的分类器称之为线性分类器判别函数是模式向量x的线性函数,这样的分类器称之为线决策面方程(i与j类)现在为判别函数=1决策面方程现在为判别函数=1令决策面方程超平面乘于σ2,提取得令决策面方程超平面乘于σ2,提取得决策面方程:超平面以二维为例,直观地解释它们的几何意义决策面方程:超平面以二维为例,直观地解释它们的几何意义当各类的先验概率相等时,有ωi

类与ωj

类之间的决策超平面通过它们均值向量μi

与μj

连线的中点并与之正交四类当各类的先验概率相等时,有ωi类与ωj类之间的决策超当各类先验概率不相等时,有决策面当P(ωi)>P(ωj)N在M右侧当各类先验概率不相等时,有决策面当P(ωi)>P(ωj)解释:w是点μj到点μi

的向量,x-x0是从点x0到点x(位于决策面上)的向量。两者之间的点积为零,其意义是两者相互垂直,并通过x0当先验概率不相等时,x0位置不在μi到μj连线的中点上,靠近先验概率小的一边,远离先验概率大的一边;决策面通过x0,并与向量μi-

μj正交解释:2第二种情况:Σi=

Σ(各类协方差相等)判别函数简化后得如果各类先验概率相等常数2第二种情况:Σi=Σ(各类协方差相等)判别函数简化后定义新的判别函数(Mahalanobis距离的平方)决策规则:对于观察向量x,计算x到每一类均值向量μi的马氏距离的平方γ2,最后归于γ2最小的类别定义新的判别函数(Mahalanobis距离的平方)决策规则考察判别函数的几何意义展开后,得每一类判断函数都相同的部分考察判别函数的几何意义展开后,得每一类判断函数都相同的部分消去与类别判断无关的项,得其中线性判别函数消去与类别判断无关的项,得其中线性判别函数决策面为一个超平面根据其中类似可得决策面为一个超平面根据其中类似可得解释:向量w一般不再在μi-

μj方向上,有一个坐标旋转。向量(x-x0)通过x0点。w与(x-x0)点积为零,表示两者正交。决策面仍过x0点,与w正交,但不再与μi-

μj正交解释:当各类先验概率相等,则x0

点是两个均值向量连线的中点如果各类先验概率不相等,则x0

点偏向先验概率小的一边当各类先验概率相等,则x0点是两个均值向量连线的中点3第三种情况:各类协方差矩阵不等判别函数消去与类别无关的项并展开后,得3第三种情况:各类协方差矩阵不等判别函数消去与类别无关的其中判别函数是二次型其中判别函数是二次型决策面方程为:决策面为超二次曲面,随着类先验概率、类正态密度函数参数的不同,出现为某种形式的超二次曲面,如超球面、超椭球面、超抛物面、超双曲面或超平面决策面方程为:决策面为超二次曲面,随着类先验概率、类正态密度二维正态分布情况下的一些例子:决策面:带斜线部分的外轮廓线方差二维正态分布情况下的一些例子:决策面:带斜线部分的外轮廓线方2.4离散情况的贝叶斯决策

以上几节所讨论的特征向量可以是d维特征空间中的任一点,即为连续的随机向量。但在许多的模式识别问题中,特征向量是一个离散型随机向量,仅可取个离散值中的一个。此时,我们仍可以利用贝叶斯公式计算式中

2.4离散情况的贝叶斯决策以上几节所讨论的特征向量可可以看出,贝叶斯决策规则仍然不变,最小错误率的贝叶斯决策法则仍为:如果对于一切成立,则决策。最小风险的Bayes决策法则仍是:如果,则对应的决策。可以看出,贝叶斯决策规则仍然不变,最小错误率的贝叶斯对于二类模式的分类问题,通常采用下述形式的判别函数:下面考虑一个两类模式的分类问题。设特征向量,它的各个分量都是或为0或为1的二值特征,并且各特征相互独立。并令:

以一种分类问题的模型来说明。这类模型中,对模式的每一个特征需要给出一个“是”与“否”的答案,“是”表示该模式具有对应特征,其值就为1,否则不具有对应特征,其值就为0。对于二类模式的分类问题,通常采用下述形式的判别函数:下面考虑因为模式中各特征相互独立,所以可以把条件概率写成的分量的概率之积的形式:因此似然比为:

如果采用对数形式的判别函数,则有:上式关于是线性的,因此可以改写得到线性判别函数的形式:

因为模式中各特征相互独立,所以可以把条件概率写成

是的分量的线性组合,它们的系数是权,它的值表示在作分类决策时对特征作“是”回答的关联程度。在判别中,先验概率仅对阈值权起作用。如果,则,说明不能给出有关类别的信息。如果,则,从而是正的。这种情况下,特征对于类给出的是的频率要高于类。同样如果,则是负的,此时特征对于类给出的“是”的频率要低于类。是的分量的线性组合,它们的系数是权,它的值表示2.5关于分类器的错误率问题任何一种决策规则都有其相对应的错误率。在已知类条件概率密度及先验概率的条件下,当采取指定的决策规则分类,其错误率应该是固定的在分类器设计出来后,通常总是以错误率的大小来衡量其性能的优劣。当用不同的分类方法处理同一问题时,通常总是以错误率大小作为比较方案好坏的标准2.5关于分类器的错误率问题任何一种决策规则都有其相对应的在模式识别的理论和实践中错误率是非常重要的参数。但是,计算错误率是复杂和困难的现在计算或估计错误率的方法分成三大类:①按理论公式计算(非常简单的情况)②计算错误率的上界(要尽可能紧)③实验估计在模式识别的理论和实践中错误率是非常重要的参数。但是,计算错本章小结内容:Bayes决策理论,正态分布情况下的详细讨论特点:依据Bayes理论设计的分类器理论上讲具有最优的性能,可以被用来作为衡量其他分类器设计方法优劣的标准问题:如何估计出类先验概率、类条件概率密度函数(实现时的难点)本章小结内容:Bayes决策理论,正态分布情况下的详细讨论演讲完毕,谢谢观看!演讲完毕,谢谢观看!第2章贝叶斯(Bayes)决策理论2.1引言(已知条件、欲求解的问题)2.2几种常用的决策规则2.3正态分布时的统计决策2.4离散情况的贝叶斯决策

2.5分类器的错误率问题第2章贝叶斯(Bayes)决策理论2.1引言(已知条件2.1引言模式识别的分类问题:根据待识别对象的特征观察值,将其分到某一个类别中2.1引言模式识别的分类问题:根据待识别对象的特征观察值Bayes决策理论的基本已知条件①已知决策分类的类别数为c,各类别的状态为:②已知各类别总体的概率分布(各个类别出现的先验概率和类条件概率密度函数)Bayes决策理论的基本已知条件①已知决策分类的类别数为c,Bayes决策理论欲解决的问题如果在特征空间中观察到某一个(随机)向量x=(x1,x2,…,xd)T那么,应该将x分到哪一个类才是最合理的?Bayes决策理论欲解决的问题如果在特征空间中观察到某一个(2.2几种常用的决策规则2.2.1基于最小错误率的Bayes决策2.2.2基于最小风险的Bayes决策2.2.3Neyman-Pearson决策2.2.4最小最大决策2.2.5序贯分类方法2.2几种常用的决策规则2.2.1基于最小错误率的Ba2.2.1基于最小错误率的Bayes决策利用概率论中的Bayes公式进行分类,可以得到错误率最小的分类规则2.2.1基于最小错误率的Bayes决策利用概率论中的B已知条件①类别状态的先验概率②类条件概率密度已知条件①类别状态的先验概率根据Bayes公式得到状态的后验概率基本决策规则ifthen将x归属后验概率最大的类别

后验=似然x先验/证据因子根据Bayes公式得到状态的后验概率基本决策规则ifthen两类情况下的Bayes决策规则及其变型①Bayes决策规则两类情况下的Bayes决策规则及其变型①Bayes决策规则②变型1(消去相同的分母)②变型1(消去相同的分母)③变型2④变型3(取似然比的自然对数的负值)似然比似然比阈值③变型2④变型3(取似然比的自然对数的负值)似然比似然比阈值两类的后验概率相等时,采取的策略:归属其中一类拒绝(设置一个拒绝类,供进一步分析)两类的后验概率相等时,采取的策略:例:某地区细胞识别中,正常和异常细胞的先验概率:

P(ω1)=0.9,P(ω2)=0.1有未知细胞x,对应的类条件概率密度:P(x|ω1)=0.2,

P(x|ω2)=0.4判别该细胞属于正常细胞还是异常细胞?解:先计算后验概率:属于正常细胞,注意:先验概率起主导作用如果先验概率相等,则属于异常细胞例:某地区细胞识别中,正常和异常细胞的先验概率:P(x|ω正确分类与错误分类正确分类:将样本归属到样本本身所属的类别错误分类:将样本归属到非样本本身所属的类别正确分类与错误分类正确分类:将样本归属到样本本身所属的类别以一维、两类情况为例,证明Bayes规则使分类错误率最小(平均)错误率定义为条件错误概率以一维、两类情况为例,证明Bayes规则使分类错误率最小(平Bayes决策规则:此时,x(ω2)的条件错误概率此时,x(ω1)的条件错误概率Bayes决策规则:此时,x(ω2)的条件错误概率此时,条件错误概率Bayes公式全概率公式平均错误率条件错误概率Bayes公式全概率公式平均错误率t

是两类的分界点,x轴分成两个区间只有当t取两类后验概率相等的点时,错误率才是最小的(黄颜色区域变成零)红+黄绿t是两类的分界点,x轴分成两个区间只有当t取两类后验概贝叶斯决策理论课件2.2.2基于最小风险的Bayes决策在医学诊断上,有误诊(无病说有病)、漏诊。在雷达防空中,有虚警、漏警(有飞机说成无飞机)。这些错误判断会造成不同的后果和损失。基于最小风险的Bayes决策是:在考虑各种错误可能造成不同的损失的情况下的Bayes决策规则2.2.2基于最小风险的Bayes决策在医学诊断上,有误基本概念决策(行动):所采取的决定决策(行动)空间:所有可能决策所构成的一个集合损失:每一个决策将付出的代价,通常为决策和自然状态(类)的函数基本概念决策(行动):所采取的决定状态决策…c个自然状态(类)a个决策损失一般决策表状态…c个自然状态(类)a个决策损失一般决策说明:状态空间由c个自然状态(c个类)组成:决策空间由a

个决策组成:a=c或者a=c+1

(拒绝类)说明:状态空间由c个自然状态(c个类)组成:决策空间由损失函数有a×c

个值:含义:当真实状态为ωj

而所采取的决策为

αi

时所造成的损失大小损失函数有a×c个值:含义:已知后验概率最小错误率Bayes决策取后验概率的最大者对于给定的模式向量x已知后验概率最小错误率Bayes决策取后验概率的最大者对于给在决策表中,每一个决策αi

对应存在

c个损失。对于x,定义在采取决策αi

时的条件期望损失(条件风险)为:在决策表中,每一个决策αi对应存在c个损失。对于x是随机向量的观察值,对于其不同观察值,采取不同的决策αi时,对应不同的条件风险。所以,不同的x,将会采用不同的决策决策可以看成随机向量x的函数,记为α(x)(随机变量),可以定义期望风险为注:积分在整个特征空间上进行x是随机向量的观察值,对于其不同观察值,采取不同的决策α差别:条件风险

R(αi|x)只反映出,对某一个x取值,采取决策行动αi所带来的风险期望风险

R

则反映,在整个特征空间中不同的x

取值,采取相应的决策α(x)所带来的平均风险差别:目标:所采取的一系列决策行动应该使期望风险达到最小手段:如果在采取每一个决策时,都使其条件风险最小,则对所有的x作决策时,其期望风险也必然达到最小决策:最小风险Bayes决策目标:所采取的一系列决策行动应该使期望风险达到最小最小风险Bayes决策规则:其中采取决策最小风险Bayes决策规则:其中采取决策最小风险Bayes决策的步骤①在已知类先验概率和类概率密度函数的情况下,计算待识x的后验概率(Bayes公式)最小风险Bayes决策的步骤①在已知类先验概率和类概率密度函②根据决策表,计算每一个决策的条件风险③找出条件风险最小值所对应的决策,对x采取该决策(归属到该类)②根据决策表,计算每一个决策的条件风险③找出条件风险最小值所例:区分正常与异常细胞正常细胞异常细胞后验概率例:区分正常与异常细胞正常细胞异常细胞后验概率条件风险决策:归属到异常细胞原因:损失起主导作用0610正常异常归正常归异常条件风险决策:归属到异常细胞0610正常异常归正常归异常两种决策规则之间的关系定义0-1损失函数意义:正确决策没有损失,错误决策损失都为1附件条件:c个类别对应c个决策(无拒绝类)两种决策规则之间的关系定义0-1损失函数意义:附件条件:c对x采取决策(归属)ωi时的条件错误概率结论:在0-1损失函数的条件下,使风险最小的Bayes决策等价于使错误率最小的Bayes决策,后者是前者的特例最小最小最大对x采取决策(归属)ωi时的条件错误概率结论:在0-2.2.3Neyman-Pearson(聂曼-皮尔逊)决策在限定一类错误率条件下,使另一类错误率为最小的两类别决策2.2.3Neyman-Pearson(聂曼-皮尔逊)决策2.2.4最小最大决策考虑先验概率变化的情况下,如何使最大可能的风险为最小,即在最差的条件下争取最好的结果2.2.4最小最大决策考虑先验概率变化的情况下,如何使最贝叶斯决策理论课件贝叶斯决策理论课件2.2.5序贯分类方法原因:获取特征需要付出一定的代价(成本),我们要衡量,增加特征所付出的代价,减少错误率所得到的好处2.2.5序贯分类方法原因:获取特征需要付出一定的代价(成序贯分类方法:先用一部分特征来分类,逐步加入特征以减少分类损失每步都要衡量加入新特征所花代价与所降低分类损失的大小,以便决定是否继续增加新特征序贯分类方法:2.2.6分类器设计要点:判别函数决策面(分类面)分类器设计2.2.6分类器设计要点:决策面(分类面)对于c

类分类问题,按照决策规则可以把d

维特征空间分成c个决策域,我们将划分决策域的边界面称为决策面(分类面)决策面(分类面)对于c类分类问题,按照决策规则可以把d判别函数用于表达决策规则的某些函数,则称为判别函数判别函数可以取为决策规则的单调增函数,最简单的形式就是决策规则本身判别函数用于表达决策规则的某些函数,则称为判别函数决策面与判别函数的关系判别函数决定决策面方程分两类和多类情况来讨论判别函数、决策面方程、分类器设计决策面与判别函数的关系判别函数决定决策面方程分两类和多类情况2.2.6.1多类情况设c类问题和d维模式(随机)向量为2.2.6.1多类情况设c类问题和d维模式(随机最小错误率Bayes决策规则:最小错误率Bayes决策规则:判别函数定义一组(c

个)判别函数gi(x),i=1,…,c来表示c

类决策规则,可以取判别函数定义一组(c个)判别函数决策规则如果使对all成立,则将x归于ωi

类决策规则如果使对all成立,则将x归于ωi类决策面方程各决策域被决策面所分割,决策面应该是特征空间中的超曲面。相邻的两个决策域在决策面上,其判别函数值是相等的决策面方程各决策域被决策面所分割,决策面应该是特征空间中的超如果Ri和Rj

是两个相邻的决策域,则它们之间的决策面方程:如果Ri和Rj是两个相邻的决策域,则它们之间的决贝叶斯决策理论课件分类器设计分类器:可看成是由硬件或软件组成的一个“机器”(程序)功能:先计算出c

个判别函数值,再从中选出对应于判别函数为最大值的类作为决策结果分类器设计分类器:可看成是由硬件或软件组成的一个“机器”(程贝叶斯决策理论课件2.2.6.2两类情况设两类问题和d维模式(随机)向量为2.2.6.2两类情况设两类问题和d维模式(随机)向最小错误率Bayes决策规则:最小错误率Bayes决策规则:判别函数只需定义一个判别函数:具体形式有:判别函数只需定义一个判别函数:具体形式有:决策规则ifthenthenif决策规则ifthenthenif决策面方程特征空间:一维,决策面:分界点二维曲线三维曲面高维超曲面决策面方程特征空间:一维,决策面:分界点分类器设计两类分类器的功能:计算判别函数,再根据计算结果的符号将x分类g(x)判别计算阈值单元决策分类器设计两类分类器的功能:计算判别函数,再根据计算结果的符2.3正态分布时的统计决策重点分析正态分布情况下统计决策的原因是:①正态分布在物理上是合理的、广泛的②正态分布数学表达上简捷,如一维情况下只有均值和方差两个参数,因而易于分析2.3正态分布时的统计决策重点分析正态分布情况下统计决策的2.3.1正态分布概率密度函数的定义与性质单变量正态分布多变量正态分布2.3.1正态分布概率密度函数的定义与性质单变量正态分布1单变量正态分布

连续型概率密度函数应满足条件1单变量正态分布连续型概率密度函数应满足条件单变量正态分布概率密度函数其中均值或数学期望方差单变量正态分布概率密度函数其中均值或数学期望方差2多元正态分布

(1)定义d维向量d

维均值向量d×d协方差矩阵逆矩阵行列式2多元正态分布(1)定义d维向量注:协方差矩阵是非负定的。一般情况情况下,我们假设是正定的,即|Σ|>0,即存在逆矩阵主对角线σij2为方差其他分量σij2(ij)为协方差对称矩阵注:协方差矩阵是非负定的。一般情况情况下,我们假设是正定的,①参数μ与Σ对分布的决定作用多元正态分布完全由均值向量μ与协方差矩阵Σ决定μ有d

个分量,Σ由有d(d+1)/2元素,多元正态分布总共有d+d(d+1)/2个参数常记为:p(x)=N(μ,Σ)

(2)性质①参数μ与Σ对分布的决定作用(2)性质②等密度点的轨迹是一个超椭球面从正态分布总体中抽取的样本大部分落在由μ和Σ所确定的一个区域中。区域的中心由均值向量μ决定,区域的大小由协方差矩阵Σ决定等密度点满足下列方程,其解是一个超椭球面constant②等密度点的轨迹是一个超椭球面constant贝叶斯决策理论课件x到μ的Mahalanobis距离的平方等密度点轨迹是:x到μ的Mahalanobis距离为常数的超椭球面x到μ的Mahalanobis距离的平方③不相关性等价于独立性如果xi与xj为两个随机变量(向量)独立:满足

p(xi,xj)=p(xi)p(xj)不相关:满足E{xixj}=E{xi}E{xj}

③不相关性等价于独立性相互独立不相关成立成立??多元正态分布的任意两个分量成立!相互独立不相关成立成立??多元正态分布的任意两个分量成立!说明:正态分布中不相关意味着协方差矩阵是对角矩阵并且有说明:正态分布中不相关意味着协方差矩阵是对角矩阵并且有④边缘分布(对变量进行积分)和条件分布(固定变量)的正态性⑤线性变换的正态性y=AxA为线性变换的非奇异矩阵。若x为正态分布,则y也是正态分布⑥线性组合的正态性④边缘分布(对变量进行积分)和条件分布(固定变量)的正态性正态分布与熵之间的关系熵的定义单位为奈特,若换为,单位为比特。熵是一个非负的量用来描述一种分布中随机选取的样本点的不确定性。可以证明正态分布在所有具有给定均值和方差的分布中具有最大熵。正态分布与熵之间的关系熵的定义单位为奈特,若换为2.3.2多元正态概率型下的最小错误率Bayes判别函数与决策面多类情况下的判别函数多元正态分布的类概率密度函数2.3.2多元正态概率型下的最小错误率Bayes判别函数与i

类与j

类的决策面方程判别函数常数i类与j类的决策面方程判别函数常数针对不同的协方差矩阵进行讨论针对不同的协方差矩阵进行讨论1第一种情况条件:每类的协方差矩阵都相等,类内各特征间相互独立,具有相等的方差分两种情形(1)各类的先验概率不等(2)各类的先验概率相等1第一种情况条件:每类的协方差矩阵都相等,类内各特征间相互判别函数当前的协方差矩阵为对于每一个判别函数都是相同的(1)先验概率不相等判别函数当前的协方差矩阵为对于每一个判别函数都是相同的(1)消去相同的部分,代入协方差矩阵,得其中向量x到类ωi

的均值向量μi

的欧氏距离的平方消去相同的部分,代入协方差矩阵,得其中向量x到类ωi(2)各类先验概率相等消去相同的部分,得判别函数Bayes决策规则:决策规则简化为(2)各类先验概率相等消去相同的部分,得判别函数Baye解释:对于观察向量x,只需要计算x到各类均值向量的欧氏距离的平方,再将x归于距离最小的类别中去,这样的分类器称之为最小距离分类器解释:对于观察向量x,只需要计算x到各类均值向量的欧氏(3)直观的几何解释判别函数展开后得对于每一个类都相同(3)直观的几何解释判别函数展开后得对于每一个类都相同消去相同部分,得令判别函数为:消去相同部分,得令判别函数为:判别函数是模式向量x的线性函数,这样的分类器称之为线性分类器判别函数是模式向量x的线性函数,这样的分类器称之为线决策面方程(i与j类)现在为判别函数=1决策面方程现在为判别函数=1令决策面方程超平面乘于σ2,提取得令决策面方程超平面乘于σ2,提取得决策面方程:超平面以二维为例,直观地解释它们的几何意义决策面方程:超平面以二维为例,直观地解释它们的几何意义当各类的先验概率相等时,有ωi

类与ωj

类之间的决策超平面通过它们均值向量μi

与μj

连线的中点并与之正交四类当各类的先验概率相等时,有ωi类与ωj类之间的决策超当各类先验概率不相等时,有决策面当P(ωi)>P(ωj)N在M右侧当各类先验概率不相等时,有决策面当P(ωi)>P(ωj)解释:w是点μj到点μi

的向量,x-x0是从点x0到点x(位于决策面上)的向量。两者之间的点积为零,其意义是两者相互垂直,并通过x0当先验概率不相等时,x0位置不在μi到μj连线的中点上,靠近先验概率小的一边,远离先验概率大的一边;决策面通过x0,并与向量μi-

μj正交解释:2第二种情况:Σi=

Σ(各类协方差相等)判别函数简化后得如果各类先验概率相等常数2第二种情况:Σi=Σ(各类协方差相等)判别函数简化后定义新的判别函数(Mahalanobis距离的平方)决策规则:对于观察向量x,计算x到每一类均值向量μi的马氏距离的平方γ2,最后归于γ2最小的类别定义新的判别函数(Mahalanobis距离的平方)决策规则考察判别函数的几何意义展开后,得每一类判断函数都相

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论