02贝叶斯决策理论和ASMS3000决策分析平台_第1页
02贝叶斯决策理论和ASMS3000决策分析平台_第2页
02贝叶斯决策理论和ASMS3000决策分析平台_第3页
02贝叶斯决策理论和ASMS3000决策分析平台_第4页
02贝叶斯决策理论和ASMS3000决策分析平台_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章贝叶斯决策理论2.1引言2.2最小错误率贝叶斯决策2.3最小风险贝叶斯决策2.4正态分布下的贝叶斯决策2.1引言统计决策理论是根据每一类总体的概率分布决定未知类别的样本属于哪一类贝叶斯决策是统计决策理论的基本方法,它的基本假定是分类决策是在概率空间中进行的,并且以下概率分布是已知的每一类的概率分布类条件概率密度继续考虑鲈鱼和鲑鱼的例子假定传送带上送过来的鱼的种类是随机的,令ω表示鱼的种类,且为鲈鱼时ω=ω1,为鲑鱼时ω=ω2。由于我们无法确定性地预测鱼的种类,因此ω为随机变量。如果要分类的鱼中鲈鱼和鲑鱼的数目相等,则我们认为下一次出现鲈鱼和鲑鱼的可能性一样。一般的,假定已知出现鲈鱼的概率P(ω1)和出现鲑鱼的概率P(ω2),则P(ω1)+P(ω2)=1.这是我们在决策之前已知的先验知识,因此称为先验概率分布只依赖先验概率的决策先验概率反映了我们在鱼真正出现之前就已经具有的关于鲈鱼和鲑鱼的出现的可能性的知识。它受很多因素的影响,比如一年中的时节和所在的区域等等。假定在某个鱼还没有出现的时刻我们就不得不做出一种分类决策,这时我们拥有的信息只有两种鱼的先验概率。为了减少分类的错误率,合理的决策规则应该是:

如果P(ω1)>P(ω2),则决策为ω1

,否则决策为ω2。分类决策的分析如果只对一条鱼做分类决策,则前面的决策规则是合理的,如果要对连续出现的多条鱼重复这一决策规则,就略显怪异了:尽管我们知道会出现的鱼有两种,但我们只是重复同一决策。这一决策规则的好坏取决于先验概率P(ω1),P(ω2)的相对大小,如果P(ω1)>>P(ω2),则这一决策规则的错误率就比较小,如果P(ω1)=P(ω2),则错误率将达到50%可以证明错误率是P(ω1),P(ω2)中小的那个加入后验信息多数情况下,我们不会只依据先验信息来做分类决策假定我们利用光泽度来提高分类效果,由于不同的鱼会有不同的光泽度,我们仍然把它表示为一个随机变量令x为一个连续值的随机变量,其分布取决于鱼的种类,并表示为p(x|ω),这就是条件概率密度,也就是鱼的种类为ω时x的概率密度函数。类条件概率密度函数光泽度的类条件概率密度函数反应了两种鱼之间光泽度的差异后验概率假定我们知道先验概率P(ωj)和类条件概率密度p(x|ωj),j=1,2,并且测得一条鱼的光泽度为x,那么如何在分类决策中利用这一信息呢?由于联合概率分布满足可得贝叶斯公式其中P(ωj|x)就是类别关于光泽度的后验概率贝叶斯公式贝叶斯公式的直观理解Posterior=(LikelihoodxPrior)/Evidence贝叶斯公式表明通过观测x的值可以将先验概率转变成后验概率,也就是当观测值x给定后样本属于各个类别的概率p(x|ωj)也称为似然度,也就是在其他条件都相同的情况下,使p(x|ωj)越大的ωj越可能是样本所在的真实类别后验概率贝叶斯决策规则如果对于观测到的x满足则我们自然地决策为ω1,否则决策为ω2。在这一规则下的错误率为

P(error|x)=P(1|x)决策为2 P(error|x)=P(2|x)决策为

1。显然,对于给定的x,上述决策规则使得错误率最小。贝叶斯决策如果P(1|x)>P(2|x),则决策为1,

否则决策为2。在这一规则下的错误率为

P(error|x)=min[P(1|x),P(2|x)]。思考:相比于直接利用先验概率的决策,贝叶斯决策的错误率是否减小了?分类器,判别函数和决策面特征分类器有多种表示形式,最常用的是判别函数。给定一个判别函数集合

如果特征x满足则决策为。最小错误率贝叶斯决策中,可令gi(x)=P(ωi|x)。最小风险贝叶斯决策中,可令gi(x)=-R(αi|x)。判别函数的选择并不唯一,可以为gi(x)的任意单调增函数f(gi(x))。等价形式因为p(x)只是一个伸缩因子,并不影响后验概率的相对大小,因此决策规则中可以不考虑p(x):如果p(x|1)P(1)>p(x|2)

P(2),则决策为1,否则决策为2。如果p(x|1)=p(x|2),则x不提供任何信息,决策结果完全取决于先验概率如果P(1)=P(2),两种类别等概率出现,决策规则取决于似然度p(x|j)。基于最小错误率的贝叶斯决策规则:16贝叶斯决策规则及等价形式等价形式2.2最小错误率贝叶斯决策令为c个类别的有限集,特征向量x是一个d维的随机向量,p(x|ωj)为类条件概率密度,P(ωj)是ωj的先验概率,则利用贝叶斯公式,可以计算后验概率其中,决策规则如果对所有都有则决策为ωi.在这一决策规则下,分类错误率决策的平均错误率例:假设在某个局部地区细胞识别中正常和异常两类的先验概率分别为正常状态:异常状态:现有一待识别的细胞,其观察值为x,类条件概率密度分别为,试对该细胞x进行分类。解:决策例子最小错误率的讨论以一维情况为例讨论基于最小错误率的贝叶斯决策确实对应最小错误率统计意义上的错误率,即平均错误率,用P(e)表示20最小错误率的讨论21两类错误率在很多实际问题中,两类并不是同等的,比如在疾病的诊断中,假阳性是指误诊,而假阴性则为漏诊,假阳(阴)性率是指假阳(阴)性样本占整个阴性(阳性)样本的比例。在评价一种检测方法的效果时,常用的两个概念是灵敏度(sensitivity)和特异性(specificity)。前者是指在真正的阳性样本中有多少能被检测出来,而后者是指在阴性样本中有多少比例没有被误判。两者是一对矛盾,需要根据实际情况取得最佳平衡。在统计学上,假阳性又被称为第一类错误(Type-IError),假阴性被称为第二类错误(Type-IIError)。两类错误率用FP,FN,TP,TN分别表示假阳性,假阴性,真阳性,真阴性的样本数,Sn和Sp分别表示灵敏度和特异性,α,β分别表示第一类和第二类错误率,则如果令ω1表示阴性,ω2表示阳性,则前面最小错误率讨论中的P1(e)和P2(e)分别对应于第一类错误率和第二类错误率。总的错误率是两类错误率的加权平均。Neyman-Pearson决策在某些应用中,我们希望保证某个错误率不超过一个固定水平,在此前提下再考虑另一类错误率尽可能低。比如,在鲈鱼和鲑鱼的例子中,可能政府会强制性规定,鲑鱼错分为鲈鱼的比例不得超过1%对某些重要疾病的诊断,我们希望确保漏诊率低于一个水平ε0(比如0.1%).这种限定一类错误率而使另一类错误率最小的决策规则称作Neyman-Pearson决策规则。可以用Lagrange乘子法求解。2.3最小风险贝叶斯决策在实际问题中,我们关心的可能不是分类的错误率本身,而是它所带来的风险在鲈鱼和鲑鱼的例子中,把鲈鱼错判为鲑鱼和把鲑鱼错判为鲈鱼的损失是不一样的在癌细胞的识别中,把正常细胞误判为癌细胞和把癌细胞误判为正常细胞的代价也是不一样的因此,不考虑不同错误所带来的不同风险而将它们一视同仁,在很多情况下是不恰当的所谓最小风险贝叶斯决策,就是考虑各种错误造成损失不同时的一种最优决策问题描述令为c个类组成的状态空间,样本为d维随机向量,对随机向量x可能采取的决策组成了决策空间

设对于实际状态为ωj的向量x,采取决策αi所带来的损失为λ(αi,ωj),i=1,…k,j=1,…c.λ(αi,ωj),i=1,…k,j=1,…c称为损失函数,通常用表格给出,在应用中需要根据问题的背景知识确定。最小风险贝叶斯决策对于某个样本x,它属于各个状态的后验概率是对它采取决策的期望损失是设有某一个决策规则,它对所有可能样本x采取决策所造成的期望损失是最小风险贝叶斯决策的决策规则最小风险贝叶斯决策的决策规则即是最小化期望风险R(α)。由于R(α(x)|x)和p(x)都是非负的,且p(x)是已知的,因此要使R(α)最小,就要对所有x使R(α(x)|x)最小,因此,最小风险贝叶斯决策就是:若则决策步骤利用贝叶斯公式计算后验概率利用决策表,计算条件风险在各种风险中选择风险最小的决策,即特殊情形在样本和决策都是两类的情形下,最小风险贝叶斯决策为:其中,显然,当时,最小风险贝叶斯决策就变为最小错误率贝叶斯决策。几种等价形式决策例子决策状态ω1ω2α106α210在前面例子的基础上,利用下面的决策表,按最小风险贝叶斯决策重新进行分类决策。P(ω1)=0.9,P(ω2)=0.1,未知细胞x满足P(x|ω1)=0.2,

P(x|ω2)=0.4。决策例子解:已计算出的后验概率为条件风险由于,决策为ω2,即判别待识别细胞为异常细胞。分析同样的数据,因为对两类错误带来的风险的认识不同,得出了与前面相反的结论。由于决策表是人为确定的,决策表的不同会导致决策结果的不同,因此,在实际应用中,需要认真分析所研究问题的内在特点和分类的目的,与应用领域的专家共同设计出适当的决策表,才能做出更有效的决策。2.3正态分布时的统计决策正态分布概率密度函数的定义及性质多元正态概型下的最小错误率贝叶斯判别函数和决策面

正态分布的重要性正态分布是所有分布中最受关注的分布数学上易于分析物理上的合理性:适合于给定类别ωi的特征x是某个单值向量μi的随机扰动的情形(根据中心极限定理,大量微小的,独立的随机扰动加和的累积效应会导致高斯分布)很多模式(比如鱼,手写字符,语音等)都可以看成一个理想模式被大量随机过程所扰动的结果,因此正态分布是描述实际概率分布的理想模型2.3.1正态分布概率密度函数的定义及性质㈠单变量正态分布

●单变量正态分布概率密度函数定义为正态分布的重要性质正态分布可以由均值μ和方差σ完全确定正态分布与熵之间有着深刻的联系,熵度量的是从一个分布中随机抽取样本时的不确定性可以证明,在给定均值和方差的前提下,正态分布的熵是最大的㈡多元正态分布⒈多元正态分布的概率密度函数

●协方差的各分量为:●协方差矩阵总是非负定阵。●对于任意随机向量x,xT∑x是∑的二次型。如果对x≠0的一切x

xT∑x≥0都成立,则称∑为非负定阵。●若xT∑x>0,则∑为正定阵。●对于正定矩阵,各阶主子式非零(包括|∑|≠0)。2.多元正态分布的性质⑴参数μ和∑对分布的决定性⑵等密度点的轨迹为一超椭球面⑶不相关性等价于独立性⑷边缘分布和条件分布的正态性⑸线性变换的正态性⑹线性组合的正态性⑴参数μ和∑对分布的决定性多元正态分布被均值向量μ和协方差矩阵∑所完全确定。均值向量μ由d个分量组成;协方差矩阵∑由于其对称性故其独立元素有p(x)~N(μ,∑)多元正态分布概率密度函数常记为⑵等密度点的轨迹为一超椭球面从正态分布总体中抽取的样本大部分落在由μ和∑所确定的一个区域里。下图给出了从一个以均值μ为中心的二维高斯分布中取出的样本。椭圆显示了等概率密度的高斯分布轨迹。■当指数项为常数时,密度p(x)值不变,因此等密度点应是此式的指数项为常数的点,即应满足■可以

证明上式的解是一个超椭球面,且它的主轴方向由∑阵的特征向量所决定,主轴的长度与相应的协方差矩阵∑的本征值成正比。在数理统计中上式所表示的数量:为x到μ的Mahalanobis距离的平方。所以等密度点轨迹是x到μ的Mahalanobis距离为常数的超椭球面。这个超椭球体大小是样本对于均值向量的离散度度量。可以证明对应于Mahalanobis距离为超椭球的体积是其中Vd是d维单位超球体的体积。⑶不相关性等价于独立性不相关与独立的定义:若E{xi

xj}=E{xi}·E{xj}则定义随机变量xi和xj是不相关的。若p(xi,xj)=

p(xi)p(xj)则定义随机变量xi和xj是独立的。

■一般情况下相关与独立的关系独立性是比不相关性更强的条件,独立性要求

p(xi,xj)=p(xi)p(xj)对于xi和xj都成立。不相关性是两个随机变量的积的期望等于两个随机变量的期望的积,它反映了xi与xj总体的性质。若xi和xj相互独立,则它们之间一定不相关;反之则不一定成立。■多元正态分布情况对多元正态分布的任意两个分量xi和xj而言,若xi与xj互不相关,则它们之间一定独立。在正态分布中不相关性等价于独立性。(证明见清华模式识别第二版P27)推论:如果多元正态随机向量的协方差阵是对角阵,则x的分量是相互独立的正态分布随机变量。⑷边缘分布和条件分布的正态性多元正态分布的边缘分布和条件分布仍然是正态分布。二元正态分布协方差矩阵∑及其逆矩阵∑-1为根据边缘分布定义其中由于所以x1的边缘分布

就是说边缘分布p(x1)服从以均值为方差为的正态分布。

同理可以推出x2的边缘分布为对于给定x1的条件下x2的分布,有定义p(x2|x1)=p(x1,x2)/p(x1)同理可以写出给定x2条件下x1的分布:⑸线性变换的正态性若对x用线性变换矩阵A(A是非奇异(|A|≠0)的)作线性变换,y

=Ax则y服从以均值向量为Aμ,协方差矩阵为A∑AT的多元正态分布。即p(y)~N(Aμ,A∑AT)⑹线性组合的正态性若x为多元正态随机向量,则线性组合是一维的正态随机变量,且y服从:其中是与x同维的向量。根据最小错误率贝叶斯判别函数,在多元正态概型(p(x|ωi)~N(μi,∑i),i=1,…,c)下就可以立即写出其相应的表达式。判别函数为:●决策面方程为:

2.3.2多元正态概型下的最小错误率贝叶斯判别函数和决策面(1)

这种情况中每类的协方差矩阵都相等,而且类内各特征间相互独立,具有相等的方差。下面再分二种情况讨论。⒈先验概率P(ωi)与P(ωj)不相等㈠第一种情况代入(1),得到:

由于上式中的第二、三项与类别i无关,故可忽略,并将gi(x)简化为为x到类ωi的均值向量μi的欧氏距离的平方。i=1,…,c其中,⒉先验概率P(ωi)=P(ωj)时的情况这种分类器称为最小距离分类器。忽略与i无关的xTx,则判别函数为:

wi0为第i个方向的阈值或偏置。若要对观察x进行分类,只要计算x到各类均值μi的欧氏距离平方,然后把x归于具有的类。判别函数gi(x)是x的线性函数。判别函数为线性函数的分类器称为线性分类器(linearmachine)。所确定的一个超平面。线性分类器的决策面是由线性方程若:则决策x∈ωk。在∑i=σ2I

下,这个方程可改写为wT(x-x0)=0w=μi-μj

其中满足wT(x-x0)=0式的x的轨迹为ωi与ωj类间的决策面,它是一个超平面当P(ωi)=P(ωj)时,超平面通过μi与μj连线中点并与连线正交,如图所示。当P(ωi)不等于

P(ωj)时,如图所示。如果σ2远小于||μi-μj||2,则决策面的位置对先验概率不敏感。㈡第二种情况∑i=∑由∑i=∑2=…=∑c=∑,即∑与i无关,所以,其判别函数(1)可简化为若c类先验概率都相等则判别函数可进一步简化为这时其决策规则为:为了对观察x进行分类,只要计算出x到每类的均值点μi的Mahalanobis距离平方,最后把x归于最小的类别。(2)(1)将(2)式展开,忽略与i无关的xT∑-1x项,则判别函数可写成下面的形式

其中,

wi=∑-1μi

(3)(2)由式(3)可见:它也是x的线性判别函数,因此决策面仍是一个超平面。如果决策域Ri和Rj相邻,则决策面方程应满足:

gi(x)-gj(x)=0即wT(x―x0)=0

其中w=∑-1(μi-μj)若各类的先验概率相等,则此时x0点为μi与μj连线的中点,根据前面的讨论,决策面应通过这一点,如图2.12所示。

若先验概率不相等,x0就不在μi与μj连线的中点上,而是在连线上向先验率小的均值点偏移。一般来说,w与μi-μj方向不同,因此决策面不垂直于μi与μj的连线。㈢一般情况—∑i≠∑j各类的协方差阵不相等,则(d×d矩阵)

(d维列向量)其中:判别函数gi(x)表示为x的二次型。若决策域Ri与Rj相邻,则决策面应满足

gi(x)-gj(x)=0即xT(Wi-Wj)x+(wi-wj)Tx+wi0-wj0=0由上式所决定的决策面为超二次曲面,随着∑i,μi,P(ωi)的不同而呈现为某种超二次曲面,如超球面、超椭球面、超抛物面、超双曲面或超平面。ASMS3000决策分析平台

1、决策分析平台的重要性2、订票、出票、送票统计3、销售数据分析、坐席工作效率分析与航线销售对比分析的查看与统计4、盈利分析5、员工业绩统计分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论