模式识别导论四_第1页
模式识别导论四_第2页
模式识别导论四_第3页
模式识别导论四_第4页
模式识别导论四_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

模式识别导论四第1页,共57页,2023年,2月20日,星期五对x再观察:有细胞光密度特征,有类条件概率密度:P(x/ωί)ί=1,2,…。如图所示利用贝叶斯公式:通过对细胞的再观察,就可以把先验概率转化为后验概率,利用后验概率可对未知细胞x进行识别。第四章贝叶斯决策理论§4-1Bayes分类器—最优分类器、最佳分类器一、两类问题例如:细胞识别问题ω1正常细胞,ω2异常细胞某地区,经大量统计获先验概率P(ω1),P(ω2)。若取该地区某人细胞x属何种细胞

,只能由先验概率决定。第2页,共57页,2023年,2月20日,星期五设N个样本分为两类ω1,ω2。每个样本抽出n个特征,

x=(x1,

x2,

x3,…,

xn)T通过对细胞的再观察,就可以把先验概率转化为后验概率,利用后验概率可对未知细胞x进行识别。1、判别函数:若已知先验概率P(ω1),P(ω2),类条件概率密度P(x/ω1),

P(x/ω2)。则可得贝叶斯判别函数四种形式

:第3页,共57页,2023年,2月20日,星期五2、决策规则:第4页,共57页,2023年,2月20日,星期五

3、决策面方程:

x为一维时,决策面为一点,x为二维时决策面为曲线,x为三维时,决策面为曲面,x大于三维时决策面为超曲面。例:某地区细胞识别;P(ω1)=0.9,P(ω2)=0.1未知细胞x,先从类条件概率密度分布曲线上查到:解:该细胞属于正常细胞还是异常细胞,先计算后验概率:P(x/ω1)=0.2,

P(x/ω2)=0.4第5页,共57页,2023年,2月20日,星期五g(x)阈值单元4、分类器设计:第6页,共57页,2023年,2月20日,星期五二、多类情况:ωί=(ω1,ω2,…,ωm),x=(x1,x2,…,xn)

1.判别函数:M类有M个判别函数g1(x),g2(x),…,gm(x).每个判别函数有上面的四种形式。2.决策规则:另一种形式:3、决策面方程:4、分类器设计:g1(x)Maxg(x)g2(x)gn(x)第7页,共57页,2023年,2月20日,星期五§4-2正态分布决策理论

一、正态分布判别函数

1、为什么采用正态分布:

a、正态分布在物理上是合理的、广泛的。

b、正态分布数学上简单,N(μ,σ²)只有均值和方差两个参数。2、单变量正态分布:第8页,共57页,2023年,2月20日,星期五3、(多变量)多维正态分布(1)函数形式:第9页,共57页,2023年,2月20日,星期五(2)、性质:

①、μ与∑对分布起决定作用P(χ)=N(μ,∑),μ由n个分量组成,∑由n(n+1)/2元素组成。∴多维正态分布由n+n(n+1)/2个参数组成。

②、等密度点的轨迹是一个超椭球面。区域中心由μ决定,区域形状由∑决定。③、不相关性等价于独立性。若xi与xj互不相关,则xi与xj一定独立。④、线性变换的正态性Y=AX,A为线性变换矩阵。若X为正态分布,则Y也是正态分布。⑤、线性组合的正态性。第10页,共57页,2023年,2月20日,星期五判别函数:类条件概率密度用正态来表示:二、最小错误率(Bayes)分类器:从最小错误率这个角度来分析Bayes分类器

1.第一种情况:各个特征统计独立,且同方差情况。(最简单情况)决策面方程:第11页,共57页,2023年,2月20日,星期五

判别函数:最小距离分类器:未知x与μi相减,找最近的μi把x归类如果M类先验概率相等:第12页,共57页,2023年,2月20日,星期五第13页,共57页,2023年,2月20日,星期五讨论:第14页,共57页,2023年,2月20日,星期五未知x,把x与各类均值相减,把x归于最近一类。最小距离分类器。2、第二种情况:Σi=

Σ相等,即各类协方差相等。第15页,共57页,2023年,2月20日,星期五第16页,共57页,2023年,2月20日,星期五讨论:针对ω1,ω2二类情况,如图:第17页,共57页,2023年,2月20日,星期五3、第三种情况(一般情况):Σί为任意,各类协方差矩阵不等,二次项xT

Σίx与i有关。所以判别函数为二次型函数。第18页,共57页,2023年,2月20日,星期五第19页,共57页,2023年,2月20日,星期五§4-3关于分类器的错误率分析

1、一般错误率分析:第20页,共57页,2023年,2月20日,星期五2、正态分布最小错误率(在正态分布情况下求最小错误率)第21页,共57页,2023年,2月20日,星期五第22页,共57页,2023年,2月20日,星期五§4-4最小风险Bayes分类器假定要判断某人是正常(ω1)还是肺病患者(ω2),于是在判断中可能出现以下情况:第一类,判对(正常→正常)λ11

;第二类,判错(正常→肺病)λ21

;第三类,判对(肺病→肺病)λ22;第四类,判错(肺病→正常)λ12

。在判断时,除了能做出“是”ωi类或“不是”ωi类的动作以外,还可以做出“拒识”的动作。为了更好地研究最小风险分类器,我们先说明几个概念:第23页,共57页,2023年,2月20日,星期五在整个特征空间中定义期望风险,期望风险:行动αi:表示把模式x判决为ωi类的一次动作。损耗函数λii=λ(αi/ωi)表示模式X本来属于ωi类而错判为ωi所受损失。因为这是正确判决,故损失最小。损耗函数λij=λ(αi/ωj)表示模式X本来属于ωj类错判为ωi所受损失。因为这是错误判决,故损失最大。风险R(期望损失):对未知x采取一个判决行动α(x)所付出的代价(损耗)条件风险(也叫条件期望损失):第24页,共57页,2023年,2月20日,星期五条件风险只反映对某x取值的决策行动αi所带来的风险。期望风险则反映在整个特征空间不同的x取值的决策行动所带来的平均风险。最小风险Bayes决策规则:第25页,共57页,2023年,2月20日,星期五二类问题:把x归于ω1时风险:把x归于ω2时风险:第26页,共57页,2023年,2月20日,星期五第27页,共57页,2023年,2月20日,星期五§4-5Bayes分类的算法(假定各类样本服从正态分布)1.输入类数M;特征数n,待分样本数m.2.输入训练样本数N和训练集资料矩阵X(N×n)。并计算有关参数。3.计算矩阵y中各类的后验概率。4.若按最小错误率原则分类,则可根据3的结果判定y中各类样本的类别。5.若按最小风险原则分类,则输入各值,并计算y中各样本属于各类时的风险并判定各样本类别。第28页,共57页,2023年,2月20日,星期五例1、有训练集资料矩阵如下表所示,现已知,N=9、N1=5、N2=4、n=2、M=2,试问,X=(0,0)T应属于哪一类?解1、假定二类协方差矩阵不等(∑1≠∑2)则均值:训练样本号k123451234特征x1特征x2110-1-1

010-1

01110-1-2-2-2类别ω1

ω

2第29页,共57页,2023年,2月20日,星期五第30页,共57页,2023年,2月20日,星期五第31页,共57页,2023年,2月20日,星期五解2、假定两类协方差矩阵相等∑=∑1+∑2第32页,共57页,2023年,2月20日,星期五训练样本号k123123123特征x1012-2-1-201-1特征x210-110-1-1-2-2类别ω1ω2ω3解1、假定三类协方差不等;例2:有训练集资料矩阵如下表所示,现已知,N=9、N1=N2=3、n=2、M=3,试问,未知样本X=(0,0)T应属于哪一类?第33页,共57页,2023年,2月20日,星期五第34页,共57页,2023年,2月20日,星期五可得三类分界线如图所示:第35页,共57页,2023年,2月20日,星期五解2、设三类协方差矩阵相等第36页,共57页,2023年,2月20日,星期五可得三类分界线如图所示:第37页,共57页,2023年,2月20日,星期五作业:①在下列条件下,求待定样本x=(2,0)T的类别,画出分界线,编程上机。1、二类协方差相等,2、二类协方差不等。训练样本号k123123特征x1112-1-1-2特征x210-110-1类别ω1ω2第38页,共57页,2023年,2月20日,星期五作业:②有训练集资料矩阵如下表所示,现已知,N=9、N1=N2=N3=3、n=2、M=3,试问,X=(-2,2)T应属于哪一类?要求:用两种解法a、三类协方差不等;b、三类协方差相等。编程上机,画出三类的分界线。训练样本号k123123123特征x1021-1-2-2001特征x201010-1-2-1-2类别ω1ω2ω3第39页,共57页,2023年,2月20日,星期五§4-6在一类错误率固定使另一类错误率最小的判别准则(聂曼-皮尔逊判决neyman-pearson)第40页,共57页,2023年,2月20日,星期五第41页,共57页,2023年,2月20日,星期五例:两类的模式分布为二维正态协方差矩阵为单位矩阵∑1=∑2=I,设ε2=0.09求聂曼皮尔逊准则T.解:第42页,共57页,2023年,2月20日,星期五第43页,共57页,2023年,2月20日,星期五所以此时聂曼——皮尔逊分类器的分界线为:由图可知为保证ε2足够小,边界应向ω1一侧靠,则ε1↑T与ε2的关系表如右:T421½¼ε20.040.090.160.250.38第44页,共57页,2023年,2月20日,星期五§4-7最大最小判别准则:前边的讨论都是假定先验概率不变,现在讨论在P(ωi)变化时如何使最大可能风险最小,先验概率P(ω1)与风险R间的变化关系如下:第45页,共57页,2023年,2月20日,星期五第46页,共57页,2023年,2月20日,星期五这样,就得出最小风险与先验概率的关系曲线,如图所示:讨论:第47页,共57页,2023年,2月20日,星期五上式证明,所选的判别边界,使两类的概率相等:这时可使最大可能的风险为最小,这时先验概率变化,其风险不变第48页,共57页,2023年,2月20日,星期五§4-8决策树—多峰情况Bayes分类器只能适用于样本分布呈单峰情况,对多峰情况则不行。若用决策树,可进行如下步骤分类整个分类过程可用右图的树表示:1、基本概念(1)决策树:二叉树。每个节点都是两类分类器。例如;节点a上的决策规则为:(2)代价(损失)矩阵定义节点L的代价为:第49页,共57页,2023年,2月20日,星期五2、决策树的构造在构造决策树时,需要考虑以下问题:1)、如何判断一节点是否为叶子。如右图表示,假定A、B、C、D、E、F各包含50个样本,并有以下的代价矩阵对于节点a,可以作出以下两个决策之一:决策1,a不再分割决策2,a分为两类决策1的代价为A1(a)=Ca─节点a的代价决策2的代价为A2(a)=α(Cb+Cc)─节点b,c的代价和其中,α为一经验因子,用以防止无限分割下去第50页,共57页,2023年,2月20日,星期五只要经验因子α≤2.25,便有A2(a)≤A1(a),因此取决策2的代价较小,故应把α分为两类。一般地决策代价为:2)、选择节点的分割方式:

a、根据经验确定。例如,全部样本分为三类,其代价矩阵为第51页,共57页,2023年,2月20日,星期五b、根据对样本分布的了解试探确定。如右图所示,将a划分为b,c的方式有两种c、根据聚类结果来划分。3)、如何确定各节点分类器。原则:①、分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论