版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1第二章
贝叶斯决策理论
§2.1基于最小错误率的贝叶斯判别法§2.2基于贝叶斯公式的几种判别规则§2.3正态分布模式的统计决策§2.4概率密度函数的估计§2.5贝叶斯分类器的错误概率2§2.3正态分布模式的统计决策
一、正态分布判别函数
1、为什么采用正态分布:
a、正态分布在物理上是合理的、广泛的。
b、正态分布数学上简单,N(μ,σ²)只有均值和方差两个参数。
2、单变量正态分布:
33、(多变量)多维正态分布(1)函数形式:456(2)、性质:
①、μ与∑对分布起决定作用P(χ)=N(μ,∑),μ由n个分量组成,∑由n(n+1)/2元素组成(对称独立元素)。∴多维正态分布由n+n(n+1)/2个参数组成。
②、等密度点的轨迹是一个超椭球面。区域中心由μ决定,区域形状由∑决定。③、不相关性等价于独立性。若xi与xj互不相关,则xi与xj一定独立。④、线性变换的正态性Y=AX,A为线性变换矩阵。若X为正态分布,则Y也是正态分布。⑤、线性组合的正态性。74、判别函数:类条件概率密度用正态来表示:5、决策面方程:8二、最小错误率(Bayes)分类器:从最小错误率这个角度来分析Bayes分类器1.第一种情况:各个特征统计独立,且同方差情况。(最简单情况)判别函数:9
最小距离分类器:未知x与μi相减,找最近的μi把x归类如果M类先验概率相等:1011讨论:二类情况下i=1,212未知x,把x与各类均值相减,把x归于最近一类。最小距离分类器。2、第二种情况:Σi=
Σ相等,即各类协方差相等。1314讨论:针对ω1,ω2二类情况,如图:153、第三种情况(一般情况):Σί为任意,各类协方差矩阵不等,二次项xT
Σίx与i有关。所以判别函数为二次型函数。1617第四节概率密度函数的估计
意义:
贝叶斯决策分类器大都涉及类概率密度函数,对于正态分布模式,其概率密度函数可通过均值向量和协方差矩阵的估算而确定。在无法用参数表征概率密度函数时,则可以通过某些函数来近似地表示。
概率密度函数估计是为贝叶斯决策分类器确定条件.18贝叶斯分类器中只要知道先验概率,条件概率或后验概概率P(ωi),P(x/ωi),P(ωi/x)就可以设计分类器了。现在来研究如何用已知训练样本的信息去估计P(ωi),P(x/ωi),P(ωi/x)
参数估计与非参数估计参数估计:先假定研究的问题具有某种数学模型,如正态分布,二项分布,再用已知类别的学习样本估计里面的参数。非参数估计:不假定数学模型,直接用已知类别的学习样本的先验知识直接估计数学模型。方法:19
监督学习与非监督学习监督学习:在已知类别样本指导下的学习和训练,参数估计和非参数估计都属于监督学习。非监督学习:不知道样本类别,只知道样本的某些信息去估计,如:聚类分析。20一、均值向量和协方差矩阵的参数估计
将参数作为随机参数看待时的估计量算法一般以模式样本的平均作为均值向量的近似值。设某类的模式样本数为N,其均值向量估计量为协方差矩阵C写成向量形式为
21其无偏估计量为
而有偏估计量为22二、概率密度函数的函数近似
当无法用参数表征概率密度函数时,则需要选取某种基函数作近似估计。以P(X)表示以作为的估计,采取最小二乘估计方法,使估计函数与的均方误差函数R最小。将写成m项展开式则:23选择使误差函数R最小,即取偏微分式中右边为的数学期望,可用N个样本的均值来近似故:一般选择正交函数集作为基函数,故有:24∴系数:当基函数正交归一时,则对所有k,有。由于与k无关,且可以认为对所有,,则:求得所有系数后,根据得到概率密度函数,作为对的估计。25例:如图所示为两个类别的模式分布,现通过这些训练样本估计两类概率密度函数,借以得到贝叶斯分类器。
解:类概率密度函数以m项基函数的多项式来近似:
由于基函数必须在模式定义域内正交,故选择埃尔米特函数,因为其正交域在内,该函数一维形式的前几项为:26对于类:
27
为类的模式样本数目,m=4,K=1时系数为:用同样的方法计算类概率密度函数近似展开式系数,有:
28所以:
贝叶斯分类器设计:判别界面为:
29三、后验概率的函数估计
利用后验概率的贝叶斯判别函数:关键是估计后验概率密度函数:
按照选取基函数的方法来逼近,则可以建立如下形式的判别函数:目的:用来近似。30采取线性逼近方法,将式简化为:定义一个随机变量使其取值作为的带噪声的观察值,即为噪声因子,其数学期望值为零。有用来近似未知的。把它代入准则函数,即可采取梯度法求解权向量。31取准则函数为:32此方法迭代的每一步都必须校正权向量,每一步的校正值正比于增量因子故称为增量校正算法。当全部训练模式通过迭代都能被正确分类时,就可以认为权向量收敛于正确的解。M个类别有M个权向量,须分别迭代求解。解算出权向量之后,就可以将x作为的近似函数,即有:33例:取下图中的模式样本,用增量校正算法来迭代求解近似判别函数中的权向量,以确定基于后验概率的判别函数。
解:首先写出训练样本的增广向量:令:于是:3435如此迭代下去,当K=15时,利用已能对全部样本正确地进行分类,说明权向量的解为:按理,还须对类判别函数的权向量迭代求解,由于是两类问题,当已经有了近似函数式,即的近似函数式已经求得时,即可根据以下判别规则对两类模式进行分类36四、均值向量和协方差矩阵的贝叶斯估计将概率密度函数的参数估计量看成是随机量,根据这些估计量统计特性的先验知识,先粗略地给出这些估计量的密度函数,再通过训练模式样本集,利用贝叶斯公式通过迭代运算过程求出参数的后验概率密度。37设为N个用于估计未知参数的密度函数的样本,利用贝叶斯定理,可以得到在逐一给定了之后的条件密度函数的迭代公式:对于,是它的先验概率密度。加入新的样本后,得到新的概率密度。
应是最早的先验概率密度。当给出第一个样本,按贝叶斯定理计算,就得到后验率密度。将作为下一步计算的先验概率密度,读入样本,又得到后验概率密度,……依此可以算出最后的值。38单变量正态密度函数的均值估计法若一模式样本集的类概率密度函数为单变量正态分布,其中已知,均值待求,即:给定N个训练样本,最初的先验概率密度为,是根据先验知识对的推测,其不确定性由表示。由于均值的估计量是样本的线性函数,而样本是正态分布,所以应为正态。39由初始条件:根据贝叶斯法则:40每一次迭代运算从样本子集中逐一给出一个样本,N次运算独立地给出N个样本,因此:式中与无关的因子和均并入常数项。
41
是平方函数的指数函数,仍为正态密度函数,可将它写成,即:
42由训练样本集,求得均值的后验概率密度为。
:根据N个样本对均值的估计,是先验信息()与训练样本的信息(上式中的)相结合的结果,是利用N个训练样本信息对均值先验估计的补充。是对这个估计的不确定性的度量。时→0。是和的线性组合,两者的系数非负,其和为1,故值在和之间。只要,当时,趋于样本均值的估计量。图2-4-3是一正态密度的均值学习过程,每增加一次样本,都减小对的估计的不确定性,随着样本的增加其曲线愈显“尖锐”,均值与估计量之间的偏差的绝对值亦愈来愈小。43上述方法的目的,是为了通过N个训练样本来估计模式样本的类概率密度函数。由于上述两个正态密度函数之积对的积分结果也是正态密度函数,即:在采用训练样本之前,均值未知,经过采用N个样本进行估计之后,概率密度函数为,获得了均值值的估计,同时原来的方差也作了修正;成为
44§2.5
贝叶斯分类器的错误概率
一般来说,任何判别规则都不能得到完全正确的分类,为了评价一种判别规则,需要计算将属于某一类的模式错分到另一类去的概率。
451、一般错误率分析:46472、正态分布最小错误率(在正态分布情况下求最小错误率)4849在实际工作中如果使用数量有限的训练样本集,既作为设计分类器的训练样本,又用它来检验分类器的错误概率,通常采用两种方式:一种方式称为样本划分法。将训练样本分成两组,用其中一组来设计分类器,用另一组检验分类器,求其错误概率。再采用不同的样本分法,可得不同的错误概率,取其平均值作为错误概率的估计。另一种方式是留一个出来法。每次留下N个样本中的一个,用其余N-1个样本来设计分类器,用留下的那个样本进行检验,这样重复进行N次。每次留下的应是不同的一个样本。根据N次检验中判别错误的样本数目,就能得出错误概率的估计值。50附:Bayes分类的算法(假定各类样本服从正态分布)1.输入类数M;特征数n,待分样本数m.2.输入训练样本数N和训练集资料矩阵X(N×n)。并计算有关参数。3.计算矩阵y中各类的后验概率。4.若按最小错误率原则分类,则可根据3的结果判定y中各类样本的类别。5.若按最小风险原则分类,则输入各值,并计算y中各样本属于各类时的风险并判定各样本类别。51例1、有训练集资料矩阵如下表所示,现已知,N=9、N1=5、N2=4、n=2、M=2,试问,X=(0,0)T应属于哪一类?训练样本号k123451234特征x1特征x2110-1-1
010-1
01110-1-2-2-2类别ω1
ω
252解1、假定二类协方差矩阵不等(∑1≠∑2)则均值:535455解2、假定两类协方差矩阵相等∑=∑1+∑256训练样本号k123123123特征x1012-2-1-201-1特征x210-110-1-1-2-2类别ω1ω2ω3解1、假定三类协
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《医学图像处理》课程教学大纲
- 《高等数学1》课程教学大纲
- 汽车零部件及主辅材料配套订货技术协议书
- 山东省济南市重点高中2024-2025学年高一上学期10月阶段检测化学试题含答案
- 2024年出售种蛋鸡苗合同范本
- 2024年出售可移动房屋合同范本
- 2024年出口韩国供货合同范本
- 使用泼尼松的护理查房
- 《餐饮服务与管理》高教版(第二版)6.1酿造酒认知单元练习卷(解析版)
- 【数学】圆锥曲线的方程单元练习卷-2024-2025学年高二上学期数学人教A版(2019)选择性必修第一册
- 2024-2030年中国海砂淡化开采产业未来发展趋势及投资策略分析报告
- 2024江苏省铁路集团限公司春季招聘24人高频500题难、易错点模拟试题附带答案详解
- 家长会课件:小学三年级上册数学家长会课件
- 新一代信息技术基础智慧树知到期末考试答案章节答案2024年哈尔滨师范大学
- Q GDW 10115-2022 110kV~1000kV架空输电线路施工及验收规范
- 六年级上册计算题专项练习1000题及答案
- 核心素养导向下初中数学课堂作业多元化设计
- 愚公移山英文 -中国故事英文版课件
- 国开经济学(本)1-14章练习试题及答案
- 班级管理中立德树人理念的有效融入
- 控制溢流和井漏失返处理
评论
0/150
提交评论