模式识别 第3章 概率密度估计学习资料_第1页
模式识别 第3章 概率密度估计学习资料_第2页
模式识别 第3章 概率密度估计学习资料_第3页
模式识别 第3章 概率密度估计学习资料_第4页
模式识别 第3章 概率密度估计学习资料_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

模式识别:概率密度函数的估计第3章概率密度函数的估计目录3.1引言3.2参数估计3.3非参数估计概率密度估计的方法类的先验概率的估计:用训练数据中各类出现的频率估计经验概率密度估计的方法类条件概率密度估计的两种主要方法:参数估计:概率密度函数的形式已知,而参数未知,通过训练数据来估计最大似然估计非参数估计:密度函数的形式未知,利用训练数据直接对概率密度进行估计Parzen窗法kn-近邻法目录3.1引言3.2参数估计3.3非参数估计3.2.1最大似然估计MaximumLikelihood(ML)样本集可按类别分开,不同类别的密度函数的参数分别用各类的样本集来训练。概率密度函数的形式已知,参数未知,为了描述概率密度函数p(x|ωi)与参数θ的依赖关系,用p(x|ωi

,θ)表示。最大似然估计似然函数:对数(loglarized)似然函数:似然函数(对数似然函数)最大化:估计结果计算方法最大似然估计量使似然函数梯度为0:一元正态分布均值和方差的估计一元正态分布均值和方差的估计多元正态分布参数最大似然估计均值估计是无偏的,协方差矩阵估计是有偏的。协方差矩阵的无偏估计是:例题:已知四个样本和三个属性构成的数据矩阵。使用最大似然估计获得均值向量和协方差矩阵。

[,1][,2][,3][1,]159[2,]2610[3,]3711[4,]4812解:cov函数计算样本协方差已知

y<-matrix(c(1,2,3,4,5,6,7,8,9,10,11,12),4,3)计算均值向量apply(y,2,mean)得到结果为2.56.510.5用cov(y)计算样本协方差矩阵得:[,1][,2][,3][1,]1.66671.66671.6667[2,]1.66671.66671.6667[3,]1.66671.66671.6667

最大似然估计的协方差矩阵(3/4)*cov(y)

[,1][,2][,3][1,]1.251.25

1.25[2,]1.251.25

1.25[3,]1.251.25

1.25目录3.1引言3.2参数估计3.3非参数估计3.3非参数估计非参数估计:密度函数的形式未知,也不作假设,利用训练数据直接对概率密度进行估计。两种主要方法:Parzen窗法kN-近邻法基本方法设样本集为D={x1,x2,x3},每个样本xi对以它为中心,宽度为h的范围内分布的贡献为a,要想估计p(x),可以把每个样本点的贡献相加近似作为这点的密度,对任意点都这样做,则得到分布p(x)。当N足够大时,将有好的估计效果。我们也可以认为每个样本对自己所在位置的分布贡献最大,而离得越远,则贡献越小。所以表示为在样本xi处对分布贡献最大,而往两边越来越小的函数形式。理论依据如果有N个样本x1,…,xN是从p(x)的总体中独立抽取的,则N个样本中有k个落入区域R中的概率Pk等于二项分布:当时,Pk的值最大。可取两种主要方法:Parzen窗法和kN-近邻法Parzen窗法固定体积(例如:),计算落入区域的样本数kkN-近邻法固定落入区域样本数k(例如:),计算落入k个样本需要的体积V3.2Parzen窗法窗函数的选择常用的窗函数:方窗函数:正态窗函数:

指数窗函数:参数估计和非参数估计的使用范围非参数估计:(1)样本数量非常充足。(2)样本的分布形式未知。参数估计:贝叶斯------(1)样本数量非常充足或很充足。(2)样本的分布形式已知。朴素贝叶斯------(1)样本数量非常充足、很充足或充足。(2)样本的分布形式已知。(3)属性之间近似独立。习题类条件概率密度估计的两种主要方法_________和_________。类条件概率密度估计的非参数估计有两种主要的方法_________和_________。它们的基本原理都是基于样本对分布的_________原则。如果有N个样本,可以计算样本邻域的体积V,然后获得V中的样本数k,那么P(x)=_________。假设正常细胞和癌细胞的样本的类条件概率服从多元正态分布,使用最大似然估计方法,对概率密度的参数估计的结果为__________。证明:使用最大似然估计方法,对一元正态概率密度的参数估计的结果如下:例题:已知5个样本和2个属性构成的数据集中,w1类有3个样本,w2类有两个样本。如果使用贝叶斯方法设计分类器,需要获得各类样本的条件概率分布,现假设样本服从多元正态分布,则只需获得分布的参数均值向量和协方差矩阵即可,那么采用最大似然估计获得的w1类的类条件概率密度均值向量为_________,以及协方差矩阵为________。属性1属性2类别12W114W143W124W226W2计算机求解:计算样本均值向量和协方差矩阵已知

y<-matrix(c(1,1,4,2,4,3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论