模式识别李春权第3章概率密度估计_第1页
模式识别李春权第3章概率密度估计_第2页
模式识别李春权第3章概率密度估计_第3页
模式识别李春权第3章概率密度估计_第4页
模式识别李春权第3章概率密度估计_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、模式识别:概率密度函数的估计,第3章 概率密度函 数的估计,目录,3.1引言 3.2参数估计 3.3非参数估计,3.1 引言,分类器功能结构,贝叶斯分类器:,先验概率,先验概率的估计: 用训练数据中各类出现的频率估计 经验,类条件概率分布估计的方法,离散 连续,基因表达谱,列举所有情况的概率,概率密度估计,混杂:离散、连续,类条件概率密度估计的方法,类条件概率密度估计的两种主要方法: 参数估计:概率密度函数的形式已知,而参数未知,通过训练数据来估计 最大似然估计 非参数估计:密度函数的形式未知,利用训练数据直接对概率密度进行估计 Parzen窗法 kn-近邻法,目录,3.1引言 3.2参数估计

2、 3.3非参数估计,3.2.1 最大似然估计,Maximum Likelihood (ML) 极大似然原理的直观想法是:一个随机试验如有若干个可能的结果A,B,C,。若在一次试验中,结果A 出现,则一般认为试验条件对A 出现有利,也即A 出现的概率很大 样本集可按类别分开,不同类别的密度函数的参数分别用各类的样本集来训练。 概率密度函数的形式已知,参数未知,为了描述概率密度函数p(x|i)与参数的依赖关系,用p(x|i ,)表示。,最大似然估计,似然函数:,对数(loglarized)似然函数:,似然函数(对数似然函数)最大化:,估计结果,计算方法,最大似然估计量使似然函数梯度为0 :,一元正

3、态分布均值和方差的估计,一元正态分布均值和方差的估计,多元正态分布参数最大似然估计,例题:,已知四个样本和三个属性构成的数据矩阵。使用最大似然估计获得均值向量和协方差矩阵。,1 ,2 ,3 1, 1 5 9 2, 2 6 10 3, 3 7 11 4, 4 8 12,解:cov函数计算样本协方差,已知y-matrix(c(1,2,3,4,5,6,7,8,9,10,11,12),4,3) 计算均值向量apply(y,2,mean) 得到结果为 2.5 6.5 10.5 用cov(y)计算样本协方差矩阵得: ,1 ,2 ,3 1, 1.6667 1.6667 1.6667 2, 1.6667 1.

4、6667 1.6667 3, 1.6667 1.6667 1.6667,最大似然估计的协方差矩阵(3/4)*cov(y) ,1 ,2 ,3 1, 1.25 1.25 1.25 2, 1.25 1.25 1.25 3, 1.25 1.25 1.25,目录,3.1引言 3.2参数估计 3.3非参数估计,3.3 非参数估计,非参数估计:密度函数的形式未知,也不作假设,利用训练数据直接对概率密度进行估计。 两种主要方法: Parzen窗法 kN-近邻法,基本方法,设样本集为D=x1,x2,x3,每个样本xi对以它为中心,宽度为h的范围内分布的贡献为a,要想估计p(x),可以把每个样本点的贡献相加近似作

5、为这点的密度,对任意点都这样做,则得到分布p(x)。当N足够大时,将有好的估计效果。,我们也可以认为每个样本对自己所在位置的分布贡献最大,而离得越远,则贡献越小。所以表示为在样本xi处对分布贡献最大,而往两边越来越小的函数形式。,理论依据,如果有N个样本x1,xN是从p(x)的总体中独立抽取的,则N个样本中有k个落入区域R中的概率Pk等于二项分布:,当 时,Pk的值最大。可取,两种主要方法:Parzen窗法和kN-近邻法,Parzen窗法 固定体积(例如: ),计算落入区域的样本数k kN-近邻法 固定落入区域样本数k(例如: ),计算落入k个样本需要的体积V,参数估计和非参数估计的使用范围,

6、非参数估计: (1)样本数量非常充足。 (2)样本的分布形式未知。 参数估计: 贝叶斯- (1)样本数量非常充足或很充足。 (2)样本的分布形式已知。 朴素贝叶斯- (1)样本数量非常充足、很充足或充足。 (2)样本的分布形式已知。 (3)属性之间近似独立。,习题,类条件概率密度估计的两种主要方法_和_。 类条件概率密度估计的非参数估计有两种主要的方法_和_。它们的基本原理都是基于样本对分布的_原则。 如果有N个样本,可以计算样本邻域的体积V,然后获得V中的样本数k,那么P(x)=_。,假设正常细胞和癌细胞的样本的类条件概率服从多元正态分布 ,使用最大似然估计方法,对概率密度的参数估计的结果为_。 证明:使用最大似然估计方法,对一元正态概率密度的参数估计的结果如下:,例题:,已知5个样本和2个属性构成的数据集中,w1类有3个样本,w2类有两个样本。如果使用贝叶斯方法设计分类器,需要获得各类样本的条件概率分布,现假设样本服从多元正态分布 ,则只需获得分布的参数均值向量和协方差矩阵即可,那么采用最大似然估计获得的w1类的类条件概率密度均值向量为_,以及协方差矩阵为_。,计算机求解:计算样本均值向量和协方差矩阵,已知y-matrix(c(1,1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论