模式识别第六讲-概率密度估计_第1页
模式识别第六讲-概率密度估计_第2页
模式识别第六讲-概率密度估计_第3页
模式识别第六讲-概率密度估计_第4页
模式识别第六讲-概率密度估计_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章概率密度函数的估计

1前一章我们讨论了各种决策规则,在设计分类器时,总是假定先验概率和类条件密度函数是已知的。在实际工作中,先验概率和类条件密度函数都可能未知。2利用样本设计分类器的方法有两种:从样本中估计先验概率和类条件密度函数,然后设计Bayes分类器2)不作估计,直接利用样本设计分类器

在用第一种方法时,需要从收集的样本中去估计先验概率和类条件密度函数。这就要用到估计理论。讨论如何估计(估计的方法),估计的好坏。3从样本中估计概率密度函数时,有以下一些情况:概率密度估计参数估计(分布形式已知,但参数要估计)非参数估计(分布形式未知,直接估计密度函数)最大似然估计(把待估参数看作是确定的)贝叶斯估计(把待估参数看作是随机的)43.1常数参数的估计

一般要估计的参数可能是标量、向量、矩阵。不失一般性,假定待估参数是向量。在最大似然估计中,把待估参数看作是确定的常数。而贝叶斯估计则把看作是随机变量,它的先验密度是已知的。5一.最大似然估计

令是随机向量x的密度函数中的向量参数(其分量是标量)。记x的密度函数为,令是观测x所得到的N个样本。在估计问题中,这些样本本身也是随机变量,可以用一个联合密度函数表示。假定这些样本是独立的。是的函数。它是的似然函数。6只要导数存在,使似然函数最大的可以通过解下面的似然方程或对数似然方程得到:的最大似然估计是,在N个观测样本的基础上,选择这样的,它使似然函数最大。换句话说,选择的应使落在(样本)的附近小区域内的概率最大。N个观测样本7由于对数函数是单调增的,所以这两个方程完全是等价的。哪个用时方便,就用哪个。例1:计算机通道输出请求出现率的估计假定计算机的某一通道输出请求的时间间隔T按如下的指数函数分布:假定观察了N个请求,间隔时间为,希望估计参数的大小(称为到达率、出现率)8解:输出请求间的间隔假定为独立的。似然函数(联合密度函数)为而(对数似然方程)

∴9例2:多元正态密度函数均值的估计。(上面的例子估计了一个标量参数,本例估计一个向量参数。)已知随机向量x是正态分布的,协方差矩阵K已知,均值m未知。给出N个样本x(1)

,x(2)

,…,x(N)

,求均值的最大似然估计。解:似然函数是样本的联合密度函数10对数似然函数为样本联合密度函数的对数:将上式对m求导并令它等于0,有∵K是一个常数矩阵,∴即均值的最大似然估计等于样本均值。113.2贝叶斯估计

最大似然估计把待估参数看作确定的量。贝叶斯估计和贝叶斯决策是一样的思路。一.贝叶斯估计

如果对待估参数有一些先验知识,这时可以把待估参数看作一个随机向量,用一个密度函数来刻画,那么这时可以使用贝叶斯估计。12引入一个连续的损失函数,定义条件风险为:而13使最小的估计称贝叶斯估计。是一样的。用符号“”是为了表示是一个随机向量。14二.常用的损失函数,均方估计和最大后验估计

为了求贝叶斯估计,我们需要先定义(先给出)损失函数的形式。不同的损失函数会带来不同的贝叶斯估计值。下面分析两种常用的损失函数的形式。平方误差损失函数和均方估计

,误差的二次函数15而为了得到使最小的,只要∴即估计是的后验密度的均值。这个估计称为均方估计,因为它使均方误差最小。16求解均方估计的步骤可以归纳如下:确定的先验分布;求而利用贝叶斯公式,求的后验分布由样本集,求联合分布;17均匀损失函数和最大后验估计

损失函数为当时,当时,这时18区域是,任意小,这样,为使最小,积分项应最大。而积分项,所以应使最大,称为最大后验估计。由贝叶斯公式如果先验概率是均匀的(在感兴趣区),这时最大等价于最大。这时最大后验估计即最大似然估计。19例5:正态分布均值的贝叶斯估计令x(1)

,x(2)

,…,x(N)是从已知协方差矩阵Kx和未知均值m的正态分布中抽取的。假定均值本身的分布为正态N(m0,Km)分布(先验密度)利用贝叶斯公式,可得后验密度,是正态的,其均值为20当都是一维时有:由于既是后验密度的均值,也是后验密度的最大值,所以既是均方估计也是最大后验估计2122样本均值和先验均值的线性组合,系数和为1,且都是正的。23当N=0时,全部由先验均值定当时,由样本均值定当样本足够多时,对、m0

的假设就不重要了,当时,先验信息非常可靠,由先验均值定当时,先验的推测不可靠,由样本均值定24这节讨论直接从样本中估计密度函数的方法。主要介绍两种方法:3.3概率密度函数估计的非参数方法(非参数估计)前两节讲的参数估计方法要求(假定)密度函数的形式是已知的。但实际工作中往往是:密度函数的形式不知道;密度函数的形式不是典型的常见分布,不能写成某些参数的函数。25一.Parzen窗估计Parzen窗法KN近邻法基本思路(以一维随机变量的密度函数的估计为例)对随机变量x,假定得到了N个独立的样本,x(1),x(2),…,x(N),它的密度函数p(x)可以用一个直方图近似,每一小区间的宽度为,中点为。26样本落在小区间内的概率可以近似为如果样本数足够多,则概率(上述事件)可以用频率()近似。所以密度可以用近似。27把上述的思路一般化,定义如下的窗函数:

则是以为中心的x的函数。对落在内的样本,其函数值均为,对落在方窗外的样本,函数值为0。28这时一个样本贡献,共有K个,换个角度,即是N个窗的迭加。函数r称为核函数,势函数或者Parzen窗函数。核函数(窗函数)也可以是其它的形状,常用的有2930矩形窗估计出的容易产生不连续,而高斯窗估计出的要平滑些。为了满足使估计出的是正的,而且积分为1(是密度函数),窗函数要满足:31下面对上述方法作些分析。如果把区间2h(在多维时是体积V)固定,当样本数越来越多时,概率,但得到的密度却是区间的平均值,而非某一点的;要得到,而不是的平均值,则体积V(2h)

0,但当V

0时,若样本数有限,则32实际上样本数总是有限的,因此,不能使体积V(2h)无限小。

应该让体积V

随着可用样本数N而改变。如何变呢?假定有N个样本可以利用。这时有,下标N表示总样本数。(一维时即)33若满足以下三个条件:使空间平均密度点的频率收敛于概率落在小区域内的样本同总数相比是低阶无穷大则收敛于

34满足上述三个条件的区域序列的选择:

Parzen窗方法选择使以变化。

是窗函数,它随着可用样本数N的增多而变窄变高(按)。35可以证明在某些限制条件下,上述估计量是渐进无偏和均方一致的。KN近邻估计方法的公式仍为KN近邻估计选择使KN

为N的某个函数(例如),而的选取是使它刚好包括的KN个近邻。36Parzen窗法应用举例假定待估计的未知概率密度函数是两个均匀分布密度函数的混合,即:37如果采用正态窗函数并设那么就是一个以个样本为中心的正态密度窗函数的一个平均,即:38参数h1影响窗宽。考虑h1取0.25,1和4三个不同的数值,用随机数发生器按给定的概率密度函数产生随机样本,然后用上式估计

,计算结果如下:3910.01.00.10.010.001n=1h1=0.25h1

=1h1

=4-202-202-2024010.01.00.10.010.001n=16-202-202-202h1=0.25h1=1h1=44110.01.00.10.010.001n=256h1=0.25h1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论