版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1第三章 概率密度函 数的估计 2 前一章我们讨论了各种决策规则,在设计分类器时,总是假定先验概率和类条件密度函数是已知的。 在实际工作中,先验概率和类条件密度函数都可能未知。 需要利用样本设计分类器。3 利用样本设计分类器 的方法有两种:1) 从样本中估计先验概率和类条件密度函数,然而按前一章的方法2)不作估计,直接利用样本设计分类器 在用第一种方法时,需要从收集的样本中去估计先验概率和类条件密度函数。这就要用到估计理论。讨论如何估计(估计的方法),估计的好坏、性质。4 从样本中估计概率密度函数时,有以下一些情况: 概率密度估计参数估计(分布形式已知,但参数要估计)非参数估计(分布形式未知,
2、直接估计密度函数)有监督的参数估计(样本类别已知)无监督的参数估计(样本类别未知)最大似然估计(把待估参数看作是确定的)贝叶斯估计(把待估参数看作是随机的)Parzen窗估计KN近邻估计 KN近邻分类法5 参数估计中的一些基本概念: 1) 统计量:针对不同的要求所构造的样本的函数,包含了总体的信息;2) 参数空间:未知参数全部可允许值的集合;3) 点估计:构造一个统计量作为待估参数的值,即估计参数值;4) 区间估计:估计待估参数可能取值的区间。 63.1 常数参数的估计 一般要估计的参数可能是标量、向量、矩阵。不失一般性,假定待估参数是向量 。 在最大似然估计中,把待估参数 看作是确定的常数。
3、 而贝叶斯估计则把 看作是随机变量,它的先验密度是已知的。 7一. 最大似然估计 令 是随机向量x的密度函数中的向量参数(其分量是标量)。记x的密度函数为 ,令 是观测x所得到的N个样本。在估计问题中,这些样本本身也是随机变量,可以用一个联合密度函数 表示。 假定这些样本 是独立的。 是 的函数。它是 的似然函数。 TL,21;xp Nxxx,21 ;,Npxxx21 Nxxx,21 ;,Npxxx21 Nxxx,218 只要导数存在,使似然函数最大的 可以通过解下面的似然方程或对数似然方程得到: 021;,Npxxx 0ln21;,Npxxx 的最大似然估计是,在N个观测样本的基础上,选择这
4、样的 ,它使似然函数最大。 换句话说,选择的 应使 落在 (样本)的附近小区域内最大。(当 均匀分布时,发生概率最大) N ixN ix N个观测样本9 由于对数函数是单调增的,所以这两个方程完全是等价的。用时哪个方便,就用哪个。 例例1 1:计算机通道输出请求出现率的估计 假定计算机的某一通道输出请求的时间间隔T按如下的指数函数分布: 其它 00 TeTpT假定观察了N+1个请求,间隔时间为 ,希望估计参数 的大小(称为到达率) NTTT,2110 解解:输出请求间的间隔假定为独立的。 似然函数(联合密度函数)为 而 ;,NTTTp21 NiiiTNNiTee11 0ln1NiiTN(对数似
5、然方程) NiiNiiNTNTN111111 例例2 2:多元正态密度函数均值的估计。(上面的例子估计了一个标量参数,本例估计一个向量参数。) 已知随机变量x是正态分布的,协方差矩阵K已知,均值m未知。给出N个样本x(1) ,x(2) ,x(N) ,求均值的最大似然估计。 解解:似然函数是样本的联合密度函数 mxxx;,Np21 NiiTinKK11212mxmx2121-exp12对数似然函数为样本联合密度函数的对数: mxxx21;,Npln NiiTiKKn11mxmx221ln21ln2-将上式对m求导并令它等于0,有 NiiNKp11210mxmmxxx;,ln K是一个常数矩阵 N
6、iiNN11xm即均值的最大似然估计等于样本均值。 13 例例3 3:已知x服从均匀分布 似然函数为 解解:给出了N个样本x(1) ,x(2) ,x(N) 在用求导数的方法解似然方程时(求极值),有时可能遇到一些问题:有多个极值点;或没有极值点。 下面看一个例子。 其它; 0 12112xxp21 NNp12211;,xxx14对数似然函数为 欲使上两式等于0, 必须无穷大才行。 而因为 不能大于最小的样本值 不能小于最大的样本值 1221lnlnNpN;,xxx 12121lnNpN;,xxx 12221lnNpN;,xxx121x2x 15同时为使似然函数最大, 要最小,而最小的可能值是
7、。 , (似然函数在最大值的地方没有零斜率) 12x xx 2x116二. 估计量的性质估计量的性质(注意语言中的断句、分词)(注意语言中的断句、分词) 参数 的一个估计量是样本的函数: 所以估计量本身也是一个随机向量。因此可以在统计的意义上描述它的性质,建立评价“估计好坏” 的标准。 NNNxxx,211.无偏性(unbiased) 若 ,则称 是无偏的,否则称为有偏的。 NEN若 ,则称 是渐进无偏的。 NNElimN172.一致性(consistent) 若对任意小的正数 ,有 称估计的序列 为在概率上收敛于 。 1PNrNlim则称 是一致的。 N() N有的人定义一致性为 02NNE
8、lim() 这称为在均方(mean square)意义上 收敛于 。 N183. 有效性(efficient) 若 和 都是 的估计当 时,称估计 比 有效。N样本容量N固定 使 取得最小值的估计 在大多数情况下,可以认为这两种定义等价。实际上,()的定义比()更强。 NNNVarVarNN即当NVar称为 的有效估计。19* Cramer-Rao定理:如果 是 的任一无偏估计,则估计的任一分量的方差满足 式中, 是下面矩阵J 的逆矩阵的对角线元素: 如果 是无偏的,且 比 有效,则 是一致估计。可以证明,最大似然估计是一致的。 1NNNNNN12iiiijELi,21() 1iijTEJaa
9、 ;,Npxxxa21ln矩阵J 称为Fisher信息矩阵。 20满足()或()的等式的估计是所有估计中最有效的,称为最小方差估计。当最小方差估计存在时,它一定是最大似然估计。 称为CramerRao不等式。 当 是标量时,()式化为 () 2212ln1;,NNpEExxx12iiiijETEJaa ;,Npxxxa21ln21*证明:由于是无偏的,有 是最小方差估计的必要和充分条件是: N NBa式中 是一个矩阵,它的元素是 的函数,但不能是 的函数。 BNTNE0 NNTNdddpxxxxxx2121;,22将上式对 求导,有TNE NTNNdddpxxxxxx2121;, NNdddp
10、xxxxxxI2121;, TNNpxxx;,21ln NNdddpxxxxxx2121;, 0 I NNTNdddpxxxxxx2121;,a23由前面的定义 ;,Npxxxa21ln () IaTNE构造一个随机向量 aiiiz由()式和 有: TEJaa24010001002JEzzEiiTii由于相关矩阵是半正定的,上式的行列式大于、等于002iiiiTiiJJEzzEaiiizTiia|IaTNE(i+1)+1+i+1=2i+3奇数25式中 是J 的i行i列的代数余子式。 iiJ ,J 的逆矩阵的对角线元素。 12iiiiiiJJJE当为最小方差估计时,相关矩阵的行列式为0,zi的分
11、量是线性相关的,所以有 NBa 例例4 4:例2中关于均值的估计是无偏的。 mNmNENmENiiN111x 解解:26若各个样本x x(i)是独立的,它们也是不相关的,所以估计 的协方差矩阵是 的协方差减小 。 NmTNNmmmmE NiTiNiimmEN1121xx KxxNmmENNiTii1112NmN127 它比 有效。又由于无偏 是m的最小方差估计。 Nm1Nm 是m的一致估计。 Nm又由于 mmpN;,xxxa21ln Niim11xKmmNNK1具有 的形式。 NBa28 如果对待估参数 有一些先验知识,这时可以把待估参数看作一个随机向量,用一个密度函数 来刻画,那么这时可以使
12、用贝叶斯估计。 3.2 贝叶斯估计 最大似然估计把待估参数看作确定的量,它用于对未知参数没有先验知识或不愿意作某些假定的时候。 贝叶斯估计和贝叶斯决策是一样的思路。 一. 贝叶斯估计 p29 引入一个连续的损失函数 ,定义贝叶斯风险为: ,c ,NpcRxxx21 ddddNxxx21 NNdddpIxxxxxx2121,式中 (贝叶斯风险) dpcINxxx,21(条件风险) 30 这时,若假定 是非负的, 也是非负的,最小 和最小R是等价的。 ,c而 I I dppppppp使它们最小的估计称贝叶斯估计。 注意它和前面的 是不同的。这里 是参数。 是联合密度函数 ,Npxxx21 ;,Np
13、xxx21 dpcINxxx,2131 前式 是一样的。 对于所有实际的应用 用符号“ ”是为了表示 是一个随机向量。 ,Npxxx21 ppNxxx,21 Npxxx,21 ;,Npxxx21p32二.常用的损失函数,均方估计和最大后验估计 为了求贝叶斯估计,我们需要先定义(先给出)损失函数的形式。不同的损失函数会带来不同的贝叶斯估计值。下面分析两种常用的损失函数的形式。 1.平方误差损失函数和均方估计 , 误差的二次函数 2,c33而 dpINxxx,212为了得到使 最小的 ,只要 I 0221dpINxxx, dpNxxx,21即估计 是 的后验密度的均值。 这个估计称为均方估计,因为
14、它使均方误差 最小。 2ER34求解均方估计的步骤可以归纳如下: 1)确定 的先验分布 ; 而 p2)由样本集 ,求联合分布 ; Nxxx,21 ppp,3)利用贝叶斯公式,求 的后验分布 pppp dpp4)求 dp|352.均匀损失函数和最大后验估计 损失函数为 当 时, 这时,MAPc0MAPc当 时, 1MAPc dpIRNxxx121, dpcINxxx,21R36区域 是 ,任意小, R这样,为使 最小,积分项应最大。而积分项 ,所以应使 Npxxx,21 NNNppppxxxxxxxxx,212121 IRVp)(最大,称为最大后验估计。由贝叶斯公式 如果先验概率是均匀的(在感兴
15、趣区),这时最大 等价于最大 。 pp这时最大后验估计即最大似然估计。 37 例例5 5:正态分布均值的贝叶斯估计 令x(1) ,x(2) ,x(N)是从已知协方差矩阵Kx和未知均值m的正态分布中抽取的。 mxmx21mx1212ixTixniKKp21-exp假定均值本身的分布为正态N(m0,Km)分布(先验密度) 010212mmmm21mmTmnKKp21-exp利用贝叶斯公式,可得后验密度,是正态的,其均值为 38 0111111m1x11mmNiixmxKNNKKNK由于 既是后验密度的均值,也是后验密度的最大值,所以 既是均方估计也是最大后验估计 mm)mmm(dmp当都是一维时有
16、: 20212211111mNxmxNNmmm392021222211mNxmxxmNNNmm20222221mxNxmmxNNNmm22022xmxNmNNmm0222222mmxmxNxmmNNN40 样本均值和先验均值的线性组合,系数和为1,且都是正的。0222222mmxmxNxmmNNNm411)当N0时, ,全部由先验均值定2)当 时, 由样本均值定 3)当 时,先验信息非常可靠, 4)当 时,先验的推测不可靠, 0mmNNmm02m,mm022xmNmm5)一般情况下, ,c为小于无穷大的非负实数,当样本足够多时,对 、m0 的假设就不重要了, cmx222mNmm0222222
17、mmxmxNxmmNNNm由先验均值定由样本均值定42 这节讨论直接从样本中估计密度函数的方法。主要介绍两种方法: 3.3概率密度函数估计的非参数方法(非参数估计) 前两节讲的参数估计方法要求(假定)密度函数的形式是已知的。但实际工作中往往是:1.密度函数的形式不知道; 2.密度函数的形式不是典型的常见分布,不能写成某些参数的函数。 43一. Parzen窗估计 Parzen窗法KN近邻法先估计类条件密度函数,然后用在似然比检验中由类条件密度函数的估计,直接导致似然比检验1.基本思路(以一维随机变量的密度函数的估计为例) 对随机变量x,假定得到了N个独立的样本,x(1),x(2),x(N),它
18、的密度函数p(x)可以用一个直方图近似,每一小区间的宽度为 ,中点为 。 h2 xx 44 hphPr2x xx 样本落在小区间内的概率可以近似为 如果样本数足够多,则概率(上述事件)可以用频率( )近似。 NK 所以密度可以用 近似。 hNKp2x 45 把上述的思路一般化,定义如下的窗函数: 则 是以 为中心的x的函数。 对落在 内的样本,其函数值均为 ,对落在方窗外的样本,函数值为0。 其它 0 21hzhzrxx rx hhix xx h2146 这时 一个样本贡献 ,共有K个,换个角度,即是N个窗的迭加。 函数r称为核函数,势函数或者Parzen窗函数。 h21 NiirNhKNhN
19、Kp11212xx x 核函数(窗函数)也可以是其它的形状,常用的有 4748 矩形窗估计出的 容易产生不连续(钉子状,spiked) 为了满足使估计出的 是正的,而且积分为1(是密度函数),窗函数 要满足: 下面对上述方法作些理论和实际应用上的分析。 如果把区间2h(在多维时是体积V)固定,当样本数越来越多时, 概率,但得到的密度却是空间的平均值,而非某一点 的 ; xp zr xp 10dzzrzrNKx xp49要得到 ,而不是 的平均值,则体积V(2h) 0,但当V 0时,若样本数有限,则 xpp (恰好有样本)(不包含任何样本) 0 x p假定有相当多的样本N 可以利用。 这时由于
20、,下标表示总样本数。 NNNVNKpx 50这时若满足: 窗函数若满足: 使空间平均密度 点的 0limNNVx x p 频率收敛于概率 NNKlim 落在小区域内的样本同总数相比是低阶无穷大0limNKNN 0zr 1dzzr zrzsup51 ( 比 更快的 0) 0lim1diizzzr zrz1这时, 是渐近无偏和均方一致的。 x p2.随机向量密度函数的估计(定量的分析,另种分析方法) 有一随机向量x,R是包含待估密度点 的一个小区域。记x在R内的概率P,根据积分中值定理,为 x VpdpPR xxx式中 是区域R 的体积。而 是区域R中的某一点。 RdVxx52当 是连续的,且R取
21、的足够小时, 有 ,所以 xp xxpp VPpx 为了从一组样本x(1) ,x(2) ,x(N)中估计P,我们要看N个样本中有多少落在区域R内。假定各样本独立,则N个样本中有K个落在R中的概率服从二项分布: KNKKNKPPCP1() ! KNKNCKN53上述二项分布的均值和方差为: NPPPCKKEKNKKNNK11 PNPKEKEKVar122P 的最大似然估计 ,是要求 ,使得()最大。对()求导,并令其等于0,有 PP1111KNKKNKKNKPKNPPKPCdPdP01111KNPPKPPCKNKKNKNKKNKPPCP154 这个估计是无偏的, NKP PNNPNKEPE这个估
22、计也是一致的,(无偏且有效) 因为估计的方差为 NPPNKEKEPEPE122222当N 变大时,方差变为无限小,所以有效,无偏且有效 一致估计。 55由估计出的 ,有 Parzen窗估计定义区域R是超立方体: NKP 定义核函数为: 而 NVKpx () dihii,;21 xx 其它,; 021 1dihzVzridhV256这时()式为 NiirNp11xx x 核函数的选择和一维时一样,也可选择其它的函数,如 nnnzr222221z-exp NVKpx 57在选择核函数或核函数的参数时,应该注意的是: 若核函数太“窄”,则估计出的密度有可能不连续,呈现钉子状; 若核函数太“宽”,则估
23、计出的密度有可能太平滑,不能显示分布的细节。 在实际问题中,核函数的选择取决于 1)待估密度函数的形式; 2)样本数的多少。 58二. KN 近邻估计 在Parzen窗估计中,由于核和体积是固定的,所以若样本分布不均匀,就不能得到满意的估计。 解决的办法是:不使用固定的区域,而是固定落在区域内的样本数,例如KN个,而区域则由 的邻域中正好包含KN个样本定。之所以用符号KN,表示K的选择和总样本数有关。 当把KN近邻法估计出的密度函数直接用于分类时,可以导致非常简单和有效的分类法。 x 59 这样作的好处是: KN近邻估计的公式仍然为: 样本多的地方,体积用的小些,提高分辨率; 样本少的地方,体
24、积用的大些,中间补些值,平滑一些。 NNNVNKpx 60 近邻法在以下的条件下, 将收敛于 x Np x p 0limNNVNNKlim0limNKNN61三. 近邻分类法 以两类问题为例,1和2。 定义体积V是一个超球,中心在 ,半径是r,区域是: 令每类的超球的半径所确定的超球正好包含该类的K个样本。 x rdxx , 是前面讲过的任一种距离。 d 令Ni(i1,2)是每类的样本数。 62 先验概率的估计是 利用密度估计公式2121, iNNNPiir和最小错误率贝叶斯决策公式 NVKpx 122121PPpprrxx63211212212211NNNNNNVNKVNK12211122N
25、NVNVN 即,对每类固定的样本数(K),包含该类K个样本的体积分别为V1和V2,然后比较V1和V2的大小。 12112VV 122121PPpprrxx64若V2 V1,(在 附近1类的样本多)则 1 若V1 V2,(在 附近2类的样本多)则 2 x x 这种决策形式是样本数固定,比体积(grouped form)。 另一种更方便的形式是,在 (待估点)周围选一体积V,它正好包含K个总样本数(1和2的)。这样,两类的体积相同,但在这一体积内包含的1和2的样本数不同,分别为K1和K2。 x 65 依贝叶斯规则,有 211212212211NNNNNNVNKVNK12212211NNNKNK12
26、121KK212121KKKK 即:在同一个超球内,哪类的样本多,就把 归到哪类。 x 122121PPpprrxx66 注意,K一般取奇数,防止出现K1K2的情况(KK1K2)。 这种形式(称为pooled form)非常简单,它不需要计算体积,只要计算 的K个近邻中,哪类的样本多就行了。 另外,KN近邻分类的性能也不错。当样本数 时,1-近邻法(最近邻法)的错误率不超过最小错误率贝叶斯决策的错误率的二倍,当K1时,错误率还要低(但以贝叶斯错误率为下界)。 x 67 近邻法分类的主要问题是,当特征维数和样本数大时,寻找K近邻的计算量大。关于如何减少计算量和近邻的快速搜索算法,关于近邻法的错误
27、率分析等,下一章专门讲。 把近邻法推广到多类问题中是很直接的。 假定有Nc类,先验概率的估计为: ,N是样本总数。 NNPiir 各类的密度估计为 iiiVNK 因此判别函数为: ciiiiiiiNiVKNVNKNNg,211x 68 对于pooled法,体积正好为包含有K个总样本,(K1K2KNc K) 因此等价的判别函数为 决策规则为哪个Ki大,就把Ki分到该类。 iiKg x 69* 3.4 分类器错误率的实验估计 前面我们已经提过,分类器错误率的计算和估计有三种方法: 1. 按理论公式计算: 2. 估算错误率的上限 当先验概率已知,类条件密度已知,定下决策规则后,按错误率的公式计算。要
28、作多重积分。 介绍了Bhattacharyya界和Chernoff界 3.实验估计 70由于前两种情况计算上的困难,且要求知道密度函数,所以实际工作中常用的是实验估计。即利用样本来估计错误率。 需要分析 如何利用样本;估计出的错误率的性质如何。 分两种情况讨论: 1.已设计好分类器时,如何用样本估计错误率;2.未设计好分类器时,如何把样本分为两部分,一部分用来设计分类器,另一部分用来检验分类器。 71一. 已设计好分类器时的错误率的估计 利用考试样本检验分类器时 直观上认为错误率 从估计理论上看,还需要分析: 错分样本数样本总数1.这个估计性质如何? 2.这个估计是最好的吗? 3.当检验样本数
29、增多时,估计结果会有改善吗?表现在什么地方? 下面分两种情况讨论: 721. 先验概率Pr1和Pr2未知随机抽样作为检验集 当不知Pr1和Pr2时,随机取N个样本,假定错分了K个,用 表示真实的错误率,则K服从二项分布: KNKKNCKP1 的最大似然估计: 011lnlnlnlnKNKKNKCKPKN 是 的最大似然估计。 NK 73由于K是随机变量, 也是随机变量。 而 是无偏的。 NKE NKVar1 NNNKENKEE NNKVarNKEVar12由于 时, 有效 N 0Var 一致。 742.先验概率Pr1和Pr2已知时选择抽样 当已知两类的先验概率Pr1和Pr2时,可以分别抽取N1
30、= Pr1N 和N2= Pr2N 个样本作检验集。 设K1和K2分别为N1和N2中被错分类的。因为K1和K2是相互独立的,故 其中 ,i=1,2,是i类的真实错误率。 21211iKNiKiKNiiiiiCKKP,i75利用同样方法,得 ,i=1,2的最大似然估计为: 而总的估计错误为: iiiiNK 21,i2211PPrr 的期望和方差为 2211PEPEErrPPrr2211无偏 76 iiiirPNVar1 121以上得到了未知先验概率时 的估计量和已知先验概率时的估计量 ,哪一种更好呢? 它们都是无偏的,比较一下它们的方差: NPNPNVarVarrr222111111 01 22121PPNrr ,选择抽样的错误率的估计的方差要小,合理。 VarVar77以上对于两类的讨论可以推广到多类。 归纳以上的分析,有: 1.上述错误率的估计在最大似然估计的意义上最好; 2.这些估计都是错误率的无偏估计量; 3.随样本数的增加,置信区间相应地减小。 78二. 未设计好分类器时错误率的估计,如何划分设计样本集和检验集 实际工作中,能够得到的样本只有N个,用它既作设计,又要作检验。存在一个如何划分检验样本集和设计样本集
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度楼层套房租赁合同书(含私人厨师服务)4篇
- 2025版企业安全保卫力量派遣合同范本4篇
- 2025版智能烘焙面包砖设备租赁合同范本4篇
- 2025年度个人股权赠与协议(股权捐赠)4篇
- 二零二五年度苗木种植与林业产业结构调整合同样本4篇
- 2024陶瓷厂劳务外派合同标准模板3篇
- 2025版智能家居瓷砖装饰工程承包合同文本2篇
- 二零二五版模具行业知识产权保护合同4篇
- 2025彩钢瓦建筑构件采购合同标准范本3篇
- 2025版新能源储能系统关键零配件采购与集成服务合同4篇
- 加强教师队伍建设教师领域学习二十届三中全会精神专题课
- 2024-2025学年人教版数学七年级上册期末复习卷(含答案)
- 四年级数学上册人教版24秋《小学学霸单元期末标准卷》考前专项冲刺训练
- 2025年慢性阻塞性肺疾病全球创议GOLD指南修订解读课件
- (完整版)减数分裂课件
- 五年级数学(小数乘除法)计算题专项练习及答案
- 小学数学知识结构化教学
- 2022年睾丸肿瘤诊断治疗指南
- 被执行人给法院执行局写申请范本
- 饭店管理基础知识(第三版)中职PPT完整全套教学课件
- 2023年重庆市中考物理A卷试卷【含答案】
评论
0/150
提交评论