非参数估计-KN近邻_第1页
非参数估计-KN近邻_第2页
非参数估计-KN近邻_第3页
非参数估计-KN近邻_第4页
非参数估计-KN近邻_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

非参数估计-Kn近邻估计报告人:马振磊2023/1/151统计决策法Bayes决策法参数估计法非参数估计法线性判别函数概率方法几何方法聚类分析非线性判别函数非参数估计2023/1/152最大似然估计和贝叶斯估计都属于参数化估计。要求待估计的类概率密度函数形式已知。在实际应用中,类概率密度函数形式已知的条件并不一定成立,特别是多峰的概率分布,用普通函数难以拟合,这就需要用非参数估计技术。非参数估计2023/1/153原理不需获取类类概率密度的函数形式,而是直接利用学习样本估计特征空间任意点的类概率密度的值。即直接由学习样本来设计分类器。非参数估计2023/1/154概率密度估计概率密度估计问题:给定的样本集:估计概率分布:2023/1/155概率密度估计非参数概率密度估计的核心思路:一个向量x落在区域R中的概率P为:因此,可以通过统计概率P来估计概率密度函数p(x)2023/1/156概率密度估计假设N个样本的集合是根据概率密度函数为p(x)的分布独立抽取得到的。那么,有k个样本落在区域R中的概率服从二项式定理:k的期望值为:对P的估计:当时,估计是非常精确的2023/1/157概率密度估计假设p(x)是连续的,且R足够小使得p(x)在R内几乎没有变化。令R是包含样本点x的一个区域,其体积为V,设有N个训练样本,其中有k落在区域R中,则可对概率密度作出一个估计:对p(x)在小区域内的平均值的估计2023/1/158非参数估计思路用已知类别的学习样本在特征空间X处出现的频度来近似即:

其中:v为包含X点的区域,k为n个样本中落入体积v的样本数。2023/1/159非参数估计故:表示单位体积内落入x点邻域的样本在总样本中的比例,可以用此来近似样本在X点处的类概率密值。2023/1/1510非参数估计问题一若v固定,则当n增大时,只能表示平均概率,而不是点概率密度因此,为保证为点概率密度,必须有2023/1/1511非参数估计问题二若样本数n固定,则当时,则会出现x邻域内不包含任何样本,得出的错误估计。2023/1/1512解决方案考虑让v和k都随n的变化进行调整,即:非参数估计2023/1/1513如果要求能够收敛到p(x),那么必须满足:选择Vn选择kn非参数估计2023/1/1514非参数估计基本方法

非参数估计法Parzen窗口法Kn近邻法2023/1/1515基本方法Parzen窗口法:主动选择vn与n的关系,kn被动确定,指n个样本中落入区域v的样本数kn近邻法:主动选择kn与n的关系,vn被动确定,指包含kn个样本的x邻域非参数估计2023/1/1516窗口宽度的影响2023/1/1517Kn近邻法Parzen窗口法的估计效果取决于样本总数n及当n较小时,对较为敏感,即:较大容易产生平均误差,估计较平坦,反映不出总体分布的变化。较小容易产生噪声误差,大部分体积将是空的(即不包含样本),从而使估计不稳定。2023/1/1518Kn近邻法其原因是由于只与总样本数有关,即进行概率密度估计时,任何x点处的都是相同的一种合理的选择是对样本出现密度大的x处,可较小,而对样本密度较小的x处,则相对大一些,这就是近邻法。

2023/1/1519Kn近邻法2023/1/1520Kn近邻法基本原理主动选择与n的关系,被动确定,即使得体积为样本密度的函数,而不是样本总数的函数。可选择,该条件可满足:a.b.

c.2023/1/1521Kn近邻法

近邻法,有效地解决了Parzen窗口法存在的问题,对平均误差和噪声性误差均有较好的改善

选择后,如何计算?

2023/1/1522Kn近邻法为与x点相邻的个近邻样本中,与x距离最远的样本所构成的区域,即2023/1/1523Kn近邻法用Kn近邻法设计分类器的过程:获取n个学习样本令找到待识样本X处的Kn个近邻计算Kn

个邻近到X的距离,找到最远距离的样本计算邻域的直径,计算邻域的体积

2023/1/1524Kn近邻法则对每一类样本重复上述过程,得各类的类概率密度将样本X归类到最大的类别中去2023/1/1525KN近邻法作后验概率的估计由KN近邻估计知N个已知类别样本落入VN内为KN个样本的概率密度估计为:

N个样本落入VN内有KN个,KN个样本内有Ki个样本属于ωi类则联合概率密度:

Kn近邻法2023/1/1526根据Bayes公式可求出后验概率:∴

∵类别为ωi的后验概率就是落在内属于ωi的样本ki与内总样本数的比值。Kn近邻法2023/1/1527K近邻分类准则:对于待分样本x,找出它的k个近邻,检查它的类别,把x归于样本最多的那个类别。K近邻分类的错误率随K↑,Pk↓

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论