版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、模式识别实验报告题目:Parzen窗估计与KN近邻估计学院计算机科学习技术专业xxxxxxxxxxxxxxxx学号xxxxxxxxxxxx姓名xxxx指导教师xxxx20xx年xx月xx日Parzen窗估计与KN近邻估计本实验的目的是学习Parzen窗估计和k最近邻估计方法。在之前的模式识别研究中,我们假设概率密度函数的参数形式已知,即判别函数J(.)的参数是已知的。本节使用非参数化的方法来处理任意形式的概率分布而不必事先考虑概率密度的参数形式。在模式识别中有躲在令人感兴趣的非参数化方法,Parzen窗估计和k最近邻估计就是两种经典的估计法。二、实验原理非参数化概率密度的估计对于未知概率密度函
2、数的估计方法,其核心思想是:一个向量x落在区域R中的概率可表小为:PIp(x)dxJR其中,P是概率密度函数p(x)的平滑版本,因此可以通过计算P来估计概率密度函数p(x),假设n个样本x1,x2,xn是根据概率密度函数p(x)独立同分布的抽取得到,这样,有k个样本落在区域R中的概率服从以下分布:Pk=G)pk(l_P)I其中k的期望值为:E(k)=nPk的分布在均值附近有着非常显著的波峰,因此若样本个数n足够大时,使用k/n作为概率P的一个估计将非常准确。假设p(x)是连续的,且区域R足够小,则有:Ipx)dxap(*)VJR如下图所示,以上公式产生一个特定值的相对概率,当n趋近于无穷大时,
3、曲线的形状逼近一个a函数,该函数即是真实的概率。公式中的V是区域R所包含的体积。综上所述,可以得到关于概率密度函数p(x)的估计为:k/nP3)七一相对概率0.5D.7在实际中,为了估计x处的概率密度函数,需要构造包含点x的区域R1,R2,?-,Rn。第一个区域使用1个样本,第二个区域使用2个样本,以此类推。记Vn为Rn的体积。kn为落在区间Rn中的样本个数,而pn(x)表示为对p(x)的第n次估计:欲满足pn(x)收敛:pn(x)p(x),需要满足以下三个条件:lim此=0n-*limy=8TITlimkn/n=0n-*8有两种经常采用的获得这种区域序列的途径,如下图所示。其中“Parze简
4、方法”就是根据某一个确定的体积函数,比如Vn=1/Vn来逐渐收缩一个给定的初始区间。这就要求随机变量kn和kn/n能够保证pn(x)能收敛到p(x)。第二种"k近邻法”则是先确定kn为n的某个函数,如kn=v/no这样,体积需要逐渐生长,直到最后能包含进x的kn个相邻点。n=rf-Parzen窗估计法已知测试样本数据x1,x2,对数据分布不附加?,xn,在不利用有关数据分布的h为这个超立方体的边长,对于二维先验知识,任何假定的前提下,在三维情况中立方体体积V=hA3,如下图所示。(x如J,x7Ahf2)(Xj-A/2,Xi-h/2)假设R是以x为中心的超立方体,情况,方形中有面积V=
5、hA2,根据以下公式,表示x是否落入超立方体区域中N1XXi=l其中n为样本数量,h为选择的窗的长度,力(.灼核函数,通常采用矩形窗和高斯窗。k最近邻估计在Parzen算法中,窗函数的选择往往是个需要权衡的问题,k-最近邻算法提供了一种解决方法,是一种非常经典的非参数估计法。基本思路是:已知训练样本数据x1,x2,?-,xn而估计p(x),以点x为中心,不断扩大体积Vn,直到区域内包含k个样本点为止,其中k是关于n的某一个特定函数,这些样本被称为点x的k个最近邻点。当涉及到邻点时,通常需要计算观测点间的距离或其他的相似性度量,这些度量能够根据自变量得出。这里我们选用最常见的距离度量方法:欧几里
6、德距离。最简单的情况是当k=1的情况,这时我们发现观测点就是最近的(最近邻)。一个显著的事实是:这是简单的、直观的、有力的分类方法,尤其当我们的训练集中观测点的数目n很大的时候。可以证明,k最近邻估计的误分概率不高于当知道每个类的精确概率密度函数时误分概率的两倍。三、实验基本步骤样本叫叫此沔习x2而10,28131-6.20,011L03-0.211.362.170.1420.070.58-0.78L27L280.08L41L45-0383L542.01-1.630.133.120.161.220.990.694-0,441J8-4,32*0,211.23*0.112,462,191.315-
7、0.810.215.73-2.18139-0.190.680.790.876L523.162.770341.96-0462,513.2213572,202.42-0,19-1380.940450,602440.9280.911.946.21-0,120.820.170.640.130.9790.651.93-1.442.310.140.85().华0.9910-0,260,82*0,960,26L940.080,660.510,88第一部分,对表格中的数据,进行Parzen窗估计和设计分类器,本实验的窗函数为个球形的高斯函数,如下:<p(.)ocexp(_(x工)3Xf)/2h2)编写程
8、序,使用Parzen窗估计方法对一个任意的测试样本点x进行分类。对分类器的训练则使用表格3中的三维数据。同时,令h=1,分类样本点为(0.5,1.0,0.0),(0.31,1.51,0.50),(-0.3,0.44,-0.1)进行实验。1) 可以改变h的值,不同的h将导致不同的概率密度曲线,如下图所示。h=0.1时:1时的二维正态概率密度曲面h=0.5时:当柘D.5时的二维正态概率密度曲面Ih=1时:当h=i时的二维正态概率常度曲面0.5*-2-2第二部分的实验目的是学习和掌握非参数估计:k-近邻概率密度估计方法。对前面表格中的数据进行k-近邻概率密度估计方法和设计分类器。编写程序,对表格中的
9、3个类别的三维特征,使用k-近邻概率密度估计方法。并且对下列点处的概率密度进行估计:(-0.41,0.82,0.88),(0.14,0.72,4.1),(-0.81,0.61,-0.38)。k-最近邻分类器*第一类数据第二类数据,第三类数据测试样本点w一-104四、实验代码如下%Parzen窗算法%w.c类训练样本%x:测试样本%h:参数%输出p:测试样本x落在每个类的概率functionp=Parzen(w,x,h)xt,yt,zt=size(w);p=zeros(1,zt);fori=1:zthn=h;forj=1:xthn=hn/sqrt(j);p(i)=p(i)+exp(-(x-w(j
10、,:,i)*(x-w(j,:,i)'/(2*power(hn,2)/(hn*sqrt(2*3.14);endp(i)=p(i)/xt;end%k-最近邻算法%wc类训练样本%x:测试样本%k:参数functionp=kNearestNeighbor(w,k,x)%w=w(:,:,1);w(:,:,2);w(:,:,3);xt,yt,zt=size(w);wt=;%zeros(xt*zt,yt);ifnargin=2p=zeros(1,zt);fori=1:xtforj=1:xtdist(j,i)=norm(wt(i,:)-wt(j,:);endt(:,i)=sort(dist(:,i)
11、;m(:,i)=find(dist(:,i)<=t(k+1,i);%找到k个最近邻的编号endendifnargin=3forq=1:ztwt=wt;w(:,:,q);xt,yt=size(wt);endfori=1:xtdist(i)=norm(x-wt(i,:);endt=sort(dist);%欧氏距离排序a,b=size(t);m=find(dist<=t(k+1);%找到k个最近邻的编号numl=length(find(m>0&m<11);num2=length(find(m>10&m<21);num3=length(find(m&
12、gt;20&m<31);ifyt=3plot3(w(:,1,1),w(:,2,1),w(:,3,1),'r.');holdon;gridon;plot3(w(:,1,2),w(:,2,2),w(:,3,2),'g.');plot3(w(:,1,3),w(:,2,3),w(:,3,3),'b.');if(num1>num2)|(num1>num3)plot3(x(1,1),x(1,2),x(1,3),'ro');disp('点:',num2str(x),'届于第一类');el
13、seif(num2>num1)|(num2>num3)plot3(x(1,1),x(1,2),x(1,3),'go');disp('点:',num2str(x),'届于第二类');elseif(num3>num1)|(num3>num2)plot3(x(1,1),x(1,2),x(1,3),'bo');disp('点:',num2str(x),'届于第三类');elsedisp('无法分类');endendifyt=2plot(w(:,1,1),w(:,2,1
14、),'r.');holdon;gridon;plot(w(:,1,2),w(:,2,2),'g.');plot(w(:,1,3),w(:,2,3),'b.');if(numl>num2)|(numl>num3)plot(x(1,1),x(1,2),'ro');disp('点:',num2str(x),'届于第一类');elseif(num2>num1)|(num2>num3)plot(x(1,1),x(1,2),'go');disp('点:',
15、num2str(x),'届于第二类');elseif(num3>num1)|(num3>num2)plot(x(1,1),x(1,2),'bo');disp('点:',num2str(x),'届于第三类');elsedisp('无法分类');endendendtitle('k-最近邻分类器);legend('第一类数据',.'第二类数据',.'第三类数据',.'测试样本点);clear;closeall;%Parzen窗估计和k最近邻估计%
16、w1(:,:,1)=0.281.31-6.2;0.070.58-0.78;1.542.01-1.63;-0.441.18-4.32;-0.810.215.73;1.523.162.77;2.202.42-0.19;0.911.946.21;0.651.934.38;-0.260.82-0.96;w1(:,:,2)=0.0111.03-0.21;1.271.280.08;0.133.120.16;-0.211.23-0.11;-2.181.39-0.19;0.341.96-0.16;-1.380.940.45;-0.120.820.17;-1.442.310.14;0.261.940.08;w1
17、(:,:,3)=1.362.170.14;1.411.45-0.38;1.220.990.69;2.462.191.31;0.680.790.87;3.221.35;0.602.440.92;0.640.130.97;0.850.580.99;0.660.510.88;x(1,:)=0.510;x(2,:)=0.311.51-0.5;x(3,:)=-0.30.44-0.1;%验证h的二维数据w2(:,:,1)=0.281.31;0.070.58;1.542.01;-0.441.18;-0.810.21;3.16;2.202.42;0.911.94;0.651.93;-0.260.82;w2(:
18、,:,2)=0.0111.03;1.271.28;0.133.12;-0.211.23;-2.181.39;0.341.96;-1.380.94;-0.120.82;-1.442.31;0.261.94;w2(:,:,3)=1.362.17;1.411.45;1.220.99;2.462.19;0.680.79;2.513.22;0.602.44;0.640.13;0.850.58;0.660.51;y(1):)=0.51;y(2,:)=0.311.51;y(3,:)=-0.30.44;h=.1;%重要参数p=Parzen(w1,x(1,:),h);num=find(p=max(p);disp('点:',num2str(x(1,:),'落在三个类别的概率分别为:',num2str(p);disp('点:',num2str(x(1,:),'%给定落在第',num2str(num),'类');三类二维样本,画出二维正态概率密度曲面图验证h的作用num=1;%第num类的二维正态概率密度曲面图,取值为1,2,3draw(w2,h,num);str1='
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030年中国MLCC行业资本规划与股权融资战略制定与实施研究报告
- 新形势下川菜餐饮行业可持续发展战略制定与实施研究报告
- 2025-2030年中国月子中心行业全国市场开拓战略制定与实施研究报告
- 2025-2030年中国酒店管理服务行业营销创新战略制定与实施研究报告
- 2025-2030年中国标识设计制作行业营销创新战略制定与实施研究报告
- 织物设计与思考
- 关于进一步健全和完善城市社区治理体系建设的工作方案
- 2019-2025年中国养鸡场行业市场深度分析及发展前景预测报告
- 湖北省襄阳市谷城县石花三中2023-2024学年九年级上学期期末化学试卷
- 雪茄基础知识培训课件
- 17J008挡土墙(重力式、衡重式、悬臂式)图示图集
- 2025年济南铁路局招聘笔试参考题库含答案解析
- 2024至2030年中国大颗粒尿素行业投资前景及策略咨询研究报告
- 《长方体和正方体》复习(教案)
- 超声技术报告范文
- 2023年山西云时代技术有限公司招聘笔试题库及答案解析
- 跌落测试(中文版)-ISTA-2A-2006
- ppt鱼骨图模板图
- 右心导管检查及心血管造影ppt课件
- 乳胶漆质量检验批验收记录
- 大气课程设计---袋式除尘器
评论
0/150
提交评论