2021年模式识别——用身高和或体重数据进行性别分类_第1页
2021年模式识别——用身高和或体重数据进行性别分类_第2页
2021年模式识别——用身高和或体重数据进行性别分类_第3页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、用身高和/或体重数据进行性别分类 1、【实验目的】 (1)掌握最小错误率bayes分类器的决策规则 (2)掌握parzen窗法 (3)掌握fisher线性判别方法 (4)熟练运用matlab的相关知识。2、【实验原理】 (1)、最小错误率bayes分类器的决策规则 如果在特征空间中观察到某一个(随机)向量x=( x1 , x2 , xd )t,已知类别状态的先验概率为和类别的条件概率密度为,根据bayes公式得到状态的后验概率 有基本决策规则如果,则,将 x 归属后验概率最大的类别 。(2)、掌握parzen窗法 对于被估计点x其估计概率密度的基本公式,设区域 rn 是以 hn 为棱长的 d

2、维超立方体,则立方体的体积为;选择一个窗函数,落入该立方体的样本数为,点 x 的概率密度: 其中核函数,满足的条件;。(3)、fisher线性判别方法 fisher线性判别分析的基本思想通过寻找一个投影方向(线性变换,线性组合),将高维问题降低到一维问题来解决,并且要求变换后的一维数据具有如下性质同类样本尽可能聚集在一起,不同类的样本尽可能地远。fisher线性判别分析,就是通过给定的训练数据,确定投影方向w和阈值y0,即确定线性判别函数,然后根据这个线性判别函数,对测试数据进行测试,得到测试数据的类别。线性判别函数的一般形式可表示成 ,其中 根据fisher选择投影方向w的原则,即使原样本向

3、量在该方向上的投影能兼顾类间分布尽可能分开,类内样本投影尽可能密集的要求,用以评价投影方向w的函数为上面的公式是使用fisher准则求最佳法线向量的解,该式比较重要。另外,该式这种形式的运算,我们称为线性变换,其中式一个向量,是的逆矩阵,如是d维,和都是dd维,得到的也是一个d维的向量。向量就是使fisher准则函数达极大值的解,也就是按fisher准则将d维x空间投影到一维y空间的最佳投影方向,该向量的各分量值是对原d维特征向量求加权和的权值。以上讨论了线性判别函数加权向量w的确定方法,并讨论了使fisher准则函数极大的d维向量的计算方法,但是判别函数中的另一项尚未确定,一般可采用以下几种

4、方法确定如 或者或当与已知时可用 当w0确定之后,则可按以下规则分类3、【实验内容及要求】 (1)、实验对象 datasetftxt 女生的身高、体重数据 datasetmtxt男生的身高、体重数据 - 训练样本集 datasettxt 328个同学的身高、体重、性别数据 datasettxt 124个同学的身高、体重、性别数据 - 测试样本集 (2)基本要求(1) 用datasetftxt和datasetmtxt的数据作为训练样本集,建立bayes分类器,用测试样本数据对该分类器进行测试。调整特征、分类器等方面的一些因素,考察它们对分类器性能的影响,从而加深对所学内容的理解和感性认识。(试验

5、直接设计线性分类器的方法,与基于概率密度估计的贝叶斯分离器进行比较) (2) 试验非参数估计,体会与参数估计在适用情况、估计结果方面的异同。4、【实验结果与分析】 (1)、bayes分类器的实验结果与分析 a、对于datasettxt 328个同学的身高、体重、性别数据的测试样本集a1、当先验概率为男0.5,女0.5时身高分类错误个数15 身高分类错误率为110% 体重分类错误个数15 体重分类错误率为110% 【实验结果】 a2、当先验概率为男0.75,女0.25时身高分类错误个数19 身高分类错误率为132% 体重分类错误个数14 体重分类错误率为129% b、对于datasettxt 1

6、24个同学的身高、体重、性别数据的测试样本集b1、当先验概率为男0.5,女0.5时身高分类错误个数16 身高分类错误率为190% 体重分类错误个数21 体重分类错误率为194% 【实验结果】 b2、当先验概率为男0.75,女0.25时身高分类错误个数31 身高分类错误率为200% 体重分类错误个数35 体重分类错误率为223% 【结果分析】 datasettxt样本数据集中,男女先验概率为(0.71vs0.29);datasettxt样本数据集中,男女先验概率为(0.66vs0.34)。对比实验结果,可以发现身高的分类错误率都小于体重的分类错误率,样本集越大,各个特征对应的分类错误率就越小。假

7、设先验概率为(0.5vs0.5)的分类错误率小于假设先验概率为(0.75vs0.25)的分类集,就算假设的先验概率与实际的很相近,可是结果不准确。程序框图 bayes分类器源程序实验代码clear all; load datasetftxt; load datasetmtxt; %样本的分析 figure; for i=1:250 if(i79) plot(datasetf1(i,2),datasetf1(i,1),r+); end plot(datasetm1(i,2),datasetm1(i,1),k*); hold on; end title(样本数据); xlabel(体重(kg),y

8、label(身高(cm); legend(男生,女生); fid=fopen(datasettxt,r); test1=fscanf(fid,%f %f %s,3,inf); test=test1; fclose(fid); fmean=mean(datasetf1); mmean=mean(datasetm1); fvar=std(datasetf1); mvar=std(datasetm1); pref=0.5; prem=0.5; error=0; nerror=0; %身高的决策 figure; for i=1:124 pfheight=normpdf(test(i,1),fmean(

9、1,1),fvar(1,1) ; pmheight=normpdf(test(i,1),mmean(1,1),mvar(1,1) ; pfemale=pref*pfheight; pmale=prem*pmheight; if(pfemalepmale) plot(i,test(i,1),k*); if (test(i,3)=f) nerror=nerror +1; end else plot(i,test(i,1),r+); if (test(i,3)=m) nerror=nerror +1; end end hold on; end; error=nerror/124*100; title

10、(身高最小错误率bayes分类); xlabel(测试序号),ylabel(身高(cm); sprintf(%s %d %s %0.2f%s,身高分类错误个数,nerror,身高分类错误率为,error,%) %体重决策 figure; error=0; nerror=0; for j=1:124 pfweight=normpdf(test(j,2),fmean(1,2),fvar(1,2) ; pmweight=normpdf(test(j,2),mmean(1,2),mvar(1,2) ; pwfemale=pref*pfweight; pwmale=prem*pmweight; if(pwfemale0 if k=50 s(k,1)=0;%判为女生 girl=girl+1; else errorboy=errorboy+1; end else if g0 if k=50 errorgirl=errorgirl+1; else s(k,1)=1;%判为男生 boy=boy+1; end else s(k,1)=-2;%不能判别是指等于0时的情况 bad=bad+1;

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论