iris数据集的贝叶斯分类_第1页
iris数据集的贝叶斯分类_第2页
iris数据集的贝叶斯分类_第3页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、IRIS数据集的Bayes分类实验一、实验原理1)概述模式识别中的分类问题是根据对象特征的观察值将对象分到 某个类别中去。统计决策理论是处理模式分类问题的基本理论之 一,它对模式分析和分类器的设计有着实际的指导意义。 贝叶斯(Bayes)决策理论方法是统计模式识别的一个基本方法, 用这个方法进行分类时需要具备以下条件:各类别总体的分布情况是己知的。要决策分类的类别数是一定的。其基本思想是:以Bayes公式为基础,利用测量到的对象特征 配合必要的先验信息,求岀各种可能决策情况(分类情况)的后 验概率,选取后验概率最大的,或者决策风险最小的决策方式(分 类方式)作为决策(分类)的结果。也就是说选取

2、最有可能使得对 象具有现在所测得特性的那种假设,作为判别的结果。常用的Bayes判别决策准则有最大后验概率准则(MAP),极大 似然比准则(ML),最小风险Bayes准则,Neyman-Pearson准则 (N-P)等。2)分类器的设计对于一个一般的c类分类问题,其分类空间:O = vv1,vv2,-,vv.表特性的向量为:其判别函数有以下几种等价形式:a)P(w店)P(旳任)tw G Wp j = 2、心印 H j叱,b)p(x|w.)F(vvf) )F(wJ J = 1,2,c,且/知 T w ec)心)=牛吗牛,) = 1,2,C,印知TWM;d)In /?(x|vv.) + In P(

3、vv ) In J J = 1,2,心 hj 工 i t w e w;3)IRIS数据分类实验的设计> IRIS数据集:一共具有三组数据,每一组都是一个单独的类别,每组 有50个数据,每个数据都是一个四维向量。其分类空间为: 表特性的向量为:x = (xx2,xx4)>实验目的:利用Bayes判别准则对三组数据进行分类,希望能够尽 量准确的判断岀从IRIS数据集中选取的样本所属的类别。 >实验设计思路:将每个数据看作是一个具有4维特征的观察样木Xi =(兀,Xi2,忑3,兀4丿=1,2,350其中,) = 1234 = 123.假设每类数据的每维都的分别服从正态分布即 厂“;

4、町 20-/2并且两两独立。由数理统计理论可知,样木均值和修正方差分别为和 ,的无偏估计量,故可近似为求得“和/为:“;卩=%yj = l,2,3,4.p = l,2,3.2 =_!_y (xy - Xf y J = 1,2,3,4." = 1,2,3.贝叶斯决策规则选取:心)= '¥1”丿 = 123, M/HiTwew血旳丿P(叱)由于不同维度数据两两独立,故其中:1()="伸叫)_ /(驷)_仟九(入帆)A ”龜)人Lb)1乔exp3-/<7)2=n-g ib;另让门限值:P(wJ N.-/< = - j、i = 123 j 式 iPM

5、M 其中:Nj和M为所选待分类样本j类数据和i类的个数, 属于先验知识。比较心)与门限值的大小判断样本所属类别 最后计算分类的正确率>二、实验过程1) 求取每类数据的每个分量的均值和修正方差数代码如 下:sum=zeros(3,4); sd=zeros(3,4); for j=l:l:4 for i=l:1:50$ for i=l:l:20 $sum(1,j)=sum(1,j)+samplel(iz j);sum(2z j)=sum(2,j)+sample2(iz j);sum(3,j)=sum(3,j)+sample3(iz j);endend sum=sum/50;$sum=sum/

6、20;$for j=l:l:4for i=l:1:50sd(lz j)=sd(lz j) + (samplel(i,j)-sum(lz j)A2; sd(2,j)=sd(2z j) + (sample2(i,j)-sum(2,j)A2; sd(3zj)=sd(3zj) + (sample3(i z j)-sum(3 z j)A2; end endsd=sd/49;$ sd=sd/19; $其中每类数据都有4组均值和修正方差,3类数据总共12组,分 别存放在sum和sd这两个3X4的矩阵中。2) 用一个函数来实现分类器的功能,代码如下 function elfresult accuracyrat

7、e = bayesclassifier(samples,dimen,sum,sdz modelz mode2) elfresult=zeros(dimenz 2);if ( (model (1,1) -=0) && (mod" (1,2) -=0) && (mod" (l,3)=0) compare=1,2;endif (model(1,1)-=0)&&(mod“(l,2)=0)&&(mod“(lz3)-=0) compare=1,3;endif ( (model (1, l)=0) && (m

8、od“ (1,2) -=0) && (mod" (1,3) =0) compare=2,3;endcomparel=compare(1z1);compare2=compare(lz 2); class=zeros(1,3);la=zeros(1,4);lb=zeros(1,4);for i=l:1:dimenif samples(iz 5)=1class (1,1)=class(1z1)+1;endif samples(i,5)=2 class (1f 2)=class(1,2)+1;endif samples(iz 5)=3 class (1,3)=class(1z

9、 3)+1;endendn=class(1,compare2)/class(1,comparel)for i=l:1:dimenla (1 z 1)=1/sqrt (sd (comparel z 1) ) *e:-:p (- (samples (iz 1) -sum (comparel z1)A2/ (2*sd(comparel,1);la(lz2)=l/sqrt(sd(comparelz 2)*exp(-(samples(i z 2)-sum(comparel ,2)A2/ (2*sd(comparel,2);la(lz3)=l/sqrt(sd (comparel z 3) ) *e:-:p

10、 (- (samples (iz 3) -sum (comparel z3)A2/(2*sd(comparelz3);la(14)=l/sqrt(sd(comparelr 4)*exp(-(samples(i,4)-sum(comparel z4)A2/(2*sd(comparel,4);lb (1 z 1)=1/sqrt (sd (compare2,1) ) *e:-:p (- (samples (iz 1) -sum (compare2 z1)A2/ (2*sd(compare2,1);lb(lz2)=l/sqrt(sd(compare2,2)*exp(-(samples(i z 2)-s

11、um(compare2 ,2)A2/ (2*sd(compare2,2);lb(lz3)=l/sqrt(sd(compare2 r 3)*exp(-(samples(iz 3)-sum(compare2 z3) ) A2/(2*sd(compare2,3);lb(14)=l/sqrt(sd(compare2,4)*exp(-(samples(i,4)-sum(compare2 z4) )A2/(2*sd(compare2z4);for j=l:l:4if(mode2(1,j)=0)la(l,j)=l;lb(l,j)=l;endendlx=la(lzl)*la(lz2)*la(lz3)*la(l

12、z4)/(lb(lz1)*lb(lz2)*lb(lz3)*lb(1,4)elfresult(iz1)=i;if lx>=nelfresult(i,2)=comparel;else elfresult(i,2)=compare2;endendaccuracyrate=O;for i=l:1:dimenif elfresult(iz 2)=samples(iz 5) accuracyrate=accuracyrate+l;endendaccuracyrate=accuracyrate/dimen;end该函数有共有两个输出量,六个输入参数。其中各个参数的规定如下:Samples: 一个Dim

13、enX 5的矩阵,Dimen是选取样本的 数量,矩阵前4列存放样本的4维数据,最后一列存 放相应行样本真实的类别数(1, 2, 3)。Dimen:选取样本的数量。Sum:数据集的均值参数阵。Sd:数据集的修正方差参数阵。Model:模式选择参数1,它是一个3维的行向量:mod e =,a29a3)其中曲= 1,2,3分别对应数据集的三个类别,当曲= 1,2,3 不为零时,就在决策域中添加第i类。总共有三种模 式:n«d H = (1,1,0)在第一类和第二类中进行判别n«dH =(L0,l)在第一类和第三类中进行判别 檢心(0,1,1)在第二类和第二类中进行判别Mode2:

14、模式选择参数2,它是一个4维德行向量:mod e2 =(01,02,民,04)其中0J = 1,2,3,4分别对应数据集的4个维度分量,当 «,-,/ = 1,2,3不为零时,第i个维度的分量就作为判别分 类的依据进行考虑,匕,山1,2,3为零时,则第i个维度的 分量忽略。Mode2共有多种模式15种模式。例如: nx)de2 = (1,0,14)表示第二维的数据特征不参与分类。 对于两个输出参数:Clfresult:是一个3XDimen的矩阵,输出对每个数据 的分类结果,并显示其真实所属类别和在Samples中 的序号。Accuracyrate:输出Bayes分类的正确率。3) 选

15、定不同的样本组合与特征的组合,调用 bayesclassifier函数进行分类。三. 实验结果与分析1)实验结果:利用每类50个数据求出相应的均值和修正方差作为正态分布参数。并将每类中所有的50个数据全部 拿来分类,dimen=100结果为(分类的正确率):一类(50)一类(50)二类(50)Mode2二类(50)三类(50)三类(50)(1,0, 0, 0)0. 890.950. 70(0, 1,0, 0)0. 830. 750. 58(0, 0, 1,0)110.93(0, 0, 0, 1)110. 94(1, 1,0, 0)0. 990.990. 68(1,0, 1,0)110. 87(

16、1,0,0, 1)110. 94(0, 1, 1, 0)110. 88(0, 1,0, 1)110. 92(0, 0, 1, 1)110. 94(1, 1, 1,0)110. 82(1, 1,0, 1)110. 92(1,0, 1, 1)110. 95(0, 1, 1, 1)110. 94(1,1,1,1)110. 94利用每类的20个数据求岀相应的均值和修正方差 作为正态分布参数。并将每类中另外的30个数据拿 来分类,dimen=60结果为(分类的止确率):Model一类(30)一类(30)二类(30)Mode2二类(30)三类(30)三类(30)(1,0, 0, 0)0.91670. 98

17、330.7167(0, 1, 0, 0)0. 86670. 750.60(0, 0, 1, 0)110.9167(0, 0, 0, 1)110.9167(1, 1,0, 0)0. 983310. 70(1,0, 1,0)110. 8667(1,0, 0, 1)110. 9333(0, 1, 1, 0)110. 8667(0, 1,0, 1)110. 9000(0, 0, 1, 1)110. 9333(1, 1, 1,0)110.8167(1, 1,0, 1)110. 9333(1,0, 1, 1)110. 9500(0, 1, 1, 1)110. 9333(1,1,1,1)110. 9500利

18、用每类的20个数据求出相应的均值和修正方差 作为正态分布参数。分别在第二类中取20个,10 个和5个数据,在第三类中固定取30个数据,放在 一起进行分类,结果为(第二类数据分类的正确率):ModelMode2二类(20)三类(30)二类(10)三类(30)二类(5) 三类(30)(1,0, 0, 0)0. 650000(0, 1, 0, 0)0. 300000(0, 0, 1, 0)0. 85000. 50000. 4000(0, 0, 0, 1)0. 90000. 80000. 6000(1, 1, 1, 1)0. 90000. 80000. 80002)分析:实验结果反映出莺尾花数据集:第一类数据和第二类数据的第一和第二维比较相 似,第三和第四维数据差别很大。第一类数据和第三类数据的第一和第二维比较

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论