蠓虫分类模型_第1页
蠓虫分类模型_第2页
蠓虫分类模型_第3页
蠓虫分类模型_第4页
蠓虫分类模型_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、蠓虫的分类模型摘要本文通过对两类蠓虫的触角长和翅长数据进行分析,用画散点图的方法对两类蠓虫进行区分,利用判别分析建模方法对未知的三个样本进行识别,将它们分类。在生物学中,根据触角长和翅长来识别一只蠓虫标本是af还是apf是很重要的。本文为此提供了方法。在模型一中,本文通过画散点图,进而画出两条斜线将两类蠓虫分别划分在斜线的两侧,对它们进行分类。在模型二中,本文通过马氏距离判别法对未知的三个样本进行判别,并将它们归类。得出的结果为:三个未知样本均为apf类。在模型三中,本文修改分类方法,用贝叶斯判别法对三个未知样本进行判别分类。计算结果表明:三个未知样本均属于apf类。最后,本文对马氏距离判别法

2、做了误差分析,通过回代误判率和交叉误判率对模型进行评价。计算结果为:回代误判率为0,交叉误判率为0.0667。说明模型判别方法较准确。本文从绘制散点图,利用判别分析建模方法角度对两类蠓虫进行识别,并对未知样本分类,进而利用误差分析对模型准确性予以预测,逐步深化,最后对模型进行评价与推广。关键词 散点图 马氏距离 贝叶斯 回代误判 交叉误判一、问题重述(一)背景知识两种蠓虫af和apf已由生物学家罗纳(w.l.grogna)和维尔恩(w.w.wirth)于1981年根据它们的触角长(mm)和翅长(mm)加以区分,6只apf和9只af蠓虫的触长,翅长数据如下:apf:(1.14,1.78), (1

3、.18,1.96), (1.20,1.86), (1.26,2.00), (1.28,2.00), (1.30,1.96) ;af:(1.24,1.72), (1.36,1.74), (1.38,1.64), (1.38,1.82), (1.38,1.90), (1.40,1.70), (1.48,1.82),(1.54,1.82), (1.56,2.08)。在生物学中,根据触角长和翅长来识别一只蠓虫标本是af还是apf是很重要的。(二)要解决的问题1、根据给定的数据,制定一种方法,正确区分两类蠓虫;2、用我们的方法对触长、翅长分别为(1.24,1.80)、(1.28,1.84)、(1. 40

4、,2.04)的三个样本进行识别;3、假设af是宝贵的传粉益虫,apf是某种疾病的载体,在这种情况下我们是否应该修改所用的分类方法。 二、问题的分析1、对问题一的分析对问题一, 我们利用画出散点图,再画斜线的方法对给出的6只apf和9只af蠓虫进行区分。2、对问题二的分析对问题二,我们可以根据马氏距离判别分析法对未知的三个样本进行识别,将它们分类。3、对问题三的分析对问题三,我们可以修改分类方法,用贝叶斯判别法对所给三个样本进行判别,将它们分类。三、模型的假设1、在问题一中,假设两类蠓虫的协方差矩阵是相等的;2、假设apf与af的总数相同或apf占总数的,af占总数的,这样在用贝叶斯判别法时,即

5、可用按比例分配方法估计两个总体的先验概率;3、样本无性别差异。4、触角长与翅长作为指标同样重要。5、用触角长与翅长来判别蠓虫是充分的。四、符号说明aapf类蠓虫baf类蠓虫m1a类的均值向量m2b类的均值向量s1a类的协方差矩阵s2b类的协方差矩阵n1a类样本的容量n2b类样本的容量五、模型的建立与求解1、问题一的建立与求解区分步骤:(1)利用matlab软件,画出两类蠓虫分布的散点图如下:(2)由散点图我们可以画出两条斜线,由此区分两类蠓虫,如下所示: 图2 用斜线区分两类蠓虫(3)由图我们可以区分出两类蠓虫2、问题二的建立与求解 用马氏距离判别步骤:(1) 计算a、b两类的均值向量与协方差

6、矩阵;m1=mean(a), m2=mean(b),s1=cov(a), s2=cov(b);(2) 计算总体的协方差矩阵; ( 3) 计算未知样本x到a,b两类马氏平方距离之差 :d=(x-m1)s-1(x-m1)- (x-m2)s-1(x-m2);(4) 若d<0,则x属于a类;若d>0,则x属于b类。(5)模型的求解:我们利用matlab软件进行编程,可以求出三个样本到a类与b类的距离之差分别为d=-4.3279 ,-2.7137 ,-3.9604,三个均为负值,这说 明三个样本到a类的距离要近一点,所以这三个样本都应归于apf类。3、问题三的建立与求解 我们改变分类方法,用

7、贝叶斯判别法判别蠓虫,其步骤如下:(1) 判别总体的协方差矩阵是否相等;(2) 总体是否服从正态分布:首先对每个指标进行一元正态分布的检验,若有一个指标不服从正态分布,则总体不服从正态分布;若每个指标都服从一元正态分布,且各指标不相关则总体服从正态分布。(3) 利用按比例分配方法估计两个总体的先验概率: 两类蠓虫所占比例即为:p1=6/(6+9)=0.4; p2=9/(6+9)=0.6;(4) m1=mean(a); m2=mean(b);s1=cov(a); s2=cov(b);s=(5*s1+8*s2)/13;然后再利用matlab软件进行编程计算,贝叶斯判别的准则即为后验概率最大准则,我

8、们可以计算d,其中d为样本x到总体a,b 的马氏距离平方。(5)模型的求解:计算可得结果为:d1=1.7585,d2=0.9514,d3=1.5747;全部大于零,即p1f1>p2f2,所以待判的三个蠓虫均属于apf类。六、灵敏度分析本模型在对问题一的分析中,假设两个总体的协方差矩阵是相等的,而实际上,两个总体的协方差矩阵不一定相等,且两个总体的协方差矩阵是否相等对结果有较大影响。因此在解决实际问题时,首先要判别两个总体的协方差矩阵是否相等。对本模型,我们需要进行误差分析。1、 回代误判率估计设g1,g2为两个总体,x1,x2,xm和y1,y2,yn是分别来自g1,g2的训练样本,以全体

9、训练样本作为m+n个新样品,逐个代入已建立的判别准则中判别其归属,这个过程称为回判。若属于g1的样品被误判为属于g2的个数为n1个,属于g2的样品被误判为属于g1的个数为n2个,则误判率估计为: p=(n1+n2)/(m+n)。我们可以利用matlab进行编程,然后可以计算出回代误判率,计算所得结果为:0。2、交叉误判率估计 交叉误判率估计是每次剔除一个样品,利用其余的m+n1个训练样本建立判别准则再用所建立的准则对删除的样品进行判别。对训练样本中每个样品都做如上分析,以其误判的比例作为误判率。 从a样本开始,剔除其中一个样品,剩余的m1个样品与b中的全部样品建立判别函数; 用建立的判别函数对

10、剔除的样品进行判别; 重复步骤,直到a中的全部样品依次被删除,又进行判别,其误判的样品个数记为m12; 对b的样品重复步骤,直到b中的全部样品依次被删除又进行判别,其误判的样品个数记为n21;于是交叉误判率估计为: 我们利用matlab进行编程,可以算出d分别为-2.3578 ,13.0063,25.6839 , 9.9036,3.9858 , 21.4866 ,21.5880 ,35.9855, 5.0837。这说明有一个误判,即误判率为:p=0.0667。通过回代误判率和交叉误判率我们可以说明本模型是较准确的。七、模型的评价与推广1、模型的优点 本模型通过马氏距离判别法和贝叶斯判别法进行求

11、解,对三个未知样本进行判别,在灵敏度分析中继而对误判率进行分析,得出的结果较准确,较具有现实意义。2、模型的缺点本模型用的是判别分析建模方法,模型中有一些假设,实际生活中可能不完全成立,所以有一定局限性。3、模型的推广本模型还可以用别的方法如人工神经网络法进行求解,假设条件也可以放宽,这样得出的结论才更准确。参考文献附件:1、画两类蠓虫分布散点图的程序:clearapf=1.14,1.78; 1.18,1.96;1.20,1.86;1.26,2.;1.28,2;1.30,1.96;af=1.24,1.72;1.36,1.74;1.38,1.64;1.38,1.82;1.38,1.90; 1.4

12、0,1.70;1.48,1.82;1.54,1.82;1.56,2.08;plot(apf(:,1),apf(:,2),'*b',af(:,1),af(:,2),'or')2、用贝叶斯判别法判别蠓虫的程序:clearapf=1.14,1.78; 1.18,1.96;1.20,1.86;1.26,2.;1.28,2;1.30,1.96;af=1.24,1.72;1.36,1.74;1.38,1.64;1.38,1.82;1.38,1.90; 1.40,1.70;1.48,1.82;1.54,1.82;1.56,2.08;x= 1.24,1.8;1.28,1.84;

13、 1.4,2.04; p1=0.4; p2=0.6;m1=mean(apf);m2=mean(af);s1=cov(apf);s2=cov(af);s=(5*s1+8*s2)/13;for i=1:3,d(i,:)=log(0.4)-0.5*(x(i,:)-m1)*inv(s)*(x(i,:)-m1)')-(log(0.6)-0.5*(x(i,:)-m2)*inv(s)* (x(i,:)-m2)')endd = 1.7585 0.9514 1.57473、计算回代误判率的程序:clearapf=1.14,1.78; 1.18,1.96;1.20,1.86;1.26,2.;1.2

14、8,2;1.30,1.96;af=1.24,1.72;1.36,1.74;1.38,1.64;1.38,1.82;1.38,1.90; 1.40,1.70;1.48,1.82;1.54,1.82;1.56,2.08;m1=mean(apf);m2=mean(af);s1=cov(apf);s2=cov(af);s=(5*s1+8*s2)/13;for i=1:6,d(i)=(apf(i,:)-m1)*inv(s)*(apf(i,:)-m1)'- (apf(i,:)-m2)*inv(s)*(apf(i,:)-m2)'n1=0if d>0 n1=n1+1;else n1=n1

15、;end endn1 输出:n1 = 0clearapf=1.14,1.78; 1.18,1.96;1.20,1.86;1.26,2.;1.28,2;1.30,1.96;af=1.24,1.72;1.36,1.74;1.38,1.64;1.38,1.82;1.38,1.90; 1.40,1.70;1.48,1.82;1.54,1.82;1.56,2.08;m1=mean(apf);m2=mean(af);s1=cov(apf);s2=cov(af);s=(5*s1+8*s2)/13;for i=1:9, d(i)=(af(i,:)-m1)*inv(s)*(af(i,:)-m1)'- (

16、af(i,:)-m2)*inv(s)*(af(i,:)-m2)' n2=0 if d(i)<0 n2=n2+1; else n2=n2; end endn2输出:n2 = 04、计算交叉误判率的程序:clearapf=1.14,1.78; 1.18,1.96;1.20,1.86;1.26,2.;1.28,2;1.30,1.96;af=1.24,1.72;1.36,1.74;1.38,1.64;1.38,1.82;1.38,1.90; 1.40,1.70;1.48,1.82;1.54,1.82;1.56,2.08;for i=1:6, b=apf(1:i-1,:);apf(i+1:

17、6,:); m1=mean(b);m2=mean(af);s1=cov(b);s2=cov(af);s=(4*s1+8*s2)/12;n1=5;n2=9;p=2;q01=(n1-1)*(log(det(s)-log(det(s1)-p+trace(inv(s)*s1); q02=(n2-1)*(log(det(s)-log(det(s2)-p+trace(inv(s)*s2); p1=1-chi2cdf(q01,(p*(p+1)/2) p2=1-chi2cdf(q02,(p*(p+1)/2) if p1 & p2 > 0.05 d=(apf(i,:)-m1)*inv(s)*(ap

18、f(i,:)-m1)'- (apf(i,:)-m2)*inv(s)*(apf(i,:)-m2)' else d=mahal(b,apf)-mahal(b,af); end n3=0 if d>0 n3=n3+1 end end n3输出:n3=0clearapf=1.14,1.78; 1.18,1.96;1.20,1.86;1.26,2.;1.28,2;1.30,1.96;af=1.24,1.72;1.36,1.74;1.38,1.64;1.38,1.82;1.38,1.90; 1.40,1.70;1.48,1.82;1.54,1.82;1.56,2.08; for i=1:9, b=af(1:i-1,:);af(i+1:9,:);m1=mean(apf);m2=mean(b);s1=cov(apf);s2=cov(b);s=(5*s1+7*s2)/12;n1=6;n2=8;p=2;q01=(n1-1)*(log(det(s)-log(det(s1)-p+trace(inv(s)*s1); q02=(n2-1)*(log(det(s)-l

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论