贝叶斯最大后验概率准则对iris数据的分类_第1页
贝叶斯最大后验概率准则对iris数据的分类_第2页
贝叶斯最大后验概率准则对iris数据的分类_第3页
贝叶斯最大后验概率准则对iris数据的分类_第4页
贝叶斯最大后验概率准则对iris数据的分类_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1、实验目的1. 了解多元正态分布2. 对多元正态分布利用矩估计法进行参数估计,了解参数估计的过程3. 掌握利用贝叶斯最大后验概率准则对三类数据进行两两分类的方法2、实验原理Iris数据集共有三组,分别为 setosa, versicolou和virginica,每一组都是一 个单独的类别,此实验中,默认 setosa为第一类,versicolou为第二类,virginica 为第三类,每组50个数据,每个数据都是一个四维向量,且服从四维正态分布。 即类别空间为:Q = 31, 32, 33数据向量为:x= (?,?,?,?)?2.1多元正态分布随机向量X=(?,?勿的分布密度函数有如下形式:

2、11(1)p(?,?,? = p(?= 4 exp- -(? 物???1 ?(? ? (2?2|?22其中x = (?, ?,??为常量,u= (?,?, ,?)?%随机向量的均值向量,B为 p*p的协方差矩阵,则称X服从P元正态分布,记XN? uB)为。因此,对于多 元正态分布而言,只需要确定均值向量和协方差矩阵即可确定概率密度函数。2.2参数估计由于三组数据均服从四维正态分布,首先要确定数据的具体分布,因此在分类之前,利用一部分实验数据进行训练,分别得到三组数据的四维正态分布参数。即(羽??),(??,?),(??,?),分别为 setosa, versicolou 和 virginica

3、 三组数据的参 数。实验中,参数估计采用矩估计法,即利用样本(训练数据)的均值向量和协 方差矩阵作为总体的均值向量和协方差矩阵的估计值,进而得到每组数据的分布 密度函数。以第一组数据为例:setosa中的数据x= (?,?,?,?)?服从均值为四维列向 量?= (?,?,?,?)?, 4*4维协方差矩阵B的四元正态分布。均值向量和协方 差矩阵的估计式为:?:1 刀翻1 ? ?=1? 1 ? = ?(? ?>?(? ? = ?E (? ? ?=1从第一类数据中选取部分数据按照上式进行训练,得到第一类数据的正态分布参11p(?=4_ exp- -(?弯???1 ?(? ?(2?2|?222.

4、3贝叶斯最大后验概率准则利用贝叶斯准则对数据进行两两分类时,以贝叶斯公式为基础,利用测量到 的对象特征配合必要的先验信息,求出两种可能分类情况的后验概率,选取后验 概率大的,作为分类的结果。即最大后验概率准则,也称最小错误概率准则。以第一类和第二类为例,对这两组数据进行分类。两组数据经过参数估计之 后,分别得到条件概率密度P(X|?1),p(X|?2)。根据贝叶斯准则:/“、P(x|?)P(?)p 仪)=?、P(x|?2)P(?)小P (?|x) =?贝叶斯最大后验概率准则进行分类时,根据输入的列向量X = (?,?,?,?)?,分 别计算两类的后验概率,判X为后验概率的大类别,即: 如果 P

5、(?|x) > P(?|x)则判别X为?类(第一类)即:"亠、P(X|?1)p(?1) P(X|?2)p(?2)"小、P(?冈=? > ? = P 即:(9)?和阈值?p(x|?>p(?=?i?P (X|?2)P(?1)也因此根据最大后验概率准则判断 X所属的类别,转变为比较似然比 的大小。实验中首先求得两类数据的条件概率密度P(X|?1)和p(X|?2),关于先验概率p(?)和P(?2),实验进行时,将待分类的两组数据合并放入一个 阵中,每次随机选取待分类数据 X,因此先验概率P (?) = P 化)判别式(8)简化为:p(x|?) > P(x|?

6、)根据上式即可对输入向量 X进行分类。P(X|?1 ) > P(X|?2)P(X|?2) > P(X|?1)100*4的矩(9)故而,(10)因此, 如果 如果则判别x为?类(第一类)同理 则判别x为r?类(第二类)3、实验过程首先对两组数据分别进行训练,得到其四维正态分实验中,根据实验原理,布的密度函数,再根据最大后验概率准则进行分类。3.1参数估计已知三组数据均为xN4( uB)的四元正态分布,即11P(?,?,?,?)= P(剪二 4 exp- 2(/ 黔7?1 ?(?(2?丹??22其中,7为均值向量,B为协方差矩阵,?和勿均为四维列向量。根据式(2)和(3) 对每组数据的

7、均值向量和协方差矩阵进行估计。参数估计即选取部分数据进行训练, 数据可以采用随机选取的方式,也可以从开 始固定的选取若干数据进行训练。同时,参与训练的数据多少也会影响最后的分 类结果。实验中尝试了不同的选取方法,结果如下:(1) 从前向后依次选取10个数据进行训练:Command Windowans二 B53. 311. 150. 22ans =0. 07640.C6340.017Cl 00 7 E0.06340.C&490,OloSa 'O'UQ0.0170.C1550.0105O.OC40. 00 780.01480.004CL 0056第一类setoaa的协方差矩

8、眩呂i gm日匸第二 versicolour&liffl 向 Bu苦M-versi colour方差拒阵扈1.驰垃=ansb. 1S. 074. 371. 3S0.4760.1740.2910; 0720.174丄 10410. 11910.03840.2910,11910, 21410.05840.072也 0;3S4山 0oS4O.OSae阳3 =第三Svireinica的均值向里uJ=第三Sbir官inic丑的协方SPJsigmaS-ans =ans =e. 572. 54L - n3. , i'2, 040. 63210. 13620,41410.12520. 1024

9、0.1052O'. O7'9i40.41410.0.22410;讥耳20.07620.0754fl. 0732(2) 从前向后依次选取15个数据进行训练:Command Windowt第一类setosa的协方差矩Pisifiiial=第一类get ga的坟值向重u"ans =ans =0.147S20. L10040,0117330.00933334.GL330,110040, 11049山 01040, OU3. 34670.0117330. 01040. 0202670.00533331,120.00933330.0140.00533330.00532330, 2

10、S 二类 ver si co lour 的 ft 方差拒 Bsigmaa-第二类化上"匕机our的曲值向fflu2-arts =3115 二0.401960.170130.2725S0.C7355S5.9733J-fc fX0.170130. 14293Ck 四 30.061333S4.215:Q2伽0.132930,235S2O.,C67;73fl.073&560.06L3330.06777S0.0355561.3333第三类理曲iu去的均值向重u加* 弟二类GT百ini c 宜的协方 S llE4sienia3=sns =ans =e.460,471730,11493S

11、3?衍 30,0401332-90670.11493O.OS99-560.0574570.05257S5.3S0*33823O-0S;4e7h 29S930.0437332.0o33t). 040L330.0529730.0437330.051156(3) 从前向后依次选取20个数据进行训练:Command Window1setcsa 的协方第一类setga的均值向Sul=ans =axis =0.17328此 14470-01S;750-0'212755.0350, 14470. i5:e0.01470-02723. 4S0. 013775C.01470.0202750.004775

12、I, 435山 021£;d0.02720-,0047750*0'OS27a0. 235第二 Sv 書rKLglour 的 tfr 方差拒 P$SLgaa2-第二类versicolcLLT的均值向Su2=ans =axis =0.345S80. 1345山 215S80. 0C3'62o . & I'On> ,e-0, 13450. 13540,1032O.OiSs2.币0,215880. 103?0 191480.0碇1為0. 063250.04850.0621250. 037fi75L32o第三类virsinica的均值向8前=第三樂-ir电

13、ijiic日的张方差柜iSmigniaA町3 =aiLS =6. 560. 50S40. 13680-4117o.oeee2. 92tk 13&S0.14160.11040-幅4召5.6550.411"0.11040, 33943'0. 0715252.045h 06 esO.O64S0,071525Q* 0uU7o(4)从前向后依次选取25个数据进行训练:Command Windowaxisa.oss3,4eI.斗0. 24EMZSversicoloirr 的均值向 giiAe.ois2. 7764. 3L£1. 344第三类 virginicaMt5 值

14、向 fiti*airs鼠茁£N 92£自.642. 044第一类setoga的协方羞拒阵si护力匸ans0*15402Ch LL3360-023120-0136560.113300.1304o.ooeC.0213GOjO'23120, 006Ol 01760.006320.0186oe山 021360.00632O.O1O4?6S-Sv*rsicolour 的协方着拒 F?sieia2=ansCl曲麗戎0. 103090.175060.&45STJ0.105090. 11942a 'O'Soose0,0446560a;'9060,08

15、60000.1S90'60,0614720. 0498720.044656a '0'614720.040S54IZvirginica的协方差拒K吕i首nm3=aji3 =0.30342CL nee?0.4119e0-0594560.11667th 125220.091S80. 0579500,414960, 09483血 40oe0. 064S40, 0594o60,057980.064040,062454(5)随机选取15个数据进行训练:Command Window第一类setosa的均值向星111 =ansi, T66T3. 22L 42670.23667Zvers

16、i cur 的均值向 fiubails2. 7S6?1. 3333第三类5吗iniw的均值向重u扣ails3. 06675, 75331. 9733第一类S亡tosd的协方差SKsigmal-0.他?® MS04222220-00753560,06S0. C6io&0. OiOS0-0OS13330,. 0222220,01030,0112890,00262220. M:裁前O.OOS13'330忧駝餐0-0(132553ans =第二类vexsicolo'ux的协方差矩阵3igiiia2=ans =0.332270,11640.1742;0.0446670.

17、11640. 1L1&20.007 7330.034444此17427Ck 0G77330.160270,0546670. 0415670. 0344440.06466:0.023556第三virgini 的协方差拒Pisigraa3=ans0,639730, 24533O.b2&470. 124270.21O330.210220.210440.0971110. 525470.210440. 4S6i490.136i;6th 12427Q 0971110.136760. 10462(6)随机选取20个数据进行训练:Command Window第一类3航OSSI的协方差®

18、;P¥si£mal=ans =曰ns3. 341.420. 250.141470.120S0. 001790. 000750.12080.1S140. 01170.00050.00:9O.0L170. 01701.3S';ge-ig0. 000 750.00051. 38'78«-180.0055童二类让dlcmiT的均值向星112=ISTSversicolour的怖方差矩阵卄莒皿农二ans5. 3952. 85窕271, 3350.104470.031750. 081850.0216750.031750. 0'63a0.050.0317a

19、0.08185Cl. 050.11210.041050*0216730.031730. 0410o0.02S21OleZfe-irjinica 的协方差矩 iSmig妥ans =第三类vi T slnica的均值向里u3=ans風4252.3i0. 4S1. 3&O.ussa0.00150. 309i:5Q. I01:o0.06150.08440. 02950.05390* 309 7o0.02950. 31450* 0io90. L01:50.05390.0i590. 1149JIS3.2贝叶斯分类test,然后每学习分类时,本实验中,将待分类的两类数据合并为一个矩阵次随机的从tes

20、t矩阵中抽取一维向量进行分类判别。因此先验概率满足1P )=P(?)= 2所以,实验中只需要根据估计的参数得出两类的概率密度函数?)?-1 ?(?)11p(x|?) = 4_ exp- -(?(2?丹?I22?)?-1 ?(7? ?)11pd?) = 4 exp- -(?(2?列??I22对于输入的列向量x带入上面两个公式中进行计算,则 x归入概率大的一类。 下面以第一类和第二类分类为例进行说明:实验中,m:表示参与训练的数据个数,进行分类学习时 t:表示每次学习的次数,实验置为10000,即每次随机选取10000次x进行分类 test矩阵:将待分类的两组数据合并为一个矩阵test,之后随机的

21、从test矩阵中选 择输入向量,保证先验概率相等W向量:表示随机选择的输入向量的位置,若W(i)v51则说明此时的输入向量来00也判别为第自第一类,W(i)>50则说明此时的输入向量来自第二类 set向量:输入的x判别属于第一类,则将set的相应位置1,否则置 ver向量:输入的x判别属于第二类,则将ver的相应位置1,否则置 最后比较 W向量和set向量、ver向量,若选择于第一类(W(i)<51) 一类(set(i)=1),则说明判别正确。第二类同理。部分框图如下所示:相应部分代码如下:ALCIMO呷学习的次數Set=zero3 <t, 1);弔表示判対第一粪zeteav

22、er=zeros(t* 1)弋夷示判狗第二类versicolourW=£eros<t,l> f定文向重丫以操存麗机逸择的P是从哪个拒阵中选择出来的,最后判断分类倒正磅性test-Zsetosa:versicolour 将两个待分类的矩阵组合芮一个柜晦(前蓟为第一个拒晦* for l=L :tp=randL<siiete3Ul);ll机的M这个矩阵中选择一维向里,即保证先验拥率相等:x=t"t :'厲输入向重后5D为第二个矩阵)均対二筍z-L endp_xwl= (<2*p j) (-4/2) * (det (sigmaP <-l/2)

23、*exp C- (1/2) * (s-aigl)' * (sigmal(-1) * fx-argl);p_xv2"(<2*pi) ' (-4/2) * (det (sigmaZ)" (-1/2) *exp (- (1/2) * (x-arg2)" * (siEin.a2* (-1) * (x-are2):if (P_xwl>p_?cw21£点厲若此时输入的蛊判别厲于第一类,则将合亡t的相应(5S1else时输入的龙判别属于第二娄*则将、笔r的相应位置1endLf W(i)<51%若矶则说明此时的输入向重耒自第一粪3et&

24、lt;i)=seti)-L;%若如果来自第一类也対为第一类,贝Ijset Cl )-1=0.香围不为U最后根据s己t矩陈中的非D元素个数确走分类的正确率 ftlsever<L)=v-er(i)-l;单ndf ir=suii (f ind(s&t) =0): sec=sun(f ind(vtr) '=0);最后,统计set向量和ver向量中不为0的元素个数即在10000次学习分类时错 误的次数。进行分类实验时,考虑到两方面的影响:(1) 参数估计时训练样本的选取方式不同,分为固定选取样本和随机选取样本(2) 参数估计时选取的样本数目同时,实验中,每次分类相当于进行10000

25、次判别,由于选择输入矢量时具有随 机性,因此针对同一 m(m表示参与训练的样本数目),各进行10次实验进行比 较。3.2.2第一类与第三类(即 setosa和virginica )(1)当训练样本从前向后固定选取时:次数12345678910m=6错误 个数0000000000错误 率0000000000m=10错误 个数0000000000错误 率0000000000m=15错误 个数0000000000错误 率0000000000当训练样本固定选取时,当参与训练的样本个数分别为为 6, 10, 15,均不会产生 错误。(2)当训练样本随机选取时次数12345678910m=6错误 个数18

26、2470202130109202749519040错误 率18.24%7.02%02.13%01.09%20.27%4.95%19.04%0m=10错误 个数000000109000错误 率0000001.09%000m=15错误 个数0000000000错误 率0000000000当训练样本随机选取时:m=6时平均错误率为:7.274%m=10时平均错误率为:0.109%m=15时平均错误率为:0次数12345678910m=6错误 个数0000000000错误 率0000000000m=10错误 个数0000000000错误 率0000000000m=15错误 个数0000000000错误

27、 率0000000000当训练样本固定选取时,当参与训练的样本个数分别为为 6, 10, 15,均不会产生 错误。(2)当训练样本随机选取时次数12345678910m=6错误 个数03997010250072095000错误 率039.97%010.25%007.2%9.5%00m=10错误 个数0000000000错误 率0000000000m=15错误 个数0000000000错误 率0000000000当训练样本随机选取时:m=6时平均错误率为:6.634%m=10时平均错误率为:0m=15时平均错误率为:03.2.3 第二类与第三类(即 versicolou 和 virginica

28、)(1)当训练样本从前向后固定选取时:次数12345678910m=6错 误 个 数410397413369389409430416387363错 误 率4.1%3.97%4.13%3.69%3.89%4.09%4.3%4.16%3.87%3.63%m=10错 误 个 数626622561613677610605614613555错 误 率6.26%6.22%5.61%6.13%6.77%6.1%6.05%6.14%6.13%5.55%m=15399396409399355434431393406416错 误 率3.99%3.96%4.09%3.99%3.55%4.34%4.31%3.93%4

29、.06%4.16%m=50错 误 个 数325285323298299302306315288308错 误 率3.25%2.85%3.23%2.98%2.99%3.02%3.06%3.15%2.88%3.08%时平均错误率为: 时平均错误率为: 时平均错误率为: 时平均错误率为:当训练样本固定选取时:3.983%6.096%4.038%3.049%m=6m=10m=15m=50(2)当训练样本随机选取时次数12345678910m=6错 误 个 数6373478200050415108914250204610001185错 误 率6.37%34.78%20%5.04%15.1%8.91%42.

30、5%20.46%10%11.85%m=10错 误 个 数901984889126038211361130959780920错 误 率9.01%9.84%8.89%12.6%3.82%11.36%11.3%9.59%7.8%9.2%m=15错 误 个 数478328726531100657395286740692错 误 率4.78%3.28%7.26%5.31%1%6.57%3.95%2.86%7.4%6.92%m=50错 误 个 数40822131937488403444310213202错 误 率4.08%2.21%3.19%3.74%0.88%4.03%4.44%3.1%2.13%2.02

31、%时平均错误率为: 时平均错误率为: 时平均错误率为: 时平均错误率为:当训练样本随机选取时:17.471%9.341%4.933%2.982%m=6m=10m=15m=504、实验分析从实验中可得,以训练样本固定选取,样本实验中,第一部分为参数估计,个数m=20为例:Command Window第一窦gmtga的协方差矩B品i零皿玄_=第一Ssetoisa.的均值向ans =ans =0.1T32S山 144;0,0137730.0212'7dS. 03'S0, 14470.15760.014;0. 02723. 4B0.01E7750. 014;0. 0202TO0.00I477O1.4350.0212750.102720*00477=0.002730.235MzSversi colours ft方差拒 PisigBa2=Mrversicolour 的均值向 fflubans =ane =0.34uS30. 13150.215Se0. 063625O. 5 I'O0. 13450. 13540,10320.04S52, Tfi0,21o3S山 10320, 191480, 062125! ZOQ0.0636250. 04350.0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论