




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、IRIS数据集下基于最小错误率和最小1=风险的贝叶斯决策的实验与分析贺翔3115370035硕 51011.问题描述1.1Iris数据集Iris数据集包含3类4维样本,分别标为1, 2, 3。其中,每类样 本数目为50,且服从正态分布,每个数据样本有4个特征向量, 分别代表萼片长度,萼片宽度,花瓣长度和花瓣宽度。1.2要求假设Iris数据是正态分布的,要求考虑各种实验可能性(分组 数量、分组策略、先验概率等),用样本对多维正态密度函数进 行参数估计(均值向量和协方差矩阵),最后对3类Iris两两分 类。原理描述2.1贝叶斯公式已知共有M类别。厂,T,2,A M,统计分布为正态分布,已知先 验概
2、率P(气)及条件概率密度函数p(x I,对于待测样品,贝叶 斯公式可以计算出该样品分属各类别的概率,即后验概率。贝叶 斯公式为P(3 I X) = P(X 1 也)P3 ,i = 1,2,A M12M p(XI )P3)j jj=1因此给定一个未知类别的数据样本X,贝叶斯分类法将预测 X属于具有最高后验概率的类。故此问题的数学描述为:多元正 态概率模型下的贝叶斯分类2.2参数估计其中,条件概率密度函数P(x I气)为正态密度函数,用大量样 本对其中未知参数进行估计,多维正态密度函数为P( X)=1exp-(X 一旦)tS-1(X -旦)(2兀)n/2 |S|1/22式中,x =(气,、,A七)
3、为n维向量;四=(七七a 2为n维均值向量;s = E(x -日)(x -四)t为n维协方差矩阵;S-1是s的逆矩阵;闵是S的行列式。大多数情况下,条件密度可以采用多维变量的正态密度函数来模拟。P(X I ) = ln _| exp 2(X - X (气)tS -i(X - X (气)1. n 一 一 1 一=-2(X - X (%)tS -i(X - X (气)-;ln2兀-2lnSJ布为七类的均值向量。2.3先验概率设数据集样本有刁个属性,因此可用一个刁维列向量x = x ,x,,x T来表示 同时假定有个类,.如果类的先验1, 2,疽 小。Ic I 1, 2, c。-概率未知,则可以假定
4、这些类是等概率的,即、Sp(气)=p(也)=.=p(%),且 P()= S其中,S,是类%,中的训练样本数,而s是训练样本总数。2.4贝叶斯决策2.4.1最小错误判别准则,似然比形式:l (X) = 2 f。P(X I 也)V P()也P( )- -2其中,l (X)为似然比,P(叩为似然比阈值。2.4.2最小风险判别准则:对观测值x条件下,各状态后验概率求加权和的方式,表示 风险如下:件:顷心牛 其中,如,j)为将第j类判为第i类的损失。若判对i=j,则L(i, j)取负值或零值,表示没有损失;若判对i引,则L(i, j)取正值, 数值大小表示损失多少。对得到的M个类型的风险值R(X),i
5、= 12A M进行比较,得到使 条件风险最小的类别,判别X属于该类别。实验过程实验环境:MATLAB R2014a实验策略:三类数据两两分类,考虑以下几种可能性,A.取几组数据(数量可变)? B.怎么选组(取法可变)?C.改变先验概率等3.1最小错误判别准则:以“对第2类、第3类鸢尾花数据分类”为例,准备第2类、第3类数据集,共100个样本,每个样 本包含4维特征,编辙曰梧式(O) f0i、vj517. 03. 24. 71. 4n526. 43. 24. 51. 5536. 93.14. 91. 5545. 52. 34. 01. 3-556. 52. 84. 61. 5J565. 72.
6、84. 51. 3576. 33. 34. 71. 6584. 92. 45. 31. 0596. 62. 94. 61. 3605. 22. 73. 91. 4615. 02. 03. 51. 0625. 93. 04. 21. 563E. 02. 24. 01. 0646. 12. 94. 71. 4655. 62. 93. 61. 3666. 73. 14. 41. 4675. 63. 04. 51. 5685. 82. 74. 11. 0696. 22. 24. 51. 5705. 62. 53. 91. 171F. 9只.24.只1. RT-ris._data_23.brt -记事本
7、口回 3读入训练样本,d=4;c=3;N=50;D=load(Iris_data_12.txt);data=zeros(100,d);G1=zeros(50,d);G2=zeros(50,d);for i=1:1:4data(:,i)=D(:,i + 1);end%分组数量和取法在这个步骤实现for i=1:1:NG1(i,:)=data(i,:);G2(i,:)=data(i+N,:);enddisp(G1);disp(G2);读入训计算各组的均值向量和协方差矩阵,即正态分 布的两个重要参数均值P和方差号,miu1=mean(G1,1)miu2=mean(G2,1)sigma1=zeros(
8、d,d);sigma2=zeros(d,d);for i=1:1:Nsigma1=sigma1+(G1(i,:)-miu1)*(G1(i,:)-miu1);sigma2=sigma2+(G2(i,:)-miu2)*(G2(i,:)-miu2);Endsigma1=sigma1/Nsigma2=sigma2/N已经估计出三类数据的统计特征。首先使用最小错误 判别准则进行分类,实验中采用对数形式计算。比较三个值 的大小,哪个最大,就可判断X属于哪一类。最后进行了分 类器判据结果的验证。第%-2d个样本属于第1类n第%-2d个样本属于第2类n(5)(5)其中比较函数为,%要将分类结果写入txt文本R
9、=zeros(100,2);fid=fopen(classifier_result_23.txt,wt);for i=1:1:100R(i,1)=-1/2*(data(i,:)-miu1)*inv(sigma1)*(data(i,:)-miu1)-1/2*l og(det(sigma1);R(i,2)=-1/2*(data(i,:)-miu2)*inv(sigma2)*(data(i,:)-miu2)-1/2*l og(det(sigma2);switch (compare(R(i,1),R(i,2)case R(i,1)fprintf(fi 第%-2d 个样本属于第 1 类n ,i);cas
10、e R(i,2)fprintf(fi 第%-2d 个样本属于第 2 类n ,i);endendfclose(fid);function max=compare(a,b)max=a;if maxbmax=b;end实验结果与分析4.1最小错误判别准则:第1个样本属于第2类 第2个样本属于第2类 第3个样本属于第2类 第4个样本属于第2类 第5个样本属于第2类 第6个样本属于第2类 第7个样本属于第2类 第8个样本属于第2类 第9个样本属于第2类 第10个样本属于第2类 第11个样本属于第2类 第12个样本属于第2类 第13个样本属于第2类 第14个样本属于第2类 第15个样本属于第2类 第16个
11、样本属于第2类 第17个样本属于第2类 第18个样本属于第2类 第19个样本属于第2类 第20个样本属于第2类 第21个样本属于第3类| 第22个样本属于第2类 第23个样本属于第2类 第24个样本属于第2类 第25个样本属于第2类 第26个样本属于第2类 第27个样本属于第2类 第28个样本属于第2类 第29个样本属于第2类 第30个样本属于第2类 第31个样本属于第2类 第32个样本属于第2类 第33个样本属于第2类 第34个样本属于第3类 第35个样本属于第2类 第36个样本属于第2类 第37个样本属于第2类 第38个样本属于第2类第39个样本属于第2类 第40个样本属于第2类 第41个
12、样本属于第2类 第42个样本属于第2类 第43个样本属于第2类 第44个样本属于第2类 第45个样本属于第2类 第46个样本属于第2类 第47个样本属于第2类 第48个样本属于第2类 第49个样本属于第2类 第50个样本属于第2类 第51个样本属于第3类 第52个样本属于第3类 第53个样本属于第3类 第54个样本属于第3类 第55个样本属于第3类 第56个样本属于第3类 第57个样本属于第3类 第58个样本属于第3类 第59个样本属于第3类 第60个样本属于第3类 第61个样本属于第3类 第62个样本属于第3类 第63个样本属于第3类 第64个样本属于第3类 第65个样本属于第3类 第66个
13、样本属于第3类 第67个样本属于第3类 第68个样本属于第3类 第69个样本属于第3类 第70个样本属于第3类 第71个样本属于第3类 第72个样本属于第3类 第73个样本属于第3类 第74个样本属于第3类 第75个样本属于第3类 第76个样本属于第3类 第77个样本属于第3类 第78个样本属于第3类第79个样本属于第3类 第80个样本属于第3类 第81个样本属于第3类 第82个样本属于第3类 第83个样本属于第3类 第84个样本属于第2类| 第85个样本属于第3类 第86个样本属于第3类 第87个样本属于第3类 第88个样本属于第3类 第89个样本属于第3类 第90个样本属于第3类 第91个
14、样本属于第3类 第92个样本属于第3类 第93个样本属于第3类第94个样本属于第3类 第95个样本属于第3类 第96个样本属于第3类 第97个样本属于第3类 第98个样本属于第3类 第99个样本属于第3类 第100个样本属于第3类第1类中没有出现判决错误,第2、3类中出现了个别的 错误,分类正确率较高。要想提高正确率,可以选取更多的样本进行训练。在实际应用中,先验概率的确定也是比较重要的,会在一 定程度上影响结果。4.2最小风险判别准则:根据需要改变风险因子矩阵L,当判错第j类为第i类损失 较大时,设计LG j取较大的值。从4.1最小错误判别准则的实验中可以看出:有2个第2 类数据判为第3类,
15、1个第3类数据判为第2类,因此将 L(2,3),L(3,2)略增大一点,使损失变大,以减少这样的错误。-011因此设计风险因子矩阵乙=1 0 1.2,得到如下结果:1.04 1 0第1个样本属于第2类 第2个样本属于第2类 第3个样本属于第2类 第4个样本属于第2类 第5个样本属于第2类 第6个样本属于第2类 第7个样本属于第2类 第8个样本属于第2类 第9个样本属于第2类 第10个样本属于第2类 第11个样本属于第2类 第12个样本属于第2类 第13个样本属于第2类 第14个样本属于第2类 第15个样本属于第2类 第16个样本属于第2类 第17个样本属于第2类 第18个样本属于第2类 第19
16、个样本属于第2类 第20个样本属于第2类 第21个样本属于第3类 第22个样本属于第2类 第23个样本属于第2类 第24个样本属于第2类 第25个样本属于第2类 第26个样本属于第2类 第27个样本属于第2类 第28个样本属于第2类 第29个样本属于第2类 第30个样本属于第2类 第31个样本属于第2类 第32个样本属于第2类 第33个样本属于第2类 第34个样本属于第3类| 第35个样本属于第2类 第36个样本属于第2类 第37个样本属于第2类 第38个样本属于第2类 第39个样本属于第2类 第40个样本属于第2类 第41个样本属于第2类 第42个样本属于第2类第43个样本属于第2类 第44
17、个样本属于第2类 第45个样本属于第2类 第46个样本属于第2类 第47个样本属于第2类 第48个样本属于第2类 第49个样本属于第2类 第50个样本属于第2类 第51个样本属于第3类 第52个样本属于第3类 第53个样本属于第3类 第54个样本属于第3类 第55个样本属于第3类 第56个样本属于第3类 第57个样本属于第3类 第58个样本属于第3类 第59个样本属于第3类 第60个样本属于第3类 第61个样本属于第3类 第62个样本属于第3类 第63个样本属于第3类 第64个样本属于第3类 第65个样本属于第3类 第66个样本属于第3类 第67个样本属于第3类 第68个样本属于第3类 第69个样本属于第3类 第70个样本属于第3类 第71个样本属于第3类 第72个样本属于第3类 第73个样本属于第3类 第74个样本属于第3类 第75个样本属于第3类 第76个样本属于第3类 第77个样本属于第3类 第78个样本属于第3类 第79个样本属于第3类 第80个样本属于第3类 第81个样本属于第3类 第82个样本属于第3类 第83个样本属于第3类 第84个样本属于第2类 第85个样本属
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 学生严谨治学决心书3篇
- 会计账目清晰承诺书提升审计效率3篇
- 公积金授权委托办理3篇
- 学生不穿校服的谅解书3篇
- 交通违章委托办理协议3篇
- 农村地基买卖合同无效的情形3篇
- 多元文化市场拓展策略改进承诺3篇
- 委托生产代销合同书3篇
- 工程变更与施工合同的关系3篇
- 借用别人公司经营协议3篇
- 培训行业用户思维分析
- 星巴克消费者数据分析报告
- 实时数据采集系统方案
- PMC-651T配电变压器保护测控装置使用说明书V1.2
- 中国红色革命故事英文版文章
- 《体育保健学》课件-第三章 运动性病症
- 雷雨话剧第四幕雷雨第四幕剧本范文1
- 办公设备维保服务投标方案
- 服装终端店铺淡旺场管理课件
- PQR-按ASME要求填写的焊接工艺评定报告
- 医院中央空调维保合同范本
评论
0/150
提交评论