




已阅读5页,还剩11页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
IRIS数据集下基于最小错误率和最小风险的贝叶斯决策的实验与分析贺翔硕51011. 问题描述1.1Iris数据集Iris数据集包含3类4维样本,分别标为1, 2, 3。其中, 每类样本数目为50, 且服从正态分布,每个数据样本有4个特征向量,分别代表萼片长度, 萼片宽度, 花瓣长度和花瓣宽度。1.2要求假设Iris数据是正态分布的,要求考虑各种实验可能性(分组数量、分组策略、先验概率等),用样本对多维正态密度函数进行参数估计(均值向量和协方差矩阵),最后对3类Iris两两分类。2. 原理描述2.1贝叶斯公式已知共有类别,统计分布为正态分布,已知先验概率及条件概率密度函数,对于待测样品,贝叶斯公式可以计算出该样品分属各类别的概率,即后验概率。贝叶斯公式为因此给定一个未知类别的数据样本,贝叶斯分类法将预测属于具有最高后验概率的类。故此问题的数学描述为:多元正态概率模型下的贝叶斯分类。2.2参数估计其中,条件概率密度函数为正态密度函数,用大量样本对其中未知参数进行估计,多维正态密度函数为式中,为n维向量; 为n维均值向量; 为n维协方差矩阵; 是的逆矩阵; 是的行列式。大多数情况下,条件密度可以采用多维变量的正态密度函数来模拟。为类的均值向量。2.3先验概率设数据集样本有个属性,因此可用一个维列向量来表示。同时假定有个类。如果类的先验概率未知,则可以假定这些类是等概率的,即,且其中,是类中的训练样本数,而是训练样本总数。2.4贝叶斯决策2.4.1最小错误判别准则,似然比形式:其中,为似然比,为似然比阈值。2.4.2最小风险判别准则:对观测值条件下,各状态后验概率求加权和的方式,表示风险如下:其中,为将第j类判为第i类的损失。若判对i=j,则取负值或零值,表示没有损失;若判对ij,则取正值,数值大小表示损失多少。对得到的M个类型的风险值进行比较,得到使条件风险最小的类别,判别X属于该类别。3. 实验过程实验环境:MATLAB R2014a实验策略:三类数据两两分类,考虑以下几种可能性,A. 取几组数据(数量可变)?B.怎么选组(取法可变)?C.改变先验概率等.3.1最小错误判别准则:以“对第2类、第3类鸢尾花数据分类”为例,(1) 准备第2类、第3类数据集,共100个样本,每个样本包含4维特征,(2) 读入训练样本,d=4;c=3;N=50;D=load(Iris_data_12.txt);data=zeros(100,d);G1=zeros(50,d);G2=zeros(50,d);for i=1:1:4 data(:,i)=D(:,i+1);end%分组数量和取法在这个步骤实现for i=1:1:N G1(i,:)=data(i,:); G2(i,:)=data(i+N,:);enddisp(G1);disp(G2);(3) 读入训计算各组的均值向量和协方差矩阵,即正态分布的两个重要参数均值和方差,miu1=mean(G1,1)miu2=mean(G2,1)sigma1=zeros(d,d);sigma2=zeros(d,d);for i=1:1:N sigma1=sigma1+(G1(i,:)-miu1)*(G1(i,:)-miu1); sigma2=sigma2+(G2(i,:)-miu2)*(G2(i,:)-miu2);Endsigma1=sigma1/Nsigma2=sigma2/N(4) 已经估计出三类数据的统计特征。首先使用最小错误判别准则进行分类,实验中采用对数形式计算。比较三个值的大小,哪个最大,就可判断X属于哪一类。最后进行了分类器判据结果的验证。%要将分类结果写入txt文本R=zeros(100,2);fid=fopen(classifier_result_23.txt,wt);for i=1:1:100 R(i,1)=-1/2*(data(i,:)-miu1)*inv(sigma1)*(data(i,:)-miu1)-1/2*log(det(sigma1); R(i,2)=-1/2*(data(i,:)-miu2)*inv(sigma2)*(data(i,:)-miu2)-1/2*log(det(sigma2); switch (compare(R(i,1),R(i,2) case R(i,1) fprintf(fid,第%-2d个样本属于第1类n,i); case R(i,2) fprintf(fid,第%-2d个样本属于第2类n,i); end endfclose(fid);(5) 其中比较函数为,function max=compare(a,b)max=a;if maxb max=b;end4. 实验结果与分析4.1最小错误判别准则:第1 个样本属于第2类第2 个样本属于第2类第3 个样本属于第2类第4 个样本属于第2类第5 个样本属于第2类第6 个样本属于第2类第7 个样本属于第2类第8 个样本属于第2类第9 个样本属于第2类第10个样本属于第2类第11个样本属于第2类第12个样本属于第2类第13个样本属于第2类第14个样本属于第2类第15个样本属于第2类第16个样本属于第2类第17个样本属于第2类第18个样本属于第2类第19个样本属于第2类第20个样本属于第2类第21个样本属于第3类第22个样本属于第2类第23个样本属于第2类第24个样本属于第2类第25个样本属于第2类第26个样本属于第2类第27个样本属于第2类第28个样本属于第2类第29个样本属于第2类第30个样本属于第2类第31个样本属于第2类第32个样本属于第2类第33个样本属于第2类第34个样本属于第3类第35个样本属于第2类第36个样本属于第2类第37个样本属于第2类第38个样本属于第2类第39个样本属于第2类第40个样本属于第2类第41个样本属于第2类第42个样本属于第2类第43个样本属于第2类第44个样本属于第2类第45个样本属于第2类第46个样本属于第2类第47个样本属于第2类第48个样本属于第2类第49个样本属于第2类第50个样本属于第2类第51个样本属于第3类第52个样本属于第3类第53个样本属于第3类第54个样本属于第3类第55个样本属于第3类第56个样本属于第3类第57个样本属于第3类第58个样本属于第3类第59个样本属于第3类第60个样本属于第3类第61个样本属于第3类第62个样本属于第3类第63个样本属于第3类第64个样本属于第3类第65个样本属于第3类第66个样本属于第3类第67个样本属于第3类第68个样本属于第3类第69个样本属于第3类第70个样本属于第3类第71个样本属于第3类第72个样本属于第3类第73个样本属于第3类第74个样本属于第3类第75个样本属于第3类第76个样本属于第3类第77个样本属于第3类第78个样本属于第3类第79个样本属于第3类第80个样本属于第3类第81个样本属于第3类第82个样本属于第3类第83个样本属于第3类第84个样本属于第2类第85个样本属于第3类第86个样本属于第3类第87个样本属于第3类第88个样本属于第3类第89个样本属于第3类第90个样本属于第3类第91个样本属于第3类第92个样本属于第3类第93个样本属于第3类第94个样本属于第3类第95个样本属于第3类第96个样本属于第3类第97个样本属于第3类第98个样本属于第3类第99个样本属于第3类第100个样本属于第3类第1类中没有出现判决错误,第2、3类中出现了个别的错误,分类正确率较高。要想提高正确率,可以选取更多的样本进行训练。在实际应用中,先验概率的确定也是比较重要的,会在一定程度上影响结果。4.2最小风险判别准则:根据需要改变风险因子矩阵L,当判错第j类为第i类损失较大时,设计取较大的值。从4.1最小错误判别准则的实验中可以看出:有2个第2类数据判为第3类,1个第3类数据判为第2类,因此将略增大一点,使损失变大,以减少这样的错误。因此设计风险因子矩阵,得到如下结果:第1 个样本属于第2类第2 个样本属于第2类第3 个样本属于第2类第4 个样本属于第2类第5 个样本属于第2类第6 个样本属于第2类第7 个样本属于第2类第8 个样本属于第2类第9 个样本属于第2类第10个样本属于第2类第11个样本属于第2类第12个样本属于第2类第13个样本属于第2类第14个样本属于第2类第15个样本属于第2类第16个样本属于第2类第17个样本属于第2类第18个样本属于第2类第19个样本属于第2类第20个样本属于第2类第21个样本属于第3类第22个样本属于第2类第23个样本属于第2类第24个样本属于第2类第25个样本属于第2类第26个样本属于第2类第27个样本属于第2类第28个样本属于第2类第29个样本属于第2类第30个样本属于第2类第31个样本属于第2类第32个样本属于第2类第33个样本属于第2类第34个样本属于第3类第35个样本属于第2类第36个样本属于第2类第37个样本属于第2类第38个样本属于第2类第39个样本属于第2类第40个样本属于第2类第41个样本属于第2类第42个样本属于第2类第43个样本属于第2类第44个样本属于第2类第45个样本属于第2类第46个样本属于第2类第47个样本属于第2类第48个样本属于第2类第49个样本属于第2类第50个样本属于第2类第51个样本属于第3类第52个样本属于第3类第53个样本属于第3类第54个样本属于第3类第55个样本属于第3类第56个样本属于第3类第57个样本属于第3类第58个样本属于第3类第59个样本属于第3类第60个样本属于第3类第61个样本属于第3类第62个样本属于第3类第63个样本属于第3类第64个样本属于第3类第65个样本属于第3类第66个样本属于第3类第67个样本属于第3类第68个样本属于第3类第69个样本属于第3类第70个样本属于第3类第71个样本属于第3类第72个样本属于第3类第73个样本属于第3类第74个样本属于第3类第75个样本属于第3类第76个样本属于第3类第77个样本属于第3类第78个样本属于第3类第79个样本属于第3类第80个样本属于第3类第81个样本属于第3类第82个样本属于第3类第83个样本属于第3类第84个样本属于第2类第85个样本属于第3类第86个样本属于第3类第87个样本属于第3类第88个样本属于
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 养猪场租赁合同
- 林地承包合同模板
- 中亚股合同样本
- 餐饮技术入股合同协议书
- 业主出行收租合同标准文本
- 个人抵押贷款合同样本
- 2024年二月专卖店虚拟试衣间体型数据存储周期协议
- 小学一年级下册心理健康教育教案
- 名师工作室考核方案-基本要求
- 光伏分期合同样本
- 2025-2030全球藻源虾青素行业调研及趋势分析报告
- 2025年广东深圳市慢性病防治中心选聘专业技术人员3人历年高频重点提升(共500题)附带答案详解
- 新生儿感染的个案护理
- 国省道公路标志标线维护方案投标文件(技术方案)
- 面具的设计制作课件
- 病历书写规范细则(2024年版)
- 《国内手语翻译人才供求现状调研报告》
- 2023年西藏初中生物学业水平考试卷试题真题(含答案解析)
- 人教版八年级下册地理2024-2025学年八年级下册地理期末综合测试卷(二)(含答案)
- 护理学科建设规划
- 环境监测知识培训
评论
0/150
提交评论