版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、硕士研究生专业课考试大作业课程名称:模式识别课程编号:063806任课教师姓名:刘海波职称:副教授学生姓名:黄跃平学号:S309060181作业题目:最小错误率贝叶斯分类器成绩:二00年四月二十五日模式识别课程大作业最小错误率贝叶斯分类摘要:统计决策理论是处理模式识别问题的基本理论之一,而贝叶斯决策理论方法又是统计模式识 别中的一个基本方法,它可以有效地对大量数据进行分析,并生成相应的分类器,对于数据的分类 识别有着重大的意义。本文把最小错误率的贝叶斯方法运用到男女性别的识别中,提高了分类的准 确性和有效性。关键词:贝叶斯统计决策;最小错误率;先验概率;条件概率1问题描述模式是通过对具体的个别
2、事物进行观测所得到的具有时间和空间分布的信息;把模式所属的类 别或同一类中模式的总体称为模式类 (或简称为类)。而“模式识别”则是在某些一定量度或观测基础 上把待识模式划分到各自的模式类中去。有两种基本的模式识别方法,即统计模式识别方法和结构(句法)模式识别方法。统计模式识别是对模式的统计分类方法,即结合统计概率论的贝叶斯决策系统进行模式识别的技术,又称为决策理 论识别方法。与此相应的模式识别系统都是有两个过程(设计与实现)所组成。“设计”是指用一定数量的样本(训练集/学习集)进行分类器的设计。“实现”是指用所设计的分类器对待识别的样本进行分 类决策。基于统计模式识别方法的系统主要由以下几个部
3、分组成:信息获取、预处理、特征提取和 选择、分类决策。图1统计模式识别系统在本文中问题主要是通过提取人类身高和体重两个特征值,然后对样本集进行训练学习并设计分类器设计,最后对待识别的样本集进行男女性别的分类。2研究现状贝叶斯(Revere nd Thomas Bayes 1702-1761)学派奠基性的工作是贝叶斯的论文“关于几率性问题求解的评论”。或许是他自己感觉到他的学说还有不完善的地方,这一论文在他生前并没有发表, 而是在他死后,由他的朋友发表的。著名的数学家拉普拉斯(Laplace,P.S)用贝叶斯的方法导出了重要的“相继律”,贝叶斯的方法和理论逐渐被人理解和重视起来。但由于当时贝叶斯
4、方法在理论和实 际应用中还存在很多不完善的地方,因而在十九世纪并未被普遍接受。二十世纪初,意大利的菲纳 特(B.de Finetti )及其英国的杰弗莱(Jeffreys,H.)都对贝叶斯学派的理论作出重要的贡献。第二次 世界大战后,瓦尔德(Wald,A.)提出了统计的决策理论,在这一理论中,贝叶斯解占有重要的地位;信息论的发展也对贝叶斯学派做出了新的贡献。1958年英国最悠久的统计杂志Biometrika全文重新刊登了贝叶斯的论文,20世纪50年代,以罗宾斯(Robb ins, H.)为代表,提出了经验贝叶斯方法和 经典方法相结合,引起统计界的广泛注意,这一方法很快就显示出它的优点,成为很活
5、跃的一个方 向。在这里值得一提的是,八十年代以后,人工智能的发展,尤其是机器学习、数据挖掘的兴起, 为贝叶斯理论的发展和应用提供了更为广阔的空间。密度估计贝叶斯学习理论利用先验信息和样本数据来获得对未知样本的估计,而概率(联合概率和条件 概率)是先验信息和样本数据信息在贝叶斯学习理论中的表现形式。如何获得这些概率(也称之为 密度估计)是贝叶斯学习理论争议较多的地方。贝叶斯密度估计研究如何根据样本的数据信息和人 类专家的先验知识获得对未知变量(向量)的分布及其参数的估计。它有两个过程:一是确定未知 变量的先验分布;一是获得相应分布的参数估计。如果以前对所有信息一无所知,称这种分布为无 信息先验分
6、布;如果知道其分布求它的分布参数,称之为有信息先验分布。由于在数据挖掘中,从 数据中学习是它的特性,所以无信息先验分布是贝叶斯学习理论的主要研究对象。研究无信息分布 的奠基性工作是贝叶斯假设-参数的无信息先验分布在参数的取值范围内应是均匀的。对参数有界 的情况,贝叶斯假设在实际运用中获得了很大的成功,与经典的参数估计方法是一致的,而当参数 无界时,贝叶斯假设却遇到了困难。为此,人们又提出了一些选取先验分布的原则:共轭分布:共轭分布假定先验分布与后验分布属于同一种类型。这一假定为后验分布的计算 带来很大的方便,同时在认知上,它要求经验的知识与现在的样本信息有某种同一性,它们 能转化为同一类型的经
7、验知识。杰弗莱原则:在贝叶斯假设中,如果对参数选用均匀分布,那么它的函数作为参数时,也应 服从均匀分布。然而这种情况是很少见的,为克服这一矛盾,杰弗莱提出了不变性的要求。 他认为一个合理的决定先验分布的原则应具有某种不变性,并且巧妙的利用费歇信息阵的一 个不变性质,给出了一个具体的方法求得适合于要求的先验分布。最大熵原则:利用信息论中熵的理论,在确定无信息先验分布时应取参数变化范围内熵最大 的分布作为先验分布。最大熵原则比贝叶斯假设前进了不少,但在无限区间上产生了各种各 样的新问题。朴素贝叶斯学习模型朴素贝叶斯学习模型(Simple Bayesian或Naive Bayesian)假定特征向量
8、的各分量相对于决策变量是相对独立的,也就是说各分量独立地作用于决策变量。尽管这一假定一定程度上限制了朴素贝 叶斯模型的适用范围,然而在实际应用中,不仅指数级的降低了贝叶斯网络构建的复杂性,而且在 违背这种假定的条件下,朴素贝叶斯也表现出相当的健壮性和高效性,它已经成功地应用到分类、 聚类及模型选择等数据挖掘的任务中。目前,许多研究人员正致力于放松特征变量间条件独立性的 限制,以使它适用于更大的范围。主要集中在两个方面:增广贝叶斯学习模型 (Augment-Simple Bayesian) Geoffrey L.Webb1在朴素贝叶斯模型中为每个类别赋一权值,这个权值乘以原来的概率值 作为新的调
9、整值,在应用中有效地提高了预测精度。 Eamonn J.Keogh通过在特征属性之间增加相应的弧来降低朴素贝叶斯模型属性之间独立性 的限制,并且给出了建立属性之间关联的两种方法:贪婪的爬山搜索法和超父节点搜索法。基于Boosting朴素贝叶斯模型 Charles Elkan利用Boosting技术对朴素贝叶斯模型进行了改进。他通过调整训练样本的权重,产生几个朴素贝叶斯模型,然后再将这些模型以一定的方式组合起来,并且证明,组合 后的模型在表达能力上相当于具有几个隐含层的感知机模型。然而Boosting技术并非对所有朴素贝叶斯模型都适用,有时甚至会降低它的预测精度。 Kai Ming Ting和Z
10、ijian Zheng仔细地分析了 Boosting技术在朴素贝叶斯模型中失败的原因,认为学习算法的稳定性是Boosting成功与否的一个关键因素,并且给出了一个结合决策树算法和Boosting技术的朴素贝叶斯模型。 PAC-Bayesian 学习现代学习理论大致可以分为两大类:贝叶斯推理和PAC (Probability ApproximationCorrect )学习。这两类学习算法都以训练数据集作为输入,经过学习,输出一个概念或模型;它们也都关联着 相应的正确性定理:PAC学习对独立同分布的训练样本集提供了很好的性能保证,而贝叶斯正确性 定理能保证充分地利用先验信息。结合这两类学习算法的
11、优点,产生了PAC-Bayes学习理论。贝叶斯神经网络模型朴素贝叶斯模型在表达形式上等价于感知机模型,对应于分类器中线性可分的情况。当线性不 可分时,也就是说当考虑属性间的相关性时,需要引入具有隐含层的神经网络模型。贝叶斯网络学习贝叶斯网络是处理不确定信息最有效的表示方法之一。Pear于1988年出版了第一本关于贝叶斯网络方面的书。 接着Neapolitan(1990)、Jensen(1996)、Castillo等(1997)也相继出版了他们关于贝叶斯 网络的专著。贝叶斯网络是表示变量间概率分布及关系的有向无环图。结点表示随机变量,弧表示 变量间的依赖关系,定量的概率分布在条件概率表中指定。贝
12、叶斯网络的一个关键特征是它提供了 把整个概率分布分解成几个局部分布的方法,网络的拓扑结构表明如何从局部的概率分布获得完全 的联合概率分布。贝叶斯网络适合于对领域知识具有一定了解的情况,至少对变量间的依赖关系较 清楚的情况。否则完全从数据中学习贝叶斯网的结构不但复杂性较高(随着变量的增加,指数级增 加),网络维护代价昂贵,而且它的估计参数较多,为系统带来了高方差,影响了它的预测精度。3算法原理贝叶斯决策理论方法是统计模式识别中的一个基本方法,这种方法在对数据进行概率分析的基 础上生成分类器(决策规则),再应用生成的分类器对新数据依据概率方法进行分类。在运用贝叶斯理论的时候必须满足如下的基本条件:
13、各类别总体的概率分布是已知的;被决策的分类数是一定的;有很多种标准用于衡量分类器设计的优劣,对于用贝叶斯决策而言,有基于最小错误率的贝叶斯决策,基于最小风险的贝叶斯决策,在限定一类错误率条件下使另一类错误率为最小的两类别决策、最小 最大决策、序贯分类方法等。贝叶斯公式:设D1,D2,,, Dn为样本空间S的一个划分,如果 P(Di)表示事件Di发生的概 率,且P(Di) > 0对于任一事件 x, P(x) > 0,则有:P(Dj|x)二P(x|Dj)P(Dj)n、P(x|Di)P(Di)i 二决策过程:在模式分类问题中,人们往往希望尽量减少分类的错误,从这样的要求出发,利用 概率论
14、中的贝叶斯公式,就能得出使错误率为最小的分类规则,称之为基于最小错误率的贝叶斯决 尺S 策。对于两类情况', 2,X - xi, x2, , xd 如果 P( J | x)二 max P(j | x)= x 打j 1,2对于多类情况。=叫,豹2 ,eX = x ,勺,如果 P()| x) P(打 | x), j =1,2,c and j = i = x 打对数形式为maxln P( J InP(x| 打)二判别函数:分类器的设计主要有以下几方面的内容:首先应定义判别函数和分类决策面方程。对于C类分类问题,按照分类决策规则可以把d维特征空间分成 c个分类决策域,将划分分类决策域的边界称为
15、分类决策面,在数学上用解析形式可以表示成分类决策面方程。用于表达分类决策规则的某些函数 则称为判别函数。判别函数与决策面方程是密切相关的,且它们都有相应的分类决策规则所确定。、工t设 ' 1P* 2,. ex = x ,勺,必通常定义一组判别函数gKx),i=i,2,,, c用于表示多类决策规则。如果它使gi(x) gj(x)对于一切j工i成立,则将x归于3 i类,根据上面的分类规则显然这里的gi(x)可定义为f(p(x|3 )p( 3 )+h(x),其中f()为任一单调函数。分类器的设计:分类器可以看成是由硬件和软件组成的一个“机器”。它的功能是先计算出c个判别函数,再从中选出对应于
16、判别函数为最大值的类作为决策结果。如图2所示:图2多类分类器4算法实现以matlab为开发平台,程序设计思想:先验概率的计算;条件概率的计算;在这里以升高和体重作为两个特征值,我们知道他们是服从于正态分布;对训练样本进行训练,求出正太分布 的参数;最后对待训练样本进行分类;%身高和体重都作为特征clear all;Result(1,1:2)=0;%判别矩阵的初始化%训练样本FH FW=textread('FEMALE.txt','%f %f);MH MW=textread('MALE.txt','%f %f);%身高与体重都作为特征X1=FH F
17、W;X1=X1'X2=MH MW;X2=X2:%测试样本t2H t2W=textread('test2.txt','%f %f %*s');%身高与体重都作为特征X=t2H t2W;X10=X(1:50,:);X10=X10'%test2 中的女生 50X20=X(51:300,:);X20=X20'%test2 中的男生 250%画出各样本的分布情况figure;subplot(3,1,1)plot(X1(1,:),X1(2,:),'r.','Li neWidth',2),hold onplot(X2(1
18、,:),X2(2,:),'b+','Li neWidth',2),hold ontitle('训练样本分布情况')legend('训练样本FAMALE','训练样本MALE')subplot(3,1,2)plot(X10(1,:),X10(2,:),'r.','Li neWidth',2),hold onplot(X20(1,:),X20(2,:),'b+','Li neWidth',2),hold ontitle('测试样本test2分布情况
19、')lege nd('FAMALE','MALE')%先验概率P(1)=le ngth(X1)/(le ngth(X1)+le ngth(X2);P(2)=le ngth(X2)/(le ngth(X1)+le ngth(X2);%训练样本从正态分布;求相关参数:cov(X):协方差矩阵Ave:均值a=X1'W11=cov(a(:,1),a(:,2);% 样本 FEMAIE 的方差b=X2'W22=cov(b(:,1),b(:,2);% 样本 MAIE 的方差Ave1=(sum(X1')/length(X1)'% 样本 F
20、EMAIE 的均值Ave2=(sum(X2')/length(X2)'% 样本 MAIE 的均值%X=X'for j=1:300g仁-1/2* in v(W11)*(X(:,j)'-Ave1')'*(X(:,j)'-Ave1')-log(2*pi)-1/2*log(det(W11)+log(P(1);%判别函数g2=-1/2* in v(W22)*(X(:,j)'-Ave2')'*(X(:,j)'-Ave2')-log(2*pi)-1/2*log(det(W22)+log(P(2);%判9别
21、函数if gi>=g2Result(1,1)=Result(1,1)+1;% 记录 FAMALEXF(:,j)=X(:,j);else Result(1,2)=Result(1,2)+1;% 记录 MALE XM(:,j)=X(:,j);endendsubplot(3,1,3)plot(XF(1,:),XF(2,:),'r.','Li neWidth',2),hold on plot(XM(1,:),XM(2,:),'b+','LineWidth',2),hold ontitle('测试样本test2身高体重都作为特
22、征时的分布情况')lege nd('FAMALE','MALE')Result %反馈分类结果5实验结果实验结果如图所示:100306040140145150155160165170测试样本怕站2分布情况150Result = 训练样t:FAMALE* 训紡样丰IV1ALE1S0135190 FAMALE + MALE150195155I190JLJIJ1651701751801S5側试样本悒址2身高体蜜那柞脚特征时的分布情况452556结论从理论上讲,依据贝叶斯理论所设计的分类器应该有最优的性能,如果所有的模式识别问题都 可以这样来解决,那么模式识别问题就成了一个简单的计算问题,但是实际问题往往更复杂。贝叶 斯决策理论要求两个前捉,一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中国牛黄甲硝唑胶囊行业市场发展前景及发展趋势与投资战略研究报告
- 2020-2025年中国临床体外诊断试剂产品市场前景预测及投资规划研究报告
- 2025年来特灵行业深度研究分析报告
- 2024-2030年中国手机游戏行业市场调查研究及投资前景展望报告
- 2025年养颜嫩白茶行业深度研究分析报告
- 2025年中国期货投资行业市场发展前景及发展趋势与投资战略研究报告
- 2024年麦冬种植市场调查报告
- 2024中国地震服务行业分析报告
- 节能评估报告编制合同7
- 2025年六水结晶氯化铝行业深度研究分析报告
- 投饵机相关项目实施方案
- 2024年可行性研究报告投资估算及财务分析全套计算表格(含附表-带只更改标红部分-操作简单)
- 湖北省石首楚源“源网荷储”一体化项目可研报告
- 医疗健康大数据平台使用手册
- 碳排放管理员 (碳排放核查员) 理论知识考核要素细目表四级
- 撂荒地整改协议书范本
- 诊所负责人免责合同范本
- 2024患者十大安全目标
- 实验报告·测定鸡蛋壳中碳酸钙的质量分数
- 部编版小学语文五年级下册集体备课教材分析主讲
- 电气设备建筑安装施工图集
评论
0/150
提交评论