




已阅读5页,还剩30页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中央财经大学统计学院,判别分析,引言 距离判别 Fisher判别 Bayes判别,中央财经大学统计学院 2,引言,在我们的日常生活和工作实践中,常常会遇到判别分析问题,即根据历史上划分类别的有关资料和某种最优准则,确定一种判别方法,判定一个新的样本归属哪一类。 例如,某医院有部分患有肺炎、肝炎、冠心病、糖尿病等病人的资料,记录了每个患者若干项症状指标数据。现在想利用现有的这些资料找出一种方法,使得对于一个新的病人,当测得这些症状指标数据时,能够判定其患有哪种病。,中央财经大学统计学院 3,判别分析的适用场合,把这类问题用数学语言来表达,可以叙述如下:设有n个样品,对每个样品测得p项指标的数据,已知每个样品属于k个类别(或总体)G1,G2, ,Gk中的某一类。 我们希望利用这些数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。 对测得同样p项指标(变量)数据的一个新样品,能判定这个样本归属于哪一类。,中央财经大学统计学院 4,判别分析方法的分类,两个总体判别分析和多总体判别分析 常用的几种判别分析方法:距离判别法、Fisher判别法、Bayes判别法和逐步判别法。,中央财经大学统计学院 5,距离判别的思想,两个总体的距离判别问题:设两个总体G1和G2,对于一个新的样品X,要判断它来自哪个总体。 方法:按就近原则归类。求新样品X到G1的距离与到G2的距离之差,如果其值为正,X属于G2;否则X属于G1。 根据上述准则可以推导出一个判别函数W,把待判样品的值代入判别函数,根据计算结果是否大于0得出判别结论。,中央财经大学统计学院 6,Fisher判别,借助方差分析的思想构造一个线性判别函数: 确定判别函数系数时要求使得总体之间区别最大,而使每个总体内部的离差最小。 从几何的角度看,判别函数就是p维向量X在某种方向上的投影。使得变换后的数据同类别的点“尽可能聚在一起”,不同类别的点“尽可能分离”,以此达到分类的目的。,中央财经大学统计学院 7,两类Fisher判别示意图,Y,X,L=b1X+b2Y,G1,G2,中央财经大学统计学院 8,Fisher判别的原理,如果有多个类别, Fisher判别可能需要两个或者更多的判别函数才能完成分类。 一般来说判别函数的个数等于分类的个数减一。 得到判别函数后,计算待判样品的判别函数值,根据判别函数的值计算待判样品到各类的重心的距离,从而完成分类。,中央财经大学统计学院 9,Bayes判别的基本思想,设有K个总体,样品来自各个总体的先验概率为pi,各总体的密度函数为fi(x),在观测到一个样品X的条件下,可以根据贝叶斯公式计算出它来自某个总体的后验概率。 待判样品属于哪一类的后验概率最大,就把它分入哪一类。 一般假设服从多元正态分布、各总体的协方差矩阵相等。,中央财经大学统计学院 10,后验概率的一个例子,随机调查1000人,700有自有住房,其中20%为外地人;300人租房住,其中70%为外地人。 调查1人为外地人,应归入自有住房还是租房的类别? 先验概率:属于自有住房的概率为70%,应分为这一类。 根据贝叶斯公式,是租房户的后验概率为(0.3*0.7)/(0.7*0.2+0.3*0.7)=0.6。因此应分入租房户这一类。,中央财经大学统计学院 11,逐步判别,让统计软件根据一定的规则自动筛选那些对分类有重要作用的变量进行判别分析。 类似逐步回归中变量的筛选过程。,中央财经大学统计学院 12,判别结果的评价,一般根据对原始数据、验证样本的正确分类的比率来评价分类效果的好坏。 原样本(训练样本),组内考核,组内回代 验证样本(test data set),组外考核 交叉验证(cross validate),弃一法,刀切法(jackknife):每次使用n-1个样品对另一个样品进行分类,计算整体上分类正确的比例。,中央财经大学统计学院 13,判别分析的正确应用,理论上,类间分得越开,判别效果越好,类间距离越近,判别效果就越差。 不同的判别方法间是个参照,大多情况下,效果近似。 关键是指标是否具有判别价值。,中央财经大学统计学院 14,SPSS判别分析的实现和结果分析,例1 对国家类别的判别 例2 对鸢尾花数据的判别分析,中央财经大学统计学院 15,例1 14个国家的出生时预期寿命和成人识字率,中央财经大学统计学院 16,SPSS操作,分析分类判别 基本设定:,中央财经大学统计学院 17,相关选项,中央财经大学统计学院 18,相关选项,刀切法的分类效果,原始数据的分类效果,中央财经大学统计学院 19,保存分类结果,中央财经大学统计学院 20,结果分析:方差分析,识字率在各组中差别很不显著,对分类的作用可能不大。,中央财经大学统计学院 21,Fisher判别函数,D=-16.661+0.342预期寿命-0.09识字率,中央财经大学统计学院 22,两类的重心,根据待判样品的数据计算Fisher判别函数的值,离哪个组的重心近就归入哪一类。,中央财经大学统计学院 23,分类函数,实际是Bayes判别分析的结果。 把待判样品的数据带入分类函数,哪个组的值最大就分入那个组。有几个组就有几个分类函数。,D1=-190+5.44预期寿命-0.362识字率 D2=-162+4.88预期寿命-0.214识字率,分类效果的评价,这里SPSS中使用的是Bayes判别的分类结果,分类正确,分类错误,中央财经大学统计学院 25,待判样品的分类结果,中央财经大学统计学院 26,例2 鸢尾花的数据,我们使用前100个样品为训练样本,后50为测试样本。 变量:花萼长度x1、花萼宽度x2、花瓣长度x3、花瓣宽度x4,单位为mm。 构造变量TRAIN_TEST,前100取值为1,后50取值为0,以区分训练和测试样本。,中央财经大学统计学院 27,软件操作,中央财经大学统计学院 28,结果分析,方差分析,中央财经大学统计学院 29,判别函数和各组重心,中央财经大学统计学院 30,分类函数,分类结果,中央财经大学统计学院 32,对鸢尾花的数据使用逐步判别,中央财经大学
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025房屋交易合同范本
- 2025高考化学三轮复习之制备实验方案的设计(解答大题)
- 宠物行业宠物寄养与健康管理平台方案
- 2025深圳市建设工程施工单价合同
- 2025网站的服务合同示例
- 复变函数考试试题及答案
- 铁路线路工高级技师模拟试题及参考答案
- 2024年花艺师考试案例应用题目与答案
- 绿色诊所的园艺实践试题及答案
- 高压电工作业模拟题(附答案)
- 2024年重庆出版集团招聘笔试参考题库含答案解析
- 【高中历史】辽夏金元的统治课件-2024届高三历史统编版一轮复习
- 幼儿行为观察与分析案例教程 课件 第5、6章 幼儿情绪表现的观察分析与指导、幼儿认知发展的观察分析与指导
- 《强化学习理论与应用》深度强化学习概述
- 23CG60 预制桩桩顶机械连接(螺丝紧固式)
- 婴幼儿的心肺复苏-课件
- 小说叙述视角与叙述人称公开课课件
- 音乐育人思政先行:课程思政融入小学音乐教学的路径 论文
- 土壤污染及其防治课件
- 人教版数学五年级下册分数与除法课件
- 日语语法学习N2文法600题(答案)
评论
0/150
提交评论