版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、.,1,多元统计分析判别分析,统计 研一 苏旸 2007100196,.,2,判别分析把对象归到已知类中,人们常说: “像诸葛亮那么神机妙算” “像泰山那么稳固” “像钻石那么坚硬” 一些判别标准都是有原型的,虽然这些判别的标准并不那么精确或严格,但大都是根据一些现有的模型得到的。,.,3,判别分析的方法,距离判别法 Fisher判别法 Bayes判别法 逐步判别法,.,4,距离判别法,假设有两个总体G1和G2, 如果能够定义点x到它们的距离D(x,G1)和D(x,G2), 则 如果D(x,G1) D(x,G2),则 xG1 如果D(x,G2) D(x,G1),则 xG2 如果D(x,G1)
2、= D(x,G2),则待判。 距离判别法的不足之处: 判别方法与总体各自出现的的概率大小无关; 判别方法与错判之后所造成的损失无关。,.,5,Fisher判别法,所谓Fisher判别法,就是一种先投影的方法,把高维空间中的点向低维空间进行投影。 主要思想是通过将多维数据投影到某个合适的方向上。而投影的原则是将总体与总体之间尽可能的分开,然后选择合适的判别规则,进行分类判别。,.,6,Bayes判别法,当每个分类的观察值不同时,最好用Bayes判别。因为每个分类的观察值不同时,每类出现的机会是不同的,而Fisher判别法忽视了这个问题。 具体方法是:对每一个样品先计算出判别分数D,然后根据先验概
3、率和D的条件概率,计算出该样品被判为每一类的后验概率,哪 类的后验概率最大,则判为哪一类。,.,7,逐步判别法,逐步判别法就是在前面的方法中加入变量选择功能。有时,一些变量对于判别没有什么作用,为了得到对判别最合适的变量,可以使用逐步判别。 逐步判别的思想是先用少数变量进行判别,然后一边判别,一边引进判别能力最强的变量,同时淘汰判别能力不强的的变量。 主要利用一些检验来判断变量的判别能力。,.,8,大纲,disc.sav, disc.txt,.,9,数据介绍disc.sav,数据来源:吴喜之统计学:从数据到结论。 数据介绍:某专家编出一套打分体系来描绘企业的状况。该体系对每个企业的一些指标(变
4、量)进行评分。共有8个指标,如下页表格所示。 有一些企业已经被某杂志划分为上升企业、稳定企业和下降企业。我们希望根据这些企业的上述变量的打分和它们已知的类别,找出分类标准,并对没分类的企业进行分类。,.,10,变量描述,.,11,数据展示,该数据disc.sav共有90个样本,其中30个属于上升型,30个属于稳定性,30属于下降型。这个已知类别的数据称为一个“训练样本”。,group 表示类别,8个用来建立 判别标准的变量,.,12,SPSS实现数据读入,File Open Data “Disc.sav”,.,13,SPSS实现数据编辑,Variable View “Group”变量Decim
5、als:“2” “0”; Label:添加变量名称,便于识别; “Group”变量Value:添加组别。,.,14,SPSS实现数据分析,Analyze Classify Discriminant,.,15,SPSS实现模块介绍,Grouping Variable:选入分类变量“Group”,Define Range被激活。点击弹出Range对话框,分别输入分类变量最小值和最大值,本例为“1”和“3”。 Independents:选入自变量。本例选入变量“iscs”。 Enter independents together:所有自变量同时进入方程。 Use stepwise method:逐步
6、判别法。按自变量贡献大小,逐个引入和剔出变量,直到没有新的有显著作用的自变量可以引入,也没有无显著作用的自变量可以从方程内删除为止。选此项后,激活Method按钮。 Select Variable:挑选观察单位。框内选入变量后(不能选入分类变量和自变量中已选入的变量),Value按钮被激活,填入数值。自己符合该数值的的观察单位才参与判别分析;若不选此项,则所有观察单位都参与判别分析。,.,16,SPSS实现选择变量的方法,两种变量选择方法,.,17,SPSS实现变量选择,group 选入分组变量,is-cs 选入自变量,选择自变量 同时进入方程的方法,.,18,SPSS实现Statistics
7、模块,Descriptives:描述性统计量。 Means:均数估计。 Univariate ANOVAs:单变量方差分析。 Boxs M:组间协方差齐性检验。 Matrices:矩阵 Within-groups correlation:合并组内相关阵。 Within-groups covariance:合并组内协方差阵。 Separate-groups covariance:各组协方差阵。 Total covariance:总协方差阵。 Function Coefficients:函数系数。 Fishers:Fisher函数系数Bayes判别函数系数。 Unstandardized:非标准化
8、函数系数Fisher判别函数系数。,.,19,SPSS实现Statistics模块,选择Means 进行均数估计,选择Boxs M 进行各组协方 差阵相等检验,生成Bayes判别方程系数和Fisher判别方程系数。,选择ANOVAs进行 各组均值相等检验,.,20,SPSS实现Classify模块,Prior Probabilities:设定先验概率。 All groups equal:各组等概率。 Compute from group sizes:各组样本量的百分比为先验概率。 Display:输出。 Casewise result:每个观察单位判别分析后所属类别。 Limit cases
9、to first :前若干观察单位判别分析后所属类别。 Summary table:判别符合率表。 Leave-one-out classification:以剔出某观察单位所建立的判别函数判别该观察单位所属类别。 Use Covariance Matrix:使用协方差阵。 Within-groups:组内协方差阵。 Separate-groups:各组协方差阵。,.,21,SPSS实现Classify模块,Plots:判别图。 Combined-groups:各类共同输出在一幅散点图中。 Separate-groups:每类单独输出一幅散点图。 Territorial map:分类区域图。
10、Replace missing values with mean:用均数替代缺失值。,选择以样本量百 分比为先验概率,显示每个单位判别分析后所属类别,显示判别符合率表,类别显示在 同一散点图中,以剔出某观察单位所建立的判别函数判别该观察单位所属类别,.,22,SPSS实现Save模块,Save:存为新变量。 Predicted group membership:预测观察单位所属类别。 Discriminant scores:判别分。 Probabilities of group membership:观察单位属于某一类的概率。,在数据中 保存判别后 数据所属类别,在数据中保存数据的判别分,.,
11、23,结果分析,在判别分析主对话框中点击“OK”,生成输出output文件。,90个变量100%读入,没有缺失值,.,24,结果分析,各自变量的方差分析及统计量,说明在3类企业间,各变量均有显著差异,统计量在0-1之间。越接近0组间差异越显著;越接近1组间差异越不显著。,.,25,结果分析,各组协方差阵 相等的检验,说明拒绝协方差矩阵相等的假设,即不能认为各组间协方差矩阵相等。,从一些统计实践的结果来看,很少有碰到检验不显著的情况。而在一些实践中,比如线性判别分析,即使方差协方差结构不相等,对于结果的影响也不会有非常大的影响。,.,26,结果分析Fisher判别法,标准化典型 判别函数系数,得
12、到2个标准化典型判别方程:,需要注意的是:这是标准化后的判别函数,若要将变量带入计算判别分,必须将变量进行标准化处理(即减均值除以标准差)。,.,27,结果分析Fisher判别法,结构系数矩阵用来说明判别变量对标准化典型判别方程的相关程度,结果说明,前6个变量(*)对方程1贡献比较大,后两个变量对方程2贡献较大。,.,28,结果分析Fisher判别法,未标准化典型判别函数系数Fisher判别法,得到2个未标准化典型判别方程:,可以将原变量值直接代入计算判别分进行分类。,.,29,结果分析Fisher判别法,生成3个新的变量,dis_1表示判别后所属组别的值,dis1_1表示样本代入第1个判别函
13、数所得的判别分,dis2_1表示样本代入第2个判别函数所得的判别分,.,30,结果分析Fisher判别法,Fisher判别法得到的分组图,各组重心描述在判别空间每一组的中心位置,.,31,结果分析Fisher判别法,判别力指数两个判别函数的作用并不是平等的,判别力指数给出了判别函数的重要程度。,说明第一个判别函数的贡献率高达98.8%,第二个判别函数的贡献率仅为1.1%。,.,32,结果分析Fisher判别法,残余判别力指数残余判别力的含义是:在以前计算的函数已经提取过原始信息之后,残余的变量信息对于判别分组的能力。,值越小表示越高的判别力。说明方程1提取了很大的信息量,而残余变量信息对于判别
14、分组的能力很小了。,.,33,结果分析Fisher判别法,分类结果,从表上看,我们的分类函数能够100%的把训练数据的每一个观测值分到其本来的类。该表分成两部分:上面一半是用从全部数据得到的判别函数来判断每一个点的结果;下面一半是对每一个观测值,都用仅缺少该观测值的全部数据得到的判别函数来进行判断的结果。,.,34,结果分析Bayes判别法,各分类的先验概率,先验概率是根据样本出现概率确定的,本例3类企业各有30个,因此先验概率相等都为33.3%。,.,35,结果分析Bayes判别法,Bayes判别法得到的判别函数系数,得到3个判别方程:,将观察单位的各个变量分别代入3个判别函数中,可求出3个
15、判别函数值,哪一个最大就属于哪一类。,.,36,结果分析Bayes判别法,上述结果会生成一个Casewise Statistics的表格。显示实际分类和预测分类,系统会将分错的样本单位用*标注出来。 本例用Bayes判别法判别的正确率为100%。 需要指出的是,根据推导出来的分类函数来分类,即使是对训练样本的这些观测值,也不一定总能保证全都被正确划分。 本例如果只用少数几个变量进行判别,结果就不一样了。,.,37,结果分析,使用企业规模(ie)、服务(se)和雇员工资比例(sa)三个变量进行判别,得到的分类图。,与8个变量进行判别相对比,明显的三类点分的就不那么开了。,.,38,结果分析,基于
16、3个变量的分类结果表,结果显示,对于全部数据的判别,有85个点(94.4%)得到正确划分,5个点错判;其中第二类有3个被误判到第一类;有2个被误判到第三类。对于交叉验证的判别,有83个点(92.2%)得到正确划分,有7个点被错判;其中第二类有3个被误判为第一类,4个被误判为第三类。,.,39,SPSS实现,选择逐 步判别法,Method模块被激活,.,40,SPSS实现Method模块,Method:逐步判别分析方法 Wilks lambda:Wilks 统计量(组内离差平方和/总离差平方和)最小化法。 Unexplained variance:组间不可解释方差和最小化。 Mahalanobi
17、s distance:邻近组间马氏距离最大化法。 Smallest F ratio:任两组间最小F值最大化法。 Raos V:Rao V统计量最大化法。 V-to-enter:V值最小增量值。 Criteria:剔选标准 Use F value:以F值为剔选变量准则。 Use probability of F:以F值对应的P值为剔选变量准则。,.,41,SPSS实现Method模块,Display:输出 Summary of steps:输出每一步的统计量。 F for pairwise distance:输出两组间判别检验的F值及P值。,选择Wilks 统计量最小化法,选择输出每一步统计量,
18、当F3.84时选入;当F 2.71时剔出。,.,42,结果分析,经过分析,淘汰了不显著的资金流动比例(cp)变量,当然判别系数也发生相应变化。,.,43,结果分析,虽然判别系数改变,但结果并未改变。,.,44,R语言实现, w=read.table(disc.txt);attach(w);w,V1代表Group。, V1=factor(V1) #把分组变量变成定性变量。,.,45,R语言实现, train=sample(1:90,45) #随即抽取一般样本作训练样本。 table(V1train) #显示训练样本中各类的比例。 library(MASS); z=lda(V1.,data=w,prior=c(1,1,1)/3,subset=train) #用V1作分组变量,V2-V9作判别变量,使用训练样本生成 判别函数,先验概率各为33.3%。,.,46,R语言实现,先验概率各为33.3%。,判别系数,第1个判别函数贡献率为98.7%;第2个判别函数贡献率为1.3%。,.,47,R语言实现, a1=predict(z,w-train,) #用z的结果预测训练样本外的点 a
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 眼化学伤的急救和治疗原则
- 脑血栓的溶栓治疗
- 肛肠疾病的中医治疗
- 课件字体标准教学课件
- 高三化学一轮复习 离子反应 课件
- 1.1.1原子结构和原子光谱 课件 高二上学期化学人教版(2019)选择性必修2
- 日光性皮肤病
- 初中生网络安全教育
- 物业主管半年述职报告
- 踩高跷教案反思大班
- 飞控系统讲解
- 11~20各数的认识 第一课时(教案)-2023-2024学年一年级上册数学人教版
- 农村土地承包租赁合同范本版
- 中医病专科申报课件
- 2024年重庆国丰实业有限公司招聘笔试冲刺题(带答案解析)
- 2024年新个人借款合同电子版(3篇)
- 国家领土安全课件视频
- 多发性骨髓瘤教学查房
- 体育过程性评价实施方案
- 【客舱服务质量与空中乘务员综合素质浅论4800字(论文)】
- 计算机应用基础(Windows 10+Office 2019)(第4版)课件 单元1-认识与使用计算机
评论
0/150
提交评论