应用统计学判别分析_第1页
应用统计学判别分析_第2页
应用统计学判别分析_第3页
应用统计学判别分析_第4页
应用统计学判别分析_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

应用统计学判别分析第一页,共四十二页,2022年,8月28日例:中小企业的破产模型为了研究中小企业的破产模型,选定4个经济指标:

X1总负债率(现金收益/总负债)

X2收益性指标(纯收入/总财产)

X3短期支付能力(流动资产/流动负债)

X4生产效率性指标(流动资产/纯销售额)对17个破产企业(1类)和21个正常运行企业(2类)进行了调查,得如下资料:第二页,共四十二页,2022年,8月28日总负债率收益性指标短期支付能力生产效率指标类别-.45-.411.09.451-.56-.311.51.161.06.021.01.401-.07-.091.45.261-.10-.091.56.671-.14-.07.71.281-.23-.30.22.181.07.021.31.251.01.002.15.701-.28-.231.19.661.15.051.88.271.37.111.99.381-.08-.081.51.421.05.031.68.951.01.001.26.601.12.111.14.171-.28-.271.27.511.51.102.49.542.08.022.01.532第三页,共四十二页,2022年,8月28日.38.113.27.552.19.052.25.332.32.074.24.632.31.054.45.692.12.052.52.692-.02.022.05.352.22.082.35.402.17.071.80.522.15.052.17.552-.10-1.012.50.582.14-.03.46.262.14.072.61.522-.33-.093.01.472.48.091.24.182.56.114.29.452.20.081.99.302.47.142.92.452.17.042.45.142.58.045.06.132.04.011.50.71待判-.06-.061.37.40待判第四页,共四十二页,2022年,8月28日企业序号判别类型判别函数得分判别为1的概率判别的为2概率11-.56509.69479.3052121-.89817.80234.1976631-.59642.70620.2938041-1.02182.83420.1658052.25719.35312.6468862.34253.32005.6799572.27925.34442.65558821.24010.09012.90988第五页,共四十二页,2022年,8月28日二、判别分析的基本要求:

1、分组类型在两组以上;

2、第一阶段每组样本(或案例)个数至少一个以上;

3、解释变量必须是可测量的三、判别分析与聚类分析的比较:

1、判别分析是在已知研究对象分成若干类型并已取得各种类型的一批已知样本的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样本进行判别分类。

2、聚类分析则是对研究对象的类型未知的情况下,对其进行分类的方法。第六页,共四十二页,2022年,8月28日

3、判别分析和聚类分析往往联合使用。当总体分类不清楚时,先用聚类分析对一批样本进行分类,再用判别分析构建判别式对新样本进行判别。此外判别分析变量情况:被解释变量为属性变量;解释变量是定量变量。第七页,共四十二页,2022年,8月28日四、判别分析类型及方法

(1)按判别的组数来分,有两组判别分析和多组判别分析(2)按区分不同总体所用的数学模型来分,有线性判别和非线性判别(3)按判别对所处理的变量方法不同有逐步判别、序贯判别。(4)按判别准则来分,有费歇尔判别准则、贝叶斯判别准则第八页,共四十二页,2022年,8月28日2距离判别基本思想:即:首先根据已知分类的数据,分别计算各类的重心即各组(类)的均值,判别的准则是对任给样品,计算它到各类平均数的距离,哪个距离最小就将它判归哪个类。第九页,共四十二页,2022年,8月28日例在企业的考核中,可以根据企业的生产经营情况把企业分为优秀企业和一般企业。考核企业经营状况的指标有:资金利润率=利润总额/资金占用总额劳动生产率=总产值/职工平均人数产品净值率=净产值/总产值三个指标的均值向量和协方差矩阵如下。现有二个企业,观测值分别为(7.8,39.1,9.6)和(8.1,34.2,6.9),问这两个企业应该属于哪一类?第十页,共四十二页,2022年,8月28日变量均值向量协方差矩阵优秀一般资金利润率13.55.468.3940.2421.41劳动生产率40.729.840.2454.5811.67产品净值率10.76.221.4111.677.90第十一页,共四十二页,2022年,8月28日线性判别函数:第十二页,共四十二页,2022年,8月28日距离判别法的优缺点:该方法简单实用,但没有考虑到每个总体出现的机会大小,即先验概率,没有考虑到错判的损失。贝叶斯判别法正是为了解决这两个问题提出的判别分析方法。第十三页,共四十二页,2022年,8月28日贝叶斯(Bayes)判别贝叶斯判别法是通过计算被判样本x属于k个总体的条件概率P(n/x),n=1,2…..k.比较k个概率的大小,将样本判归为来自出现概率最大的总体(或归属于错判概率最小的总体)的判别方法。一、最大后验概率准则

设有k个总体且总体的概率密度为,样本x来自的先验概率为满足

.利用贝叶斯理论,x属于的后验概率(即当样本x已知时,它属于的概率为:最大后验概率判别准则:第十四页,共四十二页,2022年,8月28日例:设有,和三个类,欲判别某样本属于哪一类.已知现利用后验概率准则计算属于各组的后验概率:

第十五页,共四十二页,2022年,8月28日例:办公室新来了一个雇员小王,小王是好人还是坏人大家都在猜测。按人们主观意识,一个人是好人或坏人的概率均为0.5。坏人总是要做坏事,好人总是做好事,偶尔也会做一件坏事,一般好人做好事的概率为0.9,坏人做好事的概率为0.2,一天,小王做了一件好事,小王是好人的概率有多大,你现在把小王判为何种人。

第十六页,共四十二页,2022年,8月28日Bayes公式:第十七页,共四十二页,2022年,8月28日例:下表是某金融机构客户的个人资料,这些资料对一个金融机构来说,对于客户信用度的了解至关重要,因为利用这些资料,可以挖掘出许多的信息,建立客户的信用度评价体系。所选变量为:

x1:月收入

x2:月生活费支出

x3:虚拟变量,住房的所有权,自己的为“1”,租用的“0”

x4:目前工作的年限

x5:前一个工作的年限

x6:目前住所的年限

x7:前一个住所的年限X8:家庭赡养的人口数X9:信用程度,“5”的信用度最高,“1”的信用度最低。第十八页,共四十二页,2022年,8月28日第十九页,共四十二页,2022年,8月28日第二十页,共四十二页,2022年,8月28日费歇尔(Fisher)判别所谓Fisher判别法,就是用投影的方法将k个不同总体在p维空间上的点尽可能分散,同一总体内的各样本点尽可能的集中。用方差分析的思想则可构建一个较好区分各个总体的线性判别法例:考虑只有两个(预测)变量的判别分析问题。假定这里只有两类。数据中的每个观测值是二维空间的一个点。见图(下一张幻灯片)。这里只有两种已知类型的训练样本。其中一类有38个点(用“o”表示),另一类有44个点(用“*”表示)。按照原来的变量(横坐标和纵坐标),很难将这两种点分开。于是就寻找一个方向,也就是图上的虚线方向,沿着这个方向朝和这个虚线垂直的一条直线进行投影会使得这两类分得最清楚。可以看出,如果向其他方向投影,判别效果不会比这个好。这种首先进行投影的判别方法就是Fisher判别法。第二十一页,共四十二页,2022年,8月28日第二十二页,共四十二页,2022年,8月28日例:企图用一套打分体系来描绘企业的状况。该体系对每个企业的一些指标(变量)进行评分。这些指标包括:企业规模(is)、服务(se)、雇员工资比例(sa)、利润增长(prr)、市场份额(ms)、市场份额增长(msr)、流动资金比例(cp)、资金周转速度(cs)等等。另外,有一些企业已经被某杂志划分为上升企业、稳定企业和下降企业。我们希望根据这些企业的上述变量的打分和它们已知的类别(三个类别之一:group-1代表上升,group-2代表稳定,group-3代表下降)找出一个分类标准,以对没有被该刊物分类的企业进行分类。该数据有90个企业(90个观测值),其中30个属于上升型,30个属于稳定型,30个属于下降型。这个数据就是一个“训练样本”。第二十三页,共四十二页,2022年,8月28日第二十四页,共四十二页,2022年,8月28日利用SPSS软件的逐步判别法淘汰了不显著的流动资金比例(cp),还剩下七个变量is,se,sa,prr,ms,msr,cs,得到两个典则判别函数(CanonicalDiscriminantFunctionCoefficients):这两个函数实际上是由Fisher判别法得到的向两个方向的投影。这两个典则判别函数的系数是下面的SPSS输出得到的:第二十五页,共四十二页,2022年,8月28日

根据这两个函数,从任何一个观测值(每个观测值都有7个变量值)都可以算出两个数。把这两个数目当成该观测值的坐标,这样数据中的150个观测值就是二维平面上的150个点。它们的点图在下面图中。第二十六页,共四十二页,2022年,8月28日第二十七页,共四十二页,2022年,8月28日从上图可以看出,第一个投影(相应于来自于第一个典则判别函数横坐标值)已经能够很好地分辨出三个企业类型了。这两个典则判别函数并不是平等的。其实一个函数就已经能够把这三类分清楚了。SPSS的一个输出就给出了这些判别函数(投影)的重要程度:第二十八页,共四十二页,2022年,8月28日投影的重要性是和特征值的贡献率有关。该表说明第一个函数的贡献率已经是99%了,而第二个只有1%。当然,二维图要容易看一些。投影之后,再根据各点的位置远近算出具体的判别公式(SPSS输出):第二十九页,共四十二页,2022年,8月28日该表给出了三个线性分类函数的系数。把每个观测点带入三个函数,就可以得到分别代表三类的三个值,哪个值最大,该点就属于相应的那一类。计算机软件的选项可以把这些训练数据的每一个点按照这里的分类法分到某一类。当然,我们一开始就知道这些训练数据的各个观测值的归属,但即使是这些训练样本的观测值(企业)按照这里推导出的分类函数来分类,也不一定全都能够正确划分。第三十页,共四十二页,2022年,8月28日第三十一页,共四十二页,2022年,8月28日判别分析的SPSS操作步骤:执行菜单命令,单击[Analyze]、[Classify]、[Discriminant]第三十二页,共四十二页,2022年,8月28日第三十三页,共四十二页,2022年,8月28日⑴指定分组变量及其取值范围。

将分组变量从源变量窗口通过选择箭头选到分组变量窗口“Groupingvariable”。并从“DefineRange”按钮定义分组变量的取值范围,给定最小值Minimum和最大值Maximum。⑵指定判别函数中的自变量。

将自变量从源变量窗口通过选择箭头选到自变量窗口。⑶选择使用自变量的方法。

对于选定的自变量可以全部应用到判别函数中去,这是系统默认的使用全部自变量法“Enterindependenttogether”。如果要对变量进行筛选检验,将使用选项逐步进入法“Usestepwisemethod”。使用该方法后,按钮“Method”将被激活第三十四页,共四十二页,2022年,8月28日计算各类别及总体各变量均值、标准差⑷统计量、矩阵和函数系数的计算

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论