《多元统计分析》PPT课件.ppt

上传人：j*** IP属地：北京上传时间：2019-01-11 格式：PPT 页数：86 大小：816KB 积分：15 举报 版权申诉

已阅读5页，还剩81页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第4章判别分析距离判别贝叶斯判别典型判别逐步判别例中小企业的破产模型为了研究中小企业的破产模型，选定4个经济指标： X1总负债率（现金收益/总负债） X2收益性指标（纯收入/总财产） X3短期支付能力（流动资产/流动负债） X4生产效率性指标（流动资产/纯销售额）对17个破产企业（1类）和21个正常运行企业（2类）进行了调查，得如下资料： 1 什么是判别分析总负债率收益性指标短期支付能力生产效率指标类别 -.45-.411.09.451 -.56-.311.51.161 .06.021.01.401 -.07-.091.45.261 -.10-.091.56.671 -.14-.07.71.281 -.23-.30.22.181 .07.021.31.251 .01.002.15.701 -.28-.231.19.661 .15.051.88.271 .37.111.99.381 -.08-.081.51.421 .05.031.68.951 .01.001.26.601 .12.111.14.171 -.28-.271.27.511 .51.102.49.542 .08.022.01.532 .38.113.27.552 .19.052.25.332 .32.074.24.632 .31.054.45.692 .12.052.52.692 -.02.022.05.352 .22.082.35.402 .17.071.80.522 .15.052.17.552 -.10-1.012.50.582 .14-.03.46.262 .14.072.61.522 -.33-.093.01.472 .48.091.24.182 .56.114.29.452 .20.081.99.302 .47.142.92.452 .17.042.45.142 .58.045.06.132 .04.011.50.71待判 -.06-.061.37.40待判 .07-.011.37.34待判 -.13-.141.42.44待判 .15.062.23.56待判 .16.052.31.20待判 .29.061.84.38待判 .54.112.33.48待判企业序号判别类型判别函数得分判别为1的概率判别的为2 概率 11-.56509.69479.30521 21-.89817.80234.19766 31-.59642.70620.29380 41-1.02182.83420.16580 52.25719.35312.64688 62.34253.32005.67995 72.27925.34442.65558 821.24010.09012.90988 判别分析利用已知类别的样本培训模型，为未知样本判类的一种统计方法。它产生于20世纪30年代。近年来，在自然科学、社会学及经济管理学科中都有广泛的应用。判别分析的特点是根据已掌握的、历史上每个类别的若干样本的数据信息，总结出客观事物分类的规律性，建立判别公式和判别准则。然后，当遇到新的样本点时，只要根据总结出来的判别公式和判别准则，就能判别该样本点所属的类别。 2 距离判别（一）马氏距离距离判别的最直观的想法是计算样品到第 i类总体的平均数的距离，哪个距离最小就将它判归哪个总体，所以，我们首先考虑的是是否能够构造一个恰当的距离函数，通过样本与某类别之间距离的大小，判别其所属类别。设是从期望= 和方差阵= 的总体G抽得的两个观测值，则称为X与Y之间的Mahalanobis距离样本X和Gi类之间的马氏距离定义为X与Gi类重心间的距离：（二）两个总体距离判别法先考虑两个总体的情况，设有两个协差阵相同的p维正态总体，对给定的样本Y，判别一个样本Y到底是来自哪一个总体，一个最直观的想法是计算Y到两个总体的距离。故我们用马氏距离来指定判别规则，有： 1、方差相等则前面的判别法则表示为当和已知时，是一个已知的p 维向量，W（y）是y的线性函数，称为线性判别函数。称为判别系数。用线性判别函数进行判别分析非常直观，使用起来最方便，在实际中的应用也最广泛。例在企业的考核中，可以根据企业的生产经营情况把企业分为优秀企业和一般企业。考核企业经营状况的指标有：资金利润率=利润总额/资金占用总额劳动生产率=总产值/职工平均人数产品净值率=净产值/总产值三个指标的均值向量和协方差矩阵如下。现有二个企业，观测值分别为（7.8，39.1，9.6）和（8.1，34.2，6.9 ），问这两个企业应该属于哪一类？变量均值向量协方差矩阵优秀一般资金利润率13.55.468.3940.2421.41 劳动生产率 40.729.840.2454.5811.67 产品净值率 10.76.221.4111.677.90 线性判别函数： 2、当总体的协方差已知，且不相等当总体的方差未知时，应该用样本的协方差矩阵代替。步骤如下（假如两个总体）：（1）分别计算各组的离差矩阵S1和S2；（2）计算（3）计算类的均值（4）计算（5）计算（6）生成判别函数，将检验样本代入，得分，判类。随着计算机计算能力的增强和计算机的普及，距离判别法的判别函数也在逐步改进，一种等价的距离判别为：设有个K总体，分别有均值向量i(i=1,2,k)和协方差阵i= ，各总体出现的先验概率相等。又设Y是一个待判样品。则Y与某总体Gi的距离为（即判别函数） (三) 多总体的距离判别法上式中的第一项Y -1Y与i无关，则舍去，得一个等价的函数将上式中提-2，得则距离判别法的判别函数为：判别规则为注：这与前面所提出的距离判别是等价的. （四）对判别效果做出检验 1、错判概率由上面的分析可以看出，马氏距离判别法是合理的，但是这并不意谓着不会发生误判。 2、交叉核实交叉核实法的思想是：为了判断第i个观测的判别正确与否，用删除第i个观测的样本数据集计算出判别函数，然后用此判别函数来判别第i个观测。对每一个观测都这样进行。交叉核实检查比较严格，能说明所选择判别方法的有效性。交叉核实可以检验所用方法是否稳定。交叉核实可以解决样本容量不大的情形，改变样本，来检验方法是否稳定的问题。判类类原类类合计加权错判率：设qi是第i类的先验概率， pi是第i类的错判概率，则加权错判率为距离判别只要求知道总体的数字特征，不涉及总体的分布函数，当参数和协方差未知时，就用样本的均值和协方差矩阵来估计。距离判别方法简单实用，但没有考虑到每个总体出现的机会大小，即先验概率，也没有考虑到错判的损失。贝叶斯判别法正是为了解决这两个问题提出的判别分析方法。办公室新来了一个雇员小王，小王是好人还是坏人大家都在猜测。按人们主观意识，一个人是好人或坏人的概率均为0.5。坏人总是要做坏事，好人总是做好事，偶尔也会做一件坏事，一般好人做好事的概率为0.9，坏人做好事的概率为 0.2，一天，小王做了一件好事，小王是好人的概率有多大，你现在把小王判为何种人。 3 贝叶斯判别法一、标准的Bayes判别距离判别简单直观，很实用，但是距离判别的方法把总体等同看待，没有考虑到总体会以不同的概率（先验概率）出现，也没有考虑误判之后所造成的损失的差异。一个好的判别方法，既要考虑到各个总体出现的先验概率，又要考虑到错判造成的损失，Bayes判别就具有这些优点，其判别效果更加理想，应用也更广泛。贝叶斯公式是一个我们熟知的公式 n贝叶斯判别在各总体的概率分布及先验概率已知的前提下，分别计算待判对象属于各总体的后验概率，并以最大后验概率对应的总体来作为待判对象的所属总体。设有总体，具有概率密度函数。并且根据以往的统计分析，知道出现的概率为。即当样本发生时，求他属于某类的概率。由贝叶斯公式计算后验概率，有：判别规则则判给。在正态的假定下，为正态分布的密度函数。则判给。上式两边取对数并去掉与i无关的项，则等价的判别函数为：下面讨论总体服从正态分布的情形问题转化为若，则判。当协方差阵相等则判别函数退化为令问题转化为若，则判。完全成为距离判别法。令有问题转化为若，则判。当先验概率相等，二、考虑错判损失的Bayes判别分析设有总体，具有概率密度函数。并且根据以往的统计分析，知道出现的概率为。又D1，D2，Dk是R(p)的一个分划，判别法则为：当样品X落入Di时，则判关键的问题是寻找D1，D2，Dk分划，这个分划应该使平均错判率最小。【定义】（平均错判损失）用P(j/i)表示将来自总体Gi的样品错判到总体Gj的条件概率。 C(j/i)表示相应错判所造成的损失。则平均错判损失为：使ECM最小的分划，是Bayes判别分析的解。【定理】若总体G1，G2，Gk的先验概率为且相应的密度函数为，损失为时，则划分的Bayes解为其中含义是：当抽取了一个未知总体的样品值x，要判别它属于哪个总体，只要先计算出k个按先验概率加权的误判平均损失然后比较其大小，选取其中最小的，则判定样品属于该总体。为了直观说明，作为例子，我们讨论k=2的情形。由此可见，要使ECM最小，被积函数必须在D1是负数，则有分划 Bayes判别准则为：原则上说，考虑损失函数更为合理，但是在实际应用中 C并不容易确定，通常令这样一来，寻找后验概率最大和使错判平均损失最小是等价的。（证明略）特别则判给。与标准Bayes判别等价将C（j/i)=1代入得：下表是某金融机构客户的个人资料，这些资料对一个金融机构来说，对于客户信用度的了解至关重要，因为利用这些资料，可以挖掘出许多的信息，建立客户的信用度评价体系。所选变量为： x1: 月收入 x2：月生活费支出 x3：虚拟变量，住房的所有权，自己的为“1”，租用的 “0” x4：目前工作的年限 x5：前一个工作的年限 x6：目前住所的年限 x7：前一个住所的年限 X8：信用程度，“5”的信用度最高，“1”的信用度最低。 4 典型判别法一、两个总体的费歇（Fisher）判别法 X不能使总体单位尽可能分开的方向 u能使总体单位尽可能分开的方向旋转坐标轴至总体单位尽可能分开的方向，此时分类变量被简化为一个（一）费歇判别的基本思想从距离判别法，我们已经看到判别规则是一个线性函数，由于线性判别函数使用简便，因此我们希望能在更一般的情况下，建立一种线性判别函数。Fisher判别法是根据方差分析的思想建立起来的一种能较好区分各个总体的线性判别法， Fisher在1936年提出。该判别方法对总体的分布不做任何要求。从两个总体中抽取具有P个指标的样品观测数据，借助于方差分析的思想构造一个线性判别函数：其中系数确定的原则是使两组间的组间离差最大，而每个组的组内离差最小。当建立了判别式以后，对一个新的样品值，我们可以将他的P 个指标值代入判别式中求出Y值，然后与某个临界值比较，就可以将该样品归某类。假设我们可以得到一个线性判别函数：我们可以把两个总体的样品代入上面的判别式分别对上面两式左右相加，再除以样品个数，可得两个总体的重心: 最佳的线性判别函数应该是：两个重心的距离越大越好，两个组内的离差平方和越小越好。 Fisher最优判别准则为函数I越大越好。由微分学求极值的必要条件可求出使I达到最大值的 C1、C2、Cp 取对数求导数称为典型函数. （三）判别准则如果由原始数据y求得判别函数得分为Y*，对与一个样品代入判别函数中，若Y*Y0，则判给G1，否则判给G2。二、多个总体的Fisher判别法 (一) 判别函数 Fisher判别法实际上是致力于寻找一个最能反映组和组之间差异的投影方向，即寻找线性判别函数，设有个总体，分别有均值向量， , 和协方差阵 , 分别各总体中得到样品：第i个总体的样本均值向量总的样本均值向量第i个总体样本组内离差平方和综合的组内离差平方和组间离差平方和如果判别分析是有效的，则所有的样品的线性组合满足组内离差平方和小，而组间离差平方和大。则而所对应的特征向量即。 Fisher样品判别函数是然而，如果组数k太大，讨论的指标太多，则一个判别函数是不够的，这时需要寻找第二个，甚至第三个线性判别函数其特征向量构成第二个判别函数的系数。类推得到m(mk)个线性函数。关于需要几个判别函数的问题，需要累计判别效率达到85以上，即有设为B相对于E的特征根，则以m个线性判别函数得到的函数值为新的变量，再进行距离判别。判别规则：设yi(X)为第i个线性判别函数，，待判样品x与总体Gk的距离为则各判别法的比较 1、距离判别法与Fisher判别法未对总体的分布提出特定的要求，而Bayes判别法要求总体的分布明确。 2、在正态等协差阵的条件下，Bayes判别法（不考虑先验概率的影响）等价于距离判别准则和 Fisher线性判别法。 3、当K个总体的均值向量共线性较高时， Fisher判别法可用较少的判别函数进行判别。 4、距离判别法和Fisher判别法的不足是没有考虑各总体出现的概率大小，也给不出预报的后验概率及错判率的估计，以及错判之后的损失。而这些不足恰是Bayes的优点。但是若给定的先验概率不符合客观实际时，Bayes判别法也可能会导致错误的结论。 5 逐步判别变量的选择是判别分析中的一个重要的问题，变量选择是否恰当，是判别分析效果有列的关键。如果在某个判别问题中，将起最重要的变量忽略了，相应的判别函数的效果一定不好。而另一方面，如果判别变量个数太多，计算量必然大，会影响估计的精度。特别当引入了一些判别能力不强的变量时，还会严重地影响判别的效果。中小企业的破产模型为了研究中小企业的破产模型，首先选定了X1总负债率（现金收益/总负债），X2收益性指标（纯收入/总财产），X3短期支付能力（流动资产/流动负债）和X4生产效率性指标（流动资产/纯销售额）4个经济指标，对17个破产企业为“1”和21个正常运行企业“2”进行了调查，得资料如下。如果这些指标是用来做判别分析和聚类分析的变量，他们之间没有显著性差异是不恰当的，所以检验所选择的指标在不同类型企业之间是否有显著的差异。 x1,x2,x3,x4均为判别变量 x1, x3为判别变量设有n样品，分别来自 k个类G1，G2 ，Gk其中ni个来自Gi，（一）变量组间差异的显著检验样品分别为：即，p个指标对G1，G2，Gk无区别能力； p个指标对G1，G2，Gk有区别能力。当比值很小，类内的离差平方和在总离差平方和中所占比率小，则类间的离差平方和所占比重大。在原假设为真的条件下，服从维尔克斯分布。当接受原假设；当 p个指标对G1，G2，Gk有强的区别能力，拒绝原假设。（二）附加信息的检验在回归分析中，变量的好坏直接影响回归的效果。在判别分析中也有类似的问题。如果在某个判别分析问题中，将其中最主要的指标忽略了。判别效果一定不会好。但是在许多问题中，事先并不知道那些是主要的指标。因此筛选变量的问题就成了非常重要的了。从而产生了逐步判别法，而逐步判别法的基础是附加信息的检验。设判别函数中已经有q个变量，要检验某个变量xj对判别效果的贡献，或者说变量对判别是否有附加的信息。 H0: xj对判别分析没有附加的信息 H1: xj对判别分析有附加的信息将q+1个变量构成的叉积将矩阵分块利用分块矩阵的行列式的性质有：它是在给定了q个指标的条件下，对q+1个指标的附加信息量的度量，该统计量服从维尔克斯分布该统计量服从F(k-1,n-p-k)分布，当F很大时，则拒绝原假设，第q+1个指标有附加信息；否则，接受原假设。 2、剔除变量对于判别函数中已有的q1个变量，是否有对判别能力贡献不显著的变量存在，则应该将其从判别函数中删除。 H0: xk对判别分析贡献不显著，即应该剔除； H1: xk对判别分析贡献显著，即应该保留；检验的统计量逐步判别法采用有进有出的算法，即每一步都进行检验。开始时，模型中没有变量，首先，将判别能力最强的变量（Wilks的统计量最小者）引进判别函数，而对较早进入判别函数的变量，随着其他变量的进入，其显著性可能发生变化，如果其判别能力不强了，则删除,当模型中的所有变量都达到留在模型中的标准而没有其他变量能达到进入模型的标准，逐步选择过程停止。。向前选入开始时模型中没有变量。每一步，Wilks的统计量最小者，进入模型。当不再有未被选入的变量小于选入的临界值时，向前选入过程停止。向后剔除开始时，所有变量依赖于VAR语句中的变量都在

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《多元统计分析》PPT课件.ppt

文档简介

温馨提示

最新文档

评论

《多元统计分析》PPT课件.ppt

文档简介

温馨提示

最新文档

评论

相关文档