《多元统计分析》PPT课件.ppt_第1页
《多元统计分析》PPT课件.ppt_第2页
《多元统计分析》PPT课件.ppt_第3页
《多元统计分析》PPT课件.ppt_第4页
《多元统计分析》PPT课件.ppt_第5页
已阅读5页,还剩81页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第4章 判 别 分 析 距离判别 贝叶斯判别 典型判别 逐步判别 例 中小企业的破产模型 为了研究中小企业的破产模型,选定4个经济 指标: X1总负债率(现金收益/总负债) X2收益性指标(纯收入/总财产) X3短期支付能力(流动资产/流动负债) X4生产效率性指标(流动资产/纯销售额) 对17个破产企业(1类)和21个正常运行企 业(2类)进行了调查,得如下资料: 1 什么是判别分析 总负债率收益性指标短期支付能力生产效率指标类别 -.45-.411.09.451 -.56-.311.51.161 .06.021.01.401 -.07-.091.45.261 -.10-.091.56.671 -.14-.07.71.281 -.23-.30.22.181 .07.021.31.251 .01.002.15.701 -.28-.231.19.661 .15.051.88.271 .37.111.99.381 -.08-.081.51.421 .05.031.68.951 .01.001.26.601 .12.111.14.171 -.28-.271.27.511 .51.102.49.542 .08.022.01.532 .38.113.27.552 .19.052.25.332 .32.074.24.632 .31.054.45.692 .12.052.52.692 -.02.022.05.352 .22.082.35.402 .17.071.80.522 .15.052.17.552 -.10-1.012.50.582 .14-.03.46.262 .14.072.61.522 -.33-.093.01.472 .48.091.24.182 .56.114.29.452 .20.081.99.302 .47.142.92.452 .17.042.45.142 .58.045.06.132 .04.011.50.71待判 -.06-.061.37.40待判 .07-.011.37.34待判 -.13-.141.42.44待判 .15.062.23.56待判 .16.052.31.20待判 .29.061.84.38待判 .54.112.33.48待判 企业 序号 判别 类型 判别函数 得分 判别为1的 概率 判别的为2 概率 11-.56509.69479.30521 21-.89817.80234.19766 31-.59642.70620.29380 41-1.02182.83420.16580 52.25719.35312.64688 62.34253.32005.67995 72.27925.34442.65558 821.24010.09012.90988 判别分析利用已知类别的样本培训模型 ,为未知样本判类的一种统计方法。 它产生于20世纪30年代。近年来,在自 然科学、社会学及经济管理学科中都有广泛的应 用。 判别分析的特点是根据已掌握的、历史上每 个类别的若干样本的数据信息,总结出客观事物 分类的规律性,建立判别公式和判别准则。然后 ,当遇到新的样本点时,只要根据总结出来的判 别公式和判别准则,就能判别该样本点所属的类 别。 2 距离判别 (一)马氏距离 距离判别的最直观的想法是计算样品到第 i类总体的平均数的距离,哪个距离最小就将它 判归哪个总体,所以,我们首先考虑的是是否 能够构造一个恰当的距离函数,通过样本与某 类别之间距离的大小,判别其所属类别。 设 是 从期望= 和方差阵= 的总体G抽得的两个观测值,则称 为X与Y之间的Mahalanobis距离 样本X和Gi类之间的马氏距离定义为X与Gi类 重心间的距离: (二)两个总体距离判别法 先考虑两个总体的情况,设有两个协差阵相同 的p维正态总体,对给定的样本Y,判别一个样本Y到 底是来自哪一个总体,一个最直观的想法是计算Y到 两个总体的距离。故我们用马氏距离来指定判别规 则,有: 1、方差相等 则前面的判别法则表示为 当 和已知时, 是一个已知的p 维向量,W(y)是y的线性函数,称为线性判别函数。 称为判别系数。用线性判别函数进行判别分析非常直观 ,使用起来最方便,在实际中的应用也最广泛。 例 在企业的考核中,可以根据企业的生 产经营情况把企业分为优秀企业和一般企业。考 核企业经营状况的指标有: 资金利润率=利润总额/资金占用总额 劳动生产率=总产值/职工平均人数 产品净值率=净产值/总产值 三个指标的均值向量和协方差矩阵如下。 现有二个企业,观测值分别为 (7.8,39.1,9.6)和(8.1,34.2,6.9 ),问这两个企业应该属于哪一类? 变量均值向量协方差矩阵 优秀一般 资金利润率13.55.468.3940.2421.41 劳动生产 率 40.729.840.2454.5811.67 产品净值 率 10.76.221.4111.677.90 线性判别函数: 2、当总体的协方差已知,且不相等 当总体的方差未知时,应该用样本的协方差矩 阵代替。步骤如下(假如两个总体): (1)分别计算各组的离差矩阵S1和S2; (2)计算 (3)计算类的均值 (4)计算 (5)计算 (6)生成判别函数,将检验样本代入,得分,判类 。 随着计算机计算能力的增强和计算机的普及,距离判 别法的判别函数也在逐步改进,一种等价的距离判别为 : 设有个K总体,分别有均值向量i(i=1,2,k)和协方差 阵i= ,各总体出现的先验概率相等。又设Y是一个待判 样品。则Y与某总体Gi的距离为(即判别函数) (三) 多总体的距离判别法 上式中的第一项Y -1Y与i无关,则舍去,得一个等价的函数 将上式中提-2,得 则距离判别法的判别函数为: 判别规则为 注:这与前面所提出的距离判别是等价的. (四)对判别效果做出检验 1、错判概率 由上面的分析可以看出,马氏距离判别法是合理的,但是 这并不意谓着不会发生误判。 2、 交叉核实 交叉核实法的思想是:为了判断第i个观测的判别 正确与否,用删除第i个观测的样本数据集计算出判 别函数,然后用此判别函数来判别第i个观测。对每 一个观测都这样进行。 交叉核实检查比较严格,能说明所选择判别方法 的有效性。 交叉核实可以检验所用方法是否稳定。 交叉核实可以解决样本容量不大的情形,改变 样本,来检验方法是否稳定的问题。 判类类 原类类 合计 加权错判率: 设qi是第i类的先验概率, pi是第i类的 错判概率,则加权错判率为 距离判别只要求知道总体的数字特征,不涉及 总体的分布函数,当参数和协方差未知时,就用样 本的均值和协方差矩阵来估计。距离判别方法简单 实用,但没有考虑到每个总体出现的机会大小,即 先验概率,也没有考虑到错判的损失。贝叶斯判别 法正是为了解决这两个问题提出的判别分析方法。 办公室新来了一个雇员小王,小王是好人还是坏人 大家都在猜测。按人们主观意识,一个人是好人或坏人的概率 均为0.5。坏人总是要做坏事,好人总是做好事,偶尔也会做一 件坏事,一般好人做好事的概率为0.9,坏人做好事的概率为 0.2,一天,小王做了一件好事,小王是好人的概率有多大,你 现在把小王判为何种人。 3 贝叶斯判别法 一 、标准的Bayes判别 距离判别简单直观,很实用,但是距离判 别的方法把总体等同看待,没有考虑到总体会 以不同的概率(先验概率)出现,也没有考虑 误判之后所造成的损失的差异。 一个好的判别方法,既要考虑到各个 总体出现的先验概率,又要考虑到错判造成的 损失,Bayes判别就具有这些优点,其判别效 果更加理想,应用也更广泛。 贝叶斯公式是一个我们熟知的公式 n贝叶斯判别 在各总体的概率分布及先验概率已 知的前提下,分别计算待判对象属于各总 体的后验概率,并以最大后验概率对应的 总体来作为待判对象的所属总体。 设有总体 , 具有概率密度函 数 。并且根据以往的统计分析,知道 出现的概率为 。即当样本 发生时,求他属于某类的概率。由贝叶 斯公式计算后验概率,有: 判别规则 则 判给 。在正态的假定下, 为正态分布的 密度函数。 则 判给 。 上式两边取对数并去掉与i无关的项,则等价 的判别函数为: 下面讨论总体服从正态分布的情形 问题转化为若 ,则判 。 当协方差阵相等 则判别函数退化为 令 问题转化为若 ,则判 。 完全成为距离判别法 。 令 有 问题转化为若 ,则判 。 当先验概率相等, 二、 考虑错判损失的Bayes判别分析 设有总体 , 具有概率密度函 数 。并且根据以往的统计分析,知道 出现的概率为 。 又D1,D2,Dk是R(p)的一个分划,判别法则为 : 当样品X落入Di时,则判 关键的问题是寻找D1,D2,Dk分划,这个分划 应该使平均错判率最小。 【定义】(平均错判损失) 用P(j/i)表示将来自总体Gi的样品错判到总体Gj的条件 概率。 C(j/i)表示相应错判所造成的损失。 则平均错判损失为: 使ECM最小的分划,是Bayes判别分析的解。 【定理】 若总体G1,G2,Gk的先验概率为 且相应的密度函数为 ,损失为 时, 则划分的Bayes解为 其中 含义是:当抽取了一个未知总体的样 品值x,要判别它属于哪个总体,只要先计算 出k个按先验概率加权的误判平均损失 然后比较其大小,选取其中最小的,则判定 样 品属于该总体。 为了直观说明,作为例子,我们讨论k=2的情形 。 由此可见,要使ECM最小,被积函数必须在D1是负 数,则有分划 Bayes判别准则为: 原则上说,考虑损失函数更为合理,但是在实际应用中 C并不容易确定,通常令 这样一来,寻找后验概率最大和使错判平均损失最小是 等价的。(证明略) 特别 则 判给 。与标准Bayes判别等价 将C(j/i)=1代入 得: 下表是某金融机构客户的个人资料,这些资料对 一个金融机构来说,对于客户信用度的了解至关重要,因 为利用这些资料,可以挖掘出许多的信息,建立客户的信 用度评价体系。所选变量为: x1: 月收入 x2:月生活费支出 x3:虚拟变量,住房的所有权,自己的为“1”,租用的 “0” x4: 目前工作的年限 x5: 前一个工作的年限 x6:目前住所的年限 x7:前一个住所的年限 X8:信用程度,“5”的信用度最高,“1”的信用度最低。 4 典型判别法 一、两个总体的费歇(Fisher)判别法 X不能使总体单位 尽可能分开的方向 u能使总体单位 尽可能分开的方向 旋转坐标轴至总体单位尽可能分开的方向,此时 分类变量被简化为一个 (一)费歇判别的基本思想 从距离判别法,我们已经看到判别规则是一个线 性函数,由于线性判别函数使用简便,因此我们 希望能在更一般的情况下,建立一种线性判别函 数。Fisher判别法是根据方差分析的思想建立起 来的一种能较好区分各个总体的线性判别法, Fisher在1936年提出。该判别方法对总体的分布 不做任何要求。 从两个总体中抽取具有P个指标的样品观测 数据,借助于方差分析的思想构造一个线性判别 函数: 其中系数 确定的原则是使两组间的组间 离差最大,而每个组的组内离差最小。当建立了判 别式以后,对一个新的样品值,我们可以将他的P 个指标值代入判别式中求出Y值,然后与某个临界 值比较,就可以将该样品归某类。 假设我们可以得到一个线性判别函数: 我们可以把两个总体的样品代入上面的判别式 分别对上面两式左右相加,再除以样品个数,可得 两个总体的重心: 最佳的线性判别函数应该是:两个重心的距离越大 越好,两个组内的离差平方和越小越好。 Fisher最优判别准则为函数I越大越好。 由微分学求极值的必要条件可求出使I达到最大值的 C1、C2、Cp 取对数 求导数 称 为典型函数. (三)判别准则 如果由原始数据y求得判别函数得分为Y*, 对与一个样品代入判别函数中,若Y*Y0,则判 给G1,否则判给G2。 二、多个总体的Fisher判别法 (一) 判别函数 Fisher判别法实际上是致力于寻找一个最能反映组和 组之间差异的投影方向,即寻找线性判别函数 ,设有 个总体 ,分别有均值向量 , , 和协方差阵 , 分别各总体中得到样品: 第i个总体的样本均值向量 总的样本均值向量 第i个总体样本组内离差平方和 综合的组内离差平方和 组间离差平方和 如果判别分析是有效的,则所有的样品的线性组 合 满足组内离差平方和小,而 组间离差平方和大。则 而 所对应的特征向量即 。 Fisher样品判别函数是 然而,如果组数k太大,讨论的指标太多,则一 个判别函数是不够的,这时需要寻找第二个,甚至 第三个线性判别函数 其特征向量构成第二个判别函数的系数。 类推得到m(mk)个线性函数。 关于需要几个判别函数的问题,需要累计 判别效率达到85以上,即有 设 为B相对于E的特征根, 则 以m个线性判别函数得到的函数值为新 的变量,再进行距离判别。 判别规则: 设yi(X)为第i个线性判别函数, ,待判 样品x与总体Gk的距离为 则 各判别法的比较 1、距离判别法与Fisher判别法未对总体的分布 提出特定的要求,而Bayes判别法要求总体的分 布明确。 2、在正态等协差阵的条件下,Bayes判别法( 不考虑先验概率的影响)等价于距离判别准则和 Fisher线性判别法。 3、当K个总体的均值向量共线性较高时, Fisher判别法可用较少的判别函数进行判别。 4、距离判别法和Fisher判别法的不足是 没有考虑各总体出现的概率大小,也给不 出预报的后验概率及错判率的估计,以及 错判之后的损失。而这些不足恰是Bayes的 优点。但是若给定的先验概率不符合客观 实际时,Bayes判别法也可能会导致错误的 结论。 5 逐步判别 变量的选择是判别分析中的一个重要的问题 ,变量选择是否恰当,是判别分析效果有列的关 键。如果在某个判别问题中,将起最重要的变量 忽略了,相应的判别函数的效果一定不好。而另 一方面,如果判别变量个数太多,计算量必然大 ,会影响估计的精度。特别当引入了一些判别能 力不强的变量时,还会严重地影响判别的效果。 中小企业的破产模型 为了研究中小企业的破产模型,首先选定了X1总负债 率(现金收益/总负债),X2收益性指标(纯收入/总财产 ),X3短期支付能力(流动资产/流动负债)和X4生产效 率性指标(流动资产/纯销售额)4个经济指标,对17个破 产企业为“1”和21个正常运行企业“2”进行了调查,得资料 如下。如果这些指标是用来做判别分析和聚类分析的变量 ,他们之间没有显著性差异是不恰当的,所以检验所选择 的指标在不同类型企业之间是否有显著的差异。 x1,x2,x3,x4均为判别变量 x1, x3为判别变量 设有n样品,分别来自 k个类G1,G2 ,Gk其中ni个来自Gi, (一)变量组间差异的显著检验 样品分别为: 即,p个指标对G1,G2,Gk无区别能力; p个指标对G1,G2,Gk有区别能力。 当比值 很小,类内的离差平方和在总 离差平方和中所占比率小,则类间的离差平方和所占比 重大。在原假设为真的条件下, 服从维尔克斯分布 。 当 接受原假设; 当 p个指标对G1,G2,Gk有强的区别能力,拒绝原假设 。 (二)附加信息的检验 在回归分析中,变量的好坏直接影响回归的 效果。在判别分析中也有类似的问题。如果在某 个判别分析问题中,将其中最主要的指标忽略了 。判别效果一定不会好。但是在许多问题中,事 先并不知道那些是主要的指标。因此筛选变量的 问题就成了非常重要的了。从而产生了逐步判别 法,而逐步判别法的基础是附加信息的检验。 设判别函数中已经有q个变量,要检验某个变量xj对 判别效果的贡献,或者说变量对判别是否有附加的信息。 H0: xj对判别分析没有附加的信息 H1: xj对判别分析有附加的信息 将q+1个变量构成的叉积将矩阵分块 利用分块矩阵的行列式的性质有: 它是在给定了q个指标的条件下,对q+1个指标的 附加信息量的度量,该统计量服从维尔克斯分布 该统计量服从F(k-1,n-p-k)分布,当F很大时,则 拒绝原假设,第q+1个指标有附加信息;否则,接受 原假设。 2、剔除变量 对于判别函数中已有的q1个变量 ,是否有对判别能力贡 献不显著的变量存在,则应该将其从判别函数中删除。 H0: xk对判别分析贡献不显著,即应该剔除; H1: xk对判别分析贡献显著,即应该保留; 检验的统计量 逐步判别法 采用有进有出的算法,即每一步都进行检 验。开始时,模型中没有变量,首先,将判别能力最强的 变量(Wilks的统计量最小者)引进判别函数,而对较早进 入判别函数的变量,随着其他变量的进入,其显著性可能 发生变化,如果其判别能力不强了,则删除,当模型中的所 有变量都达到留在模型中的标准而没有其他变量能达到进 入模型的标准,逐步选择过程停止。 。 向前选入 开始时模型中没有变量。每一步,Wilks的统 计量最小者,进入模型。当不再有未被选入的变量小于选 入的临界值时,向前选入过程停止。 向后剔除 开始时,所有变量依赖于VAR语句中的变量 都在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论