市场调查与预测:第六讲 数据分析之四(判别分析)_第1页
市场调查与预测:第六讲 数据分析之四(判别分析)_第2页
市场调查与预测:第六讲 数据分析之四(判别分析)_第3页
市场调查与预测:第六讲 数据分析之四(判别分析)_第4页
市场调查与预测:第六讲 数据分析之四(判别分析)_第5页
已阅读5页,还剩89页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六讲:数据分析之四

……判别分析例中小企业的破产模型为了研究中小企业的破产模型,选定4个经济指标:

X1总负债率(现金收益/总负债)

X2收益性指标(纯收入/总财产)

X3短期支付能力(流动资产/流动负债)

X4生产效率性指标(流动资产/纯销售额)对17个破产企业(1类)和21个正常运行企业(2类)进行了调查,得如下资料:§1什么是判别分析总负债率收益性指标短期支付能力生产效率指标类别-.45-.411.09.451-.56-.311.51.161.06.021.01.401-.07-.091.45.261-.10-.091.56.671-.14-.07.71.281-.23-.30.22.181.07.021.31.251.01.002.15.701-.28-.231.19.661.15.051.88.271.37.111.99.381-.08-.081.51.421.05.031.68.951.01.001.26.601.12.111.14.171-.28-.271.27.511.51.102.49.542.08.022.01.532.38.113.27.552.19.052.25.332.32.074.24.632.31.054.45.692.12.052.52.692-.02.022.05.352.22.082.35.402.17.071.80.522.15.052.17.552-.10-1.012.50.582.14-.03.46.262.14.072.61.522-.33-.093.01.472.48.091.24.182.56.114.29.452.20.081.99.302.47.142.92.452.17.042.45.142.58.045.06.132.04.011.50.71待判-.06-.061.37.40待判.07-.011.37.34待判-.13-.141.42.44待判.15.062.23.56待判.16.052.31.20待判.29.061.84.38待判.54.112.33.48待判企业序号判别类型判别函数得分判别为1的概率判别的为2概率11-.56509.69479.3052121-.89817.80234.1976631-.59642.70620.2938041-1.02182.83420.1658052.25719.35312.6468862.34253.32005.6799572.27925.34442.65558821.24010.09012.90988

判别分析利用已知类别的样本培训模型,为未知样本判类的一种统计方法。它产生于本世纪30年代。近年来,在自然科学、社会学及经济管理学科中都有广泛的应用。

判别分析的特点是根据已掌握的、历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则。然后,当遇到新的样本点时,只要根据总结出来的判别公式和判别准则,就能判别该样本点所属的类别。

§2距离判别

(一)马氏距离距离判别的最直观的想法是计算样品到第i类总体的平均数的距离,哪个距离最小就将它判归哪个总体,所以,我们首先考虑的是是否能够构造一个恰当的距离函数,通过样本与某类别之间距离的大小,判别其所属类别。

设是从期望μ=和方差阵Σ=的总体G抽得的两个观测值,则称

为X与Y之间的Mahalanobis距离

样本X和Gi类之间的马氏距离定义为X与Gi类重心间的距离:

(二)两个总体距离判别法

先考虑两个总体的情况,设有两个协差阵相同的p维正态总体和,对给定的样本Y,判别一个样本Y到底是来自哪一个总体,一个最直观的想法是计算Y到两个总体的距离。故我们用马氏距离来指定判别规则,有:1、方差相等则前面的判别法则表示为

当和已知时,

是一个已知的p维向量,W(y)是y的线性函数,称为线性判别函数。称为判别系数。用线性判别函数进行判别分析非常直观,使用起来最方便,在实际中的应用也最广泛。

例在企业的考核种,可以根据企业的生产经营情况把企业分为优秀企业和一般企业。考核企业经营状况的指标有:资金利润率=利润总额/资金占用总额劳动生产率=总产值/职工平均人数产品净值率=净产值/总产值三个指标的均值向量和协方差矩阵如下。现有二个企业,观测值分别为(7.8,39.1,9.6)和(8.1,34.2,6.9),问这两个企业应该属于哪一类?变量均值向量协方差矩阵优秀一般资金利润率13.55.468.3940.2421.41

劳动生产率40.729.840.2454.5811.67

产品净值率10.76.221.4111.677.90线性判别函数:2、当总体的协方差已知,且不相等

当总体的方差未知时,应该用样本的协方差矩阵代替。步骤如下(假如两个总体):(1)分别计算各组的离差矩阵S1和S2;

(2)计算(3)计算类的均值(4)计算(5)计算

(6)生成判别函数,将检验样本代入,得分,判类。

随着计算机计算能力的增强和计算机的普及,距离判别法的判别函数也在逐步改进,一种等价的距离判别为:设有个K总体,分别有均值向量μi(i=1,2,…,k)和协方差阵Σi=Σ,各总体出现的先验概率相等。又设Y是一个待判样品。则与的距离为(即判别函数)(三)多总体的距离判别法

上式中的第一项Y’Σ-1Y与i无关,则舍去,得一个等价的函数

将上式中提-2,得则距离判别法的判别函数为:判别规则为注:这与前面所提出的距离判别是等价的.(四)对判别效果做出检验

1、错判概率

由上面的分析可以看出,马氏距离判别法是合理的,但是这并不意谓着不会发生误判。

2、交叉核实交叉核实法的思想是:为了判断第i个观测的判别正确与否,用删除第i个观测的样本数据集计算出判别函数,然后用此判别函数来判别第i个观测。对每一个观测都这样进行。交叉核实检查比较严格,能说明所选择判别方法的有效性。交叉核实可以检验所用方法是否稳定。交叉核实可以解决样本容量不大的情形,改变样本,来检验方法是否稳定的问题。

判类原类合计

加权错判率:

设qi是第i类的先验概率,pi是第i类的错判概率,则加权错判率为

距离判别只要求知道总体的数字特征,不涉及总体的分布函数,当参数未知和协方差时,就用样本的均值和协方差矩阵来估计。距离判别方法简单实用,但没有考虑到每个总体出现的机会大小,即先验概率,没有考虑到错判的损失。贝叶斯判别法正是为了解决这两个问题提出的判别分析方法。

办公室新来了一个雇员小王,小王是好人还是坏人大家都在猜测。按人们主观意识,一个人是好人或坏人的概率均为0.5。坏人总是要做坏事,好人总是做好事,偶尔也会做一件坏事,一般好人做好事的概率为0.9,坏人做好事的概率为0.2,一天,小王做了一件好事,小王是好人的概率有多大,你现在把小王判为何种人。。§3贝叶斯判别法一、标准的Bayes判别

距离判别简单直观,很实用,但是距离判别的方法把总体等同看待,没有考虑到总体会以不同的概率(先验概率)出现,也没有考虑误判之后所造成的损失的差异。一个好的判别方法,既要考虑到各个总体出现的先验概率,又要考虑到错判造成的损失,Bayes判别就具有这些优点,其判别效果更加理想,应用也更广泛。贝叶斯公式是一个我们熟知的公式

设有总体,具有概率密度函数。并且根据以往的统计分析,知道出现的概率为。即当样本发生时,求他属于某类的概率。由贝叶斯公式计算后验概率,有:判别规则则判给。在正态的假定下,为正态分布的密度函数。

则判给。

上式两边取对数并去掉与i无关的项,则等价的判别函数为:

下面讨论总体服从正态分布的情形问题转化为若,则判。当协方差阵相等

则判别函数退化为令

问题转化为若,则判。

完全成为距离判别法。令有问题转化为若,则判。当先验概率相等,二、考虑错判损失的Bayes判别分析

设有总体,具有概率密度函数。并且根据以往的统计分析,知道出现的概率为。又D1,D2,┅,Dk是R(p)的一个分划,判别法则为:当样品X落入Di时,则判

关键的问题是寻找D1,D2,┅,Dk分划,这个分划应该使平均错判率最小。

【定义】(平均错判损失)

用P(j/i)表示将来自总体Gi的样品错判到总体Gj的条件概率。

C(j/i)表示相应错判所造成的损失。

则平均错判损失为:

使ECM最小的分划,是Bayes判别分析的解。

【定理】若总体G1,G2,,Gk的先验概率为且相应的密度函数为,损失为时,则划分的Bayes解为其中

含义是:当抽取了一个未知总体的样品值x,要判别它属于那个总体,只要先计算出k个按先验概率加权的误判平均损失然后比较其大小,选取其中最小的,则判定样品属于该总体。为了直观说明,作为例子,我们讨论k=2的情形。

由此可见,要使ECM最小,被积函数必须在D1是负数,则有分划

Bayes判别准则为:

特别则判给。与标准Bayes判别等价

下表是某金融机构客户的个人资料,这些资料对一个金融机构来说,对于客户信用度的了解至关重要,因为利用这些资料,可以挖掘出许多的信息,建立客户的信用度评价体系。所选变量为:

x1:月收入

x2:月生活费支出

x3:虚拟变量,住房的所有权,自己的为“1”,租用的“0”x4:目前工作的年限

x5:前一个工作的年限

x6:目前住所的年限

x7:前一个住所的年限X8:信用程度,“5”的信用度最高,“1”的信用度最低。§4变量选择和逐步判别

变量的选择是判别分析中的一个重要的问题,变量选择是否恰当,是判别分析效果有列的关键。如果在某个判别问题中,将起最重要的变量忽略了,相应的判别函数的效果一定不好。而另一方面,如果判别变量个数太多,计算量必然大,回影响估计的精度。特别当引入了一些判别能力不强的变量时,还会严重地影响判别的效果。

中小企业的破产模型为了研究中小企业的破产模型,首先选定了X1总负债率(现金收益/总负债),X2收益性指标(纯收入/总财产),X3短期支付能力(流动资产/流动负债)和X4生产效率性指标(流动资产/纯销售额)4个经济指标,对17个破产企业为“1”和21个正常运行企业“2”进行了调查,得资料如下。如果这些指标是用来做判别分析和聚类分析的变量,他们之间没有显著性差异是不恰当的,所以检验所选择的指标在不同类型企业之间是否有显著的差异。

x1,x2,x3,x4均为判别变量x1,x3为判别变量DependentVariable:x1(对X1进行的检验)

SumofSourceDFSquaresMeanSquareFValuePr>F

Model10.874667910.8746679116.900.0002

Error361.863008400.05175023

CorrectedTotal372.73767632

X1在类间有显著性差异。DependentVariable:x2(对X2进行的检验)

SumofSourceDFSquaresMeanSquareFValuePr>F

Model10.083120770.083120771.950.1710

Error361.533700280.04260279

CorrectedTotal371.61682105X2在类间没有显著性差异。DependentVariable:x3(对X3进行的检验)

SumofSourceDFSquaresMeanSquareFValuePr>F

Model116.4695844316.4695844321.45<.0001

Error3627.640805040.76780014

CorrectedTotal3744.11038947X3在类间有显著性差异。DependentVariable:x4(对X4进行的检验)

SumofSourceDFSquaresMeanSquareFValuePr>F

Model10.001126940.001126940.030.8643

Error361.369780950.03804947

CorrectedTotal371.37090789X4在类间没有显著性差异。

多元假设检验

StatisticValueFValueNumDFDenDFPr>F

Wilks'Lambda0.545616206.874330.0004Pillai'sTrace0.454383806.874330.0004Hotelling-LawleyTrace0.832790156.874330.0004Roy'sGreatestRoot0.832790156.874330.0004Pillai'sTrace

设有n样品,分别来自

k个类G1,G2,┅,Gk其中ni个来自Gi,

(一)变量组间差异的显著检验

样品分别为:即,p个指标对G1,G2,┅,Gk无区别能力;p个指标对G1,G2,┅,Gk有区别能力。当比值很小,类内的离差平方和在总离差平方和中所占比率小,则类间的离差平方和所占比重大。在原假设为真的条件下,服从维尔克斯分布。

当接受原假设;当p个指标对G1,G2,┅,Gk有强的区别能力,拒绝原假设。(二)附加信息的检验

在回归分析中,变量的好坏直接影响回归的效果。在判别分析中也有类似的问题。如果在某个判别分析问题中,将其中最主要的指标忽略了。判别效果一定不会好。但是在许多问题中,事先并不知道那些是主要的指标。因此筛选变量的问题就成了非常重要的了。从而产生了逐步判别法,而逐步判别法的基础是附加信息的检验。

逐步判别法采用有进有出的算法,即每一步都进行检验。首先,将判别能力最强的变量引进判别函数,而对较早进入判别函数的变量,随着其他变量的进入,其显著性可能发生变化,如果其判别能力不强了,则删除。向前选入开始时模型中没有变量。每一步,Wilks的统计量最小者,进入模型。当不再有未被选入的变量小于选入的临界值时,向前选入过程停止。向后剔除开始时,所有变量依赖于VAR语句中的变量都在模型中。每一步,在Wilks的统计量的准则下对模型中判别能力贡献最小的变量剔除。当所有余下的变量都达到留在模型中的标准时,向后剔除过程停止。逐步选择开始时如同向前选择一样,模型中没有变量,每一步都被检查。如果在Wilks的准则下统计量对模型的判别能力贡献最小的变量达不到留在模型中的标准,它就被剔除。否则,不在模型中对模型的判别能力贡献最大的变量被选入模型。当模型中的所有变量都达到留在模型中的标准而没有其他变量能达到进入模型的标准,逐步选择过程停止。

设有n样品,分别来自

k个类G1,G2,┅,Gk其中ni个来自Gi,

样品分别为:即,p个指标对G1,G2,┅,Gk无区别能力;

设判别函数中已经有q个变量,要检验某个变量xj对判别效果的贡献,或者说变量对判别是否有附加的信息。H0:xj判别分析没有附加的信息H1:xj对判别分析有附加的信息将q+1个变量构成的叉积将矩阵分块利用分块矩阵的行列式的性质有:

它是在给定了q个指标的条件下,的q+1个指标的附加信息量的度量,该统计量服从维尔克斯分布

该统计量服从F(k-1,n-p-k)分布,当F很大时,则拒绝原假设,第q+1个指标有附加信息;否则,接受原假设。2、剔除变量对于判别函数中已有的q+1个变量,是否有对判别能力贡献不显著的变量存在,则应该将其从判别函数中删除。H0:xk对判别分析贡献不显著,即应该剔除;H1:xk对判别分析贡献显著,即应该保留;

检验的统计量步骤第一步:通过计算单变量的统计量,逐步选择判别变量统计量最小者首先进入模型。第二步:分别计算未被选中的其它变量与选中变量x1的统计量,统计量1i得值最小者与x1搭配进入模型。

第三步:类推假设已经有q+1个变量进入了模型,要考虑较早选入模型得变量得重要性是否有较大得变化,应及时将其从模型中剔除。其原则与引入相同。统计量得值最小者或F最大者保留。第四步:进行判别分析。TheSTEPDISCProcedure(逐步判别过程)

TheMethodforSelectingVariablesisSTEPWISEObservations38Variable(s)intheAnalysis4ClassLevels2Variable(s)willbeIncluded0SignificanceLeveltoEnter0.15SignificanceLeveltoStay0.15ClassLevelInformationVariableclassNameFrequencyWeightProportion1_11717.00000.4473682_22121.00000.552632StepwiseSelection:Step1(第一步)

StatisticsforEntry,DF=1,36

VariableR-SquareFValuePr>FTolerancex10.319516.900.00021.0000x20.05141.950.17101.0000x30.373421.45<.00011.0000x40.00080.030.86431.0000Variablex3willbeentered.(X3进入)

Variable(s)thathavebeenEnteredx3MultivariateStatisticsStatisticValueFValueNumDFDenDFPr>FWilks'Lambda0.62662821.45136<.0001Pillai'sTrace0.37337221.45136<.0001StepwiseSelection:Step2(第二步)

StatisticsforRemoval,DF=1,36VariableR-SquareFValuePr>Fx30.373421.45<.0001Novariablescanberemoved.

StatisticsforEntry,DF=1,35

PartialVariableR-SquareFValuePr>FTolerance

x10.10704.190.04820.6638x20.00940.330.56720.9379x40.01720.610.43860.9546

Variablex1willbeentered.(X1进入)StepwiseSelection:Step3(第三步)

StatisticsforRemoval,DF=1,35PartialVariableR-SquareFValuePr>Fx10.10704.190.0482x30.17777.560.0094Novariablescanberemoved.StatisticsforEntry,DF=1,34PartialVariableR-SquareFValuePr>FTolerancex20.01960.680.41540.4120x40.00570.200.66140.6119Novariablescanbeentered.(无变量能进入)

Nofurtherstepsarepossible.(进一步是不可能的)

LinearDiscriminantFunctionforclass

线性判别函数

Variable12

Constant-2.45595-5.25152x32.180983.52968x1-4.55096-0.52018NumberofObservationsandPercentClassifiedintoclass

Fromclass12Total

11431782.3517.65100.00

23182114.2985.71100.00

Total17213844.7455.26100.00

Priors0.447370.55263

ErrorCountEstimatesforclass

12Total

Rate0.17650.14290.1579Priors0.44740.5526NumberofObservationsandPercentClassifiedintoclass

Fromclass12Total

11431782.3517.65100.00

24172119.0580.95100.00

Total18203847.3752.63100.00

Priors0.447370.55263

ErrorCountEstimatesforclass

12Total

Rate0.17650.19050.1842Priors0.44740.5526PosteriorProbabilityofMembershipinclass

ClassifiedObsintoclass12

110.64820.3518210.76670.2333310.66050.3395410.80290.1971520.30650.6935620.27590.7241720.29840.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论