定性数据的建模分析含详解演示文稿_第1页
定性数据的建模分析含详解演示文稿_第2页
定性数据的建模分析含详解演示文稿_第3页
定性数据的建模分析含详解演示文稿_第4页
定性数据的建模分析含详解演示文稿_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

定性数据的建模分析含详解演示文稿当前第1页\共有40页\编于星期四\22点优选定性数据的建模分析含当前第2页\共有40页\编于星期四\22点第一节解释变量中含有定性变量的回归模型

在回归分析中,我们对一些解释变量是定性变量的情形先给予数理化,处理方法是引进只取0和1两个值的虚拟变量。当某一属性出现时,虚拟变量取值为1,否则为0。当前第3页\共有40页\编于星期四\22点(一)简单情况简单情况是指定性变量只取两类可能性的情况。例如研究企业资本结构问题,为企业资本结构,为企业规模。另外再考虑审计意见两种情况:

企业资本结构的回归模型为:

(9.1)当前第4页\共有40页\编于星期四\22点(二)复杂情况复杂情况是指定定性变量可能取多类值的情况。假设以采掘业、建筑业、房地产业和社会服务业4个行业的上市公司为例,研究企业资本结构问题,其中为企业资本结构,为企业规模,为审计意见,另外再考虑行业差异。为了用虚拟变量反映这4个行业,我们初步设想引入如下4个0-1型解释变量:

当前第5页\共有40页\编于星期四\22点

可是这样作却产生了一个新的问题,即4个自变量之和恒等于1,构成完全多重共线性。解决这个问题的方法很简单,我们只需去掉一个0-1型变量,只保留3个0-1型解释变量即可。所以,对于具有个分类的变量,当确定了参照系后,只需设置个0-1型解释变量。企业资本结构的回归模型为:

(9.2)当前第6页\共有40页\编于星期四\22点第二节二项Logistic回归模型

一、二项Logistic回归模型概述(一)二项Logistic回归模型的应用背景在许多会计研究问题中,所研究的被解释变量往往只有“是”或“否”两个可能结果,就需要设置虚拟变量。当被解释变量为虚拟变量时,建立一般的多元线性回归模型就会出现以下问题:(1)残差不再满足且的假设条件。(2)残差不再服从正态分布。(3)被解释变量的取值区间受限制。由此可见,当被解释变量是0-1型变量时,无法直接采用一般的多元线性回归模型建模,通常应采用Logistic回归模型。本章只介绍二项Logistic回归模型。当前第7页\共有40页\编于星期四\22点

利用Logistic回归可以直接预测观测量相对于某一事件的发生概率在一般的多元回归中,若以概率为被解释变量,则方程为:(9.3)

但用该方程计算时,常会出现或的不合理情形。为此需要对作对数单位转换,即,于是可得到Logistic回归方程为:

(9.4)

其中、为常数和解释变量的系数,为自然数,其曲线为型。当前第8页\共有40页\编于星期四\22点某一事件不发生地概率为:Prob(noevent)=1-Prob(event)(9.5)二元Logistic模型对数据要求为:(1)被解释变量应具二分特点。(2)解释变量数据最好为多元正态分布。

当前第9页\共有40页\编于星期四\22点(三)二项Logistic回归模型中回归系数的含义在应用中人们通常更关心的是解释变量给发生比带来的变化。当Logistic回归模型的回归系数确定后,将其代入的函数,即

(9.6)

当其他解释变量保持不变而研究变化一个单位对的影响时,可将新的发生比设为,则有:

(9.7)当前第10页\共有40页\编于星期四\22点于是有

(9.8)

由此可知,当增加一个单位时,将引起发生比扩大倍。一般化则为

(9.9)

式(9.9)表明,当第个解释变量发生一个单元的变化时,几率的变化值为。解释变量的系数为正值,意味着事件发生的几率会增加,的值大于1;解释变量的系数为负值,意味着事件发生的几率会减少,的值小于1;当为0时,此值等于1。当前第11页\共有40页\编于星期四\22点(四)二项Logistic回归模型的检验

1、回归模型的显著性检验

Logistic回归模型显著性检验的目的是检验解释变量全体与Logit的线性关系是否显著,是否可以用线性模型拟合。其原假设是:各回归系数同时为0,解释变量全体与Logit的线性关系不显著。

(9.10)

好的模型的似然比值较高,其值相对较小。似然比值的变化说明当变量进入与被剔除出模型对数据拟合度方面的变化。当前第12页\共有40页\编于星期四\22点

常用的3种卡方统计量分别为Model、Block、Step。(1)Model统计量检验除常数项以外,模型中所有变量系数为零的假设。(2)Block卡方值为当前值与后一组变量进入模型后的值之差。(3)Step卡方值是在建立模型的过程中,当前与下一步之间的差值。

SPSS将自动计算似然比卡方的观测值和相伴概率值。如果相伴概率值小于给定的显著水平,则应拒绝零假设;反之,如果相伴概率值大于给定的显著水平,则不应拒绝零假设。当前第13页\共有40页\编于星期四\22点2、回归系数的显著性检验

Logit回归系数显著性检验的目的是逐个检验模型中各解释变量是否与Logit有显著的线性关系,对解释Logit是否有重要贡献。其原假设是,即某回归系数与零无显著差异,相应的解释变量与Logit之间的线性关系不显著。回归系数显著性检验采用的检验统计量是统计量,数学定义为

(9.11)

式(9.11)中,是回归系数,是回归系数的标准误差。检验统计量服从自由度为1的卡方分布。当前第14页\共有40页\编于星期四\22点

SPSS将自动计算各解释变量的的观测值和相伴概率值。如果概率值小于给定的显著性水平,则应拒绝零假设,认为某解释变量的回归系数与零有显著差异,该解释变量与Logit之间的线性关系显著,应保留在模型中;反之,如果概率值大于给定的显著性水平,则不应拒绝零假设,可以认为某解释变量的回归系数与零无显著差异,该解释变量与Logit之间的线性关系不显著,不应保留在模型中。当前第15页\共有40页\编于星期四\22点3、回归模型的拟合优度检验在Logistic回归分析中,拟合优度可以从两大方面考察。第一,回归模型能够解释被解释变量变差的程度。第二,回归模型计算出的预测值与实际值之间吻合的程度,即模型的总体错判率是低还是高。常用的指标有Cox&Snell统计量、Nagelkerke统计量、错判矩阵、Hosmer-Lemeshow统计量。

4、残差分析

Logistic回归中可以利用一下残差指标进行残差分析,主要包括:非标准化残差、标准化残差、Logit残差等。当前第16页\共有40页\编于星期四\22点二、二项Logistic回归分析在SPSS中的实现

1.建立或打开数据文件后,进入Analyze→Regression→BinaryLogistic对话框,如图9-1所示。图9-1Logistic逻辑回归分析主对话框当前第17页\共有40页\编于星期四\22点

2、选择被解释变量放入Dependent框,选择一个或多个解释变量放入Covariates框。也可以将不同解释变量组放在不同的块(Block)中,进而分析不同解释变量组对解释变量的贡献。

3、在Method框后选择解释变量的筛选策略,包括Enter选项、Forward:Conditional选项、Forward:LR选项、Forward:Wald选项、Backward:Conditional选项、Backward:LR选项、Backward:Wald选项。

4、SelectionVariable框,根据指定变量的取值范围,选择参与分析的观察量。当前第18页\共有40页\编于星期四\22点

5、单击Categorical按钮,展开如图9-2对话框,设置处理分类变量的方式。适用于解释变量(协变量)为非定距的品质变量。图9-2定义分类协变量对话框当前第19页\共有40页\编于星期四\22点

(1)在Covariates框中包含了在主对话框中已经选择好的全部协变量及交互项。(2)CategoricalCovariates框中列出了所选择的分类变量。(3)ChangeContrast栏,设置分类协变量中各类水平的对比方式。有Indicator选项、Simple选项、Difference选项、Helmert选项、Repeated选项、Polynomial选项、Deviation选项。(4)ReferenceCategory选项,如果选择了Deviation、Simple、Indicator对比方式,可选择First或Last,指定分类变量的第一类或最后一类作为参考类。(5)如果改变了ChangeCovariates的设置,单击Change按钮以示对选项的确定。当前第20页\共有40页\编于星期四\22点

6、单击Save按钮,激活储存新变量对话框,如图9-3所示。选择在数据文件中保存的新变量。图9-3保存新变量对话框当前第21页\共有40页\编于星期四\22点

(1)PredictedValue栏,预测值选项。其中,Probability复选项,表示每个观测量发生特定事件的预测概率;Groupmembership复选项,表示依据预测概率得到的每个观测量的预测分组。

(2)Residual栏,保存残差,包括Unstandardized非标准化残差、Logit残差、Studentized学生化残差、Standardized标准化残差和Deviance偏差。

(3)Influence栏,保存每一个观测量的影响力指标,包括Cook距离、Leveragevalues杠杆值和Dfbeta(s)统计量。当前第22页\共有40页\编于星期四\22点7.单击Options按钮,展开如图9-4所示对话框。图9-4Options选择项对话框当前第23页\共有40页\编于星期四\22点

(1)StatisticsandPlot栏,输出统计量和图形。包括Classificationplots复选项、Correlationsofesti复选项、Hosmer-Lemeshowgoodness-of-f复选项、Iterationhistory复选项、Casewiselistingofresiduals复选项、CIforexp(B)复选项。(2)Display栏中,Ateachstep选项,表示对每一步计算过程输出表、统计量和图形。Atlaststep选项,表示只输出最终方程的表、统计量和图形。(3)ProbabilityforStepwise栏,设置变量进入模型及从模型中删除的判据。(4)Classification栏,被解释变量分类界限。(5)Maximum栏,设定最大迭代次数。(6)Includeconstantinm:模型包含常数项。当前第24页\共有40页\编于星期四\22点8、图形诊断模型,包括:(1)使用Graphs图形功能,对保存在数据文件中的Deviance统计量做P-P图。(2)将保存的StandardizedResiduals,DfBeta(s)和Leverage统计量,用SPSS图形功能做散点图(横坐标为变量ID,纵坐标为各种保存的新变量)。当前第25页\共有40页\编于星期四\22点第三节判别分析

一、判别分析的概念和基本步骤(一)判别分析的概念判别分析是根据观察到的若干变量值,判断研究对象如何分类的方法。判别分析能够解决两组或者更多组的情况,当包含两组时,称做两组判别分析;当包含三组或者三组以上时,称做多组判别分析聚类分析和判别分析都是分类学的基本方法,但它们也有很大的不同。当前第26页\共有40页\编于星期四\22点(二)判别分析的基本步骤

1、判别分析的研究设计(1)解释变量和被解释变量的选择。判别分析中,被解释变量为定性变量。解释变量可以为定量变量,也可以为定性变量。(2)样本容量。在判别分析中,最小的组的大小必须超过解释变量的个数。(3)样本的分割。在实际研究中,很多时候样本需要分割为两个子样本,一个子样本用于估计判别函数,另一个子样本用于验证判别函数,每个子样本都要有适当的样本容量来支持结论。分割样本有很多种方法,最常用的是将整个样本随机的分为两组,这种验证方法称为分割样本法或者交叉验证法。当前第27页\共有40页\编于星期四\22点2、判别分析的假定(1)每一个判别变量(解释变量)不能是其他判别变量的线性组合,即不能出现多重共线性问题。(2)各组变量的协方差矩阵相等。判别分析最简单和最常用的形式是采用线性判别函数,它们是判别变量的简单线性组合。在各组协方差矩阵相等的假设条件下,可以使用很简单的公式来计算判别函数和进行显著性检验。(3)各判别变量之间具有多元正态分布,即每个变量对于所有其他变量的固定值有正态分布。在这种条件下可以精确计算显著性检验值和分组归属的概率。当违背该假设时,计算的概念将非常不准确。当前第28页\共有40页\编于星期四\22点3、估计判别模型和评估整体拟合(1)计算方法。推导判别函数时可以使用两种计算方法:联立(直线)法和逐步法。联立估计在计算时同时考虑所有的解释变量。而当研究者考虑了相对较多的解释变量时,逐步法是适用的。(2)统计显著性。在计算了判别函数以后,必须评估它的显著性。有一系列不同的统计准则可用。Wilk’slambda,Mahalanobisdistance和Rao’sV等都可以用来评估判别函数。当前第29页\共有40页\编于星期四\22点(3)评估整体拟合。这个评估包括三个任务:计算每个观测的判别得分、检验各组在判别得分上的差异、评估组关系预测的精度。

4、结果的解释这个过程主要是解释在判别分析中每个解释变量的相对重要性,主要有三种方法:标准化判别权重、判别载荷、偏值。

5、结果的验证判别分析的最后一个阶段就是验证判别分析的结果,通常采用分割样本和交叉验证法。当前第30页\共有40页\编于星期四\22点1、建立或打开数据文件后,按Analyze→Classify→Discriminant的顺序打开DiscriminantAnalysis对话框。见图9-7所示。图9-7判别分析主对话框当前第31页\共有40页\编于星期四\22点

2、选择分类变量及其范围在主对话框中左面的矩形框中选择表明已知的观测量所属类别的变量,按向右按钮,使该变量名移到右面的GroupingVariable框中。此时矩形框下面的“DefineRange”按钮加亮,按该按钮,显示如图9-8所示的对话框,在该框中分类变量的最小值和最大值。图9-8DefineRange对话框当前第32页\共有40页\编于星期四\22点

3、指定判别分析的解释变量在主对话框左面的变量表中选择表明观测量特征的变量,按下面一个箭头按钮把选中的变量移到Independents矩形框中,作为参与判别分析的变量。完成前面3步骤的操作即可使用各种系统默认值对数据集的数据进行判别分析了,但结果有时不能令人满意,因此有必要根据以下步骤做进一步的分析。当前第33页\共有40页\编于星期四\22点

4、选择观测量如果希望使用一部分观测量进行判别函数的推导,而且有一个变量的某个值可以作为这些观测量的标识,则用Select功能进行选择。展开SetValue子对话框,如图9-9所示,键入标识参与分析的观测量所具有的该变量值。图9-9SetValue子对话框在分析中一般均使用数据文件中的所有合法观测量,因此此步骤也可以省略。当前第34页\共有40页\编于星期四\22点5、选择分析方法在主对话框中解释变量矩形框下面有两个选择项,用于选择判别分析方法。(1)Enterindependenttogether选项。当认为所有解释变量都能对观测量的特性提供丰富的信息且彼此独立时,使用该选择项。建立全模型,不需要进一步进行选择。(2)Usestepwisemethod选项。当不认为所有解释变量都能对观测量的特性提供丰富的信息时,因此需要使用该选择项,根据判别贡献的大小再进行选择。单击该项,“Method”按钮加亮,可以进一步选择判别分析方法。当前第35页\共有40页\编于星期四\22点

6、单击“Method”按钮,展开StepwiseMethod对话框,如图9-10所示。其中:图9-10StepwiseMethod对话框当前第36页\共有40页\编于星期四\22点

(1)Method栏选

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论