相关分析和回归分析_第1页
相关分析和回归分析_第2页
相关分析和回归分析_第3页
相关分析和回归分析_第4页
相关分析和回归分析_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

SPSS统计分析方法及应用第七章

相关分析与回归分析

1/13/202417.1相关分析和回归分析概述7.2相关分析7.3偏相关分析7.4线性回归分析1/13/202421.相关分析和回归分析概述客观事物之间的关系大致可归纳为两大类,即函数关系:指两事物之间的一种一一对应的关系,如商品的销售额和销售量之间的关系。相关关系〔统计关系〕:指两事物之间的一种非一一对应的关系,例如家庭收入和支出、子女身高和父母身高之间的关系等。相关关系又分为线性相关和非线性相关。相关分析和回归分析都是分析客观事物之间相关关系的数量分析方法。1/13/202432.相关分析相关分析通过图形和数值两种方式,有效地揭示事物之间相关关系的强弱程度和形式。〔1〕散点图它将数据以点的的形式画在直角坐标系上,通过观察散点图能够直观的发现变量间的相关关系及他们的强弱程度和方向。1/13/20244〔2〕相关系数利用相关系数进行变量间线性关系的分析通常需要完成以下两个步骤:第一,计算样本相关系数r;相关系数r的取值在-1~+1之间R>0表示两变量存在正的线性相关关系;r<0表示两变量存在负的线性相关关系R=1表示两变量存在完全正相关;r=-1表示两变量存在完全负相关;r=0表示两变量不相关|r|>0.8表示两变量有较强的线性关系;|r|<0.3表示两变量之间的线性关系较弱第二,对样本来自的两总体是否存在显著的线性关系进行推断。1/13/20245对不同类型的变量应采用不同的相关系数来度量,常用的相关系数主要有Pearson简单相关系数、Spearman等级相关系数和Kendall相关系数等。Pearson简单相关系数〔适用于两个变量都是数值型的数据〕。Spearman等级相关系数用来度量定序变量间的线性相关关系。1/13/20246〔3〕计算相关系数的根本操作【分析】--【相关】--【双变量】1/13/20247〔4〕相关分析应用举例为研究高等院校人文社会科学研究中立项课题数会受哪些因素的影响,收集1999年31个省市自治区局部高校有关社科研究方面的数据,研究立项课题数〔当年〕与投入的具有高级职称的人年数〔当年〕、发表的论文数〔上年〕之间是否具有较强的线性关系。对该问题的研究可以采用相关分析的方法,首先可绘制矩阵散点图;其次可以计算Pearson简单相关系数。1/13/202481/13/202491/13/2024103.偏相关分析上节中的相关系数是研究两变量间线性相关性的,假设还存在其他因素影响,就相关系数本身来讲,它未必是两变量间线性相关强弱的真实表达,往往有夸大的趋势。例如,在研究商品的需求量和价格、消费者收入之间的线性关系时,需求量和价格之间的相关关系实际还包含了消费者收入对价格和商品需求量的影响。在这种情况下,单纯利用相关系数来评价变量间的相关性显然是不准确的,而需要在剔除其他相关因素影响的条件下计算变量间的相关。偏相关的意义就在于此。1)偏相关分析和偏相关系数1/13/202411偏相关分析也称净相关分析,它在控制其他变量的线性影响的条件下分析两变量间的线性关系,所采用的工具是偏相关系数。控制变量个数为1时,偏相关系数称一阶偏相关;当控制两个变量时,偏相关系数称为二阶偏相关;当控制变量的个数为0时,偏相关系数称为零阶偏相关,也就是简单相关系数。1/13/2024122)偏相关分析的根本操作【分析】--【相关】--【偏相关】1/13/2024131/13/2024144.线性回归分析线性回归分析的内容能否找到一个线性组合来说明一组自变量和因变量的关系如果能的话,这种关系的强度有多大,也就是利用自变量的线性组合来预测因变量的能力有多强整体解释能力是否具有统计上的显著性意义在整体解释能力显著的情况下,哪些自变量有显著意义回归分析的一般步骤确定回归方程中的解释变量〔自变量〕和被解释变量〔因变量〕确定回归方程对回归方程进行各种检验利用回归方程进行预测1)线性回归分析概述1/13/2024152)线性回归模型一元线性回归模型的数学模型:其中x为自变量;y为因变量;为截距,即常量;为回归系数,说明自变量对因变量的影响程度。1/13/202416多元线性回归模型多元线性回归方程:y=β0+β1x1+β2x2+...+βkxkβ1、β2、βk为偏回归系数。β1表示在其他自变量保持不变的情况下,自变量x1变动一个单位所引起的因变量y的平均变动。1/13/202417选择【分析】→【回归】→【线性】。在左侧变量框中选择“课题总数〞将其移动到因变量列表中,将自变量“移动到自变量下的方格中,如下图。1/13/2024181/13/2024191/13/202420

从下表可以看出,引入模型的六个解释变量只有一个通过t检验。模型整体显著而单个系数大都不能通过t检验,这正是解释变量之间存过多重共线性的常见特征。观察表中的容差和方差膨胀因子我们可以看出六个解释变量的容差都很小接近于0,但它们的VIF都很大,这进一步证实了解释变量之间存在严重的多重共线性。1/13/2024211)容忍度(Tolerance):容忍度越小,多重共线性越严重。有学者提出,容忍度小于0.1时,存在严重的多重共线性。2)方差膨胀因子(VIF):等于容忍度的倒数。显然,VIF越大,多重共线性问题越大。一般认为VIF不应大于5,对应容忍度的标准,也可放宽至不大于10。3)特征值〔Eigenvalue):对模型中常数项及所有自变量计算主成分,如果自变量间存在较强的线性相关关系,那么前面的几个主成分数值较大,而后面的几个主成分较小,甚至接近0。4)条件索引(ConditionIndex):等于最大的主成分与当前主成分的比值的算术平方根。所以第一个主成分相对应的条件指数总为1。同样,如果几个条件指数较大(如大于30),那么提示存在多重共线性。1/13/202422下表给出了方程解释变量的多重共线性诊断结果。从特征根上看,最大的特征根远远大于其他特征根,后3个条件指数都大于10,说明变量之间确实存在多重共线性问题。从方差比例上看,第6个特征根解释了人均论文数方差的82%,同时解释了投入科研事业费方差的65%,说明这两个变量之间可能存在多重共线性;第7个特征根同时解释了投入人年数方差的84%、投入高级职称的人年数方差的60%,说明这2个变量之间可能存在多重共线性。1/13/202423为了解决多重共线性带来的问题,可以使用Backward法筛选变量。得到结果如下表所示:从模型汇总可以看出方程的拟合优度还是比较高的,Backward法筛选变量的过程如下表,最后我们得到模型6.在模型6中去掉了原有的6个变量,剩下1个变量不存在多重共线性了,由此得到线性回归方程为:课题总数=-94.524+0.492*投入人年数1/13/2024241/13/202425

变量间的相关关系中,并不总是表现出线性关系,非线性关系也是极为常见的。变量之间的非线性关系可以划分为本质线性关系和本质非线性关系。本质线性关系是指变量关系形式上虽然呈非线性关系,但可通过变量变换为线性关系,并最终可通过线性回归分析建立线性模型。本质非线性关系是指变量关系不仅形式上呈非线性关系,而且也无法变换为线性关系。本节的曲线估计是解决本质线性关系问题的。5.曲线估计1)曲线估计概述1/13/202426

SPSS曲线估计中,首先,在不能明确究竟哪种模型更接近样本数据时,可在多种可选择的模型中选择几种模型;然后SPSS自动完成模型的参数估计,并输出回归方程显著性检验的F值和概率p值、判定系数R2等统计量;最后,以判定系数为主要依据选择其中的最优模型,并进行预测分析等。1/13/202427可通过绘制并观察样本数据的散点图粗略确定被解释变量和解释变量之间的相关关系,为曲线拟合中的模型选择提供依据。SPSS曲线估计的根本操作步骤是:选择菜单分析-回归-曲线估计。2)曲线估计的根本操作1/13/202428教育支出的相

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论