回归分析SPSS操作_第1页
回归分析SPSS操作_第2页
回归分析SPSS操作_第3页
回归分析SPSS操作_第4页
回归分析SPSS操作_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、回归分析回归分析 回归分析基本概念回归分析基本概念1 一元线性回归分析一元线性回归分析2多元线性回归分析多元线性回归分析3回归分析基本概念回归分析基本概念1 回归分析主要解决以下几方面的问题:回归分析主要解决以下几方面的问题:q 通过分析大量的样本数据,确定变量之间的数学关系式。通过分析大量的样本数据,确定变量之间的数学关系式。q 对所确定的数学关系式的可信程度进行各种统计检验,并对所确定的数学关系式的可信程度进行各种统计检验,并区分出对某一特定变量影响较为显著的变量和影响不显著的区分出对某一特定变量影响较为显著的变量和影响不显著的变量。变量。q 利用所确定的数学关系式,根据一个或几个变量的值

2、来预利用所确定的数学关系式,根据一个或几个变量的值来预测或控制另一个特定变量的取值,并给出这种预测或控制的测或控制另一个特定变量的取值,并给出这种预测或控制的精确度。精确度。 2.1 统计学上的定义和计算公式统计学上的定义和计算公式 定义:一元线性回归分析是分析某一个因素定义:一元线性回归分析是分析某一个因素(自变量)是如何影响另一事物(因变量)的过程,(自变量)是如何影响另一事物(因变量)的过程,所进行的分析是比较理想化的。其实,在现实生活所进行的分析是比较理想化的。其实,在现实生活中,任何一个事物(因变量)总是受到其他多种事中,任何一个事物(因变量)总是受到其他多种事物(多个自变量)的影响

3、。物(多个自变量)的影响。一元线性回归分析一元线性回归分析2 研究问题研究问题 合成纤维的强度与其拉伸倍数有关,测得试验合成纤维的强度与其拉伸倍数有关,测得试验数据如表数据如表9-19-1所示。求合成纤维的强度与拉伸倍数之所示。求合成纤维的强度与拉伸倍数之间是否存在显著的线性相关关系。间是否存在显著的线性相关关系。2.2 SPSS中实现过程中实现过程序序 号号拉拉 伸伸 倍倍 数数强度(强度(kg/mm2)12.01.622.52.432.72.543.52.754.03.564.54.275.25.086.36.497.16.5108.07.3119.08.01210.08.1 实现步骤实现

4、步骤q对应对应x值的残差图值的残差图yyx0良好模式yyx0方差不齐yyx0不满足线性回归假设均数的置信区间均数的置信区间个体的容许区间个体的容许区间222, 2)(1xnxxxnstYievi222, 2)(11xnxxxnstYievi (1 1)输出的结果文件中的第一部分:)输出的结果文件中的第一部分:X与与Y的简单相关系数的简单相关系数2.3 结果和讨论结果和讨论2)(222nyyneSiiie估计标准误q1)决定系数)决定系数R2 它表示在因变量它表示在因变量y的总变异中可由回归方程所解释部分的的总变异中可由回归方程所解释部分的比例。比例。 0R21, 越接近于越接近于1, 说明回归

5、方程效果越好。说明回归方程效果越好。SSTSSESSTSSRR12q2)校正的决定系数)校正的决定系数Adj R2 0AdjR21, 越接近于越接近于1, 说明回归方程效果越好。说明回归方程效果越好。q即使自变量对即使自变量对Y无显著意义,无显著意义,R2也随方程中的变也随方程中的变量个数增加而增加。量个数增加而增加。Adj R2可以惩罚复杂模型。可以惩罚复杂模型。MSTMSERAdj12F=t2截距截距回归系数回归系数标准化回归系数结果显示:回归方程显著,即合成纤维的强度受拉伸倍数的显著影响结果显示:回归方程显著,即合成纤维的强度受拉伸倍数的显著影响XYssrb 1xYrzzxYzz(2 2

6、)第二部分)第二部分 异常值分析异常值分析iistandardizedyyresidswhere sstd devof residualsq 如果标准化残差超过如果标准化残差超过2/-2,称为异常值,称为异常值outliers。q 当样本量比较小,异常值又会影响回归系数的估计时,应当样本量比较小,异常值又会影响回归系数的估计时,应该关注异常值的影响。该关注异常值的影响。212nyysniiiq 异常值 a 不影响 异常值 b 影响q第i个观察值的学生化残差)()(1(122xxxxnsyySyyresidiiiiyyiidstudentizeii212nyysniiiq 考虑了用来计算残差的考

7、虑了用来计算残差的 值有不同的方差。这种值有不同的方差。这种调整能够使残差分析更加敏感地发现方差不齐。调整能够使残差分析更加敏感地发现方差不齐。q学生化残差学生化残差超过超过2 2和和-2-2的点可认为是异常值的点可认为是异常值iiyySiy (3)第三部分)第三部分 数据窗口的存储数据窗口的存储 未标准化残差 标准化残差 学生化残差均数的置信区间均数的置信区间个体的容许区间个体的容许区间1.7 利用回归方程进行估计和预测q均数的置信区间:均数的置信区间: 均数均数 界值界值标准误标准误 q个体的容许区间个体的容许区间( (参考值范围参考值范围): ): 均数均数 界值界值标准差标准差 22,

8、 2)(+1)-(-xxxxnstYievi22, 2)(+1+1)-(-xxxxnstYievi可信区间与预测区间示意图3.1 统计学上的定义统计学上的定义 定义:在上一节中讨论的回归问题只涉及了一定义:在上一节中讨论的回归问题只涉及了一个自变量,但在实际问题中,影响因变量的因素往个自变量,但在实际问题中,影响因变量的因素往往有多个。例如,商品的需求除了受自身价格的影往有多个。例如,商品的需求除了受自身价格的影响外,还要受到消费者收入、其他商品的价格、消响外,还要受到消费者收入、其他商品的价格、消费者偏好等因素的影响;影响水果产量的外界因素费者偏好等因素的影响;影响水果产量的外界因素有平均气

9、温、平均日照时数、平均湿度等。有平均气温、平均日照时数、平均湿度等。多元线性回归分析多元线性回归分析3q研究者往往是根据自己的经验或借鉴他人的研究研究者往往是根据自己的经验或借鉴他人的研究结果选定若干个自变量,这些自变量对因变量的结果选定若干个自变量,这些自变量对因变量的影响作用是否都有统计学意义还有待于考察。影响作用是否都有统计学意义还有待于考察。q在建立回归方程的过程中有必要考虑对自变量进在建立回归方程的过程中有必要考虑对自变量进行筛选,挑选出若干个与因变量作用较大的变量行筛选,挑选出若干个与因变量作用较大的变量建立回归方程。剔除那些对因变量没有影响的变建立回归方程。剔除那些对因变量没有影

10、响的变量,从而建立一个较理想和稳定的回归方程。量,从而建立一个较理想和稳定的回归方程。3.2 逐步回归逐步回归逐步回归的思想:q1. 开始方程中没有自变量,然后按自变量对开始方程中没有自变量,然后按自变量对y的贡的贡献大小由大到小依次挑选进入方程,每选入一个献大小由大到小依次挑选进入方程,每选入一个变量,都要对进行检验,决定变量,都要对进行检验,决定变量的取或舍变量的取或舍。q 2. 每一步都作一次如下的检验:每一步都作一次如下的检验: H0 : p个自变量为好个自变量为好 H1 : p+1个自变量为好个自变量为好采用F作为统计量。 SSE (H0 )-SSE (H1 ) F SSE(H1 )

11、/ (n-p-2) 其中SSE (H0 )表示用p个变量回归的残差平方和 SSE (H1 )表示用p+1个变量回归的残差平方和。 若FF(界值),则拒绝H0 ,可决定增多相应的自变量; 否则,不拒绝H0 ,可决定不增加相应的自变量。 研究问题研究问题 用多元回归分析来分析用多元回归分析来分析36个员工多个心理变量个员工多个心理变量值(值(z1z5)对员工满意度)对员工满意度my的预测效果,测得试的预测效果,测得试验数据如表验数据如表9-2所示。所示。3.2 SPSS中实现过程中实现过程z1z2z3z4Z5满满 意意 度度66.0064.0058.001.081.0025.0055.0050.0

12、053.001.001.1122.0050.0047.0046.001.311.2020.0055.0059.0052.001.001.0020.0055.0059.0047.001.001.0024.0062.0054.0046.001.081.0023.0060.0060.0052.001.081.0021.0052.0052.0057.001.001.0023.0056.0055.0044.001.691.0015.0050.0050.0045.001.081.1425.0058.0054.0052.001.001.0025.0053.0052.0065.001.081.0022.005

13、2.0056.0063.001.461.4320.0056.0065.0062.001.001.0022.0050.0063.0055.001.001.0020.0063.0057.0051.001.001.0026.0056.0046.0045.002.231.2921.0047.0050.0050.002.081.1420.0053.0066.0055.001.001.0025.00z1z2z3z4z5满满 意意 度度61.0055.0058.001.151.1423.0059.0064.0054.001.081.0026.0055.0060.0055.001.081.0026.0056.

14、0052.0051.001.851.7130.0059.0051.0052.001.001.0025.0060.0053.0047.001.311.1427.0052.0051.0055.001.231.1420.0056.0057.0059.001.001.1426.0068.0058.0053.001.001.0030.0060.0053.0056.001.001.0027.0064.0056.0059.001.851.1418.0067.0053.0053.001.001.0024.0056.0056.0056.001.001.0024.0053.0046.0050.001.311.14

15、19.0053.0057.0067.001.771.4317.0060.0040.0056.001.081.0024.0054.0045.0042.001.001.0023.00 实现步骤实现步骤Enter:所有自变量强制进入回归方程:所有自变量强制进入回归方程q当自变量之间存在高度相关性,将引起回归方程估计结果当自变量之间存在高度相关性,将引起回归方程估计结果不稳定,参数(回归系数)估计的标准误大大增加,称为不稳定,参数(回归系数)估计的标准误大大增加,称为共线性。共线性。q共线性诊断:共线性诊断: 1)条件数)条件数(Condition Index): k10(轻度)(轻度) 10k30(

16、严重)严重) 2)方差扩大因子)方差扩大因子(VIF): 5或或10,严重,严重 3) Tolence(容忍度)(容忍度): .1 严重严重 (1 1)输出结果文件中的第一部分:)输出结果文件中的第一部分:3.3 结果和讨论结果和讨论复相关=R2YR2y.12YX1X2总误差总回归SSSSSSSSR 12 (1 1)输出结果文件中的第一部分:)输出结果文件中的第一部分:3.3 结果和讨论结果和讨论R2的改变都是显著的,说明增加自变量可以显著的改变都是显著的,说明增加自变量可以显著地改善对因变量的预测地改善对因变量的预测第三个回归方程的解释率最高 2 2)输出的结果文件中第二部分:)输出的结果文

17、件中第二部分:F检验的结果显示,三个回归方程都显著检验的结果显示,三个回归方程都显著1 H0 : B1=02 H0 : B1= B2=03 H0 : B1= B2= B3=0非标准化回归方程:非标准化回归方程:Y=7.337+.276Z1+eY=14.129+.227Z1-3.301Z4+e1Y=4.335+.268Z1-6.286Z4+10.188Z5+e标准化回归方程:标准化回归方程:Y=.413Z1+eY=.340Z1- .336Z4+ e1Y=.401Z1- 6.639Z4 + .477Z5+e多重回归的矩阵表达1. 一般公式一般公式 2. 矩阵表示矩阵表示 3. 最小二乘估计最小二乘估计y = X+e-1=(XX) Xy01 12 2ip piyxxxe0:20BH1y2rYX1X2Zero-Order 零阶相关零阶相关/ /简单相关简单相关y(1.2)2rPart Correlation部分相关部分相关YX1X2Part correlation Correlation between Y and X1 when variable due to X2 has been partialed out of X1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论