第10章线性回归分析_第1页
第10章线性回归分析_第2页
第10章线性回归分析_第3页
第10章线性回归分析_第4页
第10章线性回归分析_第5页
已阅读5页,还剩100页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第第10章章线性回归分析线性回归分析 变变量之量之间间的的关关系有系有两种两种: 确定型的函确定型的函数关数关系系 不确定型的函不确定型的函数关数关系系 这这里主要里主要研研究不确定型的函究不确定型的函数关数关系,如收入系,如收入与与受受教教育育程度之程度之间间的的关关系,等等系,等等问题问题。 但但它们它们之之间间存在明存在明显显的相的相互互关关系系(称为称为相相关关关关系系),又是不确定的。,又是不确定的。 回回归归分析是分析是研研究究随随机机变变量之量之间间相相关关关关系的系的统计统计方法。方法。其其研研究一究一个个被解被解释变释变量量(因因变变量量)与与一一个个或多或多个个解解释变释变

2、量量(自自变变量量)之之间间的的统计关统计关系。系。一、一、线线性回性回归归理理论论分析分析 例例:人均收入:人均收入 X 与人均食品消费支出与人均食品消费支出 Y 的散点图的的散点图的关系如图。关系如图。 一元一元线线性回性回归归是是研研究一究一个个自自变变量量与与一一个个因因变变量的量的统计关统计关系。系。二、一元二、一元线线性回性回归归人均收入人均收入X人人均均食食品品支支出出 YuXY 21 这两个变量之间的不确定关系,可以用下式表示:这两个变量之间的不确定关系,可以用下式表示:式中,人均食品消费支出式中,人均食品消费支出Y Y 是是被解释变量被解释变量, 人均收入人均收入 X X 是

3、是解释变量解释变量, 1 1, 2 2是是待估计参数待估计参数;u u 是是随机干扰项随机干扰项,且与且与 X X 无关,它反映了无关,它反映了 Y Y 被被 X X 解释的不确定性解释的不确定性。如果随机干扰项如果随机干扰项 u u 的均值为的均值为 0 0, 对上式求条件均值,有对上式求条件均值,有XXYE21)( 反映出从反映出从“平均平均”角度看,是确定性关系。角度看,是确定性关系。例:例:地区的多孩率与人均国民收入的散点图如下:地区的多孩率与人均国民收入的散点图如下:uLnXY 21 人均收入人均收入X X多多孩孩率率 Y Y这两个变量之间的不确定关系,大致可以用下式表示:这两个变量

4、之间的不确定关系,大致可以用下式表示:设设 Z =Z =LnLn X X ,可将上式线性关系为:,可将上式线性关系为:uZY 21 线性回归的任务:线性回归的任务:用恰当的方法,估计出参数用恰当的方法,估计出参数 1 1, 2 2 ,并且使估计出来的参数具有良好的统计特征。并且使估计出来的参数具有良好的统计特征。如果把如果把X X,Y Y的样本观测值代到线性回归方程中,就得到的样本观测值代到线性回归方程中,就得到iiiuXY 21 i =1,2, ,n, n,n, n为样为样本容量本容量. .从重复抽样的角度看,从重复抽样的角度看, X Xi i,Y Yi i也可以视为随机变量。也可以视为随机

5、变量。高斯基本假高斯基本假设设对对于于线线性回性回归归模型模型iiiuXY 21 i =1,2, ,n, n,n, n为样为样本容量本容量. .高斯基本假高斯基本假设设如下如下:(1) ui 为随为随机机变变量量(2) E(ui) =0, 随随机干机干扰项扰项的期望的期望值值等于零等于零.(3) Var(ui) =2u , 随随机干机干扰项扰项的方差等于常的方差等于常数数.(4) E(uiuj)=0 (ij) 随随机干机干扰项协扰项协方差等于零方差等于零(5) ui 服服从从 N(0, 2u )分布分布;(6) E(Xiuj)=0普通最小二乘法普通最小二乘法 (OLS)(OLS)设线性回归模型

6、设线性回归模型XY21 uXY 21 其中其中2,1 为为 1 1, 2 2的估计值的估计值, , 则则 Y Y 的计算值的计算值, , 可以可以用下式表达用下式表达: :所要求出待估参数所要求出待估参数 , , 要使要使Y Y与其计算值与其计算值之间之间的的“误差平方和误差平方和”最小最小. . 即使得即使得2,1 22122)()(iiiXYeYYQ 最小最小. . 为此为此, , 分别求分别求Q Q 对对 的偏导的偏导, , 并令其为零并令其为零: :2,1 0 ,021 QQ解得:解得:YYyXXxxyxiiiiiii ,22其其中中, XY21 2 的另一的另一个个表表达达式式为为:

7、xxyxxxyxTT,2残残差向量差向量 e =Y = (Y-Y) - (-Y) = y- 向量向量 y, , e 三者之三者之间关间关系如系如图图所示所示,普通最小二乘法要使普通最小二乘法要使残残差平方和差平方和 e2i 最小最小, 也就是要也就是要使使 e 的的长长度度尽尽可能小可能小, 等价于在几何上等价于在几何上 e x . 或者或者说说, 的的长长度度应当应当是是 y 在在 x 上的投影上的投影长长度度.yxexy2 几何解几何解释释三、多元三、多元线线性回性回归归 多元多元线线性回性回归归主要主要研研究一究一个个被解被解释变释变量量 (因因变变量量) , 多多个个解解释变释变量量(

8、自自变变量量)的的线线性模型性模型, 即即uXXYkk2211. 基本假基本假设设(1) u为随为随机机变变量向量;量向量;(2) E(u)=0;(3) cov(u) =E(u uT) = 2u In (包含了包含了两个两个其本假其本假设设:一是:一是不存在序列相不存在序列相关关,即,即 ij 时时, cov(ui, uj)=E(uiuj)=0;二二是具有同方差性是具有同方差性(齐齐次方差性次方差性), 即即Var(ui) =2u ).(4) u N(0, 2u In ) (5) E(XTu) =0 , 或者或者, X 为为确定矩确定矩阵阵 nknkkXXXXXXX2222112111(6)

9、秩秩 R( X ) = k, ( k f (k-1, n-k),就表示回归效果是好的, 在 水平下, 已解释方差(Y的变化中已经解释的部分)明显大于未解释方差(Y的变化中尚未解释的部分).F统计统计量量与与R2的的统计统计量的量的关关系系, 可以可以从从下式的推演中看到下式的推演中看到:推演中用到勾股定理:推演中用到勾股定理: 222222111/RRkknkknyeyyF222 yyeF与与 R2的的关关系系 校正的判定系校正的判定系数数(Adjusted R2)统计统计量量R2中不含有自由度。所中不含有自由度。所谓谓校正的判定系校正的判定系数数,就是,就是指指“ “考考虑虑了自由度的判定系

10、了自由度的判定系数数R2adj”。其定。其定义义如下:如下:knnRnykneRadj1)1 (1)1/()/(1222这样这样,R2adj剔除了自由度的影剔除了自由度的影响响。统计统计量量:服服从从t (n-k)当当 时时, H1成立成立, 即即 j 显显著著异异于于0.jjjt( n 5 时时, 若取若取 =0.05, 则当则当t 2 时时, 有有H1成立成立, 即即j显显著著异异于于0 ) 针对针对回回归归系系数数的的 t 统计统计量的量的显显著性著性检验检验, 决决定了相定了相应应的的变变量能否作量能否作为为解解释变释变量量进进入回入回归归方程方程.)(2kntt其中其中1)( , j

11、jTjjjjuXXccj回回归归系系数数的的 T 检验检验假假设设Ho: j=0备择备择假假设设H1: j 0回回归归系系数数的置信的置信区间区间得到得到区间区间 为为 水水平上的置信平上的置信区间区间.95.0)()(025.0025.0kntkntp例例: =0.05, 则则给给定一置信水平定一置信水平 , 用用统计统计量量jjjt)( , )(2/2/kntknt即即95.0)( )(025.0025.0kntkntp偏相偏相关关系系数数的另一的另一种种几何解几何解释释定定义义: 偏相偏相关关系系数数是在其他是在其他变变量不量不变变的情的情况况下下, 任意任意两两个变个变量之量之间间的相

12、的相关关系系数数.例如例如: 已知已知 uXXYkk221偏相偏相关关系系数数kXXYXr,32表示排除表示排除X3,Xk影影响响后的后的Y和和X2之之间间的相的相关关关关系系, 其其计计算算过过程如下程如下:(1) 求中心化求中心化数数据据y 对对中心化中心化数数据据x3, , xk的的OLS估估计值计值:ikkiixxy33 要求出上式要求出上式结结果果, 需需经两个经两个步步骤骤:a. 用中心化用中心化数数据据 y 对对中心化中心化数数据据x3, , xk 回回归归, 求出回求出回归归系系数数. ,3kb. 依托已依托已经经求出的回求出的回归归系系数数 和由和由样样本本得到的中心化得到的

13、中心化数数据据, 计计算算 . ,3kiy(2) 令令 (从从yi中剔除中剔除 x3,xk的影的影响响) *iiiyyy(3) 求求 x2 对对x3,xk的最小二乘估的最小二乘估计值计值:ikkiixxx332要求出上式要求出上式结结果果, 同同样样需需经两个经两个步步骤骤: 先用先用x2 对对x3,xk回回归归, 求出回求出回归归系系数数 , 然后求出然后求出 .k,32ix(4)令令 (从从 中剔除中剔除 x3,xk 的影的影响响).22*2iiixxx2ix(5) 求得偏相求得偏相关关系系数数如下如下:iiiiiiiXXYXxyxyrk2*22*2*,32偏相偏相关关系系数数的几何解的几

14、何解释释: 在下在下图图中中, 偏相偏相关关系系数数是是图图中中 角的余弦角的余弦:cos,32kXXYXr偏相偏相关关系系数数的几何解的几何解释释2 x yx2yx3,xky*x2*注意注意: 图图中中, , 已知已知从图从图中左中左边边的的虚线虚线, 平移到右平移到右边边的的虚线虚线. 22*2 xxx复复相相关关系系数数的另一的另一种种几何解几何解释释复复相相关关系系数数 R 是是图图中中y与与其投影向量其投影向量的的夹夹角角 的余的余弦弦.或者或者说说, 判定系判定系数数是是该该余弦的平方余弦的平方.2222cosyyRx2复复相相关关系系数数的另一的另一种种几何解几何解释释x3,xk

15、ey标标准回准回归归系系数数 在上述回在上述回归归方程中方程中, 自自变变量的量的单单位位对对回回归归系系数数的的数数量量级级有有很大影很大影响响, 例如例如: 元、百元、千元、万元等。元、百元、千元、万元等。为为了了从从回回归归系系数数的大小中,的大小中, 简单简单比比较较相相应应的自的自变变量量对对因因变变量的作用大小,量的作用大小, 就就应当应当剔除自剔除自变变量量单单位的影位的影响响。一般的。一般的处处理方法是把所有的理方法是把所有的变变量量“ “标标准化准化” ”。 所所谓标谓标准化就是指准化就是指对变对变量量Y, X2, ,Xk进进行如下行如下处处理理:YjjjjSYYySXXx

16、, 式中式中, )(11 , )(1122iiYijijjYYnSXXnS于是于是, 原始方程原始方程:uXXYkk221就就转转化化为标为标准方程准方程:kkxxy22注注: 在在SPSS中中, 所所谓标谓标准回准回归归系系数数, 就是指就是指这这一方程一方程的回的回归归系系数数.逐步回逐步回归归1. 回回归归系系数数的的 F 检验检验 检验检验回回归归系系数数 j 是否是否显显著性著性异异于于 0 , 除了除了 T 检验检验外外, 还还有有针对针对回回归归系系数数 (而不是而不是针对总针对总体回体回归归效果效果)的的F检验检验.假假设设Ho: j = 0;备择备择假假设设H1: j 0 (

17、即即 Ho 不成立不成立).可以可以证证明明, 服服从从2(1)分布分布,且且与与 (也服也服从从 2 (n-k)分布分布)相互相互独独立立. jjujc222uQ若再若再记记: , 则则有有jjjjcV2Fj = (n-k)Vj / Q 服服从从F ( 1, n-k) 分布分布.把把 Fj 的的显显著性著性概概率率 p 与与置信度水平置信度水平 比比较较, 就可以判就可以判断断一一个变个变量量 xj 是否是否应当应当成成为为自自变变量量:P 0.05, 接受接受Ho, j与与0没没有有显显著性差著性差异异,xj不不应应成自成自变变量量.P 0.05, 拒拒绝绝Ho, j与与0有有显显著性差著

18、性差异异,xj 应应成自成自变变量量.2. 偏解偏解释变释变差差 (偏回偏回归归平方和平方和) 在一在一个个回回归归方程中方程中, 当当把把 xj 从从自自变变量的量的队队伍中伍中删删除以除以后后, 我我们们可以得到一可以得到一组组新的回新的回归归系系数数的估的估计值计值:*1*1*2*1,kjj从从而得到而得到 Y 的新的的新的计计算算值值:kkXXY*2*2*1*注意注意: 下下标标不包含不包含 j .如果用小如果用小写写的的 y , x 表示中心化的表示中心化的数数据据, 就有就有kkxxy*2*2*1*这时这时| *|2是新的是新的(在自在自变变量中不含量中不含xj的的)已解已解释变释

19、变差差( 新的新的回回归归平方和平方和 ). 可以肯定:可以肯定: | |2 | *|2.于是于是, | |2 - | *|2 就是就是 xj 对对已解已解释变释变差差 (回回归归平方和平方和) 的的贡献贡献, 因此因此, 称称 | |2 - | *|2 为为 xj的偏解的偏解释变释变差差(偏回偏回归归平方和平方和).可以可以证证明明, , 也就是也就是说说, Vj就是就是xj 的偏解的偏解释变释变差差(偏回偏回归归平方和平方和). 222*yycVjjjj若若记记, |e*|2是是从从自自变变量中量中删删除除变变量量 xj 之后的未解之后的未解释变释变差差,同同样样可以肯定:可以肯定: |e

20、|2 |e*|2.可以可以证证明明,|e*|2-|e|2=Vj.而而222*yycVjjjj 也就是也就是说说, 在在删删除除变变量量 xj 之后的未解之后的未解释变释变差的增加量差的增加量, 刚刚好等于已解好等于已解释变释变差的差的减减少量少量, 刚刚好等于好等于 xj 的偏解的偏解释变释变差差 ( 偏偏回回归归平方和平方和 ).以上以上数数量量关关系的几何解系的几何解释释如下如下:y偏解偏解释变释变差的几何解差的几何解释释从图从图中中, 显显示示x2 是是从从自自变变量中量中删删除的除的变变量量, 是中心化是中心化数数据据y对对所有自所有自变变量量 (x2, , xk )回回归归的已解的已

21、解释变释变差差(回回归归平方和平方和),由由勾股定理勾股定理, 得得|2-| *|2=|e(2)|2。|e(2)|2 就是已解就是已解释变释变差的差的减减少部分少部分, 也就是也就是变变量量 x2 的偏解的偏解释变释变差差V2.2 x* yx2x3, , xke*e(2)ey 从从未解未解释变释变差差 (残残差平方和差平方和)角度考角度考虑虑, 图图中中 |e|2是中心化是中心化数数据据 y 对对所有自所有自变变量量 (x2,xk )回回归归的未解的未解释变释变差差(残残差平方差平方和和), |e*|2是中心化是中心化数数据据 y 对对自自变变量量x3,xk (剔除了剔除了x2 )回回归归的未

22、解的未解释变释变差差 (残残差平方和差平方和).由勾股定理由勾股定理, 得得|e*|2 - |e|2 = |e(2)|2. |e(2)|2就是未解就是未解释变释变差的增加部分差的增加部分, 也就是也就是变变量量 x2 的的偏解偏解释变释变差差V2 .由此看到由此看到, 关关于自于自变变量量 xj 的系的系数数 j 的的 F 检验检验, 其其统计统计量量Fj可可以理解以理解为为 xj 的偏回的偏回归归方差方差(偏解偏解释变释变量量/自由度自由度= |e( j ) |2 /1= Vj /1)与与未解未解释释方差方差(未解未解释变释变差差/ 自由度自由度= |e|2 / n-k)之比之比, 也就是也

23、就是, QVkneVknFkjj/)(/)(2与统计与统计量量 Fj = (n-k)Vj / Q 完全相同完全相同. 逐步回逐步回归归法法逐步回逐步回归归法的基本思想:法的基本思想: 在考在考虑虑 Y 对对已知的一群已知的一群变变量量( X2, ,Xk )回回归时归时, 从变从变量量X2, ,Xk中中, 逐步逐步选选出出对对已解已解释变释变差的差的贡献贡献 (也就是偏解也就是偏解释变释变差差) 最大的最大的变变量量,进进入回入回归归方程方程. 而而对对已解已解释变释变差的差的贡献贡献大小的判大小的判别别依据依据, 就是包就是包含了偏解含了偏解释变释变差的差的 F 统计统计量量Fj. 统计统计量

24、量Fj 的的值值 fj 最大的最大的 xj , 先先进进入入方程方程; 最后一最后一个进个进入方程的自入方程的自变变量量 xj , 也也应当满应当满足足: 统计统计量的量的值值 fj 的的显显著性著性概概率率 p 小于等于小于等于选选定的定的显显著性水平著性水平 (即即, 要求其系要求其系数数 j 显显著著异异于于 0). 逐步回逐步回归归法也可以按照反法也可以按照反过来过来的的顺顺序序进进行行. 先把先把 Y 对对所有的自所有的自变变量量 X2, ,Xk 回回归归, 然后逐步把然后逐步把 fj 最小的最小的 xj 剔除出方程剔除出方程. 所有剔除所有剔除出方程的出方程的 xj , 在剔除在剔

25、除时时, 其其统计统计量的量的值值 fj 的的显显著性著性概概率率 p 大于大于选选定定的的显显著性水平著性水平 (即即, 要求其系要求其系数数j 与与0没没有有显显著性差著性差异异).注意注意: 逐步添加法或逐步剔除法逐步添加法或逐步剔除法, 都都应当应当强强调调“ “逐步逐步” ” . 不能一次不能一次按照各按照各个变个变量的量的统计统计量的量的值值 fj 的的显显著性著性概概率率 p 是否小于等于是否小于等于选选定的定的显显著性水平著性水平, 来决来决定是否作定是否作为为 Y 的自的自变变量量. 因因为为每添加或每添加或剔除一剔除一个变个变量量, 都都会会引起所有回引起所有回归归系系数数

26、的的变变化和化和统计统计量的量的值值 fj 的的变变化化. 一次一次处处理理会会造成造成误误判判, 只有逐步只有逐步处处理理, 才是恰才是恰当当的的.逐步回逐步回归归的第三的第三种种方法方法: 一一边进边进, 一一边边出出. “进进” ”与与“ “出出” ”的判的判别别准准则则通常是不同的通常是不同的. “进进” ”的的变变量的量的fj 的的显显著性著性概概率率 p 所所对对照的照的显显著性水平著性水平 1 通常取得大一些通常取得大一些, 以便能以便能够够有更多的有更多的 fj 的外的外侧概侧概率率(显显著性著性概概率率)小于小于1 ,也就是使更多也就是使更多的系的系数数 j 显显著著异异于于

27、0, 从从而更多的而更多的变变量量进进入方程入方程. 而而“ “出出” ”的的变变量的量的 fj 的的显显著性著性概概率率 p 所所对对照的照的显显著性水平著性水平2 , 通常取得小通常取得小一些一些, 以便能以便能够够有有较较少的少的 fj 的的显显著性著性概概率率 p 小于小于2 , 从从而有更而有更少的少的变变量被剔除出方程量被剔除出方程.四、四、SPSS在一元线性回归分析中的应用在一元线性回归分析中的应用 一元线性回归的基本原理一元线性回归的基本原理 1.方法概述 线性回归模型侧重考察变量之间的数量变化规律,并线性回归模型侧重考察变量之间的数量变化规律,并通过线性表达式,即线性回归方程

28、,来描述其关系,进通过线性表达式,即线性回归方程,来描述其关系,进而确定一个或几个变量的变化对另一个变量的影响程度,而确定一个或几个变量的变化对另一个变量的影响程度,为预测提供科学依据。为预测提供科学依据。 一般线性回归的基本步骤如下: 确定回归方程中的自变量和因变量。确定回归方程中的自变量和因变量。 从收集到的样本数据出发确定自变量和因变量之间的从收集到的样本数据出发确定自变量和因变量之间的数学关系式,即确定回归方程。数学关系式,即确定回归方程。 建立回归方程,在一定统计拟合准则下估计出模型中建立回归方程,在一定统计拟合准则下估计出模型中的各个参数,得到一个确定的回归方程。的各个参数,得到一

29、个确定的回归方程。 对回归方程进行各种统计检验。对回归方程进行各种统计检验。 利用回归方程进行预测。利用回归方程进行预测。SPSS在一元线性回归分析中的应用在一元线性回归分析中的应用2、基本原理、基本原理 当自变量和因变量之间呈现显著的线性关系时,则应当自变量和因变量之间呈现显著的线性关系时,则应采用线性回归的方法,建立因变量关于自变量的线性采用线性回归的方法,建立因变量关于自变量的线性回归模型。根据自变量的个数,线性回归模型可分为回归模型。根据自变量的个数,线性回归模型可分为一元线性回归模型和多元线性回归模型一元线性回归模型和多元线性回归模型 一元线性回归模型是在不考虑其他影响因素的条件一元

30、线性回归模型是在不考虑其他影响因素的条件下,或是在认为其他影响因素确定的情况下,分析某下,或是在认为其他影响因素确定的情况下,分析某一个因素一个因素(自变量自变量)是如何影响因变量的。一元线性回是如何影响因变量的。一元线性回归的经验模型是:归的经验模型是: 式中,式中, 表示回归直线在纵轴上的截距,表示回归直线在纵轴上的截距, 是回归系是回归系数,它表示当自变量变动一个单位所引起的因变量的数,它表示当自变量变动一个单位所引起的因变量的平均变动值。平均变动值。 01 yx0SPSS在一元线性回归分析中的应用在一元线性回归分析中的应用3.统计检验统计检验 在求解出了回归模型的参数后,一般不能立即将

31、结果在求解出了回归模型的参数后,一般不能立即将结果付诸于实际问题的分析和预测,通常要进行各种统计检付诸于实际问题的分析和预测,通常要进行各种统计检验,例如拟合优度检验、回归方程和回归系数的显著性验,例如拟合优度检验、回归方程和回归系数的显著性检验和残差分析等。检验和残差分析等。SPSS在一元线性回归分析中的应用在一元线性回归分析中的应用实例分析:广告支出与销售量1. 实例内容(数据文件10-1.sav) 下表中的数据是下表中的数据是7大名牌饮料的广告支出大名牌饮料的广告支出(百万美元百万美元)与箱销售量与箱销售量(百万百万)的数据。请利用回归分析来分析广告支出与箱销售量的关系。的数据。请利用回

32、归分析来分析广告支出与箱销售量的关系。SPSS在一元线性回归分析中的应用在一元线性回归分析中的应用2. 实例操作 现在厂商要研究投入的广告支出与箱销售量之间的关系,则现在厂商要研究投入的广告支出与箱销售量之间的关系,则可以建立回归模型来探讨它们之间的关系,即可以建立回归模型来探讨它们之间的关系,即 箱销售量箱销售量=f(广告支出广告支出) 首先绘制了这两组变量的散点图首先绘制了这两组变量的散点图(见下图见下图),图形显示它们呈线,图形显示它们呈线性关系,则可以建立一元线性回归模型如下:性关系,则可以建立一元线性回归模型如下:SPSS在一元线性回归分析中的应用在一元线性回归分析中的应用SPSS在

33、一元线性回归分析中的应用在一元线性回归分析中的应用3. 实例结果及分析(1)自变量进入方式自变量进入方式 执行完相应的操作后,首先给出的是自变量进入方式执行完相应的操作后,首先给出的是自变量进入方式(见下表见下表)。可以。可以看到回归模型的选入变量是广告支出看到回归模型的选入变量是广告支出(expenditure),采用的自变量,采用的自变量进入方式是强行进入法,也就是将所有的自变量都放入模型中。进入方式是强行进入法,也就是将所有的自变量都放入模型中。SPSS在一元线性回归分析中的应用在一元线性回归分析中的应用(2)模型摘要模型摘要 下表是对模型的简单汇总,其实就是对方程拟合情况的描述。通过下

34、表是对模型的简单汇总,其实就是对方程拟合情况的描述。通过这张表可以知道相关系数的取值这张表可以知道相关系数的取值(R),相关系数的平方即可决系数,相关系数的平方即可决系数(R Square),校正后的可决系数,校正后的可决系数(adjusted R Square)和回归系数的标准和回归系数的标准误误(Std.Error of the Estimate)。注意这里的相关系数大小和前面相。注意这里的相关系数大小和前面相关分析中计算出的结果完全相同。可决系数关分析中计算出的结果完全相同。可决系数R Square的取值介于的取值介于0和和1之间,它的含义就是自变量所能解释的方差在总方差中所占的百分之间

35、,它的含义就是自变量所能解释的方差在总方差中所占的百分比,取值越大说明模型的效果越好。本案例计算的回归模型中可决系比,取值越大说明模型的效果越好。本案例计算的回归模型中可决系数数R2等于等于0.957,模型拟合效果较好。,模型拟合效果较好。五、五、SPSS在多元线性回归分析中的应用在多元线性回归分析中的应用多元线性回归的基本原理1.方法概述 在回归分析中,如果有两个或两个以上的自变量,就称为多在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。元回归。2.基本原理 多元线性回归模型是指有多个自变量的线性回归模型,它用多元线性回归模型是指有多个自变量的线性回归模型,它用于揭示因变量与多个

36、自变量之间的线性关系。多元线性回归于揭示因变量与多个自变量之间的线性关系。多元线性回归方程的经验模型是:方程的经验模型是: 上式中,假设该线性方程有上式中,假设该线性方程有k个自变量个自变量 。 是回是回归方程的偏回归系数。归方程的偏回归系数。 表示在其他自变量保持不变的情况表示在其他自变量保持不变的情况下,自变量下,自变量 变动一个单位所引起的因变量的平均变动单位。变动一个单位所引起的因变量的平均变动单位。 01122kkyxxx1,kxx(1,)iikixSPSS在多元线性回归分析中的应用在多元线性回归分析中的应用实例分析:电视广告和报纸广告1. 实例内容(数据文件10-2.sav) 娱乐

37、时光影剧院公司的老板希望了解公司投放的电视广告费用和报娱乐时光影剧院公司的老板希望了解公司投放的电视广告费用和报纸广告费用对公司收入的影响。以往纸广告费用对公司收入的影响。以往8周的样本数据如下表所示周的样本数据如下表所示(单位:单位:千美元千美元)。请建立模型分析这两种广告形式对公司营业收入的影响。请建立模型分析这两种广告形式对公司营业收入的影响。SPSS在多元线性回归分析中的应用在多元线性回归分析中的应用2. 实例操作 本案例要分析电视广告和报纸广告对公司收入的影响,则可本案例要分析电视广告和报纸广告对公司收入的影响,则可以建立二元回归模型来探讨它们之间的关系,即以建立二元回归模型来探讨它

38、们之间的关系,即 每周营业总收入每周营业总收入=f(电视广告费用,报纸广告费用电视广告费用,报纸广告费用) 可以通过比较电视广告和报纸广告变量的系数大小来研究这可以通过比较电视广告和报纸广告变量的系数大小来研究这两种广告形式对收入的影响程度高低。但是,是否收入和广告两种广告形式对收入的影响程度高低。但是,是否收入和广告费用呈线性关系,则首先要绘制散点图来判断。通过三维散点费用呈线性关系,则首先要绘制散点图来判断。通过三维散点图图(见下图见下图)看到,这三个变量之间呈明显的线性增长关系,因看到,这三个变量之间呈明显的线性增长关系,因此可以建立营业收入的二元影响回归模型如下:此可以建立营业收入的二

39、元影响回归模型如下:SPSS在多元线性回归分析中的应用在多元线性回归分析中的应用SPSS在多元线性回归分析中的应用在多元线性回归分析中的应用3. 实例结果及分析(1)自变量进入方式自变量进入方式 执行完相应的操作后,首先给出的是自变量进入方式执行完相应的操作后,首先给出的是自变量进入方式(见下表见下表)。由于这里的自变量进入方式采用的是系统默认,即强行进入法,由于这里的自变量进入方式采用的是系统默认,即强行进入法,可以看到回归模型的选入变量是报纸广告费用和电视广告费用。可以看到回归模型的选入变量是报纸广告费用和电视广告费用。SPSS在多元线性回归分析中的应用在多元线性回归分析中的应用(2)模型

40、摘要模型摘要 下表给出了衡量该回归方程优劣的统计量。下表给出了衡量该回归方程优劣的统计量。R为复相关系数,为复相关系数,它表示模型中所有自变量它表示模型中所有自变量(TV、Newspaper)与因变量与因变量income之间的线性回归关系的密切程度大小。它的取值介于之间的线性回归关系的密切程度大小。它的取值介于0和和1之间;之间;R越大说明线性回归关系越密切。可决系数越大说明线性回归关系越密切。可决系数R2等于复相关系数等于复相关系数的平方,这里等于的平方,这里等于0.919。调整的。调整的R2为我们要重点关注的统计为我们要重点关注的统计量;它的值越大,模型拟合效果得越好;下表中调整的量;它的

41、值越大,模型拟合效果得越好;下表中调整的R2为为0.887。最后给出的是剩余标准差。最后给出的是剩余标准差(Std. Error of the Estimate),它是残差的标准差,其大小反映了建立的模型预测因变量的精它是残差的标准差,其大小反映了建立的模型预测因变量的精度。剩余标准差越小,说明建立的模型效果越好。度。剩余标准差越小,说明建立的模型效果越好。SPSS在多元线性回归分析中的应用在多元线性回归分析中的应用(3)方差分析表方差分析表 下表是对回归模型进行方差分析的检验结果。可以下表是对回归模型进行方差分析的检验结果。可以看到方差分析结果中看到方差分析结果中F统计量等于统计量等于28.

42、378,概率,概率P值值0.002小于显著性水平小于显著性水平0.05,所以该模型是有统计学,所以该模型是有统计学意义的,即两种广告支出费用和每周营业收入之间意义的,即两种广告支出费用和每周营业收入之间的线性关系是显著的。的线性关系是显著的。SPSS在多元线性回归分析中的应用在多元线性回归分析中的应用(4)回归系数表回归系数表 下表给出了回归模型的常数项下表给出了回归模型的常数项(Constant)、电视广告费用和报纸广告、电视广告费用和报纸广告费用的偏相关系数,它们分别等于费用的偏相关系数,它们分别等于83.230、2.290和和1.301。于是得到。于是得到回归方程如下:回归方程如下: 每

43、周营业总收入每周营业总收入=83.2302.290电视广告费用电视广告费用1.301报纸广告费用报纸广告费用 其中常数项表示当自变量取值全为其中常数项表示当自变量取值全为0时,因变量的取值大小,即没有时,因变量的取值大小,即没有这两种广告投入时电影院的营业收入。同时比较电视广告和报纸广告这两种广告投入时电影院的营业收入。同时比较电视广告和报纸广告的系数看到,电视广告对电影院的收入影响要大于报纸广告的影响。的系数看到,电视广告对电影院的收入影响要大于报纸广告的影响。 表表8-10还给出了模型对还给出了模型对TV和和income变量的偏回归系数是否等于变量的偏回归系数是否等于0的的t检验结果。检验

44、结果。t值分别等于值分别等于7.532和和4.057,概率,概率P值都小于显著性水平值都小于显著性水平0.05,因此认为偏相关系数,因此认为偏相关系数1、2显著不等于显著不等于0。同时,。同时,SPSS在输出一在输出一般偏回归系数的同时,也输出了各自的标准化偏回归系数般偏回归系数的同时,也输出了各自的标准化偏回归系数(Standardized Coefficients)。SPSS在多元线性回归分析中的应用在多元线性回归分析中的应用课堂练习 现有现有19921992年年-2006-2006年国家财政收入和国内生产总值的数据如下表年国家财政收入和国内生产总值的数据如下表所示,请研究国家财政收入和国

45、内生产总值之间的关系。所示,请研究国家财政收入和国内生产总值之间的关系。年份年份国内生产总值国内生产总值(单位:亿元)(单位:亿元)财政收入财政收入(单位:亿元)(单位:亿元)年份年份国内生产总值国内生产总值(单位:亿元)(单位:亿元)财政收入财政收入(单位:亿元)(单位:亿元)199226923.53483.37200099214.613395.23199335333.94348.952001109655.216386.04199448197.95218.102002120332.718903.64199560793.76242.202003135822.821715.25199671176

46、.67407.992004159878.326396.47199778973.08651.142005183867.931649.29199884402.39875.952006210871.038760.20199989677.111444.08六、六、SPSS在曲线拟合中的应用在曲线拟合中的应用 曲线拟合的基本原理 1.方法概述 实际中,变量之间的关系往往不是简单的线性关系,而呈现实际中,变量之间的关系往往不是简单的线性关系,而呈现为某种曲线或非线性的关系。此时,就要选择相应的曲线去反为某种曲线或非线性的关系。此时,就要选择相应的曲线去反映实际变量的变动情况。为了决定选择的曲线类型,常用的

47、方映实际变量的变动情况。为了决定选择的曲线类型,常用的方法是根据数据资料绘制出散点图,通过图形的变化趋势特征并法是根据数据资料绘制出散点图,通过图形的变化趋势特征并结合专业知识和经验分析来确定曲线的类型,即变量之间的函结合专业知识和经验分析来确定曲线的类型,即变量之间的函数关系。数关系。 在确定了变量间的函数关系后,需要估计函数关系中的未知在确定了变量间的函数关系后,需要估计函数关系中的未知参数,并对拟合效果进行显著性检验。虽然这里选择的是曲线参数,并对拟合效果进行显著性检验。虽然这里选择的是曲线方程,在方程形式上是非线性的,但可以采用变量变换的方法方程,在方程形式上是非线性的,但可以采用变量

48、变换的方法将这些曲线方程转化为线性方程来估计参数。将这些曲线方程转化为线性方程来估计参数。SPSS在曲线拟合中的应用在曲线拟合中的应用实例分析:空置率和租金率1. 实例内容(数据文件10-3.sav) 某管理咨询公司采集了市场上办公用房某管理咨询公司采集了市场上办公用房的空置率和租金率的数据。对于的空置率和租金率的数据。对于13个选个选取的销售地区,下表是这些地区的中心取的销售地区,下表是这些地区的中心商业区的综合空置率商业区的综合空置率(%)和平均租金率和平均租金率(元元/平方米平方米)的统计数据。请尝试分析空置率的统计数据。请尝试分析空置率对平均租金率的影响。对平均租金率的影响。空置率空置

49、率租金率租金率21.916.54633.718.118.0114.519.416.631.4215.918.749.226.7619.717.722018.28.32517.116.7810.824.0311.122.64SPSS在曲线拟合中的应用在曲线拟合中的应用2. 实例操作 本案例要分析空置率对平均租金率的影响,因此首先绘制它本案例要分析空置率对平均租金率的影响,因此首先绘制它们之间的散点图们之间的散点图(见下图见下图)。从图形看到,随着空置率的增加,。从图形看到,随着空置率的增加,平均租金率呈显著的下降趋势。但是这种下降趋势并不是线性平均租金率呈显著的下降趋势。但是这种下降趋势并不是线

50、性的,而表现为非线性的关系。故可以考虑采用曲线拟合的方法。的,而表现为非线性的关系。故可以考虑采用曲线拟合的方法。SPSS在曲线拟合中的应用在曲线拟合中的应用3. 实例结果及分析(1)模型描述模型描述 下表是下表是SPSS对曲线拟合结果的初步描述统计,例如自变量和对曲线拟合结果的初步描述统计,例如自变量和因变量、估计方程的类型等。因变量、估计方程的类型等。SPSS在曲线拟合中的应用在曲线拟合中的应用(2)模型汇总及参数估计模型汇总及参数估计 下表给出了样本数据分别进行三种曲线方程拟合的检验统计量和下表给出了样本数据分别进行三种曲线方程拟合的检验统计量和相应方程中的参数估计值。相应方程中的参数估

51、计值。 对于直线拟合,它的可决系数对于直线拟合,它的可决系数R2为为0.858,F统计量等于统计量等于66.335,概率概率P值小于显著性水平值小于显著性水平0.05,说明该模型有统计学意义。直线拟,说明该模型有统计学意义。直线拟合方程为:合方程为: 对于逆函数方程和指数方程拟合来说,它对应的可决系数对于逆函数方程和指数方程拟合来说,它对应的可决系数R2分别分别为为0.972和和0.900,模型也显著有效。具体估计方程分别为:,模型也显著有效。具体估计方程分别为: 虽然上述模型都有显著的统计学意义,但从可决系数的大小可以虽然上述模型都有显著的统计学意义,但从可决系数的大小可以清晰看到逆函数方程

52、较其他两种曲线方程拟合效果更好,因此选清晰看到逆函数方程较其他两种曲线方程拟合效果更好,因此选择逆函数方程来描述空置率和租金率的关系。择逆函数方程来描述空置率和租金率的关系。 SPSS在曲线拟合中的应用在曲线拟合中的应用SPSS在曲线拟合中的应用在曲线拟合中的应用(3)拟合曲线图拟合曲线图 最后给出的是实际数据的散点图和三种估计曲线方最后给出的是实际数据的散点图和三种估计曲线方程的预测图。从下图也进一步说明逆函数曲线方程程的预测图。从下图也进一步说明逆函数曲线方程的拟合效果最好。的拟合效果最好。七、七、SPSS在非线性回归分析中的应用在非线性回归分析中的应用 非线性回归分析的基本原理 非线性回

53、归分析是探讨因变量和一组自变量之间的非线性相非线性回归分析是探讨因变量和一组自变量之间的非线性相关模型的统计方法。线性回归模型要求变量之间必须是线性关关模型的统计方法。线性回归模型要求变量之间必须是线性关系,曲线估计只能处理能够通过变量变换化为线性关系的非线系,曲线估计只能处理能够通过变量变换化为线性关系的非线性问题,因此这些方法都有一定的局限性。相反的,非线性回性问题,因此这些方法都有一定的局限性。相反的,非线性回归可以估计因变量和自变量之间具有任意关系的模型,用户根归可以估计因变量和自变量之间具有任意关系的模型,用户根据自身需要可随意设定估计方程的具体形式。因此,本方法在据自身需要可随意设

54、定估计方程的具体形式。因此,本方法在实际应用中有很大的实用价值实际应用中有很大的实用价值。SPSS在非线性回归分析中的应用在非线性回归分析中的应用 非线性回归模型一般可以表示为如下形式:非线性回归模型一般可以表示为如下形式: 其中其中 为期望函数为期望函数,该模型的结构和线性回归模型非常相似,该模型的结构和线性回归模型非常相似,所不同的是期望函数可能为任意形式,甚至在有的情况下没有所不同的是期望函数可能为任意形式,甚至在有的情况下没有显式关系式,回归方程中参数的估计是通过迭代方法获得的。显式关系式,回归方程中参数的估计是通过迭代方法获得的。( , )iiiyyef xe( ,)f xSPSS在

55、非线性回归分析中的应用在非线性回归分析中的应用实例分析:股票价格的预测1. 实例内容(数据文件10-4.sav) 假定右表数据文件是三个公司股票在假定右表数据文件是三个公司股票在15个月期间的股市收盘价。一家投资公司希个月期间的股市收盘价。一家投资公司希望建立一个回归模型用股票望建立一个回归模型用股票B和股票和股票C的的价格来预测股票价格来预测股票A的价格。请建立回归模的价格。请建立回归模型分析。型分析。yx1x24136353936353838324551414152394355554757524958544162653570773672753974743383812810192311079

56、1SPSS在非线性回归分析中的应用在非线性回归分析中的应用2. 实例操作 本案例要利用股票本案例要利用股票B和股票和股票C的价格来预测股票的价格来预测股票A的价格,因的价格,因此选择股票此选择股票B和股票和股票C为自变量,股票为自变量,股票A为因变量来建立回归方为因变量来建立回归方程:程: 其中,其中,y、x1和和x2分别表示股票分别表示股票A、股票、股票B和股票和股票C的价格。的价格。SPSS在非线性回归分析中的应用在非线性回归分析中的应用 接着利用散点矩阵图来判断三个变量之间的关系。散点矩阵接着利用散点矩阵图来判断三个变量之间的关系。散点矩阵图图(见下图见下图)分为分为9个子图,它们分别描

57、述了三只股票中两两股个子图,它们分别描述了三只股票中两两股票价格之间的变化。可以看到,股票票价格之间的变化。可以看到,股票A的价格和其他两只股票的价格和其他两只股票的价格都存在显著线性关系,这是否表示只需要建立一个二元的价格都存在显著线性关系,这是否表示只需要建立一个二元线性模型即可呢?观察自变量股票线性模型即可呢?观察自变量股票B和股票和股票C之间散点图看到,之间散点图看到,这两只股票的价格也存在显著的影响关系,这说明了这两个因这两只股票的价格也存在显著的影响关系,这说明了这两个因变量之间可能存在交叉影响。于是,建立如下非线性回归方程:变量之间可能存在交叉影响。于是,建立如下非线性回归方程:

58、SPSS在非线性回归分析中的应用在非线性回归分析中的应用SPSS在非线性回归分析中的应用在非线性回归分析中的应用3 实例结果及分析(1)迭代过程表迭代过程表 下表是回归方程参数估计的迭代过程记录。这里只进行了两次迭代就下表是回归方程参数估计的迭代过程记录。这里只进行了两次迭代就达到了精度要求。观察残差平方和达到了精度要求。观察残差平方和“Residual Sum of Squares” ”的变的变化,可见随着迭代的进行,残差变得越来越小。但这一过程不是无限化,可见随着迭代的进行,残差变得越来越小。但这一过程不是无限进行下去的,当进行了两步迭代后,残差以及各参数的估计值均稳定进行下去的,当进行了

59、两步迭代后,残差以及各参数的估计值均稳定下去了,模型达到收敛标准。下去了,模型达到收敛标准。SPSS在非线性回归分析中的应用在非线性回归分析中的应用(2)参数估计值参数估计值 下表列出了回归模型中四个参数的迭代估计值、标准误差和下表列出了回归模型中四个参数的迭代估计值、标准误差和95%的置信区间。于是,得到股票的置信区间。于是,得到股票A关于股票关于股票B和和C的预测回归的预测回归模型为:模型为: 可以看到,股票可以看到,股票B和股票和股票C都和股票都和股票A的价格变动方向相同,的价格变动方向相同,而且股票而且股票B对股票对股票A的影响更大。股票的影响更大。股票B、C的交互项会影响股的交互项会

60、影响股票票A下跌,但这种影响不太明显。下跌,但这种影响不太明显。SPSS在非线性回归分析中的应用在非线性回归分析中的应用SPSS在非线性回归分析中的应用在非线性回归分析中的应用 (3)参数的相关系数矩阵参数的相关系数矩阵 下表是模型中四个估计参数的相关系数矩阵。对于较复杂的下表是模型中四个估计参数的相关系数矩阵。对于较复杂的模型,参数间的相关系数可用来辅助进行模型的改进,本案例模型,参数间的相关系数可用来辅助进行模型的改进,本案例无太多价值。无太多价值。SPSS在非线性回归分析中的应用在非线性回归分析中的应用(4)方差分析表方差分析表 下表是非线性回归分析的方差分析表。下表是非线性回归分析的方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论