SPSS课件9-回归分析_第1页
SPSS课件9-回归分析_第2页
SPSS课件9-回归分析_第3页
SPSS课件9-回归分析_第4页
SPSS课件9-回归分析_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第9章线性回归分析9.1一元线性回归9.2多元线性回归9.3逐步回归9.4spss在回归中的应用“回归”一词的由来“回归”这个词最先由由英国著名统计学家F.高尔顿〔FrancisGalton〕在19世纪末期研究孩子及他们的父母的身高时提出来的。高尔顿研究发现,父母和孩子的身高有这样的一个趋势:父母高,儿女就高;父母矮,儿女也矮。但是高个父母的儿女们平均起来并不像他们的父母那样高。儿女辈的平均身高将“退化”到或者说“回归”到全体人口的平均身高。对于比较矮的父母情形也类似:他们的孩子比较矮,但这些孩子的平均身高要比他们的父母的平均身高高。“回归”一词的由来

Galton把这种孩子的身高向中间值靠近的趋势称之为一种回归效应,而他开展的研究两个数值变量的方法称为回归分析。这也叫高尔顿的“普遍回归定律”。高尔顿在智力遗传的方面也得到了类似的结果:一般来说,天才是要遗传的。但是天才的后代却要比他们的父辈们平庸,也就是他们的智力水平将“回归”到中等水平;而一个智商一般的父母,其孩子却可能是个天才!尽管“回归”这个名称的由来具有其特定的含义,人们在研究大量的问题中变量x与y之间的关系并不具有这种“回归”的含义,但借用这个词把研究变量x与y之间的统计关系的数学方法称为“回归分析”,也算是对高尔顿这个伟大的统计学家的一种纪念。回归分析主要解决以下几方面问题从一组样本数据出发,确定变量之间的数学关系式对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度回归分析与相关分析的区别相关分析中,变量x

变量y处于平等的地位;回归分析中,变量y称为因变量,处在被解释的地位,x称为自变量,用于预测因变量的变化相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制

回归模型的类型一个自变量两个及两个以上自变量回归模型多元回归一元回归线性回归非线性回归线性回归非线性回归9.1一元线性回归9.1.1一元线性回归模型9.1.2参数的最小二乘估计9.1.3回归方程的显著性检验一元线性回归模型当只涉及一个自变量时称为一元回归,假设因变量y与自变量x之间为线性关系时称为一元线性回归对于具有线性关系的两个变量,可以用一条线性方程来表示它们之间的关系描述因变量y如何依赖于自变量x和误差项的方程称为回归模型一元线性回归模型对于只涉及一个自变量的简单线性回归模型可表示为y=b0+b1x+e模型中,y是x的线性函数(局部)加上误差项线性局部反映了由于x的变化而引起的y的变化误差项是随机变量反映了除x和y之间的线性关系之外的随机因素对y的影响是不能由x和y之间的线性关系所解释的变异性0和1称为模型的参数一元线性回归模型

〔根本假定〕误差项ε是一个期望值为0的随机变量,即E(ε)=0。对于一个给定的x值,y的期望值为E(y)=

0+

1x对于所有的x值,ε的方差σ2都相同误差项ε是一个服从正态分布的随机变量,且相互独立。即ε~N(0,σ2)独立性意味着对于一个特定的x值,它所对应的ε与其他x值所对应的ε不相关对于一个特定的x值,它所对应的y值与其他x所对应的y值也不相关回归方程

〔概念要点〕描述y的平均值或期望值如何依赖于x的方程称为回归方程简单线性回归方程的形式如下

E(y)=

0+

1x方程的图示是一条直线,因此也称为直线回归方程

0是回归直线在y轴上的截距,是当x=0时y的期望值

1是直线的斜率,称为回归系数,表示当x每变动一个单位时,y的平均变动值估计(经验)的回归方程简单线性回归中估计的回归方程为其中:是估计的回归直线在y轴上的截距,是直线的斜率,它表示对于一个给定的x的值,是y的估计值,也表示x每变动一个单位时,

y的平均变动值

用样本统计量和代替回归方程中的未知参数和,就得到了估计的回归方程总体回归参数

是未知的,必需利用样本数据去估计9.1.2参数

0和

1的最小二乘估计最小二乘估计法使因变量的观察值与估计值之间的离差平方和到达最小来求得和的方法。即最小二乘法

〔图示〕xy(xn,yn)(x1,y1)

(x2,y2)(xi,yi)}ei=yi-yi^最小二乘法

〔和的计算公式〕

根据最小二乘法的要求,可得求解和的标准方程如下估计方程的求法

〔实例〕【例】根据例9.1中的数据,配合人均消费金额对人均国民收入的回归方程

根据和的求解公式得估计(经验)方程

人均消费金额对人均国民收入的回归方程为y=54.005+0.526x^9.1.3回归方程的显著性检验拟合优度检验〔判定系数r2检验〕回归方程的显著性检验〔F检验〕回归系数的显著性检验〔t检验〕离差平方和的分解因变量y的取值是不同的,y取值的这种波动称为变差。变差来源于两个方面由于自变量x的取值不同造成的除x以外的其他因素(如x对y的非线性影响、测量误差等)的影响对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差来表示离差平方和的分解

〔图示〕xyy{}}

离差分解图离差平方和的分解

〔三个平方和的关系〕2.两端平方后求和有从图上看有SST=SSR+SSE总变差平方和(SST){回归平方和(SSR){残差平方和(SSE){离差平方和的分解

〔三个平方和的意义〕总平方和(SST)反映因变量的n个观察值与其均值的总离差回归平方和(SSR)反映自变量x的变化对因变量y取值变化的影响,或者说,是由于x与y之间的线性关系引起的y的取值变化,也称为可解释的平方和残差平方和(SSE)反映除x以外的其他因素对y取值的影响,也称为不可解释的平方和或剩余平方和判定系数r2回归平方和占总离差平方和的比例反映回归直线的拟合程度取值范围在[0,1]之间

r21,说明回归方程拟合的越好;r20,说明回归方程拟合的越差判定系数等于相关系数的平方,即r2=(r)2R2=0.998回归方程的显著性检验

〔线性关系的检验〕检验自变量和因变量之间的线性关系是否显著具体方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用F检验来分析二者之间的差异是否显著如果是显著的,两个变量之间存在线性关系如果不显著,两个变量之间不存在线性关系回归方程的显著性检验

〔检验的步骤〕提出假设H0:线性关系不显著2.计算检验统计量F确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值F作出决策:假设F>F,或P<拒绝H0;假设F<F,或P>接受H0回归方程的显著性检验

〔方差分析表〕〔续前例〕spss输出的方差分析表P=0.000<0.05拒绝H0,线性关系显著回归系数的显著性检验

〔要点〕在一元线性回归中,等价于回归方程的显著性检验检验x与y之间是否具有线性关系,或者说,检验自变量x对因变量y的影响是否显著理论基础是回归系数

的抽样分布回归系数的显著性检验

〔步骤〕提出假设H0:b1=0(没有线性关系)H1:b1

0(有线性关系)计算检验的统计量确定显著性水平,并进行决策

t>t

,或P<,拒绝H0;

t<t

,或P>接受H0回归系数的显著性检验

〔实例〕提出假设H0:b1=0人均收入与人均消费之间无线性关系H1:b1

0人均收入与人均消费之间有线性关系计算检验的统计量t=65.0758>t=2.201,拒绝H0,说明人均收入与人均消费之间有线性关系

对前例的回归系数进行显著性检验(=0.05)回归系数的显著性检验

(spss输出的结果〕P0=0.000<0.05,常数项显著不为零P1=0.000<0.05,人均消费变量的系数显著不为零9.2多元线性回归多元线性回归模型回归参数的估计回归方程的显著性检验回归系数的显著性检验多元线性回归模型

〔概念要点〕一个因变量与两个及两个以上自变量之间的回归描述因变量

y如何依赖于自变量

x1

,x2

,…,

xp

和误差项

的方程称为多元线性回归模型涉及p个自变量的多元线性回归模型可表示为

b0

,b1,b2

,,bp是参数

是被称为误差项的随机变量

y是x1,,x2

,xp

的线性函数加上误差项

说明了包含在y里面但不能被p个自变量的线性关系所解释的变异性多元线性回归模型

〔根本假定〕自变量x1,x2,…,xp是确定性变量,不是随机变量随机误差项ε的期望值为0,且方差σ2都相同误差项ε是一个服从正态分布的随机变量,即ε~N(0,σ2),且相互独立多元线性回归方程

〔概念要点〕描述y的平均值或期望值如何依赖于

x1,x1

,…,xp的方程称为多元线性回归方程多元线性回归方程的形式为

E(y)=

0+

1x1

+

2x2

+…+

pxp

b1,b2,,bp称为偏回归系数

bi

表示假定其他变量不变,当xi

每变动一个单位时,y的平均平均变动值多元线性回归方程的直观解释二元线性回归模型(观察到的y)回归面

0

ix1yx2(x1,x2)}多元线性回归的估计(经验)方程总体回归参数是未知的,利用样本数据去估计用样本统计量代替回归方程中的未知参数

即得到估计的回归方程

估计值

是y的估计值参数的最小二乘法根据最小二乘法的要求,可得求解各回归参数的标准方程如下使因变量的观察值与估计值之间的离差平方和达到最小来求得

。即回归方程的显著性检验多重样本决定系数

〔多重判定系数R2〕回归平方和占总离差平方和的比例反映回归直线的拟合程度取值范围在[0,1]之间

R21,说明回归方程拟合的越好;R20,说明回归方程拟合的越差等于多重相关系数的平方,即R2=(R)2修正的多重样本决定系数

〔修正的多重判定系数R2〕由于增加自变量将影响到因变量中被估计的回归方程所解释的变异性的数量,为防止高估这一影响,需要用自变量的数目去修正R2的值用n表示观察值的数目,p表示自变量的数目,修正的多元判定系数的计算公式可表示为回归方程的显著性检验

〔线性关系的检验〕检验因变量与所有的自变量和之间的是否存在一个显著的线性关系,也被称为总体的显著性检验检验方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用F检验来分析二者之间的差异是否显著如果是显著的,因变量与自变量之间存在线性关系如果不显著,因变量与自变量之间不存在线性关系回归方程的显著性检验

〔步骤〕提出假设H0:

1

2

p=0线性关系不显著H1:

1,

2,,

p至少有一个不等于02.计算检验统计量F3.确定显著性水平和分子自由度p、分母自由度n-p-1找出临界值F作出决策:假设F>F,或P<,拒绝H0;假设F<F,或P>,接受H0回归系数的显著性检验如果F检验已经说明了回归模型总体上是显著的,那么回归系数的检验就是用来确定每一个单个的自变量xi对因变量y的影响是否显著对每一个自变量都要单独进行检验应用t检验在多元线性回归中,回归方程的显著性检验不再等价于回归系数的显著性检验回归系数的显著性检验

〔步骤〕提出假设H0:bi=0(自变量xi与

因变量y没有线性关系)H1:bi

0(自变量xi与

因变量y有线性关系)计算检验的统计量t确定显著性水平,并进行决策

t>t

,或P<,拒绝H0;

t<t

,或P>,接受H0一个二元线性回归的例子销售额、人口数和年人均收入数据地区编号销售额(万元)y人口数(万人)x1年人均收入(元)x21234567891033.335.527.630.431.953.135.629.035.134.532.429.126.331.229.240.729.823.028.226.91250165014501310131015801490152016201570【例】一家百货公司在10个地区设有经销分公司。公司认为商品销售额与该地区的人口数和年人均收入有关,并希望建立它们之间的数量关系式,以预测销售额。有关数据如下表。试确定销售额对人口数和年人均收入的线性回归方程,并分析回归方程的拟合程度,对线性关系和回归系数进行显著性检验(

=0.05)。一个二元线性回归的例子

spss输出的结果)销售额与人口数和年人均收入的二元回归方程为:9.3逐步回归根本思想是:在考虑Y对一群变量〔X1,X2,…Xk〕回归时,从变量〔X1,X2,…Xk〕中,逐步选出对已解释变差的奉献最大的变量,进入回归方程.判别依据:统计量Fj的值fj最大的xj,先进入方程,最后一个进入方程的变量也应满足P<9.4spss在回归中的应用9.4.1自变量强行进入的回归9.4.2逐步回归回忆6项根本假定〔1〕解释变量间不相关〔无多重共线性〕〔2〕E(ui)=0〔随机项均值为零〕〔3〕Var(ui)=2〔同方差〕〔4〕Cov(ui,uj)=0〔随机项无自相关〕〔5〕Cov(X,ui)=0〔随机项与解释变量X不相关〕〔6〕随机扰动服从正态分布。不满足根本假定的情形〔1〕1、通常不会发生随机扰动项均值不等于0的情形。假设发生也不会影响解释变量的系数,只会影响截距项。2、随机扰动项正态性假设一般能够成立,就算不成立,在大样本下也会近似成立的。所以不讨论此假定是否违背。不满足根本假定的情形〔2〕3、解释变量之间相关=>多重共线4、随机扰动项相关=>序列自相关时间序列数据经常出现序列相关5、随机扰动项方差不等于常数=>异方差截面数据时,经常出现异方差多重共线性的定义多重共线性:在多元线性回归模型中,解释变量之间存在着完全的线性关系或近似的线性关系完全多重共线性近似多重共线性4.2多重共线性的后果〔1〕参数估计值不确定;

〔2〕参数估计值的方差无限大;多重共线性的识别与处理实际运用中多重共线性主要有以下几种类型表现:

(1)整个模型的方差分析检验结果为P<α,但各自变量的偏回归系数的统计学检验结果却P>α。(2)专业上认为应该有统计学意义的自变量检验结果却无统计学意义。(3)自变量的偏回归系数取值大小甚至符号明显与实际情况相违背,难以解释。(4)增加或删除一个自变量或一条记录,自变量偏回归系数发生较大变化。

以上情况最终使得所得到的线性回归模型,特别是其中的偏回归系数难以有符合专业知识的解释。对于多重共线性的识别,可以通过以下统计量:(1)容忍度(Tolerance):是解释变量与其他解释变量间的复相关系数的平方,说明了解释变量之间的线性相关程度。容忍度取值在0-1之间,越接近于0表示多重共线性越强,越接近于1表示多重共线性越弱

(2)方差膨胀因子(Varianceinflationfactor,VIF):等于容忍度的倒数。显然,VIF越大,多重共线性问题越大。通常,VIF大于等于10,说明解释变量之间有严重的多重共线性。(3)特征根CEigenvalue):对模型

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论