第5章相关与回归分析_第1页
第5章相关与回归分析_第2页
第5章相关与回归分析_第3页
第5章相关与回归分析_第4页
第5章相关与回归分析_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第5章相关与回归分析一、相关分析二、简单线性回归分析三、多元线性回归分析四、曲线估计*主要内容§5.1相关分析

1、概述(一)相关关系(1)函数关系:(如销售额与销售量、圆面积和圆半径)。事物间的一种一一对应的确定性关系。即当一个变量x取一定值时,另一变量y可以依确定的关系取一个确定的值。(2)相关关系(统计关系):(如收入和消费)事物间的关系不是确定性的.即当一个变量x取一定值时,另一变量y的取值可能有几个,即一个变量的值不能由另一个变量唯一确定概述相关关系的常见类型:线性相关:正线性相关、负线性相关非线性相关相关关系不象函数关系那样直接,但却普遍存在,且有强有弱。如何分析呢?概述(二)相关分析和回归分析的任务研究对象:相关关系相关分析旨在测度变量间线性关系的强弱程度。回归分析侧重考察变量之间的数量变化规律,并通过一定的数学表达式来描述这种关系,进而确定一个或几个变量的变化对另一个变量的影响程度。2、简单相关分析(一)目的通过样本数据,研究两变量间线性相关程度的强弱。(例如投资与收入之间的关系、GDP与通信需求之间的数量关系)(二)基本方法绘制散点图、计算相关系数

绘制散点图(一)散点图将样本数据以点的形式绘制在直角平面上,可以用来发现变量间的关系和可能的趋势,比较直观,但较为粗略。(二)基本操作步骤(1)菜单选项:graphs→scatter(2)选择散点图类型:(3)选择x轴和y轴的变量不相关正线性相关负线性相关相关但非线性相关计算相关系数(一)相关系数(1)作用:以精确的相关系数(r)体现两个变量间的线性关系程度。相关系数的值在-1到1之间,在说明变量之间的线性关系强弱时,可将相关程度分为以下几种:│r│≥0.8,视为高度相关。0.5≤│r│<0.8,视为中度相关。0.3≤│r│<0.5,视为低度相关。1、定量变量的相关指标这种情况是最常见的,此时一般使用积差相关系数,又称Pearson相关系数表示其相关性的大小。作为参数方法,积差相关分析有一定的使用条件:线性相关的情况样本中不存在极端值服从联合正态分布(宽松)计算相关系数计算相关系数简单相关系数相关系数的检验(t检验):提出假设:H0:;H1:0检验的统计量:计算统计量的值,并得到对应的相伴概率p结论:如果p<=α,则拒绝H0,两总体存在线性相关;如果p>α,不能拒绝H0.不满足积差相关分析的条件。用等级表示的原始数据(定序变量)。秩相关:又叫等级相关(rankcorrelation),即斯皮尔曼(Spearman)等级相关。适用于以下资料:计算相关系数计算相关系数2、定序变量间的线性相关关系:Kendall相关系数(Kendall’s)

有序变量的等级资料的相关性就是指行变量等级高的列变量等级也高,行变量等级低的列变量等级也低。SPSS所提供的有序变量的相关指标有Kendall’sTau-b,理论上取值范围也是±1。SPSS的相关分析基本操作步骤:(1)菜单选项:analyze→correlate→bivariate...(2)选择计算相关系数的两个或多个变量到variables框.(3)选择相关系数(correlationcoefficients).(4)显著性检验(testofsignificance)例5.1:某人寿保险公司准备在中低收入家庭中开展寿险险种的市场促销活动,为此,该公司市场企划部搞了一次抽样调查活动,专门对所在地区购买过寿险的居民家庭进行访问(数据见《人寿保险.sav》),试据此分析人均年收入与寿险保额之间的相关关系。相关分析的应用3、偏相关分析(一)偏相关系数(1)含义:在控制了其他变量的影响的情况下,计算两变量间的相关系数。虚假相关:如小学1~6年级全体学生进行速算比赛(身高和分数间的相关受年龄的影响)偏相关分析(2)计算方法:SPSS的偏相关分析(二)基本操作步骤(1)菜单选项:analyze→correlate→partial…(2)选择将需要描述相关性的两个或多个变量到variable框。(3)选择控制变量到controllingfor框。(4)option选项:zero-ordercorrelations:输出简单相关系数矩阵(三)应用举例例5.2:根据调查问卷.sav中的数据,试分析年龄和身高的相关性。SPSS的偏相关分析§5.2简单线性回归分析(1)简单线性回归模型(一元线性回归模型)

y=β0+β1x+ε模型表明,因变量Y的变化可以由两部分来解释,一部分是由自变量X的变化引起的Y的线性变化,另一部分是有其他随机因素引起Y的变化,即ε,ε是随机扰动项。1、简单线性回归模型(2)基本假定误差项ε是一个期望值为0的随机变量,即E(ε)=0。(零均值)对于所有的x值,ε的方差σ2相同(同方差)误差项ε是一个服从正态分布的随机变量,且相互独立。即ε~N(0,σ2)(正态性,无自相关)独立性意味着对于一个特定的x值,它所对应的ε与其他x值所对应的ε不相关(3)一元线性回归方程称一元线性回归方程,是对应于自变量X某一取值时因变量Y的均值。β

0、β1是未知参数,β

0是常数项,β1为回归系数,它表示自变量X每变化一个单位,因变量Y的平均变化量。b与r的关系:r>0r<0r=0b>0 b<0 b=0(4)估计的一元线性回归方程截距斜率(回归系数)2、简单线性回归分析概述回归分析的基本步骤:(1)确定自变量和因变量;(2)从样本数据出发确定变量之间的数学关系式,对回归方程的各个参数进行估计;(3)回归方程的拟和优度检验;(4)回归方程的显著性检验(F检验);(5)回归系数的显著性检验(t检验);(6)残差分析;(7)利用回归方程进行预测。1、估计回归方程参数估计的准则目标:回归线上的观察值与预测值之间的距离总和达到最小最小二乘法(最小二乘法使每个样本点(xi,yi)与回归直线上的对应点(xi,E(yi))在垂直方向上的偏差距离最小)最小二乘法

(图示)xy(xn

,yn)(x1,y1)(x2,y2)(xi,yi)}ei

=yi-yi^一元线性回归模型的确定根据实际数据,用最小平方法,即使,分别对a、b求偏导并令其为零,求得两个标准方程:解联立方程,得到2、一元线性回归方程评价(拟和优度)(1)目的:检验样本观察点聚集在回归直线周围的密集程度,评价回归方程对样本数据点的拟和程度。(2)思路:因为因变量取值的变化受两个因素的影响自变量不同取值的影响其他因素的影响于是,因变量总变差=自变量引起的+其他因素引起的即:因变量总变差=回归方程可解释的+不可解释的可证明:因变量总离差平方和=回归平方和+剩余平方和xy总离差=回归离差+剩余离差SST=SSR+SSE

R2表示因变量全部变差中有百分之几的变差可由x与y的回归关系来解释。,r的符号同回归系数b(3)统计量:判定系数(拟和优度)R2=SSR/SST=1-SSE/SST.R2体现了回归方程所能解释的因变量变差的比例;R2越接近于1,则说明回归平方和占了因变量总变差平方和的绝大部分比例,因变量的变差主要由自变量的不同取值造成,回归方程对样本数据点拟合得好。2、一元线性回归方程的评价3、回归方程的显著性检验检验自变量和因变量之间的线性关系是否显著具体方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用F检验来分析二者之间的差别是否显著如果是显著的,两个变量之间存在线性关系如果不显著,两个变量之间不存在线性关系3、回归方程的显著性检验提出假设H0:线性关系不显著(H0:b1=0)2.计算检验统计量F3、计算F统计量的值和相伴概率p4、判断:若p<=a,拒绝H0,自变量与因变量之间存在显著的线性关系。反之,不能拒绝H04、回归系数的显著性检验在一元线性回归中,等价于回归方程的显著性检验检验x与y之间是否具有线性关系,或者说,检验自变量x对因变量y的线性影响是否显著。理论基础是回归系数

的抽样分布4、回归系数的显著性检验是根据最小二乘法求出的样本统计量,它有自己的分布的分布具有如下性质分布形式:正态分布数学期望:标准差:由于无未知,需用其估计量Sy来代替得到的估计的标准差4、回归系数的显著性检验提出假设H0:β1=0(没有线性关系)H1:β1

0(有线性关系)计算检验的统计量3、计算t统计量的值和相伴概率p

4、判断:P值<=a,拒绝H0,即回归系数与0有显著差异,自变量对因变量有显著的线性影响,反之,不能拒绝H05、线性回归方程的残差分析(一)残差序列的正态性检验:绘制标准化残差的直方图或累计概率图(二)残差序列的随机性检验绘制残差和预测值的散点图,应随机分布在经过零的一条直线上下(三)残差序列的等方差性检验随机、等方差、独立随机、异方差、独立非独立5、线性回归方程的残差分析(四)残差序列独立性检验:残差序列是否存在后期值与前期值相关的现象,利用D.W(Durbin-Watson)检验d-w=0:残差序列存在完全正自相关:d-w=4:残差序列存在完全负自相关;0<d-w<2:残差序列存在某种程度的正自相关;2<d-w<4:残差序列存在某种程度的负自相关;d-w=2:残差序列不存在自相关。三、SPSS的一元线性回归分析(一)基本操作步骤(1)菜单选项:Analyze→regression→linear…(2)选择一个变量为因变量进入dependent框(3)选择一个变量为自变量进入independent框(4)Enter:所选变量全部进入回归方程(默认方法)(二)statistics选项(1)基本统计量输出Estimates:默认.显示回归系数相关统计量.confidenceintervals:每个非标准化的回归系数95%的置信区间.Descriptive:各变量均值、标准差和相关系数单侧检验概率.Modelfit:默认.判定系数、估计标准误差、方差分析表、容忍度(2)Residual框中的残差分析Durbin-waston:D-W值casewisediagnostic:异常值(奇异值)检测(输出预测值及残差和标准化残差)三、SPSS的一元线性回归分析(三)plot选项:图形分析.Standardizeresidualplots:绘制残差序列直方图和累计概率图,检测残差的正态性绘制指定序列的散点图,检测残差的随机性、异方差性ZPRED:标准化预测值ZRESID:标准化残差SRESID:学生化残差produceallpartialplot:绘制因变量和所有自变量之间的散点图三、SPSS的一元线性回归分析一元线性回归分析应用举例例5.3:某公司正在决定是否为公司新的文字处理系统签定一项维修合同,公司管理人员认为,维修费用与该系统使用时间有关,现采集的每周使用时间(小时)和年维修费用(千美元)的统计资料如下。已知该公司每周使用文字处理系统的时间为30小时,如果维修合同中的费用是30000美元,你建议这个合同签吗?为什么?使用时间13102028321724314038年维修费用172230374730.532.5395140一元线性回归分析小结需要着重阅读和理解的输出结果:拟和优度R2的值方差分析表回归方程系数表观察残差图§5.3多元线性回归分析一、多元线性回归模型一个因变量与两个及两个以上自变量之间的回归描述因变量

y如何依赖于自变量

x1

,x2

,…,

xp

和误差项

的方程称为多元线性回归模型涉及p个自变量的多元线性回归模型可表示为

b0,b1,b2

,,bp是参数

是被称为误差项的随机变量

y是x1,,x2,,xp

的线性函数加上误差项

说明了包含在y里面但不能被p个自变量的线性关系所解释的变异性多元线性回归方程描述y的平均值或期望值如何依赖于

x1,x1

,…,xp的方程称为多元线性回归方程多元线性回归方程的形式为

E(y)=0+1x1

+2x2

+…+

pxp

b1,b2,,bp称为偏回归系数

bi

表示假定其他变量不变,当xi

每变动一个单位时,y的平均平均变动值二、多元线性回归分析的主要问题回归方程的评价回归方程的检验自变量筛选多重共线性问题多重决定系数判定系数回归平方和占总离差平方和的比例修正的多重决定系数由于增加自变量将影响到因变量中被估计的回归方程所解释的变异性的数量,为避免高估这一影响,需要用自变量的数目去修正R2的值用n表示观察值的数目,p表示自变量的数目,修正的多元判定系数的计算公式可表示为回归方程的显著性检验提出假设H0:12p=0(y与所有x的线性关系均不显著)H1:1,2,,p至少有一个不等于02.计算检验统计量F3.计算F统计量的值和相伴概率p4.判断:p<=a:拒绝H0,即所有回归系数与0有显著差异,自变量与因变量之间存在显著的线性关系。反之,不能拒绝H0回归系数的显著性检验如果F检验已经表明了回归模型总体上是显著的,那么回归系数的检验就是用来确定每一个单个的自变量xi

对因变量y的影响是否显著对每一个自变量都要单独进行检验应用t检验在多元线性回归中,回归方程的显著性检验不再等价于回归系数的显著性检验回归系数的显著性检验1、提出假设H0:βi

=0(自变量xi与

因变量y没有线性关系)H1:βi

0(自变量xi与

因变量y有线性关系)2、计算检验的统计量t3、逐个计算t统计量的值和相伴概率p4、逐个进行检验和判断:p<=a,拒绝H0,即:该回归系数与0有显著差异,该自变量与因变量之间存在显著的线性关系,应保留在回归方程中。反之,不能拒绝H0自变量筛选(一)自变量筛选的目的多元回归分析引入多个自变量.如果引入的自变量个数较少,则不能很好的说明因变量的变化;并非自变量引入越多越好,原因:有些自变量可能对因变量的解释没有贡献。自变量间可能存在较强的线性关系,即多重共线性.因而不能全部引入回归方程。自变量筛选(二)自变量向前筛选法(forward):即自变量不断进入回归方程的过程.首先,选择与因变量具有最高相关系数的自变量进入方程,并进行各种检验;其次,在剩余的自变量中寻找偏相关系数最高的变量进入回归方程,并进行检验;默认:回归系数检验的概率值小于PIN(0.05)才可以进入方程.反复上述步骤,直到没有可进入方程的自变量为止. 多元线性回归分析中的自变量筛选(三)自变量向后筛选法(backward):即:自变量不断剔除出回归方程的过程.首先,将所有自变量全部引入回归方程;其次,在一个或多个t值不显著的自变量中将t值最小的那个变量剔除出去,并重新拟和方程和进行检验;默认:回归系数检验值大于POUT(0.10),则剔除出方程如果新方程中所有变量的回归系数t值都是显著的,则变量筛选过程结束.否则,重复上述过程,直到无变量可剔除为止.多元线性回归分析中的自变量筛选(四)自变量逐步筛选法(stepwise):即:是“向前法”和“向后法”的结合。向前法只对进入方程的变量的回归系数进行显著性检验,而对已经进入方程的其他变量的回归系数不再进行显著性检验,即:变量一旦进入方程就不会被剔除随着变量的逐个引进,由于变量之间存在着一定程度的相关性,使得已经进入方程的变量其回归系数不再显著,因此会造成最后的回归方程可能包含不显著的变量。逐步筛选法则在变量的每一个阶段都考虑剔除一个变量的可能性。共线性检测在回归方程中,虽然各自变量对因变量是有意义的,但由于某些自变量彼此相关,这种自变量彼此间的相关叫存在共线性问题,必然给评价自变量的贡献带来困难。(一)共线性带来的主要问题回归方程检验显著但所有偏回归系数均检验不显著偏回归系数估计值大小或符号与常识不符定性分析对因变量肯定有显著影响的因素,在多元分析中检验不显著,不能纳入方程去除一个变量,偏回归系数估计值发生巨大变化线性回归分析中的共线性检测(二)共线性诊断自变量的容忍度(tolerance)和方差膨胀因子容忍度:Toli=1-Ri2.其中:Ri2是自变量xi与方程中其他自变量间的复相关系数的平方.容忍度越大则与方程中其他自变量的共线性越低,应进入方程。(据经验T<0.1一般认为具有多重共线性)方差膨胀因子(VIF):容忍度的倒数SPSS在回归方程建立过程中不断计算待进入方程自变量的容忍度,并显示目前的最小容忍度线性回归分析中的共线性检测(二)共线性诊断特征根如果自变量间确实存在较强的相关关系,那么它们之间必然存在信息重叠,于是可从这些自变量中提取出既能反映自变量信息(方差)又相互独立的因素(主成分)来.如果相当多维度的特征根约等于0,则可能有比较严重的共线性。条件指数0<k<10无多重共线性;k>=

30可能存在;k>=100严重多重共线性的对策重新抽取样本数据增大样本量多种自变量筛选方法结合(选择逐步回归法建方程)人为去除次要变量主成分回归分析(提取因子作为影响因素)进行岭回归。SPSS的多元线性回归分析(一)基本操作步骤(1)菜单选项:analyze→regression→linear…(2)选择一个变量为因变量进入dependent框(3)选择一个或多个变量为自变量进入independent框(4)选择多元回归分析的自变量筛选方法:Enter:所选变量全部进入回归方程(默认方法)Stepwise:逐步筛选;backward:向后筛选;forward:向前筛选多元线性回归分析操作(二)statistics选项(基本统计量输出)RegressionCoefficients:定义回归系数的输出情况。Residuals:用语选择输出残差诊断的信息(包括Durbin-Watson:自相关检验)Collinearity

dignostics:共线性诊断.多元线性回归分析操作(三)save选项:将回归分析结果保存到数据编辑窗口中或某磁盘文件中PredictedValue:预测值选项Residuals:可供存储的各种残差其他判断异常值和强影响点的统计量多元线性回归分析应用举例例5.4:为研究高等院校人文社会科学研究中立项课题数受那些因素的影响,收集某年31个省市自治区部分高校有关社科研究方面的数据,试利用线性回归方法进行分析。(数据见“高校科研研究.sav”)多元线性回归分析应用举例例5.5:某专门为年轻人制作肖像的公司计划在国内再开设几家分店,收集了目前已开设的分店的销售数据(y,万元)及分店所在城市的16岁以下人数(x1,万人)、人均可支配收入(x2,元)。(数据见“reg.sav”)试进行统计分析。多元线性回归分析应用举例例5.6:某大学教务处对学生的动手能力颇感兴趣,在研究中发现,学生的学习成绩特别是统计成绩同计算机有关。他们将学生分为两类,一类利用计算机学习统计,另一类不用计算机学统计。现随机从两类学生中抽取两个样本,包括统计成绩和过去的绩分点(数据见“统计成绩.sav”),在显著性水平0.05上,能否确定使用计算机学生的统计成绩高于不使用计算机

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论