统计学 马敏娜 王静敏课件第八章 相关与回归不带上机_第1页
统计学 马敏娜 王静敏课件第八章 相关与回归不带上机_第2页
统计学 马敏娜 王静敏课件第八章 相关与回归不带上机_第3页
统计学 马敏娜 王静敏课件第八章 相关与回归不带上机_第4页
统计学 马敏娜 王静敏课件第八章 相关与回归不带上机_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第八章相关与回归分析教学目的

了解相关分析的意义和作用掌握测定现象之间相关程度和建立回归模型的方法,能够理论联系实际,对相互联系、相互制约的社会经济现象进行科学的研究和预测。

第一节简单线性相关分析

前面我们介绍的统计方法和应用都只是对单个变量来讨论的。事实上,很多事物间的关系是彼此相互影响、相互依赖的。因此,我们研究的问题和采用的统计方法不能只局限于单个变量,还应进一步考察两个或两个以上变量间的关系。本章所要阐述的相关分析与回归分析就是研究两个或两个以上变量之间关系的分析方法。一、变量之间的关系

(一)函数关系(也称确定性关系)

即变量之间存在着确定的依存关系。其特点是对于一个或一组变量的每一确定的值,另一个变量都有惟一确定的值与之对应,这种关系能用函数来表达。例如对于商品的销售额,当价格P不变时,销售额Y由销售量X惟一确定,X与Y具有一一对应的确定性关系,可以用

这种函数来表达,这种关系就是函数关系。

(二)相关关系(也称非确定性关系)

即变量之间显然存在着密切的关系,但不是确定的依存关系。其特点是对于一个(或一组)变量的每一个确定的值,另一个变量有多个值与之对应,这种关系不能用普通函数来表达。例如单位面积上的粮食产量与施肥量有关,即在一定范围内,随着施肥量的增加,粮食产量也相应有所提高。但是施肥量相同时,产量也不相同,它是个随机变量,这种关系是不确定性的,不能用普通函数来表达,这种关系就是相关关系。在前面统计实例中,我们可以分析影响城乡居民收入的主要因素有经济发展、就业情况、消费情况等多种因素,他们之间的关系就是相关关系。

变量之间之所以呈现出相关关系,是由于影响一个变量的因素往往是很多的。例如单位面积上的粮食产量,除了与施肥量有关外,还受到品种、土质、降雨量等其它因素的影响,这就造成即使施肥量相同,其产量也并不完全相同的情况。除此之外,即使是具有确定性关系的变量,由于试验或观察中误差的影响,其表现形式也具有某种程度的不确定性。

二、相关关系的分类

相关关系按照不同的特征可以进行如下几方面的分类:

(一)单相关和复相关

从变量的多少来看,相关可以分为单相关和复相关。单相关也称一元相关,是指两个变量间的相关关系;复相关也称多元相关,是指三个或三个以上变量间的相关关系。

(二)线性相关和非线性相关

从变量之间相互关系的表现形式来看,相关可以分为线性相关和非线性相关。线性相关也称直线相关,是指当一个变量每增(减)1个单位,另一相关变量按一个近似固定的增(减)量变化。从散点图上看,其观测点的分布近似地表现为一条直线形式,见图8-1(a)与(b)所示;非线性相关也称曲线相关,是指当一个变量每增(减)1个单位,另一相关变量按不固定的增(减)量变化。从散点的分布近似地表现为某种曲线形式。见图8-2所示。

(三)正相关和负相关

从变量之间变化的方向来看,线性相关可以分为正相关和负相关。正相关是指相关变量按同一方向变化,即当一个变量的值增加时,另一个变量的值也相应地增加,见图8-1(a)所示;负相关是指相关变量按反方向变化,即当一个变量的值增加时,另一个变量的值却相应地减少,见图8-1(b)所示。

(四)完全相关、不相关和不完全相关

从变量之间关系的密切程度来看,相关可以分为完全相关、不相关和不完全相关。完全相关是指变量之间的关系是函数关系,见图8-3所示。不相关是指变量之间不存在关系,相互独立,见图8-4所示。不完全相关是指变量之间的关系介于完全相关和不相关之间,见图8-1和图8-2所示.

三、相关系数总体相关系数样本相关系数|r|=0不存在线性关系;|r|=1完全线性相关0<|r|<1不同程度线性相关(0-0.3微弱;0.3-0.5低度;

0.5-0.8显著;0.8-1高度)符号:r>0正相关;r<0负相关相关系数是标准化了的协方差样本相关系数r的显著性检验例7-1为研究股票收益率与风险之间的关系,抽选了15种股票,计算它们在1990-2003年间的平均收益率和风险如表7-1所示。试计算收益率与风险之间的相关系数。

名称代号平均收益率(X)风险(Y)X2Y2XY1234567891011121314158.2011.406.308.017.3410.7011.506.787.8616.5018.2615.8010.1511.9015.1030.4027.6022.1416.8617.5024.7016.3028.0033.0040.8029.4042.2022.8425.1033.2067.24129.9639.6964.1653.88114.49132.2545.9761.78272.25333.43249.64103.02141.64228.08924.16761.76490.18284.26306.25610.09691.69784.001089.001664.64864.361780.84521.67630.011102.24249.28314.64139.48135.05128.45264.29302.45189.84259.38673.20536.84666.76231.83298.69501.32∑165.80420.042037.3812505.154891.50

=0.6376结果说明平均收益与风险之间有中等程度的正向线性相关关系=(1)提出假设;(2)在成立时检验统计量及所服从的分布为

~t(n-2)

(3)当查自由度为13的t分布表得=2.16(4)由样本计算得因为|t|=2.98>=2.16,所以拒绝表明收益与风险间确实存在线性相关关系回归分析和相关分析的联系和区别1·理论和方法具有一致性;2·无相关就无回归,相关程度越高,回归越好;3·相关系数和回归系数方向一致,可以互相推算。1·相关分析是研究变量之间的共变关系,x与y对等,回归分析中,x与y要确定自变量和因变量;2·相关分析中x,y均为随机变量,回归分析中,只有y为随机变量;3·相关分析测定相关程度和方向,回归分析用回归模型进行预测和控制。第二节一元线性回归分析一、回归的概念和回归分析的特点“回归”(Regression)一词是由英国生物学家F·Galton在研究人体身高的遗传问题时首先提出的。二、一元线性回归模型

以家庭为单位,某种商品年需求量与该商品价格之间的一组数据如表所示。

从散点图可看出,这些数据描出的点分布在一条直线的附近,而不完全在一条直线上,这是由于Y还受到其它一些随机因素的影响。设这条直线为(7.5)这个方程称为一元线性回归方程,简称为回归方程。该方程所描述的直线,称为回归直线。这里在Y上加“∧”是为了区别于它的实际值Y。这样Y可以看成是由两部分叠加而成的。一部分是X的线性函数

,另一部分是随机因素记为

,得到如下模型:

(7.6)

(7.6)式被称为一元线性回归模型。其中X称为自变量或解释变量,Y称为因变量或被解释变量。

是未知参数,

称为回归系数,它表示X每变动一个单位时所引起的因变量Y的平均变动量。

称为随机项,它是由各种偶然因素、观测误差以及被忽略的其它影响因素所带来的随机误。通常假定

对(7.6)式两边求均值得

(7.7)

由(7.7)式可见由回归方程(7.5)式所确定的Y的估计值

是个平均值,是Y的均值

参数

通常是不可能精确求出来的,只能通过样本对其进行估计。

三、模型参数的估计

对于获得的n组样本观测值

(i=1,2,…,n),得到

的估计量设为

则回归方程(7.5)的估计方程为

(7.8)

这里仍用

表示与Y的区别,但注意与(7.5)中的

是有差别的,两者都是Y的估计值,因此用一个符号表示。通常也将(7.8)式称为样本回归方程。

将n组样本观测值

(i=1,2,…,n)代入(7.8)式得

(7.9)

我们希望由(7.9)式所求出的

值与实际观测值

的误差越小越好,也就是所求出的直线是拟和最优的直线,使所有的点都与直线最接近。

图7-6回归直线与样本点拟合示意图

考虑观测值

与估计值(或称拟和值)

的差

称其为残差用

表示,它反映回归直线对该样本点的拟合情况。残差越小,拟合的越好。反映所有点的拟合情况用残差平方和表示,记为Q,即

要使回归直线拟合最好,则应使残差平方和Q达到最小。于是要找一条直线使得最接近这n个样本点的问题就转化为要找出使Q达到最小值的

。由此所确定的

称为

的最小二乘估计量,这种方法被称为最小二乘法。

由于Q是

的二次函数,并且是非负的,由二次函数的性质可知,Q的最小值总是存在的。根据微积分学中极值原理,需使Q对

的一阶偏导数为零,即

(7.11)

可以证明最小二乘估计量,具有线性、无偏性和最小方差性。

在前面统计实例中,我们从经济理论上分析了影响城乡居民收入的主要因素,还可以通过上述公式依据时间数列资料计算得到城乡居民收入与经济发展、就业情况、消费情况等因素之间的具体回归方程式。为研究家庭收入和食品支出的关系,随机抽取了10个家庭的样本,得到数据见表7-3所示。试建立收入和支出之间的回归方程,并解释结果

于是,得到收入与支出的一元线性回归方程为

回归方程说明当收入为零时,也必须有217.26元的食品支出,这部分支出可视为基本支出或固定支出水平。收入每增加100元,支出就增加20.23元

(一)拟合优度检验判定系数(r2)是对回归模型拟合优度的评价。xy总偏差=回归偏差+剩余偏差r2表示全部偏差中有百分之几的偏差可由x与y的回归关系来解释。r的符号同b四、回归方程的统计检验(二)回归方程的显著性检验

检验统计量

F检验假设=或方差来源平方和自由度方差F值回归SSR1残差SSEn-2总和SSTn-1

一元线性回归方差分析表

五、利用回归方程进行预测

(一)点预测设Y与X的回归方程为

已知X的一特定值,利用回归方程求出的估计值为就是的预测值,两者之间的偏差为估计标准误(Sxy)二、区间预测给定x0,y0的置信度(1-α)的置信区间为:xyX00给定的x0越接,y值估计的精确度越高。第三节多元线性回归分析

一、多元线性回归模型假定因变量Y与自变量具有线性相关关系它们之间的线性回归模型可表示为(7.28)其中是k+1个未知参数,称为回归系数。回归系数表示在其它变量保持不变的情况下,自变量每变动一个单位时所引起的因变量Y的平均变动量(i=1,2,…,k)。称为随机项,同一元线性回归模型一样假定对一个实际问题,如果我们获得n组样本观测值(i=1,2,…,n),则多元线性回归模型(7.28)式可表达为(7.29)和(7.30)二、模型参数的估计

由样本观测值()(i=1,2,…,n)得到的估计量设为。则回归方程(7.30)的估计方程为(7.31)由最小二乘法可知,应使全部样本观测值与估计值的残差平方和最小。即使如下取最小值根据多元函数极值原理,是下列方程组的解将上述方程组整理成以下形式的正规方程组:其中:以上计算很多统计软件都可以通过计算机方便地得出结果三、回归方程的统计检验

与一元线性回归分析类似,在多元线性回归分析中也要对回归方程进行各方面的检验。(一)拟合优度检验同一元线性回归分析中拟合优度检验一样,将Y的总离差平方和SST分解为两部分:一部分为回归平方和SSR,另一部分为残差平方和SSE,即SST=SSE+SSR(7.36)(7.37)

(7.38)(7.39)与一元线性回归分析相同,也是用判定系数作为回归方程拟合优度的评价指标。其定义为由(7.40)式可知。越大,表示回归方程与样本观测值拟合得越好;反之,回归方程与样本观测值拟合越差。当然我们总希望越大越好。但是,的大小受回归方程中自变量个数多少的影响,自变量个数越多,就会越接近1,就这样容易引起一种错误:要使增大,增加模型中自变量的个数就行了。显然这样用来检验回归方程与样本观测值“拟合优度”是不合适的。为了消除自变量个数的影响,常采用调整的来判断拟合优度,调整的办法是用自由度进行修正。调整的判定系数定义为(7.41)

(7.40)在多元线性回归分析中,反映因变量Y与全体自变量X1,X2,…,Xk,间线性关系的统计指标称为复相关系数记为R。并且同一元线性相关回归分析中简单相关关系与判定系数之间的关系类似,多元线性回归分析中复相关系数与判定系数有如下关系(7.42)要注意复相关系数同简单相关系数的区别,复相关系数是衡量作为一个整体的与Y的线性关系的密切程度。(二)回归方程的显著性检验与一元线性回归分析一样,我们用任何一组数据()(i=1,2,…,n)通过最小二乘法都可以形式地求出一个回归方程。然而当变量Y与诸自变量间不存在线性关系或线性相关程度很小时,求出的回归方程是无意义的。因此,必须判断变量Y与间是否存在线性关系。同样用F检验方法,检验步骤如下:1.提出假设不同时为零,i=1,2,…,k这里检验Y是否与所有自变量这个整体间有线性关系。如果被接受,则表明Y与之间不存在线性关系。2.在成立时指出检验统计量及所服从的分布3.对于给定的显著性水平,查第一自由度k,第二自由度n-k-1的F分布表的临界值,使4.由样本观测值计算检验统计量F的观测值当时拒绝,有的把握认为Y与间存在线性关系。否则,可以认为Y与间不存在线性关系。~F(k,n-k-1)(7.43)通常可列成方差分析表计算,见表7-8所示。(三)回归系数的显著性检验在多元回归分析中,回归方程的显著性检验已经通过了,但并不意味着每个自变量对因变量的影响都是重要的。我们应将那些次要的、可有可无的变量从回归方程中剔除,重新建立更为简单的回归方程。这就需要我们对每个自变量进行显著性检验。如果某个自变量对Y的影响不显著,那么它在回归模型中,其前面的系数可以取零值。因此,检验变量对Y的影响是否显著就转化为检验假设是否成立的问题了(i=1,2,…,k)。在成立下检验统计量及所服从的分布为其中是矩阵对角线上的第i个元素。给定显著性水平,查自由度为n-k-1的t分布表得临界值若|t|≥,则拒绝,即认为显著不为零若|t|<,则接受,即认为显著为零。四、利用回归方程进行预测

根据样本观测值通过最小二乘法已求出回归方程若该回归方程通过了各项检验,就可以利用回归方程进行预测。(一)点预测已知自变量的一组特定值,利用已求出的回归方程求得的估计值为就是的预测值。估计标准误为:

(二)区间预测类似一元线性回归分析中求预测区间的方法,令可以得到多元线性回归区间为:当n较大时,与较接近时,我们可以用下面的近似区间:()置信水平为95%。(7.44)【例7-9】民航客运量的回归模型。为了研究民航客运量的变化趋势及其成因,我们以民航客运量作为因变量Y,以国民收入、消费额、铁路客运量、民航航线里程、来华旅游入境人数为影响民航客运量的主要因素。Y:民航客运量(万人),:国民收入(亿元),:消费额(亿元),:铁路客运量(万人),:民航航线里程(万公里),X5:旅游入境人数(万人)。数据资料见表7-9所示。1.求回归方程2.对所求回归方程进行统计检验并修改回归方程:3.当,,,时,求的点预测及预测区间(置信水平为95%)解:1.求回归方程根据表7-9中的统计数据,利用Excel软件对回归方程中未知参数进行最小二乘估计,得回归方程为:2.统计检验(1)拟合优度检验则这个结果说明回归方程拟合优度很好。(2)回归方程的显著性检验提出假设;不同时为零i=1,2,…,5,方差分析表见表7-10所示。SST=13843372,SSR=13791076对于,查第一自由度为5,第二自由度为10的F分布表得临界值。因为F=527.6309[h1]

>,拒绝,回归方程显著,说明自变量整体上与因变量有线性关系。(3)回归系数的显著性检验

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论