第十二章相关和回归分析_第1页
第十二章相关和回归分析_第2页
第十二章相关和回归分析_第3页
第十二章相关和回归分析_第4页
第十二章相关和回归分析_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十二章相关和回归分析1第十二章相关和回归分析第一节相关分析概述一、相关分析的概念客观世界中的许多现象都存在着一定的联系,它们互相依赖、互相制约、互相作用。离开周围的现象而孤立存在的现象几乎是没有的。现象之间的这种数量联系,归纳起来,可以分为两种类型:一种是确定性关系,也称函数关系,另一种是非确定性关系,则称为相关关系。2函数关系是现象间存在的确定的依存关系,即对自变量的任何一个值,因变量都有唯一确定的值与之相对应。函数关系通常可以用数学公式确切地表示出来。如圆的面积:

S=πR2,相关关系一般是不确定的,当一个现象发生变化时,另一个现象也相应地发生变化,但其变化的数值是不固定的,往往会出现几个不同的数值与其对应,这些数值分布在它们的平均数周围。例如,当取身高为1.70米进行调查时,凡是身高为1.70米的人的体重却不完全相等。在统计上,把现象之间存在的这种不确定的关系称为相关关系,从数量上研究现象之间相关关系的理论和方法称为相关分析。3

二、相关关系的种类相关关系按分类依据不同,可作不同的分类。(一)按相关的程度不同可分为:

不相关不完全相关完全相关

如果两个现象互不影响,彼此的数量变化互相独立,这种关系称为不相关。

如果一个现象的数量变化由另一个现象的数量变化所唯一确定,这时两个现象间的关系称为完全相关。这种情况下,相关关系实际是函数关系.所以,函数关系是相关关系的一种特殊情况。

如果两个现象之间的关系介于不相关和完全相关之间,就称为不完全相关。大多数相关现象都是不完全相关现象。4(二)按相关的方向不同可分为:

正相关负相关两个相关现象之间,呈现出同方向变化趋势时,这种相关关系称为正相关。如消费支出与工资收入之间就是正相关;两个现象之间呈现出反方向变化趋势时,这种相关关系称为负相关。如劳动生产率与单位产品成本之间的关系,就是负相关。(三)按相关的形式不同可分为:

直线相关曲线相关当相关的一个变量的数值增加时,另一个变量的数值相应地发生大致均等的增加,如果将各对观测值画成散点图,则各个观测点的分布近似地表现为直线形式.这种相关关系称为直线相关;当相关的一个变量变动时,另一个变量也相应的发生变动,但这种变动是不均等的,从散点图上看,各个观测点的分布近似地表现为各种不同的曲线,这种相关关系就称为曲线相关。

5(四)按相关因素的多少不同可分为:单相关复相关单相关是指两个变量之间的相关关系。一个变量和两个或两个以上变量之间的相关关系,称为复相关。6

三、相关分析的步骤(一)根据对客观现象的定性认识来进行判断现象之间的相关性(二)绘制相关图(三)计算相关系数(四)进行回归分析——确定回归直线(五)计算估计标准误差(六)进行回归估计或回归预测7第二节相关图和相关系数一、相关图相关图又叫散点图、散布图。它是利用直角坐标系,将其中一个变量的值放在横轴上,另一变量的值放在纵轴上,将两变量的对应值用坐标点画出来,通过观察相关点的分布情况,大致可以看出两个变量之间有无相关关系及相关的类型和密切程度。两个变量之间相关关系的各种类型,都可以用相关图表示出来,如图12-1、图12-2、图12-3所示。8图12-1相关图9图12-2正、负相关图10图123直线、非直线相关图11二、相关系数(一)相关系数的概念从相关图可以判断两个现象之间是否相关以及相关的类型,但不能准确判断相关的密切程度。要判断现象之间相关关系的密切程度,需要计算相关系数。相关系数是在直线相关条件下说明两个变量之间相关关系密切程度的统计指标。严格地讲,应称为直线相关系数,一般简称相关系数。12

(二)相关系数的计算

积差式简捷式13(三)相关系数密切程度的判断一般情况下,通过相关系数判断相关关系密切程度的标准如下:当r=0时,X和Y不相关。或者不存在直线相关,但可能存在其他类型的关系。当0<∣r∣≤0.3时,X和Y为微弱相关。当0.3<∣r∣≤0.5时,X和Y为低度相关。当0.5<∣r∣≤0.8时,X和Y为中度相关。当0.8<∣r∣<1时,X和Y为高度相关。当∣r∣

=1时,X和Y完全相关,即所有散点完全在一条直线上,也就是函数关系。

14图12-5r等于1的计算图为什么所有观测都在一条直线上时,X和Y完全相关。我们可以通过图12-5来加以证明。15三、相关系数的显著性检验

由于上述相关系数是根据样本数据计算得到的。因而带有一定的随机性。样本容量越小,其随机性越大,如当变量X和Y各具有两个数据时,其相关系数总是1,但这并不等于两个变量就是完全相关。因此,相关系数也有一个显著性检验问题,即通过样本相关系数r对总体相关系数ρ是否等于零作出判断。为了便于检验,特制定了相关系数检验表,我们可以根据不同显著性水平α以及自由度(n-2)直接查相关系数检验表(见附表4)。若|r|超过了表中的临界值,则认为总体相关系数ρ不等于零,变量X和Y之间的直线相关关系在α水平上是显著的,否则,不显著。由表12-1所计算的相关系数r=0.9565,取α=0.01查相关系数检验表(见附表4),有R0.01(8)=0.765,因|r|=0.9565>0.765,故认为X和Y之间的直线相关系数在α=0.01水平上是显著的。这个结果与一般教材上采用t检验法是相一致的。16四、等级相关系数及其检验

(一)等级相关系数前述采用积差法计算的相关系数r,它只适用于变量X、Y的观测值(即数量标志值)都是基数的情况下,而且是属于线性关系。如果两个变量X和Y是以品质标志出现的,要研究它们之间是否具有相关关系,则要用等级相关系数进行计算。等级相关系数侧重于观测的现象的等级,就是把有关联的品质标志按其表现排列成等级次序(当然数量标志值更容易排成等级次序),形成X、Y的两个序数数列,再测定这两个序数数列之间的相关程度,用这种方法计算的相关指标,就叫等级相关系数。这里主要介绍统计学家斯皮尔曼相关系数,用rs表示。

17斯皮尔曼相关系数公式:式中:n为样本容量;D为序列等级之差。利用斯皮尔曼等级相关系数还可以判断多元线性回归模型中是否存在异方差性,18(二)等级相关系数的显著性检验等级相关系数的显著性检验在样本容量不大时,同样可以查询斯皮尔曼等级相关系数临界值表(见附表5),若|rs|的值超过了表中的监界值,则认为总体等级相关系数不等于零,变量X和Y的等级之间具有一定的相关关系。19五、计算相关系数应注意的问题(1)变量Y与变量X的相关系数等于变量X与变量Y的相关系数。(2)简单相关系数只适用于两个变量之间的相关关系。若变量为三个或三个以上时,就要用复相关系数(或偏相关系系数)计算。(3)相关系数r只适用于简单直线相关,如果是非直线相关,就要用相关指数。(4)相关分析要以定性分析为前提,不然就会出现“虚拟相关”。因为相关系数仅从统计上表明现象之间的数量关系,即使相关系数接近1也并不意味着数据之间存在着因果关系。20第三节回归分析一、回归分析的概念研究现象之间的一般关系求出关系方程式,由此对某变量的一个值推断出另一变量的可能值,就称为回归分析。它实际上是将相关现象间不确定、不规则的数量关系一般化、规则化。采用的方法是配合直线或曲线,用这条直线或曲线来代表现象之间的一般数量关系。这条直线或曲线叫回归直线或回归曲线,它们的方程式叫直线回归方程或曲线回归方程。21二、回归分析与相关分析的联系与区别回归分析与相关分析有着密切的联系。一方面相关分析是回归分析的基础和前提,如果缺少相关分析,没有从定性上说明现象间是否具有相关关系,没有对相关关系的密切程度作出判断,就不能进行回归分析,即使勉强进行了回归分析,也是没有意义的;另一方面,回归分析是相关分析的深入和继续,仅仅说明现象间具有密切的相关关系是不够的,只有进行了回归分析,拟合了回归方程,才可能进行有关的分析和预测,相关分析才有实际的意义。因此,如果仅有回归分析而缺少相关分析,将会因为缺乏必要的基础和前提而影响回归分析的可靠性,如果仅有相关分析而缺少回归分析,就犹如有头无尾,没有实际结果而降低相关分析的意义。只有把两者结合起来,才能达到统计分析的目的。22回归分析与相关分析有如下区别:(1)相关分析所研究的两个变量是对等关系,不反映任何自变量和因变量的关系;回归分析所研究的两个变量不是对等关系,必须根据研究目的,先确定一个为自变量,另一个为因变量。(2)对两个变量X和Y来说,相关分析只能计算出一个反映两变量间相关密切程度的相关系数;回归分析可分别建立两个不同的回归方程。以X为自变量,Y为因变量,可以得出Y关于X的回归方程。以Y为自变量,以X为因变量,可得出X关于Y的回归方程。(3)相关分析对资料的要求是,两个变量都必须是随机的;而回归分析对资料的要求是,自变量是给定的,因变量是随机的。23三、简单回归直线的确定(一)简单直线回归的概念通过计算相关系数,可以判断两个变量之间直线相关的密切程度,但不能说明它们之间因果关系的数量表现。简单直线回归就是对具有显著直线相关的两个变量间数量变化的一般关系进行测定,配合一个直线回归方程,以便于估计或预测的统计方法。进行简单直线回归之前,需根据研究目的确定哪个变量是自变量,哪个是因变量。根据因果关系不同,可以求得两个回归方程,它们的一般形式如下:

Y关于X的回归方程:=a+bXX关于Y的回归方程:=c+dY式中:a、b、c、d都是待定系数;a和c是两条直线的截距;b和d是直线的斜率,称为回归系数。必须注意的是,配合回归直线的前提条件是,两个变量之间确实存在高度的直线相关关系。否则,配合回归直线毫无意义。因此,在进行回归分析之前,应先计算相关系数,在相关程度较高的条件下,再配合回归直线。24

(二)回归直线的配合方法对回归直线的要求:它能最好地代表已知散点的平均轨迹。借助数学上的最小平方法,将能得出一条最优的、唯一的回归直线。设所求的回归直线方程为:=a+bx最小平方法要求各散点到该直线的垂直距离的平方和最小,即通过数学推导可得到两个方程式组成的标准方程组解这个方程组,得将a,b的值代入回归方程式,即得所求回归方程。

25(三)回归系数b和弹性系数η的关系回归系数b在宏观经济中称之为边际效用系数,它与弹性系数有直接的关系。回归系数表明自变量每增加一个单位时,因变量平均增加多少个单位。弹性系数是因变量增长速度与自变量增长速度的比率,表明自变量每增长1%时,因变量平均来说增长的百分数。在直线回归方程中,ΔY/ΔX就是斜率,即b=ΔY/ΔX26图12-6回归直线图27四、估计标准误差所谓估计值的代表性,就是回归直线的代表性。一般常用估计标准误差来说明回归直线代表性的大小。估计标准误差就是实际值和估计值的平均离差。若估计标准误差愈大,则回归直线的代表性愈小;若估计标准误差愈小,则回归直线的代表性愈大。因此,只有估计标准误差小的情况下,用回归方程作估计或预测才有实用价值。估计标准误差的计算公式为:其中:SYX代表估计标准误差;Y是因变量实际值;

n-2称为自由度。但当实际观测值甚多且数值较大时,根据上述公式计算估计标准误差十分麻烦,一般运用下述公式计算28五、回归估计的置信区间根据回归方程和估计标准误差,可以进一步对因变量Y进行估计或预测,其中应用最广泛的就是建立回归估计的置信区间,借以确定回归方程预测的范围。由于Y和X之间是一种相关关系,当样本容量较大且X取值在附近时,我们可以认为,对于每一个给定的X=X0对应的Y值有好多个,从理论上讲,这些Y以Y0为中心形成一个正态分布,而对应每一个给定的X的Y值的形成的正态分布可假定它们是同方差的。这样,由样本数据求出估计值的标准误差以后,就可以利用标准化正态分布曲线下的面积查对表,以一定的概率和精确度对总体回归值作出区间估计。29图12-7回归直线的置信区间30第四节样本的拟合优度前面我们虽然计算了样本相关系数,但由于因变量Y的观测值是随机变动的,它和回归直线之间总是存在一定的离差,而相关系数并不能解释存在这种变差的原因;另外,我们虽然估计了回归直线,但并没有说明这条回归直线与样本观测值拟合得怎么样,也就是说需要测量观测值与该回归直线的离差。如果观测值离直线越近,拟合的程度就越好。否则,拟合的程度就越差。31图12-8样本的拟合并不是最佳32一、变差分析图129变差分析图33二、拟合优度的度量——可决系数我们定义R2称为可决系数,它可以用来度量样本回归直线拟合的优劣程度。可以证明,R2的取值一般在0~1之间。当R2=1时,观测值和回归直线完全拟合;当R2=0时,说明因变量Y和自变量X之间完全没有直线相关关系,可能有其他曲线相关关系。在实际工作中,R2也可用下式计算:34三、相关系数、可决系数、回归系数以及估计标准误差之间的关系如果变量X和Y之间确实存在着相关关系且呈一元回归直线形式,可以证明,可决系数就是相关系数的平方,即R2=r2。也就是说,尽管X和Y的相关系数很高,在前例中,r=0.9565但r2=0.91,说明X只能解释Y的总变差中的91%,而R2=0.91也说明了这样的意思。所以,不论相关关系呈现为直线或是曲线形式,我们都可用R2的平方根来测定相关关系的密切程度。其计算公式为:R习惯上称作相关指数。(2)可以证明相关系数r、回归系数b、估计标准误差SYX以及X的标准差σX、Y的标准差σY之间在数值计算上有如下的换算关系:35第五节非线性回归分析建立曲线回归方程时,关键的问题是要确定关系的类型和形式,除根据一定的专业知识等判断外,通过描散点图,并观察散点图的形状和特点来进行判断,也是一种重要的方法。一元非线性回归方程的配合方法是,确定回归方程的类型和形式后,通过变量变换,将非线性模型转化为线性模型,用最小平方法求出所得线性模型的待定系数,再将原变量代回,则得所求非线性回归方程。下面介绍几种常见的一元非线性回归模型。36一、指数曲线模型Y=abx式中a、b为待定系数。对上式两边取对数,得lnY=lna+Xlnb作变量代换,令Y’=lnY,a’=lna,b’=lnb则得一元线性回归模型Y’=a’+b’X再用最小平方法求a’、b’的值,再查反对数表求出a、b的值,即可求得原指数曲线回归方程=abx。二、双曲线回归模型1/Y=a+b/X在上式中,令Y’=1/Y,X’=1/X,则得到如下线性回归模型Y’=a+bX’再用最小平方法求出a、b的值,即可求得原双曲线回归方程。37三、幂函数曲线Y=dXb上式两边取对数,得lnY=lnd+blnX令Y’=lnYa=lndX’=lnX则有Y′=a+bX’再用最小平方法求出a、b的值,再查反对数表求出d,同样可求得原幂函数曲线方程。四、龚伯茨(Gompertz)曲线Y=debx(略)五、逻辑斯蒂(Logistic)曲线Y=1/(a+be-x)(略)38第六节相关及回归分析的计算机实现下面我们根据表12-1的数据运用spss软件计算相关系数,绘制散点图,拟合回归方程,实现相关和回归分析。一、操作步骤(一)建立数据文件定义变量可支配收入与储蓄存款余额,并相应输入表12-1的数据。(二)计算相关系数(1)Analyze→Correlate→Bivariate,弹出BivariateCorrelations对话框,将变量添加到右侧的Variables栏内,然后在下方选择相关系数的种类,软件默认为Pearson相关系数,计算机显示界面见图12-10。39图12-10BivariateCorrelations(两变量相关)对话框40(2)由表12-4可知,变量的Pearson(皮尔逊)相关系数为0.957。标记**表示在1%的显著水平下相关系数显著。表12-4为二维相关系数表,变量可支配收入与储蓄存款余额自身的相关系数为1。41(三)作散点图,判断两变量是否存在线性关系点击Graph→Scatter/Dot,弹出Scatter/Dot菜单,选择散点图的种类,此题可选择Simple(简单散点图)。图12-11Scatter/Dot(散点类型选择)菜单42

(2)点击Define,出现GraphScatterplot对话框。确定散点图坐标轴,将储蓄存款余额添加到Y轴,可支配收入添加到X轴,点击OK,输出散点图。图12-12GraphScatterplot(散点图变量选择)对话框43图12-13散点图44(四)计算回归方程由散点图与相关系数的计算结果可知,变量储蓄存款余额与可支配收入之间存在明显的线性关系。由此我们可以对模型进行估计。点击Analyze→Regression→

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论