第8章 相关与回归分析_第1页
第8章 相关与回归分析_第2页
第8章 相关与回归分析_第3页
第8章 相关与回归分析_第4页
第8章 相关与回归分析_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第七章第七章 相关与回归分析相关与回归分析 本章重点本章重点1 1、判断相关关系的方法、判断相关关系的方法2 2、相关系数的计算及其判断标准、相关系数的计算及其判断标准3 3、一元线性回归方程的求解、一元线性回归方程的求解1 1 相关分析相关分析一、相关关系的概念一、相关关系的概念(一)函数关系与相关关系(一)函数关系与相关关系1.1.函数关系函数关系 是指客观现象之间存在是指客观现象之间存在一种严格的数一种严格的数量依存关系量依存关系,这种关系可用数学表达式,这种关系可用数学表达式来表示:来表示:y=4x,xy=4x,x与与y y是一一对应的确定关是一一对应的确定关系。系。(1)变量间关系不

2、能用函数关系精确表达(2)一个变量的取值不能由另一个变量唯一确定(3)当变量x取某个值时,变量y的取值可能有几个(即一对多的关系)(即一对多的关系)2.2.相关关系相关关系 是一种不完全确定的相互依存关系。是一种不完全确定的相互依存关系。特点是:特点是:(一)按相关涉及的因素多少分为单相关(一)按相关涉及的因素多少分为单相关和复相关和复相关1.1.单相关:指两个因素之间的相关关单相关:指两个因素之间的相关关系。系。2.2.复(多元)相关:反映一个变量与复(多元)相关:反映一个变量与其他多个因素之间的相关关系。其他多个因素之间的相关关系。 偏相关:偏相关:指在某一现象和多种现象指在某一现象和多种

3、现象相关的场合,假定其他变量不变,其相关的场合,假定其他变量不变,其中的两个变量间的相关关系。中的两个变量间的相关关系。二、二、相关关系相关关系的种类的种类(二)按相关的方向分为正相关和负(二)按相关的方向分为正相关和负相关相关1.1.正相关:指两个变量按照相同的方向正相关:指两个变量按照相同的方向变化。或者说某个现象的数量增加变化。或者说某个现象的数量增加(或减少),另一个现象的数量也增(或减少),另一个现象的数量也增加(或减少)的现象。加(或减少)的现象。2.2.负相关:指两个变量按照相反的方向负相关:指两个变量按照相反的方向变化,或者说某个现象的数量增加变化,或者说某个现象的数量增加(或

4、减少),另一个现象的数量反而(或减少),另一个现象的数量反而减少(或增加)的现象。减少(或增加)的现象。(三)按相关的表现形式分为直线相关(三)按相关的表现形式分为直线相关和曲线相关和曲线相关1.1.直线相关:指一个变量的值会随另一个直线相关:指一个变量的值会随另一个变量值的变化发生大致均等的变动,从变量值的变化发生大致均等的变动,从图形上看,其观察点的发布近似于直线图形上看,其观察点的发布近似于直线形式。形式。2.2.曲线相关:指一个变量的值会随另一个曲线相关:指一个变量的值会随另一个变量值的变化发生变动,但这种变动不变量值的变化发生变动,但这种变动不是均等的,从图形上看,其观察点的发是均等

5、的,从图形上看,其观察点的发布表现为各种不同的曲线形式。布表现为各种不同的曲线形式。(四)按变量之间相关密切程度分:(四)按变量之间相关密切程度分:1.完全相关:指某变量的变化,另一变量有完全相关:指某变量的变化,另一变量有一确定的值对它对应。(函数关系)一确定的值对它对应。(函数关系)2.不完全相关:指两个变量之间有数量联系不完全相关:指两个变量之间有数量联系,但是数量是不确定的关系。,但是数量是不确定的关系。3.零相关:指两个现象在数量上完全独立,零相关:指两个现象在数量上完全独立,在一定的形式下,互不影响,互不相干的关在一定的形式下,互不影响,互不相干的关系。系。(“零相关零相关”不能称

6、为不能称为“不相关不相关”,因为事物的,因为事物的联系是绝对的,而孤立是相对的,只有在某联系是绝对的,而孤立是相对的,只有在某种形式下它才能互不影响互不相干。)种形式下它才能互不影响互不相干。)1 1、按相关的程度划分、按相关的程度划分完全相关完全相关不完全相关不完全相关无相关无相关2 2、按相关的方向划分、按相关的方向划分正相关正相关负相关负相关3 3、按相关的形式划分、按相关的形式划分线性相关线性相关非线性相关非线性相关4 4、按影响因素的多少划分、按影响因素的多少划分单相关单相关复相关复相关三、相关分析的内容三、相关分析的内容1.1.确定现象之间有无关系,以及相关确定现象之间有无关系,以

7、及相关的形态。的形态。(相关图、表)(相关图、表)2.2.确定现象之间相关关系的表现形式,确定现象之间相关关系的表现形式,选择合适的数学模型。选择合适的数学模型。(建立回归方(建立回归方程)程)3.3.判定现象之间相关关系的方向和密判定现象之间相关关系的方向和密切程度。切程度。(相关系数)(相关系数)2 2 简单线性相关分析简单线性相关分析一、相关表与相关图一、相关表与相关图主要有定性判断、相关表、相关图、相关系数。主要有定性判断、相关表、相关图、相关系数。 (一)相关表(一)相关表 它是把取得的数据以表的形式显示出来,据它是把取得的数据以表的形式显示出来,据此观察变量的走势是否有关,从而判断

8、有无相此观察变量的走势是否有关,从而判断有无相关关系的方法。关关系的方法。1.1.简单相关表简单相关表 其中一个变量的值按顺序排列,将两个变其中一个变量的值按顺序排列,将两个变量的值一一对应地填列在同一张表格上,量的值一一对应地填列在同一张表格上,即形即形成简单相关表。成简单相关表。适用于项目较少的情况适用于项目较少的情况。表表1 1 家庭人均月收入与家庭人均月支出简单相关表家庭人均月收入与家庭人均月支出简单相关表 家庭人均月收入(元)家庭人均月收入(元) 家庭人均月支出(元)家庭人均月支出(元)5155154804805155154904905195195005005305305005005

9、305305065065305305105105705705205205705705405406006005605606806805905902.2.分组相关表分组相关表 (1 1)单变量分组相关表)单变量分组相关表 它是一个变量分组,另一个变量不分它是一个变量分组,另一个变量不分组的相关表。组的相关表。 表表2 2 家庭人均月收入与家庭人均月支出家庭人均月收入与家庭人均月支出单变量分组相关表单变量分组相关表 家庭人均月收入家庭人均月收入(元)(元) 户数户数家庭人均月支出家庭人均月支出(元)(元) 5155152 24854855195191 15005005305303 3 505 505

10、3 3 5705702 25305306006001 15605606806801 1590590(2 2)双变量分组相关表)双变量分组相关表它是两个变量都分组的相关表。它是两个变量都分组的相关表。表表3 3 家庭人均月收入与家庭人均月支出家庭人均月收入与家庭人均月支出双变量分组相关表双变量分组相关表家庭人均月家庭人均月支出(元)支出(元) 家庭人均月收入(元)家庭人均月收入(元) 合计合计 510510570 570 570570630 630 630630690 690 475475500 500 2 22 2500500525 525 4 41 15 5525525550 550 1 1

11、1 1550550575 575 1 11 1575575600 600 1 11 1合计合计6 63 31 11010(二)(二)相关图相关图可通过可通过ExcelExcel绘制相关图(散点图)。绘制相关图(散点图)。二、相关系数二、相关系数(一)相关系数的概念(一)相关系数的概念 是在两变量直线相关的条件下,表示是在两变量直线相关的条件下,表示变量之间相关方向和程度的统计分析指变量之间相关方向和程度的统计分析指标,通常用标,通常用r r表示,称为直线相关系数。表示,称为直线相关系数。特点:特点:p175p175(二(二)相关系数的计算)相关系数的计算1.1.积差法计算相关系数积差法计算相关

12、系数(1 1)定义式)定义式 yyxxyyxxyxrxy2它是著名英国统计学家卡尔它是著名英国统计学家卡尔. .皮尔逊设计的。皮尔逊设计的。 式中,式中, 表示表示x x与与y y的协方差,的协方差, 和和 分别表示分别表示x x和和y y的标准差的标准差 。 xy2xy协方差的作用:协方差的作用:显示显示 x x 与与 y y 是正相关,还是负相关。相关是正相关,还是负相关。相关系数的正负完全取决于协方差的正负系数的正负完全取决于协方差的正负。协方。协方差差为正(负)时,为正(负)时,相关系数相关系数也为也为正正(负负),),表示两变量正相关(负相关)。表示两变量正相关(负相关)。显示显示

13、x x 与与 y y 相关程度的大小。协方差的绝相关程度的大小。协方差的绝对值小对值小,表示相关程度低;协方差的绝对值,表示相关程度低;协方差的绝对值大,表示相关程度高。大,表示相关程度高。2222 yynxxnyxxyn(2 2)常用计算式)常用计算式 由由xnxnx22ynyny222xynynxnxyyyxxyxxyr22221.1.2.2.2.2.相关系数的性质(判断标准)相关系数的性质(判断标准)(2 2)相关系数的取值范围在)相关系数的取值范围在-1-1至至1 1之间。之间。 其值大小反映两变量之间相关的密切程度。其值大小反映两变量之间相关的密切程度。(1 1)相关系数有正负号,分

14、别表示正相关和负相关。)相关系数有正负号,分别表示正相关和负相关。(3 3)1表明两变量完全直线相关;表明两变量完全直线相关;表明两变量不存在表明两变量不存在直线直线相关相关;0(4 4)r r小于小于0.30.3表示两变量之间无直线相关关系;表示两变量之间无直线相关关系;r r的的绝对值在绝对值在0.3-0.50.3-0.5之间表示两变量之间是低度相关;之间表示两变量之间是低度相关; r r的绝对值在的绝对值在0.5-0.80.5-0.8之间表示两变量之间是显著相关;之间表示两变量之间是显著相关; r r的绝对值在的绝对值在0.80.8以上表示两变量之间是高度相关。以上表示两变量之间是高度相

15、关。相关系数计算分析例题相关系数计算分析例题 880 880 36.4 36.4 62 62 86 86 80 80 110 110 115 115 132 132 135 135 160 160 1.2 1.2 2.0 2.0 3.1 3.1 3.8 3.8 5.0 5.0 6.1 6.1 7.2 7.2 8.0 8.0 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8生产费用生产费用 月产量月产量序序 号号xy2x2yxy1.441.444.004.009.619.6114.4414.4425.0025.0017.2117.2151.8451.8464.0064.00207.

16、54207.543844384473967396640064001210012100132251322517424174241822518225256002560010421410421474.474.4172.0172.0248.0248.0418.0418.0575.0575.0805.2805.2972.0972.01280.01280.04544.64544.6例:例:7-2-17-2-1,54.207, 8,880, 4 .362xnyx6 .4544,1042142xyy根据计算结果可知:根据计算结果可知:则相关系数为:则相关系数为:2222 yynxxnyxxyn22880104

17、21484 .3654.20788804 .366 .4544897. 0说明产量和生产费用之间存在高度正相关。说明产量和生产费用之间存在高度正相关。3 3 一元线性回归分析一元线性回归分析一、回归分析的概念一、回归分析的概念 回归分析是对具有相关关系的两个回归分析是对具有相关关系的两个或两个以上变量之间的数量变化的一般或两个以上变量之间的数量变化的一般关系进行测定,确立一个相应的数学表关系进行测定,确立一个相应的数学表达式,以便从一个已知量来推测另一个达式,以便从一个已知量来推测另一个未知量,为估算预测提供一个重要的方未知量,为估算预测提供一个重要的方法。法。二、一元线性回归分析的特点二、一

18、元线性回归分析的特点(一)两变量之间不是对等关系(一)两变量之间不是对等关系(二)两变量的性质不同(二)两变量的性质不同 (三)方程式反映的是变量之间具体的(三)方程式反映的是变量之间具体的数量变动规律,而不是抽象的系数。数量变动规律,而不是抽象的系数。关系关系 区别:区别: (1 1)相关分析不说明)相关分析不说明谁是自变量,谁是因谁是自变量,谁是因变量,而回归分析必变量,而回归分析必须首先要确定谁是自须首先要确定谁是自变量,谁是因变量,变量,谁是因变量,不能颠倒。不能颠倒。(2 2)相关分析中的每)相关分析中的每一个变量都是随机的;一个变量都是随机的;回归分析中自变量是回归分析中自变量是一

19、般变量,因变量是一般变量,因变量是随机变量。随机变量。 联系:联系: (1 1)相关分析要依)相关分析要依靠回归分析来表现靠回归分析来表现现象数量相关的具现象数量相关的具体形式;体形式;(2 2)回归分析必须)回归分析必须依靠相关关系来表依靠相关关系来表明变量之间的密切明变量之间的密切程度。程度。 因此,相关分析与因此,相关分析与回归分析被合称为回归分析被合称为广义的相关分析。广义的相关分析。二、回二、回 归归 的的 种种 类类按自变量的个数分按自变量的个数分一元回归一元回归多元回归多元回归按回归线的形态分按回归线的形态分线性回归线性回归非线性回归非线性回归回归模型的类型回归模型多元回归一元回

20、归线性回归非线性回归线性回归非线性回归四、一元线性回归模型四、一元线性回归模型bxayc1.1.方程式为:方程式为:自变量归系数:直线的斜率,又称回直线的起点值,:因变量的估计值:,xbayc( (一)概念及方程式一)概念及方程式2.2.回归系数回归系数b b的经济涵义:的经济涵义:当自变量变动一个单位时,因变量的平当自变量变动一个单位时,因变量的平均变动值。均变动值。b0b0,x x与与y y为正相关为正相关b0b0,x x与与y y为负相关为负相关 3. 3.条件:所分析的两个变量之间必须存条件:所分析的两个变量之间必须存在相关关系,且相关程度在显著相关以在相关关系,且相关程度在显著相关以

21、上。上。1.1.用最小平方法配合回归直线的基本思想是:用最小平方法配合回归直线的基本思想是:在所有的相关点中,通过数学方法配合一条在所有的相关点中,通过数学方法配合一条较为理想的直线,这条直线必须满足两点:较为理想的直线,这条直线必须满足两点: 原数列与趋势线的离差平方和为最小值。即原数列与趋势线的离差平方和为最小值。即最小值2)(cyy原数列与趋势线的离差之和为零。即:原数列与趋势线的离差之和为零。即:0)(cyy(三)(三)a a、b b的最小二乘估计的最小二乘估计 最小值22)()(bxayyybxaycc通过求通过求a a、b b的一阶偏导可得到求解的一阶偏导可得到求解a a、b b的

22、联立的联立方程:方程:xyxbxayxbna2解联立方程得到:解联立方程得到:2222)(xxnyxxynxxyxxybnxbnyxbya2.2.具体求解具体求解 简单直线回归方程建立的步骤为:简单直线回归方程建立的步骤为: 确确定自变量定自变量x x和因变量和因变量y y; 计计算算x x2 2、xyxy、xx、yy、xx2 2、xyxy; 代代入公式,先求入公式,先求b b,再求,再求a a。 4544.6 4544.6 74.4 74.4 172.0 172.0 248.0 248.0 418.0 418.0 575.0 575.0 805.2 805.2 972.0 972.0 128

23、0.0 1280.0104214104214 3844 3844 7396 7396 6400 6400 12100 12100 13225 13225 17424 17424 18225 18225 25600 25600207.54207.54 1.44 1.44 4.00 4.00 9.61 9.61 14.44 14.44 25.00 25.00 37.21 37.21 51.84 51.84 64.00 64.00 880 880 36.4 36.4 62 62 86 86 80 80 110 110 115 115 132 132 135 135 160 160 1.2 1.2 2

24、.0 2.0 3.1 3.1 3.8 3.8 5.0 5.0 6.1 6.1 7.2 7.2 8.0 8.0 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8生产费用生产费用 月产量月产量序序 号号2xxy2yxy例例7-3-17-3-1:根据例:根据例7-2-17-2-1资料配合生产费用依产量变化资料配合生产费用依产量变化的回归方程:的回归方程:,54.207, 8,880, 4 .362xnyx6 .4544,1042142xyy22)(xxnyxxynb9 .124 .3654.20788804 .366 .454482nxbnya3 .5184 .369 .128880则

25、回归方程为则回归方程为: :xyc9 .123 .51 回归系数回归系数b b的涵义的涵义: :月产量每增加月产量每增加10001000吨吨, ,生产费用生产费用平均增加平均增加12.912.9万元。万元。计算得到:计算得到: 670 82 90 100 114 140 144耐用消费品销售额(万元)耐用消费品销售额(万元) 2820 340 380 450 470 560 620人均年收入(元)人均年收入(元)合计合计200020012002200320042005时间时间要求:分析两变量相关密切程度,若为显著相要求:分析两变量相关密切程度,若为显著相关以上,则对两变量进行回归分析关以上,则

26、对两变量进行回归分析。例例7-3-27-3-2某地区人均年收入与耐用消费品销售额资料如下某地区人均年收入与耐用消费品销售额资料如下:答案:相关系数答案:相关系数 r = 0.98 r = 0.98 b = 0.24 b = 0.24 a = -1.13 a = -1.13 y yc c = -1.13+0.24x = -1.13+0.24x 回归系数回归系数b b的涵义的涵义: :人均年收入每增加人均年收入每增加一元一元, ,耐用消费品销售额平均增加耐用消费品销售额平均增加0.240.24万万元。元。回归系数与相关系数的关系回归系数与相关系数的关系因为:因为:2222 yynxxnyxxyn2

27、2)(xxnyxxynb所以:所以:xyrb五、回归估计标准误差五、回归估计标准误差(一)(一)估计标准误差的概念及计算公式估计标准误差的概念及计算公式2)(2nyyScyx22nxybyaySyx或者,它是实际值与估计值的标准差,即以回它是实际值与估计值的标准差,即以回归直线为中心反映各实际值与估计值之归直线为中心反映各实际值与估计值之间的平均差异程度。其定义式如下:间的平均差异程度。其定义式如下:例例7-4-17-4-1:用两种方法计算例:用两种方法计算例7-3-17-3-1中的估计标准误差中的估计标准误差解:法一,根据公式解:法一,根据公式 有有2)(2nyyScyxy y6262868

28、68080110110115115132132135135160160y yc c66.866.877.177.191.391.3100.100.3 3115.115.8 8130.130.0 0144.144.2 2154.154.5 523.023.04 4 79.21 79.21 127.127.69 69 94.094.09 9 0.64 0.64 4 4 84.684.64 4 30.30.25 25 ycy2则有则有 = = 60. 82856.443yxS法二,根据公式有法二,根据公式有22nxybyaySyx286 .45449 .128803 .51104214yxS61.

29、8(二)相关系数与估计标准误差的关系(二)相关系数与估计标准误差的关系yxSry211.1.相关系数与估计标准误差呈反向关系相关系数与估计标准误差呈反向关系 2. 2.当变量之间为完全直线相关时,估计当变量之间为完全直线相关时,估计标准误差为标准误差为0 0 3. 3.当变量之间不存在直线相关时,估计当变量之间不存在直线相关时,估计标准误差等于标准误差等于y y的标准差,即回归直线和的标准差,即回归直线和y y数列的平均线重合数列的平均线重合(三)一元线性回归估计模型的区间估计(三)一元线性回归估计模型的区间估计 p184 p184六、曲线回归模型(指数曲线)六、曲线回归模型(指数曲线) p1

30、84 p184第七章第七章 相关与回归相关与回归一、判一、判 断断 对对 错错1 1、施肥量与收获率是正相关关系。(、施肥量与收获率是正相关关系。( )2 2、利用一个回归方程,两个变量可以互相推算。、利用一个回归方程,两个变量可以互相推算。 ( )3 3、若直线回归方程为、若直线回归方程为 y yc c= 170 2.5X= 170 2.5X, 则变量则变量X X与与Y Y之间存在负相关关系。之间存在负相关关系。 ( )4 4、回归系数和相关系数都可用来判断现象之间相关的密切程度。、回归系数和相关系数都可用来判断现象之间相关的密切程度。 ( )5 5、当两个变量之间存在曲线相关时,回归估计标

31、准误差为、当两个变量之间存在曲线相关时,回归估计标准误差为1 1 。(。( )6 6、完全相关的关系就是函数关系。、完全相关的关系就是函数关系。 ( ) 第七章第七章 相关与回归相关与回归二、选二、选 择择 题题1 1、相关系数的取值范围是(、相关系数的取值范围是( ) A A、r r B B、1r0 1r0 C C、0r1 D0r1 D、1r1 1r1 2 2、相关系数与回归系数的符号(、相关系数与回归系数的符号( ) A A、相同、相同 B B、相反、相反 C C、视、视a a的符号而定的符号而定 D D、不能确定、不能确定 3 3、如果相关系数为、如果相关系数为0 0,则二变量(,则二变量( ) A A、无直线相关、无直线相关 B B、负线性相关、负线性相关 C C、可能存在曲线相关、可能存在曲线相关 D D、无线性相关,也无非线性相关、无线性相关,也无非线性相关 4 4、变量、变量X X对变量对变量Y Y的相关关系,同变量的相

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论