第九章相关与回归分析_第1页
第九章相关与回归分析_第2页
第九章相关与回归分析_第3页
第九章相关与回归分析_第4页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、统计学第九章相关与回归分析目录第九章相关与回归分析_ 2第一节相关分析_ 3一、相关关系的概念及分类_3二、相关关系的识别_4第二节 一元线性回归分析_ 11一、一元线性回归_11二、参数0,1 的最小二乘估计_12三、对一元回归方程的评价_14四、一元回归方程的预测区间_19第三节 多元线性回归分析_ 21一、多元线性回归模型_21二、多元回归模型的参数估计_23三、对多元线性回归方程的评价_23第四节 非线性回归模型_ 26一、直接代换法_26二、间接代换法_27英文摘要与关键词_ 29习 题 _ 29第 1页统计学第九章相关与回归分析第九章相关与回归分析通过本章的学习,我们应该知道:1.

2、如何判别相关关系2.回归分析的基本假定3.一元线性回归分析的内容4.如何做多元线性回归分析5.如何将非线性回归模型转换成线性模型第 2页统计学第九章相关与回归分析相关与回归分析是现代统计学中非常重要的内容,它在自然科学、管理科学和社会经济领域有着十分广泛的应用。本章从介绍相关分析与回归分析的基本概念与分类入手,以一元线性回归模型为基础,引出包括多元线性回归分析及非线性回归分析中模型识别、参数估计、模型检验与预测等内容。在分析变量之间关系的时,常用的基本模型有两个,一是相关模型(correlation model),一是回归模型(regression model) 。实践中到底使用哪种模型取决于

3、研究者的研究目的和数据的收集方式和条件。在相关分析中,变量 X 和 Y 都被视为随机变量,( X ,Y ) 服从二元分布;而回归分析中,变量x 不是随机变量,它被假定为一般变量,在事先选好的已知值中取值,变量Y 是随机变量,在变量 x 的给定取值处有相应的观测值。 例如,考虑太阳镜的日销售数量Y 与日最高气温X 之间的关系问题。 如果我们随机地选择 36 天,记录下这 36 天的太阳镜销售量和日最高气温( X i ,Yi ) ,i1, 36 ,它们是来自二维总体(随机变量 )(X ,Y)的独立同分布样本;在这种情况下,应用相关模型进行分析。另一情况是,假如研究者决定只在日最高气温 x 25、

4、30、 33、 35、36、 37、38、 39、40的那些天收集数据,在日最高气温为上述事先设定的温度的那些天中随机地抽取 36 天,然后测量记录下相应的太阳镜日销售量,如在每一个日最高气温取值处,随机抽取 4 天进行测量记录;此时变量 x 就不再是随机变量,变量 Y 是随机变量,往往应用回归模型进行分析。有时这种区别并不是这么明显。第一节相关分析一、相关关系的概念及分类(一)相关关系的概念无论是在自然界还是社会经济领域,一种现象与另一种现象之间往往存在着依存关系,当我们用变量来反映这些现象的特征时,便表现为变量之间的依存关系。如某种商品的销售额(y)与销售量( x)之间的关系、商品销售额

5、( y)与广告费支出 ( x)之间的关系以及粮食亩产量 ( y)与施肥量( x1)、降雨量( x2 ) 、温度( x3 )之间的关系等。统计学的主要研究对象是随机变量,在多个变量的时候,至少有一个变量是随机变量,因此我们对变量之间关系的分析是随机变量之间的关系或随机变量与确定变量之间的关系。变量之间的依存关系可以分为两种:一是函数关系,指变量之间保持的严格的、确定的关系。如圆的面积 (S)与半径之间的关系可表示为S = R2 ,当圆的半径R 的值取定后,其圆的面积也随之确定。二是相关关系,指变量之间保持着不确定的依存关系。即变量间关系不能用函数关系精确表达,一个变量的取值不能由另一个变量唯一确

6、定,当变量x 取某个值时,变量y 的取值可能有几个或无穷多个。例如人的身高与体重这两个变量,一般而言是相互依存的,但它们并不表现为确定的函数的关系。因为制约这两个变量的还有其他因素,如遗传因素、营养状况和运动水平等,以至于同一身高的人可以有不同的体重,同一体重的人又表现出不同身高。变量间的这种不严格的依存关系就构成了相关与回归分析的对象。(二)相关关系的分类1. 按相关的程度可分为完全相关、不完全相关和不相关第 3页统计学第九章相关与回归分析当一个变量的变化完全由另一个变量所决定时,称变量间的这种关系为为完全相关关系,这种严格的依存关系实际上就是函数关系。当两个变量的变化相互独立、互不影响时,

7、称这两个变量不相关(与下面的不线性相关或线性无关不同) ,实际上,这里的不相关就是 (概率中的 )独立,即变量间没有任何关系。当变量之间存在不严格的依存关系时,称为不完全相关。不完全相关关系是现实当中相关关系的主要表现形式,也是相关分析的主要研究对象。2. 按相关的方向可分为正相关和负相关当一个变量随着另一个变量的增加(减少)而增加(减少),即两者同向变化时,称为正相关,例如家庭收入与家庭支出之间的关系,一般随着家庭收入的增加,家庭支出也会随之增加。当一个变量随着另一个变量的增加(减少)而减少(增加),即两者反向变化时,称为负相关,如产品产量与单位成本之间的关系,单位成本会随着产量的增加而减少

8、。3. 按相关的形式可分为线性相关和非线性相关当变量之间的依存关系大致呈现为线性形式,即当一个变量变动一个单位时,另一个变量也按一个大致固定的增 (减) 量变动, 就称为线性相关。当变量间的关系不按固定比例变化时,就称之为非线性相关。上述的这些相关关系我们可以用图9.1 来示意。图 9.1 相关关系分类示意图4. 按研究变量的多少可分为单相关、偏相关和复相关两个变量之间的相关,称为单相关。一个变量与两个或两个以上其他变量之间的相关,称为复相关。在复相关的研究中,假定其他变量不变,专门研究其中两个变量之间的相关关系时称其为偏相关。变量之间的相关关系需要用相关分析方法来识别和判断。相关分析,就是借

9、助于图形和若干分析指标(如相关系数)对变量之间的依存关系的密切程度进行测定的过程。二、相关关系的识别(一)散点图识别变量间相关关系最简单的方法是图形法。所谓图形法,就是将所研究变量的观察值以散点的形式绘制在相应的坐标系中,通过它们呈现出的特征,来判断变量之间是否存在相关关系,以及相关的形式、相关的方向和相关的程度等。第 4页统计学第九章 相关与回归分析【例 9.1】在研究我国人均消费水平的问题时,把全国人均消费记为y,把人均国内生产总值(人均GDP)记为 x。根据数据集01 摘录样本数据 ( xi , yi ), i =1,2,9,如表 9.1 所示,问两者之间存在什么样的相关关系。表 9.1

10、我国人均国内生产总值与人均消费金额数据单位:元年份人均国内生产总值人均消费金额199548542236199655762641199760542834199863082972199965513138200070863397200176513609200282143818200391014089【解】根据表9.1 ,画出(xi , yi ), i=1 , 2, . , n 的散点图,见图 9.2 。图 9.2反映相关关系的散点图从上图中我们看到本例的样本数据(xi , yi )大致分别落在一条直线附近,这说明变量x 与 y 之间具有明显的线性相关关系。另外,所绘制的散点图呈现出从左至右的上升趋势

11、,它表明x 与 y 之间存在着一定的正相关关系,即随着人均GDP的上升,人均消费金额也会增加。图形法虽然有助于识别变量间的相关关系,但它无法对这种关系进行精确的计量。因此在初步判定变量间存在相关关系的基础上,通常还要计算相关关系的度量指标。下面我们缩小研究的范围,仅仅研究两个变量间的 线性 相关关系。两个变量间线性相关关系的度量指标有很多,应用最广泛的是相关系数。(二)相关系数相关系数是度量两个变量( 现象 ) 间线性关系强度的数量指标。我们先从直观上了解两个变量之间的相关系数的基本思想, 然后给出相关系数的一般的、正式的定义, 再考虑在不知道总体精确分布的情况下,如何由样本估计相关系数,最后

12、给出相关系数是否等于0 的检验方法。第 5页统计学第九章相关与回归分析1. 直线相关系数的设计思想为了从直观上了解相关系数的设计思想,我们考虑二元离散总体比较简单的一种情形。设二元离散总体 ( X ,Y ) 只有 N 对可能的取值(xi , yi ), i 1, N ,且 P( X xi , Y yi )1 / N ,由此可以计算出随机变量 X 和Y 均值分别为 E(X)X 和E(Y)Y ,方差分别为 Var ( X )22X 和 Var (Y)Y 。通过点( X , Y )画两条平行于 X 轴和 Y 轴的直线,将散点图分成四个部分,见图9.3 。图9.3 (X ,Y )分割散点图分布在、 部

13、分的点有 ( xiX )( yiY )0 ,分布在、 部分的点满足( xiX )( yiY ) 0 ,如 果 使 得 ( xiX )( yiY ) 为 较 大 正 值 的 点 (xi , yi ) 占 有 了 总 体 分 布 的 大 部 分 概 率 , 则 有N( xiX )( yiY ) / N 大于 0,且取值较大,这时全部可能的取值点中,大多数都分布在、部分,i 1所以 X 和 Y 是正相关;如果使得 ( xiX )( yiY) 为较大负值的点 ( xi , yi ) 占有了总体分布的大部分概率,N则有( xiX )( yiY ) / N 小于 0,且其绝对值较大,这时全部可能的取值点中

14、,大多数都分布在、i1部分,所以X 和 Y 是负相关;如果使得 (xiX )( yiY ) 为较大正值的点和较大负值的点占有的总体N分布的概率大致相等,则有( xiX )( yiY ) / N 很小或近似为 0,这时点不规则地( 有时是均匀地 )i 1N散布在四个部分,所以X 与 Y 不相关。因此( xiX )( yiY)/ N 可用来衡量X 与 Y 的相关方向与程i1N度,值大表示变量间关系密切,值小表示变量间关系不密切。但( xiX )( yiY) / N 的值与 X、Y的i 1计量单位及X、Y 自身的变异程度都有关,为了使不同总体的相关系数可以互相对比,将N( xiX )( yiY )

15、除以 X 与 Y 的标准差X 、 Y 以消除变量值大小和离差值大小不等的影响。这样得i1第 6页统计学第九章 相关与回归分析到,N( xiX )( yi Y ) / Ni 1.XYN在上述二元总体分布的假定下,( xiX )( yiY ) /N 正是 X 和 Y 的协方差 Cov ( X ,Y ) 。i 12. 相关系数与 Pearson 相关系数受到上述设计思想的启发,将其一般化为一般二维随机变量( 包括离散型和连续型) 。设二维随机变量( X ,Y ) 有二元分布,它可以视为总体;如果变量X 和 Y 的方差 Var ( X ) 和 Var (Y ) 都大于 0,则Cov( X ,Y )Co

16、rr ( X ,Y )( 9.1)Var ( X ) Var (Y )称为变量 X 和 Y 的相关系数或总体相关系数,常常简记为或 XY ,其中 Cov( X ,Y ) E( XEX )(YEY )为变量 X 和 Y 的协方差。可以证明: ( 1) | 1;(2)| 1 的充分必要条件是存在常数和 (0) 使得 YX 以概率 1 成立。上述性质说明:( 1)相关系数的取值范围是从 -1 到 1; | |的大小揭示了变量X 和 Y 间线性相关关系的强弱,变量间的线性相关关系程度随着| |的减小而减弱,1 时,变量X 和 Y 之间具有完全线性关系YX ,反之亦成立;0 说明变量 X 和 Y 之间没

17、有线性相关关系, 称为不线性相关或线性无关。( 2)的符号说明变量间的线性相关关系的方向,大于 0, X 和 Y 正线性相关,小于 0,X和Y 负线性相关。( 3)相关系数是说明线性联系程度的,相关系数很小的变量间可能存在非线性联系,如图 9.1 的第三幅图的变量间相关系数的绝对值是很小的。( 4)需要注意的是,变量 X 和 Y 不线性相关与 X 和 Y 独立是两个不同的概念。如果X 和Y 独立,则必有 X 和 Y 不线性相关;但是若X 和 Y 不线性相关,却不一定有X 和 Y 独立,它们之间可能存在着非线性相关关系。然而,若( X ,Y ) 服从二元正态分布, X 和 Y 不线性相关和独立是

18、等价的。如果二维随机变量 ( X ,Y ) 的概率分布完全知道,则变量X 和 Y 的相关系数可以由( 9.1)式计算出来,这只是理想的情况,实际问题中,我们往往不知道要研究变量( X , Y ) 的概率分布,有时至多知道它们的分布类型, 如仅知道服从二元正态分布,但分布中的参数却不清楚(如果 ( X ,Y ) 的概率分布完全知道了,它们间的关系自然很清楚了,就不需要做什么相关分析了!),这时将无法利用(9.1)式计算出相关系数 。此时要得到变量X 和 Y 的相关系数,可以从总体( X , Y ) 中随机地抽取容量为n 的样本( X1 ,Y1), ( Xn ,Yn ) ,它们独立、 同分布,和总

19、体 ( X ,Y ) 的分布相同, 如何由该样本估计总体变量X 和 Y的相关系数呢?变量 X 和 Y 间的相关系数,可以由样本通过第 7页统计学第九章相关与回归分析Rn( X iX )(YiY )i1( 9.2)nn( XiX )2(YiY )2i 1i 1进行估计。( 9.2)式中的统计量R 是随机变量 (注:相关系数只是一个常数,不是随机变量),它是的一致估计量 (相合估计量 ) 和渐进无偏估计量,称为样本相关系数。由于(9.2)式中的统计量R 是由英国统计学家皮尔逊 ( Pearson) 提出的,所以也常称为Pearson 相关系数。( 9.2)式可以化为以下形式nnnnXiYiXiYi

20、Ri 1i1i1( 9.3)nnnnn X i 2(X i )2n Yi 2( Yi )2i 1i 1i1i 1( 9.3 )式在计算时较为简单,经常用于实际计算。该公式看上去复杂,但由于没有了“积差”,计算要简便得多,另外该公式也便于用计算器上的统计功能计算。 把样本 (X1,Y1), ( X n ,Yn ) 的 观 测 值( x1, y1), , ( xn , yn ) 代入( 9.3)式即得相关系数的估计值nnnnxi yixiyiri 1i1i1(9.4)nnnnxi 2n(xi )2nyi2( yi )2i1i1i1i 1样本相关系数是根据样本观察值计算的,随着取样的不同,相关系数的

21、值也会有所变化。【例 9.2】根据例9.1 的资料,计算人均消费与人均国内生产总值的直线相关系数。【解】利用Excel 表计算出公式(9.4)中所需要的有关数据,见图9.4,再带入公式计算:图 9.4相关系数的计算表rnxyxyx2222nxyn y920229985261395287340.993861395 2943305766799454749628734 2第 8页统计学第九章相关与回归分析学生:哦,相关系数好大,这说明人均消费额与人均国内生产总值高度相关吧。教师:现在可不能这样说!至于原因嘛,且看下面分解。3. 相关系数的检验例 9.2 计算的 Pearson 相关系数 r 0.99

22、38相对于 0 来说已经相当大了,是否说明人均消费与人均国内生产总值之间线性相关呢?仅仅看这个数值是不能确定二者之间的线性相关关系的。不要忘了这个数值仅仅是基于9 个样本点计算出来的,它要受到抽样误差的影响。为了说明抽样误差对Pearson 相关系数的影响,请考虑图9.5 所给出的二元总体(图中给出了总体的全部取值),实际上这两个变量之间没有线性相关关系,总体相关系数0。假如现在从总体中抽取了一个随机样本,在图中用圆圈标出,这个样本显示所考虑的两个变量之间有很强的线性关系,根据这个样本观测值计算Pearson 相关系数为r0.98。在这种情况下,样本相关系数的值很大,但是两个总体变量却是独立的

23、。因此总体的相关系数需要经过正式的假设检验, 才能做出比较可靠、 科学的判断和结论。 在实际应用中, 一般都是根据样本数据计算 Pearson 相关系数,然后在对总体相关系数进行检验。图 9.5 从二元总体中抽取的一个随机样本假定总体变量( X ,Y ) 服从二元正态分布N( X, Y,X ,Y , ) , ( X1,Y1), ( X n ,Yn ) 是来自该总体的一个随机样本。 要检验的假设为 H 0 :0;H1 :0(备择假设或者为H1:0,H1:0)。则检验统计量为第 9页统计学第九章相关与回归分析R n2(9.5)tR21这里 R 为 (9.2) 或 (9.3)式中的统计量,可以证明在

24、原假设成立的条件下,(9.5)式的统计量t 服从自由度为n 2 的 t 分布。计算检验的 t 统计量 t r n2 / 1r 2,然后,根据给定的显著性水平和自由度 n 2 ,查 t 分布表中的相应临界值 t / 2 ,若 tt / 2 ,就拒绝原假设,接受备择假设,认为总体相关系数显著不为零,总体变量间确实存在线性相关关系;反之,则不能拒绝原假设。或者计算p 值 PH0 (| T |t ) ,如果 p 值小于显著性水平,则拒绝原假设。若备择假设为H 1 :0 ,则当 tt 时,拒绝原假设,接受备择假设,否则不能拒绝原假设;若备择假设为H 1 :0 ,则当 tt 时,拒绝原假设,接受备择假设,

25、否则不能拒绝原假设。【例 9.3】根据上例结果,检验在 =0.05 的显著性水平下,人均消费额与人均国内生产总值是否具有线性相关关系。【解】若取显著性水平0.05,查表得到临界值得:t / 2 (9 2) 2.3646 ,检验统计量的值为:0.993892t=23.6510.99382由于 tt / 2 ,所以否定原假设,接受备择假设,表明总体相关系数不为零,即人均国内生产总值与人均销售金额之间确实存在着线性相关关系。自己试着检验:人均消费额与人均国内生产总值是否具有正线性相关关系。由 (9.2)或 (9.3) 式可知,统计量R 是随机变量,它有自己的分布,但是R 的分布与总体( X,Y) 的

26、二元分布有关。另外,由(9.5)式可知, R 是 t 的函数,因此可以从 t 分布的分布密度推导出统计量R 的分布密度和分布函数, 这里不再给出R 的分布密度表达式。 本书附表九相关系数临界值表实际上就是统计量R 分布的临界值表。总体相关系数检验更简单的方法是,先计算Pearson 样本相关系数 r ,然后再查相关系数临界值表,查表时,要根据备择假设的情况和n 2 与,查出相应的临界值。(1)对备择假设 H 1 :0 ,若 rr / 2 (n2) ,则拒绝原假设, 接受备择假设,否则不能拒绝原假设;(2)对备择假设 H 1 :0 ,若 rr ( n2) ,则拒绝原假设,接受备择假设,否则不能拒

27、绝原假设;(3)对备择假设 H 1 :0 ,若 rr (n2) ,则拒绝原假设, 接受备择假设, 否则不能拒绝原假设。n9,0.05;因为是双边检验, 查得r / 2 (n 2) r0.025 (7)0.666,由于 |r|=0.9938>0.666 ,对于例 9.3,故人均国内生产总值与人均销售金额之间确实存在着线性相关关系。教师:从相关系数检验表中我们可以看出,在为0.05 的水平下,当样本容量为3 时,即使相关系数是 0.996,也不能认为总体的两个变量是相关的。而当样本容量为47 时,即使相关第10页统计学第九章相关与回归分析系数为 0.288,也可以认为总体的两个变量之间是相关

28、的。一切都是相对的哦。最后要给大家说明的是,线性相关关系与因果关系是不同的。相关系数很大未必表示变量间存在因果关系,也可能两个变量同时受第三个变量的影响而使它们有很强的相关。比如,人的肺活量与人的身高会呈现高度相关,其实肺活量和身高都受人的体重的影响,因此如果固定人的体重来研究肺活量与身高的关系,则会发现相关性很低。这涉及偏相关系数的计算。又如,我们计算 1980-2004 年期间某地猪肉销售量与感冒片销售量的相关系数, 它可能很大, 但这并不说明猪肉销售量与感冒片销售量之间有线性相关关系,因为它们都受这个时期人口增长因素的影响,把两个从逻辑上不存在联系的两个变量放在一起做相关分析,没有意义,

29、在统计上称之为“虚假相关”。第二节一元线性回归分析一元线性回归(linear regression)是描述两个变量之间相互联系的最简单的回归模型(regressionmodel )。一元线性回归虽然简单,但通过一元线性回归模型的建立过程,我们可以了解回归分析方法的基本统计思想以及它在经济问题研究中的应用原理。本节将详细讨论一元线性回归的建模思想、最小二乘估计及其性质、回归方程的有关检验、预测和控制的理论及应用。一、一元线性回归在许多问题的研究中,经常需要研究某一现象与影响它的某一最主要因素之间的关系。譬如,在消费问题的研究中,影响消费的因素很多,但我们可以只研究国内生产总值与消费额之间的关系,

30、因为它是影响消费的最主要因素;通常我们对所研究的问题首先要收集与它有关的n 组样本数据 ( xi , yi ),i=1,2, ,n。为了直观地发现样本数据的规律,我们把(xi , yi )看成是平面直角坐标系中的点,画出这n 个样本点的散点图。图9.2 就是我国人均国内生产总值与人均消费的散点图,而随后计算出的相关系数为0.9938,经过检验表明人均消费Y 与人均国内生产总值x 之间有着密切的相关关系。为进一步探讨变量Y 与 x 之间的统计规律性,我们用下面的数学模型来描述它。Y01 x(9.6)( 9.6)式将问题中变量Y 与 x 之间的关系用两个部分描述。一部分是由于x 的变化引起 Y 线

31、性变化的部分,即01 x ;另一部分是由其他一切随机因素引起的,记为。( 9.6)式表达了变量x 与 Y 之间密切相关,但密切程度又没有到由x 唯一确定 Y 的这种特殊关系。 ( 9.6)式称为变量 Y 对 x 的一元线性回归总体模型。一般我们称Y 为被解释变量,或因变量(dependent variable ); x 为解释变量,或自变量( independent variable )。式中0和1 是未知参数,称它们为回归系数(regression coefficient) 。表示其他随机因素的影响。在(9.6)式中一般假定是不可观测的随机误差,它是一个随机变量,通常假定服从期望为零、方差为

32、2 的正态分布。在这个假定下,进一步有Y x N ( 0 1 x,2 ) ,它表示在 x 给定时随机变量 Y 也服从正态分布,且E Y xx ,2。()01var(Y )第11页统计学第九章相关与回归分析( 9.6)式从平均意义上表达了变量 Y 与 x 的统计规律性。这一点在应用上非常重要,因为我们经常关心的正是这个平均值。 如上例在消费 Y 与国内生产总值 x 的研究中, 我们所关心的正是当国内生产总值达到某个水平时,人均消费能达到多少。由(9.6)式,只要估计出回归系数0 和1 就可以算出当x 已知时 E(Y)01 x 的值。通常E (Y x)01x(9.7)称为一元线性回归方程,在图形上

33、它表示一条截距为0 、斜率为 1 的直线,这条直线称为一元线性回归直线。如果 x=0,则 0 是 x=0 时 Y 概率分布的均值;1 表示 x 每变动一个单位时Y 概率分布的均值的变化,即当 x 每增加一个单位时,Y 平均变化 1 个单位。回归分析的主要任务之一就是通过n 样本观察值( xi , yi ),i=1,2, ,n,对 0 ,1 和2 进行估计。一般用?0 , ?1 和 ?2 分别表示0, 1和2的估计值;称?1 x(9.8)Y0为 Y 关于 x 的一元线性经验回归方程。二、参数0,1 的最小二乘估计为了由样本数据得到回归参数0 , 1 的估计值,我们将使用普通最小二乘估计(Ordi

34、naryLeast SquareEstimation ,简记为 OLSE) 。对每一个样本观察值(xi , yi ),最小二乘法的基本思想就是希望线性回归直线与所有样本数据点都比较靠近,即要观察值(Observed value) yi 与其期望值 E(Yi xxi )01xi 的差yi E(Yi x xi ) yi ( 01xi ) 越小越好 ( 图 9.6是这种思想的直观表现) ,为防止差值正负抵消,于是考虑这 n 个差值的平方和达到最小,即n1xi ) 2Q( 0,1 )( yi0(9.9)i 1达到最小。所谓最小二乘法,就是求?0 , ?1使得n2n2?yimin Q(0 ,1 )min

35、yi01xi(9.10)01 xii 1i1第12页统计学第九章相关与回归分析图 9.6一元线性回归示意图求出( 9.10 )式中的?0 和 ?1 是一个求极值点的问题,这只需求(9.9) 式的关于0 和1 的二元函数n1xi )2Q( 0,1 )( yi0极小值点。 由于 Q 是关于0 和1 的非负二次函数, 因而它的最小值总是i 1存在的。根据微积分中求极值的原理,让Q (0, 1) 分别对0 和1 求偏导,且令这两个偏导等于0 得Qnyi1xi0200i1Qn2yi01 xixi01i1经整理后,得正规方程组:n0xi1yixi0(xi2 ) 1xi yi求解正规方程组,得:?n xi

36、yixiyi( xix )( yiy)1nxi2xi2( xix)2?yi?xiy?(9.11)0n1n1 x(9.11) 式中的 ?0 , ?1 称为 0 ,1 的普通最小二乘估计,简称0 ,1 的 OLSE 。可以证明,0 ,1 的最小二乘估计?0 , ?1 满足无偏性,即E( ?0)0, E( ?1)1 。我们记 ei为实际观察值yi 与其估计值?n2eiyiyi称作残差平方和(Residual Sum of Square)。y?i01xi的偏差,称为残差,即ei? ,i1把 (9.11)式中关于?1 的表达式和上节(9.4)比较易得第13页统计学第九章 相关与回归分析n xi22n yi22xi?r或yir? 。n yi221n xi221yixi回归系数的最小二乘估计?1 和总体相关系数的估计Pearson相关系数 r 具有上述关系式,从而可知?1 和 r同号,这和我们的直觉也是一致的。事实上,可以证明总体相关系数和线性回归直线的斜率1 具有关系 Y r1 ,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论