统计学线性回归分析ppt课件_第1页
统计学线性回归分析ppt课件_第2页
统计学线性回归分析ppt课件_第3页
统计学线性回归分析ppt课件_第4页
统计学线性回归分析ppt课件_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第十章第十章 线性回归分析线性回归分析 变量之间的关系有两种: 确定型的函数关系 不确定型的函数关系 这里主要研究不确定型的函数关系,如收入这里主要研究不确定型的函数关系,如收入与受教育程度之间的关系,等等问题。与受教育程度之间的关系,等等问题。 但它们但它们之间存在明显的相互关系称为相关关系),又之间存在明显的相互关系称为相关关系),又是不确定的。是不确定的。回归分析是研究随机变量之间相关关系的统计方回归分析是研究随机变量之间相关关系的统计方法。其研究一个被解释变量因变量与一个或法。其研究一个被解释变量因变量与一个或多个解释变量自变量之间的统计关系。多个解释变量自变量之间的统计关系。例:人均

2、收入例:人均收入 X 与人均食品消费支出与人均食品消费支出 Y 的散点的散点图的关系如图。图的关系如图。 1.一元线性回归是研究一个自变量与一个因变量的统计关系。一一. 一元线性回归一元线性回归人均收入人均收入X人人均均食食品品支支出出 YuXY 21 这两个变量之间的不确定关系,可以用下式表示:这两个变量之间的不确定关系,可以用下式表示:式中,人均食品消费支出式中,人均食品消费支出Y 是被解释变量,是被解释变量, 人均收入人均收入 X 是解释变量,是解释变量,1, 2是待估计参数;是待估计参数;u 是随机干扰项是随机干扰项, 且与且与 X 无关,无关, 它反映了它反映了 Y 被被 X 解释的

3、不确定性。解释的不确定性。如果随机干扰项如果随机干扰项 u 的均值为的均值为 0, 对上式求条件均值,对上式求条件均值,有有XXYE21)( 反映出从反映出从“平均角度看,是确定性关系。平均角度看,是确定性关系。例:地区的多孩率与人均国民收入的散例:地区的多孩率与人均国民收入的散点图如下:点图如下:uLnXY 21 人均收入人均收入X多多孩孩率率 Y这两个变量之间的不确定关系,大致可以用下式表示:这两个变量之间的不确定关系,大致可以用下式表示:设设 Z =Ln X ,可将上式线性关系为:,可将上式线性关系为:uZY 21 线性回归的任务:就是用恰当的方法,估计出参线性回归的任务:就是用恰当的方

4、法,估计出参数数 1, 2 ,并且使估计出来的参数具有良好,并且使估计出来的参数具有良好的统计特征,所以,回归问题从某种视角看,视的统计特征,所以,回归问题从某种视角看,视同参数估计问题。同参数估计问题。如果把如果把X,Y的样本观测值代到线性回归方程中,就得的样本观测值代到线性回归方程中,就得到到iiiuXY 21 i =1,2, ,n, n为样本容量.从重复抽样的角度看,从重复抽样的角度看, Xi,Yi也可以视为随机变量。也可以视为随机变量。2. 高斯基本假设对于线性回归模型对于线性回归模型iiiuXY 21 i =1,2, ,n, n为样本容量.高斯基本假设如下高斯基本假设如下:ui 为随

5、机变量为随机变量 ( 本假设成立本假设成立, 因为我们研究就是不确定因为我们研究就是不确定关系关系).E(ui) =0, 随机干扰项的期望值等于零随机干扰项的期望值等于零(本假设成立本假设成立, 如果如果其均值不是零其均值不是零, 可以把它并入到可以把它并入到 1 中中). Var(ui) =2u , 随机干扰项的方差等于常数随机干扰项的方差等于常数(本假设有本假设有可能不成立可能不成立, 以后讨论不成立时如何处理以后讨论不成立时如何处理). E(uiuj)=0 (ij) 随机干扰项协方差等于零随机干扰项协方差等于零(本假设本假设有可能不成立有可能不成立, 以后讨论不成立时如何处理以后讨论不成

6、立时如何处理).(5) ui 服从服从 N(0, 2u )分布分布;(6) E(Xiuj)=0, 对对Xi 的性质有两种解释的性质有两种解释: a. Xi 视为随机变量视为随机变量, 但与但与uj无关无关, 所以所以(6)成立成立. b. Xi 视为确定型变量视为确定型变量, 所以所以(6)也成立也成立.3. 普通最小二乘法普通最小二乘法 (OLS)设线性回归模型设线性回归模型XY21 uXY 21 其中其中2,1 为为1, 2 的估计值的估计值, 那么那么 Y 的计算值的计算值, 可以可以用下式表达用下式表达:所要求出待估参数所要求出待估参数 , 要使要使 Y 与其计算值与其计算值之间之间的

7、的“误差平方和最小误差平方和最小. 即:即: 使得使得2,1 22122)()(iiiXYeYYQ 最小最小. 为此为此, 分别求分别求Q 对对 的偏导的偏导, 并令其为零并令其为零:2,1 0 ,021 QQ由上两式由上两式, 就可求出待估参数就可求出待估参数 的值的值.2,1 4. 所求参数的计算公式所求参数的计算公式YYyXXxxyxiiiiiii ,22其其中中, XY21 2 的另一个表达式为的另一个表达式为:xxyxxxyxTT,2 例例: ::在上述家庭可支配收入:在上述家庭可支配收入- -消费支出例中,对于所抽消费支出例中,对于所抽出的一组样本数,参数估计的计算可通过下面的表进

8、行。出的一组样本数,参数估计的计算可通过下面的表进行。 参数估计的计算表参数估计的计算表 iX iY ix iy iiyx 2ix 2iy 2iX 2iY 1 800 594 -1350 -973 1314090 1822500 947508 640000 352836 2 1100 638 -1050 -929 975870 1102500 863784 1210000 407044 3 1400 1122 -750 -445 334050 562500 198381 1960000 1258884 4 1700 1155 -450 -412 185580 202500 170074 289

9、0000 1334025 5 2000 1408 -150 -159 23910 22500 25408 4000000 1982464 6 2300 1595 150 28 4140 22500 762 5290000 2544025 7 2600 1969 450 402 180720 202500 161283 6760000 3876961 8 2900 2078 750 511 382950 562500 260712 8410000 4318084 9 3200 2585 1050 1018 1068480 1102500 1035510 10240000 6682225 10 3

10、500 2530 1350 963 1299510 1822500 926599 12250000 6400900 求和 21500 15674 5769300 7425000 4590020 53650000 29157448 平均 2150 1567 777. 07425000576930021iiixyx172.1032150777. 0156700XY因而,由该样本估计的回归方程为: iiXY777. 0172.1035. 几何解释几何解释残差向量残差向量 e =Y = (Y-Y) - (-Y) = y- 向量向量 y, , e 三者之间关系如图所示三者之间关系如图所示,普通最小二乘法

11、要使残差平方和普通最小二乘法要使残差平方和 e2i 最小最小, 也就是也就是要使要使 e 的长度尽可能小的长度尽可能小, 等价于在几何上等价于在几何上 e x . 或或者说者说, 的长度应当是的长度应当是 y 在在 x 上的投影长度上的投影长度.yxexy2 二二. 多元线性回归多元线性回归 本节要研究一个被解释变量本节要研究一个被解释变量 (因变量因变量) , 多个解释变量多个解释变量(自自变量变量)的线性模型的线性模型, 即即uXXYkk2211. 基本假设基本假设 u 为随机变量向量为随机变量向量 ; E(u) =0; cov(u) =E(u uT) = 2u In (包含了两个其本假设

12、:包含了两个其本假设:一是不存在序列相关,即一是不存在序列相关,即 ij 时时, cov(ui, uj)=E(uiuj)=0;二是具有同方差性二是具有同方差性(齐次方差性齐次方差性), 即即Var(ui) =2u ).(4) u N(0, 2u In ) (5) E(XTu) =0 , 或者或者, X 为确定矩阵为确定矩阵 nknkkXXXXXXX2222112111(6) 秩秩 ( X ) = k, ( k f(k-1, n-k), 就表示回归效果是好的效果是好的, 在在 水平下水平下, 已解释方差已解释方差(Y的变化中已经解的变化中已经解释的部分释的部分)明显大于未解释方差明显大于未解释方

13、差(Y的变化中尚未解释的部的变化中尚未解释的部分分).8. F与与 R2的关系的关系F 统计量与统计量与R2的统计量的关系的统计量的关系, 可以从下式的推演中看到可以从下式的推演中看到:推演中用到勾股定理:推演中用到勾股定理: 。222222111/RRkknkknyeyyF222 yye一个二元线性回归的例子一个二元线性回归的例子销售额、人口数和年人均收入数据地区编号销售额(万元)y人口数(万人) x1年人均收入(元)x21234567891033.335.527.630.431.953.135.629.035.134.532.429.126.331.229.240.729.823.028.

14、226.91250165014501310131015801490152016201570一个二元线性回归的例子一个二元线性回归的例子(Excel 输出的结果输出的结果)SUMMARY OUTPUTSUMMARY OUTPUT回归统计回归统计Multiple RMultiple R0.9681590250.968159025R SquareR Square0.9373318970.937331897Adjusted R SquareAdjusted R Square 0.9194267250.919426725标准误差标准误差2.0100502792.010050279观测值观测值1010方差

15、分析方差分析dfdfSSSSMSMSF FSignificance FSignificance F回归分析回归分析2 2 423.01789423.01789 211.50894211.50894 52.3497852.349786.1612E-056.1612E-05残差残差7 7 28.28211528.282115 4.04030214.0403021总计总计9 9451.3451.3CoefficientsCoefficients 标准误差标准误差t Statt StatP-valueP-valueLower 95%Lower 95%Upper 95%Upper 95%Intercep

16、tIntercept-38.8251694-38.8251694 8.47859118.4785911 -4.579201-4.579201 0.0025460.002546-58.873837-58.873837-18.7765-18.7765X Variable 1X Variable 11.3406936181.340693618 0.14331590.1433159 9.35481479.3548147 3.31E-053.31E-051.001805621.001805621.6795821.679582X Variable 2X Variable 20.0228022930.022

17、802293 0.00475420.0047542 4.79621724.7962172 0.0019750.0019750.011560350.011560350.0340440.03404411)1 (122pnnRR调整1) (12pnyySniiy一个二元线性回归的例子一个二元线性回归的例子(计算机输出结果解释计算机输出结果解释)销售额与人口数和年人均收入的二元回归方程为销售额与人口数和年人均收入的二元回归方程为210228. 0341. 18252.38xxy一个含有四个变量的回归9. 校正的判定系数校正的判定系数Adjusted R2)统计量统计量R2中不含有自由度。所谓校正的判定

18、系数,就是中不含有自由度。所谓校正的判定系数,就是指指“考虑了自由度的判定系数考虑了自由度的判定系数R2adj”。其定义如下:。其定义如下:knnRnykneRadj1)1 (1)1/()/(1222这样,这样,R2adj剔除了自由度的影响。剔除了自由度的影响。10. 回归系数的回归系数的 T 检验检验假设假设Ho: j=0;备择假设备择假设H1: j 0 (即即 Ho 不成立不成立).用统计量用统计量:服从服从t (n-k), 可以完成上述假可以完成上述假设检验设检验.当当 时时, H1成立成立, 即即 j 显著异于显著异于0.jjjt( n 5 时时, 若取若取 =0.05, 则当则当t

19、2 时时, 有有H1 成立成立, 即即j显著异于显著异于0 ) 针对回归系数的针对回归系数的 t 统计量的显著性检验统计量的显著性检验, 决定了相应的变决定了相应的变量能否作为解释变量进入回归方程量能否作为解释变量进入回归方程.)(2kntt注意注意:1)( , jjTjjjjuXXccj11. 回归系数的置信区间回归系数的置信区间得到区间得到区间 为为 水平上水平上的置信区间的置信区间.95.0)()(025.0025.0kntkntp例例: =0.05, 那么那么给定一置信水平给定一置信水平 , 用统计量用统计量jjjt)( , )(2/2/kntknt即即95.0)( )(025.002

20、5.0kntkntp12. 偏相关系数的另一种几何解释偏相关系数的另一种几何解释定义定义: 偏相关系数是在其他变量不变的情况下偏相关系数是在其他变量不变的情况下, 任意两任意两个变量之间的相关系数个变量之间的相关系数.例如例如: 知知 uXXYkk221偏相关系数偏相关系数kXXYXr,32表示排除表示排除X3, , Xk影影响响后的后的Y和和X2之间的相关关系之间的相关关系, 其计算过程如下其计算过程如下:(1) 求中心化数据求中心化数据y 对中心化数据对中心化数据x3, , xk的的OLS估计值估计值:ikkiixxy33 要求出上式结果要求出上式结果, 需经两个步骤需经两个步骤:a. 用

21、中心化数据用中心化数据 y 对中心化数据对中心化数据x3, , xk 回归回归, 求出回求出回归系数归系数. ,3kb. 依托已经求出的回归系数依托已经求出的回归系数 和由样本得和由样本得到的中心化数据到的中心化数据, 计算计算 . ,3kiy(2) 令令 (从从 yi 中剔除中剔除 x3, , xk 的影响的影响) .*iiiyyy(3) 求求 x2 对对x3, , xk的最小二乘估计的最小二乘估计值值:ikkiixxx332要求出上式结果要求出上式结果, 同样需经两个步骤同样需经两个步骤: 先用先用x2 对对x3, , xk回归回归, 求出回归系数求出回归系数 , 然后求出然后求出 .k,32ix(4令令 (从从 中剔除中剔除 x3, , xk 的影响的影响).22*2iiixxx2ix(5) 求得偏相关系数如下求得偏相关系数如下:iiiiiiiXXYXxyxyrk2*22*2*,32偏相关系数的几何解释偏相关系数的几何解释: 在下图中在下图中, 偏相关系数是图中偏相关系数是图中 角的余弦

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论