第二章线性回归的基本思想_第1页
第二章线性回归的基本思想_第2页
第二章线性回归的基本思想_第3页
第二章线性回归的基本思想_第4页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二章线性回归的基本思想:双变量线性回归(也称为一元回归)本章目的:介绍一元线性回归的基本思想和最小二乘法,的估计及检验要求:掌握回归的含义、总体回归方程、 随机误差项、 样本回归函数、 残差项、 最小二乘法、正规方程的含义;掌握一元回归最小二乘估计量的证明,会运用 OLS 估计量公式得到回归方程。教学时数: 4 学时第一节 一些重要概念一、总体回归直线(PRF)和样本回归直线 (SRF)第一节我们学习了消费函数模型:Y01 Xu案例:假设一个村庄人口总体由60 户家庭组成,研究每周家庭消费支出(Y )和每周税后可支配收入( X )之间的关系。这样我们如果知道每周的家庭收入,即可预测每周消费支

2、出的总体平均水平。数据如下:X80100120140160180200220240280Y每 周50657980102110120135137150家 庭60708493107115136137145152消 费65749095110120140140155175支出70809410311613014415216517875859810811813514515717518088113125140160189185115162191合计32546244570767875068510439661211平均6577891011131251371491611731、 模型完整写成: Yi01 X iu

3、i,随机误差项 ui :是不可观测的随机事件,当X1 5 80 时, u15 -15、 -10、0、 5、 15,我们假设: E ui0 ,所以直线01 X i 表示的是收入为X i 时,收入决定的消费的平均值。X i :我们为了简便假设为确定型变量200160noitpm120usnoc804040 80 120 160 200 240 280 320 incom2、总体回归直线(population Regression line )、总体回归函数总体回归函数: Yi01 X iui总体回归直线:E y | xxif xi12 xi其中1 ,2 表示回归系数;1 表示截距项;2 表示斜率系

4、数。3、 PRF 的随机设定由上例子可以知道, 对于每个家庭的消费支出并不一定收入成正比, 把个别的消费围绕的与期望的偏差表述如下:uiyiE y | xi则yif xi ui12 xiui4、随即干扰项的意义:除X 外的所因素( 1)可能代表了模型中并未包括的变量的影响。如上例中,家庭中的儿童数、性别、宗教、教育和地区。我们为什么在模型中不把这些变量也包括呢?这是节省原则,也就是说模型的要简单。这些变量,有的是对因变量的解释能力不大,不重要;另一方面是我们没其数据。( 2)人类行为的内在随机性也一定会发生。人类行为是理性的,也不可以完全可预测。( 3)随机误差项可能代表了测量误差:数据处理中

5、产生的误差。( 4)错误的函数形式。二、样本回归函数(SPF)在上一节中,我们学习参数估计的公式,结果是多少:?0 24.45455 、?1 0.509091 ,那么公式算出的结果是经济系统中变量间的真实关系吗?这是一个估计。1、 PRF 是一个理想化的概念,实际上人们很少知道他们所研究的总体。( 1) 总体的数据不可能全部得到( 2) 也不需要知道全部信息2、样本回归线:用样本得出的估计样本当我们的例子中的60 是总体,现在如果我们只有10 个数据,而得出的如上面的值那么这条 f(x)= 24.45455+0.509091x能是 PRF 吗??X? 叫做( 1)样本回归线:Y01i , Yi

6、Yi 的预测值i( 2) ?0 , ?1 :一个样本,一个结果从算法来讲是随机变量。三、要点:总体回归函数、样本回归函数第二节一元线性回归模型的估计原理(最小二乘法)一、最小二乘法(OLS):如何估计1 ,0 , ?0 的 ?1的公式1、原理:残差平方和最小我们是通过样本来得到总体回归方程Yi01 X iui ,的估计:样本回归方程?对1 ,?对Yi01 X i 。其中, Yi 叫做 Yi 的估计值,如果1, 00 估计得准确,则 YiYi 估计也准确。(1)由 Y?i 准确估计 Yi 的方法:残差最小eiuiYi? Yi?X iA X i ,Yi?定义:-Yi-(01),表示样本点到拟合点

7、BX i , Yi的或 ? 距离。(2)残差最小的方法:和最小:直接相加,如图L1 和L0平方和最小:正、负全部相加nn2ei(Yi ( ?0?1 X i ) ,i 1i 1问: Q 的大小由什么决定?(样本已知,的残差和应是一样的。einn2Q=ei(Yi ( ?0?1 X i )i 1i 1Yi , X i 已定)nn2?2、参数的推导程:求当Qmin =ei(Yi( ?0 ?1 X i ) 的、01i 1i 1Q ?0, ?12Yi?X i0?010Q ?0, ?12Yi?0( 1.2.1)?01 X i X i1?0Yin?X i可得Yi01 X i012 ( 1.2.2)?YiX i

8、0X i YiX iX i01 Xi01上述式子称为正规方程组。简记为:ei0ei X i0最后可解得:nX i YiX iYi?1nX i22X i( 1.2.3)?1Yi?X i0nb13、化简 设 X1X i ,Y1Yinnxi X iX , yiYiY?xi yi可将( 1.2.3)化简为:1xi2( 1.2.4)?Y?0b1 X(1.2.3 )和( 1.2.4 )给出的估计量称为最小二乘估计量(OLSE )注: ?1 的化简过程:X iYin2 XYnX i Yinxi yinxi yin(xiX )( yiYi )n(xi yiyi Xxi YXY )XyiYxinXY 00n2

9、XYnxi yin 2 XYnX2n(xiX ) 2n( x22XxiX 2 )n x 20nX 2 iii问题: 1、ei0和 ui0 一样吗?前者是最小二乘法的要求,后者是n 个 u i 的和。?和 Yi 均值:2、 Yi?( Y-?X )+?X )Yi01 X i11 X i,( 0Y b1?+?( X i -X ),两边求和取平均即得。所以: Yi Y13、 yi ?1xi?X?Y01i减 Y01 Xi?X i 时平均对消费的影响,个别由ui 决定。4、 Yi01 X i 的含义:当收入是二、对误差项 ui的假定假定 1: E ui0假定 2: V uiE ui22=常数同方差假定假定

10、 3: COV ui,u j0, ij序列相关假定上述三个假定称为GM 假定,即高斯马尔可夫假定;假定 4: COV ui, X j0, :只要 X i 是非随机变量,就有COV ui , X j0, 反之不成立。假定 1 和 4 书上写成一个E ui X i0假定 5、 ui N u, 2问题: 1、假设 1 真实吗?Yi01 X i ui 。如果 E ui,则令 uiiYi01 X ii这和原模型有多少区别呢?2、同方差的含义:不同收入水平u i 对消费的影响程度是一样的,而实际上一般是随X 的增大而增大。3、有了这些假定你对Yi 和 X i 的关系模型是 Yi01 X iui 还有哪些疑

11、问?线性也是一个假定。三、估计量的统计性质(BLUE: best linear unbiasedestimator)1 线性。所谓线性是指估计式?0 和 ?1 为 Yi 的函数。(1) ?1 为 Yi 的线性函数:xi yixi YiY=xi YiY xi?1 =2=xi2xi2xi2xi请同学们证明?1 ki Yiki ( yiY )kiyi又因为xi0 ,令 kixi,ki0xi2则 ?1=ki Yi ( 1.2.5);由于 Yi01 X iui 可以证明?1 1 + ki ui注:由 Yi01 X iui 减 Y 0 +1X i + u得 yi1 xiuiu ,把 yi1 xiuiu 代

12、入 ?1xi yi,可得。(但 yi1 xiui )xi2( 2)同理可求得: ?0=1XkiYi( 1.2.6)n?0Y - ?1X 1YiX ki Yi( 1Xki )Yinn也可以得出:?0 =1Xkiuin2、无偏性。所谓无偏性是指估计量?0 和 ?1 的均值等于总体回归参数0 和 1证明: ?1 =kiYi =ki01 X iuiki0kib1 X iki ui因为ki0 ,所以ki X i13、最小方差性.这里所说的方差最小是指在无偏估计类中方差最小。这里可以先推导出参数估计量?0 和 ?1 的方差,不用证明可以得到:222V a r( ?1 )V a r 1ki uixiuu(

13、1.2.7)xi2 ) 2xi2(Var ( ?0 )2X i2( 1.2.8)uxi2n证明:设 ?1*是有别于 ?1的线性无偏估计量*=ci Yi?1,*E ci Yicici X i 1 + ci uiE ?1101ci0,ci X i1 设 cikidi , d i0?*22222Eci uidikiVAR b1ci222?22?=di2kiVar b1diVar b1d i ki(ciki )ki )ci kki2注:cixi11ci xi10xi2xi2xi2xi2综上所述, OLS 估计量具有线性、无偏性和最小方差性,这三条性质又称为BLUE 性质。这一性质称为高斯马尔科夫定理。

14、附: Var ( ?0 )2X i2u2 证明nxi由?0=1uiXkinV a r( ?0 )u2 ( 1n2un12122122V a r (nXki )uiu(nXki )u(nX kinXki )X 2 / xi2 )u2 (xi2nXxi ) / nxi22X i 2 (注: X i2(x X ) i2xi22x xiX 2xi2nX 2 )xi4、方差与精度:估计量的方差越小,精度越高( 1) Var ( ?1 )22u可知 X 的样本2xi越大越好。xi( 2)由 Var ( ?0 )2X i2u2 ,n xi解释变量的数据越小方差越小,这就是要把数据取对数的一个道理。样本越大越

15、好。5、 ?0 和 ?1 的关系Cov ( ?0 , ?1 ) E( ?0E ?0)( ?1E ?1)E( ?00)( ?11 )XE( ?11 ) 2XV ( ?1)这意味着?1 估计过高则?0 就估计过低。?Y? Y?(Y?注: 01X ,则0 - 011X)X11X所以: ?0 -0-X( ?1-1 )6、 ?1 , ?0 是随机变量:只有随机变量才有期望和方差。案例:某地区居民的每月收入(X )和每月的消费支出(Y )的样本数据如表(2)XYXY8070180115100652001201209022014014095240155160110260150由上述表格数据可以计算得:xi

16、yi16800, xi233000Y111X170设回归方程为:?Yb0b1 X?xi yi168000.5901b1xi233000?b024.453?24.453 0.5901X Y, ?0,0, ?1, 1?01 X iYiYi01 X iui?Yi , X iYi?0 ,YX ,yi1 xixi yi,ki0 ,ui , 01 X i E ui0 ,?,ui u ,0Y1xi2b XCOV ui , X j0,第三节回归模型的统计检验一、样本决定系数及回归直线拟合优度的检验根据变量X 和 Y 的样本观测值应用最小二乘法求得了回归直线方程。但是这条回归直线到底在多大程度上拟和了观测值?拟

17、合:样本点Yi逼近样本回归线?X i的程度Yi011、总离差平方和的分解我们有恒等式Yi?Y )?)?Y (Yi(Yi Yi:(Y =Y )两边平方并求和:(YiY )2?Y)2(Yi?2?Y )(Yi?)(YiYi )2 (YiYi由正规方程中ei X i0 和ei0得到?Y )(Yi?ei(b1b2 X iY )(YiYi )b1ei b2ei X iY ei0于是有:(YiY )2?Y )2(Yi?2(YiYi)( 1.3.1)(YiY ) 2 称为总离差平方和,记为TSS: Total sum of square?2(YiESS: Explained sum of squareY )称

18、为回归平方和,记为(Y? 2称为残差平方和,记为RSS: Residual sum of squareY )ii总离差平方和 =回归平方和残差平方和2、样本决定系数: “拟合优度”的度量( 1)首先,残差残差平方和小就意味着,?逼近 Yi ,拟合得好,也就是X对Y的解释Yi能力强。(用最小二乘法来估计0 、 1 时,对已知的一个样本相对于其它方法来说,残差平方和是最小的。)但是不同的回归方程, 我们如何来比较拟合高低, 那个方程的 X 对 Y 真正有解释能力呢?比较相对残差平方和的大小,图:给定一个样本, 总离差是固定的, 说明总离差分解为两个部分,ESS 归于回归直线,RSS 归于随机因素,

19、 RSS 小,来自回归的 ESS 就大拟合就好。从回归平方和与残差平方和的意义可以知道, 如果在总离差平方和中回归平方和所占的比重越大,则线性回归效果越好,也就是说回归直线与样本观测值拟合优度就越好。( 2)定义: R 2 ESS( 1.3.2)TSS所以, R 2 就可以来量度回归线的拟和优度,表示回归线对样本点的解释程度,0 R 21。( 3)应注意:如果回归中没有截距项,不可能有ei 0 ,也就得不到离差分解公式,所以我们定义的R 2ESS 只对有截距项的回归有效。对没有截距项的回归的拟和优度的TSS判断应使用其它方法,同学们可以参考经济计量学(古亚拉提著,中国人民大学出版社,1998

20、年)的相应内容。注:如没有截距项,方程为Yi1 X iui残差平方和 Q=(Yi? 2(YiiX i )2ei X i 0Yi ),求导只有( 3)、样本决定系数的相关公式2ESS?2Ryi( 1.3.3)TSSyi2上式还可以写成:R2?221xi /yiR 2( xi yi ) 2( 1.3.4)xi2yi2对于第二节中的案例题,我们可以计算得:r 2(xiyi )222 =0.9621xiyi这说明每月的消费支出的离差中有96%可以用收入来解释,既每月的消费支出96%取决于收入。3、样本相关系数下面我们介绍一个与样本决定系数有密切关系但是又有区别的概念:样本相关系数。由数理统计知识可以知

21、道,两个变量X 和 Y 之间的相关程度用相关系数表示xy( )xy由于总体 X 和 Y 的分布是未知的,就无法计算,因此自然的想法就是利用样本观测值给出 的一个估计量,这个估计量就是样本相关系数。根据观测值,定义:SXYxi yi 为 X、 Y 的样本协方差;n 1SX2xi2SY2yi2,分别叫做 X 和 Y 的样本方差。,n 1n1定义样本相关系数rSXYxi yi( 1.3.6)SX SYxi2yi2当给定观测值以后,利用(1.3.6)可计算样本相关系数r, r 可作为的一个估计值。比较()和()可以知道,样本相关系数和样本决定系数在计算上是一致的,这样可以由样本决定系数得到相关系数rR

22、 2但是相关系数和样本决定系数是两个不同的概念。 样本决定系数是对变量作出回归分析得出的,它是样本观测值拟合优度的一个数量指标。相关系数是对变量作相关分析得出的。二、随机项 u 的方差2 的估计量在第二节分析?0 和 ?1 的方差时, 发现影响其方差的因素有随机扰动项ui 的方差u2 。但它是不可观测的。如何估计呢?我们可以证明:ei2( )n2可以作为u2 的无偏估计量。证明如下: (本科可以不作要求)分析:把 ei2 的平方转化成 ui 及 ui 的平方,和?1 的方差,则可建立与u2 的关系证明:设 eiyiy?i ,所以ei2yi2y?i2把回归方程 Yib0b1 X iui化为yib

23、1 xi(uiu )又y?i?b1 xi2222?222b1xi uiuuiueib1xib1xi2222b1xi E uiuE ui2?22E( ei ) b1xiuE (b1) xi?2?)222E b1Var b1(E b1xi2b1又因为E uou0所以E uou 2E(ui2 )2E (ui u )Eu 2= (n1)2所以 E(2b2x2(n1)22?2x2(n2)2e )ibii11所以2ei2( 1.3.8)?n2注:212122Eu n2( Eui2Eui u j )n我们经常把( 1.3.8 )记作:Se?2ei2n2三、回归系数估计量的显著性检验根据样本值利用最小二乘法我

24、们求出了回归系数?,如果?的b0 和 b1 的估计量 b0和 b1?1, 0方差不大,即估计的精度很高,但如果真实的1 0, ?1 0.001 我们的工作有何作用,Yi01 X iui0ui 这时能说 X 对 Y 有解释能力,即 X 和 Y 有显著的线性关系吗?因此?1 作为1 的估计量必须进行显著性检验,或者说使假设检验。检验 10 是否成立。H 0 :1 01、假设检验:类似于反证法,是用样本的结果,来证明一个虚拟假设(H 0 )真伪的一种程序。虚是指不知是否正确的判断。(1)例:这个同学是个共产党员背景(规律):绝大多数的共产党员为人民服务,正人君子,为人表率,事实(样本):(有人发现)

25、这个同学吃喝嫖赌,不上课,骗助学贷款结论:拒绝这人同学是真正共产党员这个结论( 2)小概率原理(规律) :在随机变量的概率空间中,经常发生是大概率事件,随机变量值接近其数学期望的那些事件; 而那些概率接近于 0 的小概率事件在一次试验中是不可能发生的。H 0 :随机变量 E 0,那么在一次试验中,按H 0 最可能事件是的取值落在0 附近的区域(画一个正态分布图),如果在这次偶然的试验中 100,落在了远处,H 0 的情况没有发生;由于小概率事件不可能在一次试验中出现,只有一种解释,H0 不对。 E比较大,所以 100 这样的事件才会在一次试验中出现。这叫拒绝H 0 。2、估计量?0 和 ?1

26、的概率分布( 1)由( 1.2.6)和( 1.2.7)我们可以知道:?1 N2?1,,11N 0,1 ( 1.3.9)xi2( ?1)?0 N0 ,2X i2( 1.3.10)nxi2( 2)由于?表示了估计量?b1 的程度,因此可以用?表示 b1 的稳定b1b1 接近真实值b1?222?2ei2性,要注意的是:含有 u,而u 是一个未知的变量,要用S e代替。b1n 222?eei?S11xi2 ,但 Se( ?1 )所以b1 =(n2) xi2N 0,1 不成立了。3、参数?1 的 T 统计量?11t(n-2)(1)令: T?1 )Se(?11T ?1 )Se(?1?1u11ei2xi2u

27、ei2(n2)n2?(2z111ei ) /( n 2)( ?1)uz2?1其中: z1 1N 0,1( ?1)z2( ei ) 2 2 (n2) ,自由度来自于RSSu?所以: T11t(n-2)Se( ?1 )?0同理: T0 t(n-2)Se( ?0 )(2) T 分布:介绍书后的表,告诉取值的概率,单边分布有单侧的临界值。P(t> t)=,或 P(t<- t )=,画一图:4、显著性水平:小概率的值H0:E(?1 )= 1=0?1的 T 分布,T?在 H0 下,则 T?( 1)小概率的度量: 考虑随机变量111。Se( ?1 )Se( ?1 )通过概率分布图可知, (图)小

28、概率事件为,P( tt临界值),一般取 0.10,0.05,0.025,0.01。的含义:显著性水平,越小,如果从一个样本(一次试验)计算出的T 值落入这个范围的概率就越小,这个事件就更不能发生,就更有把握地说,随机变量?1 的期望不是 0。而是比0 大许多。(2)回归 T检验的临界值:双边临界值,两边加起来为P( t t临界值)t临界值 ) P(tt临界值 ) ,这个临界值得从t 分布表中查。 P(t由图可以得出显著性水平为双侧检验的临界界值, 是表中单边检验概率/2 的临界值 t 。2( 3)拒绝域:( tn2, +)和( -, - tn 2 )叫拒绝域。在H0 下,T 值落入22拒绝域的

29、概率为。5、检验过程?因为11 N0,1所以11 t n 2( ?1)Se( ?1 )?因此我们可以用T11作为统计量进行t 检验,其检验过程步骤如下:Se( ?1 )第一步原假设: H0 :10备择假设: H 1 :10?1第二步 计算统计量T 1Se( ?1 )第三步给定检验水平,查自由度为n-2 的 t 分布临界值表。可以得到临界值tn22第四步作出判断如果 Ttn2,则接不拒绝原假设,认为X 与 Y 线性关系不显著2如果 Ttn2,则接拒绝原假设,认为X 与 Y 线性关系显著2?2?6、自由度:是独立数据的个数。 残差平方和 RSS(Yi0 、1 的约束,Y )有两个参数只有 n-2 个自由度。所以,ei22n2 , Se?2ei22 n有 n-2 个独立数据,(n2) u2?T11,自然有 n-2 个自由度了。Se( ?1 )7、两类错误:(1)第一类错误:拒绝H 0 :10 时犯的错误拒真试验事件, Tt n2发生了,样本t 值落入了拒绝域,我们拒绝H 0:1 0。2这样做一点风险也没有吗?联想共产党员的例子,我们知道在共产党员中有极少数人如些。那么是共产党员而又吃喝嫖赌的人概率是,这样人出现我们就以的概率犯了错误。这个人真的是共产党员,而我们拒绝了认为他不是,这叫拒真。我们把这类错误称为第一类错误。所以,当我们拒绝时我们

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论