《线性回归》R2-F-t检验.doc_第1页
《线性回归》R2-F-t检验.doc_第2页
《线性回归》R2-F-t检验.doc_第3页
《线性回归》R2-F-t检验.doc_第4页
《线性回归》R2-F-t检验.doc_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章 一元线性回归模型基本要求:1、了解相关与回归的概念2、理解线性回归模型的假定3、掌握普通最小二乘法4、理解最小二乘估计量的性质5、会进行回归模型的检验第一节 一元线性回归模型概述一、相关与回归的基本概念(一)变量之间的关系各种经济变量之间的关系,一般可以分成两类,即完全确定的关系和非确定性的依存关系。1确定性关系或函数关系如果一个变量值能被一个或若干个其他变量值按某一规律唯一的确定,则这类变量之间就具有完全确定的关系。例如,当每吨水的价格为P元时,居民应缴纳的水费Y(元)与用水量X(吨)之间的关系可表示为Y=PX。2非确定性关系如果变量之间既存在密切的数量关系,又不能由一个(或几个)变量之值精确的求出另一个变量之值,但在大量统计资料的基础上,可以判别这类变量之间的数量变化具有一定的规律性,也称为统计相关关系。例如消费支出Y与可支配收入X之间有一定的关系,在一定范围内,收入增加,在理论上可以估计出增加的消费支出额。但应看到,可支配收入虽然是影响消费支出的重要因素,却不是唯一的因素。因此,根据可支配收入并不能精确的求出消费支出,也就不能用精确的函数关系表达式来表示这两个变量之间的关系。计量经济学就是研究变量间的非确定关系的,变量间的统计相关关系可以通过相关分析和回归分析来研究。(二)相关分析1、涵义相关分析是通过对经济现象的依存关系的分析,找出现象间的相互依存的形式和相关程度,以及依存关系的变动规律。2、类型从变量间的依存形式看,可分为线性相关和非线性相关。线性相关反映变量间的依存关系可以近似的表示为一条直线;变量间的依存关系近似的表示为一条曲线则称为非线性相关。3、指标从变量间的相关程度看,可以通过相关系数来度量。两个变量之间的相关程度可以用简单相关系数来衡量;多个变量之间的相关程度可以用复相关系数、偏相关系数等来衡量。(三)回归分析1回归的定义回归分析是研究某一被解释变量(因变量)与另一个或多个解释变量(自变量)间的依存关系,其目的在于根据已知的解释变量值或固定的解释变量值(重复抽样)来估计和预测被解释变量的总体平均值。在研究某一社会经济现象的发展变化规律时,所研究的现象或对象称为被解释变量,它是分析的对象,把引起这一现象变化的因素称为解释变量,它是引起这一现象变化的原因。被解释变量则反映了解释变量变化的结果。2回归模型的分类(1)按模型中自变量的多少,分为一元回归模型和多元回归模型。一元回归模型是指只包含一个解释变量的回归模型多元回归模型是指包含两个或两个以上解释变量的回归模型。(2)按模型中参数与被解释变量之间是否线性,分为线性回归模型和非线性回归模型。对于“线性”的解释:一种是就变量而言是线性的,即线性回归模型是指解释变量与被解释变量之间呈线性关系;另一种是就参数而言是线性的,即线性回归模型是指参数与被解释变量之间呈线性关系;非线性回归模型是指参数与被解释变量之间呈非线性关系。就回归模型而言,通常“线性”是就参数而言的。(3)按模型中方程数目的多少,分为单一方程模型和联立方程模型。单一方程模型是指只包含一个方程的回归模型;联立方程模型是指包含两个或两个以上方程的回归模型。3相关与回归的关系相关分析是回归分析的基础和前提,回归分析则是相关分析的深入和继续。相关分析需要依靠回归分析来表现变量之间数量相关的具体形式,而回归分析则需要依靠相关分析来表现变量之间数量变化的相关程度。相关分析只研究变量之间相关的方向和程度,不能推断变量之间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况。注意避免“虚假回归”:只有当变量之间存在高度相关时,进行回归分析寻求其相关的具体形式才有意义。如果在没有对变量之间是否相关以及相关方向和程度做出正确判断之前,就进行回归分析,很容易造成“虚假回归”。 二者的区别: (1)在相关分析中涉及的变量不存在自变量和因变量的划分问题,变量之间的关系是对等的;而在回归分析中,则必须根据研究对象的性质和研究分析的目的,对变量进行自变量和因变量的划分。因此,在回归分析中,变量之间的关系是不对等的。 (2)在相关分析中所有的变量都必须是随机变量;而在回归分析中,自变量是给定的,因变量才是随机的,即将自变量的给定值代入回归方程后,所得到的因变量的估计值不是惟一确定的,而会表现出一定的随机波动性。 (3)相关分析主要是通过一个指标即相关系数来反映变量之间相关程度的大小,由于变量之间是对等的,因此相关系数是惟一确定的。而在回归分析中,对于互为因果的两个变量,则有可能存在多个回归方程。二、一元线性回归模型(一)总体回归函数1、总体回归函数假若我们要研究的问题是某市N户城镇居民家庭的可支配收入X和消费支出Y之间的关系,则全体N户居民家庭构成了研究的总体。表2-1给出了全部居民家庭可支配收入和消费支出统计资料。表2-1 居民家庭可支配收入和消费支出统计表可支配收入 消费支出 户数 平均消费支出(X) (Y)从表2-1可以看出:对于某一收入水平(),有()户居民家庭消费支出与其对应,反映出在某一收入水平下有关消费支出的条件分布。根据该条件分布,可以计算出在某一收入水平下平均消费支出,即条件均值。从表2-1还可以看出:对于每一收入水平,仅有唯一的一个条件均值与其对应,这种一一对应的关系构成了函数关系,该函数称为总体回归函数(Population Regression Function, PRF)。记为: (2-1) 总体回归函数反映了给定Xi的Y分布的总体均值随X的变化而变化的关系。2、回归系数:和总体回归函数f (Xi)若采用线性函数的形式,有: (2-2)其中和是未知而固定的参数,称为回归系数(Regression Coefficients),称为截距系数(Intercept Coefficients),称为斜率系数(Slope Coefficients)。该函数称为线性总体回归函数。(二)总体回归函数的随机设定描述了在某一收入水平下平均消费支出水平,但是对于某一户居民的家庭消费支出不一定恰好与该水平一致,或多或少地存在一些偏差。该偏差用表示,并定义: (2-3)则有: (2-4)式(2-4)中 反映了除收入之外众多影响消费支出的因素的综合影响,是一个不能观测的随机变量,称为随机误差项(Stochastic Error)。式(2-4)为总体回归函数的随机设定形式。(三)样本回归函数根据总体资料可以建立总体回归函数,揭示被解释变量随解释变量的变化而变化的规律。但在大多数实际情况中,总体的信息往往无法全部获得,我们所掌握的不过是与某些固定的X值相对应的Y值的样本。需要根据已知的样本信息去估计总体回归函数。假定现在不知道建立总体回归函数的总体资料,仅仅掌握来自总体的一组样本数据,例如,根据调查得到某市职工个人月可支配收入与月消费支出数据资料(见表2-2)表2-2 某市职工个人月可支配收入与月消费支出调查资料 单位:元/月序 号12345678910可支配收入(X)800100012001400160018002000220024002600消费支出(Y)700650900950110011501200140015501500根据以上样本数据拟合一个线性方程: (2-5)该方程式称为样本回归函数(Sample Regression Function, SRF)。比较式(2-2)与(2-5),假若充分地“接近”,并且也充分地“接近”,就可以用样本回归函数去估计总体回归函数E (Y | Xi)。所以亦称为E (Y | Xi)的估计量;称为的估计量;称为的估计量。式(2-5)中与实际的值存在一定的偏差,该偏差用表示。定义:则有: (2-6)称为样本剩余项,也称为残差。Y Yi E(Y|Xi)= b0+b1Xi E(Y|Xi) 0 Xi X 图2-1 总体回归函数与样本回归函数的关系第二节 一元线性回归模型参数估计一、古典线性回归模型的假定以一元线性回归模型Yi= b0 + b1Xi + mi为例,古典线性回归模型的假定如下:假定1:在给定Xi的条件下,mi的条件均值为零。即,E(mi | Xi)=0。假定2:在给定任意Xi、Xj的条件下,mi 、mj不相关。即,Cov(mi, mj)=0。假定3:对于每一个Xi,mi的条件方差是一个等于s2的常数。即,Var(mi | Xi)=2 。假定4:在给定Xi的条件下,Xi和mi不相关。即,Cov(mi, Xi)=0。满足以上四个假定的线性回归模型称为古典线性回归模型。所谓“古典”是作为一种标准或规范来使用的,凡是不满足以上假定的回归模型,就不是“古典”回归模型。在前述假定下,用最小二乘法得到的回归参数的估计值,按照高斯马尔可夫定理(Gauss-Markov Theorem)的意义来说,是“最优的”。假定5:对于每一个mi 都服从于均值为零、方差为s2正态分布。即,mi N(0,s2)满足以上五个假定的线性回归模型称为古典正态线性回归模型。二、普通最小二乘法(一)最小二乘原理利用样本回归函数估计总体回归函数,是根据一个给定的包含n组X和Y观测数据的样本,建立样本回归函数,使估计值尽可能接近观测值Yi。最小二乘原理就是根据使样本剩余的平方和达到最小的准则,确定模型中的参数,建立样本回归函数。(二)最小二乘估计量1、计算、推导由 ,得 (2-7)对于给定的样本,的大小取决于和的大小,即是和的函数。按照最小二乘原理,要求所选定的和应使最小,要做到这一点,可以借助微积分中求极值的方法,用分别对和求偏导数,并令其为零,满足该条件的和可以使最小。即:可得到:(2-8)整理后有: (2-9) 求解得: (2-10) (2-11)令 (2-12) (2-13)令 (离差)则 (2-14)以上和是根据最小二乘原理求得的,故称为普通最小二乘估计量。2、实例利用表2-2的样本资料建立最小二乘回归模型的过程如下:表2-3 计算表序号 Xi Yi xi yi xi2 yi2 xiyi Xi21 800 700 -900 -410 810000 168100 369000 640000 2 1000 650 -700 -460 490000 211600 322000 1000000 3 1200 900 -500 -210 250000 44100 105000 1440000 4 1400 950 -300 -160 90000 25600 48000 1960000 5 1600 1100 -100 -10 10000 100 1000 2560000 6 1800 1150 100 40 10000 1600 4000 32400007 2000 1200 300 90 90000 8100 27000 4000000 8 2200 1400 500 290 250000 84100 145000 4840000 9 2400 1550 700 440 490000 193600 308000 5760000 10 2600 1500 900 390 810000 152100 351000 6760000合计 17000 11100 0 0 3300000 889000 1680000 32200000 平均 1700 1110样本回归函数为:上式表明,该市职工每月可支配收入若是增加100元,职工将会拿出其中的50.91元用于消费。(三)普通最小二乘回归直线的性质回归直线具有以下性质:1回归直线通过样本均值。2估计值的均值等于观测值的均值。3剩余项的均值为零。4剩余项与估计量不相关。5剩余项与解释变量不相关。三、最小二乘估计量的性质(一)线性性最小二乘法计算的估计量是随机变量Yi的线性函数。1.的线性由式(2-14)得:令,有: (2-15)2.的线性由式(2-13)得:令有: (2-16)(二)无偏性如果估计量的均值等于总体参数真值,则该估计量就是无偏估计量。即:。1.的无偏性由式(2-15)得: 因为:所以: (2-17)由此可得:即: (2-18)2.的无偏性由式(2-16)可得: (2-19) (2-20)(三)有效性(最佳无偏性)在所有关于总体参数真值的无偏估计量中,若估计量具有最小方差,则就是的最佳无偏估计量。1.的有效性由式(2-17)可得: (2-21)设是用其他估计方法得到的关于的线性无偏估计量。由其线性性质可知,对其求方差可得:这里,所以有:。2.的有效性同理,由式(2-16)可得: (2-22)与对的有效性分析相同,设是用其他估计方法得到的关于b0的线性无偏估计量,则有:结论:在古典线性回归模型的假定下,最小二乘估计量在所有线性无偏估计量中,具有最小方差,这一结论即是著名的高斯-马尔可夫(Gauss-Markov)定理。四、估计量 和的分布1、理论基础对于一个古典正态线性回归模型,即同时满足第二节中假定5的古典线性回归模型,其随机扰动项服从正态分布。由于是的线性函数,而和又分别是的线性函数,根据正态分布的性质可知,和也服从正态分布。由以上分析可知:,从而有:,在上面计算和方差的表达式中,除了随机扰动项的方差之外,都是可以根据样本资料估计的。可以用的无偏估计量来代替计算和的方差。 (2-23)可以根据式(2-8)计算,也可以由下式计算: (2-24)2、实例对于例题2-1。第三节 显著性检验一、拟合优度与相关系数检验(一) 拟合优度与可决系数拟合优度是指样本回归直线对观测数据拟合的优劣程度。我们所希望的就是围绕回归直线的剩余尽可能的小。拟合优度通常用可决系数来度量。可决系数是样本回归直线对数据拟合程度的综合度量。在双变量的情况下,通常用r2表示可决系数。可决系数是建立在对被解释变量总变差分解的基础之上。 Y Yi 0 Xi X 图2-2总变差分解图图2-2中,观测值Yi的离差。其中,是样本回归直线所确定的估计值与平均值的差;,是样本观测值与回归直线所确定的估计值之差。越大,越小,估计值与观测值越接近,该点拟合的越好;反之,拟合的越差。当时,完全拟合。采用指标进行分析,该指标称为总变差或总离差平方和,简记为TSS。根据,所以有 (2-25)其中,称为回归平方和,简记为ESS;,称为残差平方和,简记为RSS。这样式(2-25)也可以记为:TSS=RSS+ESS (2-26)当根据样本采用最小二乘法确定了一条回归直线时,TSS的大小是一定的。ESS越大,RSS越小,该回归直线拟合的越好;反之,拟合的越差。1、定义:称为(样本)可决系数,它是最常用的回归直线拟合优度的度量,表示由回归模型做出解释的变差在总变差中所占的比重。由式(2-26)得 (2-27)上式表明,若样本剩余RSS越小,r2的值就越大,拟合优度越好;反之,RSS越大,r2的值就越小,拟合优度越差。2、可决系数r2还可以按以下推导出的公式求得: (2-28) (2-29)由式(2-14)和(2-27)可得: (2-30)对于例题2-1,3、r2具有以下两个性质(1)r2是一个非负数。(2)r2的取值范围是:0 r2 1。r2 =1意味着完全拟合,r2 =0意味着被解释变量与解释变量之间没有线性关系,0 r2 1时,r2越接近于1拟合效果越好。(二)相关系数检验1 相关系数相关系数是两个变量之间的相关程度的度量。定义: (2-31)在一元线性回归中,相关系数在数值上是可决系数开平方。可以根据下式计算: (2-32)r具有以下性质:(1)它可以是正值也可以是负值,其符号取决于式(2-31)中分子的符号。(2)它的取值范围在-1和+1之间,即 1 r +1。 (3)它的性质是对称的,X与Y的相关系数rxy和Y与X的相关系数ryx是相同的,都是r。(4)它只是线性联系或线性相关的度量,不用来描述非线性关系。 2 相关系数检验法相关系数检验法是在建立一元线性回归模型之后,考察两个变量之间是否具有显著的线性相关关系,相关系数检验法的步骤如下:(1)根据相关系数的计算公式计算相关系数r。(2)给定显著性水平a,根据a和从相关系数临界值表中查出相关系数临界值的值,比较r与的值。若 | r | ,表明两变量在显著性水平a 时线性相关关系显著;否则 | r | ,差异显著,拒绝原假设,接受备择假设若|t|2.306,即|t1|,差异显著,拒绝b1=0的假设。-ta/2ta/2oa/2a/2P(t)t图2-3 阴影部分为t检验的否定域三、方程的整体性检验(F检验)(一)方差分析由式(2-25)可知:或TSS=RSS+ESS对总平方和(TSS)的这两个分量进行研究,就称为从回归角度进行的方差分析(Analysis of Variance ,AOV)。每个平方和都具有相应的自由度,假定给n个变量赋予数值,在计算平方和时,总有k个变量可以自由取值,即是这k个变量线性独立,我们说这个平方和的自由度为k。与每一个平方和相联系的是它们的自由度。对于一元线性回归模型,TSS有n-1个自由度;ESS有1个自由度;RSS有n-2个自由度。平方和与自由度之比即为平均平方和。将平方和、自由度及平均平方和列成一个表,该表称为方差分析表(见表2-4)。表2-4 方差分析表平方和 自由度 平均平方和ESS 1 RSS n-2 (二)F检验统计量定义从方差分析的角度进行的回归模型整体性检验所采用的检验统计量是F统计量。检验统计量F反映平均回归平方和与平均剩余平方和的比较。 (2-35)且F服从自由度为1和n-2的F分布。即:F F(1,n-2)可以推导,F与可决系数r2有以下关系 (2-36)利用检验统计量是F可以对回归方程进行显著性检验,即F检验。(三)方程的整体性检验(F检验)的步骤1提出假设原假设H0:b1=0备择假设H1:b102给定显著性水平a,查F分布表获得临界值Fa(1,n-2),对于例2-1,在显著性水平a=0.05,n-2=8时,查F分布表,得到:F0.05(1,8)=5.32。3根据式(2-35)利用样本数据计算检验统计量F的值4进行比较,做出判断若F Fa(1,n-2),差异显著,拒绝原假设,接受备择假设;若F Fa(1,n-2),差异不显著,接受原假设(见图2-4)。本例中,203.05915.32,即F F0.05(1,8),差异显著,拒绝b1=0的假设,方程显著不为零。P(F)oF图2-4 阴影部分为F检验的否定域第四节 一元线性回归模型案例及预测预测就是利用模型已含有过去和现在的样本数据或信息拟合的回归模型,对被解释变量的可能值做出定量的估计。一、点预测根据样本数据,利用最小二乘法,可以得到最小二乘估计值,建立一元回归的预测模型。根据预测模型可以在给定X的条件下,求得Y的估计值,并进行点预测。根据样本数据,得到以下样本回归函数当Xi=X0时,为点预测值。例如,根据所给样本数据,建立了如下样本回归函数若已知家庭月可支配收入Xi=1600元,根据上述模型,可预测家庭的月消费支出为:二、区间预测分为两类:预测对应于给定X条件下的个别Y值。这类预测我们称为个别值预测。(一)均值预测即,对应于给定X条件下的Y的总体均值的预测。当给定Xi=X0时,是总体均值的一个估计值。且服从于均值为的正态分布。根据正态分布与检验统计量t的关系,有: (2-37)服从于自由度为n-2的t分布。式中Se()为的标准误差, (2-38)给定显著性水平a 有:或: (2-39)上式表明,在重复抽样中,若构造100个这样的区间,将会有(1-a)100以上的区间包含总体均值。建立所预测的总体均值的置信区间为: (2-40)对于前述例题,给定显著性水平a=0.05,n-2=8时,查t分布表,得到:=2.306从而=1059.11-2.30620.8320=1011.67(元)1059.11+2.30620.8320=1107.14(元)即每月可支配收入为1600元的家庭,其平均消费支出在1011.07元至1107.14元之间的概率为95%。(二)个别值预测即,对应于给定X条件下的个别Y值的预测。当给定Xi=X0时,残差为,。可以证明服从于均值为零的正态分布。根据正态分布与检验统计量t的关系,有: (2-41)服从于自由度为n-2的t分布。式中Se()为的标准误差, (2-42)给定显著性水平a 有:或: (2-43)上式表明,在重复抽样中,若构造100个这样的区间,将会有(1-a)100以上的区间包含个别值。建立所预测的个别值的置信区间为: (2-44)对于前述例题,给定显著性水平a=0.05。n-2=8时,查t分布表,得到:=2.306从而=1059.11-2.30668.1620=901.92(元)=1059.11+2.30668.1620=1216.29(元)即每月可支配收入为1600元的家庭,以家庭消费支出在901.92元至1216.29元之间的概率为95%。三、一元回归模型实例分析(一)研究目的依据1996-2005年中国统计年鉴提供的资料,经过整理,获得以下农村居民人均消费支出和人均纯收入的数据如表2-5:表2-5 农村居民1995-2004人均消费支出

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论