版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Good is good, but better carries it.精益求精,善益求善。一元线性回归的估计-第三章双变量回归的估计我们在第二章已导出PRL和SPL,回归分析的目的是运用样本估计样本回归直线SRL,使之能最大限度“逼近”于PRL.即对于总体回归直线-PRL,即(3.1)利用样本形成样本回归直线(SRL),由此而提出的问题是,在什么假定下,运用何种方法形成SRL,使SRL尽可能逼近PRL(3.1)?由于是对总体回归直线的偏差,自然地希望基于u来实现这一目的.由于ui的估计度量了样本点Yi到样本回归直线的距离(误差或偏差),且成为ui的主部,因此基于总体误差ui就转化于基于样本误
2、差。如果直接使最小,但单个的可能有正有负,有大有小,从而导致部分较大但其代数和却较小,这样产生的参数估计和对应的样本回归直线就可能没有最大可能逼近PRL的性质。类似地,可讨论对求最小所产生的问题。为回避这一类问题,通过对求最小所产生的参数估计及其SPL,才可能尽可能逼近PRL,由此形成样本回归直线的估计,即(3.2)这一种方法称为最小二乘法(OLS)。现在,我们有总体回归直线Yi=E(Yi/X=Xi)+ui=Xi+ui样本回归直线(为方便,有时亦记作bi)为i的估计,(为方便,有时亦记作ei)称为残差,可看作ui的估计,为E(Yi/X=Xi)的估计,为方便和出于残差的均值为0,即为Yi的估计.
3、3.1.OLS回归分析的目的是运用样本数据,求出待估参数,为此将残差平方和表述为待估参的函数并求最小,由此求出参数估计,这一过程为OLS,实质上是最优化问题,故这一求解问题可表述为(3.3)(3.3)表明,残差平方和为待估参数的函数,因此对其求最小,能解出这些参数。我们从代数或统计中已学习,求(3.3)即是对其求偏导并令为0,即有由此得到(3.4)(3.5)联立上述两个方程(记),求解有(3.6)(3.6)中,分别为样本的均值,所以为对样本均值的离差,度量第个观测值和对其均值的偏离。上述推导中,N为样本点个数或样本长度,为方便,以后以小写的表示。将(3.6)代入(3.4)中,有(3.7)对于(
4、3.6)和(3.7)所得到的样本回归直线的参数估计,由此得到OLS样本回归直线对于上一章的例子和样本1,运用OLS所得到的SRL如下图,SRL具有性质:1.参数估计由样本信息所形成;2.这二个估计称为点估计(稍后将讨论区间估计),即给定一组样本,可得到相应的参数估计值,它们是对于总体参数(i)的一个点估计,不同的样本,得到的估计可能不完全相同,不同的样本所得到的估计,均是对总体的一个点估计;3.由样本得到参数估计即得到了SRL,样本回归直线具有性质:(1).SRL通过样本均值点()(由,即样本均值满足样本回归直线,所以通过样本均值点),如图.图3.1样本回归直线(2).的均值等于样本均值,即(
5、3.9)这一性质是指,回归直线上的点的均值等于样本均值。证明:由故所以(3)残差的均值为0,即证明:由(3.4)利用上述性质1,2,3,SRL可以表述为离差形式。对于最后一步是将样本点表示(3.2)(3.2)减去所得到的的结果。这样(3.10)即为样本离差形式即,所以(3.10)为(3.11)于是,SRL可写为(3.12)(3.12)实际上是将原有含截踞不过原点的直线平移至过以为原点的直线。(4)残差与预测或估计的Y不相关,这一性质需证明。对于相关的概念,我们这里暂不从数学上说明,只是理解不相关的含义为,两个变量没有线性关系,相关的严格定义在以后给出。我们这里说与不相关,等价于与不相关。这是因
6、为证明:(5).与不相关,即,它等价于。因为这一性质由(3.5)给出.3.2.OLS的基本假定以上我们仅得到了估计以及相应的样本回归直线,尽管从估计的角度看,运用OLS已经能求出参数的估计。但没有对残差的分布和变量X作出任何假定,因此我们无法对这种估计或SRL作出评价和推断,而回归分析的目的不仅要求出参数的估计,还需对总体作出推断,即对于PRL通过上述OLS方法,得到了SRL问题:SRL是否为PRL的一个无偏估计?如何定义无偏?这一问题归结为估计量在期望的意义下是否与总体参数有偏差?也就是说,从SRL能否推断PRL的真值?解决这一问题的途径是对总体的残差作出分布假定,然后讨论估计量的分布性质,
7、基于此讨论估计量是否有偏等一系列问题。另一方面,从PRL可知,Y依赖于X和扰动,只有对X和扰动作出相应的假定,才可能对Y和参数作出统计推断,亦即对模型作出评价。经典线性回归模型(CLRM)或称为高斯或标准直线回归模型具有10大假设,构成了计量经济学理论基础。在这10大假设下,SRL具有对总体无偏等性质。这些假定有下述10条。线性回归模型,即模型对参数而言是线性的。这一假定强调的是对参数,而不是变量。如YX+uYX1+X2+u为线性模型(对参数而言),但YX1+X2+u对参数而言就是非直线模型,如果设定这样的非直线模型,则违反了性线回归模型的假设.在重复抽样中X是固定的,或X是非随机的。这一假定
8、难以理解,对于表2.1所假定的总体,对于X80,随机抽取一个家庭,其Y70,直至X=260,随机抽取Y=150,在第二次抽样时,仍将X固定在X80,再次抽取一个样本Y55,直至X=260,随机抽取Y=175.这种重复抽样的过程是将X固定在X80直至X=260.在重复抽样过程中,将X固定或不变,从这个意义上说,X是非随机的,X固定后,随机抽取相应的Y。干扰项或随机项的均值为0,即这一假定是对于固定的X,如X80,指偏离总体条件均值的和为0,无论个别的偏差有多大(小),是正还是负,其和为0.回到表2.1,X80,总体为5户家庭,Y的均值为65,第一个家庭的Y为55,偏差为10,第二个为60,偏差为
9、5,等等,这些偏差相加应为0,也就是说,正和负的偏差相互抵消。图3.3P49所示。由上述性质2和3,回归分析是建立在条件回归的基础上。随机项的同方差或扰动的方差相同。即由P50的图3.4所示.图3.2.扰动(以及Yi)的同方差与之不同的是异方差,如下图所示.图3.3.扰动(以及Yi)的异方差这是因为由假定3即扰动的均值为0,5.扰动之间无(自)相关。即给定任意的X的两个值,对应的扰动没有自相关。基于相关和协方差的定义,不相关与协方差为0等价。即其中的记号cov表示协方差。回到例2.1,如X80和X100两个不同的水平,与总体均值的偏差不相关。协方差正是针对不同水平之间而定义的。这一性质所强调的
10、是,所有的与总体均值的偏差(误差)之间不相关,而不仅仅是对给定某一水平(如X80)之下的误差而言。与之不同的是残差的相关,即残差之间具有某种变化的规则.对这种相关性,目前只能作直观的解释。我们在分析表2.1所示的总体中,如果与正相关,总体函数为,不仅依赖于,也依赖于,而依赖于。6.扰动与X不相关,或它们之间的协方差为0。即:这一假定的表示中,非随机是因为它已经是一个数。7.观测次数或样本的长度大于待估参数的个数。8.X值要有变异性,即对于一个给定的样本,X的值不能全部相同,也就是说,X的方差必须是一个有限的正数。反之,若X在一个样本中取相同的值(无变异性),方差就为0,无法估计参数。9.正确设
11、定了模型,或者说,所用的模型不存在设定误差。所谓设定问题,在本书中包括:(1)模型应包括哪些变量,(2)模型的函数形式(如线性还是非线性),(3)对模型的变量和扰动应有哪些假定等。以后我们还应看到,设定问题还有更多的内容。所谓设定误差即是指,当模型应包括但没有包括某一个变量而引起的误差;当模型应为线性而将其设定为非线性(或反之)而引起的误差等.以线性和非线性菲氏曲线为例,菲氏曲线理论所陈述的是,货币工资变化率(或通胀率)与失业率彼此消长的关系,即Yi=Xi)+Ui若将菲氏典线模型设定为Yi=Xi+Ui则Yi=Xi+Ui具有设定错误,或不当设定.以上的假定就是全部关于经典线性回归(CLR)的假定
12、,这些假定是对总体作出的假设,不是对样本回归函数的假定。但是,OLS的一些性质,与上述某些假定类似。如OLS的均值为0与扰动均值为0相似,即与与但是一个是对样本,另一个是对总体。我们特别说明,这些假定并不一定全部成立,但在这些假定之下,所得到的回归和SPL,为以后的分析建立了一个框架,或镜子,违反这些假定的任何一条,将得不到这些假定之下的估计量的性质。因此,计量经济学正是对这些假定的逐步取消或在某些假定之下能导出仍然有效的估计或统计推断而不断将研究的问题深入和逼近现实。10.解释变量之间没有完全的共线关系。回忆线性代数中关于共线的定义,对于向量X和Z,若存在常数和,使得对于X+Z=0,有X=称
13、X和Z共线.在计量经济模型中,对于模型Y=X+Z+u若X和Z的样本,使得X=即称它们完全共线,我们以后将会看到,在这种情况下,OLS将无法估计模型.3.3.OLS的精度:标准差我们在前面有关异方差的讨论中已说明,方差越小,与总体的偏离就越小,对这一问题的正式分析即为标准差。从OLS可知,估计量均为样本数据的函数,如何评价估计量的可信度或精度?工具就是所谓标准差。对于样本回归直线其参数估计为,其方差定义为标准差定义为(3.12)同理,有,(3.13)以上的参数估计的方差和标准差都含总体扰动的方差和标准差,而总体扰动一般是不可观测的,即总体方差和标准差是未知的,故需要用样本予以估计,我们以下予以推
14、导。从若定义(3.14)所以定义则它是总体方差的无偏估计。进一步,标准差的估计即为方差估计开平方。即总体的估计的标准误差为(3.15)这一估计量所度量的是,样本Y对估计的回归直线的离差的平方的标准差。注意的是,所度量的是,所有的Y与总体直线的偏差的平方,而仅是它的一个无偏估计,度量的是与估计的直线即样本回归直线的偏差的平方。图示。观测值与总体直线和回归直线的偏差。对于上述所估计的参数的方差即(3.12)和(3.13),有如下特点:由可知其特点,即它与正比,与反比,因此,对于给定的,度量X值变化的越大,越小,说明的估计越精确,因此我们假定X要有变异性。另一方面,随着样本长度增加,变大(相对于小样
15、本而言),从而使估计越精确。同理分析的方差。是样本估计量,故不同的样本所得到的估计不一定相同,对于同一样本,它们还可能是相互依赖的,或是相关的。这种相互依赖性由它们之间的协方差所度量,可推证其协方差为(3.16)如何利用估计量的方差来评价这些估计量的可靠性,这即是统计推断问题。3.4.OLS估计量的性质:高斯马尔可夫定理在给定上述假定条件,由OLS所得到的估计量所具有的性质:估计量关于Yi是线性的。即是关于的线性组合,由于为随机变量的一个样本,所以估计量也是一个随机变量。作为例子,估计量是无偏的,即。例子3.在所有线性无偏估计量中具有最小方差(具有最小方差的估计量称为有效估计量).高斯马尔可夫
16、定理:在给定经典线性回归模型的假定下,OLS估计量,在无偏线性估计量中,具有最小方差,即OLS估计量是最优线性无偏估计量(BLUE).注意:有效估计量强调最小方差,即对所有线性和非线性估计量,只要是最小方差,就称为有效估计量。一般而言,这一定义对于大样本而定义的。而BLUE是定义在所有线性估计量中,方差最小的估计量称为BLUE。也就是说,对于其它任何线性无偏估计量,的方差均比它们的方差小。因此,证明BLUE的方法是假定有一个线性无偏估计,需证明由于的任意性,即具有最小方差。如图P59所示,由于和均为线性无偏,所以它们的分布图都对称于真值,即,但由于,故的分布图比的分布图更集中于总体。3.5.判
17、定系数:拟合优度的一个度量1.以上所讨论的是关于估计量的性质,即线性无偏且方差最小,因此,样本回归直线是总体的一个无偏且具有高精度(方差最小)的估计,但由于总体一般是未知的,所以以下的分析针对样本回归直线。但对于所谓尽可能逼近还没有正式定义和度量,所谓尽可能逼近,其定义和度量之一是,围绕样本回归直线的偏差(残差)尽可能小,即样本数据尽可能拟合SRL,度量这种拟合程度即为判定系数,或拟合优度,记为。基于对SRL的残差尽可能小,我们以下导出拟合优度的公式。由(3.17)在(3.17)中,定义(3.18)(3.18)所度量的是所有观测值(样本点)与其均值(或总体均值,因为)的总变异(),故称为总变异
18、或总平方和,记为TSS。而解释平方和ESS定义为(3.19)由于在ESS中,表示回归直线上的点与样本均值(等于总体均值)的总离差,因此它度量了回归直线与总体均值的“逼近”程度,故称为解释平方和,或由回归解释的平方和,即在TSS(总变异)中,由回归所解释的变异。而残差平方和RSS定义为(3.20)这一项称为残差平方和。这样TSS就分解为TSSESSRSS(3.21)其意义如上所述,图示如P61图3.10.图3.3.Yi的总离差分解图对(3.20),有1ESS/TSSRSS/TSS拟合优度的定义即是在总变异中,由回归所产生的变异占的比重(3.22)显然,有,经简单推导,可表示为进一步,将TSS=E
19、SS+RSS用r2表示,有图示:用园表示变异,r2的大小可直观表示为下图.3.相关系数X和Y的相关系数,度量这两个变量之间的线性相关程度,这是与拟合优度相关但不相同的一个概念。定义:X和Y之间的相关系数,定义为(3.22)这一相关系数称为样本相关系数。我们前面所讲的拟合优度的意义是X的变异对Y的变异的解释程度,即r2=ESS/TSS但相关系数r所度量的是线性相关程度,尽管它们之间的关系为相关系数r的性质:1;2.对称性,即X与Y之间的相关系数等于Y与X之间的相关系数,rXY=rYX;3.相关系数与原点和尺度无关,即其中X*=aX+c,Y*=bY+d,a0,b0,a,b,c,d为常数;4.X与Y
20、独立,则它们之间的相关系数为0,反之,不相关,即相关系数r=0不等于它们独立;5.相关系数r仅是线性相关(或线性相依)的一个度量,不能用于度量非线性,如X与Y之间有非线性关系Y=X2,即X与Y没有线性相关,故相关系数r=0;7.相关系数r不能度量X的变异解释Y的变异的程度.P64图3.11所示的是正负相关和不相关的图解,当X的变化与Y的变化成比例,X与Y有正或负相关,而当X与Y呈现出近似的比例变化,r接近于1或1,而r0表明X与Y之间没有线性相关而是具有确定的非线性的函数关系。3.6.数值例子。关键概念,MPC,估计,注意从表3.2中读取数据Xi和Yi后计算xi=Xi,yi=和x2i,xiyi
21、(i=1,2,10)等数据,按定义计算计算和进一步,计算参数估计的方差和标准差:再计算TSS,ESS和RSS和拟合优度基于以上的计算所得到的回归直线为其样本表示为图形为:对于以上的计算(估计)结果的解释:1.样本回归直线是总体回归直线的一个估计,即对于任一X(如X=100),从样本回归直线上可找到相应的点YX=100=24.4545+0.5091*100=75.46它是总体E(Y/X=100)的估计,一般地,为E(Y/X=Xi)估计,由于E(Y/X=Xi)为条件均值,所以为Y的期望(均值)的估计;2.表示在X=80至260这样的极差变化的范围内,周收入X每增加一美元,将使每周消费增加0.51美
22、元,即MPC=0.51,3.可机械地解释为当收入为0时,每周消费平均需24.4545,由于X的值不包括0,故上述解释是强行令X=0,故这种解释是机械地解释.另一种解释是,模型仅包括收入变量,故截距的估计可解释为没有包括在模型中的变量对消费的平均影响.4.拟合优度为0.9621,表明样本回归直线对数据拟合的程度很高,从图形看,样本数据Yi没有偏离样本回归直线较远,且有两个点落在直线上,说明每周消费的变异约有96%被X所解释。3.7例子例1.美国咖啡需求:替代品与模型设定,即咖啡的替代品(水,茶等)可能对咖啡需求产生影响,如考虑替代品的影响,需用多元模型。我们这里用二元模型研究需求与价格的关系(可
23、能导致模型设定偏差),作为例子,用每人每日杯数和每杯价格分别作为应变量和解释变量,故模型为Yi=Xi+ui例2.消费函数与关于总体和样本的例子不同,本例研究总量个人消费支出(PCE,记为Y)与GDP(度量总量收入,记为X)的关系,基于消费理论,有Yi=Xi+ui运用EVIEWS,第一步,输入数据;第二步,根据所设定的模型进行估计,命令:LSYCX,产生回归结果;第三步,报告和分析回归结果.数据如图回归:LSYCXDependentVariable:YMethod:LeastSquaresDate:09/05/04Time:18:31Sample:19801991Includedobservat
24、ions:12VariableCoefficientStd.Errort-StatisticProb.C-231.79510357694.5275-2.45210.03413X0.7194334726580.0217433.07801.5051e-11R-squared0.99094334525Meandependentvar2880.6AdjustedR-squared0.990037679775S.D.dependentvar314.4417S.E.ofregression31.3848778159Akaikeinfocriterion9.8815Sumsquaredresid9850.1
25、0555522Schwarzcriterion9.96235897529Loglikelihood-57.289247202F-statistic1094.16045179Durbin-Watsonstat1.28418254948Prob(F-statistic)1.50516803291e-11基于以上的回归结果,有3.8.要点:1.CLRM,方差标准差及其估计性质,无偏估计,最优无偏估计,评价数据对模型的拟合优度,BLUM的假定与估计性质,2.概念:方差与变异,自由度,相关系数,独立。正态性假定:经典正态线性回归模型在前面的分析中,我们对扰动作出了一系列假定,但没有假定分布,相应地,对估
26、计量也就没有讨论分布问题,因此,我们也无法对估计量进行推断.本章将继续讨论推断这一问题.对于模型(4.1)我们首先讨论扰动的分布。4.1.的概率分布.前述对(4.1)作OLS时,对扰动的分布没有假定。也就是说,无论扰动的分布为何,对(3.1)作OLS,所得到的估计量,在前面10条假定之下,均为BLUE,如果研究的目的仅是估计参数,OLS方法就可实现这一目的。但是,没有分布假设,不可能对估计参数作出任何推断,也就不可能对估计作出有意义的评价,而且也不可能对任何有关总体的假定作出检验。对的概率分布作出合适的假定,即假定为正态分布,能解决上述问题。4.2.的概率分布假定为正态分布经典正态线性回归假定具有正态分布,且均值:方差:,表示对每一个,方差相同协方差上述假定采取记为(4.2)上述假定表示,每一个具有同
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 茶艺小课程设计大全
- 茶文化融合课程设计
- 2024年度设备采购合同:某制造企业与设备供应商之间的采购协议
- 2024年度黄豆市场调研合同
- 2024年度影视制作播放版权合同
- 2024年度环保设备采购和安装合同
- 茶叶购买平台研究报告
- 2024年度能源管理合同:厨房能源优化与节能减排服务
- 茶叶新产品开发研究报告
- 茶叶感官检验研究报告
- 人教部编版《只有一个地球》完美PPT(共52张PPT)课件
- 洗煤厂安全操作规程
- 生态养猪场建设项目建设可行性分析报告(完整版)
- JGJ130-2019脚手架规范
- 碧水湾幻灯片
- 工程项目施工成本控制
- 中学历史教学基本技能
- 挑战杯”申报书填写参考范本(科技发明制作B类)
- 软组织肉瘤术后化疗临床路径
- 葵花籽油国家标准
- 合格供货方档案表
评论
0/150
提交评论