版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、重点问题重点问题v 参数的最小二乘估计参数的最小二乘估计v 最小二乘估计的性质最小二乘估计的性质v 参数估计的检验参数估计的检验v 预测预测1、几个概念、几个概念条件分布条件分布Conditional distribution):以):以X取定值为条件的取定值为条件的Y的条件分的条件分布布条件概率条件概率Conditional probability):给定):给定X的的Y的概率,记为的概率,记为P(Y|X)。例如,例如,P(Y=55|X=80)=1/5;PY=150|X=260)=1/7。条件期望条件期望conditional Expectation):给定):给定X的的Y的期望值,记为的期
2、望值,记为E(Y|X)。例如,例如,E(Y|X=80)=551/5601/5651/5701/5751/565总体回归曲线总体回归曲线Popular Regression Curve)(总体回归曲线的几何意)(总体回归曲线的几何意义):当解释变量给定值时因变量的条件期望值的轨迹。义):当解释变量给定值时因变量的条件期望值的轨迹。2、总体回归函数、总体回归函数( Popular Regression Function,PRF)E(Y|Xi)=f(Xi)当当PRF的函数形式为线性函数,则有,的函数形式为线性函数,则有,E(Y|Xi)=1+2Xi其中其中1和和2为未知而固定的参数,称为回归系数。为未
3、知而固定的参数,称为回归系数。1和和2也分别称也分别称为截距和斜率系数。为截距和斜率系数。上述方程也称为线性总体回归函数。上述方程也称为线性总体回归函数。3、“线性的含义线性的含义 “线性可作两种解释:对变量为线性,对参数为线性。一般线性可作两种解释:对变量为线性,对参数为线性。一般“线性回归线性回归一词总是指对参数一词总是指对参数为线性的一种回归即参数只以它的为线性的一种回归即参数只以它的1次方出现)。次方出现)。 4、PRF的随机设定的随机设定 将个别的将个别的Yi围绕其期望值的离差围绕其期望值的离差(Deviation)表述如下:表述如下: ui=Yi-E(Y|Xi) 或或 Yi=E(Y
4、|Xi)+ui其中其中ui为随机误差项为随机误差项Stochastic error或随机干扰项或随机干扰项Stochastic disturbance)。线性总体回归函数:)。线性总体回归函数: PRF:Yi=1+2Xi+ui=E(Y|Xi)+ui5、随机干扰项的意义、随机干扰项的意义 随机扰动项是从模型中省略下来的而又集体地影响着随机扰动项是从模型中省略下来的而又集体地影响着Y的全部变量的全部变量的替代物。显然的问题是:为什么不把这些变量明显地引进到模型中来,的替代物。显然的问题是:为什么不把这些变量明显地引进到模型中来,而以随即扰动项来替代?理由是多方面的:而以随即扰动项来替代?理由是多方
5、面的:(1理论的含糊性:理论不能完全说明影响因变量的所有影响因素。理论的含糊性:理论不能完全说明影响因变量的所有影响因素。(2数据的欠缺:无法获得有关数据。数据的欠缺:无法获得有关数据。(3核心变量与周边变量:希望能找到与有较大影响的核心变量的关系。核心变量与周边变量:希望能找到与有较大影响的核心变量的关系。(4内在随机性:因变量具有内在的随机性。内在随机性:因变量具有内在的随机性。(5替代变量:用来代替不可观测变量的替代变量选择,造成一定误差。替代变量:用来代替不可观测变量的替代变量选择,造成一定误差。(6省略原则:研究中尽可能使回归式简单。省略原则:研究中尽可能使回归式简单。(7错误的函数
6、形式:回归式的的选择是主观的。错误的函数形式:回归式的的选择是主观的。6、样本回归函数、样本回归函数SRF) 由于在大多数情况下,我们只知道变量值得一个样本,要用样本信由于在大多数情况下,我们只知道变量值得一个样本,要用样本信息的基础上估计息的基础上估计PRF。 X(收入)80100120140160180200220240260Y(支出)55657980102110120135137150样本1 X(收入)80100120140160180200220240260Y(支出)708094103116130144152165178样本2iiiuXY21样本回归函数SRF:的估计量为的估计量为的估
7、计量为其中12211,Xi)|E(YY, 在回归分析中,我们用SRF估计PRF。 估计量估计量Estimator):一个估计量又称统计量):一个估计量又称统计量(statistic),是指一个,是指一个规则、公式或方法,以用来根据已知的样本所提供的信息去估计总体参数。规则、公式或方法,以用来根据已知的样本所提供的信息去估计总体参数。在应用中,由估计量算出的数值称为估计值)(在应用中,由估计量算出的数值称为估计值)(estimate)。样本回归函数样本回归函数SRF的随机形式为:的随机形式为:iiiiuYuX Y21i其中 表示样本残差项residual)。iu Xi X PRF:E(Y|Xi)
8、=1+2XiSRF:YE(Y|Xi)iiXY21iu iuiYiY SRF SRF是是PRFPRF的近似估计。的近似估计。 为了使二者更为接近,即为了使二者更为接近,即要使要使2211,尽可能接近尽可能接近主要内容主要内容v第一节第一节 模型的假定模型的假定 v第二节第二节 参数的最小二乘估计参数的最小二乘估计 v第三节第三节 最小二乘估计量的性质最小二乘估计量的性质v第四节第四节 系数的显著性检验系数的显著性检验v第五节第五节 预测和预测区间预测和预测区间第一节第一节 模型的假定模型的假定第一节第一节 模型的假定模型的假定 或 Y=f(X1,X2,Xn,u) (15) 其中最简单的形式为一元
9、线性回归模型 Y=1+2X+u (16) 计量经济学只讨论变量之间不完全确定的关系,如式(14)或式(15)所表示的关系。 如式(16)所表示的关系式,称为一元线性回归模型。 “一元是指只有一个自变量X,这个自变量X可以解释引起因变量Y变化的部分原因。因而,X称为解释变量,Y称为被解释变量,1和2为参数。第一节第一节 模型的假定模型的假定v “线性一词在这里有两重含义。它一方面指被解释变量Y与解释变量X之间为线性关系,另一方面也指Y与参数1、2之间为线性关系。v 在数理统计学中,“回归通常指散布点分布在一条直线(或曲线)附近,并且越靠近该直线(或曲线),点的分布越密集的情况。 v “模型一词通
10、常指满足某些假设条件的方程或方程组。第一节第一节 模型的假定模型的假定第一节第一节 模型的假定模型的假定假设假设3 3 不同的误差项不同的误差项utut和和usus之间互相独立,即之间互相独立,即 cov(ut,us)=E(ut-E(ut)(us-E(us)=0 cov(ut,us)=E(ut-E(ut)(us-E(us)=0 (110)(110)第一节第一节 模型的假定模型的假定 (ts; t=1, 2, , n; s=1, 2, , n) (ts; t=1, 2, , n; s=1, 2, , n)或或 E(utus)=0 (111) E(utus)=0 (111) 假设假设4 4 解释变
11、量解释变量XtXt与误差项与误差项utut不相关,即不相关,即 cov(Xt, ut)=E(Xt-E(Xt)(ut-E(ut) cov(Xt, ut)=E(Xt-E(Xt)(ut-E(ut) =E(Xt-E(Xt)ut) =E(Xt-E(Xt)ut) =0 (t=1, 2, =0 (t=1, 2, , n) (112) n) (112) 假设假设5 ut5 ut为服从正态分布的随机变量,即为服从正态分布的随机变量,即 ut utN(0, u2)N(0, u2) 以上五个假设条件称为经典假设条件。以上五个假设条件称为经典假设条件。 综上所述,一元线性回归模型可以归结为综上所述,一元线性回归模型可
12、以归结为 Yt=1+2Xt+ut(t=1, 2, Yt=1+2Xt+ut(t=1, 2, , n) (113) n) (113)第一节第一节 模型的假定模型的假定 E(ut)=0 cov(ut, us)=0 (ts; t, s=1, 2, , n) var(ut)=u2 (常数常数) cov(Xt, ut)=0 utN(0, u2) 第二节第二节 参数的最小二乘估计参数的最小二乘估计ntttYY1ntttYY1)(ttYYmax21)(ntttYY 第第4 4种准则,由于逐项平方,不存在正负抵消的问种准则,由于逐项平方,不存在正负抵消的问题。它不仅考虑了所有点的影响,而且具有无偏性,题。它不仅
13、考虑了所有点的影响,而且具有无偏性,是一个很好的准则。这个准则称为最小二乘准则。用是一个很好的准则。这个准则称为最小二乘准则。用最小二乘准则寻找拟合直线的方法称为最小二乘法。最小二乘准则寻找拟合直线的方法称为最小二乘法。第二节第二节 参数的最小二乘估计参数的最小二乘估计为简化表达式,从本节起,在不会发生误解的情况下,为简化表达式,从本节起,在不会发生误解的情况下,略去求和指标略去求和指标t t求和的上下限。只要求和符号没有上下限,求和的上下限。只要求和符号没有上下限,就表示为从就表示为从t=1t=1到到t=nt=n求和。即用求和符号求和。即用求和符号代替符号代替符号nt1假设估计直线:假设估计
14、直线:Y= Y= * * + + * *X X* *,* *为参数估计为参数估计当当X=XtX=XtYt= Yt= * * + + * *XtXt(Xt,Yt)(Xt, (Xt,Yt)(Xt, * * + + * *Xt)Xt)残差:残差:et= Yt-( et= Yt-( * * + + * *Xt)Xt)误差:误差:ut= Yt-( + Xt)ut= Yt-( + Xt)残差平方和:残差平方和:Q= et2= Yt-( Q= et2= Yt-( * * + + * *Xt)2Xt)2第二节第二节 参数的最小二乘估计参数的最小二乘估计 22()( ):0, 0: 20 20 tttttttt
15、OLSordinary least squaresQQQYXYXXYXX YnXYXnX 最小二乘法求出参数估计量使达到最小值.正规方程: 即第二节第二节 参数的最小二乘估计参数的最小二乘估计 222222: XXttYYttXYttttXXXYXYXXSXXXnXSYYYnYSXXYYX YnXYSSSS 定义 则式变为: YX第二节第二节 参数的最小二乘估计参数的最小二乘估计XYX-Y)XX()YY)(XX(*2ttt*估计的回归方程:最小二乘估计第二节第二节 参数的最小二乘估计参数的最小二乘估计总体有限总体无限总体任何样本都是有限的 第三节第三节 最小二乘估计量的性质最小二乘估计量的性质
16、 一、线性特性 是指参数估计值*1和*2分别为观察值Yt或扰动项ut的线性组合。 证: *2 =Xtyt/ Xt2 =Xt(Yt- )/X2t =(Xt/Xt2Yt 令 bt= (Xt/Xt2) 得 *2 = bt Yt 即*2 是Yt的线性组合Y第三节第三节 最小二乘估计量的性质最小二乘估计量的性质 *2=btYt =bt(1+2Xt+ut) =1bt+2btXt+btut 其中: bt=(Xt/Xt2)=Xt / Xt2=0 btXt=(Xt/Xt2)Xt=(Xt(Xt+ )/Xt2)=1 所以 *2 =2+btut即*2也是ut的线性组合 X第三节第三节 最小二乘估计量的性质最小二乘估计
17、量的性质 *1= - 1 =(1/n)Yt- btYt =(1/n)- btYt令 at= (1/n)- bt由于和bt均为非随机变量,所以at也是非随机变量。因而 *1 =atYt即*1是Yt的线性组合。 YXXXX第二节第二节 参数的最小二乘估计参数的最小二乘估计 *1 =at(1+2Xt+ut) =1at+2atXt+atut其中:at=(1/n)- bt=1- bt=1atXt=1/n- btXt =(1/n)Xt- btXt =0所以*1 =1+atut即*1也是ut的线性组合XXXX第三节第三节 最小二乘估计量的性质最小二乘估计量的性质二、无偏性 指*1和*2 的期望值分别等于总体
18、参数1和2。 即E(*1)=1 E(*2 )=2 E(*2 )=E(2+btut) =2+btE(ut) =2 E(*1)=E(1+atut) =1 第三节第三节 最小二乘估计量的性质最小二乘估计量的性质三、最优性 指最小二乘估计*1和*2在各种线性无偏估计中,具有最小方差。 1.先求*1和*2的方差 var(*2) = var(btYt) = bt2 var(1+2Xt+ut) = bt2 var(ut)= (Xt/Xt2)22 = 2 /Xt2 var(*1)= var(atYt) = at2 var(1+2Xt+ut) = at2 var(ut)= (1/n)- bt22 = 2 (1/
19、n+ 2/ Xt2)XX第三节第三节 最小二乘估计量的性质最小二乘估计量的性质2.2.证明最小方差性证明最小方差性 假设假设* * *2 2是其他方法得到的关于是其他方法得到的关于22的线性的线性无偏估计无偏估计 * * *2=ctYt2=ctYt 其中,其中,ct=bt+dtct=bt+dt,dtdt为不全为零的常数为不全为零的常数 则容易证明则容易证明 var( var(* * *2) var(2) var(* *2) 2) 同理可证明同理可证明11的最小二乘估计量的最小二乘估计量* *1 1具有最具有最小方差。小方差。 高斯高斯马尔可夫定理马尔可夫定理(Gauss-Markov (Gau
20、ss-Markov theorem)theorem): 满足性质满足性质1 1、2 2、3 3的最小二乘估计量是最优线的最小二乘估计量是最优线性无偏估计量性无偏估计量best linear unbiased best linear unbiased estimatorestimator:BLUEBLUE)第四节第四节 系数的显著性检验系数的显著性检验一、误差项方差估计 对比总体回归模型和样本回归模型,可以看出,残差et可以看做误差项ut的估计值。计算如下:22222222: , ,2 (1) (2) (3)tttttttttttttttYXueYYYYuubXXeuuuubXXbXX 的估计量
21、模型:包含三个未知参数第四节第四节 系数的显著性检验系数的显著性检验 2222222222222223,(2)2,(1)1(1),(2),(3)122:2,XXXXttESEEnSEenneSnE SS 由定义则即是的一个无偏估计第四节第四节 系数的显著性检验系数的显著性检验二、参数估计的显著性检验二、参数估计的显著性检验 在上一节中,已经证明,由于最小二乘估在上一节中,已经证明,由于最小二乘估计计*1和和*2 具有线性特性,所以具有线性特性,所以*1和和*2均均为为Yt的线性组合。的线性组合。 因为因为Yt服从正态分布,所以作为服从正态分布,所以作为Yt的线性的线性组合的组合的*1和和*2也
22、服从正态分布。也服从正态分布。 由无偏性,证明了由无偏性,证明了*1和和*2的期望分别的期望分别为总体参数为总体参数1和和2。在证明最优性的过程中。在证明最优性的过程中又得到又得到*1和和*2的方差。的方差。第四节第四节 系数的显著性检验系数的显著性检验因而,可以得到*1和*2的抽样分布为),(),(222*22221*1tuttuXNXnXN 由于真实的2不知,用它的无偏估计量S2=et2/(n-2)替代时,可构造如下统计量:)2(*2222*222*ntSXStt 检验步骤:(1对总体参数提出假设 H0: 2=0, H1:20(2以原假设H0构造t统计量,并由样本计算其值*2*2St 第四
23、节第四节 系数的显著性检验系数的显著性检验(3给定显著性水平给定显著性水平,查,查t分布表,得临界值分布表,得临界值 t /2(n-2)(4) 比较,判断比较,判断 假设假设 |t| t /2(n-2),则拒绝,则拒绝H0 ,接受,接受H1 ; 假设假设 |t| t /2(n-2),则拒绝,则拒绝H1 ,接受,接受H0 ; 对于一元线性回归方程中的对于一元线性回归方程中的1 1,可构造如下,可构造如下t t统计量进统计量进行显著性检验:行显著性检验: )2()(*1*12221*1ntSXnXSttt第四节第四节 系数的显著性检验系数的显著性检验三、总体参数的置信区间 总体参数1和2的置信区间
24、分别为 *2*2*1*1)2()2()2()2(2/*222/*22/*112/*1SntSntSntSnt和第四节第四节 系数的显著性检验系数的显著性检验四、决定系数)Y-(Y)Y-Y(Y-YYtttt,再求和得上式两边减去ttteYY 由样本回归模型和样本回归方程,可以得到由样本回归模型和样本回归方程,可以得到 这个恒等式把被解释变量的总偏差分解成相应的这个恒等式把被解释变量的总偏差分解成相应的可解释偏差可解释偏差( (回归偏差回归偏差) )和残差和残差( (随机偏差两部分之随机偏差两部分之和,如下图:和,如下图:第四节第四节 系数的显著性检验系数的显著性检验ttYY 图15被解释变量偏差
25、的分解 XXtOYXyttYY Yt第四节第四节 系数的显著性检验系数的显著性检验记2)(YYTSSt总体平方和总体平方和Total Sum of Squares))(YYESSt回归平方和回归平方和Explained Explained Sum of SquaresSum of Squares)2)(ttYYRSS残差平方和残差平方和Residual Residual Sum of Squares Sum of Squares )TSS=ESS+RSS可以证明第四节第四节 系数的显著性检验系数的显著性检验ttt2t1tt212222X)X()( )()( )(2)()()()()(YYYYY
26、YYYYYYYYYYYYYYYttttttttttttt其中:由正规方程组00tttX第四节第四节 系数的显著性检验系数的显著性检验所以0)()()(222ttttYYYYYY即TSS=ESS+RSS Y的观测值围绕其均值的总离差(total variation)可分解为两部分:一部分来自回归线(ESS),另一部分则来自随机势力(RSS)。在给定样本中,TSS不变, 如果实际观测点离样本回归线越近,则ESS在TSS中占的比重越大。第四节第四节 系数的显著性检验系数的显著性检验因此定义:222)()(YYYYTSSESSRtt表示拟合的程度,因此称为决定系数(coefficient of det
27、ermination)或拟合优度。在相关分析中R2 也称为复相关系数。 0R2 1第四节第四节 系数的显著性检验系数的显著性检验五、相关分析 通常把相关分析作为回归分析的补充分析方法。相关分析分为线性相关与非线性相关,如果样本点集中分布在一条直线附近,则两变量的关系称为线性相关。当直线的斜率为正值,两变量的关系称为正线性相关。当直线的斜率为负值,两变量的关系称为负线性相关。如果样本点集中分布在一条曲线附近,则两变量的关系称为非线性相关。 第四节第四节 系数的显著性检验系数的显著性检验v线性相关:通常用相关系数表示X和Y的相关程度 2222)var()var(),(ttttttttXYyxyxn
28、ynxnyxyXYXCOVrrXY为X与Y的简单相关系数(只有两个变量相关的相关系数),同时也是样本相关系数 第四节第四节 系数的显著性检验系数的显著性检验总体相关系数)var()var(),(YXYXCOVXY-1 1=0,表示总体,表示总体X与与Y不相关;不相关;0,表示总体,表示总体X与与Y在一定程度上相关;在一定程度上相关;=1,表示总体,表示总体X与与Y完全正相关或完全负相完全正相关或完全负相关。关。 第四节第四节 系数的显著性检验系数的显著性检验X与与Y总体是否相关的检验总体是否相关的检验提出假设:提出假设: H0 =0 H1 0 构造统计量构造统计量2n1)2(2rSntSrtr
29、r其中:第四节第四节 系数的显著性检验系数的显著性检验六、相关分析与回归分析的联系2RrYX 决定系数R2与相关分析中的简单相关系数rXY之间的关系 简单相关系数rXY与回归分析中的参数估计*2的关系)var()var(*2XYrXY第五节第五节 预测和预测区间预测和预测区间一、预测的点估计根据样本回归方程ttXY21对原样本外的任意解释变量X0,可得到tXY210因为:的无偏估计值。是即)()()()(0000210210YEYYEXXEYE第五节第五节 预测和预测区间预测和预测区间的无偏估计值。不是可见00000210210)()(YYYXXEYE)(0)(0000YYYYE即二者之差值得注意:但是 在多次观察中,平均值趋向于零,从这个意义上是合理的中心区来估计用0000间作为,并且用YYYY第五节第五节 预测和预测区间预测和预测区间二、预测的区间估计 1.E(Y0)的置信区间)()()(var(2000000YYEEYYEEYYE因为0)()()(0000YEYEYYEE 所以)(2)()()()()var()()(var(221102220211202211020000EXEXEXEYYYEEYYE第五节第五节 预测和预测区间预测和预测区间因为22202022202221211)var()()v
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 勤工助学工作总结15篇
- 酒店实习报告模板锦集10篇
- 爱话题作文15篇
- 纹身操作手法课程设计
- 高中信息技术 键盘和键盘操作教案
- DB2301T 193-2024林粮间作技术规程
- 动脉导管未闭课件
- 借证协议书(2篇)
- 儿童故事版权使用合同(2篇)
- 妇幼保健计划生育服务中心传染病卫生应急预案
- DB63-T 1672-2018+沥青路面整治工程新旧路面联结层技术规范
- 基于CAN通讯的储能变流器并机方案及应用分析报告-培训课件
- 园艺疗法共课件
- 布氏、韦氏、洛氏硬度换算表
- 钢筋混凝土地下通道课程设计
- 韩流对中国文化的影响课件
- 检验检测服务公司市场营销计划
- 医务人员外出进修流程图
- DB32∕T 2349-2013 杨树一元立木材积表
- 昌乐二中271高效课堂培训与评价ppt课件
- 猪场名词及指标讲义
评论
0/150
提交评论