版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章多元线性回归模型2
在许多实际问题中,我们所研究的因变量的变动可能不仅与一个解释变量有关。例如,对某商品的需求量不仅与该商品的价格有关,而且与其它因素有关,如与消费者的可支配收入和该商品的替代品的价格有关。因此,有必要考虑线性模型的更一般形式,即多元线性模型。
t=1,2,…,n
在这个模型中,Y由X1,X2,X3,…XK所解释,有K+1个未知参数β0、β1、β2、…βK.其中,“斜率”βj的含义是其它变量不变的情况下,Xj改变一个单位对因变量所产生的影响,也称为偏回归系数。第一节多元线性回归模型的概念34上例中斜率系数的含义说明如下:价格不变的情况下,个人可支配收入每增加1元,人均食品消费支出增加0.152元。人均可支配收入不变的情况下,价格指数每上升一个点,人均食品消费支出减少5.02元。多元线性回归模型中斜率系数的含义5例2:
其中,Ct=消费,Dt=居民可支配收入
Lt=居民拥有的流动资产水平
β2的含义是,在流动资产不变的情况下,可支配收入变动一个单位对消费额的影响。这是收入对消费额的直接影响。收入变动对消费额的总影响=直接影响+间接影响。(间接影响:收入
流动资产拥有量
消费额)但在模型中这种间接影响应归因于流动资产,而不是收入,因而,β2只包括收入的直接影响。在下面的模型中:这里,β是可支配收入对消费额的总影响,显然β和β2的含义是不同的。偏回归系数bj就是xj本身变化对y的直接(净)影响。
6即对于n组观测值,有回到一般模型
t=1,2,…,7其矩阵形式为:
其中8
一、假设条件(1)E(ut)=0,t=1,2,…,n
(2)E(uiuj)=0,i≠j
(3)E(ut2)=σ2,t=1,2,…,n
(4)Xjt是非随机量,j=1,2,…kt=1,2,…n第二节多元线性回归模型的估计
多元线性回归模型的估计与双变量线性模型类似,仍采用最小二乘法。当然,计算要复杂得多,通常要借助计算机。理论推导需借助矩阵代数。下面给出最小二乘法应用于多元线性回归模型的假设条件、估计结果及所得到的估计量的性质。9
除上面4条外,在多个解释变量的情况下,还有两个条件需要满足:(5)(K+1)<n;
即观测值的数目要大于待估计的参数的个数(要有足够数量的数据来拟合回归线)。(6)各解释变量之间不存在严格的线性关系。10上述假设条件可用矩阵表示为以下四个条件:
(1)E(u)=0
(2)
这两个条件成立时才成立,因此,此条件相当前面条件(2),(3)两条,即各期扰动项互不相关,并具有常数方差。E(uiuj)=0,i≠jE(ut2)=σ2,t=1,2,…,n显然,仅当由于11
(3)X是 一个非随机元素矩阵。(4)Rank(X)=(K+1)<n.------相当于前面(5)、(6)两条即矩阵X的秩=(K+1)<n
当然,为了后面区间估计和假设检验的需要,还要加上一条:
(5)~,t=1,2,…n12我们的模型是:
二、最小二乘估计残差为:问题是选择,使得残差平方和最小。t=1,2,…n13要使残差平方和我们得到如下K+1个方程(即正规方程):为最小,则应有:14按矩阵形式,上述方程组可表示为:15即=16
我们的模型为
三、最小二乘估计量的性质1.的均值估计式为17
这表明,OLS估计量是无偏估计量。(由假设3)
(由假设1)
即
182.的方差
这是一个(K+1)*(K+1)矩阵,其主对角线上元素即构成Var(),非主对角线元素是相应的协方差,如下所示:为求Var(),我们考虑19下面推导此矩阵的计算公式.20由上一段的结果,我们有因此,21
如前所述,我们得到的实际上不仅是的方差,而且是一个方差-协方差矩阵,为了反映这一事实,我们用下面的符号表示之:展开就是:22与双变量线性模型相似,
2的无偏估计量是这是因为我们在估计的过程中,失去了(K+1)个自由度。3.
2
的估计23
对于以及标准假设条件(1)-(4),普通最小二乘估计量是最佳线性无偏估计量(BLUE),具有无偏性、具有最小方差特性、具有一致性,渐近无偏性和渐近有效性。4.高斯-马尔科夫定理24
我们已在上一段中证明了无偏性,下面证明最小方差性。证明的思路与双变量模型中类似,只不过这里我们采用矩阵和向量的形式。25
现设为的任意一个线性无偏估计量,即其中是一个(K+1)*n非随机元素矩阵。则显然,若要为无偏估计量,即,只有,为(K+1)阶单位矩阵。26
的方差为:
从而将的任意线性无偏估计量与OLS估计量联系起来。我们可将写成27由可推出:
由从而,因此上式中间两项为0,我们有因而有即28
因此
最后的不等号成立是因为为半正定矩阵。这就证明了OLS估计量是的所有线性无偏估计量中方差最小的。至此,我们证明了高斯-马尔科夫定理。29
对于双变量线性模型
Y=α+βX+u其中,=残差平方和我们有第三节拟合优度一、决定系数R230对于多元线性模型为方便计算,我们也可以用矩阵形式表示R2.我们可用同样的方法定义决定系数:31
我们有:残差,其中,残差平方和:32而这就是决定系数R2的矩阵形式。将上述结果代入R2的公式,得到:33
残差平方和的一个特点是,每当模型增加一个解释变量,并用改变后的模型重新进行估计,残差平方和的值会减小。由此可以推论,决定系数是一个与解释变量的个数有关的量:
解释变量个数增加
减小
R2
增大也就是说,人们总是可以通过增加模型中解释变量的方法来增大R2
的值。因此,用R2
来作为拟合优度的测度,不是十分令人满意的。为此,我们定义修正决定系数(Adjusted)如下:二、修正决定系数:34
是经过自由度调整的决定系数,称为修正决定系数。我们有:(1)(2)仅当K=0时,等号成立。即(3)当K增大时,二者的差异也随之增大。(4)可能出现负值。35
下面我们给出两个简单的数值例子,以帮助理解这两节的内容.
例1 Yt=
1+
2X2t+
3X3t+ut
设观测数据为:Y:31835X2:31524X3:54646
试求各参数的OLS估计值,以及。解:我们有三、例子3637383940
例2.
设n=20,k=3,R2=0.10求。解:
由本例可看出,有可能为负值。这与R2不同()。41
例2.
设n=20,k=3,R2=0.10求。解:
由本例可看出,有可能为负值。这与R2不同()。
迄今为止,我们已解决了线性模型的估计问题。但在实际问题中,变量间的关系并非总是线性关系,经济变量间的非线性关系比比皆是。如大家所熟悉的柯布-道格拉斯生产函数:
就是一例。在这样一些非线性关系中,有些可以通过代数变换变为线性关系处理,另一些则不能。下面我们通过一些例子来讨论这个问题。第四节非线性关系的处理一、线性模型的含义
线性模型的基本形式是:
其特点是可以写成每一个解释变量和一个系数相乘的形式。线性模型的线性包含两重含义:(1)变量的线性变量以其原型出现在模型之中,而不是以X2或Xβ之类的函数形式出现在模型中。(2)参数的线性因变量Y是各参数的线性函数。
对于线性回归分析,只有第二种类型的线性才是重要的,因为变量的非线性可通过适当的重新定义来解决。例如,对于
此方程的变量和参数都是线性的。如果原方程的扰动项满足高斯—马尔可夫定理条件,重写的方程的扰动项也将满足。二、线性化方法1.解释变量非线性
参数的非线性是一个严重得多的问题,因为它不能仅凭重定义来处理。可是,如果模型的右端由一系列的Xβ或eβX项相乘,并且扰动项也是乘积形式的,则该模型可通过两边取对数线性化。例如,需求函数
其中,Y=对某商品的需求
X=收入
P=相对价格指数
ν=扰动项可转换为:2.参数非线性
用X,Y,P的数据,我们可得到logY,logX和logP,从而可以用OLS法估计上式。
logX的系数是β的估计值,经济含义是需求的收入弹性,logP的系数将是γ的估计值,即需求的价格弹性。
[注释]
弹性(elasticity):一变量变动1%所引起的另一变量变动的百分比:
需求的收入弹性:收入变化1%,价格不变时,所引起的商品需求量变动的百分比。
需求的价格弹性:价格变化1%,收入不变时,所引起的商品需求量变动的百分比。⒊不可以化为线性的包含参数非线性的问题
例1需求函数本章§1中,我们曾给出一个食品支出为因变量,个人可支配收入和食品价格指数为解释变量的线性回归模型例子。现用这三个变量的对数重新估计(采用同样的数据),得到如下结果(括号内数字为标准误差):回归结果表明,需求的收入弹性是0.64,需求的价格弹性是0.48,这两个系数都显著异于0。三、例子
例2.柯布-道格拉斯生产函数生产函数是一个生产过程中的投入及其产出之间的一种关系。著名的柯布-道格拉斯生产函数(C-D函数)为
用柯布和道格拉斯最初使用的数据(美国1899-1922年制造业数据)估计经过线性变换的模型得到如下结果:
从上述结果可以看出,产出的资本弹性是0.23,产出的劳动弹性为0.81。50
上面讨论了因变量和解释变量都采用对数的双对数模型,下面再介绍几种比较常见的函数形式的模型,为读者的回归实践多提供几种选择方案。这几种模型是:
半对数模型双曲函数模型多项式回归模型四、几种有用的变量非线性模型511.半对数模型半对数模型指的是因变量和解释变量中一个为对数形式而另一个为线性的模型。因变量为对数形式的称为对数-线性模型(log-linmodel)。解释变量为对数形式的称为线性-对数模型(lin-logmodel)。
52我们先介绍前者,其形式如下:对数-线性模型中,斜率的含义是Y的百分比变动,即解释变量X变动一个单位引起的因变量Y的百分比变动。这是因为,利用微分可以得出:53
这表明,斜率度量的是解释变量X的单位变动所引起的因变量Y的相对变动。将此相对变动乘以100,就得到Y的百分比变动,或者说得到Y的增长率。由于对数-线性模型中斜率系数的这一含义,因而也叫增长模型(growthmodel)。增长模型通常用于测度所关心的经济变量(如GDP)的增长率。例如,我们可以通过估计下面的半对数模型
得到一国GDP的年增长率的估计值,这里t为时间趋势变量。54例3测算1978-2010中国国内生产总值的增长率
名义值不变价t
名义值不变价t19783645.2173645.2171199448197.8616480.331719794062.5793921.2642199560793.7318280.81819804545.6244228.7483199671176.5920110.441919814891.5614472.2764199778973.0321980.112019825323.3514877.3245199884402.2823701.892119835962.6525406.6596199989677.0525507.942219847208.0526227.1757200099214.5527658.582319859016.0377065.73882001109655.229954.3324198610275.187690.892002120332.732674.8125198712058.628581.645102003135822.835950.5826198815042.829549.705112004159878.339576.2127198916992.329937.729122005184937.444052.2928199018667.8210319.24132006216314.449636.629199121781.511194.06142007265810.356666.3330199226923.4812788.18152008314045.462125.9431199335333.9214573.96162009340902.867530.932
201040326074013.873355不变值56斜率0.095表示,中国GDP在1978-2010年间的平均年增长率为0.095,即以每年9.5%的速度增长。57例4
1949-2003年的中国人口增长率
斜率0.01685表示,样本期间平均而言,中国人口的年增长率为0.01685,即人口以每年1.685%的速度增长。截距项10.924可解释为:10.924=log(Y0),即Y0
=55475.68,可解释为1948年的人口数。 58线性-对数模型的形式如下:与前面类似,我们可用微分得到这表明因此59
上式表明,Y的绝对变动量等于乘以X的相对变动量。因此,线性-对数模型通常用于研究解释变量每变动1%引起的因变量的绝对变动量是多少这类问题。当X变动1%时,y变动
1/100或0.011。2.双曲函数模型双曲函数模型的形式为:60
不难看出,这是一个仅存在变量非线性的模型,很容易用重新定义的方法将其线性化。双曲函数模型的特点是,当X趋向无穷时,Y趋向,反映到图上,就是当X趋向无穷时,Y将无限靠近其渐近线(Y=)。双曲函数模型通常用于描述著名的恩格尔曲线和菲利普斯曲线。61
多项式回归模型通常用于描述生产成本函数,其一般形式为:
其中Y表示长期平均成本LAC,Q表示产出,P为多项式的阶数,一般不超过四阶。多项式回归模型中,解释变量X以不同幂次出现在方程的右端。这类模型也仅存在变量非线性,因而很容易线性化,可用OLS法估计模型。3.多项式回归模型62五、非线性回归上面讨论了如何将非线性模型转换为线性模型的方法,仅有变量非线性的模型,只要将模型中的非线性变量重新定义即可,而存在参数非线性的模型,则除了很小一部分能通过方程两端取对数线性化外,大多数都无法线性化。我们通过下面的两个例子说明之。例5
货币需求量与利率之间的关系M=a(r-2)bu这里,变量非线性和参数非线性并存。对此方程采用对数变换logM=loga+blog(r-2)+logu
令Y=logM,X=log(r-2),β1=loga,β2=b
则变换后的模型为:
Yt=β1+β2Xt+Vt
将OLS法应用于此模型,可求得β1和β2的估计值从而可通过下列两式求出a和b估计值:
应当指出,在这种情况下,线性模型估计量的性质(如BLUE,正态性等)只适用于变换后的参数估计量,而不一定适用于原模型参数的估计量和。
例6上例在确定货币需求量的关系式时,我们实际上给模型加进了一个结束条件。根据理论假设,在某一利率水平上,货币需求量在理论上是无穷大。我们假定这个利率水平为2%。假如不给这一约束条件,而是从给定的数据中估计该利率水平的值,则模型变为:
M=a(r-c)b
式中a,b,c均为参数。仍采用对数变换,得到
log(Mt)=loga+blog(rt-c)+utt=1,2,…,n
我们无法将log(rt-c)定义为一个可观测的变量X,因为这里有一个未知量c。也就是说,此模型无法线性化。在这种情况下,只能用估计非线性模型参数值的方法。
模型
Y=a(X-c)b是一个非线性模型,a、b和c是要估计的参数。此模型无法用取对数的方法线性化,只能用非线性回归技术进行估计,如非线性最小二乘法(NLS)。该方法的原则仍然是残差平方和最小。计量经济软件包通常提供这类方法,这里给出有关非线性回归方法的大致步骤如下:1. 首先给出各参数的初始估计值(合理猜测值);2. 用这些参数值和X观测值数据计算Y的各期预测值(拟合值);3.计算各期残差,然后计算残差平方和∑e2;4.对一个或多个参数的估计值作微小变动;
5.计算新的Y预测值、残差平方和∑e2;
6.若新的∑e2小于老的∑e2,说明新参数估计值优于老估计值,则以它们作为新起点;
7.重复步骤4,5,6,直至无法减小∑e2为止。
8.最后的参数估计值即为最小二乘估计值。非线性回归方法的步骤68一、系数的显著性检验1. 单个系数显著性检验目的是检验某个解释变量的系数βj是否为0,即该解释变量是否对因变量有影响。原假设:H0:
βj=0
备择假设:H1:
βj≠0
检验统计量是自由度为n-K-1的t统计量:~t(n-K-1)第五节假设检验69其中,为矩阵主对角线上第j+1个元素。而70例7柯布-道格拉斯生产函数用柯布和道格拉斯最初使用的数据(美国1899-1922年制造业数据)估计经过线性变换的模型得到如下结果(括号内数字为标准误差):请检验“斜率”系数和的显著性。71解:(1)检验的显著性
原假设H0:
=0
备择假设H1:
≠0
由回归结果,我们有:t=0.23/0.06=3.83用=24-3=21查t表,5%显著性水平下,tc=2.08.∵t=3.83tc=2.08,故拒绝原假设H0。结论:显著异于0。72(2)检验的显著性原假设H0:
=0
备择假设H1:
≠0
由回归结果,我们有:t=0.81/0.15=5.4∵t=5.4tc=2.08,故拒绝原假设H0。结论:显著异于0。73
有时需要同时检验若干个系数是否为0,这可以通过建立单一的原假设来进行。设要检验g个系数是否为0,即与之相对应的g个解释变量对因变量是否有影响。不失一般性,可设原假设和备择假设为:
H0:β1=β2=…=βg
=0H1:
H0不成立
(即X1,…Xg中某些变量对Y有影响)2.若干个系数的显著性检验(联合假设检验)74分析:这实际上相当于检验g个约束条件
β1=0,β2=0,…,βg
=0是否同时成立。若H0为真,则正确的模型是:
据此进行回归(有约束回归),得到残差平方和
SR是H0为真时的残差平方和。
若H1为真,正确的模型即原模型:75
据此进行无约束回归(全回归),得到残差平方和
S是H1为真时的残差平方和。如果H0为真,则不管X1,…Xg这g个变量是否包括在模型中,所得到的结果不会有显著差别,因此应该有:
S≈SR如果H1为真,则由上一节中所讨论的残差平方和∑e2的特点,无约束回归增加了变量的个数,应有
S<SR
通过检验二者差异是否显著地大,就能检验原假设是否成立。76所使用的检验统计量是:
~F(g,n-K-1)其中,g为分子自由度,n-K-1为分母自由度。使用的作用是消除具体问题中度量单位的影响,使计算出的F值是一个与度量单位无关的量。77例8给定20组Y,X1,X2,X3的观测值,试检验模型中X1和X3对Y是否有影响?解:(1)全回归估计得到:S=∑e2=25
(2)有约束回归
估计得到:SR=∑e2=3078
原假设
H0:β1=
β3=0
备择假设
H1:
H0不成立我们有:n=20,g=2,K=3
用自由度(2,16)查F分布表,5%显著性水平下,FC=3.63∵F=1.6<FC=3.63,故接受H0。结论:X1和X3对Y无显著影响79
上一段结果的一个特例是所有斜率系数均为0的检验,即回归方程的显著性检验:
H0:
β1=β2=…=βK=0
也就是说,所有解释变量对Y均无影响。注意到g=K,
则该检验的检验统计量为:
3.全部斜率系数为0的检验80
分子分母均除以,有
从上式不难看出,全部斜率为0的检验实际是检验R2的值是否显著异于0,如果接受原假设,则表明因变量的行为完全归因于随机变化。若拒绝原假设,则表明所选择模型对因变量的行为能够提供某种程度的解释。81
上面所介绍的检验若干个系数显著性的方法,也可以应用于检验施加于系数的其他形式的约束条件,如
检验的方法仍是分别进行有约束回归和无约束回归,求出各自的残差平方和SR和S,然后用F统计量进行检验。当然,单个系数的假设检验,如H0:
3=1.0,亦可用t检验统计量进行检验。二、检验其他形式的系数约束条件82例9Cobb-Douglas生产函数
Y=AKαLβν
试根据美国制造业1899-1922年数据检验规模效益不变的约束:α+β=1解:(1)全回归
(2)有约束回归:将约束条件代入,要回归的模型变为:
Y=AKαL1-αν
为避免回归系数的不一致问题,两边除以L,模型变换为:
Y/L=A(K/L)αν
83
回归,得:
由软件包可得到约束回归和全回归的残差平方和分别为
SR=0.0716S=0.0710
(3)检验
原假设
H0:α+β=1
备择假设
H1:α+β≠1
本例中,g=1,K=2,n=24
84
用自由度(1,21)查F表,5%显著性水平下,Fc=4.32∵F=0.18<Fc=4.32
故接受原假设H0:α+β=1
(4)结论我们的数据支持规模收益不变的假设。85
与双变量模型的作法类似,预测指的是对各自变量的某一组具体值来预测与之相对应的因变量值。当然,要进行预测,有一个假设前提应当满足,即拟合的模型在预测期也成立。
点预测值由与给定的诸X值对应的回归值给出,即
而预测期的实际Y值由下式给出:
其中u0是从预测期的扰动项分布中所取的值。第六节
预测86预测误差可定义为:87
从的定义可看出,为正态变量的线性函数,因此,它本身也服从正态分布。故预测误差的方差为:88
由于为未知,我们用其估计值代替它,有
则的95%置信区间为:(其中,)89例10用书上例4.3的数据,预测X2=10,X3=10的Y值。
解:
由例4.3我们已得到:
90因此
的95%置信区间为:或3.66至23.65之间.91
1.虚拟变量的定义
在回归分析中,常常碰到这样一种情况,即因变量的波动不仅依赖于那种能够很容易按某种尺度定量化的变量(如收入、产出、价格、身高、体重等),而且依赖于某些定性的变量(如性别、地区、季节等)。在经济系统中,许多变动是不能定量的。如政府的更迭(工党-保守党)、经济体制的改革、固定汇率变为浮动汇率、从战时经济转为和平时期经济等。
第七节虚拟变量(Dummyvariables)一、虚拟变量的概念92
这样一些变动都可以用大家所熟悉的0-1变量来表示,用1表示具有某一“品质”或属性,用0表示不具有该“品质”或属性。这种变量在计量经济学中称为“虚拟变量”。虚拟变量是一用以反映质的属性的一个人工变量,通常记为D(Dummy)。下面给出几个可以引入虚拟变量的例子。93例1:你在研究学历和收入之间的关系,在你的样本中,既有女性又有男性,你打算研究在此关系中,性别是否会导致差别。例2:你在研究某省家庭收入和支出的关系,采集的样本中既包括农村家庭,又包括城镇家庭,你打算研究二者的差别。例3:你在研究通货膨胀的决定因素,在你的观测期中,有些年份政府实行了一项收入政策。你想检验该政策是否对通货膨胀产生影响。
上述各例都可以用两种方法来解决,一种解决方法是分别进行两类情况的回归,然后看参数是否不同。另一种方法是用全部观测值作单一回归,将定性因素的影响用虚拟变量引入模型。942.虚拟变量模型的定义
虚拟变量在模型中,可以作解释变量,也可以作因变量。引入虚拟变量后,回归方程中同时含有一般解释变量和虚拟变量,称这种变量结构的模型为虚拟变量模型或斜方差分析模型。虚拟变量作因变量的模型又称抉择模型。
953.设置虚拟变量的原则在模型中引入多个虚拟变量时,虚拟变量的个数应按下列原则确定:
在模型存在截距项的情况下,如果有m种互斥的属性类型,在模型中引入m-1个虚拟变量。如果不如此,m个状态引入m个虚拟变量来表示,虚拟变量间会造成多重共线。例如,性别有2个互斥的属性,引用2-1=1个虚拟变量再如,文化程度分小学、初中、高中、大学、研究生5类,引用4个虚拟变量。961. 截距变动设Y表示消费,X表示收入,我们有:
}假定β不变。对于5年战争和5年和平时期的数据,我们可分别估计上述两个模型,一般将给出的不同值。现引入虚拟变量D,将两式并为一式:
其中,
二、虚拟变量的使用方法D的数据为0,0,0,0,0,1,1,1,1,1。97
此式等价于下列两式:
}截距变动,斜率不变
估计结果如下图所示:
应用t检验,β2是否显著可以表明截距项在两个时期是否有变化。98斜率变动称为系数虚拟,是为了反映结构变化之前和之后的回归系数(斜率)的差异(而不是常数项)而采取的虚拟变量处理方法:2.斜率变动0
结构变化之前1
结构变化之后
不难看出,上式相当于下列两式:其中,系数虚拟D=99也就是说,结构变化之后的回归系数为β1+β2,结构变化之前的回归系数为β1。不论在哪种情形下,常数项均为α。同样,包括虚拟变量的模型中,β2是否显著可以表明斜率在两个时期是否变化。100在这种情况下,模型可设为:
引进了虚拟变量的回归模型对于检验两个时期中是否发生结构性变化很方便。如上例中,相当于检验
H0:β2=β4=0。3.斜率和截距都变动此式等价于下列两个单独的回归式:其中,D={101
许多变量展示出季节性的变异(如商品零售额、电和天然气的消费等),我们在建立模型时应考虑这一点,这有两种方法:(1)在估计前对数据进行季节调整;(2)采用虚拟变量将季节性差异反映在模型中。4.季节虚拟变量的使用季度虚拟是通过回归模型的常数项变化(斜率回归系数一定)来掌握季度和月度等季节变化,因此,从“技术的角度”称为“常数项虚拟”。102例11
我国天然气消耗量模型设Y=我国天然气的消耗量(亿立方米)t=时间趋势
用我国2014(1)-2017(4)的季度数据,得回归结果如下:
这一结果不理想,低R2值,因为使用的是季度数据,考虑到可能是季节变异的问题,我们建立下面的模型:103各季度的截距分别为:1季度:
0+12季度:
0+23季度:
0+34季度:
0请注意我们仅用了3个虚拟变量就可表示4个季度的情况。104X=1
10011
01021
00131
00041
10051
0
106┆┆┆┆┆1………n
Q1Q2Q3X105重新回归模型,结果如下:拟合度提高很多,模型结果得到改善。四个季度的截距项分别为:469.72,337.35,340.99,508.13。106*第八节极大似然法
与普通最小二乘法相比,一个具有更强的理论性质的点估计方法是极大似然法(MaximumLikelihoodmethod,ML)。极大似然法的一般概念是,设是随机变量X的密度函数,若有一随机样本X1,X2,…XN,则的极大似然估计值是具有产生该观测样本的最高概率的那个值,或者换句话说,的极大似然估计值是使密度函数达到最大的值。下面让我们通过一个例子来进一步说明极大似然法的概念。107一、似然的概念一个样本发生的概率称为该样本的似然。例如,抛一枚不均衡的硬币10次,得到4次正面。根据二项分布,我们有
其中X=出现正面的次数
p=一次抛掷中出现正面的概率,即P(正面)
根据似然的定义,P(X=4)是当P(正面)=p时,X=4的似然。我们有:108
由于p是未知的,我们可以通过选择一个值来估计它,这个使似然最大,或者说,这个值给出该样本结果的可能性最大。我们可以通过下面两种方法求得。(1)迭代法试不同的值,找出使似然最大的值。在本例中,由于p=0.4时P(X=4)=0.251为最大,即这个值最有可能给出10次抛掷中出现4次正面的结果,因此=0.4。(2)计算法设,令,求得使L达到最大的p值。计算结果,=0.4。109二、正态分布参数的极大似然估计给定一个取自正态分布的随机样本X1,X2,…Xn,我们希望估计总体均值μ和总体方差。我们有该样本的似然
L=P(样本值为X1,X2,…Xn)110令我们可求得:我们有而这表明:111三、双变量线性回归模型的极大似然估计模型:假设(与最小二乘法相同):由假设我们有因而~112故对于Y1,Y2,…Yn,有当L被看作是参数的函数时,称为似然函数,表示为,极大似然法要求我们选择使似然函数达到最大的参数估计值。在很多情况下,极大化似然函数的对数要比极大化似然函数本身方便一些,并且结果相同,因为二者在相同的点获得最大值,因此我们写出的对数:113令
得:不难看出,前两式与用普通最小二乘法得出的正规方程相同,故。但最后一式表明,的极大似然估计量与最小二乘估计量不同。114最小二乘估计量是一个无偏估计量。而这表明是一个有偏估计量。不难看出,当样本容量趋向无穷时,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年宜春幼儿师范高等专科学校单招职业倾向性考试题库附答案解析
- 2025年保定电力职业技术学院单招职业适应性考试题库附答案解析
- 2024年罗定职业技术学院单招职业适应性测试模拟测试卷附答案解析
- 2024年青海省玉树藏族自治州单招职业倾向性测试题库附答案解析
- 2025年云南三鑫职业技术学院单招综合素质考试模拟测试卷附答案解析
- 2026年上半年新疆中小学教师资格考试(笔试)备考题库及答案【夺冠系列】
- 2026年云南轻纺职业学院单招综合素质考试模拟测试卷附答案
- 2024年云南三鑫职业技术学院单招职业适应性测试模拟测试卷附答案解析
- 2025年娄底幼儿师范高等专科学校单招职业适应性考试题库附答案解析
- 2026年丽水学院单招职业技能考试题库附答案
- 【《麦弗逊式独立悬架主要参数的确定计算案例》2000字】
- 邵东县特色中药材玉竹规范化栽培技术推广及产业化实施方案
- 长安福特5S管理
- 军品价格管理办法原文
- 2025北京高三二模英语汇编:阅读理解C篇
- 2025-2030中国考试系统行业市场发展现状分析及发展趋势与投资前景研究报告
- 2024年第一次广东省普通高中数学学业水平合格性考试真题卷含答案
- 2025年中医健康管理服务合同模板
- 《红军重走长征路》课件
- 机械加工工艺过程卡片
- 2企业安全生产标准化建设咨询服务方案
评论
0/150
提交评论