




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三章回归模型的估计:概论RegressionModelEstimation:GeneralApproaches第一页,共四十六页。
第二章指出,当联合概率分布p(X,Y)已知时,在MSE最小化准则下,E(Y|X)是Y的最佳代表,被称为是Y关于X的回归函数(regressionfunction),也可称为总体回归函数(populationregressionfunction)。
而当上述总体回归函数呈现线性形式
E(Y|X)=X’0时,则称回归模型Y=X’+u关于E(Y|X)正确设定,这时“真实”参数0等于最佳线性最小二乘解*:
0=*=[E(XX’)]-1E(XY)且E(u|X)=0E(Xu)=0第二页,共四十六页。
问题是:我们往往不知道总体的p(X,Y)。因此,只能通过样本来估计总体的相关信息。
根据样本估计总体构成了回归分析的主体内容。第三页,共四十六页。§3.1参数估计:概论
ParameterEstimation:GeneralApproaches
设(Y1,Y2,…,Yn)’是从未知总体Y~f(Y)中随机抽取的一个样本,并由此估计总体的特征,如参数。我们可以寻找一个关于的估计量(estimator)T,它是关于所抽样本Y的函数:T=h(Y)
对于某一样本(Y1,Y2,…,Yn)’,则有一个估计值(estimate):t=h(Y1,Y2,…,Yn)第四页,共四十六页。一、衡量参数估计量优劣的准则
CriteriaforanEstimator
1、有限样本准则
记T为所选取的统计量,则T与参数的差异可用均方误(meansquareerror,MSE)刻画:
E(T-)2由于T关于的均方误有如下分解式
E(T-)2=Var(T)+[E(T)-]2记[E(T)-]=E(T)-为T关于的偏差(bias)。
Var(T)刻画了统计量T的真正的离散程度,如果它较小,表明T不太受数据随机波动的影响;如果E(T)-较小,表明T的分布密切围拢着。第五页,共四十六页。对无偏估计量,MSE=Variance,因此,在实践中还希望从无偏估计量中选择方差最小的。于是,有如下最小方差无偏准则(minimumvarianceunbiasednesscriterion)
定义:
Tisaminimumvarianceunbiasedestimator,orMVUE,ofiff
(a)E(T-)=0forall,and(b)V(T)≤V(T*)forallT*suchthatE(T*-)=0定义:
TisanunbiasedestimatorofiffE(T-)=0,forall.最小方差无偏估计量也称为无偏有效估计量(Unbiasedandefficientestimator)第六页,共四十六页。2、无限样本准则(AsymptoticCriteria)
有限样本往往需要知道估计量的精确分布,而这是建立在对总体分布已知的情况下的。如果总体分布未知,则需要依赖无限样本准则:注意:(1)一致性的充分条件是:limE(Tn)=,且limVar(Tn)=0(2)同一参数可能会有多个一致估计量。如从对称分布的总体中抽样,则样本均值与样本中位数都是总体期望=E(Y)的一致估计量。第七页,共四十六页。在实践中,为了区分同一参数不同的一致估计量,需要从退化极限分布(degeneratelimitingdistribution)转向渐近分布(asymtoticdistribution)
尤其是,一致估计量具有以参数真实值为中心的渐近正态分布(asymptoticnormaldistribution)。因此,有如下最佳渐近正态估计量准则:第八页,共四十六页。注意:
(1)大样本BAN准则是小样本MVUE准则的渐近版本(version);(2)在计量经济学中,除了精确分布已知的情况,最佳渐近正态性,或称为渐近有效性(asymptoticefficiency),是最常选择的准则。(3)渐近有效估计量的直观表述为第九页,共四十六页。二、类比估计法(TheAnalogyPrinciple)总体参数是关于总体某特征的描述,估计该参数,可使用相对应的描述样本特征的统计量。
(1)估计总体矩,使用相应的样本矩(2)估计总体矩的函数,使用相应的样本矩的函数对线性回归模型:Y=0+1X+u1、基本原理第十页,共四十六页。
上述方法都是通过样本矩估计总体矩,因此,也称为矩估计法(momentmethods,MM)。(3)类比法还有:用样本中位数估计总体中位数;用样本最大值估计总体最大值;用样本均值函数mY|X估计总体期望函数Y|X,等
Questions:Areanalogestimatorsensiblefromastatisticalpointofview?Howreliablearethey?Whatshallwedowhenananalogestimatorisunreliable?第十一页,共四十六页。2、总体均值的估计对E(Y)=,Var(Y)=2的某总体随机抽样,由类比法(矩法)知:记T=∑iciYi,ci为不全为0的常数。
E(T)=E(∑ciYi)=∑ciE(Yi)=∑ci
Var(T)=∑ci2Var(Yi)=2∑ci2于是,任何无截距项,系数和为1的Yi的线性组合都是的无偏估计量。第十二页,共四十六页。要寻找最佳估计量,则需在约束∑ci=1下求解
min∑ci2记Q=∑ci2-(∑ci-1)则Q/ci=2ci-(i=1,2,…,n)
Q/=-
(∑ci-1)由极值求解条件得:ci=/2,∑ci=1于是∑ci=n/2
=2/n,ci=1/nTheorem.从任何总体中进行简单随机抽样,样本均值是总体期望的最小方差线性无偏估计量(minimumvariancelinearunbiasedestimator,MVLUE)。第十三页,共四十六页。样本均值是样本的1阶原点矩,它是总体期望,即总体1阶原点矩的无偏估计量。
事实上,对总体的任何阶原点矩(rawmoment)
=s=E(Ys)简单随机抽样中,对应的样本原点矩
Ms’=(1/n)∑iYis是总体原点矩的无偏估计量。第十四页,共四十六页。3、总体方差的估计对=2=E(Y-Y)2=2(Y未知),类比法得第十五页,共四十六页。则E(S*2)=2,S*2为总体方差2的无偏估计。
尽管S2是2的有偏估计,但却是2的一致估计量。第十六页,共四十六页。4、总体协方差的估计
对=XY=Cov(X,Y)=E[(X-X)(Y-Y)],类比法得为了讨论该统计量的性质,需考察二元联合分布:记(X,Y)的联合pdf为f(x,y),则有如下1阶、2阶矩
E(X)=X,E(Y)=Y
Var(X)=X2,Var(Y)=Y2,Cov(X,Y)=XY且可记出如下原点矩与中心矩:
E(XrYs)=rs’,E(X*rY*s)=rs其中,
X*=X-X,Y*=Y-Y第十七页,共四十六页。V的总体期望与方差如下:
E(V)=E(X*Y*)=Cov(X,Y)=XY=11Var(V)=E(V2)-E2(V)=E(X*2Y*2)-E2(X*Y*)=22-112第十八页,共四十六页。同时有如下结论:下面考察SXY的统计性质:第十九页,共四十六页。容易证明:无限样本下,样本协方差SXY是总体协方差XY的一致估计量。第二十页,共四十六页。5、一元线性回归方程参数的估计
对一元线性回归模型Y=0+1X+u,在假设E(u|X)=0的条件下,E(Y|X)=0+1X,从而1=XY/X2,0=Y-1X可以证明:b1
,b0分别是1
,0的无偏估计量。Proof:第二十一页,共四十六页。求b1的条件期望(给定X=(X1,X2…,Xn)’):E(b1|X)=E[∑WiYi|X]=∑E(WiYi|X)=∑WiE(Yi|X)=∑Wi(0+1Xi)=0∑Wi+1∑WiXi=1E(b1)=E(E(b1|X))=E(1)=1同理:E(b0|X)=E(Y|X)-E(b1|X)X=(0+1X)-1X=0E(b0)=E(E(b0|X))=E(0)=0第二十二页,共四十六页。
注意:(a)通常情况,如果T1、T2分别是1、2的无偏估计量,=1/2,则T=T1/T2并不是的无偏估计量,因为
E(T)=E(T1/T2)E(T1)/E(T2)=1/2=
(b)由于大样本下,样本矩是总体矩的一致估计量,而任何样本矩的连续函数是对应总体矩函数的一致估计,即有因此,第二十三页,共四十六页。
三、极大似然估计
MaximumlikelihoodEstimation
极大似然估计是在假设随机变量Y的分布形态已知,而分布的若干参数未知的情形下,根据样本信息估计这些未知参数的一种估计方法。
基本思想:在总体分布形态已知的情况下,随机抽取的样本可能来自不同参数决定的不同的总体,而最可能来自哪个总体呢?它们所来自的总体应使其分布尽可能地拟合样本数据。1、基本原理第二十四页,共四十六页。对离散分布,分布特征由pmf(probabilitymassfunction)f(Y;)=P(Y)刻画,因此,极大似然估计,就是在所抽样本Y=(Y1,Y2,…Yn)’下,寻找适当的,以使P(Y)=f(Y;)最大。对连续分布,分布特征由pdf(probabilitydensityfunction)f(Y;)刻画。依照pmf的特征,极大似然估计,就是在所抽样本Y=(Y1,Y2,…Yn)’下,寻找适当的,以使f(Y;)最大。第二十五页,共四十六页。2、极大似然估计
对具有pdf或pmf为f(Y;)的随机变量Y(其参数未知),随机抽取一容量为n的样本Y=(Y1,Y2,…Yn)’其联合分布为:
gn(Y1,Y2,…Yn;)=if(Yi;)可将其视为给定Y=(Y1,Y2,…Yn)’时关于的函数,称其为关于的似然函数(likelihoodfunction),简记为L():
L()=
gn(Y1,Y2,…Yn;)=if(Yi;)
对离散型分布,似然函数L()就是实际观测结果的概率。极大似然估计就是估计参数,以使这一概率最大;对连续型分布,同样也是通过求解L()的最大化问题,来寻找的极大似然估计值的。第二十六页,共四十六页。例:假设有一正态随机样本Yi~N(,2),i=1,2,…,n,其中未知参数=(,2)。该似然函数与其对数函数在相同的=(,2)处达到最大。因此可求对数函数的极大值:
lnL(,2)=-(n/2)ln(2π)-(n/2)ln(2)-(1/22)(Yi-)2极值的一阶偏导条件:
ln(L)/=(1/2)(Yi-)=0
ln(L)/2=-(n/22)+(1/24)(Yi-)2=0第二十七页,共四十六页。可见,总体均值的极大似然估计就是样本均值,总体方差的极大似然估计就是样本方差。3、极大似然估计的统计性质第二十八页,共四十六页。由数理统计学知识:(n-1)s*2/2~2(n-1)因此,Var[(n-1)s*2/2]=2(n-1)Var(S*2)=24/(n-1)第二十九页,共四十六页。第三十页,共四十六页。§3.2估计总体关系
EstimatingaPopulationRelation一、问题的引入(Introduction)
现在我们系统地讨论第二章所引出的问题:利用样本信息估计Y与X的总体关系。如果线性模型是正确设定的,即Y与X间的关系为Y=E(Y|X)+U=0+1X+U则有1=XY/X2,0=Y-1X且E(Y|X)=0+1X为minE(U2)的解,E(U)=0,E(UX)=0
第三十一页,共四十六页。由类比法,在一个容量为n的随机样本下,可以写出样本线性回归模型:
Yi=b0+b1Xi+ii=1,2,…,n且有b1=SXY/SX2,b0=Y-b1X
上述b1,b0是mini2/n的解,
且i/n=0,Xii/n=0按此,我们可以通过样本信息估计总体的条件期望函数(conditionalexpectationfunction,CEF)E(Y|X).以下我们假设总体CEF的函数形式已知,即E(Y|X)=h(X;),只有参数未知。第三十二页,共四十六页。二、估计线性条件期望函数
EstimatingalinearCEF假设总体的CEF是线性的:E(Y|X)=0+1X则有最佳最小二乘解(minE(Y-(0+1X))2)
1=XY/X2,0=Y-1X且b1、b0分别是1、0的无偏且一致的估计量。第三十三页,共四十六页。Theorem.从总体回归函数为E(Y|X)=0+1X的总体中简单随机抽样,则样本回归函数的系数b0、b1分别是0、1的无偏且一致的估计量。
b1、b0的方差第三十四页,共四十六页。第三十五页,共四十六页。对多元线性回归模型:
Y=0+1X1+2X2+…+kXk+U
最佳线性最小二乘解是通过求解如下极值问题得到
minE(U2)=minE[Y-(0+1X1+…+kXk)]2
一阶极值条件为:
E(U2)/0=-2E(U)=0E(U2)/j=-2E(XjU)=0
(j=1,2,…k)或:E(U)=0,E(XjU)=0
(j=1,2,…k)解为:
=[E(XX’)]-1E(XY)其中,X=(1,X1,X2,…Xk)’,=(0,1,…k)’第三十六页,共四十六页。由类比法,在随机抽取的容量为n的一个样本下,对应的多元样本线性回归模型:
Yi=b0+b1X1i+b2X2i+…+bkXki+ei(i=1,2,…,n)
最佳线性最小二乘解是通过求解如下极值问题得到
minei2=min[Yi-(b0+b1X1i+…+bkXki)]2
一阶极值条件为:
ei2/b0=-2ei=0ei2/bj=-2Xjei=0
(j=1,2,…k)或:ei=0,Xjei=0
(j=1,2,…k)解为:
b=(X’X)-1(X’Y)其中,
第三十七页,共四十六页。三、估计非线性期望函数
EstimatinganonlinearCEF在MSE最小化准则下,Y的最佳代表为CEF:E(Y|X)Question:当已知CEF为非线性时,如何通过样本估计该CEF的未知参数呢?ANS:仍然可以使用类比法:
而h(X;)恰为下面极小化问题的解:
minE(U2)=minE[(Y-h(X;))2]设E(Y|X)=h(X;)是非线性的,总有
Y=h(X;)+U第三十八页,共四十六页。例:假设h(X;)=E(Y|X)=exp(0+1X)
则在一容量为n的样本下,相应的样本回归模型为
Yi=exp(b0+b1Xi)+ei相应的极值问题问题为:选择适当的b0、b1以求解
minei2=min(Yi-exp(b0+b1Xi))第三十九页,共四十六页。非线性最小二乘估计是有偏的,但却是一致的估计量。此方法也称为非线性最小二乘法(nonlinearleastsquares,NLLS),解为非线性最小二乘估计(estimator)
一阶极值条件为:
ei(h/b0)=0,ei(h/b1)=0或eihi=0,eihiXi=0
其中:hi=exp(b0+b1Xi)
(i=1,2,…,n)解非线性方程组,可求解参数的估计b0、b1。第四十页,共四十六页。四、估计二元响应模型
EstimatingaBinaryResponseModel
二元响应模型(binaryresponsemodel)指被解释变量Y只取二个值,如0,1。易知:
E(Y|X)=1·P(Y=1|X)+0·P(Y=0|X)=P(Y=1|X)即在二元响应模型中,CEF是在X取某值的条件下,Y取1时的条件概率。可视其为X的函数:
E(Y|X)=P(Y=1|X)=G(X;)显然G(X;)的值应属于[0,1]。因此,可取G(·)为某一概率分布函数,其自变量应是X与的某种组合。第四十一页,共四十六页。设X与的组合为线性关系:0+1X则:E(Y|X)=F(0+1X)设定Y=F(0+1X)+U则F(0+1X)是下面极值问题的解:
minE(U2)=minE[(Y-F(0+1X))2]Question:如何通过样本寻找参数的估计量?第四十二页,共四十六页。在一容量为n的随机抽取的样本下,记样本模型为
Yi=F(b0+b1Xi)+ei(1)由于F(b0+b1Xi)是非线性的,可按非线性方法求解(类比法):
minei2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 舞台道具租售协议书
- 家庭借款协议书范本
- 经营代理委托协议书
- 物料采购协议书范本
- 瓦工安全施工协议书
- 赔偿协议书举证清单
- 兄弟姊妹赡养协议书
- 疫情原因终止协议书
- 项目调查协议书模板
- 生猪保险协议书样本
- 电缆隐蔽验收记录文本20种
- 一例化脓性链球菌感染的下肢静脉溃疡伤口循证护理
- 储能系统介绍-电化学能-储能电站
- 《PCB设计与制作(基于Altium-Designer)》教材配套电子课件电子教案(全)完整版课件
- 竖井工程地质勘察报告
- 新建高中设计任务书
- 环保设施运行管理制度环保设施运行管理规定
- 山东金洲集团千岭矿业有限公司英格庄矿区矿山地质环境保护与土地复垦方案
- 髁突骨折临床诊疗-课件
- (完整版)ssm框架题库-java
- 诚信合规手册-中国石油天然气集团
评论
0/150
提交评论