比率估计和回归估计_第1页
比率估计和回归估计_第2页
比率估计和回归估计_第3页
比率估计和回归估计_第4页
比率估计和回归估计_第5页
免费预览已结束,剩余3页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、RatioandRegressionEstimator引例:1802年,拉普拉斯想要估计法国的人口数目。他获得了一个遍布全国范围的30个社区(commune的样本,截至1802年9月23日总共有2037615居民。在包括1802年9月23日以前的三年中,215599个新生儿在30个commune拉普拉斯认为30个commune的每年注册的新生儿数为215599/3=71866.33。把2037615按照71866.33来分,拉普拉斯估计每年每28.35人里有一个注册新生儿。具有众多人口的乡镇也就可能有同样众多的注册新生儿,通过用28.35乘以全法国年度新生儿总数来估计得出法国人口总数。调查中都

2、有辅助信息,抽样框也通常有每个单元额外的信息,这些信息能被用来提高我们的估计精度。一、为什么要使用比率估计/回归估计利用总体的辅助信息提高估计的精度。辅助指标的选择:第一,辅助指标应该与调查指标有较好的正的相关关系。第二,义的抽样分布较工的抽样分布变动性要小XXu得多。第三,辅助指标的总体总量或总体均值已知。比率估计、回归估计需要有足够的样本量才能保证估计的有效。有偏估计:当样本量足够大时,估计的偏倚趋于00简单地想要估计一个比率:假定总体由面积不同农业用地构成,yi=i地谷物的产量,Xi=i地的面积,B=5亩谷物的平均产量。想要估计一个总体总数,但总体大小N是未知的。但是我们知道,于是可以通

3、过t?y=ny来估计N,由此我们可以使用不同于总数N的方法而是采用辅助变量来进行测量。要估计渔网中长度长于12cm的鱼的总数,抽取一个鱼的随机样本,估计长度长于12cm的鱼所占的比例,用鱼的总数N乘以这个比例即可得到,但如果N未知不能使用。能称量渔网中鱼的总重量。鱼的长度与其重量相关。匕=yLX调整来自样本的估计量以便它们反映人口统计学的总量。在一所具有4000名学生的大学提取一个400个学生的简单随机样本,此样本可能包含240个女性,160个男性,且其中被抽中的84名女性和40名男性计划以教学为毕业后的职业。以教学为职业的总量估计:竺竺124=1240400调整后的总量估计:0-2700图-

4、1300=1270240160比率估计量被用来对无回答进行调整。设抽取一个行业的样本:令yi为i行业花费在健康保险上的金额,Xi为i行业的雇员数。假定对总体中的每个行业Xi均已知.我们希望一个行业花费在健康保险上的金额与雇员数相关。某些行业在调查中可能涉及不到。估计保险费用的总花销时调整无回答的方法之一是用总体数X乘以比率y。X二、RatioEstimator在SR舔件下,辅助指标x,其总体均值(总量)已知,则有:_yXy?ygy-yR-XXYR-X-XNyRx£xx£x2qyq1f£(YiRXi)f?=-V(向)xnXN-1例1,对以下假设总体(N=6),用简单

5、随机抽样抽取的样本,比较简单随机抽样比估计及简单估计的性质。厅P123456平均值Xi01358104.5Yi131118294618样本yy1xx1简单估计比率估计11,2130121821,31110361831,4118059.517.141,5129081516.87551,61r46r0r10P23.521.1562,331113715.7572,43181510.515.7582,532918161692,6346r1P1024.520.04545103,411183514.516.3125113,51129382016.36364123,6114631028.519.730771

6、34,518295823.516.26923144,618465103219.2155,6294681037.518.75总共抽取C:=15个样本,简单估计为:=y比率估计:yRi=2Xo2xi15151_一_1_E(yR)=ZyRi小7.686;E(y)=Zyi=1815i壬15日115115V(yr)=-ZlyRi-E(yR)122.82;V(y)=-2-E(y)I=97.8715i±15B(yR)=E(yR)-Y定-0.31356(偏倚程度);MSE(yR)=V(yR)+B2(yR)«2.92评价:简单估计是无偏的,而比估计是有偏的。简单估同的方差远远大于比估计量的方

7、差,比估计的偏差不大,其均方误差也比简单估计的小得多。因此对这个总体,比估计比简单估计的效率高。三、比率估计的性质1-f2E(r-R)-(:0Sy-RSx)nX偏倚量会小,如果:样本量n很大;抽样比n/N很大;X很大;Sx很小;相关系数R接近于1。v(Yr)=n2X2v(R)比率估计的近似方差:v(yR)-V(XR)=X2v(R)v1(f?)=E(m_r)2:_2E(y-RX)-2nXN-1N一一2'(Yi-RXi)i.1vi(R):-2nXn-1(yi-RXi)V2(目)上1(S;-2RSxy+目2S:);V2(目)定14f(s:2月Sxy+f?2sX)nXnx四、比率估计的效率1、

8、与简单估计的比较简单估计量无偏,而比率估计量渐近无偏。因此这里只比较当n比较大的情形。1-f2V(y)=Syn1-f2221-f222V(:r)(Sy+RSx-2RSyx)=(Sy+RSx_2RPSySx)nn比率估计量优于简单估计量的条件是:(R2Sx-2RPSySx)父0口p/SX=Cx(正高度相关)2SyY2Cy2、比率估计成为最优线性无偏估计的条件(1)yi与xi的关系是过原点的直线。(2)yi对这条直线的方差与xi成比例。则比率估计是最优线性无偏估计(BLUE)。例2,某县在对船舶调查月完成的货运量进行调查时,对运管部门登记的船舶台帐进行整理后获得注册船舶2860艘,载重吨位1546

9、26吨,从2860艘船舶中抽取了一个的简单随机样本,调查得到样本船舶调查月完成的货运量及其载重吨位如下表(单位:吨),要推算该县船舶调查月完成的货运量iYiXiiYiXi1780100621701202150050718231503100550814508043761109P1582056002010137050该县船舶在调查月完成货运量的比率估计为cy1123.2Y?=-X=154626=2671937Rx65s(YR)=;:;v(YR):4589302,v(YR)定-(s:+R%:-2Rsyx)=2.10617M10”;用简单估计对货运量进行估计Y?Ny=28601123.2=321235

10、22v(Y)N(1-f)211Sy=3.43303M10;s(Y)=qv(Y)定585921n,OV(YR)def?=0.6135v(Y)(注!实际中对于样本量较小的情形,使用比率估计量时不能忽视其偏倚。四、分层随机抽样下的比率估计1、separateratioestimator如果各层的样本量不小的话,则可以采用各层分别进行比率估计,将各层加权汇总得到总体指标的估计,这种方式称为分别比率估计量。'y1V2r1,r2二"X1X26=1,2,.L)L'、XLyrsWhyRh-WWhXh;YRS=Nyrsxh=gYRhXhXh2.CombinedRatioestimato

11、r分别比率估计量要求每一层的样本量都比较大,如果达不到这个要求,则它的偏倚可能比较大,这时使用联合比率估计量。yrc=XX=F?cX;YRc=T-XNyrcRcXXstXst方差的比较:W22-.Wh_2_2_2_V(Yrs)=N'、一(SyhRhSXh-2RhSyXh)nhW:cccV(Yrc)=Nz(Syh+RcSXh-2RcSyXh)nh如果每一层样本量都比较大,各层R相差较大,则分别比率估计量的方差小于联合比率估计量的方差。但当每层的样本量不太大时,还是采用联合比率估计量更可靠些,因为这时分别比率估计量的偏倚很大,从而使总的均方误差增大。五、RegressionEstimato

12、r屋=y+B(xX)=yp(Xx)汽=Ny:=0,yLr-y(srs)y:=R,yLr=y,二(X-x)=vr(比估计)X回归估计应用的两种情况:1、P事先确定设口的确定值为00,00是一常数,则:-r=亍十P0(X-X)(1)_1-f1V(yLr)=(Yi_Y)_':0(Xi-X)(S:+P:S:20oSyx)(2)因为E(ylr)=E(y)+P°E(X_x)=7而工又可以表示为后者的总体均值为丫故(2)式成立,其样本估计量:,、1-f,2-22(Vl)二(Sy-:0Sx-2:0Syx)n+Po(X-Xi)的样本均值,(3)性质:A:Vr是Y的无偏估计;B:V(VLr)是V

13、(V;r)的无偏估计;c:瓦的最佳值是CSyxsjP(总体回归系数)1-f_22Vmin(Vl)=Sy(1-P)n2、p由样本估计(yi-y)(Xi-X)b="、(Xi-X)此时:(大样本条件下)yu=y-b(x-x)v(Vlr)1-f22-Sy(1-卜).(yLr)n1-f/2,.一(yi-y)-b(xi-x)n(n2)残差万差:S(n-2)3、分层抽样中的回归估计(1)分别回归估计(yi-V)-b(xix)SE(reg),.=、'whyh'(xh-Xh)=NyLrsNhyh-:h(Xh-Xh)若Ph可以事先确定时,Yus与Hrs都是无偏的,且2,Wh(1_fh)2

14、22v(yLrs)=£-(Syh-2PhSyxh+PhSxh)nh2.SyxhS:h,一_Wh(1-fh)22(h=12.L)时达到极小值,Vmin(yLrs)=£Syh(1一Ph)nhnh、(yhi-yh)(xN-xh)若凡不能事先确定,bh=n;,当nh较大时,、(xhi-xh)22_Wh(1-fh)2(1V(yLrs):rhhS;nhWh2(1-fh)nh.(YLrs)八r(yhinh(nh-2)联合回归估计yst="Whyh,Xst'WhXh一、2yh)nh2-z-bh(Xhi_、21Wh2(1-fh)-Xh)-nh(nh-2)(nh-1)Syh(

15、1-rh)YLrc=Yst-:(X-Xst)当P事先设定时,v(.)=£Y?LrcWh2(i=Nrc=Yst:(XXst)nh(S;-2:Shyhyxh+B2s:)(无偏)当P无法事先设定时,(渐近无偏)Wh2(1-fh),2.(yhi-yh)-bc(Xhi-Xh)='nh(nh-1)Wh2(1-fh)/o20(Syh-2bcSyxh22.AS.)nh2Wh(1nh(nh其中,bYstX=415433Xst2v(Y?RC)='、h土2Nh(jfh)(s;h目2s2h-2*Syxh)=.v(YRC)=1675nh-fh)-(yhi-yh)(Xhi-Xh)-1)nh(nh

16、-1)已有例3,某市对中央直属单位和市属单位专业技术人员总数进行了分层随机调查,98年各层人员总数,135个中央直属单位有75650专业技术人员,1228个市属单位有315612专业技术人员。分别在两层中调查了15、20家单位,调查数据如下,试估计99年全市专业技术人员总数。(1)按分别比率估计量估计2YrsF?hXh=415524hz1v(Y?rs)金N2(1-fh)(s;h-2F?syxh+F?h2s:)=V;RJ=1607h生nh(2)按联合比率估计量估计按分别回归估计量估计,用样本回归系数估计bo22_Yrs='、NrhJNhyh-bh(Xh-Xh)=415331h:1hz&#

17、177;22,NNh(1-fh)(nh-1)222,.(Yrs)=、(syh-bhsxh)='(Yrs)=1604h=1nh(nh-2)(4)按联合回归估计量估计22-:Wh(1-fh)syxhbc=1.06Y<=Ystbc(X-义st)=415386:Wh(1-fh)2、Sxhh4nh22NNh(1-fh)222,.(Yrc)='、'(Syh2bcSyxhbcSxh)=.(Yrc)=1672hnh六、其他估计如果调查时所用的辅助指标为目标量最近的普查结果,或者回归估计的回归系数接近于1,这时可以采用差值估计(无偏)。_yd=y-X_x=X-(y-x)=X-d辅助变量X与Y负相关,X和Y都为正值,使用乘积估计(有偏)。XOx_YP-N=yX八、比估计量与回归估计量的比较大样本条件下回归估计优于简单估计和比率估计已知:1-f2221-f22V(yR)(Sy-RSx2R;SxSy)V(yL;r)=Sy(1一:)nnV(r)三V(Rr)=-J2S;三R2S:2R:SxSy=(:Sy-RSx)2一0=C-R

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论