比率估计回归估_第1页
比率估计回归估_第2页
比率估计回归估_第3页
比率估计回归估_第4页
比率估计回归估_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Ratio and Regression Estimator引例:1802年,拉普拉斯想要估计法国的人口数目。他获得了一个遍布全国范围的 30个社区(commune的样本,截至1802年9月23日总共有2037615居民。在包括 1802年9月23日以前的三年中,215599个新生儿在30个commune拉普拉斯认为 30个commune的每年注册的新生儿数为215599/3=71866.33。把2037615按照71866.33来分,拉普拉斯估计每年每28.35人里有一个注册新生儿。具有众多人口 的乡镇也就可能有同样众多的注册新生儿,通过用 28.35乘以全法国年度新生儿总 数来估计得出法国

2、人口总数。调查中都有辅助信息,抽样框也通常有每个单元额外 的信息,这些信息能被用来提高我们的估计精度。一、为什么要使用比率估计/回归估计利用总体的辅助信息提高估计的精度。辅助指标的选择:第一,辅助指标应该与调查指标有较好的正的相关关系。第二,2的抽样分布较上的抽样分布变动性要小xXu得多。第三,辅助指标的总体总量或总体均值已知。比率估计、回归估计需要有足 够的样本量才能保证估计的有效。有偏估计:当样本量足够大时,估计的偏倚趋于00简单地想要估计一个比率:假定总体由面积不同农业用地构成,yi i地谷物的产量,为i地的面积,B=5亩谷物的平均产量。想要估计一个总体总数,但总体大小N是未知的。但是我

3、们知道,于是可以通过 区 Ny来估计N,由此我们可以使用不同于总数 N的方法而是采用辅助变量来进行 测量。要估计渔网中长度长于12cm的鱼的总数,抽取一个鱼的随机样本,估计长度长 于12cm的鱼所占的比例,用鱼的总数N乘以这个比例即可得到,但如果N未知不能 使用。能称量渔网中鱼的总重量。鱼的长度与其重量相关。 备 yx调整来自样本的估计量以便它们反映人口统计学的总量。 在一所具有4000名学 生的大学提取一个400个学生的简单随机样本,此样本可能包含 240个女性,160 个男性,且其中被抽中的84名女性和40名男性计划以教学为毕业后的职业。以教学为职业的总量估计:4000 124 12404

4、00调整后的总量估计:-84 2700 型 1300 1270 240160比率估计量被用来对无回答进行调整。设抽取一个行业的样本:令yi为i行业花费在健康保险上的金额,Xi为i行业的雇员数。假定对总体中的每个行业 Xi均已知. 我们希望一个行业花费在健康保险上的金额与雇员数相关。某些行业在调查中可能 涉及不到。估计保险费用的总花销时调整无回答的方法之一是用总体数X乘以比率X二、Ratio Estimator在SR舔件下,辅助指标x,其总体均值(总量)已知,则有:yR yx yxYR yx -X NyRX xx xF? yXv(R)1 f(Yi RXi)2nX2N"1例1,对以下假设

5、总体(N=6),用简单随机抽样抽取的样本,比较简单随机抽样比估 计及简单估计的性质。J*六 丁 P123456平均值Xi01358104.5Yi131118294618样本yy1Xx1简单估计比率估计11,211310121821,31110361831,4118059.517.141,51129081516.87551,614601023.521.1562,331113715.7572,43 118 11510.515.7582,532918161692,634611024.520.04545103,411183514.516.3125113,51129 382016.36364123,61

6、14631028.519.73077134,518295823.516.26923144,61814615103219.2155,6294681037.518.75总共抽取C; 15个样本,简单估计为:凶一n ,比率估计:yRi Xx2Xi1515- 1-1-E(yR)- yRi 17.686; E(y) yi 18 15 i 115 i 1- 1 152-1 152V(yR)丫曰 E(yR)2.82; V(y) y E(y) 97.8715 i115 i 1B(yR) E(yR) Y 0.31356 (偏倚程度);MSE(yR) V(yR) B2(yR) 2.92 评价:简单估计是无偏的,而

7、比估计是有偏的。简单估计量的方差远远大于比估计 量的方差,比估计的偏差不大,其均方误差也比简单估计的小得多。因此对这个总 体,比估计比简单估计的效率高。三、比率估计的性质E(r R) 二( SxSy RSX2) nX偏倚量会小,如果:样本量n很大;抽样比n/N很大;X很大;Sx很小;相关 系数R接近于1。比率估计的近似方差:v(yR) v(xR) X2v(i?)v(YR) n2X2v(i?)Vi(R) E(l? R)2X2_ _ 2E(y RX)1 f 1nX2 N 1 iN(Y RXi)21/ r?、 1 f 1v1(R)市为(yiQ2V2(R) y(S22RSxy1?2s2);v2(R)1

8、 f ,。2-2 (sy nx2RSxyl?2S2)四、比率估计的效率1、与简单估计的比较简单估计量无偏,而比率估计量渐近无偏。因此这里只比较当n比较大的情形。1 f 2V(y)Sy n1T o9 _ 9_I T _ 90 0V(yR)(SyR2S22RSyx)(S2R2S22R SySx)nn比率估计量优于简单估计量的条件是:(R2S2 2R SySx) 01sLX J (正高度相关)2 Sy Y 2Cy2、比率估计成为最优线性无偏估计的条件(1) yi与xi的关系是过原点的直线。(2) yi对这条直线的方差与xi成比例。则比率估 计是最优线性无偏估计(BLUE)。例2,某县在对船舶调查月完

9、成的货运量进行调查时, 对运管部门登记的船舶台帐进 行整理后获得注册船舶2860艘,载重吨位154626吨,从2860艘船舶中抽取了一 个的简单随机样本,调查得到样本船舶调查月完成的货运量及其载重吨位如下表(单位:吨),要推算该县船舶调查月完成的货运量。iYiXiiYiXi1780100621701202150050718231503100550814508041376109158P 2056002010137050该县船舶在调查月完成货运量的比率估计为:9 y1123.2YR 三 X 154626 2671937x 652v(YR)(f(syF?2s2 2Rsyx) 2.10617 1011

10、; s(YR) x'v(YR)458930用简单估计对货运量进行估计:Y? Ny 2860 1123.2 3212352 2v(Y)(sy 3.43303 1011; s(Y?) :v(Y?) 585921def? vY?) 0.6135v(Y)(注!实际中对于样本量较小的情形,使用比率估计量时不能忽视其偏倚。 四、分层随机抽样下的比率估计1、separate ratio estimator如果各层的样本量不小的话,则可以采用各层分别进行比率估计,将各层加权汇 总得到总体指标的估计,这种方式称为分别比率估计量。riyRSWhyRhy2-JlX2Wh t Xh; YRSXhyL(h=1,

11、2, - -.L)XlNyRS性XhXhRh2.Combined Ratio estimator分别比率估计量要求每一层的样本量都比较大,如果达不到这个要求,则它的 偏倚可能比较大,这时使用联合比率估计量。yRCyst <7 - X XstR:X ; YRc" X NyRcRcXXst方差的比较:v(YRs) N2v(YRc) n2W2(S2hWLq2(Syh nhR2sXhRcSXh2RhSyxh)2RcSyxh)如果每一层样本量都比较大,各层 R相差较大,则分别比率估计量的方差小于联合 比率估计量的方差。但当每层的样本量不太大时,还是采用联合比率估计量更可靠 些,因为这时分

12、别比率估计量的偏倚很大,从而使总的均方误差增大。五、Regression Estimator(Xx) y (x X)YtNyLr0,(srs)R, yLr y -y(X X) yR (比估计) x 回归估计应用的两种情况:1、事先确定设 的确定值为0, 0是一常数,则:yLr y 0(X X) (1)1 f 1 N V(yLr)(Yin N 1 i 1因为 E(,) E(y) 0E(X后者的总体均值为Y故(2)(yLr) U n21 f 2Y)0(Xi X)2 (Synx) Y而r又可以表示为yi式成立,其样本估计量:22_2(sy0 sx 2 0 Syx)oSx2 0Syx)(2)o(X为)

13、的样本均值,(3)性质:A: yLr是Y的无偏估计;b:(5匕)是VHLr)的无偏估计;C: 0的最佳值是0SyxST(总体回归系数)1 f 2Vmin(yLr)Sy (12、n由样本估计2)(yiy)(Xi x)(xi x)2此时:(大样本条件下)yLry b(xx) V(yLr)S2(1n2)仇)n(n 2)n(yi y) b(xix)2残差方差:Se(n 2)3、分层抽样中的回归估计 (1)分别回归估计(yiy) b(xi x)2SE(?reg).yLrsL_Wn yLrhWhyhh(Xhxh)N7LrsNhyhh(Xh xh)h可以事先确定时,ys与YLrs都是无偏的,且V(yLrs)

14、nhh Syxh2 _ 2hSxh)hShh1,2L)时达到极小值,VminSxh2Wh2(1fh)nhS;h(12)h不能事先确定,bhV(YLrs)nh(Yhiyh)(xhinh(xhixh)2Xh)当nh较大时,2 一”S2h(1nh2)Wh2(1 fh)22ng 2)(nh 1)Syh(1 rh)Wh(1fh)nh2,2nh2(yLrs)7短(yhiyh)bh(XhiXh)nh(nh2)联合回归估计ystWhVh,XstWhXhyLrcyst (X Xst)YLrcNyLrcEt(X2Sh)(无偏)当 事先设定时,V(yLrc)Wh2(1fh)(S2h 2 Syxhnh当 无法事先设定

15、时,(渐近无偏)(yLrc )Wh2(1fh)其中,bcnh (nh1)2-Wh (1fh)nh(nh1)2(yhiyh)上汽川Xh)Wh2(1fh)(s2 2b s(Syh 2bcSyxh nhbX)(Yhi yh)(Xhi Xh)Wh2(1fh)/_、2一;-(Xhi Xh)nh(nh 1)例3,某市对中央直属单位和市属单位专业技术人员总数进行了分层随机调查,已有98年各层人员总数,135个中央直属单位有75650专业技术人员,1228个市属单位 有315612专业技术人员。分别在两层中调查了 15、20家单位,调查数据如下,试 估计99年全市专业技术人员总数。(1)按分别比率估计量估计2

16、YRsRhXh 415524v(YRs)h 12 Nh(1 fh)(sjh 2RsyxhR;s2)v'v(YRs)1607h 1 M(2)按联合比率估计量估计YRC争 X 415433双tv(YRc)2 Nh(1 fh)(syh R2s2h2RhSyxh)V,vMc)1675h 11(3)按分别回归估计量估计,用样本回归系数估计bo2lrs Nyh 12(Yrs)2_lrh Nhyhbh(Xhh 1N2(1fh) (nh 1)/2(syhxh) 415331h 1 nh(nh 2)(4)按联合回归估计量估计b;sXh). (Yrs) 16042 Wh2(1fh)_Yrs YSt bc(

17、X 您)415386Syxh h 1 nhbc2 1.062 Wh (1 fh) 2Sxhh 1nh引(S2h 2bcSyxh b2sXh)(YL) 1672>2 N;(1(Yrc )h 1nh六、其他估计如果调查时所用的辅助指标为目标量最近的普查结果,或者回归估计的回归系数接近于1,这时可以采用差值估计(无偏)。_yd y X x X (y x) X d辅助变量X与Y负相关,X和Y都为正值,使用乘积估计(有偏)YP|yX八、比估计量与回归估计量的比较大样本条件下回归估计优于简单估计和比率估计 已知:1 f _2_2_2V(yR)(Sy RSx 2RSxSy)_1 f 2V(yL;r)Sy (1nnV(yLr) V(yR)2Sy R2S2 2R SxSy( Sy RSx)2 0(样本量小时,回归估计偏差大于比率估计 实际中更

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论