抽样技术-人大-讲稿3-比估计和回归估计PPT优秀课件_第1页
抽样技术-人大-讲稿3-比估计和回归估计PPT优秀课件_第2页
抽样技术-人大-讲稿3-比估计和回归估计PPT优秀课件_第3页
抽样技术-人大-讲稿3-比估计和回归估计PPT优秀课件_第4页
抽样技术-人大-讲稿3-比估计和回归估计PPT优秀课件_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 Chapter 4 Ratio and Regression Estimator 1802年,拉普拉斯想要估计法国的人口数目。他获得年,拉普拉斯想要估计法国的人口数目。他获得 了一个遍布全国范围的了一个遍布全国范围的30commune的样本,截至的样本,截至1802 年年9月月23日总共有日总共有2,037615居民。在包括居民。在包括1802年年9月月23 日以前的三年中,日以前的三年中,215599个新生儿在个新生儿在30个个commune。 拉普拉斯认为拉普拉斯认为30个个commune的每年注册的新生儿数为的每年注册的新生儿数为 215599/3=71866.33.把把2037615

2、按照按照71866.33来分,拉普来分,拉普 拉斯估计每年每拉斯估计每年每28.35人里有一个注册新生儿。人里有一个注册新生儿。 具有众多人口的乡镇也就可能有同样众多的注册新生具有众多人口的乡镇也就可能有同样众多的注册新生 儿,通过用儿,通过用28.35乘以全法国年度新生儿总数来估计得乘以全法国年度新生儿总数来估计得 出法国人口总数。出法国人口总数。 调查中都有辅助信息,抽样框也通常有每个单元额外调查中都有辅助信息,抽样框也通常有每个单元额外 的信息,这些信息能被用来提高我们的估计精度。的信息,这些信息能被用来提高我们的估计精度。 为什么要使用比率估计为什么要使用比率估计/回归估计回归估计 利

3、用总体的辅助信息提高估计的精度利用总体的辅助信息提高估计的精度。 辅助指标的选择辅助指标的选择 :辅助指标应该与调查指标有辅助指标应该与调查指标有较好较好 的正的相关关系的正的相关关系 。 的抽样分布较的抽样分布较 的抽样分布变的抽样分布变 动性要小得多。动性要小得多。 辅助指标的总体总量或辅助指标的总体总量或总体均值已知总体均值已知。 比率估计、回归估计需要有比率估计、回归估计需要有足够的样本量足够的样本量才能才能 保证估计的有效保证估计的有效。 有偏估计有偏估计:当样本量足够大时,估计的偏倚趋于当样本量足够大时,估计的偏倚趋于0 0。 y x u y x 简单地想要估计一个比率简单地想要估

4、计一个比率 :假定总体由面假定总体由面 积不同农业用地构成,积不同农业用地构成, yi =i地谷物的产地谷物的产 量量, xi :i地的面积,地的面积,B=每亩谷物的平均每亩谷物的平均 产量产量 想要估计一个总体总数,想要估计一个总体总数,但总体大小但总体大小N是未是未 知的知的。但是我们知道。但是我们知道,于是可以通过来估计于是可以通过来估计N, 由此我们可以使用不同于总数由此我们可以使用不同于总数N的方法而是采的方法而是采 用辅助变量来进行测量。用辅助变量来进行测量。 要估计渔网中长度长于要估计渔网中长度长于12cm的鱼的总数,抽取的鱼的总数,抽取 一个鱼的随机样本,估计长度长于一个鱼的随

5、机样本,估计长度长于12cm的鱼所的鱼所 占的比例,用鱼的总数占的比例,用鱼的总数N乘以这个比例即可得乘以这个比例即可得 到,但如果到,但如果N未知不能使用。未知不能使用。 能称量渔网中鱼的总重量。鱼的长度与其重量能称量渔网中鱼的总重量。鱼的长度与其重量 相关。相关。 yN yt x y yr x t t 调整来自样本的估计量以便它们反映人调整来自样本的估计量以便它们反映人 口统计学的总量。口统计学的总量。 在一所具有在一所具有4000名学生的大学提取一个名学生的大学提取一个 400个学生的简单随机样本,此样本可能个学生的简单随机样本,此样本可能 包含包含240个女性,个女性,160个男性,且

6、其中被个男性,且其中被 抽中的抽中的84名女性和名女性和40名男性计划以教学名男性计划以教学 为毕业后的职业。为毕业后的职业。 4000 1241240 400 8440 270013001270 240160 比率估计量被用来比率估计量被用来对无回答进行调整对无回答进行调整 设抽取一个行业的样本:令设抽取一个行业的样本:令yi为为i行业花费在健行业花费在健 康保险上的金额,康保险上的金额,xi为为i行业的雇员数。假定对行业的雇员数。假定对 总体中的每个行业总体中的每个行业xi均已知。我们希望一个行均已知。我们希望一个行 业花费在健康保险上的金额与雇员数相关。某业花费在健康保险上的金额与雇员数

7、相关。某 些行业在调查中可能涉及不到。估计保险费用些行业在调查中可能涉及不到。估计保险费用 的总花销时调整无回答的方法之一是用总体数的总花销时调整无回答的方法之一是用总体数 X 乘以比率乘以比率 y x y x 一一、 Ratio Estimator 在 srs 条件下, 1 )( 1 ) ( 2 2 N RXY Xn f RV x y R yNX x y X x y Y X x y X x y y ii RR R 辅助指标辅助指标x x,其总体均值(总量)已知,其总体均值(总量)已知 【例例1 1】对以下假设总体(对以下假设总体(N=6N=6),用简单随机抽样),用简单随机抽样 抽取的样本,

8、比较简单随机抽样比估计及简单估计抽取的样本,比较简单随机抽样比估计及简单估计 的性质。的性质。 i Y i X 123456 平均值平均值 01358104.5 131118294618 15 2 6 C R y 样本样本简单估计简单估计比估计比估计 11,2218 21,3618 31,49.517.1 41,51516.875 51,623.521.15 62,3715.75 72,410.515.75 82,51616 92,624.520 103,414.516.3 113,52016.36 123,628.519.73 134,523.516.27 144,63219.2 155,6

9、37.518.75 y y x X y x X R i i 简单估计是无偏的,而比估计是有偏的。简单估计是无偏的,而比估计是有偏的。 简单估计量的方差远远大于比估计量的方差,简单估计量的方差远远大于比估计量的方差, 比估计的偏差不大,其均方误差也比简单估计比估计的偏差不大,其均方误差也比简单估计 的小得多。的小得多。 因此对这个总体,比估计比简单估计的效率高。因此对这个总体,比估计比简单估计的效率高。 18 15 1 )( 15 1 i i yyE 87.97)( 15 1 )( 15 1 2 i i yEyyV 686.17 15 1 )( 15 1 i RiR yyE 31356. 0)(

10、)(YyEyB RR 82. 2)( 15 1 )( 15 1 2 i RRiR yEyyV 92. 2)()()( 2 RRR yByVyMSE 二、比率估计的性质二、比率估计的性质 偏倚量会小,如果: 样本量n 很大 抽样比n/N很大 很大 S x很小 相关系数R接近于1 )( 1 )( 2 2 xyx RSSS Xn f RrE xu xu 比率估计的近似方差比率估计的近似方差 ) 2( 1 ) ( 222 2 2xxyy sRsRs xn f Rv n i ii xRy nXn f Rv 1 2 2 1 ) ( 1 11 ) ( ) () ( ) () ()( 22 2 RVXNYV

11、RVXRXVyV R R 当 R0.5 时,比估计比 srs 有更高的精度。 分层抽样下,比估计有两种方法: 1.Separate Ratio estimator , 1 1 1 x y r, 2 2 2 x y r 厖. L L L x y r (h=1,2,.L) 2 2 2 )( 1 ) () (XRyE X RRERV V R f nX N Y RX f nX SRSRS ii i N yxyx 11 1 1 2 2 2 1 2 22 2 n i ii xRy nXn f Rv 1 2 2 1 ) ( 1 11 ) ( 三、比率估计的效率三、比率估计的效率 1.与简单估计的比较与简单估

12、计的比较 简单估计量无偏,而比率估计量渐近无偏。简单估计量无偏,而比率估计量渐近无偏。 因此这里只比较当因此这里只比较当的情形。的情形。 比率估计量优于简单估计量的条件是:比率估计量优于简单估计量的条件是: V y f n S y 1 2 V y f n SR SRS Ryxyx 1 2 222 222 1 2 yxyx f SR SR S S n 22 20 xyx R SR S S 1 22 SX SY C C x y x y 正高度 相关 2.比率估计成为最优线性无偏估计的条件比率估计成为最优线性无偏估计的条件 (1).与的关系是过原点的直线与的关系是过原点的直线 (2).对这条直线的方

13、差与成比例。对这条直线的方差与成比例。 则比率估计是最优线性无偏估计则比率估计是最优线性无偏估计(BLUE)(BLUE)。 i y i x i x i y 【例例2 2】某县在对船舶调查月完成的货运量进行调查时,某县在对船舶调查月完成的货运量进行调查时, 对运管部门登记的船舶台帐进行整理后获得注册船舶对运管部门登记的船舶台帐进行整理后获得注册船舶 28602860艘,载重吨位艘,载重吨位154626154626吨,从吨,从28602860艘船舶中抽取了一艘船舶中抽取了一 个的简单随机样本,调查得到样本船舶调查月完成的货个的简单随机样本,调查得到样本船舶调查月完成的货 运量及其载重吨位如下表(单

14、位:吨),要推算该县船运量及其载重吨位如下表(单位:吨),要推算该县船 舶调查月完成的货运量。舶调查月完成的货运量。 i i Y i Xi i Y i X 178010062170120 215005071823150 31005508145080 437610915820 56002010137050 i 该县船舶在调查月完成货运量的比率估该县船舶在调查月完成货运量的比率估 计为计为 用简单估计对货运量进行估计用简单估计对货运量进行估计 1123.2 1546262671937 65 R y YX x R v Y 2 222 (1) yx Nf sR s n 11 22.10617 10 y

15、x Rs R s Y ()458930 R v Y 2860 1123.23212352YNy 2 211 (1) 3.43303 10 y Nf v Ys n ( )585921v Y s Y () 0.6135 ( ) R v Y deff v Y 实际中对于样本量较小的情形,实际中对于样本量较小的情形, 使用比率估计量时不能忽视其偏倚。使用比率估计量时不能忽视其偏倚。 ) () ( ) () ()( 22 2 RVXNYV RVXRXVyV R R 当 R0.5 时,比估计比 srs 有更高的精度。 分层抽样下,比估计有两种方法: 1.Separate Ratio estimator ,

16、 1 1 1 x y r, 2 2 2 x y r 厖. L L L x y r (h=1,2,.L) 四、分层随机抽样下的比率估计四、分层随机抽样下的比率估计 如果各层的样本量不小的话,则可以采用 各层分别进行比率估计,将各层加权汇总 得到总体指标的估计,这种方式称为分别 比率估计量。separate ratio estimator h h h hRhhRS X x y WyWy Rhh h h RSRS YX x y yNY 2.Combined Ratio estimator 由 h y 估计 st y ,由 h x 估计 st x 。 XRX x y y C st st RC XRyN

17、X x y Y CRC st st RC 方差的比较 如果每一层样本量都比较大,各层R相差较大,则分别比 率估计量的方差小于联合比率估计量的方差。 但当每层的样本量不太大时,还是采用联合比率估计量更 可靠些,因为这时分别比率估计量的偏倚很大,从而使总 的均方误差增大。 2 2222 2 2222 ()(2) ()(2) h Rsyhhxhhyxh h h Rcyhcxhcyxh h W V YNSR SR S n W V YNSR SR S n RS Y RC Y 六六、Regression Estimator LrLr Lr yNY XxyxXyy )()( 若令 , 0 则 )(srsyy

18、Lr ; 若令 ,R 则 RLr yxX x y yy)( (比估计) () 011uu reg yx BBBxx y 回归估计应用的两种情况: 1. 事先确定 设 的确定值为0 ,0 是一常数,则: )( 0 xXyy Lr (1) )2()2( 1 )()( 1 11 )( 0 22 0 2 2 0 yxxy i N iLr SSS n f XXYY Nn f yV ) 3 ()2( 1 )( 0 22 0 2 yxxyLr sss n f y 因为 YxXEyEyE lr )()()( 0 而)( 0iilr xXyy又可表为的样本均值 后者的总体均值为Y 故(2)式成立 其样本估计量:

19、 性质: A: Lr y是Y的无偏估计 B:)( Lr y是)( Lr yV的无偏估计 C: 0 的最佳值是 2 0 x yx S S 总体回归 系数 大样本条大样本条 件下件下 残差方 差Se2 2 ()(1) e reg n SE Nn S y 3.分层抽样中的回归估计 (1)分别回归估计 )( )( hhhhhLrslrs hhhhhLrh L nLrs xXyNyNY xXyWyWy 当 h 可以事先确定时, Lrs y与LrsY 都是无偏的,且 )2( )1 ( )( 222 2 xhhyxhhyh h hh Lrs SSS n fW yV 在 ).2 , 1( 2 Lh S S x

20、h yxh h 时达到极小值 )1 ( )1 ( )( 22 2 minhyh h hh Lrs S n fW yV 若 h 不能事先确定, h h n hhi n hhihhi h xx xxyy b 2 )( )( 当 较大时, 适用场合 ? h n 2 22 2 222 2 22 (1) ()(1) (1) ()()() (2) (1) (1)(1) (2) hh hh Lrsyhh h nn hh Lrshihhhih hh hh hyhh hh Wf V yS n Wf yyybxx n n Wf nSr n n 层内残差 方差Seh2 (2)联合回归估计 ) ( )( , stst

21、LrcLrc ststLrc hhsthhst XXYyNY xXyy xWxyWy 当事先设定时, )2( )1 ( )( 222 2 xhyxhyh h hh Lrc SSS n fW yV 无偏 当无法事先设定时, )2( )1 ( )()( ) 1( )1 ( )( 222 2 2 2 xhcyxhcyh h hh hhichhi hh hh Lrc SbSbS n fW xxbyy nn fW y 渐近无偏 其中 2 2 2 (1) ()() (1) (1) () (1) h hh hihhih hh c n hh hih hh Wf yyxx n n b Wf xx n n 如果是

22、按比例分配,则可简化为联 合最小二乘估计? 【例例】某市对中央直属单位和市属单位专业技 术人员总数进行了分层随机调查,已有98年各 层人员总数,135个中央直属单位有75650专业 技术人员,1228个市属单位有315612专业技术 人员。分别在两层中调查了15、20家单位,调 查数据如下,试估计99年全市专业技术人员总 数。 (1)按分别比率估计量估计 (2)按联合比率估计量估计 RS Y 2 1 0.959859 171400 1.049725 102900 272536.6 hh h R X RS v Y 2 2 222 1 (1) hh yhhxh h h Nf sR s n 2 hy

23、xh R s 9588.48 RS v Y RC Y 277310 274300271956.1 279700 st st Y X X RC v Y 2 2 222 1 (1) hh yhxh h h Nf sR s n 2 yxh Rs 9289.44 RC v Y 415524 1607 415433 1675 (3)按分别回归估计量估计,用样本回归系数估计b (2)按联合比率估计量估计 lrS Y 22 11 () hlrhhhhhh hh N yNyb Xx 415331 lrS v Y 2 2 222 1 (1)1 2 hhh yhhxh h hh Nfn sb s nn 9480.11 lrS v Y1604 c b 22 1 22 2 1 (1) 756

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论