第2与3章的结合 比率估计与回归估计_第1页
第2与3章的结合 比率估计与回归估计_第2页
第2与3章的结合 比率估计与回归估计_第3页
第2与3章的结合 比率估计与回归估计_第4页
第2与3章的结合 比率估计与回归估计_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 1802年,拉普拉斯想要估计法国的人口数目。他获得 了一个遍布全国范围的30commune的样本,截至1802 年9月23日总共有2,037615居民。在包括1802年9月23 日以前的三年中,215599个新生儿在30个commune。 拉普拉斯认为30个commune的每年注册的新生儿数为 215599/3=71866.33.把2037615按照71866.33来分,拉普 拉斯估计每年每28.35人里有一个注册新生儿。 具有众多人口的乡镇也就可能有同样众多的注册新生 儿,通过用28.35乘以全法国年度新生儿总数来估计得 出法国人口总数。 调查中都有辅助信息,抽样框也通常有每个单元额外 的

2、信息,这些信息能被用来提高我们的估计精度。 假定总体由面积不同农业用地构成, yi =i地 谷物的产量, xi :i地的面积,B=每亩谷物的 平均产量; 要估计渔网中长度长于10cm的鱼的总数,抽 取一个鱼的随机样本,得出长度长于10cm的 鱼所占的比例,用鱼的总数N乘以这个比例即 可得到,但如果N未知不能使用。 如何估计你的英文单词量? 为什么要使用比率估计为什么要使用比率估计/回归估计回归估计 欲观其人,先察其友。利用总体的辅助信息提欲观其人,先察其友。利用总体的辅助信息提 高估计的精度高估计的精度。 辅助指标的选择 :辅助指标应该与调查指标有较好较好 的正的相关关系的正的相关关系 。 辅

3、助指标的总体总量或总体均值已知总体均值已知。 比率估计、回归估计需要有足够的样本量足够的样本量才能 保证估计的有效。 有偏估计:当样本量足够大时,估计的偏倚趋于0。 调整来自样本的估计量以便它们反映人调整来自样本的估计量以便它们反映人 口统计学的总量。口统计学的总量。 在一所具有4000名学生的大学提取一个 400个学生的简单随机样本,此样本可能 包含240个女性,160个男性,且其中被 抽中的84名女性和40名男性计划以教学 为毕业后的职业。 4000 1241240 400 8440 270013001270 240160 比率估计量还被用来对无回答进行调整对无回答进行调整 设抽取一个行业

4、的样本:令yi为i行业花费在健 康保险上的金额,xi为i行业的雇员数。假定对 总体中的每个行业xi均已知。我们希望一个行 业花费在健康保险上的金额与雇员数相关。某 些行业在调查中可能涉及不到。估计保险费用 的总花销时调整无回答的方法之一是用总体数 X 乘以比率 y x y x 一、比率估计量 设对有两个调查变量Y 和X 的总体进行简单随机抽样 , 分别以y,x表示样本总值 ,以 表示样本均值,以 为样本比率 ,用 作为总体比率R的估计,这就称为的比 率估计 。 比率估计量除了使用调查变量样本信息外,还要使用 辅助变量总体信息与样本信息,而且是非线性估计量。这 类估计量称为复杂估计量。由于比率估

5、计量使用的信息比 简单估计量多,因而有可能比简单估计量有更高的精度。 同时由于比率估计量是非线性估计量,因而对其性质的研 究比对简单估计量要复杂得多。 , y x yy R xx R 一、比率估计量一、比率估计量 Y R X 比率估计量 即即之之比比值值 均均值值)体体的的两两个个指指标标总总量量(或或所所需需估估计计的的目目标标值值是是总总 , X Y X Y R 例例:1802:1802年,年,LaplaceLaplace受法国政府委托进行受法国政府委托进行 法国人口的估计与推算。推算方法如下:法国人口的估计与推算。推算方法如下: 已已知知)总总体体的的出出生生人人口口数数 总总体体的的人

6、人口口总总数数 (X Y R 如何利用辅助变量的信息改进估计的精度?如何利用辅助变量的信息改进估计的精度? 35.28 样样本本的的出出生生人人口口总总数数 样样本本的的人人口口数数 R RXY 即即总总体体的的人人口口总总数数 , R YYRX X的比率估计量:已知 利用辅助变量的信息改进估计的精度利用辅助变量的信息改进估计的精度 RXYXRY X Y X Y R ,因因此此 , 已知已知 已知已知的比估计量:的比估计量:及及 XXRY XXRYYY R R , , 比估计的使用条件:比估计的使用条件: (1)调查变量与辅助变量间有正线性相关关系, 且大致呈正比例; (如果辅助变量与调查变量

7、间有负线性相关关 系,则要采取乘积估计。) (2)估计 或Y时 ,一般要求辅助变量的总体 总量或均值是已知的。 (3)适用面广,可以用于简单随机抽样,也可用 于分层随机抽样、整群抽样、多阶抽样等; Y 一一、 Ratio Estimator 在 srs 条件下, 1 )( 1 ) ( 2 2 N RXY Xn f RV x y R yNX x y X x y Y X x y X x y y ii RR R 辅助变量辅助变量x x,其总体均值(总量)已知,其总体均值(总量)已知 【例例4.14.1】对以下假设总体(N=6),用简单随机抽样抽 取的样本,比较简单随机抽样比估计及简单估计的性质。 i

8、 Y i X 123456平均值 01358104.5 131118294618 15 2 6 C R y 样本样本简单估计简单估计比估计比估计 11,2218 21,3618 31,49.517.1 41,51516.875 51,623.521.15 62,3715.75 72,410.515.75 82,51616 92,624.520 103,414.516.3 113,52016.36 123,628.519.73 134,523.516.27 144,63219.2 155,637.518.75 y y x X y x X R i i 简单估计是无偏的,而比估计是有偏的。 简单估计

9、量的方差远远大于比估计量的方差,比估计的偏差不大, 其均方误差也比简单估计的小得多。 因此对这个总体,比估计比简单估计的效率高。 18 15 1 )( 15 1 i i yyE 87.97)( 15 1 )( 15 1 2 i i yEyyV 686.17 15 1 )( 15 1 i RiR yyE 31356. 0)()(YyEyB RR 82. 2)( 15 1 )( 15 1 2 i RRiR yEyyV 92. 2)()()( 2 RRR yByVyMSE 对于简单随机抽样来说 RREn x y R ) ( ) 1 (大时,大时,是有偏的。但当是有偏的。但当 1 )( 1 ) ()

10、()2( 1 2 2 N RXY Xn f RVRMSE N i ii )2( 1 )2( 1 2 22 2 2 22 2 xyxy xxyy SRSSRS Xn f SRRSS Xn f 二、比率估计的性质二、比率估计的性质 二、比率估计的性质二、比率估计的性质 偏倚量会小,如果: 样本量n 很大 抽样比n/N很大 很大 S x很小 相关系数接近于1 )( 1 )( 2 2 xyx RSSS Xn f RrE X xu 比率估计的方差估计 222 2 1 ( )( )(2) yxyx f MSE RV RSRSR S nX ) 2( 1 ) ( 2 2 2 2 1xxyy sRsRs Xn

11、f Rv RVX )( 的的渐渐近近无无偏偏估估计计为为已已知知时时,当当 N i ii RXY N 1 2 )( 1 1 估计估计可用可用 n i ii xRy n 1 2 ) ( 1 1 1 )( 1 1 2 2 N RXY Xn f N i ii 1 1 1 2 2 n xRy Xn f n i ii )( 比率估计量的偏差与均方误差 理论上可以证明, 分别为 的近似无 偏估计量,而且对于比率估计量,其方差主要取决于 与 之间的差异,当 时,估计量方差将很小。换言之, 比率估计量将有很高的精度。这告诉我们,只有当两个变 量大致成正比例关系时,应用比率估计量才能使估计精度 有较大改进。 ,

12、 RR R yY , ,R Y Y i Y i RX ii YRX 三、比率估计的效率三、比率估计的效率 1.与简单估计的比较 简单估计量无偏,而比率估计量渐近无偏。 因此这里只比较当的情形。 比率估计量优于简单估计量的条件是: V y f n S y 1 2 V y f n SR SRS Ryxyx 1 2 222 222 1 2 yxyx f SR SR S S n 22 20 xyx R SR S S 1 22 SX SY C C x y x y 正高度 相关 2.比率估计成为最优线性无偏估计的条件 (1).与的关系是过原点的直线 (2).对这条直线的方差与成比例。 则比率估计是最优线性

13、无偏估计(BLUE)。 i yi x i x i y 【例例4.24.2】某县在对船舶调查月完成的货运量进行调查 时,对运管部门登记的船舶台帐进行整理后获得注册 船舶2860艘,载重吨位154626吨,从2860艘船舶中抽 取了一个的简单随机样本,调查得到样本船舶调查月 完成的货运量及其载重吨位如下表(单位:吨),要 推算该县船舶调查月完成的货运量。 i i Y i X i i Y i X 178010062170120 215005071823150 31005508145080 437610915820 56002010137050 i 该县船舶在调查月完成货运量的比率估 计为 用简单估计

14、对货运量进行估计 1123.2 1546262671937 65 R y YX x R v Y 2 222 (1) yx Nf sR s n 11 22.10617 10 yx Rs R s Y ()458930 R v Y 2860 1123.23212352YNy 2 211 (1) 3.43303 10 y Nf v Ys n ( )585921v Y s Y () 0.6135 ( ) R v Y deff v Y 实际中对于样本量较小的情形, 使用比率估计量时不能忽视其偏倚。 ) () ( ) () ()( 22 2 RVXNYV RVXRXVyV R R 当 R0.5 时,比估计比

15、 srs 有更高的精度。 分层抽样下,比估计有两种方法: 1.Separate Ratio estimator , 1 1 1 x y r, 2 2 2 x y r 厖. L L L x y r (h=1,2,.L) 四、分层随机抽样下的比率估计四、分层随机抽样下的比率估计 如果各层的样本量不小的话,则可以采用 各层分别进行比率估计,将各层加权汇总 得到总体指标的估计,这种方式称为分别 比率估计量。separate ratio estimator h h h hRhhRS X x y WyWy Rhh h h RSRS YX x y yNY 2.Combined Ratio estimator

16、 由 h y估计 st y,由 h x估计 st x。 XRX x y y C st st RC XRyNX x y Y CRC st st RC 方差的比较 如果每一层样本量都比较大,各层R相差较大,则分别比 率估计量的方差小于联合比率估计量的方差。 但当每层的样本量不太大时,还是采用联合比率估计量更 可靠些,因为这时分别比率估计量的偏倚很大,从而使总 的均方误差增大。 2 2222 2 2222 ()(2) ()(2) h Rsyhhxhhyxh h h Rcyhcxhcyxh h W V YNSR SR S n W V YNSR SR S n RS Y RC Y 五、回归估计五、回归估计

17、 Watson在1937年研究如何利用叶片重量 去辅助估计叶片面积的问题时最早应用 回归估计方法。 背后的原理:构建超总体回归模型。 五、回归估计五、回归估计 回归估计应用的两种情况: 1. 事先确定 设的确定值为 0 , 0 是一常数,则: )( 0 xXyy Lr (1) )2()2( 1 )()( 1 11 )( 0 22 0 2 2 0 yxxy i N iLr SSS n f XXYY Nn f yV ) 3 ()2( 1 )( 0 22 0 2 yxxyLr sss n f y 因为 YxXEyEyE lr )()()( 0 而)( 0iilr xXyy又可表为的样本均值 后者的总

18、体均值为Y 故(2)式成立 其样本估计量: 性质: A: Lr y是Y的无偏估计 B:)( Lr y是)( Lr yV的无偏估计 C: 0 的最佳值是 2 0 x yx S S 总体回归 系数 证明: )()(时,当 )( 得 )( 令 )()( 22 min 2 0 2 0 2 2 0 0 2 2 00 2 1 1 0 , 0 2 1 ylr x xy lr x xy lr xxyylr S n f yVB S S d yVd B S S d ydV SSS n f yV 大样本条大样本条 件下件下 残差方 差Se2 2 ()(1) e reg n SE Nn S y 回归估计与比率估计及简

19、单估计的大样本比较 对于大的样本量,总有 这就是说在大样本下回归估计总是优于简单估计,仅在0时 两者效果相同。 的充分必要条件为 这等价于 因此除非Y 关于X 的总体回归系数BR,否则回归估计总是优于 比率估计,仅在BR时两者效果相同。 ()( ) lr V yV y ()() lrR V yV y 22222 (1)2 YYXYX SSR SR S S 222 2 ()()() YXY XX SS BRRR SS 案例 某地区有规模以下工业企业 127 个, 共有固定资产价值 6794.5 万元,从中随机抽取 20 个企业调查工业产值及固定资产价值,资料 如表 54 所示。试估计该地区规模以

20、下工业总产值及其标准差。 表 54 企业固定资产价值及工业产值 固 定 资 产 价值 工 业 产 值 固定资产价 值 工业产值 35 43 50 40 55 58 38 45 47 42 32.0 40.2 47.5 41.5 51.0 53.4 33.8 42.8 45.6 40.8 50 70 62 58 52 63 64 53 54 56 45.5 65.0 56.0 55.0 57.0 54.2 56.5 48.2 49.8 49.2 解答过程(1) 解 由调查资料直观上可以看出,工业产值 i Y与固定资产价值 i X 有线性相关关系,故可采用回归估计量对工业产值进行估计。计 算得 X

21、53.5 x51.75 y48.25 2 1 () n i i yy 1287.19 2 1 () n i i xx 1681.75 1 ()() n ii i yy xx 1394.85 b 1 2 2 1 ()() () n ii yx i n x i i yyxx s s xx 0.83 lr y yb(xX)48.25(51.7553.5)49.70 () lr v y 2 21 21 1 ()() 1 () (2) () n iin i in i i i yyxx f yy n n xx 0.304935905 () lr se y 0.55 故该地区规模以下工业总产值的回归估计为

22、lr Y N lr y 12749.706311.9(万元) 其标准差的估计为 () lr se Y N () lr se y 1270.5569.85(万元) 若采用简单估计,规模以下工业总产值的估计为 YNy12748.256127.75(万元) 解答过程(2) 解答过程(3) 其标准差的估计为 2 1 11 ( )() (1) n yi i ff se YNsNyy nn n 214.55(万元) 采用比率估计,规模以下工业总产值的估计为 R y YX x 48.25 51.75 6794.56334.97(万元) 其标准差的估计为 222 1 ()(2) Ryxyx f se YNsR

23、 sRs n 222 111 1 ()()2()() (1) nnn iiii iii f NyyRxxRyy xx n n 72.78(万元) 可见回归估计的精度比简单估计和比率估计都高。 3.分层抽样中的回归估计 (1)分别回归估计 )( )( hhhhhLrslrs hhhhhLrh L nLrs xXyNyNY xXyWyWy 当 h 可以事先确定时, Lrs y与 Lrs Y 都是无偏的,且 )2( )1 ( )( 222 2 xhhyxhhyh h hh Lrs SSS n fW yV 在).2 , 1( 2 Lh S S xh yxh h 时达到极小值 )1 ( )1 ( )(

24、22 2 minhyh h hh Lrs S n fW yV 若 h 不能事先确定, h h n hhi n hhihhi h xx xxyy b 2 )( )( 当 较大时, 适用场合 ? h n 2 22 2 222 2 22 (1) ()(1) (1) ()()() (2) (1) (1)(1) (2) hh hh Lrsyhh h nn hh Lrshihhhih hh hh hyhh hh Wf V yS n Wf yyybxx n n Wf nSr n n 层内残差 方差Seh2 (2)联合回归估计 ) ( )( , ststLrcLrc ststLrc hhsthhst XXYy

25、NY xXyy xWxyWy 当事先设定时, )2( )1 ( )( 222 2 xhyxhyh h hh Lrc SSS n fW yV 无偏 当无法事先设定时, )2( )1 ( )()( ) 1( )1 ( )( 222 2 2 2 xhcyxhcyh h hh hhichhi hh hh Lrc SbSbS n fW xxbyy nn fW y 渐近无偏 其中 2 2 2 (1) ()() (1) (1) () (1) h hh hihhih hh c n hh hih hh Wf yyxx n n b Wf xx n n 如果是按比例分配,则可简化为联 合最小二乘估计? 【例例】某市

26、对中央直属单位和市属单位专业技 术人员总数进行了分层随机调查,已有2011年 各层人员总数,135个中央直属单位有75650专 业技术人员,1228个市属单位有315612专业技 术人员。分别在两层中调查了15、20家单位, 调查数据如下,试估计2012年全市专业技术人 员总数。 (1)按分别比率估计量估计 (2)按联合比率估计量估计 RS Y 2 1 0.959859 171400 1.049725 102900 272536.6 hh h R X RS v Y 2 2 222 1 (1) hh yhhxh h h Nf sR s n 2 hyxh R s 9588.48 RS v Y RC

27、 Y 277310 274300271956.1 279700 st st Y X X RC v Y 2 2 222 1 (1) hh yhxh h h Nf sR s n 2 yxh Rs 9289.44 RC v Y 415524 1607 415433 1675 (3)按分别回归估计量估计,用样本回归系数估计b (2)按联合比率估计量估计 lrS Y 22 11 () hlrhhhhhh hh N yNybXx 415331 lrS v Y 2 2 222 1 (1)1 2 hhh yhhxh h hh Nfn sb s nn 9480.11 lrS v Y1604 c b 22 1 2

28、2 2 1 (1) 756.5757 1.0290 (1)735.2535 hh yxh h h hh xh h h Wf s n Wf s n 1.06 lrc Y st Y cst bXX 415386 lrC vY 2 2 22 2 1 (1) hh yhc xh h h Nf sbs n 2 c yxh bs 9238.96 lrC v Y1672 七七 其他其他 估估 计计 如果调查时所用的辅助指标为目标量最近的普 查结果,或者回归估计的回归系数接近于1, 这时可以采用差分估计差分估计 (无偏) 辅助变量X与Y负相关, X和Y都为正值, 使用乘积估计(有偏) xXyy d ()Xyx

29、Xd y X x NY y X x Y P P 八、各种估计量的比较 对分层随机抽样在有辅助变量可利用时,为提高估计精度可以采用分别 比率估计、联合比率估计、分别回归估计、联合回归估计等多种形式的 估计量,因此自然存在一个问题,即如何对这些估计量进行比较。 由以上各种估计量的构造可以知道,分别比率估计和分别回归估计必须 使用总体各层的辅助变量均值 或总值 的信息,而联合比率估计和 联合回归估计不要求使用总体各层的辅助变量信息,只要求使用总体的 辅助变量均值 或总值X的信息,分别估计量比联合估计量对总体信息 的使用更详细一些,因此,当各层样本量 都比较大时,分别比率估计 精度比联合比率估计高,分

30、别回归估计精度比联合回归估计高。 但是各层样本量 较小时,分别比率估计、分别回归估计将有较大偏 倚,从而均方误差比较大。此时如果总样本量比较大,则采用联合比率 估计、联合回归估计更好一些。 hXh X h n h n X 案例五 某县有 300 个村,小麦播种面积为 23434 亩。全部村子按地势分为平原、丘陵和山区三 种类型,各按10的抽样比抽样,调查亩产量,经整理得到下表结果: 表55 小麦产量调查数据 类型 h N h W h n h y hx hX 2 y h s 2 xh s yxh s 平原 丘陵 山区 99 138 63 0.33 0.46 0.21 10 14 6 583 44

31、5 290 561 427 274 568 439 271 1809 1990 1989 1503 1987 1892 1643 1948 1936 其中 h y是今年平均亩产,hx、hX是去年平均亩产, h y 、hx是样本数据,hX是总体数据。 试估计全县平均亩产。 解答过程(1) 相邻两年产量之间存在较高的正相关性,因此对今年平均亩产进 行估计时以去年产量为辅助变量构造分层比率估计和分层回归估计是 适宜的,此处 (1) 分别比率估计 123 0.1ffff 1 R 1.039, 2 R 1.018, 3 R 1.058, 1 r 0.996, 2 r 0.992, 3 r 0.998 Rs y 3 1 h hh h W R X 457.87 23 222 1 (1) ()(2) h yhhxhhyxhRs hh Wf v ysR sR s n (10.1) (0.18910.47200.0754)0.6628 () Rs se y 0.814 解答过程(2) (2) 联合比率估计 st y = 1 L hh h W y 457.99 st x = 1 L h h h W x 443.98 c R = st st y x 1.032 3 1 h h h XW X 446.29 st cRc st y yR XX x 460.57 2 3 222 1 (1) ()(2)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论