第2与3章的结合 比率估计与回归估计_第1页
第2与3章的结合 比率估计与回归估计_第2页
第2与3章的结合 比率估计与回归估计_第3页
第2与3章的结合 比率估计与回归估计_第4页
第2与3章的结合 比率估计与回归估计_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 1802年,拉普拉斯想要估计法国的人口数目。他获得了一个遍布全国范围的30commune的样本,截至1802年9月23日总共有2,037615居民。在包括1802年9月23日以前的三年中,215599个新生儿在30个commune。 拉普拉斯认为30个commune的每年注册的新生儿数为215599/3=71866.33.把2037615按照71866.33来分,拉普拉斯估计每年每28.35人里有一个注册新生儿。 具有众多人口的乡镇也就可能有同样众多的注册新生儿,通过用28.35乘以全法国年度新生儿总数来估计得出法国人口总数。 调查中都有辅助信息,抽样框也通常有每个单元额外的信息,这些信息能

2、被用来提高我们的估计精度。 假定总体由面积不同农业用地构成, yi =i地谷物的产量, xi :i地的面积,B=每亩谷物的平均产量; 要估计渔网中长度长于10cm的鱼的总数,抽取一个鱼的随机样本,得出长度长于10cm的鱼所占的比例,用鱼的总数N乘以这个比例即可得到,但如果N未知不能使用。 如何估计你的英文单词量?为什么要使用比率估计为什么要使用比率估计/回归估计回归估计欲观其人,先察其友。利用总体的辅助信息提欲观其人,先察其友。利用总体的辅助信息提高估计的精度高估计的精度。辅助指标的选择 :辅助指标应该与调查指标有较好较好的正的相关关系的正的相关关系 。 辅助指标的总体总量或总体均值已知总体均

3、值已知。 比率估计、回归估计需要有足够的样本量足够的样本量才能保证估计的有效。有偏估计:当样本量足够大时,估计的偏倚趋于0。 调整来自样本的估计量以便它们反映人调整来自样本的估计量以便它们反映人口统计学的总量。口统计学的总量。 在一所具有4000名学生的大学提取一个400个学生的简单随机样本,此样本可能包含240个女性,160个男性,且其中被抽中的84名女性和40名男性计划以教学为毕业后的职业。 400012412404008440270013001270240160 比率估计量还被用来对无回答进行调整对无回答进行调整 设抽取一个行业的样本:令yi为i行业花费在健康保险上的金额,xi为i行业的

4、雇员数。假定对总体中的每个行业xi均已知。我们希望一个行业花费在健康保险上的金额与雇员数相关。某些行业在调查中可能涉及不到。估计保险费用的总花销时调整无回答的方法之一是用总体数 X 乘以比率 yxyx 一、比率估计量 设对有两个调查变量Y 和X 的总体进行简单随机抽样 ,分别以y,x表示样本总值 ,以 表示样本均值,以 为样本比率 ,用 作为总体比率R的估计,这就称为的比率估计 。 比率估计量除了使用调查变量样本信息外,还要使用辅助变量总体信息与样本信息,而且是非线性估计量。这类估计量称为复杂估计量。由于比率估计量使用的信息比简单估计量多,因而有可能比简单估计量有更高的精度。同时由于比率估计量

5、是非线性估计量,因而对其性质的研究比对简单估计量要复杂得多。, y xyyRxxR一、比率估计量一、比率估计量YRX比率估计量即即之之比比值值均均值值)体体的的两两个个指指标标总总量量(或或所所需需估估计计的的目目标标值值是是总总,XYXYR 例例:1802:1802年,年,LaplaceLaplace受法国政府委托进行受法国政府委托进行法国人口的估计与推算。推算方法如下:法国人口的估计与推算。推算方法如下:已已知知)总总体体的的出出生生人人口口数数总总体体的的人人口口总总数数(XYR 如何利用辅助变量的信息改进估计的精度?如何利用辅助变量的信息改进估计的精度?35.28 样样本本的的出出生生

6、人人口口总总数数样样本本的的人人口口数数RRXY 即即总总体体的的人人口口总总数数,RYYRX X的比率估计量:已知利用辅助变量的信息改进估计的精度利用辅助变量的信息改进估计的精度RXYXRYXYXYR ,因因此此,已知已知已知已知的比估计量:的比估计量:及及XXRYXXRYYYRR, 比估计的使用条件:比估计的使用条件:(1)调查变量与辅助变量间有正线性相关关系,且大致呈正比例; (如果辅助变量与调查变量间有负线性相关关系,则要采取乘积估计。)(2)估计 或Y时 ,一般要求辅助变量的总体总量或均值是已知的。(3)适用面广,可以用于简单随机抽样,也可用于分层随机抽样、整群抽样、多阶抽样等;Y一

7、一、 Ratio Estimator 在 srs 条件下, 1)(1)(22NRXYXnfRVxyRyNXxyXxyYXxyXxyyiiRRR辅助变量辅助变量x x,其总体均值(总量)已知,其总体均值(总量)已知【例例4.14.1】对以下假设总体(N=6),用简单随机抽样抽取的样本,比较简单随机抽样比估计及简单估计的性质。 iYiX123456平均值01358104.51311182946181526CRy样本样本简单估计简单估计比估计比估计11,221821,361831,49.517.141,51516.87551,623.521.1562,3715.7572,410.515.7582,5

8、161692,624.520103,414.516.3113,52016.36123,628.519.73134,523.516.27144,63219.2155,637.518.75yyxXyxXRii简单估计是无偏的,而比估计是有偏的。简单估计量的方差远远大于比估计量的方差,比估计的偏差不大,其均方误差也比简单估计的小得多。因此对这个总体,比估计比简单估计的效率高。 18151)(151iiyyE87.97)(151)(1512iiyEyyV686.17151)(151iRiRyyE31356. 0)()(YyEyBRR82. 2)(151)(1512iRRiRyEyyV92. 2)()(

9、)(2RRRyByVyMSE 对于简单随机抽样来说RREnxyR )() 1 (大时,大时,是有偏的。但当是有偏的。但当1)(1)()()2(122 NRXYXnfRVRMSENiii)2(1)2(122222222xyxyxxyySRSSRSXnfSRRSSXnf 二、比率估计的性质二、比率估计的性质二、比率估计的性质二、比率估计的性质偏倚量会小,如果: 样本量n 很大抽样比n/N很大 很大 S x很小 相关系数接近于1 )(1)(22xyxRSSSXnfRrEXxu比率估计的方差估计22221( )( )(2)yxyxfMSE RV RSRSR SnX)2(1)(22221xxyysRsR

10、sXnfRvRVX )(的的渐渐近近无无偏偏估估计计为为已已知知时时,当当 NiiiRXYN12)(11估计估计可用可用 niiixRyn12)(111)(1122 NRXYXnfNiii11122 nxRyXnfniii)(比率估计量的偏差与均方误差 理论上可以证明, 分别为 的近似无偏估计量,而且对于比率估计量,其方差主要取决于 与 之间的差异,当 时,估计量方差将很小。换言之,比率估计量将有很高的精度。这告诉我们,只有当两个变量大致成正比例关系时,应用比率估计量才能使估计精度有较大改进。,RRR yY, ,R Y YiYiRXiiYRX三、比率估计的效率三、比率估计的效率 1.与简单估计

11、的比较简单估计量无偏,而比率估计量渐近无偏。因此这里只比较当的情形。比率估计量优于简单估计量的条件是: V yfnSy12V yfnSR SRSRyxyx1222222212yxyxfSR SR S Sn2220 xyxR SR S S122SXSYCCxyxy正高度相关2.比率估计成为最优线性无偏估计的条件 (1).与的关系是过原点的直线 (2).对这条直线的方差与成比例。则比率估计是最优线性无偏估计(BLUE)。 iyixixiy 【例例4.24.2】某县在对船舶调查月完成的货运量进行调查时,对运管部门登记的船舶台帐进行整理后获得注册船舶2860艘,载重吨位154626吨,从2860艘船舶

12、中抽取了一个的简单随机样本,调查得到样本船舶调查月完成的货运量及其载重吨位如下表(单位:吨),要推算该县船舶调查月完成的货运量。 iiYiXiiYiX1780100621701202150050718231503100550814508043761091582056002010137050i 该县船舶在调查月完成货运量的比率估计为 用简单估计对货运量进行估计 1123.2154626267193765RyYXx Rv Y2222(1)yxNfsR sn1122.10617 10yxRs Rs Y()458930Rv Y2860 1123.23212352YNy 2211(1)3.43303 1

13、0yNfv Ysn( )585921v Y s Y()0.6135( )Rv Ydeffv Y实际中对于样本量较小的情形,使用比率估计量时不能忽视其偏倚。 )()()()()(222RVXNYVRVXRXVyVRR当 R0.5 时,比估计比 srs 有更高的精度。分层抽样下,比估计有两种方法:1.Separate Ratio estimator,111xyr,222xyr厖.LLLxyr(h=1,2,.L)四、分层随机抽样下的比率估计四、分层随机抽样下的比率估计 如果各层的样本量不小的话,则可以采用各层分别进行比率估计,将各层加权汇总得到总体指标的估计,这种方式称为分别比率估计量。separa

14、te ratio estimator hhhhRhhRSXxyWyWy RhhhhRSRSYXxyyNY 2.Combined Ratio estimator 由hy估计sty,由hx估计stx。 XRXxyyCststRCXRyNXxyYCRCststRC方差的比较如果每一层样本量都比较大,各层R相差较大,则分别比率估计量的方差小于联合比率估计量的方差。但当每层的样本量不太大时,还是采用联合比率估计量更可靠些,因为这时分别比率估计量的偏倚很大,从而使总的均方误差增大。2222222222()(2)()(2)hRsyhhxhhyxhhhRcyhcxhcyxhhWV YNSR SR SnWV Y

15、NSR SR SnRSYRCY五、回归估计五、回归估计 Watson在1937年研究如何利用叶片重量去辅助估计叶片面积的问题时最早应用回归估计方法。 背后的原理:构建超总体回归模型。五、回归估计五、回归估计 回归估计应用的两种情况: 1. 事先确定 设的确定值为0,0是一常数,则: )(0 xXyyLr (1) )2()2(1)()(111)(0220220yxxyiNiLrSSSnfXXYYNnfyV) 3 ()2(1)(02202yxxyLrsssnfy因为YxXEyEyElr)()()(0而)(0iilrxXyy又可表为的样本均值后者的总体均值为Y故(2)式成立其样本估计量:性质: A:

16、Lry是Y的无偏估计 B:)(Lry是)(LryV的无偏估计 C:0的最佳值是 20 xyxSS 总体回归系数证明:)()(时,当)(得)(令)()(22min2020220022002110, 021ylrxxylrxxylrxxyylrSnfyVBSSdyVdBSSdydVSSSnfyV大样本条大样本条件下件下残差方差Se22()(1)eregnSENnSy回归估计与比率估计及简单估计的大样本比较 对于大的样本量,总有 这就是说在大样本下回归估计总是优于简单估计,仅在0时两者效果相同。 的充分必要条件为 这等价于 因此除非Y 关于X 的总体回归系数BR,否则回归估计总是优于比率估计,仅在B

17、R时两者效果相同。()( )lrV yV y()()lrRV yV y22222(1)2YYXYXSSR SR S S2222()()()YXYXXSSBRRRSS案例 某地区有规模以下工业企业 127 个, 共有固定资产价值 6794.5万元,从中随机抽取 20 个企业调查工业产值及固定资产价值,资料如表 54 所示。试估计该地区规模以下工业总产值及其标准差。 表 54 企业固定资产价值及工业产值 固 定 资 产价值 工 业 产值 固定资产价值 工业产值 35 43 50 40 55 58 38 45 47 42 32.0 40.2 47.5 41.5 51.0 53.4 33.8 42.8

18、 45.6 40.8 50 70 62 58 52 63 64 53 54 56 45.5 65.0 56.0 55.0 57.0 54.2 56.5 48.2 49.8 49.2 解答过程(1)解 由调查资料直观上可以看出,工业产值iY与固定资产价值iX有线性相关关系,故可采用回归估计量对工业产值进行估计。计算得 X53.5 x51.75 y48.25 21()niiyy1287.19 21()niixx1681.75 1()()niiiyy xx1394.85 b 1221()()()niiyxinxiiyyxxssxx0.83 lry yb(xX)48.25(51.7553.5)49.7

19、0 ()lrv y221211()()1()(2)()niiniiniiiyyxxfyyn nxx0.304935905 ()lrse y0.55 故该地区规模以下工业总产值的回归估计为 lrYNlry12749.706311.9(万元) 其标准差的估计为 ()lrse YN()lrse y1270.5569.85(万元) 若采用简单估计,规模以下工业总产值的估计为 YNy12748.256127.75(万元) 解答过程(2)解答过程(3)其标准差的估计为 2111( )()(1)nyiiffse YNsNyynn n214.55(万元) 采用比率估计,规模以下工业总产值的估计为 RyYXx4

20、8.2551.756794.56334.97(万元) 其标准差的估计为 2221()(2)Ryxyxfse YNsR sRsn 2221111()()2()()(1)nnniiiiiiifNyyRxxRyy xxn n 72.78(万元) 可见回归估计的精度比简单估计和比率估计都高。 3.分层抽样中的回归估计 (1)分别回归估计 )()(hhhhhLrslrshhhhhLrhLnLrsxXyNyNYxXyWyWy 当h可以事先确定时,Lrsy与LrsY都是无偏的,且 )2()1 ()(2222xhhyxhhyhhhhLrsSSSnfWyV 在).2 , 1(2LhSSxhyxhh时达到极小值

21、)1 ()1 ()(222minhyhhhhLrsSnfWyV 若h不能事先确定, hhnhhinhhihhihxxxxyyb2)()( 当 较大时,适用场合 ?hn2222222222(1)()(1)(1)()()() (2)(1)(1)(1)(2)hhhhLrsyhhhnnhhLrshihhhihhhhhhyhhhhWfV ySnWfyyybxxn nWfnSrn n层内残差方差Seh2 (2)联合回归估计 )()(,ststLrcLrcststLrchhsthhstXXYyNYxXyyxWxyWy 当事先设定时,)2()1 ()(2222xhyxhyhhhhLrcSSSnfWyV无偏当无

22、法事先设定时,)2()1 ()()() 1()1 ()(222222xhcyxhcyhhhhhhichhihhhhLrcSbSbSnfWxxbyynnfWy渐近无偏其中222(1)()()(1)(1)()(1)hhhhihhihhhcnhhhihhhWfyyxxn nbWfxxn n如果是按比例分配,则可简化为联合最小二乘估计? 【例例】某市对中央直属单位和市属单位专业技术人员总数进行了分层随机调查,已有2011年各层人员总数,135个中央直属单位有75650专业技术人员,1228个市属单位有315612专业技术人员。分别在两层中调查了15、20家单位,调查数据如下,试估计2012年全市专业技

23、术人员总数。(1)按分别比率估计量估计 (2)按联合比率估计量估计 RSY210.959859 171400 1.049725 102900 272536.6hhhR XRSv Y222221(1)hhyhhxhhhNfsR sn2hyxhR s9588.48RSv YRCY277310274300271956.1279700ststYXXRCv Y222221(1)hhyhxhhhNfsR sn2yxhRs9289.44RCv Y41552416074154331675(3)按分别回归估计量估计,用样本回归系数估计b (2)按联合比率估计量估计 lrSY2211()hlrhhhhhhhhN

24、yNybXx415331lrSv Y222221(1)12hhhyhhxhhhhNfnsb snn9480.11lrSv Y1604cb 2212221(1)756.57571.0290(1)735.2535hhyxhhhhhxhhhWfsnWfsn1.06lrcYstYcstbXX415386 lrCvY2222 21(1)hhyhc xhhhNfsbsn2c yxhbs9238.96lrCv Y1672七七 其他其他 估估 计计 如果调查时所用的辅助指标为目标量最近的普查结果,或者回归估计的回归系数接近于1,这时可以采用差分估计差分估计 (无偏) 辅助变量X与Y负相关, X和Y都为正值,

25、使用乘积估计(有偏)xXyyd()XyxXdyXxNYyXxYPP八、各种估计量的比较 对分层随机抽样在有辅助变量可利用时,为提高估计精度可以采用分别比率估计、联合比率估计、分别回归估计、联合回归估计等多种形式的估计量,因此自然存在一个问题,即如何对这些估计量进行比较。由以上各种估计量的构造可以知道,分别比率估计和分别回归估计必须使用总体各层的辅助变量均值 或总值 的信息,而联合比率估计和联合回归估计不要求使用总体各层的辅助变量信息,只要求使用总体的辅助变量均值 或总值X的信息,分别估计量比联合估计量对总体信息的使用更详细一些,因此,当各层样本量 都比较大时,分别比率估计精度比联合比率估计高,

26、分别回归估计精度比联合回归估计高。但是各层样本量 较小时,分别比率估计、分别回归估计将有较大偏倚,从而均方误差比较大。此时如果总样本量比较大,则采用联合比率估计、联合回归估计更好一些。 hXhXhnhnX案例五某县有 300 个村,小麦播种面积为 23434 亩。全部村子按地势分为平原、丘陵和山区三种类型,各按10的抽样比抽样,调查亩产量,经整理得到下表结果: 表55 小麦产量调查数据 类型 hN hW hn hy hx hX 2y hs 2xhs yxhs 平原 丘陵 山区 99 138 63 0.33 0.46 0.21 10 14 6 583 445 290 561 427 274 56

27、8 439 271 1809 1990 1989 1503 1987 1892 1643 1948 1936 其中hy是今年平均亩产,hx、hX是去年平均亩产,hy、hx是样本数据,hX是总体数据。试估计全县平均亩产。 解答过程(1) 相邻两年产量之间存在较高的正相关性,因此对今年平均亩产进行估计时以去年产量为辅助变量构造分层比率估计和分层回归估计是适宜的,此处 (1) 分别比率估计1230.1ffff1R1.039, 2R1.018, 3R1.058, 1r0.996, 2r0.992, 3r0.998 Rsy31hhhhW R X457.87 232221(1)()(2)hyhhxhhyxhRshhWfv ysR sR sn (10.1) (0.18910.47200.0754)0.6628 ()Rsse y0.814 解答过程(2) (2) 联合比率估计 sty=1LhhhW y457.99 stx = 1LhhhW x443.98 cR=ststyx1.032 31hhhXW X446.29 stcRcstyyR XXx460.57 232221(1)()(2)hyhcxhcyxhRchhW

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论