版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第四章 比估计与回归估计n第一节 概述n第二节 比估计n第三节 回归估计n第四节 分层比估计与分层回归估计n一、问题的提出一、问题的提出 在许多实际问题中常常涉及两个调查变量(指标)Y 和X 。对于包含N个抽样单元的总体除了对总体信息进行估计外,常常要估计总体比率R。总体比率在形式上总是表现为两个变量总值或均值之比。 在涉及两个变量的抽样调查中,有两种情况需要应用比率估计量。一种情况是利用双变量样本对总体比率进行估计需应用比率估计量,此时两个变量均为调查变量。另一种情况是一个变量为调查变量,另一个变量表现为与调查变量有密切关系的辅助变量,在对调查变量总体总值、总体均值等目标量进行估计时,利用已
2、知的辅助变量信息构造比率估计量可以改进估计的精度。 基于这种考虑利用已知的辅助变量信息构造比率估计量就可使估计精度加以改进。比估计回归估计第一节第一节 概述概述n二、辅助变量的选择二、辅助变量的选择辅助变量与调查变量之间存在较密切的相关性或线性关系;辅助变量的有关资料是能够事先掌握的;要求样本容量比较大。因为小样本时,比率估计是一个有偏的估计,只有样本量比较大时,偏误可以忽略不计。n例1:设某县农村的33户家庭收支调查资料,其中家庭人数X1,收入X2,食品支出Y, (假设是月度资料,数据省略,仅说明问题) 要求估计: (1)每个家庭每月用于食品的支出; (2)平均每人用于食品的支出; (3)食
3、品支出占收入的比重。 分析:在要求(2)中,要求估计平均每人用于食品的支出,显然须将33 户的食品支出相加,33户家庭人数相加,然后相比,因此这本身就是一个比率估计的问题。又如要求(3)中要求估计食品支出占收入的比重,看来似乎是个比例问题,但从现有材料以户作为抽样单位,食品支出和收入都是随机变量,因此也是一个比率估计问题。只有要求(1)是一个均值的简单估计问题。举举 例例n分析:确切的含糖总量只有把全部橘子做成橘子汁以后进行加工提炼才能得到,因此必须用抽样的方法。 思路一:假设现在用简单随机抽样的方法从中抽取n个橘子为样本,一种简单的估计推断方法是测定每个橘子的含糖量y1,y2,yn。然后计算
4、样本平均数 ,来估计总体平均数 ,最后用橘子的总数N乘以每个橘子的平均含糖量来估计总的含糖量。这种方法实行起来比较苦难,因为橘子的总数N不容易数清,此外,如果橘子的大小差别很大时也不容易估计精确。 思路二:利用一个辅助变量,因为每个橘子的含糖量yi与他们的重量xi有密切联系,呈现高度相关。因此当我们在测定n个橘子的含糖量的同时,也测定其重量,得到橘子的含糖量与重量之间的一个比率,如果我们知道橘子的总重量,就可以通过以下的关系求得总含糖量:yY例2:有一批橘子,欲估计其含糖总量。xyXY样本重量样本含糖量总重量总含糖量第二节 比估计n一、定义及基本性质一、定义及基本性质1、总体比率:样本比率:根
5、据样本中调查变量与辅助变量的资料,通过计算样本比率来估计总体比率,进而利用此资料对调查标志的总体平均数和总体标志总量进行估计的方法称为比估计。XYRorXYRxyRorxyR2、样本比率对总体比率的估计是有偏误的。当样本容量n充分大时,这种偏误趋近于03、估计总体平均数及总体标志总量 称为比估计量XRNXxyXRYRXYXYRXxyXRYXRYXYRYYR,4、样本估计量的均方误差5、估计量的方差22)(1111)(iiRXYXNnfRMSE22)(1111)()(iiRXYXNnfRMSERV)()()()()()()(2222RVXNYVNYNVYVRVXXRVYVRRRR6、相对方差、相
6、对协方差)2(2)(112222222XYXYxyXYiiCCCYRSSRSRXYN)2(1)()()()(222222XYXYRRCCCnfRRVYYVYYVcv二、方差估计及置信区间二、方差估计及置信区间1、方差估计均是有偏估计量很难比较两者优劣)2(1)()2(1)(2222222221xyxyxyxysRsRsxnfRvsRsRsXnfRv)2()1 ()()2(1)(2222222xyxyRxyxyRsRsRsnfNYvsRsRsnfYv2、置信区间当 时,当上述条件不满足时,1 . 0)(, 1 . 0)(,30ycvxcvn)(, )(RvuRRvuR2222222221 )()
7、2()1(xyxxyyxxyxycucccucccucuRxysnfxyscxsnfxscysnfyscyxxyxyxxxyyy11,122222222222其中: 例:例:某街区有2000户居民家庭,按简单随机抽样方法抽出其中33户家庭,调查其两项指标:食物消费额(y),月收入(x),调查结果如下: 试用比率估计方法,以95%的可靠程度估计月收入中食物消费所占比重的置信区间。16002722836064958010160642 .544322xyxxyyiiii 例:例:交通运输统计中有三个重要的指标,即运量、周转量与平均运距,其中平均运距是总周转量除以运量所得的商,为估计公路载货汽车的平均
8、运距,在总体中用简单随机抽样抽取32辆货车,记录每辆车在一个月内的运量xi与周转量yi,统计计算结果如下: 试估计平均运距R并给出它90%的置信区 间。1 .19972619.417710029993597429550022xyxyiisssxy相关系数:)2(1)2(1)(222222yxxyxyxyRyxxySSRSRSnfRSSRSnfyVSSSn三、比估计的效果分析三、比估计的效果分析如果 两种方法的估计效果基本相同。如果 比估计优于简单估计。两种方法的优劣可以归结为相关系数是否大于1/2。022xyxCCC022xyxCCC 例:某系统共有N=687个单位,为预估当年全系统的工资总额
9、,用简单随机抽样抽取一个n=26个单位的样本,对样本的资料统计如下: 已知上一年全系统工资总额(X)为70523.16万元。试估计当年全系统的工资总额及估计的近似标准差 。3624.82590140.76738663.889696622.10019455.10922yxxysssxy第三节第三节 回归估计回归估计n一、定义一、定义回归估计是通过对调查变量Y以及该变量有线性关系的辅助变量X建立回归方程,然后运用回归方程对总体指标进行推断、估计的方法。在直角坐标系中,比估计表现为通过原点的回归直线,而回归估计可以通过原点,也可以不通过。比估计只能有一个辅助变量,而回归估计可以利用多个辅助变量。总体
10、均值的回归估计量定义为:总体总量的回归估计量定义为: 差估计量 简单估计量 比估计量)()(XxyxXyylrlrlryNY XxyyxyyyxXyylrlrlr01因此说,简单估计量和比估计量都是回归估计的特例。n 二、二、为设定常数为设定常数)(0 xXyYlr)2(1)()2(1)(02020202xyxylrxyxylrsssnfYvSSSnfYVn例:例:设某县有53个乡镇,已知某年度小麦总播种面积为795000亩,现抽取10个乡调查结果为总播种面积为152000亩,小麦总产量6262.4万公斤,要求依以上资料对该县平均每个乡镇的小麦总产量和全县的小麦总产量作出回归分析。(0=0.0
11、4)三、三、 为样本回归系数为样本回归系数22)()()(xyxiiilrssxxyyxxbxXbyY)1 (1)2(1)()(22222yyxxylrlrSnfbSSbSnfYVYMSE)(2111)(2222xyelrsbsnnnfsnfYvn例例1 1:某系统共有N=687个单位,为预估当年全系统的工资总额,用简单随机抽样抽取一个n=26个单位的样本,对样本的资料统计如下: 上一年全系统工资总额(X)为70523.16万元。试运用回归估计计算当年全系统的工资总额及估计的近似标准差。3624.82590140.76738663.889696622.10019455.10922yxxysss
12、xy四、回归估计量与比估计量及一般样本四、回归估计量与比估计量及一般样本 平均数的比较平均数的比较在大样本下,回归估计总是优于简单估计量。在大样本下,回归估计总是优于比估计。第四节 分层比估计与分层回归估计n一、分别比估计与联合比估计一、分别比估计与联合比估计分别比估计:在分层随机抽样中,对每层样本考虑比估计,然后进行加权平均或相加,所得的估计量称为分别比估计分别比估计hhhhRhhRSRShhRSRhhhhhhhhhhhhhXxyWyWyYYWYyXRYXRYxyRXYR)2(1)2(1)()(22222222yhxhhhxhyhhhhxyhhxhyhhhhRSRShhhRSRSSSRSRS
13、nfWSRSRSnfWYVYMSEXxyyNY)()()(2RSRSRSYVNYVYMSE联合比估计联合比估计在分层随机抽样中,对两个指标先求总体均值或总和的分层估计,然后用它们构造比估计,所得的估计量为联合比估计联合比估计。)2()1 ()(,2222xyhxhyhhhhRCcRCcRChhhsthhhstststcRSSRSnfWYVXRYXRYxWxyWyxyRn二、分别回归估计与联合回归估计二、分别回归估计与联合回归估计分别回归估计:在分层随机抽样中,对每层均值或每层总量作回归估计,然后再加权平均或相加)2()1 ()()(2222xyhhxhhyhhhhlrshhhhhlrsSbSb
14、SnfWYVxXbyWY)2()1 ()(2222xyhcxhcyhhhhRCsRsRsnfWYv)2()1 ()(),(,2222xhyxhyhhhhhlrclrclrcststlrchhhsthhhstSSSnfWyVyNYxXyyxWxyWy联合回归估计:在分层随机抽样中,先对 及 作分层简单估计,再 与 作联合回归估计。YXYY)1 () 1()2()1 ()(222hyhhhhhhlrsrsnnnfWYvhxhcyxhcyhhhhlrchhxhhhhhyxhhhcsbsbsnfWyvnsfWnsfWb)2()1 ()()1 ()1 (2222222n三、各种估计量的比较与选择三、各种
15、估计量的比较与选择对于两种形式的比估计及两种回归系数都需要从样本估计的回归估计,估计量都是有偏的;对于分别估计,要求每层样本量都较大,若某些层样本量不够大,建议采用联合估计;回归估计在小样本时偏倚可能更大,这时采用比估计;若每层的样本量都较大,每层的比估计或回归估计都较有效,且每层的 或 相差较大,则分别估计比联合估计更有效,估计量方差更小;若各层的回归系数接近1,则可采用差估计。hhRn例:例:已知某市中央直属单位及市属单位1986年专业技术人员总数,欲通过抽样调查估计1988年年底全市专业技术人员的总数Y。抽样按中直单位与市属单位分层随机抽取,前者抽15年单位,后者抽20个单位,数据如下表所示。已知中直单位N1=135个,1986年底总人数为X1=75650;市属单位N2=1228个,1986底总人数为X2=315612人。估计该市1988年专业技术人员总数。中直单位市属单位ixiyiixiyiixiyiixiyi1234567
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论