




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Chap2简单随机抽样
2.2简单估计法(SE)
2.1定义与符号
抽
样
调
查
2.5样本量的确定
2.6其它相关问题
2.3比率估计量
2.4回归估计量12/12/20221Chap2简单随机抽样
2.2简单估计法(SE)§2.1定义与符号一、定义与符号
(一)定义上述抽样就称为不放回简单随机抽样
定义2.1:设有限总体共有N个单元,一次整批抽取n个单元使得每个单元被抽中的概率都相等,任何n个不同单元的组合(样本)都有相同的概率被抽中,这种抽样方法称为简单随机抽样法,所抽到的样本为简单随机样本。
12/12/20222§2.1定义与符号一、定义与符号(一)定义上述抽样就称
定义2.2:(在具体实施过程中,)从总体中逐个等概率抽取单元(每次抽取到尚未入样的任何一个单元的概率都相等),直到抽满n个为止。如果每次抽中一个单元,然后放回总体,重新抽取。这样一个单元有可能被重复抽中,故又称重复抽样。12/12/20223定义2.2:(在具体实施过程中,)从总体中逐个等概率抽取单
定义2.3按照从总体的N个单元中抽取n个单元的所有可能不同的组合构造所有可能的CNn个样本,从CNn个样本随机抽取一个样本,使每个样本被抽中的概率都等于1/CNn.上述三中定义其实是完全等价的,而定义2.2在实际中容易实施。12/12/20224定义2.3按照从总体的N个单元中抽取n个单元的所有可能不例2.1设总体有5个单元(1,2,3,4,5),按有放回简单随机抽样的方式抽取容量为2的样本,则所有可能样本为个,如表2.1。
表2.1放回简单随机抽样所有可能样本1,11,21,31,41,52,12,22,32,42,53,13,23,33,43,54,14,24,34,44,55,15,25,35,45,512/12/20225例2.1设总体有5个单元(1,2,3,4,5),按有放回简例2.2上述总体按不放回简单随机抽样方式抽取容量为2的样本,则所有可能样本为个,如表2.2。1,21,31,41,52,32,42,53,43,54,5表2.2不放回简单随机抽样所有可能样本12/12/20226例2.2上述总体按不放回简单随机抽样方式抽取容量个,如表2(二)样本分布与符号从总体抽样单元。假设顺序被抽中的样本单元的号码为(入样号码),则样本为,称为抽样比(Samplingfraction)。中逐个不放回抽取n个作为随机变量样本有什么分布呢?12/12/20227(二)样本分布与符号从总体抽样单元。假设顺序被抽中的样本单元1y1,…yn同分布但不相互独立,其共同分布列为2(yi,yj)的联合分布列均同(y1,y2)12/12/202281y1,…yn同分布但不相互独立,其共同分布列为2(表2.3符号总体参数样本统计量12/12/20229表2.3符号总体参数样本统计量12/10/20229二、抽样方法(一)抽签法
制作N个外形相同的签,将它们充分混合,然后一次抽取n个签,或一次抽取一个但不放回,抽取n次得到n个签。则这n个签上所对应号码表示入样的单元号。例如:某中学为了解学生身体素质的基本状况,从全校N=1200人中抽取一个简单样本n=100人进行检查。12/12/202210二、抽样方法(一)抽签法制作N个外形相同的签,将它们充分混1随机数表(二)随机数法如上例,N=1200,则在表中随机连续取四列,顺序往下,选出前面100个不同(不放回抽样)的0001~1200之间的数字。如果不够100个,可随机再取四列,同样操作,直至抽取100个止。12/12/2022111随机数表(二)随机数法如上例,N=1200,则在表中随机Simplerandomsampling12/12/202212Simplerandomsampling12/10/20Tableofrandomnumbers12/12/202213Tableofrandomnumbers12/10/22随机数骰子随机数骰子是由均匀材质制成的正20面体,每个面上刻有一个0~9的数字,且每个数字只出现在两个面上。要产生一个m位数的随机数(如m=4,N=1200),则将m(m=4)个颜色不同的骰子盒中,并规定每个颜色代表的位数,盖上盖子,充分摇动盒子后,打开读出各色骰子的数字,即可得一个随机数。重复上述过程,直至产生了n个满足条件的随机数。12/12/2022142随机数骰子随机数骰子是由均匀材质制成的正20面3利用统计软件直接抽取法大部分统计软件都有产生随机数的功能,快捷方便。不过产生的是伪随机数,有一定循环周期的。简单介绍一下利用EXCEL产生随机数的方法.
12/12/2022153利用统计软件直接抽取法大部分统计软件都有产生随机数的功12/12/20221612/10/20221612/12/20221712/10/20221712/12/20221812/10/202218§2.2简单估计法(SE)一、总体均值的估计(一)简单估计定义
………………..(2.6)
(二)简单估计量的性质引理2.1从大小为N的总体中抽取一个样本容量为n的简单随机样本,则总体中每个特定的单元入样的概率为n/N,两个特定单元入样的概率为n(n-1)/N(N-1)。
12/12/202219§2.2简单估计法(SE)一、总体均值的估计(一)简单估
引理2.2从大小为N的总体中抽取一个样本容量为n的简单随机样本。若令:则:12/12/202220引理2.2从大小为N的总体中抽取一个样本容量为n的简单随机(二)简单估计量的性质
定理2.1上述简单估计是无偏的,即
定理2.2上述简单估计的方差(均方误差)为:……….(2.12/2.18)
12/12/202221(二)简单估计量的性质定理2.1上述简单估计是无偏的,证明(P35证法1对称证法):为0注意样本分布12/12/202222证明(P35证法1对称证法):为0注意样本分布12/10/推论2.7的无偏估计为………..(2.25)
证明:只须说明样本方差是总体方差的无偏估计即可。注意12/12/202223推论2.7的无偏估计为………..(2.25)证明:只须说明
例2.3从某个N=100的总体重抽取一个容量n=10的简单随机样本,要估计总体平均水平,并给出置信度为95%的置信区间估计。如表2.4序号1234567891045204661508表2.4简单随机样本指标
12/12/202224例2.3从某个N=100的总体重抽取一个容量n=10序号12/12/20222512/10/202225(三)有放回简单随机抽样的简单估计量由于故有放回抽样的精度低于不放回抽样的精度。12/12/202226(三)有放回简单随机抽样的简单估计量由于故有放回抽样的精度低说明:1抽样调查中的估计量与传统数理统计中估计量的区别(见表2.5)表2.5抽样理论与传统数理统计关于样本均值性质异同比较抽样理论数理统计理论假设样本之间不独立,所以可能样本最多个,欲估计总体特征为,当n=N时可以求出样本之间独立,所有可能样本最多为无限多个;欲估计总体特征为总体(一般是随机变量X)期望μ,一般不能通过样本求出符号、定义期望方差12/12/202227说明:1抽样调查中的估计量与传统数理统计中估计量的区别(见2总体方差一般也是未知的,故计算估计量方差(估计)值时总是用样本方差直接去估计它,因为该估计无偏,故这样做相对是合理的。3
对于无限总体的简单随机抽样(或有限总体有放回简单抽样)估计中由于N一般很大,
即从有限总体抽样得到简单随机样本均值得方差是从无限总体抽样得的独立样本均值的方差的1-f倍,要小些,这意味着对同等样本量,不放回简单随机抽样的精度高于有放回的。由于样本点不会重复,样本量相同时所包含的有效样本点更多,因此信息更多,效果当然好些。1-f又被称为有限总体校正系数。12/12/2022282总体方差一般也是未知的,故计算估计量方差(估计)值时总是4样本容量n越大,估计量方差越小。当样本容量一定时,总体方差越大,估计量方差越大。由于总体方差是固定的,因此在简单随机抽样的条件下,要提高估计量精度就只有增加样本容量了。但增加样本容量也会带来计算量骤增和成本增加,所以是矛盾的一对,需要找到合适的平衡点。12/12/2022294样本容量n越大,估计量方差越小。当样本容量一定时,二、总体总量的估计(一)简单估计量…………….(2.7)(二)估计量性质推论2.12.42.8
……….(2.13)…………….(2.19)…………….(2.26)12/12/202230二、总体总量的估计(一)简单估计量…………….(2.7)(例2.4(续例2.3)估计总体总量,并给出置信度为95%条件下的估计相对误差
。三、总体比例的估计将总体分为两类,一类具有该特征的单元A个,另一类不具有该特征的单元N-A个。调查的目的是估计或A
若令则12/12/202231例2.4(续例2.3)估计总体总量,并给出置信度三、总体比例(一)估计量的定义(二)估计量性质推论2.22.52.9对于简单随机抽样,p是P无偏估计。p的方差为
方差的无偏估计……(2.27)……(2.20)12/12/202232(一)估计量的定义(二)估计量性质推论2.22.52例2.5某超市开张一段时间后,为改进销售服务环境,欲调查附近几个小区居民到该超市购物的满意度。该超市与附近一个小区的居委会取得联系,在总体中按简单随机抽样抽取了一个大小为n=200人的样本。调查发现对购物表示满意或基本满意的居民有130人,估计对该超市购物环境持肯定态度的居民的比例,并在置信度95%条件下,给出估计的绝对误差和置信区间,假设抽样比可以忽略。12/12/202233例2.5某超市开张一段时间后,为改进销售服务环境,12/10(2)样本协方差是总体协方差的无偏估计.
(2.22,2.23)(2.29)考虑二维总体12/12/202234(2)样本协方差是总体协方差的无偏估计.(2.22,2.2证明:仍采用对称法(P40证法1)(1)注意样本分布注意为012/12/202235证明:仍采用对称法(P40证法1)(1)注意样本分布注意为0(1)证法2:(构造性)展开12/12/202236(1)证法2:(构造性)展开12/10/202236(2)注意由(1)12/12/202237(2)注意由(1)12/10/202237一、概念与作用(一)概念比率(Ratio)与比例(Proportion)区别(二)作用§2.3比率估计量及其性质一种场合是待估的总体参数R是两个变量比值。如人口密度,恩格尔系数等。
分子分母均为r.v.分子为r.v.12/12/202238一、概念与作用§2.3比率估计量及其性质一种场合是待估的总另一种应用场合,虽然待估的参数是某个研究变量的均值或总体总量,它本来可以通过样本均值加以估计,但是为了提高估计的效率,它通过引进一个辅助变量xi,来计算比率,即再通过这一比率乘以总体已知的辅助变量均值或总量来达到估计的目的。12/12/202239另一种应用场合,虽然待估的参数是某个研究变量的均值或总体总量二、应用条件(1)辅助变量(auxiliaryvariable)资料易得或已知(2)辅助变量与目标变量之间存在高度相关性且相关性稳定。(3)样本量一般要求比较大三、简单随机抽样下的比率估计12/12/202240二、应用条件(1)辅助变量(auxiliar(一)定义
比率估计量(ratioestimator)又称比估计。(2.30)(2.31)12/12/202241(一)定义(2.30)(2.31)12/10/202(二)比率估计的性质引理2.3定理2.6推论2.1112/12/202242(二)比率估计的性质引理2.3定理2.6推论2.1112/1引理2.4证:当n充分大时12/12/202243引理2.4证:当n充分大时12/10/202243定理2.7推论2.1212/12/202244定理2.7推论2.1212/10/202244因而方差估计有两种思路…(2.39)…(2.40)12/12/202245因而方差估计…(2.39)…(2.40)12/10/2022例2.6i123456均值XiYi011331151882910464.518表4.1假设的总体数据12/12/202246例2.6i123456均值Xi01358104.5表4.1解:i样本简单估计比率估计123456789101112131415均值1,21,31,41,51,62,32,42,52,63,43,53,64,54,65,62.06.09.515.023.57.010.516.024.514.520.028.523.532.037.518181817.116.87521.1515.7515.751620.045516.312516.363619.730816.269219.218.7517.6864412/12/202247解:i样本简单估计比率估计11,22.01812/10/2012/12/20224812/10/202248解12/12/202249解12/10/202249例2.7(P51例2.4)
在二十世纪90年代初的一项工资研究中,人们发现IT行业中,从业者的现薪与起薪之间相关系数ρ高达0.88,已知某IT企业474名员工的评鉴起薪为17016.00元/年,现根据对100个按简单随机抽样方式选出的员工现薪的调查结果,估计该企业员工的现薪平均水平。数据如下:,,12/12/202250例2.7(P51例2.4)在二十世纪90年代初的一项工资研解:简单估计95%的置信区间比率估计95%的置信区间12/12/202251解:简单估计95%的置信区间比率估计95%的置信例2.8某县在对船舶月完成的货运量进行调查,对运管部门登记的船舶台帐进行整理后获得注册船舶2860艘,载重吨位154626吨。从2860艘船舶中抽取一个n=10的简单随机样本。调查得到样本船舶月完成的货运量及其载重吨位如表4.2(单位:吨)要估计该县船舶月完成货运量1234578015001005376600100505010206789102170182314501581370120150802050表4.2样本船舶货运量及载重吨位数据12/12/202252例2.8某县在对船舶月完成的货运量进行调查,对运管部门登记的解12/12/202253解12/10/20225312/12/20225412/10/202254
(三)消除比率估计偏倚的方法12/12/202255(三)消除比率估计偏倚的方法12/10/202255
哈特利-罗斯(Hartley-Ross,1954)提出的估计量(2.51)于是可以令12/12/202256哈特利-罗斯(Hartley-Ross,1954)提出的估事实上:12/12/202257事实上:12/10/202257例2.9
12/12/202258例2.912/10/202258四、比率估计的效率≈1/212/12/202259四、比率估计的效率≈1/212/10/202259§2.4回归估计量及其性质比率估计成为最优线性估计的条件:(1)样本点(yi,xi)形成过原点的直线(2)yi对直线的偏差与xi成比例12/12/202260§2.4回归估计量及其性质比率估计成为最优线性估计的条件一、回归估计的定义二、β是已知常数时(记为β0)
定理2.8
12/12/202261一、回归估计的定义二、β是已知常数时(记为β0)定理2.8Q:“β0取何值时,回归估计量的精度最高,即最小?”定理2.9:三、由样本回归系数计算得到
(2.56Y对X回归系数)定理2.10这时的均值估计量是渐近无偏估计注意b并不是B的无偏估计12/12/202262Q:“β0取何值时,回归估计量的精度最高,即最定理2.11
它的一个近似估计为:12/12/202263定理2.11它的一个近似估计为:12/10/202263例2.10续例2.812/12/202264例2.10续例2.812/10/202264四、精度比较1回归估计总优于简单估计,除非ρ=0
2比率估计优于简单估计的条件
3回归估计优于比率估计的条件是五、多变量回归估计(略)12/12/202265四、精度比较1回归估计总优于简单估计,除非ρ=02比率估计§2.5样本量的确定一、总体均值情形1给定标准误差上限,求满足条件的最小n
12/12/202266§2.5样本量的确定一、总体均值情形1给定标准误差上限
2给定绝对误差上限及信度,求满足条件的最小n有放回,不放回3给定相对误差上限及信度,求满足条件的最小n有放回不放回12/12/2022672给定绝对误差上限及信度,求满足条件的最小n有放回,不放4给定相对标准误差上限γ,求满足条件
的最小n.放回不放回例2.6在例2.3中,如果要求以95%的把握保证相对误差不超过10%,样本量应该取多少?12/12/2022684给定相对标准误差上限γ,求满足条件的最小n.放回不放回12/12/20226912/10/202269二、总体总量情形作业考虑各种情行的公式例欲估计一个农村的每月平均副业收入,已知该村共有1000户农户,月副业收入的标准差不超过300元。(1)现要求置信度为95%,估计每户月副业收入的误差不超过50元,应抽取多少户作为样本?(2)若每户调查费用为15元,调查管理费用为800元,该项调查预计费用是多少?12/12/202270二、总体总量情形作业考虑各种情行的公式例欲估计一个农例如果上例目的是要估计全村1000户一月的副业总收入,允许总量的误差为40000,置信度为95%,应抽取多少样本?
三、总体参数P的情形四、总体参数的预先估计12/12/202271例如果上例目的是要估计全村1000户一月的副业三、总体参数(1)根据以往的经验数据例如对同类问题获得过一个样本量n0为的简单随机样本,并且已知在一定置信度下(比如95%),该调查对总体均值(或总量)估计的相对误差上限为r0,则在相同的置信度下,如果希望本次调查的相对误差上限为r,则在抽样比可以忽略的情况下,可以近似地计算出本次调查所需的样本量:作业证明上述结论12/12/202272(1)根据以往的经验数据例如对同类问题获得过一个样本量n0(2)在正式调查前进行试点调查,根据试点调查的结果作出估计,或者采用两步抽样(3)没有同类调查经验,又不能进行预调查,则只能通过有经验的专家作一些定性分析,对总体变异系数C(比较稳定)作出估计。
(4)注意:针对总体参数为P时情形
当估计P<0.5,则选取较大的P,如若估计P为[0.3,0.4]则选取P为0.4当估计P>0.5,则选取较小的P,如若估计P为[0.6,0.8]则选取P为0.6若对P一无所知则取P=0.5。12/12/202273(2)在正式调查前进行试点调查,根据试点调查的(3)没有同类例2.7某销售公司希望了解全部3000家客户对公司的满意度,决定用电话调查一个简单随机样本。这时销售公司希望以95%的把握保证客户满意度比例P在样本比例[p-10%,p+10%]范围内,但对总体比例P无法给出一个大致范围。这时调查多少个客户,才能保证满足要求?12/12/202274例2.7某销售公司希望了解全部3000家客户对公司的满意度§2.6其它相关问题一、逆抽样比例P是稀有事件的比例,一般P<0.2
事先给定一个正整数m,然后逐个随机抽取样本,n个单元。
直到抽到m个所考虑特征的单元为止,设共取了12/12/202275§2.6其它相关问题一、逆抽样比例P是稀有事件的比例,一事实上利用负二项分布的分布列之和为112/12/202276事实上利用负二项分布的12/10/202276这样给定了相对标准误差后,就可以确定m
12/12/202277这样给定了相对标准12/10/202277二、设计效应(Designeffect)(L.Kish)12/12/202278二、设计效应(Designeffect)(L.Kish)1通常的值因为总体方差未知而事先无法得知,此时需注意在经费允许的前提下,样本量取值应坚持保守原则,尽量大一点,以便留有余地。例如后续的分层抽样的deff<1,而取为1.实际上,我们在调查时无法保证在每个被抽中的样本点上都能如愿地获得有效信息。例如不是每个人都愿意接受访问,也不是每个人都能按要求提供真是答案,尤其当问题涉及隐私或其它敏感内容时,所以必须考虑有效回答率。如估计有效回答率为r,则需再调整样本量为n/r.12/12/202279通常的值因为总体方差未知而事先无法得知,此时需注意在经费允宏村12/12/202280宏村12/10/202280Chap2简单随机抽样
2.2简单估计法(SE)
2.1定义与符号
抽
样
调
查
2.5样本量的确定
2.6其它相关问题
2.3比率估计量
2.4回归估计量12/12/202281Chap2简单随机抽样
2.2简单估计法(SE)§2.1定义与符号一、定义与符号
(一)定义上述抽样就称为不放回简单随机抽样
定义2.1:设有限总体共有N个单元,一次整批抽取n个单元使得每个单元被抽中的概率都相等,任何n个不同单元的组合(样本)都有相同的概率被抽中,这种抽样方法称为简单随机抽样法,所抽到的样本为简单随机样本。
12/12/202282§2.1定义与符号一、定义与符号(一)定义上述抽样就称
定义2.2:(在具体实施过程中,)从总体中逐个等概率抽取单元(每次抽取到尚未入样的任何一个单元的概率都相等),直到抽满n个为止。如果每次抽中一个单元,然后放回总体,重新抽取。这样一个单元有可能被重复抽中,故又称重复抽样。12/12/202283定义2.2:(在具体实施过程中,)从总体中逐个等概率抽取单
定义2.3按照从总体的N个单元中抽取n个单元的所有可能不同的组合构造所有可能的CNn个样本,从CNn个样本随机抽取一个样本,使每个样本被抽中的概率都等于1/CNn.上述三中定义其实是完全等价的,而定义2.2在实际中容易实施。12/12/202284定义2.3按照从总体的N个单元中抽取n个单元的所有可能不例2.1设总体有5个单元(1,2,3,4,5),按有放回简单随机抽样的方式抽取容量为2的样本,则所有可能样本为个,如表2.1。
表2.1放回简单随机抽样所有可能样本1,11,21,31,41,52,12,22,32,42,53,13,23,33,43,54,14,24,34,44,55,15,25,35,45,512/12/202285例2.1设总体有5个单元(1,2,3,4,5),按有放回简例2.2上述总体按不放回简单随机抽样方式抽取容量为2的样本,则所有可能样本为个,如表2.2。1,21,31,41,52,32,42,53,43,54,5表2.2不放回简单随机抽样所有可能样本12/12/202286例2.2上述总体按不放回简单随机抽样方式抽取容量个,如表2(二)样本分布与符号从总体抽样单元。假设顺序被抽中的样本单元的号码为(入样号码),则样本为,称为抽样比(Samplingfraction)。中逐个不放回抽取n个作为随机变量样本有什么分布呢?12/12/202287(二)样本分布与符号从总体抽样单元。假设顺序被抽中的样本单元1y1,…yn同分布但不相互独立,其共同分布列为2(yi,yj)的联合分布列均同(y1,y2)12/12/2022881y1,…yn同分布但不相互独立,其共同分布列为2(表2.3符号总体参数样本统计量12/12/202289表2.3符号总体参数样本统计量12/10/20229二、抽样方法(一)抽签法
制作N个外形相同的签,将它们充分混合,然后一次抽取n个签,或一次抽取一个但不放回,抽取n次得到n个签。则这n个签上所对应号码表示入样的单元号。例如:某中学为了解学生身体素质的基本状况,从全校N=1200人中抽取一个简单样本n=100人进行检查。12/12/202290二、抽样方法(一)抽签法制作N个外形相同的签,将它们充分混1随机数表(二)随机数法如上例,N=1200,则在表中随机连续取四列,顺序往下,选出前面100个不同(不放回抽样)的0001~1200之间的数字。如果不够100个,可随机再取四列,同样操作,直至抽取100个止。12/12/2022911随机数表(二)随机数法如上例,N=1200,则在表中随机Simplerandomsampling12/12/202292Simplerandomsampling12/10/20Tableofrandomnumbers12/12/202293Tableofrandomnumbers12/10/22随机数骰子随机数骰子是由均匀材质制成的正20面体,每个面上刻有一个0~9的数字,且每个数字只出现在两个面上。要产生一个m位数的随机数(如m=4,N=1200),则将m(m=4)个颜色不同的骰子盒中,并规定每个颜色代表的位数,盖上盖子,充分摇动盒子后,打开读出各色骰子的数字,即可得一个随机数。重复上述过程,直至产生了n个满足条件的随机数。12/12/2022942随机数骰子随机数骰子是由均匀材质制成的正20面3利用统计软件直接抽取法大部分统计软件都有产生随机数的功能,快捷方便。不过产生的是伪随机数,有一定循环周期的。简单介绍一下利用EXCEL产生随机数的方法.
12/12/2022953利用统计软件直接抽取法大部分统计软件都有产生随机数的功12/12/20229612/10/20221612/12/20229712/10/20221712/12/20229812/10/202218§2.2简单估计法(SE)一、总体均值的估计(一)简单估计定义
………………..(2.6)
(二)简单估计量的性质引理2.1从大小为N的总体中抽取一个样本容量为n的简单随机样本,则总体中每个特定的单元入样的概率为n/N,两个特定单元入样的概率为n(n-1)/N(N-1)。
12/12/202299§2.2简单估计法(SE)一、总体均值的估计(一)简单估
引理2.2从大小为N的总体中抽取一个样本容量为n的简单随机样本。若令:则:12/12/2022100引理2.2从大小为N的总体中抽取一个样本容量为n的简单随机(二)简单估计量的性质
定理2.1上述简单估计是无偏的,即
定理2.2上述简单估计的方差(均方误差)为:……….(2.12/2.18)
12/12/2022101(二)简单估计量的性质定理2.1上述简单估计是无偏的,证明(P35证法1对称证法):为0注意样本分布12/12/2022102证明(P35证法1对称证法):为0注意样本分布12/10/推论2.7的无偏估计为………..(2.25)
证明:只须说明样本方差是总体方差的无偏估计即可。注意12/12/2022103推论2.7的无偏估计为………..(2.25)证明:只须说明
例2.3从某个N=100的总体重抽取一个容量n=10的简单随机样本,要估计总体平均水平,并给出置信度为95%的置信区间估计。如表2.4序号1234567891045204661508表2.4简单随机样本指标
12/12/2022104例2.3从某个N=100的总体重抽取一个容量n=10序号12/12/202210512/10/202225(三)有放回简单随机抽样的简单估计量由于故有放回抽样的精度低于不放回抽样的精度。12/12/2022106(三)有放回简单随机抽样的简单估计量由于故有放回抽样的精度低说明:1抽样调查中的估计量与传统数理统计中估计量的区别(见表2.5)表2.5抽样理论与传统数理统计关于样本均值性质异同比较抽样理论数理统计理论假设样本之间不独立,所以可能样本最多个,欲估计总体特征为,当n=N时可以求出样本之间独立,所有可能样本最多为无限多个;欲估计总体特征为总体(一般是随机变量X)期望μ,一般不能通过样本求出符号、定义期望方差12/12/2022107说明:1抽样调查中的估计量与传统数理统计中估计量的区别(见2总体方差一般也是未知的,故计算估计量方差(估计)值时总是用样本方差直接去估计它,因为该估计无偏,故这样做相对是合理的。3
对于无限总体的简单随机抽样(或有限总体有放回简单抽样)估计中由于N一般很大,
即从有限总体抽样得到简单随机样本均值得方差是从无限总体抽样得的独立样本均值的方差的1-f倍,要小些,这意味着对同等样本量,不放回简单随机抽样的精度高于有放回的。由于样本点不会重复,样本量相同时所包含的有效样本点更多,因此信息更多,效果当然好些。1-f又被称为有限总体校正系数。12/12/20221082总体方差一般也是未知的,故计算估计量方差(估计)值时总是4样本容量n越大,估计量方差越小。当样本容量一定时,总体方差越大,估计量方差越大。由于总体方差是固定的,因此在简单随机抽样的条件下,要提高估计量精度就只有增加样本容量了。但增加样本容量也会带来计算量骤增和成本增加,所以是矛盾的一对,需要找到合适的平衡点。12/12/20221094样本容量n越大,估计量方差越小。当样本容量一定时,二、总体总量的估计(一)简单估计量…………….(2.7)(二)估计量性质推论2.12.42.8
……….(2.13)…………….(2.19)…………….(2.26)12/12/2022110二、总体总量的估计(一)简单估计量…………….(2.7)(例2.4(续例2.3)估计总体总量,并给出置信度为95%条件下的估计相对误差
。三、总体比例的估计将总体分为两类,一类具有该特征的单元A个,另一类不具有该特征的单元N-A个。调查的目的是估计或A
若令则12/12/2022111例2.4(续例2.3)估计总体总量,并给出置信度三、总体比例(一)估计量的定义(二)估计量性质推论2.22.52.9对于简单随机抽样,p是P无偏估计。p的方差为
方差的无偏估计……(2.27)……(2.20)12/12/2022112(一)估计量的定义(二)估计量性质推论2.22.52例2.5某超市开张一段时间后,为改进销售服务环境,欲调查附近几个小区居民到该超市购物的满意度。该超市与附近一个小区的居委会取得联系,在总体中按简单随机抽样抽取了一个大小为n=200人的样本。调查发现对购物表示满意或基本满意的居民有130人,估计对该超市购物环境持肯定态度的居民的比例,并在置信度95%条件下,给出估计的绝对误差和置信区间,假设抽样比可以忽略。12/12/2022113例2.5某超市开张一段时间后,为改进销售服务环境,12/10(2)样本协方差是总体协方差的无偏估计.
(2.22,2.23)(2.29)考虑二维总体12/12/2022114(2)样本协方差是总体协方差的无偏估计.(2.22,2.2证明:仍采用对称法(P40证法1)(1)注意样本分布注意为012/12/2022115证明:仍采用对称法(P40证法1)(1)注意样本分布注意为0(1)证法2:(构造性)展开12/12/2022116(1)证法2:(构造性)展开12/10/202236(2)注意由(1)12/12/2022117(2)注意由(1)12/10/202237一、概念与作用(一)概念比率(Ratio)与比例(Proportion)区别(二)作用§2.3比率估计量及其性质一种场合是待估的总体参数R是两个变量比值。如人口密度,恩格尔系数等。
分子分母均为r.v.分子为r.v.12/12/2022118一、概念与作用§2.3比率估计量及其性质一种场合是待估的总另一种应用场合,虽然待估的参数是某个研究变量的均值或总体总量,它本来可以通过样本均值加以估计,但是为了提高估计的效率,它通过引进一个辅助变量xi,来计算比率,即再通过这一比率乘以总体已知的辅助变量均值或总量来达到估计的目的。12/12/2022119另一种应用场合,虽然待估的参数是某个研究变量的均值或总体总量二、应用条件(1)辅助变量(auxiliaryvariable)资料易得或已知(2)辅助变量与目标变量之间存在高度相关性且相关性稳定。(3)样本量一般要求比较大三、简单随机抽样下的比率估计12/12/2022120二、应用条件(1)辅助变量(auxiliar(一)定义
比率估计量(ratioestimator)又称比估计。(2.30)(2.31)12/12/2022121(一)定义(2.30)(2.31)12/10/202(二)比率估计的性质引理2.3定理2.6推论2.1112/12/2022122(二)比率估计的性质引理2.3定理2.6推论2.1112/1引理2.4证:当n充分大时12/12/2022123引理2.4证:当n充分大时12/10/202243定理2.7推论2.1212/12/2022124定理2.7推论2.1212/10/202244因而方差估计有两种思路…(2.39)…(2.40)12/12/2022125因而方差估计…(2.39)…(2.40)12/10/2022例2.6i123456均值XiYi011331151882910464.518表4.1假设的总体数据12/12/2022126例2.6i123456均值Xi01358104.5表4.1解:i样本简单估计比率估计123456789101112131415均值1,21,31,41,51,62,32,42,52,63,43,53,64,54,65,62.06.09.515.023.57.010.516.024.514.520.028.523.532.037.518181817.116.87521.1515.7515.751620.045516.312516.363619.730816.269219.218.7517.6864412/12/2022127解:i样本简单估计比率估计11,22.01812/10/2012/12/202212812/10/202248解12/12/2022129解12/10/202249例2.7(P51例2.4)
在二十世纪90年代初的一项工资研究中,人们发现IT行业中,从业者的现薪与起薪之间相关系数ρ高达0.88,已知某IT企业474名员工的评鉴起薪为17016.00元/年,现根据对100个按简单随机抽样方式选出的员工现薪的调查结果,估计该企业员工的现薪平均水平。数据如下:,,12/12/2022130例2.7(P51例2.4)在二十世纪90年代初的一项工资研解:简单估计95%的置信区间比率估计95%的置信区间12/12/2022131解:简单估计95%的置信区间比率估计95%的置信例2.8某县在对船舶月完成的货运量进行调查,对运管部门登记的船舶台帐进行整理后获得注册船舶2860艘,载重吨位154626吨。从2860艘船舶中抽取一个n=10的简单随机样本。调查得到样本船舶月完成的货运量及其载重吨位如表4.2(单位:吨)要估计该县船舶月完成货运量1234578015001005376600100505010206789102170182314501581370120150802050表4.2样本船舶货运量及载重吨位数据12/12/2022132例2.8某县在对船舶月完成的货运量进行调查,对运管部门登记的解12/12/2022133解12/10/20225312/12/202213412/10/202254
(三)消除比率估计偏倚的方法12/12/2022135(三)消除比率估计偏倚的方法12/10/202255
哈特利-罗斯(Hartley-Ross,1954)提出的估计量(2.51)于是可以令12/12/2022136哈特利-罗斯(Hartley-Ross,1954)提出的估事实上:12/12/2022137事实上:12/10/202257例2.9
12/12/2022138例2.912/10/202258四、比率估计的效率≈1/212/12/2022139四、比率估计的效率≈1/212/10/202259§2.4回归估计量及其性质比率估计成为最优线性估计的条件:(1)样本点(yi,xi)形成过原点的直线(2)yi对直线的偏差与xi成比例12/12/2022140§2.4回归估计量及其性质比率估计成为最优线性估计的条件一、回归估计的定义二、β是已知常数时(记为β0)
定理2.8
12/12/2022141一、回归估计的定义二、β是已知常数时(记为β0)定理2.8Q:“β0取何值时,回归估计量的精度最高,即最小?”定理2.9:三、由样本回归系数计算得到
(2.56Y对X回归系数)定理2.10这时的均值估计量是渐近无偏估计注意b并不是B的无偏估计12/12/2022142Q:“β0取何值时,回归估计量的精度最高,即最定理2.11
它的一个近似估计为:12/12/2022143定理2.11它的一个近似估计为:12/10/202263例2.10续例2.812/12/2022144例2.10续例2.812/10/202264四、精度比较1回归估计总优于简单估计,除非ρ=0
2比率估计优于简单估计的条件
3回归估计优于比率估计的条件是五、多变量回归估计(略)12/12/2022145四、精度比较1回归估计总优于简单估计,除非ρ=02比率估计§2.5样本量的确定一、总体均值情形1给定标准误差上限,求满足条件的最小n
12/12/2022146§2.5样本量的确定一、总体均值情形1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 江苏省苏州市梁丰2024-2025学年初三下学期(开学)考试化学试题试卷含解析
- 山东省烟台芝罘区六校联考2024-2025学年初三5月份考前模拟适应性联合考试化学试题试卷含解析
- 沈阳工业大学《云计算与虚拟化技术》2023-2024学年第二学期期末试卷
- 辽宁省辽河油田第二中学2025届高三高考信息卷(一)物理试题含解析
- 长沙市重点中学2025年高三4月联考历史试题试卷含解析
- 宁夏中卫市名校2024-2025学年高中毕业班3月复习教学质量检测试题(二)英语试题含答案
- 山西省右玉县重点达标名校2024-2025学年初三5月三校联考化学试题试卷含解析
- 上海市徐汇区2025年数学四年级第二学期期末复习检测试题含解析
- 山东省滨州市滨城区北城英才学校2025年三下数学期末考试试题含解析
- 短期护士雇佣合同2025年
- 2025年中国腰果行业市场深度分析及发展前景预测报告
- 工业机器人集成应用(ABB) 高级 课件 1.2.3 PLC设备选型方法与工作站PLC选型
- 《危险作业审批制度》知识培训
- 新国际物流知识培训课件
- 关节置换感染预防与控制
- 《中药鉴定学总论》课件
- 落实工业产品质量安全主体责任-质量管理人员培训考核题:生产领域题库含答案
- 室内空间的类型及特54课件讲解
- CDN加速服务合同(2024年版)
- 海上光伏专项施工方案
- 心肺康复管理-洞察分析
评论
0/150
提交评论