简单随机抽样(课堂PPT)_第1页
简单随机抽样(课堂PPT)_第2页
简单随机抽样(课堂PPT)_第3页
简单随机抽样(课堂PPT)_第4页
简单随机抽样(课堂PPT)_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、.1Chapter 2 简单随机抽样简单随机抽样(Simple Random Sampling)简单随机抽样的定义与抽选方法简单随机抽样的定义与抽选方法简单估计量及其性质简单估计量及其性质比率估计量及其性质比率估计量及其性质回归估计量及其性质回归估计量及其性质样本量的确定原则样本量的确定原则若干问题的补充若干问题的补充.21 简单随机抽样的定义简单随机抽样的定义与抽选方法与抽选方法一、定义一、定义 从大小为从大小为N的总体抽取样本量为的总体抽取样本量为n的样本,若全部的样本,若全部可能的样本被抽中的可能的样本被抽中的概率都相等概率都相等,则称这样的抽样为简,则称这样的抽样为简单随机抽样。单随机

2、抽样。 根据抽样单位是否放回可分为放回简单随机抽样和根据抽样单位是否放回可分为放回简单随机抽样和不放回简单随机抽样。不放回简单随机抽样。 放回放回简单随机抽样:每个样本抽中的概率简单随机抽样:每个样本抽中的概率 不放回不放回简单随机抽样:每个样本抽中的概率简单随机抽样:每个样本抽中的概率nN1nNC1简单随机抽样。简单随机抽样。实践中,考虑不放回的实践中,考虑不放回的.3二、实施方法二、实施方法 简单随机样本的抽选,首先要将总体从简单随机样本的抽选,首先要将总体从1到到 N 编号,每个单位对应一个号;然后从所编的编号,每个单位对应一个号;然后从所编的号中抽号,如果抽到某个号,则对应的那个单号中

3、抽号,如果抽到某个号,则对应的那个单位入样,直到抽够位入样,直到抽够 n 个单位为止。个单位为止。 抽签法抽签法 随机数法随机数法.4 抽签法:抽签法:简单随机抽样就是从盛有简单随机抽样就是从盛有N张票子的盒子张票子的盒子里里随机无放回地随机无放回地摸取摸取n(N)张票,它可以有两种取法:张票,它可以有两种取法: 1)从盒子中一次性摸取从盒子中一次性摸取n张票张票 2)从盒子中随机地摸取一张票,相应的单元入样后,从盒子中随机地摸取一张票,相应的单元入样后,票不放回盒子;从余下的票不放回盒子;从余下的N-1张票中再随机地摸取一张张票中再随机地摸取一张票,相应的单元也入样且票也不放回盒子;依次实施

4、,票,相应的单元也入样且票也不放回盒子;依次实施,直到第直到第n个样本入样。个样本入样。 两种抽取的方法是等价的。两种抽取的方法是等价的。每个样本的被抽中的概率每个样本的被抽中的概率都是都是 nNC/1?率率为为什什么么是是种种取取法法中中样样本本入入样样的的概概第第nNC1)2.512,niiiY YY第第二二种种抽抽取取中中,不不妨妨假假设设先先后后入入样样,则则),(,21niiiYYYP121312121() (|) (|)(|)nniiiiiiiiiiP YP YYP YY YP YY YY 11111 nNNN!)!(NnN !,21nYYYniii有有得得到到这这组组的的样样本本

5、的的个个数数后后顺顺序序无无关关,这这组组样样本本与与其其入入样样的的先先.11!/)!( !nNCnNNnNn )入入样样的的概概率率为为样样本本(niiiYYY,21.6随机数法随机数法 当总体较大时,抽签法实施起来比较困难,当总体较大时,抽签法实施起来比较困难,这时可以利用随机数表、随机数骰子、摇奖机、这时可以利用随机数表、随机数骰子、摇奖机、计算机产生的伪随机数进行抽样。计算机产生的伪随机数进行抽样。 (1)利用随机数表进行抽选。利用随机数表进行抽选。 随机数表是一张由随机数表是一张由0,1,2,9这十个数这十个数字组成的,一般常用的是五位数的随机数字表,字组成的,一般常用的是五位数的

6、随机数字表,10个数字在表中出现的顺序是随机的,每个数字个数字在表中出现的顺序是随机的,每个数字都有同样的机会被抽中。都有同样的机会被抽中。 .7(2)利用随机数骰子进行抽选。利用随机数骰子进行抽选。(3)利用摇奖机进行抽选。利用摇奖机进行抽选。 (4)利用计算机产生的伪随机数进行抽选。通利用计算机产生的伪随机数进行抽选。通常产生的伪随机数有循环周期。常产生的伪随机数有循环周期。Excel、SPSS等都有随机数发生器等等都有随机数发生器等.8简单随机抽样在抽样理论中的地位简单随机抽样在抽样理论中的地位u缺点:缺点:要求每一个单元都有一个号码,这意味着必要求每一个单元都有一个号码,这意味着必须有

7、一个包含所有单元的完整抽样框,而当须有一个包含所有单元的完整抽样框,而当N很大很大时,这点常常是不具备的;由此得到的样本很分散,时,这点常常是不具备的;由此得到的样本很分散,不利于调查。例如,对全国进行人口调查,总体单不利于调查。例如,对全国进行人口调查,总体单元超过元超过1212亿,要对全国每个人都编上号,编制一个亿,要对全国每个人都编上号,编制一个完整的抽样框实际上是不可能的。即使可能,当抽完整的抽样框实际上是不可能的。即使可能,当抽到一个人也很难找到到一个人也很难找到。u优点:优点:简单随机抽样在抽样理论中占有重要地位,简单随机抽样在抽样理论中占有重要地位,它是其它抽样方法的基础,其理论

8、也最为成熟。其它它是其它抽样方法的基础,其理论也最为成熟。其它许多方法都是建立在简单随机抽样的基础上。许多方法都是建立在简单随机抽样的基础上。.9相关符号相关符号12,NNY YY 总总体体:12, ,ni ii抽抽中中的的号号码码:12(,)niiiyY YY 样样本本:12(,)nyyy nSampling fractionfN 抽抽样样比比()Nn 1.10有关指标与符号有关指标与符号指指 标标 总总 体体 样样 本本 总值总值均值均值比例比例比率比率有限总体方差有限总体方差无限总体方差无限总体方差 NiiYY1 NiiYNY11)或或(0 1,111 iNiiYYNNNPXYXYXYR

9、NiiNii 1121221)(11 NNYYNSNi NjYYN122)(1 niiyy1 niiyny11)或或 0 1( ,111 iniiyynnnpxyxyxyRniinii 11212)(11yynsnii .11引理引理 引理引理1:从大小为从大小为N的总体中抽取一个样本容量为的总体中抽取一个样本容量为n的简单的简单随机样本,则总体中随机样本,则总体中每个特定的单元每个特定的单元入样的概率为入样的概率为n/N,两个特定单元两个特定单元入样的概率为入样的概率为n(n1)/N(N-1)。)。入样的样本数为入样的样本数为特定单元特定单元证明:样本总数证明:样本总数inNYC ;1111

10、 nNCC入样的样本数为入样的样本数为,两个特定单元两个特定单元)(jiYYji 2222 nNCC由古典概型的计算公式由古典概型的计算公式一个特定单元入样的概率一个特定单元入样的概率NnCCCnNnN 1111两个特定单元入样的概率两个特定单元入样的概率)1()1(2222 NNnnCCCnNnN.121211(,)nniNyyyYC 样样本本,将将所所有有可可能能出出现现的的样样本本求求和和,总总体体中中每每个个单单元元 都都出出现现了了次次,因因此此11nNiiiiyY 取取遍遍所所有有样样本本11 nNC或求期望)或求期望)求平均值求平均值(11iiiniNNnnNyYC 取取遍遍所所

11、有有样样本本 )(1niiyE即即1NiinNY )()( NjijinjijiYYYYYyYyE问问:)1()1( NNnn)(1 niiyE求求.13 引理引理2:从大小为从大小为N的总体中抽取一个样本容量为的总体中抽取一个样本容量为n的简的简单随机样本。若令:单随机样本。若令:10iiYa 入入样样否否则则 1inE afN则则: 21in NnV affNN 13 cov,1,11ijffnna aijN NNN NnaPNnaPii 1)0(,)1(1,证证明明:由由引引理理 inE afN于于是是 1in NnVar affNN )1()1()1(1 NNnnaaPji,由由引引理

12、理 1cov,()()()1ijijijffa aE a aE a E aN .14简单估计量的定义简单估计量的定义简单估计量简单估计量 的性质的性质放回简单随机抽样的简单估计放回简单随机抽样的简单估计设计效应设计效应影响估计量精度的因素影响估计量精度的因素2.2 简单估计量及其性质简单估计量及其性质y.15一、简单估计量的定义一、简单估计量的定义 对于简单随机抽样,在没有其它信息的条件对于简单随机抽样,在没有其它信息的条件下,最简单的估计是利用样本均值作为总体均值下,最简单的估计是利用样本均值作为总体均值的估计,即总体均值的简单估计量为:的估计,即总体均值的简单估计量为: 11niiYyyn

13、 也就是说,样本均值是总体均值的简单估计量。也就是说,样本均值是总体均值的简单估计量。YynNYNYnii估估计计总总体体总总和和 1. yN,着着重重研研究究和和的的估估计计只只相相差差由由于于总总体体均均值值和和总总体体总总.16的性质的性质二、简单估计量二、简单估计量 y 例例2.1:一个:一个N=6的总体中抽取的总体中抽取n=3的样本,设这的样本,设这6个单个单元的值分别为元的值分别为 Y1=21,Y2=12,Y3=15,Y4=24,Y5=6,Y6=18,则则总共可能有总共可能有 个样本,每个样本所包含的单元号及其数个样本,每个样本所包含的单元号及其数值见值见表表2.1总体均值总体均值

14、:总体方差总体方差: 发现:发现: 样本均值的均值总体均值样本均值的均值总体均值 样本方差的均值总体方差样本方差的均值总体方差这并不是偶然的,是其重要的性质。这并不是偶然的,是其重要的性质。1611 NiiYNY42)(11122 NiiYYNSYyE)(22)(SsE.17证明:(方法一:对称性证法)证明:(方法一:对称性证法) )(1)(1 niiyEnyEYyEYy )(:1 . 2的的无无偏偏估估计计,即即是是对对于于简简单单随随机机抽抽样样,定定理理YYNnnNii 11证明:(方法二:引入示性变量)证明:(方法二:引入示性变量) 否否则则。,个个单单元元入入样样;若若第第0, 1i

15、ai NiiiYany11于于是是 NiiiYaEnyE1)(1)()inE aN 由由于于YYNnnyENii 11)(的无偏估计。的无偏估计。是是于是于是YyN.18221)(:2 . 2SnfSnNnNyVy 的的方方差差本本均均值值对对于于简简单单随随机机抽抽样样,样样定定理理证明:(方法一:引入示性变量)证明:(方法一:引入示性变量) )(yMSE 否否则则。,个个单单元元入入样样;若若第第0, 1iai NiiiYany11于于是是 )1()(1NiiiYanVyV)(112iNiiYaVn NiNjijijiiiaaYYaVYn122),cov(2)(1 1iV aff 1cov

16、,1ijffa aijN )(yV NiNjijiiYYNYNNNnf1221)1(121)()1(1YYNnfNii 21)(SnfyV 于于是是221)(SnfNyNV 于于是是.19证明:(方法二:对称性证法)证明:(方法二:对称性证法) 212)1()()(YynEyEyEyVnii 2211()niiEyYn )(1)(12212 jijiniiYyYyEnYyEn根据对称性论证法,有根据对称性论证法,有 )(21YyEnii 21)(YYNnNii jijiYyYyE)()()1()1(YYYYNNnnjjii .20)()1()1(1)(1)(2212YYYYNNnnnYYNnn

17、yVjijiNii )(11)(121YYYYNnYYnNjjiiNii (11)()111(12121YYNnYYNnnNNiiNii 2211)(11SnfYYNnNnNNii .21回顾回顾简单随机抽样的定义与抽选方法简单随机抽样的定义与抽选方法简单随机抽样的实施方法简单随机抽样的实施方法两个引理两个引理简单估计量的定义简单估计量的定义样本均值是总体均值的无偏估计。样本均值是总体均值的无偏估计。YyEYy )(:1 . 2的的无无偏偏估估计计,即即是是对对于于简简单单随随机机抽抽样样,定定理理221)(:2 . 2SnfSnNnNyVy 的的方方差差本本均均值值对对于于简简单单随随机机抽

18、抽样样,样样定定理理.22221)()(:2 . 2SnfSnNnNyVyMSEy 的的方方差差本本均均值值对对于于简简单单随随机机抽抽样样,样样定定理理与与样样本本量量几几乎乎成成反反比比。体体方方差差成成正正比比的的统统计计意意义义:精精度度与与总总,)(V yQ1:估计量的精度与抽样比的关系大吗?估计量的精度与抽样比的关系大吗?A1: 当当N很大时,抽样精度基本取决于样本量很大时,抽样精度基本取决于样本量n,而与抽而与抽样比几乎无关。样比几乎无关。Q2: 进行人口抽样调查,如果需要各个省的数据,要达进行人口抽样调查,如果需要各个省的数据,要达到相同的精度,大省和小省所需要的样本量几乎相同

19、还到相同的精度,大省和小省所需要的样本量几乎相同还是相差很大?是相差很大?A2:几乎相同。虽然此时抽样比相差很大,但如果抽样比几乎相同。虽然此时抽样比相差很大,但如果抽样比相同,必然会导致小省精度不够,大省抽样过多而浪费。相同,必然会导致小省精度不够,大省抽样过多而浪费。.23一点解释:一点解释:1-f1-f:fpc (finite population correction )有限总体校正有限总体校正系数系数 总体未入样率总体未入样率从一无限总体中抽取一个样本容量为从一无限总体中抽取一个样本容量为n的随机样本的随机样本n2nsn22,它它的的无无偏偏估估计计是是均均值值的的方方差差是是 有有

20、限限总总体体的的校校正正系系数数。对对标标准准差差(标标准准误误)为为对对方方差差,于于是是称称。引引进进因因子子化化,总总体体有有限限时时,产产生生了了变变fffNnN 111 一般而言,当抽样比小于一般而言,当抽样比小于5%时,时,fpc 可以忽略不计算,这样可以忽略不计算,这样的话估计量的标准差就估计的稍微高一些。的话估计量的标准差就估计的稍微高一些。.24为为样样本本方方差差。的的方方差差的的无无偏偏估估计计:定定理理221)(3 . 2ssnfyvy 简单估计量方差的无偏估计简单估计量方差的无偏估计证明:说明样本方差是总体方差的无偏估计即可。证明:说明样本方差是总体方差的无偏估计即可

21、。 212)(11yynsnii 21)()(11YyYynnii )()(11221YynYynnii 根据对称性论证法和方差性质根据对称性论证法和方差性质)(21YyEnii 21)(YYNnNii 2)1(SNNn )(2YynE 2)(YynE )(ynV 2SNnN 222)() 1() 1()(SnNNnNnSsE 于于是是)()(yVyvE 于于是是.25简单估计量的性质小结简单估计量的性质小结YyEYy )(:1 . 2的的无无偏偏估估计计,即即是是对对于于简简单单随随机机抽抽样样,定定理理221)()(:2 . 2SnfSnNnNyVyMSEy 的的方方差差本本均均值值对对于

22、于简简单单随随机机抽抽样样,样样定定理理21)(3 . 2snfyvy 的的方方差差的的无无偏偏估估计计:定定理理的的具具有有相相应应的的性性质质。对对应应地地:yNY 置置信信区区间间:的的下下,于于是是,在在置置信信度度%100)1(1aY (),() ,yuV yyuV yu 此此时时为为双双侧侧分分位位数数。( ),( ) yuv yyuv y .26具体例子具体例子 例:从一个容量为例:从一个容量为100的总体中抽出样本容量为的总体中抽出样本容量为10的简的简单随机样本,要估计总体平均水平,并给出置信度为单随机样本,要估计总体平均水平,并给出置信度为95%的置信区间。的置信区间。序号

23、序号i 1 2 3 4 5 6 7 8 9 10yi4 5 2 0 4 6 6 15 0 8 1 . 010010,10,100 fnN解解:由由题题意意:,510101 iiyyY1111.19,422,910210221022 syyysiiii由由于于3115. 1)()(72. 11)(2 YvYssnfYv,95%的置信区间为的置信区间为5-1.961.3115, 5+1.961.31152.43,7.57.27 例:从一个容量为例:从一个容量为100的总体中抽出样本容量为的总体中抽出样本容量为10的简的简单随机样本,单随机样本,序号序号i 1 2 3 4 5 6 7 8 9 10y

24、i4 5 2 0 4 6 6 15 0 8 续上续上若问若问: (2)估计总体的估计总体的总量总量以及以及95的置信区间。的置信区间。,5005100 yNY15.1313115. 1100)()()( YvNYsNYs95%的置信区间为的置信区间为N5-1.961.3115, 5+1.961.31151002.43,7.57243,757(3)总体均值估计的绝对误差和相对误差总体均值估计的绝对误差和相对误差57. 23115. 196. 1)( Yvud 绝绝对对误误差差514. 053115. 196. 1 Ydr相相对对误误差差.28(三)放回简单随机抽样的简单估计量放回简单随机抽样的简

25、单估计量YyEnyEnii )(1)(1nyVnyVnii212)(1)( nsyv2)( 方方差差的的无无偏偏估估计计量量有放回抽样的精度低于不放回抽样的精度。有放回抽样的精度低于不放回抽样的精度。.29百分数的估计及其误差百分数的估计及其误差在问卷调查中对某个问题的回答为在问卷调查中对某个问题的回答为“是是”或或“否否”的情况:若某个问题的答案只有两个,的情况:若某个问题的答案只有两个,“是是”或或“否否”,则选择,则选择“是是”或或“否否”的的比例比例 即是需要估即是需要估计的总体比例计的总体比例多项选择题:某个问题有多项选择题:某个问题有5种可选答案种可选答案A、B、C、D、E,每人可

26、任意选择一项,那么对答案,每人可任意选择一项,那么对答案A而言,每个而言,每个人的选择可以是人的选择可以是“A”或或“非非A”,由此,由此“选择选择A的比的比例例”即是需要估计的总体比例。即是需要估计的总体比例。同理,选择同理,选择B、C、D及及E的比例都是我们需要估计的总体比例。的比例都是我们需要估计的总体比例。总体比例常用百分数来表示,有时也俗称为总体比例常用百分数来表示,有时也俗称为。.30 如果我们只关心总体中某些特定类型的集合占整个总如果我们只关心总体中某些特定类型的集合占整个总体的比例,那么我们的盒子模型中的票子分为两类:我们体的比例,那么我们的盒子模型中的票子分为两类:我们感兴趣

27、的全标为感兴趣的全标为1,其余全标为,其余全标为0。于是盒子成为:。于是盒子成为: 1 0个个1N个个1NN 0-1盒子模型盒子模型.31 。个个单单元元不不具具有有某某种种属属性性,总总体体第第个个单单元元具具有有某某种种属属性性;总总体体第第规规定定:iiYi0, 111NNNN 元数为元数为;不具有该种属性的单;不具有该种属性的单为为的单元数的单元数个单元,具有某种属性个单元,具有某种属性设总体中有设总体中有具有该种属性的比例为:具有该种属性的比例为:YYNNNPNii 111(1)具有某种属性单位的个数具有某种属性单位的个数N1的估计就是对总体总值估计的估计就是对总体总值估计(2)对总

28、体比例的估计就是对总体均值的估计对总体比例的估计就是对总体均值的估计元总数元总数总体具有某种属性的单总体具有某种属性的单AYYNii 1.32方差用比例表示方差用比例表示 总体方差总体方差 样本方差样本方差 NiiYYNS122)(11)(11212YNYNNii )(112NPPNN )1(1PPNN niiyyns122)(11)1(1ppnn .33估计量的定义和性质估计量的定义和性质 ynynnpPnii 11总体比例的估计量总体比例的估计量yNnyNNpNnii 11数数的的估估计计量量总总体体含含有有某某种种特特性性的的个个估计量的性质估计量的性质 PYyEpE )()()1(21

29、)()()2(SnfyVpV )1(11PPNNnf 21)()3(snfpv 方差的无偏估计方差的无偏估计)1(11ppnnnf )1(11ppnf 总总和和的的估估计计呢呢?.341)()1(NNPNpE 总总和和的的估估计计:221)()2(SnfNNpV )1(112PPNNnfN 221)()3(snfNNpv 方差的无偏估计方差的无偏估计)1(112ppnfN .35的的置置信信区区间间的的置置信信度度为为百百分分数数或或比比例例 1P (1)当当N,n,N-n都比较大时,都比较大时,a(样本中(样本中1的个数)近似的个数)近似服从服从正态分布正态分布, 常常用用)的的近近似似置置

30、信信区区间间为为:(的的置置信信度度为为故故此此时时 1P)11,11(pqnfuppqnfup (2)当当N很大,但很大,但n不是很大时不是很大时,a近似服从近似服从二项分布二项分布。二。二项分布是个离散分布,而正态分布是个连续分布,因此项分布是个离散分布,而正态分布是个连续分布,因此可将其进行连续性修正。可将其进行连续性修正。P经修正后的近似置信区间为:经修正后的近似置信区间为: )2111(),2111(npqnfupnpqnfup ) )(, )(pvuppvup .36应用举例应用举例 例例 :某超市开张一段时间之后,为改进销售服务环境,欲调查附:某超市开张一段时间之后,为改进销售服

31、务环境,欲调查附近几个小区居民到该超市购物的满意度。于是在总体中抽取了一近几个小区居民到该超市购物的满意度。于是在总体中抽取了一个样本容量为个样本容量为200人的样本。调查发现对该超市的购物环境表示人的样本。调查发现对该超市的购物环境表示满意和基本满意的居民有满意和基本满意的居民有130位,请估计对超市购物满意的居民位,请估计对超市购物满意的居民的比例,并在置信度为的比例,并在置信度为95%下,给出估计的绝对误差,相对误差下,给出估计的绝对误差,相对误差和和变异系数变异系数coefficient of variation和置信区间。和置信区间。0338. 0)(;001143. 035. 06

32、5. 01200111)(%6565. 0200130; 11 ,130,200 pspqnfpvnapfan略略解解:由由题题意意抽抽样样比比可可忽忽052. 065. 00338. 0)(%2 .10102. 065. 00663. 0%;63. 6)(,%95 ppscvpdrpsud变变异异系系数数相相对对误误差差绝绝对对误误差差下下在在置置信信度度为为置信区间为(置信区间为(0.65-0.0663,0.65+0.0663)即()即(58.37,71.63%).37样本量的确定样本量的确定(2.5.1)确定样本量的主要考虑因素确定样本量的主要考虑因素 样本量与精度的关系样本量与精度的关

33、系估计量的精度要求高,意味着抽样误差小,样本量大。估计量的精度要求高,意味着抽样误差小,样本量大。样本量与实际调查运作的限制样本量与实际调查运作的限制调查的经费能支持多大的样本?允许调查持续的时间调查的经费能支持多大的样本?允许调查持续的时间有多长?需要多少调查人员?有多长?需要多少调查人员?由于大部分限制条件难以量化,确定样本量的计算公由于大部分限制条件难以量化,确定样本量的计算公式时往往只式时往往只在抽样精度与调查费用两者之间权衡。在抽样精度与调查费用两者之间权衡。确定样本量的原则确定样本量的原则最优设计最优设计 在总费用一定的条件下使精度最高;在总费用一定的条件下使精度最高; 在满足一定

34、精度要求的条件下使费用最小。在满足一定精度要求的条件下使费用最小。.38其他影响样本量的因素其他影响样本量的因素 问题的重要性问题的重要性 所研究问题的目标量个数所研究问题的目标量个数 参照同类调查参照同类调查 调查表的回收率调查表的回收率 有效样本有效样本.39样本量与精度样本量与精度精度的衡量:精度的衡量: 估计量的标准误,估计量的标准误, 一定概率保证下的绝对误差一定概率保证下的绝对误差d及相对误差及相对误差r 变异系数变异系数cv等等)()1( Sud / )(/)2(Sudr / )()()3(Scv 样样本本量量。确确定定我我们们的的可可以以通通过过绝绝对对误误差差限限来来是是样样

35、本本量量的的函函数数,所所以以因因为为)( S.40考虑精度决定样本量考虑精度决定样本量nVyVyMSEVy量量求满足条件的最小样本求满足条件的最小样本,即,即的方差上限为的方差上限为设要求估计量设要求估计量,)()( 21)(SnfyV 由于由于VSnNnN 2nNVSnN 2)(于于是是 n22SNVNS NVSVS/1/22 20SnV 总总体体方方差差若若令令样样本本均均值值方方差差Nnnn/100 样本量样本量 通常先计算出通常先计算出n的近似值的近似值n0,实际实际n比比n0小。当小。当n0 N,两者之比小于两者之比小于0.05时,则时,则可取可取nn0,否则进行修正。,否则进行修

36、正。.41(1)绝对误差上限绝对误差上限d决定样本量决定样本量Nnnn/100 均值的样本量均值的样本量Vud 由由于于2 udV于于是是2222220dSuudSVSn 此时此时r相对误差上限相对误差上限)2( 20YrSun cv变异系数上限变异系数上限)3(YVcv 由由于于 2YcvV 于于是是2220)(YcvSVSn 此此时时.42举例举例 例:一批电子元件有例:一批电子元件有1600只,为估计元件的平均寿命,先根据抽只,为估计元件的平均寿命,先根据抽样计算出样本平均寿命为样计算出样本平均寿命为8400小时,标准差为小时,标准差为760小时,如果要小时,如果要求估计的绝对误差限为求

37、估计的绝对误差限为168小时,可靠程度在小时,可靠程度在95%以上,问至少以上,问至少应抽取多少只元件?应抽取多少只元件?2220dsun 解解:由由题题意意22168)76096. 1( 79 ,05. 00 Nn由于注意到由于注意到790 nn取取.43具体例子具体例子 从一个容量为从一个容量为100的总体中抽出样本容量为的总体中抽出样本容量为10的简单随的简单随机样本,要估计总体平均水平,并给出置信度为机样本,要估计总体平均水平,并给出置信度为95%的的置信区间。置信区间。序号序号i 1 2 3 4 5 6 7 8 9 10yi4 5 2 0 4 6 6 15 0 8 1 . 01001

38、0,10,100 fnN解解:由由题题意意:,510101 iiyyY1111.19,422,910210221022 syyysiiii由由于于3115. 1)()(72. 11)(2 YvYssnfYv,95%的置信区间为的置信区间为5-1.961.3115, 5+1.961.31152.43,7.57.44 上例中,如果现在要求以上例中,如果现在要求以95%的把握保证相对误差不的把握保证相对误差不超过超过10%,样本量至少是多少?,样本量至少是多少?1111.195,1002 syN,20 yrsun 解解:由由题题意意 22)51 . 0(1111.1996. 1294注意:不要忘了修

39、正样本量!注意:不要忘了修正样本量! Nnnn/100样样本本量量100/2941294 75 .45 练习:练习: 欲估计一个农村的每月平均副业收入,已知该村欲估计一个农村的每月平均副业收入,已知该村共有共有1000户农户,月副业收入的标准差不超过户农户,月副业收入的标准差不超过300元。元。(1)现要求置信度为)现要求置信度为95%,估计每户月副业收入的误差,估计每户月副业收入的误差不超过不超过50元,应抽取多少户作为样本?元,应抽取多少户作为样本?(2)若每户调查费若每户调查费用为用为15元,调查管理费用为元,调查管理费用为800元,该项调查预计费用是元,该项调查预计费用是多少?多少?(

40、3)要估计全村要估计全村1000户一月的副业总收入,允许总户一月的副业总收入,允许总量的误差为量的误差为40000,置信度为,置信度为95%,应抽取多少样本?,应抽取多少样本? ,139)1(2220 dsun 解:解:123/100 Nnnn元元264512315800)2(0 n,哪哪里里产产生生变变化化?,现现在在考考虑虑总总量量的的样样本本量量计计算算中中YVSny20 VSNnY220 的的样样本本量量计计算算中中2174000030096. 11000)3(222222220 dsuNn 179/100 Nnnn.46小结:简单抽样的公式一览表小结:简单抽样的公式一览表均值均值总量

41、总量Y1.估计公式估计公式2.均方误差均方误差3.均方误差的均方误差的估计量估计量4.的置的置信区间信区间Y.475. 样样本本容容量量确确定定给定绝对误差限给定绝对误差限d给定相对误差限给定相对误差限r 给定方差上限给定方差上限V给定变异系数上限给定变异系数上限C .48习题习题 1.为调查某地区为调查某地区1960个村新棉收购情况,以简单不重复抽样方式随个村新棉收购情况,以简单不重复抽样方式随机抽取机抽取49个村进行调查,求得个村进行调查,求得 试以试以95%的可靠程度估计该地区平均每村收购多少斤?的可靠程度估计该地区平均每村收购多少斤? 2.从从5620个中学中抽出一个含有个中学中抽出一

42、个含有300个学校的简单随机样本,其中个学校的简单随机样本,其中有有187个学校赞成一项提案,试估计赞成该提案的比例及总的学校个学校赞成一项提案,试估计赞成该提案的比例及总的学校数。数。 3. 对某问题进行调查,在总体中抽取容量为对某问题进行调查,在总体中抽取容量为200的简单随机样本,的简单随机样本,若赞成,反对及不表态的人数分别为若赞成,反对及不表态的人数分别为132,51,17,试给出赞成、,试给出赞成、反对及不回答比例的反对及不回答比例的90%的近似置信区间。的近似置信区间。 公斤公斤及1807000sx.49实践题实践题 取一本厚的英汉字典,以一页作为一个抽样单取一本厚的英汉字典,以

43、一页作为一个抽样单元,从中抽取一个数量为元,从中抽取一个数量为页的简单随机样页的简单随机样本(用随机数表),计算每一样本单元的收词本(用随机数表),计算每一样本单元的收词数,用此样本数,用此样本 (1)估计全字典的单词收词总数,并计算此)估计全字典的单词收词总数,并计算此估计的方差的估计值估计的方差的估计值 (2)若要求相对误差不超过)若要求相对误差不超过10% ,应抽取多,应抽取多大的样本量?大的样本量?.50回顾回顾的性质的性质均值均值简单随机抽样中,样本简单随机抽样中,样本y. 1YyEYy )()1(的的无无偏偏估估计计,即即是是为为总总体体方方差差。22,1)()()2(SSnfyV

44、yMSE 为为样样本本方方差差。的的方方差差的的无无偏偏估估计计:22,1)()3(ssnfyvy 的置信区间:的置信区间:下,下,在置信度在置信度Y 1)4( ),( ) ytv yytv y 相相关关计计算算关关于于总总体体总总和和的的估估计计的的相相关关计计算算关关于于总总体体均均值值的的估估计计的的掌掌握握)2()1(对对误误差差、变变异异系系数数置置信信限限、绝绝对对误误差差、相相的的含含义义f 1.51的性质的性质比例比例简单随机抽样中,样本简单随机抽样中,样本p. 2(1)具有某种属性单位的个数具有某种属性单位的个数N1的估计就是对总体总和的估计的估计就是对总体总和的估计(2)对

45、总体比例的估计就是对总体均值的估计对总体比例的估计就是对总体均值的估计PpE )()1(21)()2(SnfpV PQNNnf11 21)()3(snfpv 方差的无偏估计方差的无偏估计pqnf11 )11,11(pqnftppqnftp 的置信区间:的置信区间:下,下,在置信度在置信度P 1)4(.52样本量的确定样本量的确定. 3最最优优设设计计)1(.)2(nVy,确确定定样样本本量量的的方方差差上上限限为为给给定定估估计计量量20SnV 总总体体方方差差令令样样本本均均值值方方差差上上限限Nnnn/100 样本量样本量 通常先计算出通常先计算出n的近似值的近似值n0,实际实际n比比n0

46、小。小。 当当n0 N,两者之比小于两者之比小于0.05时,则时,则可取可取nn0,否进行修正。,否进行修正。预预调调查查等等得得到到!未未知知,通通过过以以往往调调查查或或一一般般总总体体方方差差2S.53样样本本方方差差上上限限总总体体方方差差 VSn20d已已知知绝绝对对误误差差上上限限)1(r已已知知相相对对误误差差上上限限)2(cv已已知知变变异异系系数数上上限限)3(2220dStn 2220rYStn 220)(YcvSn 预预调调查查得得到到!未未知知,通通过过以以往往调调查查或或一一般般Y样本量的。样本量的。是对于样本均值来确定是对于样本均值来确定注意:这些计算公式都注意:这

47、些计算公式都.54 练习:练习: 欲估计一个农村的每月平均副业收入,已知该村共有欲估计一个农村的每月平均副业收入,已知该村共有1000户农户,户农户,月副业收入的标准差不超过月副业收入的标准差不超过300元元。(。(1)现要求置信度)现要求置信度为为95%,估计,估计每户月副业收入的误差不超过每户月副业收入的误差不超过50元元,应抽取多少户,应抽取多少户作为样本?作为样本? (2)要估计全村要估计全村1000户一月的副业总收入,允许户一月的副业总收入,允许总量的总量的误差为误差为40000,置信度为置信度为95%,应抽取多少样本?,应抽取多少样本? ,1395030096. 1)1(22222

48、20 dstn解解:123/100 Nnnn,哪哪里里产产生生变变化化?,现现在在考考虑虑总总量量的的样样本本量量计计算算中中YVSny20 21710004000030096. 1)2(2222220 dstn179/100 Nnnn.55估计总体比例时样本量的确定估计总体比例时样本量的确定nVp本本量量,求求满满足足条条件件的的最最小小样样的的方方差差上上限限为为设设要要求求估估计计量量PQNNnfSnfpV111)(2 由由于于VPQNnnN )1(VNnPQnN)1()( 于于是是 nPQVNVNPQ NVPQVPQ NVPQVPQ11 VPQn 0若若令令Nnnn1100 样本量样本

49、量 通常先计算出通常先计算出n的近似值的近似值n0,实际实际n比比n0小。当小。当n0 N,两者之比小于两者之比小于0.05时,则时,则可取可取nn0,否则进行修正。,否则进行修正。.56Nnnn)1(100 比例的样本量比例的样本量VPQn 0)1(220(2)dPQtn PcvQPcvPQn 220)(4)PrQtrPPQtn22220)(3) (1)实际中实际中P值通常是通过历史数据或试调查的数据得到。值通常是通过历史数据或试调查的数据得到。 由于由于n0与与PQ成正比成正比(除了(除了P或或Q很接近很接近0或或1) PQ值值的变化都比较小。的变化都比较小。当当P=0.5时即时即PQ=0

50、.25时时PQ 取到最大值。取到最大值。当当P不太不太大或不太小时大或不太小时,可以取可以取 p0q00.5作为作为n0的一个的一个保守估计保守估计。220(2)dPQtn .57当估计当估计P0.5,则选取较小的,则选取较小的P,如若估计,如若估计P为为0.6,0.8,则选取,则选取P为为0.6 若对若对P一无所知,则取一无所知,则取P=0.5,此时用,此时用保守估计保守估计当当P值很小,即事件为稀有事件,需要用其他方法来值很小,即事件为稀有事件,需要用其他方法来估计。估计。霍丹(霍丹(Haldane)1945年提出一种称为年提出一种称为逆抽样逆抽样的方法的方法,专门用于小比例事件(稀有事件

51、)的抽样。,专门用于小比例事件(稀有事件)的抽样。 .58 例:在人口变动情况调查中,出生率例:在人口变动情况调查中,出生率P是一个重要指标。是一个重要指标。根据以前调查数据,出生率根据以前调查数据,出生率P的估计可取为的估计可取为18。问在。问在95%,的置信度下,实际调查估计的置信度下,实际调查估计P的绝对误差限为的绝对误差限为0.5 和相对误差限和相对误差限5%,各需要多大的样本量?各需要多大的样本量?,0005. 0)1(982. 0,018. 0 dQP解解:由由题题意意220dPQtn 221.960.018(10.018)271617()0.0.0005 人人(2) r=0.05

52、PrQtn220 018. 005. 0982. 096. 122 人)人)(38383 由于上述数字均比实际人口小很多,故不考虑修正。由于上述数字均比实际人口小很多,故不考虑修正。 注意不要忘了修正:首先要判断是否需要修正哦!注意不要忘了修正:首先要判断是否需要修正哦!.59 例:某销售公司希望了解全部例:某销售公司希望了解全部3000家客户对公司的满意度,决定用家客户对公司的满意度,决定用电话调查一个简单随机样本。这时销售公司希望以电话调查一个简单随机样本。这时销售公司希望以95的把握保的把握保证客户满意度比例证客户满意度比例P在样本比例在样本比例p10,p+10范围内,但对总范围内,但对

53、总体比例体比例P无法给出一个大致范围。这时调查多少个客户,才能保证无法给出一个大致范围。这时调查多少个客户,才能保证满足要求?满足要求?分析:总体的容量分析:总体的容量N=3000, 绝对误差限绝对误差限d=0.1 置信度为置信度为0.95 P的大致范围没有给出,最保守的估计是假设的大致范围没有给出,最保守的估计是假设P=0.5,于是,于是971 . 05 . 05 . 096. 122220 dPQtn由于由于 97/3000=0.0321,表明所考虑的抽样设计的效率不如简单随机抽样;,表明所考虑的抽样设计的效率不如简单随机抽样;若若deff1,表明该抽样设计的效率比简单随机抽样高。,表明该

54、抽样设计的效率比简单随机抽样高。 的设计效应的设计效应计算放回简单随机抽样计算放回简单随机抽样f 11.65 deff的功效的功效1:为了比较不同抽样方案的效率或:为了比较不同抽样方案的效率或效果。效果。deff的功效的功效2:确定样本量:确定样本量 对于复杂抽样,样本量比较难确定。对于复杂抽样,样本量比较难确定。 一定的精度要求下,简单随机抽样的样本量一定的精度要求下,简单随机抽样的样本量n容易确定容易确定若估计了该复杂抽样的若估计了该复杂抽样的deff,则在同样精度要求下,则在同样精度要求下,样本量为样本量为:deffnn .66练习:练习:在超市问卷调查中进行预调查,置信度为在超市问卷调查中进行预调查,置信度为95%,抽取,抽取50个样本,得到的满意度的相对误差为个样本,得到的满意度的相对误差为5%,现希望在,现希望在相同的置信度下,使相对误差减少到原来的一半,则相同的置信度下,使相对误差减少到原来的一半,则需要再抽取多大的样本量?需要再抽取多大的样本量?以知某个抽样方案的设计效应是以知某个抽样方案的设计效应是4,在精度相同情况下,在精度相同情况下,已知简单随机抽样所需要的样本量为已知简单随机抽样所需要的样本量为25,则该抽样方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论