抽样分布与参数估计(曾五一)ppt第5章_第1页
抽样分布与参数估计(曾五一)ppt第5章_第2页
抽样分布与参数估计(曾五一)ppt第5章_第3页
抽样分布与参数估计(曾五一)ppt第5章_第4页
抽样分布与参数估计(曾五一)ppt第5章_第5页
已阅读5页,还剩78页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、5-1第五章 抽样分布与参数估计 第一节 抽样的基本概念与数学原理 第二节 抽样分布 第三节 参数估计第四节 样本容量的确定 第五节 EXCEL在参数估计中的应用 你不必吃完整一头牛,才知道它的肉是咬不动的。 Samel Johnson5-25-3第一节 抽样的基本概念一、抽样推断的概念和特点1、概念:抽样推断是按随机原则从全部研究对象中抽取部分单位进行观察,并根据样本的实际数据对总体的数量特征作出具有一定可靠程度的估计和判断。2、特点它是由部分推断整体的一种认识方法。 抽样推断建立在随机取样的基础上。 抽样推断运用概率估计的方法。 抽样推断的误差可以事先计算并加以控制。一一 抽样推断的一般问

2、题抽样推断的一般问题二、抽样推断的内容二、抽样推断的内容三、有关抽样的基本概念三、有关抽样的基本概念(一)一)总总 体体 和和 样样 本本总体总体: 也称全及总体。指所要认识的研究对也称全及总体。指所要认识的研究对象全体。总体单位总数用象全体。总体单位总数用“N”N”表示。表示。样本样本:又称子样。是从全及总体中随机抽取又称子样。是从全及总体中随机抽取出来,作为代表这一总体的那部分单出来,作为代表这一总体的那部分单位组成的集合体。样本单位总数用位组成的集合体。样本单位总数用“n”n”表示。表示。参数估计参数估计假设检验假设检验(二)参二)参 数数 和和 统统 计计 量量参数参数:指反映总体数量

3、特征的综合指标。指反映总体数量特征的综合指标。参数参数研究总体中研究总体中的数量标志的数量标志总体平均数总体平均数总体方差总体方差X=X NX=XF F(X-X) N2=2(X-X)F F2=2研究总体中研究总体中的品质标志的品质标志总体成数总体成数成数方差成数方差2= P(1-P)P = N1N研究数研究数量标志量标志 样本平均数样本平均数 x=xnx=xff样本标准差样本标准差研究品研究品质标志质标志样本成数样本成数 成数标准差成数标准差 np=nnxx2ffxxx2ppp1样本统计量样本统计量:样本统计量是样本的一个函数。它们是随机变量。样本统计量是样本的一个函数。它们是随机变量。我们利

4、用统计量来估计和推断总体的有关参数。我们利用统计量来估计和推断总体的有关参数。(三)样本容量和样本个数三)样本容量和样本个数样本容量:样本容量:一个样本包含的单位数。用一个样本包含的单位数。用 “n”表示。表示。一般地,样本单位数大于一般地,样本单位数大于30个的样本称为大样本,个的样本称为大样本,不超过不超过30个的样本称为小样本。个的样本称为小样本。一般要求一般要求 n 30样本个数:样本个数:从一个全及总体中可能抽取的样本数目。从一个全及总体中可能抽取的样本数目。(四)重复抽样和不重复抽样四)重复抽样和不重复抽样重复抽样:重复抽样:又称回置抽样。又称回置抽样。不重复抽样:不重复抽样:又称

5、不回置抽样。又称不回置抽样。可能组成的样本数目:可能组成的样本数目:N(N-1)()(N-2)(N-n+1)可能组成的样本数目:可能组成的样本数目:nN二、二、 三种不同性质的分布三种不同性质的分布1 总体分布总体分布2 样本分布样本分布3 抽样分布抽样分布总体中各元素的观察值所形成的分布 分布通常是未知的可以假定它服从某种分布 总体分布(population distribution)一个样本中各观察值的分布 也称经验分布 当样本容量n逐渐增大时,样本分布逐渐接近总体的分布 样本分布(sample distribution)样本统计量的概率分布,是一种理论分布l在重复选取容量为n的样本时,由

6、该统计量的所有可能取值形成的相对频数分布 随机变量是 样本统计量样本统计量l样本均值, 样本比例,样本方差等结果来自容量相同容量相同的所有所有可能样本提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据 抽样分布 (sampling distribution)抽样分布的形成过程 (sampling distribution)三、样本统计量的抽样分布 (一个总体参数推断时)1 样本均值的抽样分布(以之为例)样本均值的抽样分布(以之为例)2 样本比例的抽样分布样本比例的抽样分布3 样本方差的抽样分布样本方差的抽样分布5-155-165-17第 二 次 抽 取 可 能

7、 被 抽 中 的 人 员12345678910第 一 次 抽 取 可 能 被 抽 中 的 人 员 11,1(1)1,2(1.5)1,3(2)1,4(2.5)1,5(3)1,6(3.5)1,7(4)1,8(4.5)1,9(5)1,10(5.5)22,1(1.5)2,2(2)2,3(2.5)2,4(3)2,5(3.5)2,6(4)2,7(4.5)2,8(5)2,9(5.5)2,10(6)33,1(2)3,2(2.5)3,3(3)3,4(3.5)3,5(4)3,6(4.5)3,7(5)3,8(5.5)3,9(6)3,10(6.5)44,1(2.5)4,2(3)4,3(3.5)4,4(4)4,5(4.

8、5)4,6(5)4,7(5.5)4,8(6)4,9(6.5)4,10(7)55,1(3)5,2(3.5)5,3(4)5,4(4.5)5,5(5)5,6(5.5)5,7(6)5,8(6.5)5,9(7)5,10(7.5)66,1(3.5)6,2(4)6,3(4.5)6,4(5)6,5(5.5)6,6(6)6,7(6.5)6,8(7)6,9(7.5)6,10(8)77,1(4)7,2(4.5)7,3(5)7,4(5.5)7,5(6)7,6(6.5)7,7(7)7,8(7.5)7,9(8)7,10(8.5)88,1(4.5)8,2(5)8,3(5.5)8,4(6)8,5(6.5)8,6(7)8,7(

9、7.5)8,8(8)8,9(8.5)8,10(9)99,1(5)9,2(5.5)9,3(6)9,4(6.5)9,5(7)9,6(7.5)9,7(8)9,8(8.5)9,9(9)9,10(9.5)1010,1(5.5)10,2(6)10,3(6.5)10,4(7)10,5(7.5)10,6(8)10,7(8.5)10,8(9)10,9(9.5)10,10(10)表表5-310人中有放回抽二人的全部可能样本人中有放回抽二人的全部可能样本5-18表任职年限样本均值分布数列5-19样本均值的抽样分布(例题分析)样本均值的抽样分布 (例题分析)3,43,33,23,132,42,32,22,124,44

10、,34,24,141,441,33211,21,11第二个观察值第二个观察值第一个第一个观察值观察值所有可能的所有可能的n = 2 的样本(共的样本(共16个)个)样本均值的抽样分布 (例题分析)3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第二个观察值第一个第一个观察值观察值16个样本的均值(个样本的均值(x)样本均值的分布与总体分布的比较 (例题分析)样本均值的抽样分布与中心极限定理x中心极限定理(central limit theorem)第二节第二节 抽抽 样样 误误 差差在调查过程中由于主、客观原因引起的登

11、记、汇总或计算方面的差错而造成的误差,叫登记性误差叫登记性误差。由于样本结构与总体结构不同,样本不能完全代表总体而产生的误差,叫代表性误差。分为系统误差与随机误差两种。分为系统误差与随机误差两种。没有严格按照随机原则抽样而使样本指标值高于或低于相应全及总体指标值的误差,叫系统误差。系统误差。登记性误差在任何调查方式中都可能产生,系统误差在重点调查或典型调查中可能存在。在抽样调查中,登记性误差和系统偏差都可以避免,而抽样误差不可避免。一、抽样误差的含义由于随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构,而引起抽样指标和全及指标之间的绝对离差。二、影响抽样误差大小的因素1、总体各单

12、位标志值的差异程度2、样本的单位数3、抽样方法4、抽样调查的组织形式三、抽样平均误差1、概念:抽样平均误差是抽样平均数或抽样成数的 标准差。反映了抽样平均数与总体平均数 抽样成数与总体成数的平均误差程度。2、计算方法:抽样平均数的平均误差抽样成数平均误差MXxx2MPpp2抽样平均数平均误差的计算公式: 重复抽样此公式说明,抽样平均误差与总体标准差成正比,与样本容量成反比。(当总体标准差未知时,可用样本标准差代替)nx例题:假定抽样单位数增加 2 倍时,抽样平均误差怎样 变化?解:抽样单位数增加 2 倍,即为原来的 3 倍577. 0313nx即:当样本单位数增加2倍时,抽样平均误差为原来的0

13、.577倍。不重复抽样公式表明:抽样平均误差不仅与总体变异程度、样本容量有关,而且与总体单位数的多少有关。例题一:随机抽选某校学生100人,调查他们的体重。得到他们的平均体重为58公斤,标准差为10公斤。问抽样推断的平均误差是多少?例题二: 某厂生产一种新型灯泡共2000只,随机抽出400只作耐用时间试验,测试结果平均使用寿命为4800小时,样本标准差为300小时,求抽样推断的平均误差?Nnnx12例题一解:)(110010公斤nx即:当根据样本学生的平均体重估计全部学生的平均 体重时,抽样平均误差为1公斤。例题二解:)(15400300小时nxNnnx12)(42.1320004001400

14、3002小时计算结果表明:根据部分产品推断全部产品的平均使用寿命 时,采用不重复抽样比重复抽样的平均误差要小。已知:10,58,100 xn则:已知:300,4800,400,2000 xnN则:抽样成数平均误差的计算公式重复抽样不重复抽样例题三:某校随机抽选400名学生,发现戴眼镜的学生有80人。根据样本资料推断全部学生中戴眼镜的学生所占比重时,抽样误差为多大?nppp1Nnnppp11例例 题题 三三 解:解: 已知:400n801n则:样本成数%20400801nnp02. 04008 . 02 . 01nppp即:根据样本资料推断全部学生中戴眼镜的学 生所占的比重时,推断的平均误差为2

15、%。四、抽 样 极 限 误 差含义:抽样极限误差指在进行抽样估计时,根据研究对象的变异程度和分析任务的要求所确定的样本指标与总体指标之间可允许的最大误差范围。计算方法: 它等于样本指标可允许变动的上限或下限与总体指标之差的绝对值。= pp - Pp P ppp抽样平均数极限误差:抽样成数极限误差:XxxxxXxx五、抽样误差的概率度含义:抽样误差的概率度是测量抽样估计可靠程度的一个参数。用符号“ t ”表示。公式: t = = t (t 是极限误差与抽样平均误差的比值)上式可变形为:第三节 抽样估计的方法一、总体参数的点估计总体参数点估计的特点:P188总体参数优良估计的标准 无偏性一致性有效

16、性二、总体参数的区间估计区间估计三要素估计值抽样误差范围概率保证程度总体参数区间估计的特点:P195px ,px, tFpx ,点估计 (point estimate)用样本的估计量的某个取值直接作为总体参数的估计值l例如:用样本均值直接作为总体均值的估计;用两个样本均值之差直接作为总体均值之差的估计无法给出估计值接近总体参数程度的信息l虽然在重复抽样条件下,点估计的均值可望等于总体真值,但由于样本是随机的,抽出一个具体的样本得到的估计值很可能不同于总体真值l一个点估计量的可靠性是由它的抽样标准误差来衡量的,这表明一个具体的点估计值无法给出估计的可靠性的度量 区间估计 (interval es

17、timate)在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减估计误差而得到根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量l比如,某班级平均分数在7585之间,置信水平是95% 区间估计的图示区间估计的图示由样本统计量所构造的总体参数的估计区间称为置信区间统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间 用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值l我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个l

18、总体参数以一定的概率落在这一区间的表述是错误的置信区间 (confidence interval)置信区间置信区间 (95%的置信区间的置信区间)影响区间宽度的因素影响区间宽度的因素n1.总体数据的离散程度,用总体数据的离散程度,用 来测度来测度n2.样本容量,样本容量,n3.置信水平置信水平评价估计量的标准评价估计量的标准无偏性无偏性(unbiasedness)n无偏性:估计量抽样分布的数学期望等于被估计量抽样分布的数学期望等于被n 估计的总体参数估计的总体参数有效性有效性(efficiency)一致性一致性(consistency)n一致性:随着样本容量的增大,估计量的随着样本容量的增大,

19、估计量的n 值越来越接近被估计的总体参数值越来越接近被估计的总体参数5-47第三节 一个总体参数的区间估计1 总体均值的区间估计总体均值的区间估计2 总体比例的区间估计总体比例的区间估计5-485-49一个总体参数的区间估计一个总体参数的区间估计总体参数符号表示样本统计量均值比例总体均值的区间估计(结果的四舍五入法则)当用原始数据构建置信区间时,置信区间的计算结果应保留的小数点位数要比原始数据中使用的小数点多一位l如,原始数据有一位小数,置信区间的结果应保留两位小数当不知道原始数据,只使用汇总统计量(n,x,s)时,置信区间的计算结果保留的小数点位数应与样本均值使用的小数点位数相同 总体均值的

20、区间估计(大样本)1.假定条件l总体服从正态分布,且方差() 已知l如果不是正态分布,可由正态分布来近似 (n 30)2.使用正态分布统计量 z5-535-54三、总体比例的估计5-555-565-57第四节 样本容量的确定一、问题的提出二、估计总体均值时样本容量的确定三、估计总体比例时样本容量的确定四、使用上述公式应注意的问题5-58 由前面的论述,我们已知参数估计中的精度要求与可靠性要求常常是一对矛盾,但是,通过增加样本容量n有可能降低样本平均数的标准差,从而实现既保证一定的估计精度,又具有较高的置信度的目的。这时,需要考虑在给定的置信度与极限误差的前提下,样本容量n究竟取多大合适?这就是

21、所谓样本容量的确定问题。 一、问题的提出一、问题的提出5-59二、估计总体均值时样本容量的确定5-605-615-62三、估计总体比例时样本容量的确定5-63四、使用上述公式应注意的问题 1计算样本容量时,总体的方差与成数常常是未知的,这时可用有关资料替代:一是用历史资料已有的方差与成数代替;二是在进行正式抽样调查前进行几次试验性调查,用试验中方差的最大值代替总体方差;三是比例方差在完全缺乏资料的情况下,就用比例方差的最大可能值0.25代替。5-64 2.如果进行一次抽样调查,需要同时估计总体均值与比例,可用上面的公式同时计算出两个样本容量,取其中较大的结果,同时满足两方面的需要。 5-65

22、3.上面的公式计算结果如果带小数,这时样本容量不按四舍五入法则取整数,取比这个数大的最小整数代替。例如计算得到:n=56.03,那么,样本容量取57,而不是56。5-665-675-685-69某农场进行小麦产量抽样调查,小麦播种总面积为1万亩,采用不重复简单随机抽样,从中抽选了100亩作为样本进行实割实测,测得样本平均亩产400斤,方差144斤。 (2)若概率保证程度不变,要求抽样允许 误差不超过1斤,问至少应抽多少亩作 为样本?(1)以95.45%的可靠性推断该农场小麦平均 亩产可能在多少斤之间?要求计算:练习 一:例题一解:已知:N=10000 n=100 9545. 0,144,400

23、2tFx1、计算抽样平均误差 斤19. 110000100110014412Nnnx2、计算抽样极限误差 斤38. 219. 12xxt3、计算总体平均数的置信区间上限: 斤38.40238. 2400 xx下限: 斤62.39738. 2400 xx即:以95.45%的可靠性估计该农场小麦平均亩产量在 397.62斤至402.38斤之间.问题二解:已知: 不变tF斤1x则样本单位数:22222tNNtnx 亩6 .5441442100001144100002222即:当斤1x ,9545.0时为tF至少应抽544.6亩作为样本。例题二 某纱厂某时期内生产了10万个单位的纱,按纯随机抽样方式抽

24、取2000个单位检验,检验结果合格率为95%,废品率为5%,试以95%的把握程度,估计全部纱合格品率的区间范围及合格品数量的区间范围?已知:100000N2000n%95p%51 p 95.0tF96.1tNnnppp11%48. 010000020001200005. 095. 0%94. 0%48. 096. 1ppt区间下限:%06.940094. 095. 0pp区间下限:%94.950094. 095. 0pp第四节 抽样组织设计一、简单随机抽样1、含义:按随机原则直接从总体N个单位中抽取 n 个单位作为样本。2、样本单位数的计算方法:重复抽样:不重复抽样:抽样平均数抽样成数2222

25、2xxxtNNtnpptNpNptnp11222222xxtn221ppptn二、分层抽样三、等距抽样四、整群抽样先对总体各单位按主要标志加以分组,然后再从各组中按随机的原则抽选一定单位构成样本。先按某一标志对总体各单位进行排队,然后依一定顺序和间隔来抽取样本单位的一种组织形式。将总体各单位划分成许多群,然后从其中随机抽取部分群,对中选群的所有单位进行全面调查的抽样组织形式。 某科研单位有科研人员某科研单位有科研人员160人,其中具有高级以上职称的人,其中具有高级以上职称的24人,中级职称人,中级职称48人,其余均为初级以下职称,现要抽人,其余均为初级以下职称,现要抽取一个容量为取一个容量为2

26、0的样本,试确定抽样方法的样本,试确定抽样方法,并写出抽样过并写出抽样过程,宜采用分层抽样的抽取方法。程,宜采用分层抽样的抽取方法。 (1)按总体与样本容量确定抽取的比例。 (2)由分层情况,确定各层抽取的样本数。由分层情况,确定各层抽取的样本数。 (3)各层的抽取数之和应等于样本容量。各层的抽取数之和应等于样本容量。 (4)对于不能取整的数,求其近似值。对于不能取整的数,求其近似值。 等距抽样等距抽样(systematic sampling)。这)。这是先把总体中的每个单元编号,然后随机是先把总体中的每个单元编号,然后随机选取其中之一作为抽样的开始点进行抽样。选取其中之一作为抽样的开始点进行

27、抽样。如果编号是随机选取的,则这和简单随机如果编号是随机选取的,则这和简单随机抽样是等价的。在选取开始点之后,通常抽样是等价的。在选取开始点之后,通常从开始点开始按照编号进行所谓等距抽样;从开始点开始按照编号进行所谓等距抽样;也就是说,如果开始点为也就是说,如果开始点为5号,号,“距离距离”为为10,则下面的调查对象为,则下面的调查对象为15号、号、25号等等。号等等。(美国越战时征兵美国越战时征兵) 假定要在一座拥有N=640户的居民楼内抽取n=12户进行调查,应用系统抽样法的抽样步骤是:第一步,计算抽样间距:k=640/12=53.33=53;第二步,随机地确定一个编号(假定是84)为样本的第一个单元,每隔53户抽取1户(即间距、步长为53);这样,所抽取的n=12户样本的编号分别是:84,137,190,243,296,349,402,455,508,561,614,27。 整群抽样整群抽样(cluster sampling)。这是先把总体)。这是先把总体划分成若干群(划分成若干群(cluster),再(通常是随机地),再(通常是随机地)从这些群中抽取几群;然后再在这些

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论