抽样推断课件_第1页
抽样推断课件_第2页
抽样推断课件_第3页
抽样推断课件_第4页
抽样推断课件_第5页
已阅读5页,还剩155页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五章抽样推断教学目的与要求抽样推断是抽样调查的继续,它提供了一套利用抽样资料来估计总体数量特征的方法。通过本章的学习,要理解和掌握抽样估计的概念、特点,抽样误差的含义、计算方法,抽样估计的置信度,推断总体参数的方法,能结合实际资料进行抽样估计。第五章抽样推断教学目的与要求抽样推断是抽样调查的继续,它1抽样推断的意义和作用抽样误差抽样估计的方法抽样的组织设计本章学习以下主要内容抽样推断的意义和作用本章学习以下主要内容2一、抽样推断的概念和特点概念抽样推断是按随机原则从全部研究对象中抽取部分单位进行观察,并根据样本的实际数据对总体的数量特征作出具有一定可靠程度的估计和判断。特点

按随机原则抽选调查单位。

由部分推断总体,使其成为可能并具有一定的可靠性

抽样推断运用概率估计的方法。

抽样推断的误差可以事先计算并加以控制。第一节抽样推断的意义和作用一、抽样推断的概念和特点概念抽样推断是按随机原则从全部研究对3二、抽样推断的作用三、有关抽样的基本概念(一)总体和样本总体也称全及总体。指所要认识的研究对象全体。总体单位总数用“N”表示。样本又称子样。是从全及总体中随机抽取出来,作为代表这一总体的那部分单位组成的集合体。样本单位总数用“n”表示。1、有些客观现象需要了解全面情况2、可以补充、核对全面调查的结果3、用于工业生产过程的质量控制4、时间经费限制导致的抽样调查二、抽样推断的作用三、有关抽样的基本概念(一)总体和样4(二)总体指标与样本指标总体指标研究总体中的数量标志总体平均数总体方差X=∑XNX=∑XF∑FΣ(X-X)N2σ=2Σ(X-X)FΣF2σ=2研究总体中的品质标志总体成数成数方差σ2=P(1-P)P=

N1N(二)总体指标与样本指标总研究总体中总体平均数总体方差X=∑5样本指标研究数量标志样本平均数样本标准差研究品质标质成数标准差样本成数样本指标研究数样本平均数样本标准差研究品成数标准差样本成6(三)样本容量和样本个数样本容量:一个样本包含的单位数。用“n”表示。一般要求n≥30样本个数:从一个全及总体中可能抽取的样本数目。(四)重复抽样和不重复抽样重复抽样:又称回置抽样。不重复抽样:又称不回置抽样。可能组成的样本数目可能组成的样本数目不考虑顺序考虑顺序不考虑顺序考虑顺序(三)样本容量和样本个数样本容量:一个样本包含的单位数。用7标号为A、B、C、D的四个圆球从中随机抽取两个考虑顺序AA、AB、AC、ADBA、BB、BC、BDCA、CB、CC、CDDA、DB、DC、DD可能样本个数不考虑顺序AA、AC、BA、BB、BDCB、CC、DA、DC、DD考虑顺序重复不重复AB、AC、ADBA、BC、BDCA、CB、CDDA、DB、DC不考虑顺序AB、AC、ADBD、CB、DC标号为A、B、C、D的四个圆球从中随机抽取两个考虑顺序AA、8第二节抽样误差一、抽样误差的含义由于随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构,而引起抽样指标和全及指标之间的绝对离差。抽样误差大小表明抽样结果的好坏。二、抽样误差产生的原因1、登记、汇总或计算产生的误差2、未遵循随机抽取的原则产生的误差3、抽样调查固有的误差第二节抽样误差一、抽样误差的含义由于随机抽样的偶然9三、抽样平均误差1、概念:抽样平均误差是抽样平均数或抽样成数的标准差。反映了抽样平均数与总体平均数抽样成数与总体成数的平均误差程度。2、计算方法:抽样平均数的平均误差抽样成数平均误差三、抽样平均误差1、概念:抽样平均误差是抽样平均数或抽样成数10实例分析:设有四个工人工资分别为40、50、70、80元,现在随机从其中抽取2人,并求平均工资,用以代表4人总体的平均工资水平,如果采用重复抽样,则所有可能样本以及平均工资如下表:序号样本变量

样本平均数离差离差平方123440,4040,5040,7040,8040455560-20-15-50400225250567850,4050,5050,7050,8045506065-15-1005225100025910111270,4070,5070,7070,8055607075-5010152501002251314151680,4080,5080,7080,8060657580051520025225400合计---96002000实例分析:设有四个工人工资分别为40、50、70、80元,现11四个工人工资分别为40、50、70、80元所以四个工人工资分别为40、50、70、80元所以12抽样平均数平均误差的计算公式:采用重复抽样此公式说明,抽样平均误差与总体标准差成正比,与样本容量成反比。(当总体标准差未知时,可用样本标准差代替)通过例题可说明以下几点:①样本平均数的平均数等于总体平均数。②抽样平均数的标准差仅为总体标准差的③可通过调整样本单位数来控制抽样平均误差。抽样平均数平均误差的计算公式:采用重复抽样此公式说明,抽样平13例题:假定抽样单位数增加2倍、0.5倍时,抽样平均误差怎样变化?解:抽样单位数增加2倍,即为原来的3倍则:抽样单位数增加0.5倍,即为原来的1.5倍则:即:当样本单位数增加2倍时,抽样平均误差为原来的0.577。即:当样本单位数增加0.5倍时,抽样平均误差为原来的0.8165。例题:假定抽样单位数增加2倍、0.5倍时,抽样平均误差怎14数理统计证明采用不重复抽样误差公式:公式表明:抽样平均误差不仅与总体变异程度、样本容量有关,而且与总体单位数的多少有关。例题一:随机抽选某校学生100人,调查他们的体重。得到他们的平均体重为58公斤,标准差为10公斤。问抽样推断的平均误差是多少?例题二:某厂生产一种新型灯泡共2000只,随机抽出400只作耐用时间试验,测试结果平均使用寿命为4800小时,样本标准差为300小时,求抽样推断的平均误差?数理统计证明采用不重复抽样误差公式:公式表明:抽样平均误差不15例题一解即:当根据样本学生的平均体重估计全部学生的平均体重时,抽样平均误差为1公斤。例题二解计算结果表明:根据部分产品推断全部产品的平均使用寿命时,采用不重复抽样比重复抽样的平均误差要小。已知:则:已知:则:例题一解即:当根据样本学生的平均体重估计全部学生的平均例题二16抽样成数平均误差的计算公式采用重复抽样:采用不重复抽样:例题三:

某校随机抽选400名学生,发现戴眼镜的学生有80人。根据样本资料推断全部学生中戴眼镜的学生所占比重时,抽样误差为多大?例题四:一批食品罐头共60000桶,随机抽查300桶,发现有6桶不合格,求合格品率的抽样平均误差?抽样成数平均误差的计算公式采用重复抽样:采用不重复抽样:例题17例题三解已知:则:样本成数即:根据样本资料推断全部学生中戴眼镜的学生所占的比重时,推断的平均误差为2%。例题三解已知:则:样本成数即:根据样本资料推断全18例题已知:则:样本合格率计算结果表明:不重复抽样的平均误差小于重复抽样,但是“N”的数值越大,则两种方法计算的抽样平均误差就越接近。例题已知:则:样本合格率计算结果表明:不重复抽样的平均误差小19抽样误差的影响因素(1)总体各单位标志变异程度。(2)样本容量的大小。(3)抽样方法。(4)抽样的组织形式。抽样误差的影响因素(1)总体各单位标志变异程度。20四、抽样极限误差含义:抽样极限误差指在进行抽样估计时,根据研究对象的变异程度和分析任务的要求所确定的样本指标与总体指标之间可允许的最大误差范围。计算方法:它等于样本指标可允许变动的上限或下限与总体指标之差的绝对值。抽样平均数极限误差:抽样成数极限误差:=Δp│p-P│p-Δ≤P≤p+Δpp四、抽样极限误差含义:抽样极限误差指在进行抽样估计时,根据研21五、抽样误差的可靠程度抽样极限误差的估计总是要和一定的概率保证程度联系在一起的。因为既然抽样误差是一个随机变量,就不能期望抽样平均数(成数)落在一定区间内是一个必然事件,而只是给予一定的概率保证而已所以我们在进行抽样估计时,不但要考虑抽样误差的可能范围有多大而且还必须考虑落到这一范围的概率有多少,前者是估计的精确度问题,后者是估计的可靠性问题,两者密不可分。五、抽样误差的可靠程度抽样极限误差的估计总是要和一定的概率保22

根据中心极限定理,得知当n足够大时,抽样总体为正态分布,根据正态分布规律可知,样本指标是以一定的概率落在某一特定的区间内,统计上把这个给定的区间叫抽样极限误差,也称置信区间,即在概率F(t)的保证下:△=tμ,(t为概率度)

t:反映的是极限误差的相对程度,是确定概率保证程度大小的指标。给定t值,就可以通过查正太分布函数的概率分布表,查到相应的概率F(t)根据中心极限定理,得知当n足够大时,抽样总体为正态分23当F(t)=68.27%时,抽样极限误差等于抽样平均误差的1倍(t=1);当F(t)=95.45%时,抽样极限误差等于抽样平均误差的2倍(t=2);当F(t)=99.73%时,抽样极限误差等于抽样平均误差的3倍(t=3);可见,抽样极限误差,即扩大或缩小了以后的抽样误差范围。当F(t)=68.27%时,抽样极限误差等于抽样平均误差的124为了说明这个关系,我们举一个实例来说明:设有五位射击选手,他们的得分各为2、4、6、8、10分,很显然总平均成绩为。现在随机选两名选手的平均成绩来估计总平均成绩水平。为了说明这个关系,我们举一个实例来说明:设有五位射击选手,他25假如采用不重复取样,(不考虑顺序),样本分布为:序号样本变量

样本平均数12342,42,62,82,10345656784,64,84,106,856779106,108,1089样本变量

3456789概率pi1/101/102/102/102/101/101/10各样本平均数的分布频率:假如采用不重复取样,(不考虑顺序),样本分布为:序号样本变量26根据上列概率分布,可以求出各区间抽样平均数的概率:上式说明抽样极限误差的概率,例如极限误差为1,即总体平均数落5至7在之间的概率为0.6,极限误差为2的概率为0.8等等。这说明抽样极限误差一定是与概率的可靠程度联系在一起的。要确定抽样平均数(成数)落在一定区间的概率,必须研究抽样平均数(成数)的分布规律。根据上列概率分布,可以求出各区间抽样平均数的概率:上式说明抽27由于N=5n=2极限误差用抽样平均误差来表示由不重复抽样的基本公式得:由正态分布理论,介绍两个重要定理:定理一:可以看出前面的值越大,可靠程度,即概率越高(通过正态分布表可以得到各个极限误差的概率保证程度)当总体为正态分布N(),则从这个总体抽取容量为n的的全部样本平均数也服从于正态分布,其平均数,其标准差为由于N=5n=2极限误差用抽样由不重复抽样的基本公式28定理二:如果变量X的分布具有有限的平均数和标准差,则从这个总体抽取容量为n的全部样本,其平均数的分布随着n的增大而趋近于平均数为,标准差为的正态分布。◆定理2并不要求总体分布是正态的,甚至可以是不知道的,只要样本的容量增大,抽样平均数就趋于正态分布。这和定理1限制总体分布为正态,而样本容量n不作限制的情况是不同的。(三)误差范围愈大,抽样估计的置信度愈高,但抽样估计的精确度愈低;反之,误差范围愈小,则抽样估计的置信度愈低,但抽样估计的精确度愈高。定理二:如果变量X的分布具有有限的平均数和标准差29概率度(t)

11.281.641.9622.58概率面积F(t)0.68270.800.900.950.95450.99常用的几个概率保证程度与对应的概率度概率度(t)11.281.641.9622.58概30落在总体均值某一区间内的样本X95.45%的样本99.73%的样本x-368.27%的样本x-2x-X+3X+2X+x落在总体均值某一区间内的样本X95.45%的样本99.7331第三节抽样估计方法(一)点估计例第三节抽样估计方法(一)点估计例32优良估计的标准(1)无偏性。以抽样指标估计总体指标要求抽样指标平均数等于被估计的总体指标值本身。(2)一致性。样本单位数充分大时,抽样指标充分接近总体指标。(3)有效性。选取的样本抽样指标的方差应该比其他估计量的方差小。点估计的特点:简单。但没有标明抽样估计的误差,也没有指出误差在一定范围内的概率保证程度。优良估计的标准(1)无偏性。以抽样指标估计总体指标要求抽样指33(二)区间估计是根据样本指标和抽样误差去推断全及指标的可能范围,并能反映出估计的准确程度和把握程度。

由于区间估计所表示的是一个可能的范围,而不是一个绝对可靠的范围。就是说,推断全及指标在这个范围内只有一定的把握程度。用数学的语言讲,就是有一定的概率。

区间估计(二)区间估计是根据样本指标和抽样误差去推断全及指标的可34第5章__抽样推断课件35例1

某农场进行小麦产量的抽样调查,该农场小麦播种面积为10000亩,采用不重复的简单随机抽样从中选100亩作为样本,进行实割实测,得到样本的平均亩产量为400千克,样本标准差为12千克。试以概率95.45%保证,估计该农场10000亩小麦平均亩产量的可能范围。例1某农场进行小麦产量的抽样调查,该农场小麦播种面积36若概率保证程度不变,要求抽样允许误差不超过1斤,问至少应抽多少亩作为样本?若概率保证程度不变,要求抽样允许误差不超过1斤,问至少应37问题二解:已知:则样本单位数:即:当至少应抽544.6亩作为样本。问题二解:已知:则样本单位数:即:当至少应抽544.6亩作为38例2

某机械厂日产某种产品8000件,现采用纯随机重复抽样方式,从中抽取400件进行观察,其中有380件为一级品,试以概率95.45%的可靠程度推断全部产品的一级品率及一级品数量的范围。例2某机械厂日产某种产品8000件,现采用纯随机重复抽39例3:为调查农民生活状况,在某地区5000户农民中,按不重复简单随机抽样法,抽取400户进行调查,得知这400户中拥有彩色电视机的农户为87户。要求计算:1、以95%的把握程度估计该地区全部农户中拥有彩色电视机的农户在多大比例之间?2、若要求抽样允许误差不超过0.02,其它条件不变,问应抽多少户作为样本?例3:为调查农民生活状况,在某地区5000户农民中,按不40例题三的问题一解:已知:N=5000N=4001、计算样本成数:2、计算抽样平均误差:例题三的问题一解:已知:N=5000N=40041即:以95%的把握程度估计该地区农户中拥有彩电的农户在17.87%至25.63%之间。4、计算总体P的置信区间:下限:上限:3、计算抽样极限误差:4、计算总体P的置信区间:下限:上限:3、计算抽样极限误差:42例题三的问题二解:当其他条件不变时:=1635(户)例题三的问题二解:当其他条件不变时:=163543总结:区间估计的步骤1、确定样本指标。2、根据给定的概率保证程度F(t)找出对应的概率度t。3、计算抽样极限误差,然后根据样本指标求出估计总体指标的上下限。4、根据给出的概率保证程度进行总体指标的区间估计。总结:区间估计的步骤1、确定样本指标。44本节练习本节练习45一.判断题1、从全部总体单位中按照随机原则抽取部分单位组成样本,只可能组成一个样本。()×2、在抽样推断中,全及指标值是确定的、唯一的,而样本指标值是一个随机变量。(√)3、抽样成数的特点是:样本成数越大,则抽样平均误差越大。(×)一.判断题×2、在抽样推断中,全及指标值是确定的、唯一的,464、抽样平均误差总是小于抽样极限误差。()5、在其它条件不变的情况下,提高抽样估计的可靠程度,则降低了抽样估计的精确程度。(√)6、从全部总体单位中抽取部分单位构成样本,在样本变量相同的情况下,重复抽样构成的样本个数大于不重复抽样构成的样本个数。(√)7、抽样平均误差反映抽样误差的一般水平,每次抽样的误差可能大于抽样平均误差,也可能小于抽样平均误差。(√)×4、抽样平均误差总是小于抽样极限误差。(478、在抽样推断中,抽样误差的概率度越大,则抽样极限误差就越大于抽样平均误差。()9、抽样估计的优良标准有三个:无偏性、可靠性和一致性。(×)10、样本单位数的多少与总体各单位标志值的变异程度成反比,与抽样极限误差范围的大小成正比。(×)11、抽样推断的目的是,通过对部分单位的调查,来取得样本的各项指标。(×)12、用来测量估计可靠程度的指标是抽样误差的概率度。(√)

√8、在抽样推断中,抽样误差的概率度越大,则抽样极限误差就越大48二.单项选择题部分1、抽样调查所必须遵循的基本原则是(B)。A、准确性原则B、随机性原则C、可靠性原则D、灵活性原则2、在简单随机重复抽样条件下,当抽样平均误差缩小为原来的1/2时,则样本单位数为原来的(C)。A、2倍B、3倍C、4倍D、1/4倍第5章__抽样推断课件493、在一定的抽样平均误差条件下(A)。A、扩大极限误差范围,可以提高推断的可靠程度B、扩大极限误差范围,会降低推断的可靠程度C、缩小极限误差范围,可以提高推断的可靠程度D、缩小极限误差范围,不改变推断的可靠程度4、反映样本指标与总体指标之间的平均误差程度的指标是(C)。A、平均数离差B、概率度C、抽样平均误差D、抽样极限误差3、在一定的抽样平均误差条件下(A)。505、以抽样指标估计总体指标要求抽样指标值的平均数等于被估计的总体指标值本身,这一标准称为(A)。A、无偏性B、一致性C、有效性D、准确性6、在其它条件不变的情况下,提高估计的概率保证程度,其估计的精确程度(B)。A、随之扩大B、随之缩小C、保持不变D、无法确定5、以抽样指标估计总体指标要求抽样指标值的平均数等于被估计的517、抽样极限误差和抽样平均误差的数值之间的关系为(A)。A、抽样极限误差可以大于或小于抽样平均误差B、抽样极限误差一定大于抽样平均误差C、抽样极限误差一定小于抽样平均误差D、抽样极限误差一定等于抽样平均误差7、抽样极限误差和抽样平均误差的数值之间的关系为(A)。52三.计算题部分1、对一批成品按重复抽样方法抽选100件,其中废品4件,当概率为95.45%(t=2)时,可否认为这批产品的废品率不超过6%?三.计算题部分53第四节抽样的组织形式1、简单随机抽样(纯随机抽样)2、类型抽样(分类抽样)3、机械抽样(等距抽样4、整群抽样(分群抽样)第四节抽样的组织形式1、简单随机抽样(纯随机抽样)54简单随机抽样(纯随机抽样)

1、内容:

对总体中所有单位除编号外不加任何处理,完全随机地抽取调查单位。2、随机抽取样本的具体做法:

(1)直接抽取法;(2)抽签法;(3)随机数字表法。前面讨论的平均误差、极限误差、点估计、区间估计都是针对简单随即抽样而言的。简单随机抽样(纯随机抽样)

1、内容:对总体中所有单553、特点:(1)是最基本的抽样方式;

(2)简便易行;(3)适用于总体单位数不太多的均匀总体。3、特点:(1)是最基本的抽样方式;(2)简便易行;(3)适56※(四个公式)4、抽样平均误差的计算

5、总体指标的区间估计※(两个不等式)※(四个公式)4、抽样平均误差的计算

5、总体指标的区间57(二)必要抽样数目的计算(简单随机抽样)(二)必要抽样数目的计算(简单随机抽样)58建筑工地打土方工人4000人,需测定平均每人工作量,要求误差范围不超过0.2M3,并需有99.73%保证程度。根据过去资料σ为1.5M3、1.36M3和1.48M3

,求样本数应是多少?如果误差范围缩小一半,其他条件不变,样本数又应是多少?例1当样本出现不等方差,尽量选择方差比较大的样本,因为样本的变异程度较大,选取的样本单位数量自然要多些,这样用样本指标来推断总体指标结果更准确。建筑工地打土方工人4000人,需测定平均每人工作量,59

某笔厂月产10000支金笔,抽样调查,一等品率为90%、92%、96%和94%

,现在要求误差范围在2%之内,可靠程度达95.45%,问必须抽取多少单位数?例2某笔厂月产10000支金笔,抽样调查,一等品率为9060影响样本容量的因素1、总体各单位标志变异程度变异程度大,样本就要多抽些。2、极限误差的大小误差越大,样本容量越小;反之,允许的极限误差小,样本容量就越大。3、可靠程度F(t)的大小F越大,样本容量就越大。4、抽样方法重复抽样比不重复抽样要多抽一些样本单位。影响样本容量的因素1、总体各单位标志变异程度61注意的问题1、用公式估计样本容量,尽量选择大的。2、利用过去的资料,选方差较大的,成数方差缺乏的情况下用极大值0.25代替。3、样本容量不采取四舍五入,取其相邻的较大整数值。注意的问题1、用公式估计样本容量,尽量选择大的。62(二)类型抽样(分类抽样)

1、内容:

先对总体各单位按一定标志加以分类(组),然后再从各类(组)中按随机原则抽取样本。2、样本分配形式:(1)等比例抽样;(2)不等比例抽样。(二)类型抽样(分类抽样)1、内容:先对总体各63(3)抽样调查成本较低。3、特点:(1)先分组,后抽样;(2)样本代表性高、抽样误差较小;(3)抽样调查成本较低。3、特点:(1)先分组,后抽样;(644、抽样平均误差的计算:(1)重复抽样:(2)不重复抽样:4、抽样平均误差的计算:(1)重复抽样:(2)不重复抽样:65或各组组内方差的平均数或各组组内方差的平均数66

某农场种小麦12000公顷,其中平原3600公顷,丘陵6000公顷,山地2400公顷。现用类型等比例抽样调查1200公顷,平均单位面积产量15000千克,高产田面积比重79%。资料如下表。①试以68.27%概率保证估计该农场小麦单位面积产量的区间。②以同样概率保证估计该农场小麦高产田面积比重的区间。类型全场播种面积(公顷)抽样调查面积(公顷)单位面积产量不均匀程度指标(千克)高产田比重(%)

丘陵地区600075080平原地区360084090山地2400100060合计120001200--例某农场种小麦12000公顷,其中平原3600公顷67

某农场种小麦12000公顷,其中平原3600公顷,丘陵6000公顷,山地2400公顷。现用类型等比例抽样调查1200公顷,平均单位面积产量15000千克,高产田面积比重79%。资料如下表。①试以68.27%概率保证估计该农场小麦单位面积产量的区间。②以同样概率保证估计该农场小麦高产田面积比重的区间。类型全场播种面积(公顷)抽样调查面积(公顷)单位面积产量不均匀程度指标(千克)高产田比重(%)

pi

Niniσi丘陵地区600060075080平原地区360036084090山地2400240100060合计120001200--例337500000254016000240000000831516000某农场种小麦12000公顷,其中平原3600公顷68第5章__抽样推断课件69类别高产田比重(%)非高产田比重(%)麦田不均匀程度指标(%)抽样调查面积(公顷)pi(1-pi)nipi1-pipi(1-pi)ni丘陵80201660096.0平原9010936032.4山地60402424057.6合计---1200186类别高产田比重(%)非高产田比重(%)麦田不均匀程度指标(%70第5章__抽样推断课件71(三)机械抽样(等距抽样)

先将全及总体的所有单位按某一标志顺序排队,然后按固定的间隔抽取样本。1、内容:(1)无关标志:选择标志与抽样调查内容无关。(2)有关标志:选择标志与抽样调查内容有关。(三)机械抽样(等距抽样)先将全及总体的所有单位按某一72随机起点等距抽样kkkk+a2k+a(n-1)k+aak(k为抽取间隔)随机起点等距抽样kk733、特点:

(1)先排队,后抽样;按无关标志排队,相当于简单随机抽样,按有关标志排队,相当于类型抽样。(2)注意避免抽样间隔与现象本身的周期重合。3、特点:(1)先排队,后抽样;(2)注意避免抽样间隔与74(四)整群抽样(分群抽样)

先将总体分成若干群,再以群为单位从总体中抽取样本群,对抽中的群内所有单位都进行观察。2、特点:(2)影响抽样误差的总体方差是总体群与群之间的群间方差,群内方差不影响。(3)一般采用不重复抽样的方法。(1)抽取的是群,不是总体单位,总体群用R表示,样本用r表示;1、内容:(四)整群抽样(分群抽样) 2、特点:(2)影响抽样误差75第5章__抽样推断课件763、抽样平均误差的计算(不重复抽样)

:3、抽样平均误差的计算(不重复抽样):77

把某企业大量生产的一种零件分成288群,现从中抽取24群产品进行检验,用以检查产品的合格率,检查结果如下表。试以99.73%的概率保证估计全部零件合格率的区间。合格率%群数

802

854

9012

953

983

合计24

例把某企业大量生产的一种零件分成288群,现从78合格率%群数ripipiri8020.801.6-0.09960.019848540.853.4-0.04960.0098490120.9010.80.000409530.952.850.05040.007629830.982.940.08040.01939合计24-21.59-0.05669例合格率%群数ripipiri8020.801.79例例80第五章抽样推断教学目的与要求抽样推断是抽样调查的继续,它提供了一套利用抽样资料来估计总体数量特征的方法。通过本章的学习,要理解和掌握抽样估计的概念、特点,抽样误差的含义、计算方法,抽样估计的置信度,推断总体参数的方法,能结合实际资料进行抽样估计。第五章抽样推断教学目的与要求抽样推断是抽样调查的继续,它81抽样推断的意义和作用抽样误差抽样估计的方法抽样的组织设计本章学习以下主要内容抽样推断的意义和作用本章学习以下主要内容82一、抽样推断的概念和特点概念抽样推断是按随机原则从全部研究对象中抽取部分单位进行观察,并根据样本的实际数据对总体的数量特征作出具有一定可靠程度的估计和判断。特点

按随机原则抽选调查单位。

由部分推断总体,使其成为可能并具有一定的可靠性

抽样推断运用概率估计的方法。

抽样推断的误差可以事先计算并加以控制。第一节抽样推断的意义和作用一、抽样推断的概念和特点概念抽样推断是按随机原则从全部研究对83二、抽样推断的作用三、有关抽样的基本概念(一)总体和样本总体也称全及总体。指所要认识的研究对象全体。总体单位总数用“N”表示。样本又称子样。是从全及总体中随机抽取出来,作为代表这一总体的那部分单位组成的集合体。样本单位总数用“n”表示。1、有些客观现象需要了解全面情况2、可以补充、核对全面调查的结果3、用于工业生产过程的质量控制4、时间经费限制导致的抽样调查二、抽样推断的作用三、有关抽样的基本概念(一)总体和样84(二)总体指标与样本指标总体指标研究总体中的数量标志总体平均数总体方差X=∑XNX=∑XF∑FΣ(X-X)N2σ=2Σ(X-X)FΣF2σ=2研究总体中的品质标志总体成数成数方差σ2=P(1-P)P=

N1N(二)总体指标与样本指标总研究总体中总体平均数总体方差X=∑85样本指标研究数量标志样本平均数样本标准差研究品质标质成数标准差样本成数样本指标研究数样本平均数样本标准差研究品成数标准差样本成86(三)样本容量和样本个数样本容量:一个样本包含的单位数。用“n”表示。一般要求n≥30样本个数:从一个全及总体中可能抽取的样本数目。(四)重复抽样和不重复抽样重复抽样:又称回置抽样。不重复抽样:又称不回置抽样。可能组成的样本数目可能组成的样本数目不考虑顺序考虑顺序不考虑顺序考虑顺序(三)样本容量和样本个数样本容量:一个样本包含的单位数。用87标号为A、B、C、D的四个圆球从中随机抽取两个考虑顺序AA、AB、AC、ADBA、BB、BC、BDCA、CB、CC、CDDA、DB、DC、DD可能样本个数不考虑顺序AA、AC、BA、BB、BDCB、CC、DA、DC、DD考虑顺序重复不重复AB、AC、ADBA、BC、BDCA、CB、CDDA、DB、DC不考虑顺序AB、AC、ADBD、CB、DC标号为A、B、C、D的四个圆球从中随机抽取两个考虑顺序AA、88第二节抽样误差一、抽样误差的含义由于随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构,而引起抽样指标和全及指标之间的绝对离差。抽样误差大小表明抽样结果的好坏。二、抽样误差产生的原因1、登记、汇总或计算产生的误差2、未遵循随机抽取的原则产生的误差3、抽样调查固有的误差第二节抽样误差一、抽样误差的含义由于随机抽样的偶然89三、抽样平均误差1、概念:抽样平均误差是抽样平均数或抽样成数的标准差。反映了抽样平均数与总体平均数抽样成数与总体成数的平均误差程度。2、计算方法:抽样平均数的平均误差抽样成数平均误差三、抽样平均误差1、概念:抽样平均误差是抽样平均数或抽样成数90实例分析:设有四个工人工资分别为40、50、70、80元,现在随机从其中抽取2人,并求平均工资,用以代表4人总体的平均工资水平,如果采用重复抽样,则所有可能样本以及平均工资如下表:序号样本变量

样本平均数离差离差平方123440,4040,5040,7040,8040455560-20-15-50400225250567850,4050,5050,7050,8045506065-15-1005225100025910111270,4070,5070,7070,8055607075-5010152501002251314151680,4080,5080,7080,8060657580051520025225400合计---96002000实例分析:设有四个工人工资分别为40、50、70、80元,现91四个工人工资分别为40、50、70、80元所以四个工人工资分别为40、50、70、80元所以92抽样平均数平均误差的计算公式:采用重复抽样此公式说明,抽样平均误差与总体标准差成正比,与样本容量成反比。(当总体标准差未知时,可用样本标准差代替)通过例题可说明以下几点:①样本平均数的平均数等于总体平均数。②抽样平均数的标准差仅为总体标准差的③可通过调整样本单位数来控制抽样平均误差。抽样平均数平均误差的计算公式:采用重复抽样此公式说明,抽样平93例题:假定抽样单位数增加2倍、0.5倍时,抽样平均误差怎样变化?解:抽样单位数增加2倍,即为原来的3倍则:抽样单位数增加0.5倍,即为原来的1.5倍则:即:当样本单位数增加2倍时,抽样平均误差为原来的0.577。即:当样本单位数增加0.5倍时,抽样平均误差为原来的0.8165。例题:假定抽样单位数增加2倍、0.5倍时,抽样平均误差怎94数理统计证明采用不重复抽样误差公式:公式表明:抽样平均误差不仅与总体变异程度、样本容量有关,而且与总体单位数的多少有关。例题一:随机抽选某校学生100人,调查他们的体重。得到他们的平均体重为58公斤,标准差为10公斤。问抽样推断的平均误差是多少?例题二:某厂生产一种新型灯泡共2000只,随机抽出400只作耐用时间试验,测试结果平均使用寿命为4800小时,样本标准差为300小时,求抽样推断的平均误差?数理统计证明采用不重复抽样误差公式:公式表明:抽样平均误差不95例题一解即:当根据样本学生的平均体重估计全部学生的平均体重时,抽样平均误差为1公斤。例题二解计算结果表明:根据部分产品推断全部产品的平均使用寿命时,采用不重复抽样比重复抽样的平均误差要小。已知:则:已知:则:例题一解即:当根据样本学生的平均体重估计全部学生的平均例题二96抽样成数平均误差的计算公式采用重复抽样:采用不重复抽样:例题三:

某校随机抽选400名学生,发现戴眼镜的学生有80人。根据样本资料推断全部学生中戴眼镜的学生所占比重时,抽样误差为多大?例题四:一批食品罐头共60000桶,随机抽查300桶,发现有6桶不合格,求合格品率的抽样平均误差?抽样成数平均误差的计算公式采用重复抽样:采用不重复抽样:例题97例题三解已知:则:样本成数即:根据样本资料推断全部学生中戴眼镜的学生所占的比重时,推断的平均误差为2%。例题三解已知:则:样本成数即:根据样本资料推断全98例题已知:则:样本合格率计算结果表明:不重复抽样的平均误差小于重复抽样,但是“N”的数值越大,则两种方法计算的抽样平均误差就越接近。例题已知:则:样本合格率计算结果表明:不重复抽样的平均误差小99抽样误差的影响因素(1)总体各单位标志变异程度。(2)样本容量的大小。(3)抽样方法。(4)抽样的组织形式。抽样误差的影响因素(1)总体各单位标志变异程度。100四、抽样极限误差含义:抽样极限误差指在进行抽样估计时,根据研究对象的变异程度和分析任务的要求所确定的样本指标与总体指标之间可允许的最大误差范围。计算方法:它等于样本指标可允许变动的上限或下限与总体指标之差的绝对值。抽样平均数极限误差:抽样成数极限误差:=Δp│p-P│p-Δ≤P≤p+Δpp四、抽样极限误差含义:抽样极限误差指在进行抽样估计时,根据研101五、抽样误差的可靠程度抽样极限误差的估计总是要和一定的概率保证程度联系在一起的。因为既然抽样误差是一个随机变量,就不能期望抽样平均数(成数)落在一定区间内是一个必然事件,而只是给予一定的概率保证而已所以我们在进行抽样估计时,不但要考虑抽样误差的可能范围有多大而且还必须考虑落到这一范围的概率有多少,前者是估计的精确度问题,后者是估计的可靠性问题,两者密不可分。五、抽样误差的可靠程度抽样极限误差的估计总是要和一定的概率保102

根据中心极限定理,得知当n足够大时,抽样总体为正态分布,根据正态分布规律可知,样本指标是以一定的概率落在某一特定的区间内,统计上把这个给定的区间叫抽样极限误差,也称置信区间,即在概率F(t)的保证下:△=tμ,(t为概率度)

t:反映的是极限误差的相对程度,是确定概率保证程度大小的指标。给定t值,就可以通过查正太分布函数的概率分布表,查到相应的概率F(t)根据中心极限定理,得知当n足够大时,抽样总体为正态分103当F(t)=68.27%时,抽样极限误差等于抽样平均误差的1倍(t=1);当F(t)=95.45%时,抽样极限误差等于抽样平均误差的2倍(t=2);当F(t)=99.73%时,抽样极限误差等于抽样平均误差的3倍(t=3);可见,抽样极限误差,即扩大或缩小了以后的抽样误差范围。当F(t)=68.27%时,抽样极限误差等于抽样平均误差的1104为了说明这个关系,我们举一个实例来说明:设有五位射击选手,他们的得分各为2、4、6、8、10分,很显然总平均成绩为。现在随机选两名选手的平均成绩来估计总平均成绩水平。为了说明这个关系,我们举一个实例来说明:设有五位射击选手,他105假如采用不重复取样,(不考虑顺序),样本分布为:序号样本变量

样本平均数12342,42,62,82,10345656784,64,84,106,856779106,108,1089样本变量

3456789概率pi1/101/102/102/102/101/101/10各样本平均数的分布频率:假如采用不重复取样,(不考虑顺序),样本分布为:序号样本变量106根据上列概率分布,可以求出各区间抽样平均数的概率:上式说明抽样极限误差的概率,例如极限误差为1,即总体平均数落5至7在之间的概率为0.6,极限误差为2的概率为0.8等等。这说明抽样极限误差一定是与概率的可靠程度联系在一起的。要确定抽样平均数(成数)落在一定区间的概率,必须研究抽样平均数(成数)的分布规律。根据上列概率分布,可以求出各区间抽样平均数的概率:上式说明抽107由于N=5n=2极限误差用抽样平均误差来表示由不重复抽样的基本公式得:由正态分布理论,介绍两个重要定理:定理一:可以看出前面的值越大,可靠程度,即概率越高(通过正态分布表可以得到各个极限误差的概率保证程度)当总体为正态分布N(),则从这个总体抽取容量为n的的全部样本平均数也服从于正态分布,其平均数,其标准差为由于N=5n=2极限误差用抽样由不重复抽样的基本公式108定理二:如果变量X的分布具有有限的平均数和标准差,则从这个总体抽取容量为n的全部样本,其平均数的分布随着n的增大而趋近于平均数为,标准差为的正态分布。◆定理2并不要求总体分布是正态的,甚至可以是不知道的,只要样本的容量增大,抽样平均数就趋于正态分布。这和定理1限制总体分布为正态,而样本容量n不作限制的情况是不同的。(三)误差范围愈大,抽样估计的置信度愈高,但抽样估计的精确度愈低;反之,误差范围愈小,则抽样估计的置信度愈低,但抽样估计的精确度愈高。定理二:如果变量X的分布具有有限的平均数和标准差109概率度(t)

11.281.641.9622.58概率面积F(t)0.68270.800.900.950.95450.99常用的几个概率保证程度与对应的概率度概率度(t)11.281.641.9622.58概110落在总体均值某一区间内的样本X95.45%的样本99.73%的样本x-368.27%的样本x-2x-X+3X+2X+x落在总体均值某一区间内的样本X95.45%的样本99.73111第三节抽样估计方法(一)点估计例第三节抽样估计方法(一)点估计例112优良估计的标准(1)无偏性。以抽样指标估计总体指标要求抽样指标平均数等于被估计的总体指标值本身。(2)一致性。样本单位数充分大时,抽样指标充分接近总体指标。(3)有效性。选取的样本抽样指标的方差应该比其他估计量的方差小。点估计的特点:简单。但没有标明抽样估计的误差,也没有指出误差在一定范围内的概率保证程度。优良估计的标准(1)无偏性。以抽样指标估计总体指标要求抽样指113(二)区间估计是根据样本指标和抽样误差去推断全及指标的可能范围,并能反映出估计的准确程度和把握程度。

由于区间估计所表示的是一个可能的范围,而不是一个绝对可靠的范围。就是说,推断全及指标在这个范围内只有一定的把握程度。用数学的语言讲,就是有一定的概率。

区间估计(二)区间估计是根据样本指标和抽样误差去推断全及指标的可114第5章__抽样推断课件115例1

某农场进行小麦产量的抽样调查,该农场小麦播种面积为10000亩,采用不重复的简单随机抽样从中选100亩作为样本,进行实割实测,得到样本的平均亩产量为400千克,样本标准差为12千克。试以概率95.45%保证,估计该农场10000亩小麦平均亩产量的可能范围。例1某农场进行小麦产量的抽样调查,该农场小麦播种面积116若概率保证程度不变,要求抽样允许误差不超过1斤,问至少应抽多少亩作为样本?若概率保证程度不变,要求抽样允许误差不超过1斤,问至少应117问题二解:已知:则样本单位数:即:当至少应抽544.6亩作为样本。问题二解:已知:则样本单位数:即:当至少应抽544.6亩作为118例2

某机械厂日产某种产品8000件,现采用纯随机重复抽样方式,从中抽取400件进行观察,其中有380件为一级品,试以概率95.45%的可靠程度推断全部产品的一级品率及一级品数量的范围。例2某机械厂日产某种产品8000件,现采用纯随机重复抽119例3:为调查农民生活状况,在某地区5000户农民中,按不重复简单随机抽样法,抽取400户进行调查,得知这400户中拥有彩色电视机的农户为87户。要求计算:1、以95%的把握程度估计该地区全部农户中拥有彩色电视机的农户在多大比例之间?2、若要求抽样允许误差不超过0.02,其它条件不变,问应抽多少户作为样本?例3:为调查农民生活状况,在某地区5000户农民中,按不120例题三的问题一解:已知:N=5000N=4001、计算样本成数:2、计算抽样平均误差:例题三的问题一解:已知:N=5000N=400121即:以95%的把握程度估计该地区农户中拥有彩电的农户在17.87%至25.63%之间。4、计算总体P的置信区间:下限:上限:3、计算抽样极限误差:4、计算总体P的置信区间:下限:上限:3、计算抽样极限误差:122例题三的问题二解:当其他条件不变时:=1635(户)例题三的问题二解:当其他条件不变时:=1635123总结:区间估计的步骤1、确定样本指标。2、根据给定的概率保证程度F(t)找出对应的概率度t。3、计算抽样极限误差,然后根据样本指标求出估计总体指标的上下限。4、根据给出的概率保证程度进行总体指标的区间估计。总结:区间估计的步骤1、确定样本指标。124本节练习本节练习125一.判断题1、从全部总体单位中按照随机原则抽取部分单位组成样本,只可能组成一个样本。()×2、在抽样推断中,全及指标值是确定的、唯一的,而样本指标值是一个随机变量。(√)3、抽样成数的特点是:样本成数越大,则抽样平均误差越大。(×)一.判断题×2、在抽样推断中,全及指标值是确定的、唯一的,1264、抽样平均误差总是小于抽样极限误差。()5、在其它条件不变的情况下,提高抽样估计的可靠程度,则降低了抽样估计的精确程度。(√)6、从全部总体单位中抽取部分单位构成样本,在样本变量相同的情况下,重复抽样构成的样本个数大于不重复抽样构成的样本个数。(√)7、抽样平均误差反映抽样误差的一般水平,每次抽样的误差可能大于抽样平均误差,也可能小于抽样平均误差。(√)×4、抽样平均误差总是小于抽样极限误差。(1278、在抽样推断中,抽样误差的概率度越大,则抽样极限误差就越大于抽样平均误差。()9、抽样估计的优良标准有三个:无偏性、可靠性和一致性。(×)10、样本单位数的多少与总体各单位标志值的变异程度成反比,与抽样极限误差范围的大小成正比。(×)11、抽样推断的目的是,通过对部分单位的调查,来取得样本的各项指标。(×)12、用来测量估计可靠程度的指标是抽样误差的概率度。(√)

√8、在抽样推断中,抽样误差的概率度越大,则抽样极限误差就越大128二.单项选择题部分1、抽样调查所必须遵循的基本原则是(B)。A、准确性原则B、随机性原则C、可靠性原则D、灵活性原则2、在简单随机重复抽样条件下,当抽样平均误差缩小为原来的1/2时,则样本单位数为原来的(C)。A、2倍B、3倍C、4倍D、1/4倍第5章__抽样推断课件1293、在一定的抽样平均误差条件下(A)。A、扩大极限误差范围,可以提高推断的可靠程度B、扩大极限误差范围,会降低推断的可靠程度C、缩小极限误差范围,可以提高推断的可靠程度D、缩小极限误差范围,不改变推断的可靠程度4、反映样本指标与总体指标之间的平均误差程度的指标是(C)。A、平均数离差B、概率度C、抽样平均误差D、抽样极限误差3、在一定的抽样平均误差条件下(A)。1305、以抽样指标估计总体指标要求抽样指标值的平均数等于被估计的总体指标值本身,这一标准称为(A)。A、无偏性B、一致性C、有效性D、准确性6、在其它条件不变的情况下,提高估计的概率保证程度,其估计的精确程度(B)。A、随之扩大B、随之缩小C、保持不变D、无法确定5、以抽样指标估计总体指标要求抽样指标值的平均数等于被估计的1317、抽样极限误差和抽样平均误差的数值之间的关系为(A)。A、抽样极限误差可以大于或小于抽样平均误差B、抽样极限误差一定大于抽样平均误差C、抽样极限误差一定小于抽样平均误差D、抽样极限误差一定等于抽样平均误差7、抽样极限误差和抽样平均误差的数值之间的关系为(A)。132三.计算题部分1、对一批成品按重复抽样方法抽选100件,其中废品4件,当概率为95.45%(t=2)时,可否认为这批产品的废品率不超过6%?三.计算题部分133第四节抽样的组织形式1、简单随机抽样(纯随机抽样)2、类型抽样(分类抽样)3、机械抽样(等距抽样4、整群抽样(分群抽样)第四节抽样的组织形式1、简单随机抽样(纯随机抽样)134简单随机抽样(纯随机抽样)

1、内容:

对总体中所有单位除编号外不加任何处理,完全随机地抽取调查单位。2、随机抽取样本的具体做法:

(1)直接抽取法;(2)抽签法;(3)随机数字表法。前面讨论的平均误差、极限误差、点估计、区间估计都是针对简单随即抽样而言的。简单随机抽样(纯随机抽样)

1、内容:对总体中所有单1353、特点:(1)是最基本的抽样方式;

(2)简便易行;(3)适用于总体单位数不太多的均匀总体。3、特点:(1)是最基本的抽样方式;(2)简便易行;(3)适136※(四个公式)4、抽样平均误差的计算

5、总体指标的区间估计※(两个不等式)※(四个公式)4、抽样平均误差的计算

5、总体指标的区间137(二)必要抽样数目的计算(简单随机抽样)(二)必要抽样数目的计算(简单随机抽样)138建筑工地打土方工人4000人,需测定平均每人工作量,要求误差范围不超过0.2M3,并需有99.73%保证程度。根据过去资料σ为1.5M3、1.36M3和1.48M3

,求样本数应是多少?如果误差范围缩小一半,其他条件不变,样本数又应是多少?例1当样本出现不等方差,尽量选择方差比较大的样本,因为样本的变异程度较大,选取的样本单位数量自然要多些,这样用样本指标来推断总体指标结果更准确。建筑工地打土方工人4000人,需测定平均每人工作量,139

某笔厂月产10000支金笔,抽样调查,一等品率为90%、92%、96%和94%

,现在要求误差范围在2%之内,可靠程度达95.45%,问必须抽取多少单位数?例2某笔厂月产10000支金笔,抽样调查,一等品率为90140影响样本容量的因素1、总体各单位标志变异程度变异程度大,样本就要多抽些。2、极限误差的大小误差越大,样本容量越小;反之,允许的极限误差小,样本容量就越大。3、可靠程度F(t)的大小F越大,样本容量就越大。4、抽样方法重复抽样比不重复抽样要多抽一些样本单位。影响样本容量的因素1、总体各单位标志变异程度141注意的问题1、用公式估计样本容量,尽量选择大的。2、利用过去的资料,选方差较大的,成数方差缺乏的情况下用极大值0.25代替。3、样本容量不采取四舍五入,取其相邻的较大整数值。注意的问题1、用公式估计样本容量,尽量选择大的。142(二)类型抽样(分类抽样)

1、内容:

先对总体各单位按一定标志加以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论